WO2024084999A1 - 音響処理装置及び音響処理方法 - Google Patents

音響処理装置及び音響処理方法 Download PDF

Info

Publication number
WO2024084999A1
WO2024084999A1 PCT/JP2023/036497 JP2023036497W WO2024084999A1 WO 2024084999 A1 WO2024084999 A1 WO 2024084999A1 JP 2023036497 W JP2023036497 W JP 2023036497W WO 2024084999 A1 WO2024084999 A1 WO 2024084999A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
reflected
volume
threshold
Prior art date
Application number
PCT/JP2023/036497
Other languages
English (en)
French (fr)
Inventor
修二 宮阪
康太 中橋
智一 石川
陽 宇佐見
宏幸 江原
成悟 榎本
摩里子 山田
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024084999A1 publication Critical patent/WO2024084999A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This disclosure relates to audio processing devices, etc.
  • Patent Document 1 disclose technologies related to the sound processing device and sound processing method of the present disclosure.
  • Patent No. 6288100 JP 2019-22049 A International Publication No. 2021/180938
  • Patent Document 1 discloses a technology that performs signal processing on object audio signals and presents them to a listener.
  • ER technology becomes more widespread and services that use ER technology become more diverse, there is a demand for audio processing that corresponds to differences in, for example, the acoustic quality required by each service, the signal processing capabilities of the terminal used, and the sound quality that can be provided by the sound presentation device.
  • audio processing technology provides this.
  • improvements in sound processing technology refer to changes to existing sound processing.
  • improvements in sound processing technology may provide processing that imparts new sound effects, a reduction in the amount of processing required for sound processing, improvement in the quality of sound obtained by sound processing, a reduction in the amount of data required for information used to implement sound processing, or easier acquisition or generation of information used to implement sound processing.
  • improvements in sound processing technology may provide a combination of any two or more of these.
  • An audio device includes a circuit and a memory, and the circuit uses the memory to acquire sound space information about a sound space, acquires characteristics of a first sound generated from a sound source in the sound space based on the sound space information, and controls whether or not to select a second sound generated in the sound space corresponding to the first sound based on the characteristics of the first sound.
  • One aspect of the present disclosure can provide, for example, processing to impart new acoustic effects, reduction in the amount of acoustic processing, improvement in the sound quality of the audio obtained by acoustic processing, reduction in the amount of data of information used to implement acoustic processing, or simplification of acquisition or generation of information used to implement acoustic processing.
  • one aspect of the present disclosure can provide any combination of these.
  • one aspect of the present disclosure can provide acoustic processing suited to the listener's usage environment, contributing to an improved acoustic experience for the listener.
  • the above effects can be achieved in devices or services that allow listeners to move freely within a virtual space.
  • the above effects are merely examples of the effects of various aspects grasped based on this disclosure.
  • Each of the one or more aspects grasped based on this disclosure may be an aspect conceived based on a perspective different from the above, an aspect that achieves a purpose different from the above, or an aspect that obtains an effect different from the above.
  • FIG. 1 is a diagram showing an example of direct sound and reflected sound generated in a sound space.
  • FIG. 2 is a diagram showing an example of a stereophonic sound reproduction system according to an embodiment.
  • FIG. 3A is a block diagram showing an example of a configuration of an encoding device according to an embodiment.
  • FIG. 3B is a block diagram showing an example of a configuration of a decoding device according to an embodiment.
  • FIG. 3C is a block diagram showing another example of the configuration of the encoding device according to the embodiment.
  • FIG. 3D is a block diagram showing another example of the configuration of a decoding device according to an embodiment.
  • FIG. 4A is a block diagram showing an example of the configuration of a decoder according to an embodiment.
  • FIG. 4B is a block diagram showing another example of the configuration of a decoder according to an embodiment.
  • FIG. 5 is a diagram illustrating an example of a physical configuration of the audio signal processing device according to the embodiment.
  • FIG. 6 is a diagram illustrating an example of a physical configuration of an encoding device according to an embodiment.
  • FIG. 7 is a block diagram illustrating an example of the configuration of a rendering unit according to the embodiment.
  • FIG. 8 is a flowchart showing an example of the operation of the audio signal processing device according to the embodiment.
  • FIG. 9 is a diagram showing the positional relationship between the listener and an obstacle object, which is relatively far away.
  • FIG. 10 is a diagram showing a positional relationship in which the listener and an obstacle object are relatively close to each other.
  • FIG. 11 is a diagram showing the relationship between the time difference between a direct sound and a reflected sound and the threshold value.
  • FIG. 12A is a diagram showing a part of an example of a method for setting threshold data.
  • FIG. 12B is a diagram showing a part of an example of a method for setting threshold data.
  • FIG. 12C is a diagram showing a part of an example of a method for setting threshold data.
  • FIG. 13 is a diagram illustrating an example of a method for setting a threshold value.
  • FIG. 14 is a flowchart showing an example of the selection process.
  • FIG. 15 is a diagram showing the relationship between the direction of a direct sound, the direction of a reflected sound, the time difference, and the threshold value.
  • FIG. 16 is a diagram showing the relationship between the angle difference, the time difference, and the threshold value.
  • FIG. 17 is a block diagram showing another example of the configuration of the rendering unit.
  • FIG. 18 is a flowchart showing another example of the selection process.
  • FIG. 19 is a flowchart showing yet another example of the selection process.
  • FIG. 20 is a flowchart showing a first modified example of the operation of the audio signal processing device in the embodiment.
  • FIG. 21 is a flowchart showing a second modified example of the operation of the audio signal processing device in the embodiment.
  • FIG. 22 is a diagram showing an example of the arrangement of avatars, sound source objects, and obstacle objects.
  • FIG. 23 is a flowchart showing yet another example of the selection process.
  • FIG. 24 is a block diagram showing an example of a configuration for a rendering unit to perform pipeline processing.
  • FIG. 25 is a diagram showing sound transmission and diffraction.
  • (Findings that form the basis of this disclosure) 1 is a diagram showing an example of direct sound and reflected sound generated in a sound space.
  • acoustic processing that expresses the characteristics of a virtual space with sound, it is effective to reproduce not only direct sound but also reflected sound in order to express the size of the space and the material of the walls, and to accurately grasp the position of the sound source (localization of the sound image).
  • appropriately selecting one or more reflected sounds to be processed or not to be processed from among the multiple reflected sounds generated in the sound space during playback is useful for appropriately reducing the amount of calculation and the calculation load.
  • the present disclosure therefore aims to provide a sound processing device etc. that can appropriately control whether or not to select sounds generated in a sound space.
  • controlling whether or not to select a sound corresponds to determining whether or not to select a sound.
  • selecting a sound may be selecting the sound as a sound to be processed, or may be selecting the sound as a sound not to be processed.
  • the sound processing device includes a circuit and a memory, and the circuit uses the memory to acquire sound space information regarding the sound space, acquires characteristics related to a first sound generated from a sound source in the sound space based on the sound space information, and controls whether to select a second sound generated in the sound space corresponding to the first sound based on the characteristics related to the first sound.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in the sound space in response to a first sound, based on the characteristics of the first sound that occurs in the sound space. In other words, it becomes possible to appropriately control whether or not to select a sound that occurs in the sound space. Therefore, it becomes possible to appropriately reduce the amount of calculation and the calculation load.
  • the sound processing device may be the sound processing device according to the first aspect, in which the first sound is a direct sound and the second sound is a reflected sound.
  • the device of the above aspect can appropriately control whether or not to select reflected sound based on the characteristics of the direct sound.
  • the sound processing device may be the sound processing device according to the second aspect, in which the characteristic related to the first sound is a volume ratio between the volume of the direct sound and the volume of the reflected sound, and the circuit calculates the volume ratio based on the sound space information and controls whether or not to select the reflected sound based on the volume ratio.
  • the device of the above aspect can appropriately select the reflected sound that has the greatest influence on the listener's perception based on the volume ratio between the direct sound and the reflected sound.
  • the sound processing device may be the sound processing device according to the third aspect, in which the circuitry applies binaural processing to the reflected sound and the direct sound when the reflected sound is selected, thereby generating sounds that arrive at each of the listener's ears.
  • the device of the above aspect can appropriately select reflected sounds that have a large influence on the listener's perception and apply binaural processing to the selected reflected sounds.
  • the sound processing device may be the sound processing device according to the third or fourth aspect, in which the circuit calculates the time difference between the end time of the direct sound and the arrival time of the reflected sound based on the sound space information, and controls whether or not to select the reflected sound based on the time difference and the volume ratio.
  • the device of the above aspect can more appropriately select reflected sounds that have a large influence on the listener's perception, based on the time difference between the end time of the direct sound and the arrival time of the reflected sound, and the volume ratio between the volume of the direct sound and the volume of the reflected sound. Therefore, the device of the above aspect can more appropriately select reflected sounds that have a large influence on the listener's perception, based on the post-masking effect.
  • the sound processing device may be the sound processing device according to the fifth aspect, in which the circuit selects the reflected sound when the volume ratio is equal to or greater than a threshold, and the first threshold used as the threshold when the time difference is a first value is greater than the second threshold used as the threshold when the time difference is a second value greater than the first value.
  • the device of the above aspect can increase the likelihood that a reflected sound with a large time difference between the end time of the direct sound and the arrival time of the reflected sound will be selected. Therefore, the device of the above aspect can appropriately select a reflected sound that has a large influence on the listener's perception.
  • the sound processing device may be the sound processing device according to the third or fourth aspect, in which the circuit calculates the time difference between the arrival time of the direct sound and the arrival time of the reflected sound based on the sound space information, and controls whether or not to select the reflected sound based on the time difference and the volume ratio.
  • the device of the above aspect can more appropriately select reflected sounds that have a large influence on the listener's perception, based on the time difference between the arrival time of the direct sound and the arrival time of the reflected sound, and the volume ratio between the volume of the direct sound and the volume of the reflected sound. Therefore, the device of the above aspect can more appropriately select reflected sounds that have a large influence on the listener's perception, based on the precedence effect.
  • the sound processing device may be the sound processing device according to the seventh aspect, in which the circuit selects the reflected sound when the volume ratio is equal to or greater than a threshold, and the first threshold used as the threshold when the time difference is a first value is greater than the second threshold used as the threshold when the time difference is a second value greater than the first value.
  • the device of the above aspect can increase the likelihood that a reflected sound with a large time difference between the arrival time of the direct sound and the arrival time of the reflected sound will be selected. Therefore, the device of the above aspect can appropriately select a reflected sound that has a large influence on the listener's perception.
  • the sound processing device may be the sound processing device according to the sixth or eighth aspect, in which the circuit adjusts the threshold value based on the direction of arrival of the direct sound and the direction of arrival of the reflected sound.
  • the device of the above aspect can appropriately select the reflected sound that has the greatest influence on the listener's perception, based on the direction from which the direct sound comes and the direction from which the reflected sound comes.
  • the sound processing device may be any of the sound processing devices according to the first to ninth aspects, and the circuit may be a sound processing device that corrects the volume of the first sound based on the volume of the second sound when the second sound is not selected.
  • the device of the above aspect can appropriately reduce the discomfort caused by the second sound not being selected and the lack of volume of the second sound with a small amount of calculation.
  • the sound processing device may be any of the sound processing devices according to the first to ninth aspects, and the circuit may be a sound processing device that synthesizes the second sound with the first sound when the second sound is not selected.
  • the device of the above aspect can more accurately reflect the characteristics of the second sound in the first sound. Therefore, the device of the above aspect can reduce the sense of discomfort that occurs when the second sound is not selected and is therefore absent.
  • the sound processing device may be any of the sound processing devices according to the third to ninth aspects, in which the volume ratio is the volume ratio between the volume of the direct sound at a first time and the volume of the reflected sound at a second time different from the first time.
  • the device of the above aspect can appropriately select the reflected sound that has the greatest influence on the listener's perception, based on the volume ratio between the direct sound and the reflected sound at the different times.
  • the sound processing device may be the sound processing device according to the first or second aspect, in which the circuit sets a threshold based on characteristics related to the first sound, and controls whether or not to select the second sound based on the threshold.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on a threshold value that is set based on the characteristics of the first sound.
  • the sound processing device may be any one of the sound processing devices according to the first, second, and thirteenth aspects, in which the characteristic related to the first sound is any one of the volume of the sound source, the visibility of the sound source, and the positioning of the sound source, or a combination of any two or more of them.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on the volume of the sound source, the visibility of the sound source, or the positioning of the sound source.
  • the sound processing device may be any one of the sound processing devices according to the first, second, and thirteenth aspects, in which the characteristic related to the first sound is the frequency characteristic of the first sound.
  • the device of the above aspect can appropriately control whether or not to select the second sound that is generated in response to the first sound, based on the frequency characteristics of the first sound.
  • the sound processing device may be a sound processing device according to any one of the first, second, and 13th aspects, in which the characteristic related to the first sound is a characteristic indicating the intermittency of the amplitude of the first sound.
  • the device of the above aspect can appropriately control whether or not to select the second sound that occurs in response to the first sound, based on the characteristic indicating the intermittency of the amplitude of the first sound.
  • the sound processing device may be any of the sound processing devices according to the first, second, thirteenth, and sixteenth aspects, in which the characteristic related to the first sound is a characteristic indicating the duration of a sound portion of the first sound or the duration of a silent portion of the first sound.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on a characteristic indicating the duration of the sound portion of the first sound or the duration of the silent portion of the first sound.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, 13th, 16th, and 17th aspects, in which the characteristic related to the first sound is a characteristic indicating the duration of the sound portion of the first sound and the duration of the silent portion of the first sound in a time series.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on a characteristic that indicates the duration of the sound portion of the first sound and the duration of the silent portion of the first sound in a time series.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, 13th, and 15th aspects, in which the characteristic related to the first sound is a characteristic indicating a fluctuation in the frequency characteristic of the first sound.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on a characteristic that indicates a variation in the frequency characteristics of the first sound.
  • the sound processing device may be any of the sound processing devices according to the first, second, thirteenth, fifteenth, and nineteenth aspects, in which the characteristic related to the first sound is a characteristic indicating the constancy of the frequency characteristic of the first sound.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on the characteristics indicating the stationary nature of the frequency characteristics of the first sound.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, and 13th to 20th aspects, in which the characteristics related to the first sound are obtained from a bitstream.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on information obtained from the bitstream.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, and 13th to 21st aspects, and the circuit may be a sound processing device that calculates characteristics related to the second sound and controls whether or not to select the second sound based on the characteristics related to the first sound and the characteristics related to the second sound.
  • the device of the above aspect can appropriately control whether or not to select the second sound that is generated in response to the first sound, based on the characteristics related to the first sound and the characteristics related to the second sound.
  • the sound processing device may be the sound processing device according to the 22nd aspect, in which the circuit acquires a threshold value indicating a volume corresponding to the boundary between whether a sound can be heard and whether a second sound is selected based on the characteristics related to the first sound, the characteristics related to the second sound, and the threshold value.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on the characteristics of the first sound, the characteristics of the second sound, and a threshold value corresponding to whether or not the second sound can be heard.
  • the sound processing device may be the sound processing device according to the 22nd or 23rd aspect, in which the characteristic related to the second sound is the volume of the second sound.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on the volume of the second sound.
  • the sound processing device may be any of the sound processing devices according to the 1st to 24th aspects, in which the sound space information includes information on the position of the listener in the sound space, the second sound is each of a plurality of second sounds generated in the sound space corresponding to the first sound, and the circuit selects one or more target sounds to which binaural processing is applied from among the first sound and the plurality of second sounds by controlling whether or not to select each of the plurality of second sounds based on characteristics related to the first sound.
  • the device of the above aspect can appropriately control whether or not to select each of the multiple second sounds that occur in the sound space corresponding to the first sound, based on the characteristics related to the first sound that occurs in the sound space.
  • the device of the above aspect can then appropriately select one or more target sounds to which binaural processing is applied from among the first sound and the multiple second sounds.
  • the sound processing device may be any of the sound processing devices according to the 1st to 25th aspects, in which the timing for acquiring the characteristics related to the first sound is at least one of when the sound space is created, when processing of the sound space starts, and when an information update thread occurs during processing of the sound space.
  • the device of the above aspect can appropriately select one or more target sounds to which binaural processing is applied based on information acquired at adaptive timing.
  • the sound processing device may be any of the sound processing devices according to the 1st to 26th aspects, in which the characteristics related to the first sound are acquired periodically after the processing of the sound space begins.
  • the device of the above aspect can appropriately select one or more target sounds to which binaural processing is applied based on periodically acquired information.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, and 25th to 27th aspects, in which the characteristic related to the first sound is the volume of the first sound, and the circuit calculates an evaluation value of the second sound based on the volume of the first sound, and controls whether or not to select the second sound based on the evaluation value.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on an evaluation value calculated for the second sound based on the volume of the first sound.
  • the sound processing device according to the 29th aspect as understood based on the present disclosure may be the sound processing device according to the 28th aspect, in which the volume of the first sound has a transition.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on an evaluation value calculated based on a volume with a transition.
  • the sound processing device may be the sound processing device according to the 28th or 29th aspect, and the circuit may be a sound processing device that calculates an evaluation value such that the louder the volume of the first sound, the more likely the second sound is to be selected.
  • the device of the above aspect can appropriately control whether or not to select the second sound based on an evaluation value that is set to a value that makes it more likely that the second sound will be selected as the volume of the first sound increases.
  • the sound processing device may be any of the sound processing devices according to the 1st to 30th aspects, in which the sound space information is scene information including information on a sound source in the sound space and information on the position of a listener in the sound space, the second sound is each of a plurality of second sounds generated in the sound space corresponding to the first sound, and the circuit acquires a signal of the first sound, calculates the plurality of second sounds based on the scene information and the signal of the first sound, acquires characteristics related to the first sound from the information on the sound source, and controls whether or not to select each of the plurality of second sounds as a sound to which binaural processing is not applied based on the characteristics related to the first sound, thereby selecting one or more second sounds to which binaural processing is not applied from among the plurality of second sounds.
  • the sound space information is scene information including information on a sound source in the sound space and information on the position of a listener in the sound space
  • the second sound is each of a plurality of second sounds generated in the sound space
  • the device of the above aspect can appropriately select one or more second sounds to which binaural processing is not applied from among a plurality of second sounds generated in a sound space corresponding to a first sound, based on the characteristics of the first sound.
  • the sound processing device may be the sound processing device according to the 31st aspect, in which the scene information is updated based on the input information, and the characteristics related to the first sound are acquired in response to the update of the scene information.
  • the device of the above aspect can appropriately select one or more second sounds to which binaural processing is not applied based on information obtained in response to updates to the scene information.
  • the audio processing device may be the audio processing device according to the thirty-first or thirty-second aspect, in which the scene information and the characteristics related to the first sound are obtained from metadata included in the bitstream.
  • the device of the above aspect can appropriately select one or more second sounds to which binaural processing is not applied based on information obtained from metadata included in the bitstream.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, 13th, 16th to 18th, 25th to 27th, and 31st to 33rd aspects, in which the characteristic related to the first sound is a characteristic indicating, in a time series, a plurality of pairs each consisting of a pair of a duration in which the amplitude value of the first sound is a representative amplitude value and a representative amplitude value for the duration.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on time-series information on duration and representative amplitude value.
  • the sound processing device may be the sound processing device according to the thirty-fourth aspect, in which the representative amplitude value is a value of the ratio of the volume of the first sound to a preset reference volume.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on a representative amplitude value that corresponds to a ratio to a reference volume.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, 13th, 15th, 19th, and 20th aspects, in which the characteristic related to the first sound is a characteristic indicating the duration during which a state in which the amount of fluctuation in the frequency characteristic is lower than a predetermined threshold continues.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on the duration for which the amount of fluctuation in the frequency characteristics remains lower than a predetermined threshold.
  • the sound processing device may be a sound processing device according to any one of the 1st, 2nd, 13th, 15th, 19th, 20th and 36th aspects, in which the characteristic related to the first sound is a characteristic that indicates, in a time series, a plurality of pairs each consisting of a duration during which the amount of fluctuation in the frequency characteristic continues to be lower than a predetermined threshold value and a frequency characteristic during that duration.
  • the device of the above aspect can appropriately control whether or not to select a second sound that occurs in response to a first sound, based on the duration during which the amount of fluctuation in the frequency characteristics remains lower than a predetermined threshold and the time series of the frequency characteristics.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, 13th to 24th, and 34th to 37th aspects, in which the circuit acquires a threshold indicating a volume corresponding to the boundary between whether a sound can be heard or not, calculates the volume of the second sound based on characteristics related to the first sound, and selects the second sound if the volume of the second sound is greater than the threshold.
  • the device of the above aspect can appropriately select the second sound when the volume of the second sound is greater than a threshold corresponding to whether it can be heard or not.
  • the sound processing device may be any of the sound processing devices according to the 1st, 2nd, 13th to 20th, and 31st to 38th aspects, in which the sound space information is scene information including information on a sound source in the sound space and information on the position of a listener in the sound space, the second sound is each of a plurality of second sounds generated in the sound space corresponding to the first sound, the circuit acquires a signal of the first sound, calculates the plurality of second sounds based on the scene information and the signal of the first sound, acquires characteristics related to the first sound from the information on the sound source, and controls whether or not to select each of the plurality of second sounds as a sound to which binaural processing is applied based on the characteristics related to the first sound, thereby selecting one or more processing target sounds to which binaural processing is applied from among the first sound and the plurality of second sounds, the scene information is updated based on the input information, the characteristics related to the first sound are acquired in response to updates of
  • the device of the above aspect can appropriately select one or more second sounds to which binaural processing is applied based on information obtained in response to updates of scene information that is updated relatively infrequently.
  • the sound processing method includes the steps of acquiring sound space information about the sound space, acquiring characteristics of a first sound generated from a sound source in the sound space based on the sound space information, and controlling whether or not to select a second sound generated in the sound space corresponding to the first sound based on the characteristics of the first sound.
  • the method of the above aspect can achieve the same effect as the sound processing device described in the first aspect.
  • the program according to the 41st aspect as understood based on this disclosure is a program for causing a computer to execute the acoustic processing method according to the 40th aspect.
  • the program of the above aspect can achieve the same effect as the sound processing method of the 40th aspect when used on a computer.
  • the sound processing device, encoding device, decoding device, and stereophonic reproduction system according to the present disclosure will be described in detail below with reference to the drawings.
  • the stereophonic reproduction system can also be expressed as an audio signal reproduction system.
  • FIG. 2 is a diagram showing an example of a stereophonic sound reproduction system. Specifically, Fig. 2 shows a stereophonic sound reproduction system 1000, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied. Stereophonic sound is also expressed as immersive audio.
  • the stereophonic sound reproduction system 1000 includes an audio signal processing device 1001 and an audio presentation device 1002.
  • the audio signal processing device 100 also referred to as an acoustic processing device, applies acoustic processing to an audio signal emitted by a virtual sound source to generate an audio signal after acoustic processing that is presented to a listener.
  • the audio signal is not limited to a voice, but may be any audible sound.
  • Acoustic processing is, for example, signal processing applied to an audio signal in order to reproduce one or more effects that a sound undergoes between the time it is generated by the sound source and the time it reaches the listener.
  • the audio signal processing device 1001 performs acoustic processing based on spatial information that describes the factors that cause the above-mentioned effects.
  • the spatial information includes, for example, information indicating the positions of the sound source, the listener, and surrounding objects, information indicating the shape of the space, and parameters related to sound propagation.
  • the audio signal processing device 1001 is, for example, a PC (Personal Computer), a smartphone, a tablet, or a game console.
  • the signal after acoustic processing is presented to the listener by the audio presentation device 1002.
  • the audio presentation device 1002 is connected to the audio signal processing device 1001 via wireless or wired communication.
  • the audio signal after acoustic processing generated by the audio signal processing device 1001 is transmitted to the audio presentation device 1002 via wireless or wired communication.
  • the audio presentation device 1002 is composed of multiple devices, such as a device for the right ear and a device for the left ear, the multiple devices present sound in synchronization through communication between the multiple devices or communication between each of the multiple devices and the audio signal processing device 1001.
  • the audio presentation device 1002 is, for example, headphones, earphones, or a head-mounted display worn on the listener's head, or a surround speaker composed of multiple fixed speakers.
  • the stereophonic sound reproduction system 1000 may be used in combination with an image presentation device or a stereoscopic video presentation device that provides a visual ER experience including AR/VR.
  • the space handled by the spatial information is a virtual space, and the positions of the sound source, listener, and object in the space are the virtual positions of the virtual sound source, virtual listener, and virtual object in the virtual space.
  • the space may also be expressed as a sound space.
  • the spatial information may also be expressed as sound space information.
  • FIG. 2 shows an example of a system configuration in which the audio signal processing device 1001 and the audio presentation device 1002 are separate devices
  • the stereophonic sound reproduction system 1000 to which the audio processing method or decoding method of the present disclosure can be applied is not limited to the configuration shown in FIG. 2.
  • the audio signal processing device 1001 may be included in the audio presentation device 1002, which may perform both audio processing and sound presentation.
  • the audio signal processing device 1001 and the audio presentation device 1002 may share the responsibility of performing the acoustic processing described in this disclosure.
  • a server connected to the audio signal processing device 1001 or the audio presentation device 1002 via a network may perform part or all of the acoustic processing described in this disclosure.
  • the audio signal processing device 1001 may also decode a bit stream generated by encoding at least a portion of the data of the audio signal and the spatial information used in the audio processing, and perform the audio processing. Therefore, the audio signal processing device 1001 may be referred to as a decoding device.
  • FIG. 3A is a block diagram showing an example of the configuration of a coding device. Specifically, Fig. 3A shows the configuration of a coding device 1100 which is an example of the coding device of the present disclosure.
  • the input data 1101 is data to be encoded that includes spatial information and/or an audio signal and is input to the encoder 1102. Details of the spatial information will be explained later.
  • the encoder 1102 encodes the input data 1101 to generate encoded data 1103.
  • the encoded data 1103 is, for example, a bit stream generated by the encoding process.
  • Memory 1104 stores the encoded data 1103.
  • Memory 1104 may be, for example, a hard disk or a solid-state drive (SSD), or may be other memory.
  • encoded data 1103 may be data other than a bit stream.
  • encoding device 1100 may store converted data generated by converting a bit stream into a predetermined data format in memory 1104.
  • the converted data may be, for example, a file or multiplexed stream corresponding to one or more bit streams.
  • the file is a file having a file format such as ISOBMFF (ISO Base Media File Format).
  • ISOBMFF ISO Base Media File Format
  • the encoded data 1103 may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the bit stream generated by the encoder 1102 may be converted into data different from the bit stream.
  • the encoding device 1100 may include a conversion unit (not shown) and perform the conversion process, or the conversion process may be performed by a CPU (Central Processing Unit), which is an example of a processor described below.
  • a CPU Central Processing Unit
  • Fig. 3B is a block diagram showing an example of the configuration of a decoding device. Specifically, Fig. 3B shows the configuration of a decoding device 1110 which is an example of the decoding device of the present disclosure.
  • the memory 1114 stores, for example, the same data as the encoded data 1103 generated by the encoding device 1100.
  • the stored data is read from the memory 1114 and input to the decoder 1112 as input data 1113.
  • the input data 1113 is, for example, a bit stream to be decoded.
  • the memory 1114 may be, for example, a hard disk or SSD, or may be some other memory.
  • the decoding device 1110 may convert the data read from the memory 1114 and input the converted data to the decoder 1112 as the input data 1113 instead of inputting the data directly to the decoder 1112.
  • the data before conversion may be, for example, multiplexed data including one or more bit streams.
  • the multiplexed data may be, for example, a file having a file format such as ISOBMFF.
  • the data before conversion may also be a plurality of packets generated by dividing the bit stream or file. Data different from the bit stream may be read from memory 1114 and converted into a bit stream.
  • the decoding device 1110 may include a conversion unit (not shown) and the conversion process may be performed by the conversion unit, or the conversion process may be performed by a CPU, which is an example of a processor described below.
  • the decoder 1112 decodes the input data 1113 to generate an audio signal 1111 representing the audio to be presented to the listener.
  • FIG. 3C is a block diagram showing another example of the configuration of an encoding device. Specifically, Fig. 3C shows the configuration of an encoding device 1120, which is another example of the encoding device of the present disclosure. In Fig. 3C, the same components as those in Fig. 3A are given the same reference numerals as those in Fig. 3A, and descriptions of these components are omitted.
  • the encoding device 1100 stores encoded data 1103 in a memory 1104.
  • the encoding device 1120 differs from the encoding device 1100 in that it includes a transmission unit 1121 that transmits the encoded data 1103 to the outside.
  • the transmitting unit 1121 transmits a transmission signal 1122 generated based on the encoded data 1103 or data converted from the encoded data 1103 into another data format to another device or server.
  • the data used to generate the transmission signal 1122 is, for example, a bit stream, multiplexed data, a file, or a packet, as described in the encoding device 1100.
  • Fig. 3D is a block diagram showing another example of the configuration of a decoding device. Specifically, Fig. 3D shows the configuration of a decoding device 1130, which is another example of the decoding device of the present disclosure. In Fig. 3D, the same components as those in Fig. 3B are given the same reference numerals as those in Fig. 3B, and descriptions of these components are omitted.
  • the decryption device 1110 reads the input data 1113 from the memory 1114.
  • the decryption device 1130 differs from the decryption device 1110 in that it includes a receiving unit 1131 that receives the input data 1113 from outside.
  • the receiving unit 1131 receives the received signal 1132, acquires the received data, and outputs the input data 1113 that is input to the decoder 1112.
  • the received data may be the same as the input data 1113 that is input to the decoder 1112, or may be data in a different data format from the input data 1113.
  • the receiving unit 1131 may convert the received data into the input data 1113.
  • a conversion unit or a CPU (not shown) of the decoding device 1130 may convert the received data into the input data 1113.
  • the received data is, for example, a bit stream, multiplexed data, a file, or a packet described in the encoding device 1120.
  • Fig. 4A is a block diagram showing an example of the configuration of a decoder. Specifically, Fig. 4A shows the configuration of a decoder 1200, which is an example of the decoder 1112 in Fig. 3B or 3D.
  • the input data 1113 is an encoded bitstream and includes encoded audio data, which is an encoded audio signal, and metadata used in the acoustic processing.
  • the spatial information management unit 1201 acquires metadata contained in the input data 1113 and analyzes the metadata.
  • the metadata includes information describing elements that act on sounds arranged in a sound space.
  • the spatial information management unit 1201 manages the spatial information used for acoustic processing obtained by analyzing the metadata, and provides the spatial information to the rendering unit 1203.
  • the information used in the acoustic processing is expressed as spatial information, but other expressions may be used.
  • the information used in the acoustic processing may be expressed as sound spatial information or as scene information.
  • the spatial information input to the rendering unit 1203 may be information expressed as a spatial state, a sound spatial state, a scene state, or the like.
  • the spatial information may also be managed for each sound space or for each scene. For example, when multiple different rooms are each represented as a virtual space, the multiple rooms may each be managed as multiple scenes that are different from each other. Furthermore, the spatial information may be managed for the same space as different scenes depending on the situation being represented.
  • multiple pieces of spatial information may be managed for multiple sound spaces or multiple scenes.
  • an identifier that identifies each piece of the multiple pieces of spatial information may be assigned to the spatial information.
  • the spatial information data may be included in a bitstream, which is an example of input data 1113.
  • the bitstream may include an identifier for the spatial information, and the spatial information data may be obtained from an information source other than the bitstream.
  • the identifier for the spatial information may be used in rendering to obtain the spatial information data stored in a memory within the device or an external server as input data 1113.
  • the information managed by the spatial information management unit 1201 is not limited to information contained in the bitstream.
  • the input data 1113 may include data that is not included in the bitstream and indicates the characteristics and structure of the space obtained from software or a server that provides VR or AR.
  • the input data 1113 may also include data indicating the characteristics and position of a listener or an object.
  • the input data 1113 may also include information regarding the listener's position acquired by a sensor provided in a terminal including a decoding device (1110, 1130), or may include information indicating the terminal's position estimated based on information acquired by the sensor.
  • the spatial information management unit 1201 may communicate with an external system or server to acquire spatial information and listener positions.
  • the spatial information management unit 1201 may also acquire clock synchronization information from an external system and execute processing to synchronize with the clock of the rendering unit 1203.
  • the space in the above description may be a virtually formed space, i.e., a VR space, or may be a real space or a virtual space corresponding to a real space, i.e., an AR space or an MR space.
  • the virtual space may also be expressed as a sound field or sound space.
  • the information indicating a position in the above description may be information such as coordinate values indicating a position within a space, information indicating a relative position with respect to a predetermined reference position, or information indicating the movement or acceleration of a position within a space.
  • the audio data decoder 1202 decodes the encoded audio data contained in the input data 1113 to obtain an audio signal.
  • the encoded audio data acquired by the stereophonic sound reproduction system 1000 is a bitstream encoded in a specific format, such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • MPEG-H 3D Audio is merely one example of an encoding method that can be used to generate the encoded audio data contained in the bitstream.
  • the encoded audio data may be a bitstream encoded using another encoding method.
  • the encoding method may be a lossy codec such as MP3 (MPEG-1 Audio Layer-3), AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC3 (Audio Codec-3) or Vorbis.
  • the encoding method may be a lossless codec such as ALAC (Apple Lossless Audio Codec) or FLAC (Free Lossless Audio Codec).
  • PCM data may be a type of encoded audio data.
  • the decoding process may be, for example, a process of converting an N-bit binary number into a number format (e.g., floating-point format) that can be processed by the rendering unit 1203 when the number of quantization bits of the PCM data is N.
  • the rendering unit 1203 acquires the audio signal and spatial information, performs acoustic processing on the audio signal using the spatial information, and outputs the audio signal after acoustic processing (audio signal 1111).
  • the spatial information management unit 1201 reads the metadata of the input signal, detects rendering items such as objects and sounds defined in the spatial information, and transmits them to the rendering unit 1203. After rendering begins, the spatial information management unit 1201 grasps changes over time in the spatial information and the listener's position, and updates and manages the spatial information. It then transmits the updated spatial information to the rendering unit 1203.
  • the rendering unit 1203 generates and outputs an audio signal to which acoustic processing has been added based on the audio signal contained in the input data 1113 and the spatial information received from the spatial information management unit 1201.
  • the spatial information update process and the audio signal output process with added acoustic processing may be executed in the same thread. Furthermore, the spatial information management unit 1201 and the rendering unit 1203 may each allocate processing to an independent thread. When the spatial information management unit 1201 and the rendering unit 1203 execute the spatial information update process and the audio signal output process with added acoustic processing in different threads, the thread startup frequency may be set individually, or the processes may be executed in parallel.
  • the allocation of computational resources to the spatial information management unit 1201 is limited.
  • updating of spatial information is a low-frequency process compared to the output processing of audio signals (for example, a process such as updating the direction of the listener's face), it does not necessarily have to be performed instantaneously like the output processing of audio signals. Therefore, even if the allocation of computational resources is limited, there is no significant impact on acoustic quality.
  • the spatial information may be updated periodically at preset times or intervals, or when preset conditions are met.
  • the spatial information may also be updated manually by the listener or the sound space manager, or may be updated in response to a change in an external system.
  • the spatial information may be updated when a listener operates a controller to instantly warp the position of his/her avatar or instantly advance or reverse the time.
  • the spatial information may be updated when an administrator of the virtual space suddenly changes the environment of the venue.
  • the thread for updating the spatial information managed by the spatial information management unit 1201 may be started as a one-off interrupt process in addition to being started periodically.
  • FIG. 4B is a block diagram showing another example of the configuration of a decoder. Specifically, FIG. 4B shows the configuration of a decoder 1210, which is another example of the decoder 1112 in FIG. 3B or 3D.
  • FIG. 4B differs from FIG. 4A in that the input data 1113 includes an unencoded audio signal rather than encoded audio data.
  • the input data 1113 includes a bitstream including metadata and an audio signal.
  • the spatial information management unit 1211 is the same as the spatial information management unit 1201 in FIG. 4A, so a description thereof will be omitted.
  • the rendering unit 1213 is the same as the rendering unit 1203 in FIG. 4A, so a description thereof will be omitted.
  • decoders 1112, 1200, and 1210 may be expressed as audio processing units that perform audio processing.
  • the decoding devices 1110 and 1130 may be the audio signal processing device 1001, and may be expressed as audio processing devices.
  • FIG. 5 is a diagram showing an example of a physical configuration of an audio signal processing device 1001.
  • the audio signal processing device 1001 in Fig. 5 may be the decoding device 1110 in Fig. 3B or the decoding device 1130 in Fig. 3D.
  • the multiple components shown in Fig. 3B or Fig. 3D may be implemented by the multiple components shown in Fig. 5.
  • a part of the configuration described here may be provided in the audio presentation device 1002.
  • the audio signal processing device 1001 in FIG. 5 includes a processor 1402, a memory 1404, a communication IF (Interface) 1403, a sensor 1405, and a speaker 1401.
  • a processor 1402 a memory 1404, a communication IF (Interface) 1403, a sensor 1405, and a speaker 1401.
  • the processor 1402 is, for example, a CPU, a DSP (Digital Signal Processor), or a GPU (Graphics Processing Unit).
  • the CPU, DSP, or GPU may execute a program stored in the memory 1404 to perform the acoustic processing or decoding processing of the present disclosure.
  • the processor 1402 is, for example, a circuit that performs information processing.
  • the processor 1402 may be a dedicated circuit that performs signal processing on audio signals, including the acoustic processing of the present disclosure.
  • the memory 1404 is composed of, for example, a RAM (Random Access Memory) or a ROM (Read Only Memory).
  • the memory 1404 may include a magnetic recording medium such as a hard disk or a semiconductor memory such as an SSD.
  • the memory 1404 may also be an internal memory incorporated in the CPU or GPU.
  • the memory 1404 may also store spatial information managed by the spatial information management units (1201, 1211), and may also store threshold data, which will be described later.
  • the communication IF 1403 is a communication module compatible with a communication method such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the audio signal processing device 1001 communicates with another communication device via the communication IF 1403, for example, to obtain a bitstream to be decoded.
  • the obtained bitstream is stored in the memory 1404, for example.
  • the communication IF 1403 is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • the communication method is not limited to Bluetooth (registered trademark) and WIGIG (registered trademark), but may be LTE (Long Term Evolution), NR (New Radio), Wi-Fi (registered trademark), etc.
  • the communication method is not limited to the wireless communication method described above.
  • the communication method may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface).
  • Sensor 1405 performs sensing to estimate the position and orientation of the listener. Specifically, sensor 1405 estimates the position and/or orientation of the listener based on one or more detection results of the position, orientation, movement, velocity, angular velocity, acceleration, etc. of a part or the whole of the body, and generates position/or orientation information indicating the position and/or orientation of the listener.
  • the part of the body may be the listener's head, etc.
  • the position/orientation information may be information indicating the position and/or orientation of the listener in real space, or may be information indicating the displacement of the position and/or orientation of the listener based on the position and/or orientation of the listener at a specific time.
  • the position/or orientation information may also be information indicating the relative position and/or orientation with respect to the stereophonic sound reproduction system 1000 or an external device equipped with the sensor 1405.
  • the sensor 1405 is, for example, an imaging device such as a camera or a ranging device such as a LiDAR (Laser Imaging Detection and Ranging).
  • the sensor 1405 may capture the movement of the listener's head and detect the movement of the listener's head by processing the captured image.
  • a device that performs position estimation using wireless signals of any frequency band, such as millimeter waves, may be used as the sensor 1405.
  • the audio signal processing device 1001 may also acquire position information from an external device equipped with a sensor 1405 via the communication IF 1403.
  • the audio signal processing device 1001 may not include the sensor 1405.
  • the external device is, for example, the audio presentation device 1002 described in FIG. 2, or a stereoscopic image playback device worn on the listener's head.
  • the sensor 1405 is configured by combining various sensors such as a gyro sensor and an acceleration sensor.
  • the sensor 1405 may detect, for example, the angular velocity of rotation about at least one of three mutually orthogonal axes in the sound space as the axis of rotation as the speed of movement of the listener's head, or may detect the acceleration of displacement with at least one of the three axes as the direction of displacement.
  • the sensor 1405 may detect, for example, the amount of movement of the listener's head, the amount of rotation about at least one of three mutually orthogonal axes in the sound space as the axis of rotation, or the amount of displacement about at least one of the above three axes as the direction of displacement. Specifically, the sensor 1405 detects the 6DoF position (x, y, z) and angle (yaw, pitch, roll) as the listener's position.
  • the sensor 1405 is configured by combining various sensors used for detecting movement, such as a gyro sensor and an acceleration sensor.
  • the sensor 1405 may be realized by a camera for detecting the position of the listener or a GPS (Global Positioning System) receiver, etc. Position information obtained by performing self-position estimation using LiDAR or the like as the sensor 1405 may be used. For example, when the stereophonic sound reproduction system 1000 is realized by a smartphone, the sensor 1405 is built into the smartphone.
  • GPS Global Positioning System
  • the sensor 1405 may also include a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device 1001.
  • the sensor 1405 may also include a sensor that detects the remaining charge of a battery provided in the audio signal processing device 1001 or a battery connected to the audio signal processing device 1001.
  • Speaker 1401 has, for example, a diaphragm, a drive mechanism such as a magnet or voice coil, and an amplifier, and presents the audio signal after acoustic processing as sound to the listener. Speaker 1401 operates the drive mechanism in response to the audio signal (more specifically, a waveform signal indicating the waveform of the sound) amplified via the amplifier, and causes the drive mechanism to vibrate the diaphragm. In this way, the diaphragm vibrating in response to the audio signal generates sound waves, which propagate through the air and are transmitted to the listener's ears, causing the listener to perceive the sound.
  • the audio signal more specifically, a waveform signal indicating the waveform of the sound
  • the audio signal processing device 1001 includes a speaker 1401 and presents the audio signal after acoustic processing via the speaker 1401, the means for presenting the audio signal is not limited to the above configuration.
  • the audio signal after acoustic processing may be output to an external audio presentation device 1002 connected via a communication module. Communication via the communication module may be wired or wireless.
  • the audio signal processing device 1001 may have a terminal for outputting an analog audio signal, and an audio signal may be presented from the earphone or the like by connecting a cable for earphones or the like to the terminal.
  • the audio presentation device 1002 may be headphones, earphones, a head-mounted display, a neck speaker, a wearable speaker, or the like that are worn on the listener's head or part of the body.
  • the audio presentation device 1002 may be a surround speaker composed of multiple fixed speakers, or the like. The audio presentation device 1002 may then reproduce the audio signal.
  • Fig. 6 is a diagram showing an example of a physical configuration of an encoding device.
  • the encoding device 1500 in Fig. 6 may be the encoding device 1100 in Fig. 3A or the encoding device 1120 in Fig. 3C, and multiple components shown in Fig. 3A or 3C may be implemented by multiple components shown in Fig. 6.
  • the encoding device 1500 in FIG. 6 includes a processor 1501, a memory 1503, and a communication IF 1502.
  • the processor 1501 is, for example, a CPU, a DSP, or a GPU.
  • the CPU, DSP, or GPU may execute a program stored in the memory 1503 to perform the encoding process of the present disclosure.
  • the processor 1501 is, for example, a circuit that performs information processing.
  • the processor 1501 may be a dedicated circuit that performs signal processing on an audio signal, including the encoding process of the present disclosure.
  • Memory 1503 is composed of, for example, RAM or ROM.
  • Memory 1503 may include a magnetic recording medium such as a hard disk or a semiconductor memory such as an SSD.
  • Memory 1503 may also be an internal memory built into the CPU or GPU.
  • the communication IF 1502 is a communication module that supports communication methods such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the encoding device 1500 communicates with other communication devices via the communication IF 1502, for example, and transmits an encoded bitstream.
  • the communication IF 1502 is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • the communication method is not limited to Bluetooth (registered trademark) and WIGIG (registered trademark), but may be LTE, NR, Wi-Fi (registered trademark), etc.
  • the communication method is not limited to a wireless communication method.
  • the communication method may be a wired communication method such as Ethernet (registered trademark), USB, or HDMI (registered trademark).
  • Fig. 7 is a block diagram showing an example of the configuration of a rendering unit. Specifically, Fig. 7 shows an example of the detailed configuration of a rendering unit 1300 corresponding to the rendering units 1203 and 1213 in Figs. 4A and 4B.
  • the rendering unit 1300 is composed of an analysis unit 1301, a selection unit 1302, and a synthesis unit 1303, and applies acoustic processing to the sound data contained in the input signal and outputs it.
  • the input signal is composed of, for example, spatial information, sensor information, and sound data.
  • the input signal may include a bitstream composed of sound data and metadata (control information), in which case the metadata may include spatial information.
  • Spatial information is information about the sound space (three-dimensional sound field) created by the stereophonic sound reproduction system 1000, and is composed of information about the objects contained in the sound space and information about the listener.
  • Objects include sound source objects that emit sound and are sound sources, and non-sound-emitting objects that do not emit sound. Sound source objects can also be simply expressed as sound sources.
  • a non-sound-producing object acts as an obstacle object that reflects the sound emitted by a sound source object, but a sound source object may also act as an obstacle object that reflects the sound emitted by another sound source object. Obstacle objects may also be referred to as reflective objects.
  • Information that is commonly assigned to sound source objects and non-sound-producing objects includes position information, shape information, and the rate at which the sound volume decays when the object reflects sound.
  • the position information is expressed by coordinate values on three axes, for example the X-axis, Y-axis, and Z-axis, in Euclidean space, but it does not necessarily have to be three-dimensional information.
  • the position information may be two-dimensional information expressed by coordinate values on two axes, the X-axis and the Y-axis.
  • the position information of an object is determined by the representative position of a shape expressed by a mesh or voxels.
  • the shape information may also include information about the surface material.
  • the attenuation rate may be expressed as a real number between 0 and 1, or may be expressed as a negative decibel value.
  • sound volume is not amplified by reflection, so the attenuation rate is set to a negative decibel value, but for example, to create the eerie feeling of an unreal space, an attenuation rate of 1 or more, i.e., a positive decibel value, may be set.
  • the attenuation rate may be set to a different value for each of the frequency bands that make up the multiple frequency bands, or a value may be set independently for each frequency band.
  • a corresponding attenuation rate value may be used based on information about the surface material.
  • the spatial information may also include information indicating whether the object belongs to a living thing, and information indicating whether the object is a moving object. If the object is a moving object, the position indicated by the position information may move over time. In this case, information on the changed position or the amount of change is transmitted to the rendering unit 1300.
  • Information about sound source objects includes information commonly assigned to sound source objects and non-sound generating objects, as well as sound data and information necessary for radiating the sound data into the sound space.
  • Sound data is data that indicates information about the frequency and strength of sound, and is data that expresses the sound perceived by the listener.
  • the sound data is typically a PCM signal, but may also be data compressed using an encoding method such as MP3.
  • the rendering unit 1300 may include a decoding unit (not shown).
  • the signal may be decoded by the sound data decoder 1202.
  • One piece of sound data may be set for one sound source object, or multiple pieces of sound data may be set for one sound source object. Furthermore, identification information for identifying each piece of sound data may be assigned to the sound data, and the information relating to the sound source object may include the identification information for the sound data.
  • the information required to radiate sound data into a sound space may include, for example, information on the reference volume used as a standard for playing back sound data, information indicating the nature (also called characteristics) of the sound data, information on the position of the sound source object, and information on the orientation of the sound source object (i.e., information on the directionality of the sound emitted by the sound source object).
  • the reference volume information may be, for example, the effective amplitude value of the sound data at the sound source position when the sound data is emitted into the sound space, and may be expressed as a floating-point decibel (db) value.
  • db decibel
  • the reference volume may indicate that sound is emitted into the sound space from the position indicated by the information regarding the position of the sound source object at the same volume as the signal level indicated by the sound data, without increasing or decreasing the volume.
  • the reference volume is -6 db, it may indicate that sound is emitted into the sound space from the position indicated by the information regarding the position of the sound source object, with the volume of the signal level indicated by the sound data reduced by approximately half.
  • the reference volume information may be added to each sound data, or may be added to multiple sound data collectively.
  • the information indicating the properties of the sound data may be, for example, information regarding the volume of the sound source, and may be information indicating the time-series fluctuations in the volume of the sound source.
  • the volume transitions intermittently over a short period of time. In other words, sound and silence alternate. If the sound space is a concert hall and the sound source is a performer, the volume is maintained for a certain length of time. If the sound space is a battlefield and the sound source is an explosive, the volume of the explosion sound will increase for a moment and then remain silent or low.
  • the information on the volume of the sound source may include not only information on the loudness of the sound, but also information on the transition of the loudness of the sound. Such information may be used as information indicating the nature of the sound data.
  • the transition information may be represented by data showing frequency characteristics in a time series.
  • the transition information may be represented by data showing the duration of a sound section.
  • the transition information may be represented by data showing a time series of the duration of a sound section and the duration of a silent section.
  • the transition information may be represented by data listing, in a time series, multiple pairs of durations during which the amplitude of a sound signal can be considered steady (approximately constant) and the amplitude values of the signal during those periods.
  • the transition information may be represented by data on the duration for which the frequency characteristics of the sound signal can be considered stationary.
  • the transition information may be represented by data that lists in chronological order multiple sets of durations for which the frequency characteristics of the sound signal can be considered stationary and the frequency characteristics during those periods.
  • the transition information may be represented, for example, in the form of data that shows the outline of a spectrogram.
  • the volume used as the standard for the above frequency characteristics may be the reference volume.
  • Information on the reference volume and information indicating the properties of the sound data may be used in the process of calculating the volume of direct sound or reflected sound to be perceived by the listener, or may be used in the process of selecting whether or not to perceive it by the listener. Other examples of information indicating the properties of sound data and methods of using it will be described later.
  • orientation information is typically expressed using yaw, pitch, and roll.
  • the roll rotation may be omitted, and the orientation information of the sound source object may be expressed using azimuth (yaw) and elevation (pitch).
  • the orientation information of the sound source object may change over time, and if it does change, it is transmitted to the rendering unit 1300.
  • Information about the listener is information about the listener's position and orientation in sound space.
  • Information about the position is expressed as a position on the XYZ axes in Euclidean space, but it does not necessarily have to be three-dimensional information and can be two-dimensional information.
  • Information about the listener's orientation is typically expressed in yaw, pitch, and roll. Alternatively, the roll rotation may be omitted, and the listener's orientation information may be expressed in azimuth (yaw) and elevation (pitch).
  • the listener's position and orientation information may change over time, and if so, is transmitted to the rendering unit 1300.
  • the sensor information includes the amount of rotation or displacement detected by the sensor 1405 worn by the listener, and the listener's position and orientation.
  • the sensor information is transmitted to the rendering unit 1300, which updates the listener's position and orientation information based on the sensor information.
  • the sensor information may include position information obtained by the mobile terminal performing self-position estimation using a GPS, a camera, LiDAR, or the like, for example.
  • information obtained from the outside through a communication module, rather than from the sensor 1405, may be detected as sensor information.
  • Information indicating the temperature of the audio signal processing device 1001 and information indicating the remaining battery charge may be obtained from the sensor 1405.
  • the computational resources (CPU capacity, memory resources, PC performance, etc.) of the audio signal processing device 1001 or the audio presentation device 1002 may be obtained in real time.
  • the analysis unit 1301 analyzes the audio signal contained in the input signal and the spatial information received from the spatial information management units (1201, 1211) to detect the information necessary to generate direct sound and reflected sound, as well as the information necessary to select whether or not to generate reflected sound.
  • the information required to generate direct and reflected sounds includes, for example, values related to the path taken by each of the direct and reflected sounds to reach the listening position, the time it takes for each sound to arrive, and the volume at which it arrives.
  • the information required to select the reflected sound to be output is information indicating the relationship between the direct sound and the reflected sound, such as a value relating to the time difference between the direct sound and the reflected sound, and a value relating to the volume ratio between the direct sound and the reflected sound at the listening position.
  • the volume ratio of two signals is expressed as the difference in decibel values.
  • the volume ratio of two signals may be the difference when the amplitude values of each signal are expressed in the decibel domain. This value may be calculated based on an energy value or a power value, etc. Furthermore, this difference may be called the gain difference or simply the gain difference in the decibel domain.
  • the volume ratio in this disclosure is essentially the ratio of signal amplitudes, and may be expressed as Sound volume ratio, Volume ratio, Amplitude ratio, Sound level ratio, Sound intensity ratio, Gain ratio, or the like. Also, when the unit of volume is decibels, it goes without saying that the volume ratio in this disclosure can be rephrased as volume difference.
  • volume ratio typically refers to the gain difference when the volumes of two sounds are expressed in decibel units
  • the threshold data is also typically defined as a gain difference expressed in the decibel domain.
  • the volume ratio is not limited to a gain difference in the decibel domain.
  • the threshold data defined in the decibel domain may be converted into the unit of the calculated volume ratio and used.
  • the threshold data defined in each unit may be stored in advance in memory.
  • the time difference between a direct sound and a reflected sound is, for example, the time difference between the arrival time (arrival time) of the direct sound and the arrival time (arrival time) of the reflected sound.
  • the time difference between a direct sound and a reflected sound may be the time difference between the times when the direct sound and the reflected sound arrive at the listening position, the difference in the time it takes for the direct sound and the reflected sound to arrive at the listening position, or the time difference between the time when the direct sound ends and the time when the reflected sound arrives at the listening position. The method of calculating these values will be described later.
  • the selection unit 1302 uses the information calculated by the analysis unit 1301 and the threshold data to select whether or not to generate a reflected sound. In other words, the selection unit 1302 determines whether or not to select a reflected sound as a reflected sound to be generated. In other words, the selection unit 1302 selects which of the multiple reflected sounds to generate.
  • the threshold data is represented, for example, as a graph with the value of the time difference between direct sound and reflected sound on the horizontal axis and the volume ratio between direct sound and reflected sound on the vertical axis, as the boundary (threshold) between whether the reflected sound is perceived or not.
  • the threshold data may be expressed as an approximation formula having the value of the time difference between direct sound and reflected sound as a variable, or it may be expressed as an array having the value of the time difference between direct sound and reflected sound as an index and a corresponding threshold.
  • the selection unit 1302 selects to generate a reflected sound, for example, when the volume ratio between the volume of the direct sound at the time of arrival and the volume of the reflected sound at the time of arrival, which is the value of the time difference between the time of arrival of the direct sound and the time of arrival of the reflected sound, is greater than a threshold value set by referring to threshold data.
  • the time difference between the arrival time of the direct sound and the arrival time of the reflected sound is, in other words, the difference in the time it takes for the direct sound and the reflected sound to arrive at the listening position.
  • the time difference between the point at which the direct sound ends and the point at which the reflected sound arrives at the listening position may also be used as the time difference between the direct sound and the reflected sound.
  • threshold data different from the threshold data determined using the time difference between the arrival time of the direct sound and the arrival time of the reflected sound as a standard may be used, or common threshold data may be used.
  • the threshold data may be obtained from the memory 1404 of the audio signal processing device 1001, or from an external storage device via a communication module.
  • the method of storing the threshold data and the method of setting the threshold will be described later.
  • the synthesis unit 1303 synthesizes the audio signal of the direct sound with the audio signal of the reflected sound that the selection unit 1302 has selected to generate.
  • the synthesis unit 1303 processes the input audio signal to generate a direct sound based on the information on the direct sound arrival time and volume at the time of direct sound arrival calculated by the analysis unit 1301.
  • the synthesis unit 1303 also processes the input audio signal to generate a reflected sound based on the information on the reflected sound arrival time and volume at the time of reflected sound arrival for the reflected sound selected by the selection unit 1302.
  • the synthesis unit 1303 then synthesizes and outputs the generated direct sound and reflected sound.
  • FIG. 8 is a flowchart showing an example of the operation of the audio signal processing device 1001.
  • Fig. 8 shows processing executed mainly by the rendering unit 1300 of the audio signal processing device 1001.
  • the analysis unit 1301 analyzes the input signal input to the audio signal processing device 1001 to detect direct sound and reflected sound that may occur in the sound space.
  • the reflected sound detected here is a candidate for the reflected sound that is ultimately selected by the selection unit 1302 as the reflected sound to be generated by the synthesis unit 1303.
  • the analysis unit 1301 also analyzes the input signal to calculate information necessary for generating direct sound and reflected sound, and information necessary for selecting the reflected sound to be generated.
  • the characteristics of the direct sound and the reflected sound are calculated. Specifically, the arrival time and volume of the direct sound and the reflected sound when they reach the listener are calculated. If multiple objects exist in the sound space as reflecting objects, the characteristics of the reflected sound are calculated for each of the multiple objects.
  • the direct sound arrival time (td) is calculated based on the direct sound arrival path (pd).
  • the direct sound arrival path (pd) is the path connecting the position information S (xs, ys, zs) of the sound source object and the position information A (xa, ya, za) of the listener.
  • the direct sound arrival time (td) is the value obtained by dividing the length of the path connecting the position information S (xs, ys, zs) and the position information A (xa, ya, za) by the speed of sound (approximately 340 m/sec).
  • the path length (X) is calculated as (xs-xa) ⁇ 2 + (ys-ya) ⁇ 2 + (zs-za) ⁇ 2) ⁇ 0.5.
  • the volume N at the sound source position may be the reference volume described above.
  • the reflected sound arrival time (tr) is calculated based on the reflected sound arrival path (pr).
  • the reflected sound arrival path (pr) is the path that connects the position of the sound image of the reflected sound and the position information A (xa, ya, za).
  • the position of the sound image of the reflected sound may be derived using, for example, the "mirror method” or "ray tracing method,” or any other method for deriving the sound image position.
  • the mirror method is a method for simulating a sound image by assuming that a mirror image of the reflected wave on the wall of a room exists in a position symmetrical to the sound source with respect to the wall, and that sound waves are emitted from the position of that mirror image.
  • the ray tracing method is a method for simulating an image (sound image) observed at a certain point by tracing waves that propagate in a straight line, such as light rays or sound rays.
  • FIG. 9 is a diagram showing a positional relationship in which the listener and an obstacle object are relatively far apart.
  • FIG. 10 is a diagram showing a positional relationship in which the listener and an obstacle object are relatively close together. That is, each of FIG. 9 and FIG. 10 shows an example in which a sound image of a reflected sound is formed at a position symmetrical to the sound source position across a wall. By determining the position of the sound image of a reflected sound on the x, y and z axes based on such a relationship, the arrival time of the reflected sound can be determined in a similar manner to the method of calculating the arrival time of a direct sound.
  • the arrival time of the reflected sound (tr) is the value obtained by dividing the length (Y) of the path connecting the position of the sound image of the reflected sound and the position information A (xa, ya, za) by the speed of sound (approximately 340 m/sec).
  • the attenuation rate G may be expressed as a real number between 0 and 1, or may be expressed as a negative decibel value.
  • the volume of the entire signal is attenuated by G.
  • the attenuation rate may also be set for each frequency band that constitutes multiple frequency bands.
  • the analysis unit 1301 multiplies each frequency component of the signal by a specified attenuation rate.
  • the analysis unit 1301 may also use a representative value or average value of multiple attenuation rates for multiple frequency bands as the overall attenuation rate, and attenuate the volume of the entire signal by that amount.
  • the analysis unit 1301 calculates the volume ratio (L), which is the ratio between the volume at the time of arrival of the direct sound (ld) and the volume at the time of arrival of the reflected sound (lr), and the time difference (T) between the direct sound and the reflected sound, which are necessary for selecting the reflected sound to be generated.
  • L volume ratio
  • T time difference
  • the time difference (T) between the direct sound and the reflected sound may be, for example, the time difference between the time it takes for the direct sound and the reflected sound to arrive at the listening position.
  • the time difference (T) may also be the difference in time when the direct sound and the reflected sound arrive at the listening position.
  • the time difference (T) may also be the time difference between the time when the direct sound ends and the time when the reflected sound arrives at the listening position.
  • the time difference (T) may be the time difference between the time when the direct sound ends and the time when the reflected sound starts at the listening position.
  • the selection unit 1302 selects whether or not to generate the reflected sound calculated by the analysis unit 1301. In other words, the selection unit 1302 determines whether or not to select the reflected sound as a reflected sound to be generated. When there are multiple reflected sounds, the selection unit 1302 selects whether or not to generate each reflected sound. As a result of selecting whether or not to generate each reflected sound, the selection unit 1302 may select one or more reflected sounds to be generated from among the multiple reflected sounds, or may not select any reflected sounds to be generated.
  • the selection unit 1302 may select reflected sounds to which other processes are to be applied, not limited to generation processes. For example, the selection unit 1302 may select reflected sounds to which binaural processing is to be applied. Furthermore, the selection unit 1302 basically selects only one or more reflected sounds to be processed. However, the selection unit 1302 may select only one or more reflected sounds that are not to be processed. Then, processing may be applied to the one or more reflected sounds that are not selected.
  • the selection of reflected sounds is performed based on the volume ratio (L) and time difference (T) calculated by the analysis unit 1301.
  • T time difference
  • the selection of whether or not to generate reflected sound is made by, for example, comparing the volume ratio between direct sound and reflected sound, which corresponds to the time difference between the direct sound and reflected sound, with a preset threshold.
  • the threshold is set by referring to threshold data.
  • the threshold data is an index that indicates the boundary between whether or not a reflected sound relative to a direct sound is perceived by a listener, and is defined as the ratio between the volume of the direct sound when it arrives (Id) and the volume of the reflected sound when it arrives (lr).
  • the threshold corresponds to a value expressed as a numerical value or the like that is determined in response to the time difference (T).
  • the threshold data corresponds to the relationship between the time difference (T) and the threshold, and corresponds to table data or a relational expression that is used to identify or calculate the threshold at the time difference (T).
  • the format and type of the threshold data are not limited to table data or a relational expression.
  • FIG. 11 is a diagram showing the relationship between the time difference between direct sound and reflected sound and a threshold value.
  • threshold data of a volume ratio that is predetermined for each value of the time difference between direct sound and reflected sound may be referenced.
  • threshold data obtained by interpolation or extrapolation from the threshold data shown in FIG. 11 may be referenced.
  • a threshold value for the volume ratio at the time difference (T) calculated by the analysis unit 1301 is identified from the threshold data.
  • the selection unit 1302 determines whether or not to select the reflected sound as the reflected sound to be generated, depending on whether or not the volume ratio (L) between the direct sound and the reflected sound calculated by the analysis unit 1301 exceeds the threshold value.
  • threshold data for the volume ratio that is predefined for each value of the time difference between the direct sound and the reflected sound By performing selection processing using threshold data for the volume ratio that is predefined for each value of the time difference between the direct sound and the reflected sound, it is possible to realize selection processing that takes into account post-masking or the precedence effect. A detailed explanation of the type, format, storage method, and setting method of the threshold data will be given later.
  • the synthesis unit 1303 generates and synthesizes an audio signal of the direct sound and an audio signal of the reflected sound selected by the selection unit 1302 as the reflected sound to be generated.
  • the audio signal of the direct sound is generated by applying the arrival time (td) and arrival volume (ld) calculated by the analysis unit 1301 to the sound data of the sound source object included in the input information. Specifically, the sound data is delayed by the arrival time (td) and multiplied by the arrival volume (ld).
  • the process of delaying the sound data is a process of moving the position of the sound data forward or backward on the time axis. For example, a process of delaying sound data without degrading sound quality as disclosed in Patent Document 2 may be applied.
  • the audio signal of the reflected sound is generated by applying the arrival time (tr) and arrival volume (ld) calculated by the analysis unit 1301 to the sound data of the sound source object.
  • the volume at the time of arrival (lr) when generating reflected sound is different from the volume at the time of arrival of direct sound, and is a value to which the attenuation rate G of the volume at the reflection is applied.
  • G may be an attenuation rate that is applied to all frequency bands at once.
  • a reflectance rate may be specified for each specified frequency band to reflect the bias of frequency components caused by reflection.
  • the process of applying the volume at the time of arrival (lr) may be implemented as a frequency equalizer process that multiplies each band by an attenuation rate.
  • the path length of the direct sound and each of the reflected sound candidates when they arrive at the listener is calculated. Furthermore, the arrival time and arrival volume are calculated based on each path length. Then, the reflected sound candidate selection process is performed based on these time differences and volume ratios.
  • the selection process may be performed based on the path length of the direct sound and the reflected sound when they reach the listener, and the calculation of the arrival time and volume of the direct sound and the reflected sound, as well as the calculation of the time difference and volume ratio may be omitted.
  • a threshold value according to the path length difference may be predefined for the path length ratio. Then, the selection process may be performed based on whether the calculated path length ratio is equal to or greater than the threshold value according to the calculated path length difference. This makes it possible to perform the selection process based on the path length difference corresponding to the time difference while reducing the amount of calculation.
  • the value of a parameter that indicates the sound propagation speed may also be used.
  • the selection of the reflected sound is performed by comparing the volume ratio (L) calculated by the analysis unit 1301 with a threshold that defines the volume ratio, which is the ratio between the volume at the time of arrival of the direct sound and the volume at the time of arrival of the reflected sound during the time difference (T) between the direct sound and the reflected sound.
  • a threshold that defines the volume ratio, which is the ratio between the volume at the time of arrival of the direct sound and the volume at the time of arrival of the reflected sound during the time difference (T) between the direct sound and the reflected sound.
  • the time difference (T) may be, for example, the difference in time when the direct sound and the reflected sound arrive at the listening position, the time difference between the time it takes for the direct sound and the reflected sound to arrive at the listening position, or the time difference between the time when the direct sound ends and the time when the reflected sound arrives at the listening position.
  • the end time of the direct sound may be found, for example, by adding the duration of the direct sound to the arrival time of the direct sound.
  • the threshold data may be determined based on the minimum time difference at which the listener's perception can detect a discrepancy between two sounds due to the auditory nerve function or the cognitive function in the brain, more specifically, due to the precedence effect described below, the temporal masking phenomenon described below, or a combination of these. Specific numerical values may be derived from already known research results on the temporal masking effect, the precedence effect, or the echo detection limit, or may be determined by listening experiments that are premised on application to the virtual space.
  • Fig. 12A, Fig. 12B, and Fig. 12C are diagrams showing examples of methods for setting threshold data.
  • the threshold data is a graph with the time difference between direct sound and reflected sound on the horizontal axis and the volume ratio between direct sound and reflected sound on the vertical axis, and is represented by the boundary (threshold) between whether the reflected sound is perceived or not.
  • the threshold data may be expressed as an approximation formula having the time difference between the direct sound and the reflected sound as a variable.
  • the threshold data may also be stored in an area of memory 1404 as an array of indexes of the time difference between the direct sound and the reflected sound and thresholds corresponding to the indexes, as shown in FIG. 11.
  • the threshold indicates the volume at the border between whether or not a sound can be perceived by a listener, and is a threshold for determining that sounds with a volume lower than the threshold are not to be reproduced.
  • the threshold corresponding to the minimum audible limit is not a threshold for the ratio between the volume of the reflected sound and the volume of the direct sound.
  • the time difference (T) does not need to be calculated because the threshold is constant regardless of the time difference (T).
  • the selection process may be performed on all reflected sounds, or the selection process may be performed only on reflected sounds with high evaluation values based on evaluation values derived for each reflected sound using a preset evaluation method.
  • the evaluation value of a reflected sound corresponds to the perceptual importance of the reflected sound.
  • a high evaluation value corresponds to a large evaluation value, and these expressions may be interchangeable.
  • the selection unit 1302 may calculate an evaluation value of the reflected sound using a pre-set evaluation method according to, for example, the volume of the sound source, the visibility of the sound source, the positioning of the sound source, the visibility of a reflecting object (obstacle object), or the geometric relationship between the direct sound and the reflected sound.
  • the louder the sound source volume the higher the evaluation value may be.
  • the evaluation value may be high.
  • the difference in the angle of arrival between direct sound and reflected sound, and the difference in the time of arrival between direct sound and reflected sound have a significant impact on the perception of space. Therefore, if the difference in the angle of arrival between direct sound and reflected sound is large, or if the difference in the time of arrival between direct sound and reflected sound is large, the evaluation value may be high.
  • the volume information of the sound source may indicate a reference volume defined for each content, a temporal transition of the volume, or both.
  • the volume transitions intermittently over a short period of time. In other words, sound and silence alternate. If the virtual space is a concert hall and the direct sound is a musical performance, the volume is maintained for a certain length of time. If the virtual space is a battlefield and the direct sound is an explosion, the volume increases for a moment and then remains silent or low.
  • the volume information of the sound source may include not only information about the reference volume, which corresponds to the volume setting when the sound is emitted into the virtual space, but also information about the transition of the sound's loudness.
  • the transition information may be represented by data showing frequency characteristics in a time series.
  • the transition information may be represented by data showing the duration of a sound section.
  • the transition information may be represented by data showing a time series of the duration of a sound section and the duration of a silent section.
  • the transition information may be represented by data listing, in a time series, multiple pairs of durations during which the amplitude of a sound signal can be considered steady (approximately constant) and the amplitude values of the signal during those periods.
  • the transition information may be expressed as data on the duration for which the frequency characteristics of the sound signal can be considered to be stationary.
  • the transition information may be expressed as data that lists in chronological order multiple sets of durations for which the frequency characteristics of the sound signal can be considered to be stationary and the frequency characteristics during those periods.
  • the geometric relationship may be the relationship between the positions of the sound source, the listener, and the reflecting object in the virtual space. These relationships make it possible to geometrically calculate the path lengths along which the direct sound and the reflected sound arrive. Therefore, by utilizing the relationship in which the volume is inversely proportional to the distance, it is possible to calculate the reference volume of the reflected sound relative to the reference volume of the direct sound.
  • the reflection coefficient of the reflecting object may be used to calculate the reference volume of the reflected sound.
  • a typical value that is generally used may be used as the reflection coefficient.
  • a specially assigned reflection coefficient may be used as the reflection coefficient of the reflecting object.
  • the reflected sound may be evaluated based on its volume.
  • the volume of the reflected sound may be calculated from the geometric relationship between the direct sound and the reflected sound, as described above, and from an index assigned to the reflecting object.
  • the reflected sound may be evaluated by comparing the volume with a predetermined threshold value.
  • information indicating the temporal transition of the volume of the sound source may be reflected in the evaluation. For example, if the information indicating the temporal transition of the volume of the sound source indicates the duration of a section with sound, and the time is within the section with sound, the evaluation value of the reflected sound may be maintained as is. On the other hand, if the time is outside the section with sound, even if the reference volume of the reflected sound exceeds the threshold, a process may be performed to reduce the evaluation value of the reflected sound or set it to zero.
  • the information indicating the temporal transition of the volume of the sound source may be data that lists in chronological order multiple pairs of durations during which the amplitude of a sound signal is considered to be roughly constant, and the amplitude values of the signal during those periods.
  • a process may be performed to evaluate the reflected sound by changing the reference volume of the reflected sound in conjunction with changes in the amplitude values in the data.
  • both the reference volume information and the volume information that transitions over time may be used as information indicating the volume of the direct sound.
  • the evaluation value may be corrected using the volume information that transitions.
  • reflected sound In evaluating reflected sound, all of the above-mentioned methods may be performed, or only some of them may be performed. For example, reflected sound may be evaluated using multiple evaluation methods, or reflected sound may be evaluated using one evaluation method.
  • the decision as to whether or not to select a reflected sound may be based on an overall evaluation value determined using the multiple evaluation methods, or may be based on the evaluation values for each of the multiple evaluation methods.
  • the audio signal processing device 1001 may select a sound if all of the plurality of evaluation results based on the plurality of evaluation methods indicate that the sound should be selected. Alternatively, the audio signal processing device 1001 may select a sound if any one of the plurality of evaluation results based on the plurality of evaluation methods indicates that the sound should be selected.
  • a priority may be assigned to the first to third evaluation methods. Then, when it is determined that sound should not be selected using the first evaluation method, the audio signal processing device 1001 may finally determine that sound should not be selected without relying on the determination results in the second and third evaluation methods. Furthermore, when it is determined that sound should not be selected using one of the second and third evaluation methods but sound should be selected using the other, the audio processing device may finally determine that sound should be selected.
  • the selection process and the evaluation process may be executed independently, or only one of them may be executed. Furthermore, the evaluation process may be executed only for the reflected sounds that are determined to be selected in the selection process, and the evaluation process may re-determine whether or not to select the reflected sounds. Alternatively, the evaluation process may be executed only for the reflected sounds that are determined not to be selected in the selection process, and the evaluation process may re-determine whether or not to select the reflected sounds.
  • the above-described selection process can be interpreted as a process of selecting a reflected sound according to the properties of the direct sound.
  • a threshold value used to select a reflected sound is set or adjusted according to the properties of the direct sound.
  • an evaluation value used to select a reflected sound is calculated based on one or more of the volume of the sound source, the visibility of the sound source, the positioning of the sound source, the visibility of a reflecting object (obstacle object), and the geometric relationship between the direct sound and the reflected sound.
  • the process of selecting reflected sounds according to the characteristics of the direct sound is not limited to the process of setting or adjusting a threshold value according to the characteristics of the direct sound, and the process of calculating an evaluation value used to select reflected sounds to be processed, and other processes may be performed. Even when the process of setting or adjusting a threshold value according to the characteristics of the direct sound, or the process of calculating an evaluation value used to select reflected sounds to be processed, is performed, the process may be partially changed, or new processes may be added.
  • setting the threshold value may include adjusting the threshold value, changing the threshold value, etc.
  • the threshold data used in the selection process may be set with reference to, for example, an echo detection limit based on a known precedence effect, or a masking threshold based on a post-masking effect.
  • the precedence effect is a phenomenon in which, when sounds are heard from two locations, the one heard first is perceived as the source of the sound. If two short sounds merge and are heard as one sound, the position from which the entire sound is heard (localization position) is largely determined by the position of the first sound.
  • the echo detection limit is a phenomenon caused by the precedence effect, and is the minimum time difference at which a listener can perceive a discrepancy between two sounds.
  • the horizontal axis corresponds to the arrival time of the reflected sound (echo), specifically, the delay time from the arrival time of the direct sound to the arrival time of the reflected sound.
  • the vertical axis corresponds to the volume ratio of the detectable reflected sound to the direct sound, specifically, the threshold value for whether or not the reflected sound that arrives with a delay can be detected.
  • FIG. 13 is a diagram showing an example of a method for setting a threshold value.
  • the horizontal axis in FIG. 13 corresponds to the arrival time of the reflected sound, specifically, the time difference (T) between the direct sound and the reflected sound.
  • the vertical axis in FIG. 13 corresponds to the volume of the reflected sound.
  • the vertical axis in FIG. 13 may correspond to the volume of the reflected sound (volume ratio) determined relatively to the volume of the direct sound, or may correspond to the volume of the reflected sound determined absolutely regardless of the volume of the direct sound.
  • the arrival time of the reflected sound is delayed and the threshold is set low as shown in FIG. 13C.
  • the threshold is set high as shown in FIG. 13B.
  • a reflected sound is not generated.
  • the threshold data may also be stored in memory 1404, retrieved from memory 1404 during the selection process, and used in the selection process.
  • FIG. 14 is a flowchart showing an example of the selection process.
  • the selection unit 1302 specifies the reflected sound detected by the analysis unit 1301 (S201). Then, the selection unit 1302 detects the volume ratio (L) between the direct sound and the reflected sound, and the time difference (T) between the direct sound and the reflected sound (S202 and S203).
  • the time difference (T) may be, for example, the time difference between the time it takes for the direct sound and the reflected sound to arrive at the listening position, the time difference between the arrival time of the direct sound and the arrival time of the reflected sound, or the time difference between the time when the direct sound ends and the time when the reflected sound arrives at the listening position.
  • T time difference between the arrival time of the direct sound and the arrival time of the reflected sound
  • the selection unit 1302 calculates the difference between the path length of the direct sound and the path length of the reflected sound from the position information of the sound source object and the listener, and the position information and shape information of the obstacle object. The selection unit 1302 then divides this difference in length by the speed of sound to detect the time difference (T) between the time when the direct sound arrives at the listener's position and the time when the reflected sound arrives at the listener's position.
  • T time difference
  • the volume of the sound reaching the listener attenuates in proportion to the distance to the listener (inversely proportional to the distance) relative to the volume of the sound source. Therefore, the volume of the direct sound is obtained by dividing the volume of the sound source by the length of the path of the direct sound.
  • the volume of the reflected sound is obtained by dividing the volume of the sound source by the length of the path of the reflected sound and then multiplying it by the attenuation rate assigned to the virtual obstacle object.
  • the selection unit 1302 detects the volume ratio by calculating the ratio between these volumes.
  • the selection unit 1302 also uses the threshold data to identify a threshold value corresponding to the time difference (T) (S204). The selection unit 1302 then determines whether the detected volume ratio (L) is equal to or greater than the threshold value (S205).
  • the selection unit 1302 selects the reflected sound as the reflected sound to be generated (S206). If the volume ratio (L) is smaller than the threshold (No in S205), the selection unit 1302 does not select the reflected sound as the reflected sound to be generated (S207). That is, in this case, the selection unit 1302 determines that the reflected sound is not a reflected sound to be generated.
  • the selection unit 1302 determines whether or not there is an unspecified reflected sound (S208). If there is an unspecified reflected sound (Yes in S208), the selection unit 1302 repeats the above-mentioned processing (S201 to S207). If there is no unspecified reflected sound (No in S208), the selection unit 1302 ends the processing.
  • This selection process may be performed on all reflected sounds generated by the analysis process, or it may be performed only on reflected sounds with high evaluation values as described above.
  • the threshold data according to this embodiment is stored in the memory 1404 of the audio signal processing device 1001.
  • the format and type of the threshold data to be stored may be any format and any type.
  • the selection process may determine which format and which type of threshold to use for the selection process of the reflected sound. A method for determining which threshold data to use for the selection process will be described later.
  • threshold data in multiple formats and multiple types may be stored in combination.
  • the combined threshold data may be read from the spatial information management units (1201, 1211) and a threshold to be used in the selection process may be set.
  • the threshold data stored in memory 1404 may be stored in the spatial information management units (1201, 1211).
  • the threshold data may be stored as thresholds for each time difference, for example, as shown in [Example 1] and [Example 2] of FIG. 12C.
  • the threshold data may also be stored as table data in which the threshold and the time difference (T) are associated as shown in FIG. 11. That is, the threshold data may be stored as table data having the time difference (T) as an index.
  • the threshold shown in FIG. 11 is just an example, and the threshold is not limited to the example of FIG. 11.
  • the threshold instead of storing the threshold itself, the threshold may be approximated by a function having the time difference (T) as a variable, and the coefficients of the function may be stored. Also, a combination of multiple approximation formulas may be stored.
  • the memory 1404 may store information regarding a relational equation showing the relationship between the time difference (T) and the threshold value.
  • a relational equation showing the relationship between the time difference (T) and the threshold value.
  • an equation having the time difference (T) as a variable may be stored.
  • the threshold value of each time difference (T) may be approximated by a straight line or a curve, and parameters indicating the geometric shape of the line or curve may be stored. For example, if the geometric shape is a straight line, the starting point and the slope for expressing the straight line may be stored.
  • the type and format of threshold data may be determined and stored for each characteristic of the direct sound. Parameters may be stored for adjusting the threshold according to the characteristic of the direct sound and using it in the selection process. The process of adjusting the threshold according to the characteristic of the direct sound and using it in the selection process will be described later as a modified example of the threshold setting method.
  • the larger of the masking threshold and the echo detection limit threshold may be stored for each time difference (T) as shown in [Example 3] of FIG. 12C.
  • the larger of the minimum volume reproduced in the virtual space and the echo detection limit threshold may be stored for each time difference (T).
  • threshold data may be stored for each time difference (T).
  • the information about the threshold has a time item as a one-dimensional index.
  • the information about the threshold may also have a two-dimensional or three-dimensional index that further includes a variable related to the direction of arrival.
  • FIG. 15 is a diagram showing the relationship between the direction of direct sound, the direction of reflected sound, the time difference, and a threshold value.
  • a threshold value calculated in advance according to the relationship between the direction of direct sound ( ⁇ ), the direction of reflected sound ( ⁇ ), the time difference (T), and the volume ratio (L) may be stored.
  • the direction of the direct sound ( ⁇ ) corresponds to the angle of the direction from which the direct sound arrives relative to the listener.
  • the direction of the reflected sound ( ⁇ ) corresponds to the angle of the direction from which the reflected sound arrives relative to the listener.
  • the direction in which the listener is facing is defined as 0 degrees.
  • the time difference (T) corresponds to the difference between the arrival time of the direct sound and the arrival time of the reflected sound at the listening position.
  • the volume ratio (L) corresponds to the volume ratio between the volume of the direct sound when it arrives and the volume of the reflected sound when it arrives.
  • FIG. 15 mainly illustrates thresholds when the angle ( ⁇ ) of the direction from which the direct sound comes is 0 degrees. However, thresholds when the angle ( ⁇ ) of the direction from which the direct sound comes is other than 0 degrees are also stored in memory 1404.
  • the threshold value is stored in an array that has the angle of the direction of arrival of the direct sound ( ⁇ ) and the angle of the direction of arrival of the reflected sound ( ⁇ ) as independent variables or indexes.
  • the angle of the direction of arrival of the direct sound ( ⁇ ) and the angle of the direction of arrival of the reflected sound ( ⁇ ) do not have to be used as independent variables.
  • the angle difference between the angle ( ⁇ ) of the direction of arrival of the direct sound and the angle ( ⁇ ) of the direction of arrival of the reflected sound may be used.
  • This angle difference corresponds to the angle between the direction of arrival of the direct sound and the direction of arrival of the reflected sound, and may be expressed as the angle of arrival between the direct sound and the reflected sound.
  • FIG. 16 is a diagram showing the relationship between the angle difference, the time difference, and the threshold value.
  • a threshold value calculated in advance using the angle difference ( ⁇ ) between the angle ( ⁇ ) of the direction from which the direct sound arrives and the angle ( ⁇ ) of the direction from which the reflected sound arrives as a variable may be stored as in the example shown in FIG. 16.
  • the threshold value shown in FIG. 16 is just an example, and the threshold value is not limited to the example in FIG. 16.
  • the threshold data may be stored in a two-dimensional array.
  • the difference between the angle ( ⁇ ) of the direction of arrival of the direct sound and the angle ( ⁇ ) of the direction of arrival of the reflected sound may be calculated using a three-dimensional array.
  • multiple formats and multiple types of thresholds may be stored in the spatial information management unit (1201, 1211). Then, it may be determined which format and which type of threshold to use for the selection process of the reflected sound among the multiple formats and multiple types of thresholds. Specifically, as shown in example 3 of Figure 12C, the highest threshold may be adopted at the time difference (T) corresponding to the reflected sound arrival time.
  • a masking threshold, an echo detection limit threshold, and a threshold indicating the minimum volume to be reproduced in the virtual space may be stored. Then, the highest threshold may be adopted for the time difference (T) corresponding to the arrival time of the reflected sound.
  • FIG. 17 is a block diagram showing another example of the configuration of the rendering unit 1300 shown in FIG. 7.
  • the rendering unit 1300 in FIG. 17 differs from the rendering unit 1300 in FIG. 7 in that it includes a threshold adjustment unit 1304. Descriptions of components other than the threshold adjustment unit 1304 are omitted because they are the same as those described in FIG. 7.
  • the threshold adjustment unit 1304 selects a threshold to be used by the selection unit 1302 from the threshold data based on information indicating the properties of the audio signal. Alternatively, the threshold adjustment unit 1304 may adjust the threshold included in the threshold data based on information indicating the properties of the audio signal.
  • the information indicating the properties of the audio signal may be included in the input signal.
  • the threshold adjustment unit 1304 may then acquire the information indicating the properties of the audio signal from the input signal.
  • the analysis unit 1301 may derive the properties of the audio signal by analyzing the audio signal included in the received input signal, and output the information indicating the properties of the audio signal to the threshold adjustment unit 1304.
  • the information indicating the characteristics of the audio signal may be obtained before the rendering process begins, or may be obtained each time the rendering process is performed.
  • the threshold adjustment unit 1304 may not be included in the audio signal processing device 1001, and another communication device may fulfill the role of the threshold adjustment unit 1304.
  • the analysis unit 1301 or the selection unit 1302 may acquire information indicating the properties of the audio signal, threshold data according to the properties, or information for adjusting the threshold data according to the properties, from the other communication device via the communication IF 1403.
  • FIG. 18 is a flowchart showing another example of the selection process.
  • FIG. 19 is a flowchart showing yet another example of the selection process.
  • the threshold is set according to the characteristics of the direct sound. Specifically, in FIG. 18, the threshold adjustment unit 1304 identifies a threshold from the threshold data based on the time difference (T) and the characteristics of the audio signal. In FIG. 19, the threshold adjustment unit 1304 adjusts the threshold identified from the threshold data based on the time difference (T) based on the characteristics of the audio signal.
  • threshold data for each property of the direct sound is pre-stored in memory 1404.
  • multiple threshold data corresponding to multiple properties are pre-stored in memory 1404.
  • threshold adjustment unit 1304 identifies threshold data to be used in the selection process of the reflected sound from among the multiple threshold data.
  • the threshold adjustment unit 1304 acquires the characteristics of the direct sound based on the input signal (S211).
  • the threshold adjustment unit 1304 may acquire the characteristics of the direct sound associated with the input signal. Then, the threshold adjustment unit 1304 identifies a threshold corresponding to the time difference (T) and the characteristics of the direct sound (S212).
  • the threshold adjustment unit 1304 may adjust the threshold identified by the selection unit 1302 based on the characteristics of the direct sound (S221).
  • the input signal may include information indicating the characteristics of the audio signal, information for adjusting the threshold according to the characteristics of the audio signal, or both.
  • the threshold adjustment unit 1304 may adjust the threshold using one or both of them.
  • information indicating the characteristics of the audio signal, information for adjusting the threshold, or both may be transmitted in an input signal other than the input signal containing the audio signal.
  • the input signal containing the audio signal may contain information associating the other input signal with the input signal, or the information associating the other input signal with the input signal may be stored in memory 1404 together with information regarding the threshold.
  • the threshold used to select the reflected sound is set according to the properties of the direct sound, i.e., the properties of the audio signal.
  • threshold data set in advance for each property may be used, or as in Figure 19, the threshold may be adjusted according to the properties of the audio signal.
  • the parameters of the threshold data may be adjusted according to the properties of the audio signal.
  • the operation performed by the threshold adjustment unit 1304 may be performed by the analysis unit 1301 or the selection unit 1302.
  • the analysis unit 1301 may acquire the characteristics of the audio signal.
  • the selection unit 1302 may set the threshold according to the characteristics of the audio signal.
  • Non-Patent Document 1 Two short sounds that arrive at the listener's ears in succession will be heard as one sound if the time interval between them is short enough. This phenomenon is called the precedence effect. It is known that the precedence effect occurs only for discontinuous, i.e., transient, sounds (Non-Patent Document 1). Therefore, when the audio signal represents a stationary sound, the echo detection limit may be set lower than when the audio signal represents a non-stationary sound.
  • the threshold is set small. Also, the higher the stationarity, the smaller the threshold may be set.
  • the threshold adjustment unit 1304 or the analysis unit 1301 judges stationarity based on the amount of fluctuation in the frequency components of the audio signal over time. For example, if the amount of fluctuation is small, the stationarity is judged to be high. Conversely, if the amount of fluctuation is large, the stationarity is judged to be low. As a result of the judgment, a flag indicating the level of stationarity may be set, or a parameter indicating stationarity may be set according to the amount of fluctuation.
  • the threshold adjustment unit 1304 may adjust the threshold data or threshold based on information indicating stationarity, such as a flag or parameter indicating stationarity of the audio signal, and set the adjusted threshold data or threshold as the threshold data or threshold used by the selection unit 1302.
  • parameters for setting the threshold data according to information indicating the continuity of the direct sound may be stored in advance in the memory 1404.
  • the threshold adjustment unit 1304 may determine the continuity of the audio signal, and set the threshold data used to select the reflected sound based on the information and parameters indicating the continuity.
  • threshold adjustment unit 1304 may determine the continuity of the audio signal, select parameters of the threshold data based on the pattern of the continuity of the direct sound, and set threshold data to be used for selecting the reflected sound based on the parameters of the threshold data.
  • the constancy of the audio signal may be determined based on the amount of fluctuation in the frequency components of the audio signal each time the audio signal is input.
  • the continuity of the audio signal may be determined based on information indicating the continuity that is pre-linked to the audio signal. That is, information indicating the continuity of the audio signal may be pre-linked to the audio signal and stored in memory 1404.
  • the analysis unit 1301 may acquire the information indicating the continuity that is pre-linked to the audio signal each time an audio signal is input.
  • the threshold adjustment unit 1304 may adjust the threshold based on the information indicating the continuity that is pre-linked to the audio signal.
  • the range of application of the echo detection limit may be set shorter when the audio signal indicates a short sound (such as a click) than when the audio signal indicates a long sound. This process is based on the characteristics of the precedence effect.
  • Non-Patent Document 1 It is known that due to the precedence effect, two short sounds that arrive at a listener's ears in succession are heard as one sound if the time interval between them is sufficiently short.
  • the upper limit of this time interval depends on the length of the sound. For example, the upper limit of this time interval is about 5 ms for a click sound, but it can be as long as 40 ms for complex sounds such as human voices or music (Non-Patent Document 1).
  • a short threshold is set. Also, the shorter the duration of the direct sound, the shorter the threshold is set.
  • Setting a short threshold length means that a threshold is set that corresponds to the echo detection limit based on the characteristics of the precedence effect in a range where the time difference (T) between the direct sound and the reflected sound is small. Outside this range, a threshold corresponding to the echo detection limit based on the characteristics of the precedence effect is not set. In other words, outside this range, the threshold is small. Therefore, setting a short threshold length for a short sound can correspond to setting a small threshold for a short sound.
  • the threshold may be set lower when the direct sound is an intermittent sound (such as speech) than when the direct sound is a continuous sound (such as music).
  • the direct sound corresponds to speech
  • sound and silence parts are repeated, and in the silence parts, only the post-masking effect occurs as a masking effect.
  • the direct sound is a continuous sound such as music content
  • both the post-masking effect and the simultaneous masking effect due to the sound occurring at that time occur as masking effects. Therefore, the overall masking effect is higher in the case of music, etc. than in the case of speech, etc.
  • the threshold may be set higher for music, etc. than for speech, etc. Conversely, the threshold may be set lower for speech, etc. than for music, etc. In other words, if the direct sound has many intermittent parts, the threshold may be set lower.
  • the information indicating the characteristics of the direct sound may be information indicating the continuity, intermittency, duration, etc. of the direct sound. Furthermore, the information indicating the characteristics of the direct sound may be any combination of these. Furthermore, the information indicating the characteristics of the direct sound may be information indicating the time variation of any of these, or information indicating the time variation of any combination of these. In other words, the information indicating the characteristics of the direct sound may be information indicating the time variation of the direct sound.
  • the information indicating the properties of the direct sound may be time series data of frequency characteristics.
  • the frequency characteristics may be expressed in a commonly used format, such as a gain value for each frequency band, a Fourier series for a time axis signal, or an LPC coefficient or cepstrum coefficient for determining a frequency envelope.
  • the information indicating the characteristics of the direct sound may be information indicating the intermittency of the direct sound, which lists in time series multiple pairs of durations during which the amplitude of a signal is steady and the amplitude values of the signal during those periods (an outline of the amplitude envelope).
  • the amplitude values may be expressed as a ratio to a reference volume.
  • the information indicating the properties of the direct sound may be information regarding the frequency characteristics of the direct sound.
  • the information indicating the properties of the direct sound may be information indicating the constancy of the frequency characteristics of the direct sound.
  • the information indicating the properties of the direct sound may be information (an outline of a spectrogram) that lists in time series multiple pairs of durations during which the fluctuations in the frequency characteristics are small, and the frequency characteristics of the signal during those periods.
  • the volume used as a reference for the above frequency characteristics may be the reference volume.
  • the information indicating the time variation of the direct sound is information indicating the envelope of the direct sound.
  • the information indicating the time variation of the direct sound may be used when the "minimum audibility limit" described in [Example 4] of FIG. 12C is a threshold value.
  • the signal to be compared with the minimum audibility limit is the volume of the reflected sound.
  • the volume of the reflected sound is obtained by geometric calculation from information on the positions of the sound source, the listener, and the reflecting object. Specifically, the reference volume of the reflected sound relative to the reference volume of the sound source is obtained. By increasing or decreasing the reference volume of the reflected sound using information on the transition of the sound source's loudness as information indicating the properties of the direct sound, it is possible to accurately determine the volume of the reflected sound from moment to moment. The reason for this is that fluctuations in the volume of the sound source are reflected in fluctuations in the volume of the reflected sound.
  • the same result can be obtained by not adjusting the reference volume of the reflected sound, but instead adjusting the threshold based on the inverse of the information on the loudness transition of the sound source, and comparing the adjusted threshold with the reference volume of the reflected sound.
  • the reference volume of the reflected sound may be adjusted using the information on the loudness transition of the sound source, or the threshold may be adjusted using the information on the loudness transition of the sound source. Adjustment of the reference volume of the reflected sound and adjustment of the threshold correspond to each other.
  • the sound reflectance (the rate attenuation of sound due to reflection) varies for each frequency band depending on the composition of the surface of the object that reflects the sound. Therefore, as described below, a sound reflectance (attenuation rate) may be associated with each frequency band for each object that reflects sound. Using such reflectance information and spectrogram information, it is possible to more accurately determine whether or not to select the reflected sound. For example, the following process is performed.
  • spectrogram information shows that in a certain time period, high frequency components are more prevalent than low frequency components.
  • sound reflectance information shows that the reflectance of high frequency components is much smaller than that of low frequency components.
  • the volume of the reflected sound obtained by multiplying the frequency components indicated by the spectrogram information by the attenuation rate for each frequency band indicated by the reflectance information will be small, and the reflected sound may not be selected.
  • the information indicating the characteristics of the direct sound may be information indicating the time variation of the direct sound.
  • the information indicating the characteristics of the direct sound may indicate a value obtained by analyzing the direct sound for a predetermined length of time.
  • the information indicating the characteristics of the direct sound may be information obtained by calculating the average energy or average amplitude of the direct sound for each predetermined time length. Also, the information indicating the characteristics of the direct sound may be information obtained by calculating the energy or average amplitude of the direct sound for each short-term analysis length, and calculating a weighted average of the energy or average amplitude for each long-term analysis length that is longer than the short-term analysis length.
  • the information indicating the time variation of the direct sound may be information obtained by calculating the energy or average amplitude of the direct sound for each predetermined short time length (e.g., 5 ms; hereafter, frames of this time length will be referred to as analysis frames).
  • the information indicating the time variation of the direct sound may be information represented as a weighted average of the energy or average amplitude calculated in the past N-1 analysis frames.
  • the energy of the nth analysis frame is expressed as E(n)
  • the information indicating the properties of the direct sound I(n) can be calculated according to the following formula:
  • the parameter a(i) represents a weighting coefficient.
  • a(i) is set so that a(i) ⁇ 0 and the sum of a(i) is 1.
  • the method for setting a(i) is not limited to this.
  • information I(n) indicating the properties of the direct sound is calculated every 5 ms that the direct sound is captured. In other words, it is possible to calculate the time variation of information I(n) indicating the properties of the direct sound with low latency. Therefore, this method is suitable for application in applications that require real-time performance.
  • the parameter b(i) represents a weighting coefficient.
  • b(i) is set so that b(i) ⁇ 0 and the sum of b(i) is 1.
  • the method for setting b(i) is not limited to this.
  • formulas 1 and 2 can be considered as filters in which E(n) is the input signal and I(n) is the output signal.
  • formula 1 is a moving average (MA) model filter
  • formula 2 is an autoregressive (AR) model filter, both of which have the characteristics of a low-pass filter.
  • AR autoregressive
  • ARMA model filter that combines both may be used.
  • the method of deriving the information indicating the time variation of the direct sound is not limited to the above-mentioned formula or filter, and other known methods may be used.
  • the information indicating the time variation of the direct sound indicates a value obtained by analyzing the direct sound for a predetermined time length.
  • the direct sound may be analyzed from a perspective other than the average energy.
  • the information indicating the properties of the direct sound may be information related to the frequency characteristics of the direct sound.
  • the information related to the frequency characteristics of the direct sound may be information calculated using the frequency characteristics of the direct sound.
  • the information related to the frequency characteristics of the direct sound may be information obtained as the average energy of the low-frequency components by averaging the low-frequency components of the direct sound over a predetermined analysis length.
  • the low-frequency components of the direct sound are obtained by applying a filter with low-pass characteristics to the direct sound included in the analysis frame length. From the energy or average amplitude of these low-frequency components, information indicating the properties of the direct sound is derived, as in Equation 1 above.
  • parameter c(i) represents a weighting coefficient.
  • c(i) is set so that c(i) ⁇ 0 and the sum of c(i) is 1.
  • the method for setting c(i) is not limited to this.
  • information I(n) indicating the properties of the direct sound is calculated every 5 ms that the direct sound is captured. In other words, it is possible to calculate the time variation of information I(n) indicating the properties of the direct sound with low latency. Therefore, this method is suitable for application in applications that require real-time performance.
  • the parameter d(i) represents a weighting coefficient.
  • d(i) is set so that d(i) ⁇ 0 and the sum of d(i) is 1.
  • the method of setting d(i) is not limited to this.
  • formulas 3 and 4 can be considered as filters in which E(n) is the input signal and I(n) is the output signal.
  • formula 3 is a moving average (MA) model filter
  • formula 4 is an autoregressive (AR) model filter, both of which have the characteristics of a low-pass filter.
  • AR autoregressive
  • ARMA model filter that combines both may be used.
  • a filter with low-pass characteristics is used to determine the low-frequency components of the direct sound, but the method of determining the low-frequency components of the direct sound is not limited to this. Furthermore, the method of deriving information indicating the time variation of the direct sound is not limited to the above-mentioned formula or filter, and other known methods may be used.
  • the spectrum of the direct sound may be calculated by performing a frequency conversion on the direct sound. Then, the energy or average amplitude of the low-frequency components of the spectrum may be calculated.
  • an MA model or an AR model is used to derive information indicating the time variation of the direct sound.
  • the coefficients of these models may be predetermined fixed values, or may be variable values that vary over time.
  • the value of N in the above (Equation 1) and (Equation 3) in the MA filter may be approximately the value given by TU/TA.
  • b(i) and d(i) (1 ⁇ i ⁇ N) in the above (Equation 2) and (Equation 4) in the AR filter may be values such that the time constant of the filter is approximately TU (msec).
  • the reason for the above setting is that the filter is expected to converge within the information update interval.
  • I(n) may be calculated in advance. Then, the pre-calculated I(n) may be applied to the selection process of the reflected sound. For example, I(t+tau) may be used in the processing of the tth frame.
  • tau is a value determined according to the convergence characteristics of the filter. When the convergence is slow, the value of tau is larger than when the convergence is fast.
  • auditory masking (frequency masking) information calculated from the direct sound may be used as information indicating the characteristics of the direct sound.
  • the auditory masking information indicates a threshold value for the amplitude value in the frequency domain that is masked by the direct sound.
  • the amplitude value of the reflected sound in the same frequency domain may be compared with the threshold value, and processing may be performed to not select reflected sounds with amplitude values smaller than the threshold value.
  • the amplitude value of the reflected sound in the frequency domain may be obtained by the analysis unit 1301 as information indicating the characteristics of the reflected sound.
  • the process of detecting the properties of the direct sound, the process of determining the threshold according to the properties, and the process of adjusting the threshold according to the properties may be performed during the rendering process or before the rendering process begins.
  • these processes may be performed when the virtual space is created (when the software is created), when processing of the virtual space begins (when the software is launched or rendering begins), or when an information update thread occurs that occurs periodically in processing of the virtual space.
  • the virtual space when the virtual space is created, it may be the timing when the virtual space is constructed before the start of acoustic processing, or it may be when information about the virtual space (spatial information) is acquired, or it may be when the software is acquired.
  • processing is performed to update the spatial information managed by the spatial information management units (1201, 1211).
  • the role of the information update thread is, for example, to update the position and orientation of the listener's avatar placed in the virtual space based on the position and orientation of the VR goggles worn by the listener, or to update the position of objects moving in the virtual space.
  • Such processing is handled within a processing thread that runs at a relatively low frequency of around a few tens of Hz.
  • processing for updating information indicating the characteristics of the direct sound may be performed.
  • the reason for this is that the characteristics of the direct sound change less frequently than the frequency with which audio processing frames for audio output occur. This makes it possible to relatively reduce the computational load of the processing. Also, updating information at an unnecessarily high frequency runs the risk of generating pulsive noise. By updating information infrequently, it is possible to avoid such risks.
  • the threshold may be set according to the computational resources (CPU capacity, memory resources, PC performance, remaining battery power, etc.) that process the reproduction of the virtual space. More specifically, the sensor 1405 of the audio signal processing device 1001 detects the amount of computational resources, and if the amount of computational resources is small, the threshold is set high. As a result, the volume of more reflected sounds becomes smaller than the threshold, making it possible to reduce the reflected sounds that are subjected to binaural processing, and thus reducing the amount of computation.
  • the computational resources CPU capacity, memory resources, PC performance, remaining battery power, etc.
  • the threshold may be set high without even needing to detect the amount or remaining amount of computing resources.
  • the audio signal processing device 1001 or the audio presentation device 1002 may be provided with a threshold setting unit (not shown), so that the threshold may be set by an administrator or listener of the virtual space.
  • a listener wearing the audio presentation device 1002 may be able to select between an "energy saving mode" with less target reflected sound and less computational effort, and a "high performance mode” with more target reflected sound and more computational effort.
  • the mode may be selectable by an administrator managing the stereophonic sound reproduction system 1000 or a creator of the stereophonic sound content.
  • a threshold or threshold data may be directly selectable.
  • FIG. 20 is a flowchart showing a first modified example of the operation of the audio signal processing device 1001.
  • Fig. 20 mainly shows the processing executed by the rendering unit 1300 of the audio signal processing device 1001.
  • a volume compensation process is added to the operation of the rendering unit 1300.
  • the analysis unit 1301 acquires data (input signal) (S301). Next, the analysis unit 1301 analyzes the data (S302). Next, the selection unit 1302 determines whether or not to select a reflected sound based on the analysis result (S303). Next, the synthesis unit 1303 performs volume compensation processing based on the reflected sound that is not selected (S304). Next, the synthesis unit 1303 performs acoustic processing of the direct sound and the reflected sound (S305). Then, the synthesis unit 1303 outputs the direct sound and the reflected sound as audio (S306).
  • the volume compensation process is performed in response to reflected sounds that were not selected in the selection process. For example, a lack of sense of volume occurs when reflected sounds are not selected in the selection process.
  • the volume compensation process suppresses the sense of discomfort that accompanies this lack of sense of volume.
  • the following two methods are disclosed as examples of methods for compensating for the sense of volume. Either of the two methods may be used.
  • the synthesis unit 1303 generates a direct sound by increasing the volume of the direct sound by the amount of the volume of the unselected reflected sound. This compensates for the sense of volume that would be lost by not generating the reflected sound.
  • the synthesis unit 1303 may increase the volume for each frequency component according to the frequency characteristics of the reflected sound.
  • a decay rate of the volume attenuated by the reflecting object may be assigned for each predetermined frequency band. This makes it possible to derive the frequency characteristics of the reflected sound.
  • the synthesis unit 1303 adds the unselected reflected sound to the direct sound to generate a direct sound, thereby compensating for the sense of volume caused by not generating reflected sound.
  • the generated direct sound reflects the volume (amplitude), frequency, delay, etc. of the unselected reflected sound.
  • the amount of calculation required for the compensation process is extremely small, but only the volume is compensated for.
  • the amount of calculation required for the compensation process is greater than when using a method that increases the volume of direct sound, but the characteristics of the reflected sound are compensated for more accurately.
  • the reflected sound may simply be removed without performing any compensation process, since the sense of volume is not lost.
  • Fig. 21 is a flowchart showing a second modified example of the operation of the audio signal processing device 1001.
  • Fig. 21 shows the processing executed mainly by the rendering unit 1300 of the audio signal processing device 1001.
  • a left/right volume difference adjustment process is added to the operation of the rendering unit 1300.
  • the analysis unit 1301 analyzes an input signal (S401). Next, the analysis unit 1301 detects the direction from which the sound is coming (S402). Next, the selection unit 1302 adjusts the difference in volume between the sounds perceived by the left and right ears (S403). The selection unit 1302 also adjusts the difference in arrival time (delay) between the sounds perceived by the left and right ears (S404). The selection unit 1302 determines whether or not to select a reflected sound based on the adjusted sound information (S405).
  • FIG. 22 shows an example of the arrangement of an avatar, a sound source object, and an obstacle object.
  • the listener is facing at 0 degrees, and the polarity (e.g., positive or negative) of the direction from which the direct sound comes and the direction from which the reflected sound comes are different, as shown in FIG. 22, the difference in volume between the two ears is corrected.
  • the selection unit 1302 adjusts the volume of the direct sound to match the position of the ear that primarily perceives the reflected sound, as a left/right volume difference adjustment (S403). For example, the selection unit 1302 attenuates the volume of the direct sound when it reaches the listener by multiplying the volume by (1.0-0.3 sin( ⁇ )) (0 ⁇ 180).
  • the selection unit 1302 calculates the volume ratio between the volume of the direct sound corrected as described above and the volume of the reflected sound, and compares the calculated volume ratio with a threshold value to determine whether to select the reflected sound. This corrects the volume difference between the two ears, derives the volume of the direct sound that affects the reflected sound more accurately, and makes it possible to more accurately determine whether to select the reflected sound.
  • the selection unit 1302 may also delay the arrival time of the direct sound as a delay adjustment (S404) in accordance with the position of the ear that perceives the reflected sound. Specifically, the selection unit 1302 may delay the arrival time of the direct sound by adding (a(sin ⁇ + ⁇ )/c) ms (where a is the radius of the head and c is the speed of sound) to the arrival time of the direct sound.
  • FIG. 23 is a flowchart showing yet another example of the selection process. A description of the process common to the example of FIG. 14 will be omitted.
  • the selection unit 1302 selects a reflected sound using a threshold value according to the direction of arrival.
  • the selection unit 1302 calculates the direct sound arrival direction ( ⁇ ) and the reflected sound arrival direction ( ⁇ ) based on the direct sound arrival path (pd), the reflected sound arrival path (pr), and the avatar orientation information D calculated by the analysis unit 1301. That is, the selection unit 1302 detects the direct sound arrival direction ( ⁇ ) and the reflected sound arrival direction ( ⁇ ) (S231). The orientation of the avatar corresponds to the orientation of the listener.
  • the avatar orientation information D may be included in the input signal.
  • the selection unit 1302 uses three indexes including the direct sound arrival direction ( ⁇ ), the reflected sound arrival direction ( ⁇ ) and the time difference (T) to identify the threshold value to be used in the selection process from a three-dimensional array such as that shown in FIG. 15 (S232).
  • position information of the avatar, sound source object, and obstacle object, as well as orientation information D of the avatar are obtained.
  • orientation information D the direction of the direct sound ( ⁇ ) and the direction of the sound image of the reflected sound ( ⁇ ) are calculated when the orientation of the avatar is set to 0 degrees.
  • the direction of the direct sound ( ⁇ ) is about 20 degrees
  • the direction of the sound image of the reflected sound ( ⁇ ) is about 265 degrees (-95 degrees).
  • a threshold is identified from the array area corresponding to the values of the two directions ( ⁇ ) and ( ⁇ ) and the value of the time difference (T) calculated by the analysis unit 1301. If there is no index corresponding to the calculated values of ( ⁇ ), ( ⁇ ), and (T), a threshold corresponding to the closest index may be identified.
  • the threshold value may be determined by performing a process such as interpolation, in-placement, or extrapolation based on one or more threshold values corresponding to one or more indexes close to the calculated values of ( ⁇ ), ( ⁇ ), and (T).
  • a threshold value corresponding to (20°, 265°, T) may be determined based on four threshold values corresponding to four indexes, (0°, 225°, T), (0°, 270°, T), (45°, 225°, T), and (45°, 270°, T).
  • This section explains the selection process based on the difference between the angle of the direct sound arrival direction ( ⁇ ) and the angle of the reflected sound arrival direction ( ⁇ ).
  • threshold data having the angle difference ( ⁇ ) between the direction of arrival of the direct sound ( ⁇ ) and the direction of arrival of the reflected sound ( ⁇ ) and the time difference (T) as a two-dimensional index array as shown in FIG. 16 may be created and set in advance.
  • the angle difference ( ⁇ ) and the time difference (T) are referenced in the selection process.
  • the angle difference ( ⁇ ) between the angle of the direction of arrival of the direct sound ( ⁇ ) and the angle of the direction of arrival of the reflected sound ( ⁇ ) may be calculated in the selection process, and the calculated angle difference ( ⁇ ) may be used to identify the threshold.
  • threshold data may be set that has, as an index array, a combination of the angle difference ( ⁇ ), the direction of arrival of the direct sound ( ⁇ ), and the time difference (T), or a combination of the angle difference ( ⁇ ), the direction of arrival of the reflected sound ( ⁇ ), and the time difference (T).
  • threshold data may be set that has the values of ( ⁇ ), ( ⁇ ), and (T) as a three-dimensional index array, as shown in FIG. 15.
  • FIG. 24 is a block diagram showing an example of the configuration for the rendering unit 1300 to perform pipeline processing.
  • the rendering unit 1300 in FIG. 24 includes a reverberation processing unit 1311, an early reflection processing unit 1312, a distance attenuation processing unit 1313, a selection unit 1314, a generation unit 1315, and a binaural processing unit 1316. These multiple components may be composed of multiple components of the rendering unit 1300 shown in FIG. 7, or may be composed of at least some of the multiple components of the audio signal processing device 1001 shown in FIG. 5.
  • Pipeline processing refers to dividing the process for creating sound effects into multiple processes and executing the multiple processes one by one in sequence. Each of the multiple processes performs, for example, signal processing on an audio signal, or the generation of parameters used in signal processing.
  • the rendering unit 1300 may perform reverberation processing, early reflection processing, distance attenuation processing, binaural processing, and the like as pipeline processing.
  • these processes are merely examples, and the pipeline processing may include other processes than these, or may not include some of the processes.
  • the pipeline processing may include diffraction processing and occlusion processing.
  • reverberation processing may be omitted if it is not necessary.
  • Each process may be expressed as a stage.
  • audio signals such as reflected sounds generated as a result of each process may be expressed as rendering items.
  • the multiple stages in pipeline processing and their order are not limited to the example shown in FIG. 24.
  • the parameters used in the selection process are calculated at one of multiple stages for generating a rendering item.
  • the parameters used to select reflected sound are calculated as part of the pipeline processing for generating a rendering item. Note that not all stages need to be performed by the rendering unit 1300. For example, some stages may be omitted, or may be performed outside the rendering unit 1300.
  • reverberation processing early reflection processing, distance attenuation processing, selection processing, generation processing, and binaural processing that may be included as stages in the pipeline processing.
  • metadata included in the input signal may be analyzed to calculate parameters used to generate the reflected sound.
  • the reverberation processor 1311 In reverberation processing, the reverberation processor 1311 generates an audio signal indicating reverberation sound, or parameters used to generate an audio signal.
  • Reverberation sound is sound that reaches the listener as reverberation after direct sound.
  • reverberation sound is sound that reaches the listener after being reflected more times (e.g., several tens of times) than the initial reflection sound, at a relatively late stage (e.g., about 150 ms after the direct sound arrives) after the initial reflection sound described below reaches the listener.
  • the reverberation processor 1311 refers to the audio signal and spatial information contained in the input signal, and calculates the reverberation using a predetermined function prepared in advance as a function for generating the reverberation.
  • the reverberation processor 1311 may generate reverberation sound by applying a known reverberation generation method to the audio signal included in the input signal.
  • a known reverberation generation method is the Schroeder method, but known reverberation generation methods are not limited to the Schroeder method.
  • the reverberation processor 1311 uses the shape and acoustic characteristics of the sound reproduction space indicated by the spatial information. This allows the reverberation processor 1311 to calculate parameters for generating reverberation sound.
  • the early reflection processor 1312 calculates parameters for generating early reflection sounds based on spatial information.
  • Early reflection sounds are reflected sounds that arrive at the listener after one or more reflections at a relatively early stage (e.g., about several tens of milliseconds after the direct sound arrives) after the direct sound from the sound source object arrives at the listener.
  • the early reflection processing unit 1312 refers to the audio signal and metadata and calculates the path of the reflected sound that travels from the sound source object to the listener after being reflected by the reflecting object.
  • the shape of the three-dimensional sound field (space), the size of the three-dimensional sound field, the position of the reflecting object such as a structure, and the reflectance of the reflecting object may be used in calculating the path.
  • the early reflection processing unit 1312 may also calculate the path of the direct sound.
  • the information on the path may be used as a parameter by which the early reflection processing unit 1312 generates the early reflected sound, or may be used as a parameter by which the selection unit 1314 selects the reflected sound.
  • the distance attenuation processing unit 1313 calculates the volume of the direct sound and reflected sound that reach the listener based on the path length of the direct sound and reflected sound.
  • the volume of the direct sound and reflected sound that reach the listener attenuates in proportion to the distance of the path to the listener (inversely proportional to the distance) relative to the volume of the sound source. Therefore, the distance attenuation processing unit 1313 can calculate the volume of the direct sound by dividing the volume of the sound source by the length of the path of the direct sound, and can calculate the volume of the reflected sound by dividing the volume of the sound source by the path length of the reflected sound.
  • the selection unit 1314 selects the reflected sound to be generated based on the parameters calculated before the selection process. Any of the selection methods disclosed herein may be used to select the reflected sound to be generated.
  • the selection process may be performed on all reflected sounds, or may be performed only on reflected sounds with high evaluation values based on the evaluation process as described above. In other words, reflected sounds with low evaluation values may be determined not to be selected without even undergoing the selection process. For example, a reflected sound with a very low volume may be considered to have a low evaluation value and may be determined not to be selected.
  • a selection process may be performed on all reflected sounds. Then, the evaluation values of the reflected sounds selected in the selection process may be determined, and reflected sounds with low evaluation values may be re-determined as not being selected.
  • the selection process and the evaluation process may be executed independently of each other, or may be executed in combination. When the selection process and the evaluation process are executed in combination, either of the two processes may be executed first.
  • the generation unit 1315 generates direct sound and reflected sound. For example, the generation unit 1315 generates direct sound from the audio signal included in the input signal based on the arrival time and volume of the direct sound at the time of arrival. In addition, the generation unit 1315 generates reflected sound from the audio signal included in the input signal for the reflected sound selected in the selection process based on the arrival time and volume of the reflected sound at the time of arrival.
  • the binaural processing unit 1316 performs signal processing so that the audio signal of the direct sound is perceived by the listener as a sound arriving from the direction of the sound source object. Furthermore, the binaural processing unit 1316 performs signal processing so that the reflected sound selected by the selection unit 1314 is perceived by the listener as a sound arriving from the reflecting object.
  • the binaural processing unit 1316 performs processing to apply the HRIR DB so that sound arrives at the listener from the position of a sound source object or the position of an obstacle object based on the listener's position and orientation in the sound space.
  • HRIR Head-Related Impulse Responses
  • HRIR is the response characteristic when one impulse is generated.
  • HRIR is a response characteristic obtained by converting the head-related transfer function, which expresses the changes in sound caused by surrounding objects including the auricle, the human head, and shoulders as a transfer function, from a frequency domain expression to a time domain expression using a Fourier transform.
  • the HRIR DB is a database that contains this kind of information.
  • the position and orientation of the listener in the sound space are, for example, the position and orientation of the virtual listener in the virtual sound space.
  • the position and orientation of the virtual listener in the virtual sound space may change in accordance with the movement of the listener's head.
  • the position and orientation of the virtual listener in the virtual sound space may be determined based on information acquired from the sensor 1405.
  • the programs, spatial information, HRIR DB, threshold data, and other parameters used in the above processing are obtained from the memory 1404 provided in the audio signal processing device 1001 or from outside the audio signal processing device 1001.
  • the pipeline processing may also include other processes.
  • the rendering unit 1300 may also include processing units (not shown) for performing other processes included in the pipeline processing.
  • the rendering unit 1300 may include a diffraction processing unit and an occlusion processing unit.
  • the diffraction processing unit executes processing to generate an audio signal that indicates sound including diffracted sound caused by an obstacle object between the listener and the sound source object in a three-dimensional sound field (space).
  • diffracted sound is sound that travels from the sound source object to the listener, going around the obstacle object.
  • the diffraction processing unit refers to the audio signal and metadata, calculates the path of the diffracted sound that travels from the sound source object to the listener, bypassing the obstacle object, and generates the diffracted sound based on the path.
  • the positions of the sound source object, the listener, and the obstacle object in the three-dimensional sound field (space), as well as the shape and size of the obstacle object, etc. may be used.
  • the occlusion processor When a sound source object is present behind an obstacle object, the occlusion processor generates an audio signal for the sound that leaks from the sound source object through the obstacle object based on spatial information and information such as the material of the obstacle object.
  • the position information given to the sound source object indicates a "point” in the virtual space as the position of the sound source object. That is, in the above, the sound source is defined as a "point sound source.”
  • a sound source in a virtual space may be defined as an object having length, size, shape, etc., that is, as a spatially extended sound source that is not a point sound source.
  • the distance between the listener and the sound source and the direction from which the sound comes are not determined. Therefore, the reflected sound caused by such a sound source may be limited to being selected by the selection unit 1302 without analysis by the analysis unit 1301 or regardless of the analysis results. This makes it possible to avoid deterioration in sound quality that may occur by not selecting the reflected sound.
  • a representative point such as the center of gravity of the object may be determined, and the processing of the present disclosure may be applied on the assumption that sound is generated from that representative point.
  • the threshold may be adjusted according to information on the spatial extension of the sound source.
  • a direct sound is a sound that is not reflected by a reflecting object
  • a reflected sound is a sound that is reflected by a reflecting object.
  • a direct sound may be a sound that arrives at a listener from a sound source without being reflected by a reflecting object
  • a reflected sound may be a sound that arrives at a listener from a sound source after being reflected by a reflecting object.
  • each of the direct sound and the reflected sound is not limited to the sound that has arrived at the listener, but may be the sound before it arrives at the listener.
  • the direct sound may be the sound output from the sound source, or in other words, the sound of the sound source.
  • FIG. 25 is a diagram showing sound transmission and diffraction. As shown in FIG. 25, there are cases where direct sound does not reach the listener due to the presence of an obstacle object between the sound source object and the listener. In this case, sound that is emitted from the sound source object, passes through the obstacle object, and reaches the listener may be considered as direct sound. And sound that is emitted from the sound source object, is diffracted by the obstacle object, and reaches the listener may be considered as reflected sound.
  • the two sounds compared in the selection process are not limited to a direct sound and a reflected sound based on a sound emitted by a single sound source.
  • a sound may be selected by comparing two reflected sounds based on a sound emitted by a single sound source.
  • the direct sound in this disclosure may be interpreted as the sound that reaches the listener first, and the reflected sound in this disclosure may be interpreted as the sound that reaches the listener later.
  • the bit stream includes, for example, an audio signal and metadata.
  • the audio signal is sound data that represents sound, and indicates information about the frequency and intensity of the sound.
  • the metadata includes spatial information about the sound space, which is the space of the sound field.
  • spatial information is information about the space in which a listener who hears sound based on an audio signal is located.
  • spatial information is information about a specific position (localization position) for localizing a sound image at that position in a sound space (e.g., a three-dimensional sound field), that is, for allowing the listener to perceive sound coming from a direction corresponding to the specific position.
  • Spatial information includes, for example, sound source object information and position information indicating the position of the listener.
  • Sound source object information is information about a sound source object that generates sound based on an audio signal.
  • sound source object information is information about an object (sound source object) that reproduces an audio signal, and is information about a virtual sound source object that is placed in a virtual sound space.
  • the virtual sound space may correspond to a real space in which an object that generates sound is placed, and the sound source object in the virtual sound space may correspond to an object that generates sound in the real space.
  • the sound source object information may indicate the position of the sound source object placed in the sound space, the orientation of the sound source object, the directionality of the sound emitted by the sound source object, whether the sound source object belongs to a living thing, and whether the sound source object is a moving object.
  • the audio signal is associated with one or more sound source objects indicated by the sound source object information.
  • the bitstream has a data structure that consists of, for example, metadata (control information) and an audio signal.
  • the audio signal and metadata may be contained in a single bitstream or may be contained separately in multiple bitstreams. Also, the audio signal and metadata may be contained in a single file or may be contained separately in multiple files.
  • a bitstream may exist for each sound source, or for each playback time. Even if a bitstream exists for each playback time, multiple bitstreams may be processed in parallel at the same time.
  • Metadata may be added to each bitstream, or may be added to multiple bitstreams collectively as information for controlling multiple bitstreams. In this case, multiple bitstreams may share metadata. Metadata may also be added for each playback time.
  • one or more of the bitstreams or one or more of the files may contain information indicating the associated bitstreams or associated files.
  • each of all of the bitstreams or each of all of the files may contain information indicating the associated bitstreams or associated files.
  • the related bitstreams or related files are, for example, bitstreams or files that may be used simultaneously during audio processing. Also, a bitstream or file that collectively describes information indicating related bitstreams or related files may be included.
  • the information indicating the related bitstream or related file may be, for example, an identifier indicating the related bitstream or related file.
  • the information indicating the related bitstream or related file may be, for example, a file name indicating the related bitstream or related file, a URL (Uniform Resource Locator), or a URI (Uniform Resource Identifier), etc.
  • the acquisition unit identifies and acquires the related bitstream or related file based on the information indicating the related bitstream or related file.
  • a bitstream or file may contain information indicating the related bitstream or related file, and another bitstream or another file may contain information indicating the related bitstream or related file.
  • the file containing information indicating the associated bitstream or associated file may be a control file such as a manifest file used for content distribution.
  • All or some of the metadata may be obtained from a source other than the bitstream of the audio signal.
  • the metadata for controlling the sound or the metadata for controlling the video may be obtained from a source other than the bitstream, or both may be obtained from a source other than the bitstream.
  • Metadata for controlling the video may be included in the bitstream acquired by the stereophonic sound reproduction system 1000.
  • the stereophonic sound reproduction system 1000 may output the metadata for controlling the video to a display device that displays the image, or a stereophonic video reproduction device that reproduces the stereophonic video.
  • the metadata may be information used to describe a scene represented in sound space, the term scene being used to refer to the collection of all elements representing 3D video and audio events in sound space that are modeled by the stereophonic reproduction system 1000 using the metadata.
  • the metadata may include not only information for controlling audio processing, but also information for controlling video processing.
  • the metadata may include only one of information for controlling audio processing and information for controlling video processing, or may include both.
  • the stereophonic sound reproduction system 1000 performs acoustic processing on the audio signal using metadata included in the bitstream and interactive listener position information that is additionally acquired, thereby generating virtual acoustic effects.
  • acoustic effects early reflection processing, obstacle processing, diffraction processing, blocking processing, and reverberation processing may be performed, and other acoustic processing may be performed using metadata.
  • acoustic effects such as distance attenuation effect, localization, or Doppler effect may be added.
  • information for switching all or some of the sound effects on and off, or priority information for multiple sound effect processes may be added to the metadata.
  • the metadata includes information about a sound space including sound source objects and obstacle objects, and information about a localization position for localizing a sound image at a specific position within the sound space (i.e., allowing a listener to perceive a sound coming from a specific direction).
  • an obstacle object is an object that may affect the sound perceived by the listener, for example by blocking or reflecting the sound emitted by the sound source object before it reaches the listener.
  • Obstacle objects may include stationary objects as well as moving objects such as animals or machines. Animals may also be people, etc.
  • the other sound source objects can be obstacle objects for any of the sound source objects.
  • non-sound-making objects which are objects that do not emit sound such as building materials or inanimate objects
  • sound source objects that emit sound can be obstacle objects.
  • the metadata includes information that represents all or part of the shape of the sound space, the shape and position of obstacle objects in the sound space, the shape and position of sound source objects in the sound space, and the position and orientation of the listener in the sound space.
  • the sound space may be either a closed space or an open space.
  • the metadata may also include information that indicates the reflectance of obstacle objects that may reflect sound in the sound space. For example, the floor, walls, or ceiling that form the boundaries of the sound space may also constitute obstacle objects.
  • Reflectance is the ratio of the energy of reflected sound to incident sound, and may be set for each frequency band of sound. Of course, reflectance may be set uniformly regardless of the frequency band of sound. When the sound space is an open space, parameters such as attenuation rate, diffracted sound, and early reflected sound that are set uniformly may be used.
  • the metadata may include information other than reflectance as a parameter related to an obstacle object or sound source object.
  • the metadata may include information related to the material of the object as a parameter related to both sound source objects and non-sound-producing objects.
  • the metadata may include information such as diffusion rate, transmittance, and sound absorption rate.
  • Information about a sound source object may include information indicating the volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources in an object, and the sound source area in the object.
  • the playback conditions may, for example, determine whether the sound is a sound that continues to play continuously or a sound that triggers an event.
  • the sound source area in the object may be determined by the relative relationship between the position of the listener and the position of the object, or may be determined using the object as a reference.
  • the sound source area is determined based on the relative relationship between the listener's position and the object's position, it is possible for the listener to perceive sound A coming from the right side of the object and sound B coming from the left side of the object.
  • the sound source area is determined using an object as a reference, it is possible to fix which area of the object will emit which sound, using the object as a reference. For example, if a listener views the object from the front, it is possible for the listener to perceive a high-pitched sound from the right side of the object and a low-pitched sound from the left side of the object. And, if the listener views the object from the back, it is possible for the listener to perceive a low-pitched sound from the right side of the object and a high-pitched sound from the left side of the object.
  • Spatial metadata may include time to early reflections, reverberation time, and the ratio of direct sound to diffuse sound. If the ratio of direct sound to diffuse sound is zero, it is possible for the listener to perceive only direct sound.
  • a process executed by a specific component may be executed by another component instead of the specific component.
  • the order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • ordinal numbers such as first and second used in the description may be changed, removed, or newly added as appropriate. These ordinal numbers do not necessarily correspond to a meaningful order and may be used to identify elements.
  • being equal to or greater than the threshold value and being greater than the threshold value may be interpreted as interchangeable.
  • being equal to or less than the threshold value and being smaller than the threshold value may be interpreted as interchangeable.
  • time and hour may be interpreted as interchangeable.
  • the process of selecting one or more processing target sounds from a plurality of sounds if there is no sound that satisfies the conditions, then none of the sounds may be selected as processing target sounds.
  • the process of selecting one or more processing target sounds from a plurality of sounds may include cases in which no processing target sound is selected.
  • an expression "at least one of a first element, a second element, and a third element” may correspond to a first element, a second element, a third element, or any combination thereof.
  • the aspects understood based on this disclosure are described as being implemented as an audio processing device, an encoding device, or a decoding device.
  • the aspects understood based on this disclosure are not limited to these, and may be implemented as software for executing an audio processing method, an encoding method, or a decoding method.
  • a program for executing the above-mentioned acoustic processing method, encoding method, or decoding method may be stored in the ROM in advance.
  • the CPU may then operate according to the program.
  • a program for executing the above-mentioned acoustic processing method, encoding method, or decoding method may be stored in a computer-readable recording medium.
  • the computer may then record the program stored in the recording medium in the computer's RAM and operate according to the program.
  • the above components may be realized as an LSI, which is an integrated circuit typically having input and output terminals. These may be individually formed into single chips, or may be formed into a single chip that includes all or some of the components of the embodiments. Depending on the degree of integration, the LSI may be expressed as an IC, a system LSI, a super LSI, or an ultra LSI.
  • LSI LSI
  • a dedicated circuit or a general-purpose processor may be used.
  • a programmable FPGA or a reconfigurable processor that allows the connections or settings of circuit cells inside the LSI to be reconfigured may be used.
  • an integrated circuit technology that can replace LSI emerges due to advances in semiconductor technology or a different derived technology, naturally that technology may be used to integrate components. The application of biotechnology, etc. is also a possibility.
  • the FPGA or CPU, etc. may download all or part of the software for realizing the acoustic processing method, encoding method, or decoding method described in this disclosure via wireless or wired communication. Furthermore, all or part of the software for updates may be downloaded via wireless or wired communication. Then, the FPGA or CPU, etc. may store the downloaded software in memory and operate based on the stored software to execute the digital signal processing described in this disclosure.
  • the device equipped with an FPGA or a CPU, etc. may be connected to the signal processing device wirelessly or via a wire, or may be connected to the signal processing server via a network.
  • This device and the signal processing device or the signal processing server may then carry out the acoustic processing method, encoding method, or decoding method described in this disclosure.
  • the sound processing device, encoding device, or decoding device in this disclosure may include an FPGA or a CPU, etc.
  • the sound processing device, encoding device, or decoding device may include an interface for obtaining software for operating the FPGA or CPU, etc. from the outside, and a memory for storing the obtained software. Then, the FPGA or CPU, etc. may execute the signal processing described in this disclosure by operating based on the stored software.
  • a server may provide software related to the acoustic processing, encoding processing, or decoding processing of the present disclosure. Then, a terminal or device may operate as the acoustic processing device, encoding device, or decoding device described in the present disclosure by installing the software. Note that the terminal or device may be connected to the server via a network and the software may be installed.
  • a device other than the terminal or device may connect to a server via a network to obtain data for installing the software, and the other device may provide the data for installing the software to the terminal or device, thereby installing the software in the terminal or device.
  • the software may be VR software or AR software for causing a terminal or device to execute the acoustic processing method described in the embodiment.
  • each component may be configured with dedicated hardware, or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or processor reading and executing a software program recorded on a recording medium such as a hard disk or semiconductor memory.
  • a sound processing device that includes a circuit and a memory, the circuit uses the memory to acquire sound space information about a sound space, acquires characteristics of a first sound generated from a sound source in the sound space based on the sound space information, and controls whether or not to select a second sound generated in the sound space corresponding to the first sound based on the characteristics of the first sound.
  • the characteristic related to the first sound is a volume ratio between the volume of the direct sound and the volume of the reflected sound, and the circuit calculates the volume ratio based on the sound space information and controls whether or not to select the reflected sound based on the volume ratio.
  • the circuit selects the reflected sound when the volume ratio is equal to or greater than a threshold, and a first threshold used as the threshold when the time difference is a first value is greater than a second threshold used as the threshold when the time difference is a second value greater than the first value.
  • a sound processing device as described in Technology 5.
  • volume ratio is the volume ratio between the volume of the direct sound at a first time and the volume of the reflected sound at a second time different from the first time.
  • the circuit obtains a threshold value indicating a volume corresponding to the boundary between whether a sound can be heard and whether the second sound is selected based on the characteristics of the first sound, the characteristics of the second sound, and the threshold value.
  • a sound processing device according to any one of techniques 1 to 24, in which the sound space information includes information on the position of the listener in the sound space, the second sounds are each of a plurality of second sounds generated in the sound space in response to the first sound, and the circuit selects one or more processing target sounds to which binaural processing is applied from among the first sound and the plurality of second sounds by controlling whether or not to select each of the plurality of second sounds based on characteristics related to the first sound.
  • Timing for acquiring the characteristics related to the first sound is at least one of when the sound space is created, when processing of the sound space starts, and when an information update thread occurs during processing of the sound space.
  • the sound processing device according to any one of Technologies 1 to 30, wherein the sound space information is scene information including information on the sound source in the sound space and information on the position of the listener in the sound space, the second sound is each of a plurality of second sounds generated in the sound space corresponding to the first sound, and the circuit acquires a signal of the first sound, calculates the plurality of second sounds based on the scene information and the signal of the first sound, acquires characteristics related to the first sound from the information on the sound source, and controls whether or not to select each of the plurality of second sounds as a sound to which binaural processing is not applied based on the characteristics related to the first sound, thereby selecting one or more second sounds to which binaural processing is not applied from among the plurality of second sounds.
  • the sound space information is scene information including information on the sound source in the sound space and information on the position of the listener in the sound space
  • the second sound is each of a plurality of second sounds generated in the sound space corresponding to the first sound
  • the circuit acquires a signal
  • a sound processing device according to any one of technologies 1, 2, 13, 16-18, 25-27, and 31-33, wherein the characteristic related to the first sound is a characteristic that indicates, in a time series, a plurality of pairs each consisting of a pair of a duration during which the amplitude value of the first sound is a representative amplitude value and the representative amplitude value for that duration.
  • a sound processing device according to any one of technologies 1, 2, 13, 15, 19, and 20, wherein the characteristic related to the first sound is a characteristic indicating a duration during which a state in which the amount of fluctuation in the frequency characteristic is lower than a predetermined threshold continues.
  • the characteristic related to the first sound is a characteristic that indicates, in a time series, a plurality of pairs each consisting of a combination of a duration during which the amount of fluctuation in the frequency characteristic continues to be lower than a predetermined threshold value and the frequency characteristic during that duration.
  • a sound processing device according to any one of technologies 1, 2, 13-24, and 34-37, in which the circuit acquires a threshold value indicating a volume corresponding to the boundary between whether a sound can be heard and whether not, calculates the volume of the second sound based on characteristics related to the first sound, and selects the second sound if the volume of the second sound is greater than the threshold value.
  • the sound space information is scene information including information on the sound source in the sound space and information on the position of the listener in the sound space, the second sound is each of a plurality of second sounds generated in the sound space corresponding to the first sound, the circuit acquires a signal of the first sound, calculates the plurality of second sounds based on the scene information and the signal of the first sound, acquires characteristics related to the first sound from the information on the sound source, and controls whether or not to select each of the plurality of second sounds as a sound to which binaural processing is applied based on the characteristics related to the first sound, thereby selecting one or more processing target sounds to which the binaural processing is applied from among the first sound and the plurality of second sounds, the scene information is updated based on input information, the characteristics related to the first sound are acquired in response to updates of the scene information, and the scene information is updated less frequently than the frequency with which the binaural processing is applied to the one or more processing target sounds.
  • a sound processing method including the steps of: acquiring sound space information about a sound space; acquiring characteristics of a first sound generated from a sound source in the sound space based on the sound space information; and controlling whether or not to select a second sound generated in the sound space corresponding to the first sound based on the characteristics of the first sound.
  • the present disclosure includes aspects that can be applied, for example, to an audio processing device, an encoding device, a decoding device, or a terminal or device equipped with any of these devices.
  • Audio signal processing device 1002 Audio presentation device 1100, 1120, 1500 Encoding device 1101, 1113 Input data 1102 Encoder 1103 Encoded data 1104, 1114, 1404, 1503 Memory 1110, 1130 Decoding device 1111 Audio signal 1112, 1200, 1210 Decoder 1121 Transmitting unit 1122 Transmitted signal 1131 Receiving unit 1132 Received signal 1201, 1211 Spatial information management unit 1202 Audio data decoder 1203, 1213, 1300 Rendering unit 1301 Analysis unit 1302, 1314 Selection unit 1303 Synthesis unit 1304 Threshold adjustment unit 1311 Reverberation processing unit 1312 Early reflection processing unit 1313 Distance attenuation processing unit 1315 Generation unit 1316 Binaural processing unit 1401 Speaker 1402, 1501 Processor 1403, 1502 Communication IF 1405 Sensor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

音響処理装置(1001)は、回路(1402)とメモリ(1404)とを備え、回路(1402)はメモリ(1404)を用いて、音空間に関する音空間情報を取得し、音空間情報に基づいて、音空間において音源から生じる第1音に関する特性を取得し、第1音に関する特性に基づいて、音空間において第1音に対応して生じる第2音を選択するか否かを制御する。

Description

音響処理装置及び音響処理方法
 本開示は、音響処理装置等に関する。
 近年、VR(Virtual Reality)、AR(Augmented Reality)及びMR(Mixed Reality)を含むER(Extended Reality)(XRとも表現され得る)を利用した商品及びサービスの普及が進んでいる。これに伴い、仮想空間又は実空間において、仮想的な音源が発した音に対して当該空間の環境に応じて生じる音響効果を付与してイマーシブオーディオ(Immersive Audio)を受聴者に提供する音響処理技術の重要性が向上している。
 なお、受聴者は、リスナ又はユーザとも表現され得る。また、特許文献1、特許文献2、特許文献3及び非特許文献1には、本開示の音響処理装置及び音響処理方法に関連する技術が示されている。
特許第6288100号公報 特開2019-22049号公報 国際公開第2021/180938号
B.C.J.ムーア著、「聴覚心理学概論」、誠信書房、1994/4/20、第6章:空間知覚、p.225
 例えば、特許文献1には、オブジェクトオーディオ信号に対して信号処理を施して受聴者に提示する技術が開示されている。ER技術の普及及びER技術を用いたサービスの多様化に伴い、例えば、各サービスで要求される音響品質、利用する端末の信号処理能力、及び、音提示デバイスの提供可能な音質等の違いに応じた音響処理が求められている。また、その提供のために音響処理技術の更なる改良が求められている。
 ここで、音響処理技術の改良とは、既存の音響処理に対する変更である。例えば、音響処理技術の改良は、新しい音響効果を付与する処理、音響処理の処理量の削減、音響処理で得られる音声の品質の向上、音響処理の実施に用いられる情報のデータ量の削減、又は、音響処理の実施に用いられる情報の取得又は生成の容易化等を提供する。あるいは、音響処理技術の改良は、これらのうち任意の2つ以上の組み合わせを提供してもよい。
 特に、受聴者が仮想空間内を自由に移動することができる機器又はサービスにおいてそれらの改良が求められる。ただし、音響処理技術の改良で得られる上記の効果はあくまでも例である。本開示に基づいて把握される1つ以上の態様は、上記とは異なる観点に基づいて想到された態様、上記とは異なる目的を達成する態様、又は、上記とは異なる効果が得られる態様であってもよい。
 本開示に基づいて把握される一態様に係る音響装置は、回路とメモリとを備え、前記回路は前記メモリを用いて、音空間に関する音空間情報を取得し、前記音空間情報に基づいて、前記音空間において音源から生じる第1音に関する特性を取得し、前記第1音に関する特性に基づいて、前記音空間において前記第1音に対応して生じる第2音を選択するか否かを制御する。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROM等の非一時的な記録媒体で実現されてもよく、これらの任意な組み合わせで実現されてもよい。
 本開示の一態様は、例えば、新しい音響効果を付与する処理、音響処理の処理量の削減、音響処理で得られる音声の音質の向上、音響処理の実施に用いる情報のデータ量の削減、又は、音響処理の実施に用いる情報の取得又は生成の容易化等を提供することができる。あるいは、本開示の一態様は、これらの任意の組み合わせを提供することができる。その結果、本開示の一態様は、受聴者の利用環境に適した音響処理を提供して、受聴者の音響体験の向上に貢献することができる。
 特に、受聴者が仮想空間内を自由に移動することを許容する機器又はサービスにおいて上記の効果が得られる。ただし、上記の効果は、本開示に基づいて把握される種々の態様の効果のあくまでも一例である。本開示に基づいて把握される1つ以上の態様のそれぞれは、上記とは異なる観点に基づいて想到された態様、上記とは異なる目的を達成する態様、又は、上記とは異なる効果が得られる態様であってもよい。
図1は、音空間で生成される直接音及び反射音の一例を示す図である。 図2は、実施の形態における立体音響再生システムの一例を示す図である。 図3Aは、実施の形態における符号化装置の構成例を示すブロック図である。 図3Bは、実施の形態における復号装置の構成例を示すブロック図である。 図3Cは、実施の形態における符号化装置の別の構成例を示すブロック図である。 図3Dは、実施の形態における復号装置の別の構成例を示すブロック図である。 図4Aは、実施の形態におけるデコーダの構成例を示すブロック図である。 図4Bは、実施の形態におけるデコーダの別の構成例を示すブロック図である。 図5は、実施の形態における音声信号処理装置の物理的構成の一例を示す図である。 図6は、実施の形態における符号化装置の物理的構成の一例を示す図である。 図7は、実施の形態におけるレンダリング部の構成例を示すブロック図である。 図8は、実施の形態における音声信号処理装置の動作例を示すフローチャートである。 図9は、受聴者と障害物オブジェクトとが比較的遠い位置関係を示す図である。 図10は、受聴者と障害物オブジェクトとが比較的近い位置関係を示す図である。 図11は、直接音と反射音との時間差と、閾値との関係を示す図である。 図12Aは、閾値データの設定方法の例の一部を示す図である。 図12Bは、閾値データの設定方法の例の一部を示す図である。 図12Cは、閾値データの設定方法の例の一部を示す図である。 図13は、閾値の設定方法の例を示す図である。 図14は、選択処理の一例を示すフローチャートである。 図15は、直接音の方向と反射音の方向と時間差と閾値との関係を示す図である。 図16は、角度差と時間差と閾値との関係を示す図である。 図17は、レンダリング部の別の構成例を示すブロック図である。 図18は、選択処理の別の例を示すフローチャートである。 図19は、選択処理のさらに別の例を示すフローチャートである。 図20は、実施の形態における音声信号処理装置の動作の第1変形例を示すフローチャートである。 図21は、実施の形態における音声信号処理装置の動作の第2変形例を示すフローチャートである。 図22は、アバターと音源オブジェクトと障害物オブジェクトとの配置例を示す図である。 図23は、選択処理のさらに別の例を示すフローチャートである。 図24は、レンダリング部がパイプライン処理を行うための構成例を示すブロック図である。 図25は、音の透過及び回折を示す図である。
 (本開示の基礎となった知見)
 図1は、音空間で生成される直接音及び反射音の一例を示す図である。仮想空間の特徴を音で表現する音響処理においては、空間の広さ及び壁面の材質等を表現するため、並びに、音源の位置(音像の定位)を正確に把握するために、直接音のみならず反射音を再現することが有効である。
 例えば、図1のような直方体の室内で音を聴く場合、1つの音源について6面の壁面に対応する6本の一次反射音が生じる。これらの反射音を再現することは、空間及び音像に関する適切な理解の手掛かりとなる。さらに各反射音に対し当該反射音を生じさせた反射面以外の面で二次反射音が生じる。これらの反射音も知覚的に有効な手掛かりとなる。
 しかしながら、二次反射までしか考慮しない場合でさえ、1つの音源について、1本の直接音と36本(6+6x5)の反射音が生じるので、37本の音線が生じることになり、これらの音線を処理するには相当程度の演算量が必要となる。
 また、バーチャル会議、バーチャルショッピング又はバーチャルコンサート等のような、メタバースに関して想定されている近年の応用商品では、必然的に複数の音源が存在することになるので、さらに膨大な演算量が必要となる。
 また、仮想空間内で音を受聴する受聴者は、ヘッドホン又はVRゴーグルを用いる。このような受聴者に立体音響を提供するため、両耳間に音圧比及び位相差を与えて音の到来方向及び遠近感を再現するバイノーラル(Binaural)処理が各音線に行われる。したがって、発生する全ての反射音を再現しようとするとその演算量は甚大となる。
 一方、仮想空間を体験する受聴者によって装着されるVRゴーグルのバッテリとして、その利便性から小型の蓄電池が用いられる場合がある。その電池寿命を延ばすために、上記のような処理にかかる演算負荷は小さい方がよい。そのために、数百本の規模で発生する音線の数を、音の定位及び空間の把握を損なわない範囲で削減することが望ましい。
 また、音響を再生するシステムにおいて、6DoF(6 Degrees of Freedom)等の自由度が受聴者の位置及び向きに対して許容される場合がある。この場合、受聴者と音源と音を反射する物体との位置関係は、再生時(レンダリング時)でないと確定されない。そのため、反射音も、再生時でないと確定されない。よって、処理対象の反射音を予め定めることは困難である。
 したがって、再生時に音空間において生じる複数の反射音のうち処理対象又は非処理対象の1つ以上の反射音を適切に選択することは、演算量及び演算負荷の適切な削減に有用である。
 そこで、本開示は、音空間において生じる音を選択するか否かを適切に制御することができる音響処理装置等を提供することを目的とする。
 なお、音を選択するか否かを制御することは、音を選択するか否かを判定することに対応する。また、音を選択することは、音を処理対象音として選択することであってもよいし、音を非処理対象音として選択することであってもよい。
 (開示の概要)
 本開示に基づいて把握される第1態様に係る音響処理装置は、回路とメモリとを備え、回路はメモリを用いて、音空間に関する音空間情報を取得し、音空間情報に基づいて、音空間において音源から生じる第1音に関する特性を取得し、第1音に関する特性に基づいて、音空間において第1音に対応して生じる第2音を選択するか否かを制御する。
 上記態様の装置は、音空間において生じる第1音に関する特性に基づいて、音空間において第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。すなわち、音空間において生じる音を選択するか否かを適切に制御することが可能になる。したがって、演算量及び演算負荷を適切に削減することが可能になる。
 本開示に基づいて把握される第2態様に係る音響処理装置は、第1態様の音響処理装置であって、第1音は、直接音であり、第2音は、反射音である、音響処理装置であってもよい。
 上記態様の装置は、直接音に関する特性に基づいて、反射音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第3態様に係る音響処理装置は、第2態様の音響処理装置であって、第1音に関する特性は、直接音の音量と反射音の音量との音量比であり、回路は、音空間情報に基づいて、音量比を算出し、音量比に基づいて、反射音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、直接音の音量と反射音の音量との音量比に基づいて、受聴者の知覚に影響する度合いが大きい反射音を適切に選択することができる。
 本開示に基づいて把握される第4態様に係る音響処理装置は、第3態様の音響処理装置であって、回路は、反射音が選択された場合、反射音及び直接音に対してバイノーラル処理を適用することにより、受聴者の両耳のそれぞれに到来する音を生成する、音響処理装置であってもよい。
 上記態様の装置は、受聴者の知覚に影響する度合いが大きい反射音を適切に選択し、選択された反射音にバイノーラル処理を適用することがきる。
 本開示に基づいて把握される第5態様に係る音響処理装置は、第3又は第4態様の音響処理装置であって、回路は、音空間情報に基づいて、直接音の終了時刻と反射音の到来時刻との時間差を算出し、時間差及び音量比に基づいて、反射音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、直接音の終了時刻と反射音の到来時刻との時間差、及び、直接音の音量と反射音の音量との音量比に基づいて、受聴者の知覚に影響する度合いが大きい反射音をより適切に選択することができる。したがって、上記態様の装置は、ポストマスキング効果に基づいて、受聴者の知覚に影響する度合いが大きい反射音をより適切に選択することができる。
 本開示に基づいて把握される第6態様に係る音響処理装置は、第5態様の音響処理装置であって、回路は、音量比が閾値以上である場合、反射音を選択し、時間差が第1の値である場合に閾値として用いられる第1閾値は、時間差が第1の値よりも大きい第2の値である場合に閾値として用いられる第2閾値よりも大きい、音響処理装置であってもよい。
 上記態様の装置は、直接音の終了時刻と反射音の到来時刻との時間差が大きい反射音が選択される可能性を高めることができる。したがって、上記態様の装置は、受聴者の知覚に影響する度合いが大きい反射音を適切に選択することができる。
 本開示に基づいて把握される第7態様に係る音響処理装置は、第3又は第4態様の音響処理装置であって、回路は、音空間情報に基づいて、直接音の到来時刻と反射音の到来時刻との時間差を算出し、時間差及び音量比に基づいて、反射音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、直接音の到来時刻と反射音の到来時刻との時間差、及び、直接音の音量と反射音の音量との音量比に基づいて、受聴者の知覚に影響する度合いが大きい反射音をより適切に選択することができる。したがって、上記態様の装置は、先行音効果に基づいて、受聴者の知覚に影響する度合いが大きい反射音をより適切に選択することができる。
 本開示に基づいて把握される第8態様に係る音響処理装置は、第7態様の音響処理装置であって、回路は、音量比が閾値以上である場合、反射音を選択し、時間差が第1の値である場合に閾値として用いられる第1閾値は、時間差が第1の値よりも大きい第2の値である場合に閾値として用いられる第2閾値よりも大きい、音響処理装置であってもよい。
 上記態様の装置は、直接音の到来時刻と反射音の到来時刻との時間差が大きい反射音が選択される可能性を高めることができる。したがって、上記態様の装置は、受聴者の知覚に影響する度合いが大きい反射音を適切に選択することができる。
 本開示に基づいて把握される第9態様に係る音響処理装置は、第6又は第8態様の音響処理装置であって、回路は、直接音の到来方向と反射音の到来方向とに基づいて、閾値を調整する、音響処理装置であってもよい。
 上記態様の装置は、直接音の到来方向と反射音の到来方向とに基づいて、受聴者の知覚に影響する度合いが大きい反射音を適切に選択することができる。
 本開示に基づいて把握される第10態様に係る音響処理装置は、第1~第9態様のいずれかの音響処理装置であって、回路は、第2音が選択されない場合、第2音の音量に基づいて第1音の音量を補正する、音響処理装置であってもよい。
 上記態様の装置は、第2音が選択されず第2音の音量が欠如することで生じる違和感を少ない演算量で適切に低減することができる。
 本開示に基づいて把握される第11態様に係る音響処理装置は、第1~第9態様のいずれかの音響処理装置であって、回路は、第2音が選択されない場合、第2音を第1音に合成する、音響処理装置であってもよい。
 上記態様の装置は、第2音の特性をより正確に第1音に反映することができる。したがって、上記態様の装置は、第2音が選択されず第2音が欠如することで生じる違和感を低減することができる。
 本開示に基づいて把握される第12態様に係る音響処理装置は、第3~第9態様のいずれかの音響処理装置であって、音量比は、第1の時刻における直接音の音量と、第1の時刻とは異なる第2の時刻における反射音の音量との音量比である、音響処理装置であってもよい。
 上記態様の装置は、直接音が知覚される時刻と、反射音が知覚される時刻とが異なる場合において、異なる時刻における直接音と反射音との音量比に基づいて、受聴者の知覚に影響する度合いが大きい反射音を適切に選択することができる。
 本開示に基づいて把握される第13態様に係る音響処理装置は、第1又は第2態様の音響処理装置であって、回路は、第1音に関する特性に基づいて閾値を設定し、閾値に基づいて第2音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、第1音に関する特性に基づいて設定される閾値に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第14態様に係る音響処理装置は、第1、第2及び第13態様のいずれかの音響処理装置であって、第1音に関する特性は、音源の音量、音源の視覚性、及び、音源の定位性のうち、いずれか1つ、又は、いずれか2つ以上の組み合わせである、音響処理装置であってもよい。
 上記態様の装置は、音源の音量、音源の視覚性、又は、音源の定位性に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第15態様に係る音響処理装置は、第1、第2及び第13態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の周波数特性である、音響処理装置であってもよい。
 上記態様の装置は、第1音の周波数特性に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第16態様に係る音響処理装置は、第1、第2及び第13態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の振幅の断続性を示す特性である、音響処理装置であってもよい。
 上記態様の装置は、第1音の振幅の断続性を示す特性に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第17態様に係る音響処理装置は、第1、第2、第13及び第16態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の有音部の継続時間、又は、第1音の無音部の継続時間を示す特性である、音響処理装置であってもよい。
 上記態様の装置は、第1音の有音部の継続時間、又は、第1音の無音部の継続時間を示す特性に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第18態様に係る音響処理装置は、第1、第2、第13、第16及び第17態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の有音部の継続時間と、第1音の無音部の継続時間とを時系列で示す特性である、音響処理装置であってもよい。
 上記態様の装置は、第1音の有音部の継続時間と第1音の無音部の継続時間とを時系列で示す特性に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第19態様に係る音響処理装置は、第1、第2、第13及び第15態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の周波数特性の変動を示す特性である、音響処理装置であってもよい。
 上記態様の装置は、第1音の周波数特性の変動を示す特性に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第20態様に係る音響処理装置は、第1、第2、第13、第15及び第19態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の周波数特性の定常性を示す特性である、音響処理装置であってもよい。
 上記態様の装置は、第1音の周波数特性の定常性を示す特性に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第21態様に係る音響処理装置は、第1、第2及び第13~第20態様のいずれかの音響処理装置であって、第1音に関する特性は、ビットストリームから取得される、音響処理装置であってもよい。
 上記態様の装置は、ビットストリームから取得される情報に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第22態様に係る音響処理装置は、第1、第2及び第13~第21態様のいずれかの音響処理装置であって、回路は、第2音に関する特性を算出し、第1音に関する特性と、第2音に関する特性とに基づいて、第2音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、第1音に関する特性と第2音に関する特性とに基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第23態様に係る音響処理装置は、第22態様の音響処理装置であって、回路は、音が聞こえるか否かの境目に対応する音量を示す閾値を取得し、第1音に関する特性と、第2音に関する特性と、閾値とに基づいて、第2音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、第1音に関する特性、及び、第2音に関する特性に加えて、聞こえるか否かに対応する閾値に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第24態様に係る音響処理装置は、第22又は第23態様の音響処理装置であって、第2音に関する特性は、第2音の音量である、音響処理装置であってもよい。
 上記態様の装置は、第2音の音量に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第25態様に係る音響処理装置は、第1~第24態様のいずれかの音響処理装置であって、音空間情報は、音空間における受聴者の位置の情報を含み、第2音は、音空間において第1音に対応して生じる複数の第2音のそれぞれであり、回路は、第1音に関する特性に基づいて、複数の第2音のそれぞれを選択するか否かを制御することにより、第1音及び複数の第2音の中からバイノーラル処理が適用される1つ以上の処理対象音を選択する、音響処理装置であってもよい。
 上記態様の装置は、音空間において生じる第1音に関する特性に基づいて、音空間において第1音に対応して生じる複数の第2音のそれぞれを選択するか否かを適切に制御することができる。そして、上記態様の装置は、第1音及び複数の第2音の中から、バイノーラル処理が適用される1つ以上の処理対象音を適切に選択することができる。
 本開示に基づいて把握される第26態様に係る音響処理装置は、第1~第25態様のいずれかの音響処理装置であって、第1音に関する特性を取得するタイミングは、音空間の作成時、音空間の処理開始時、及び、音空間の処理中における情報更新スレッド発生時のうち、少なくとも1つである、音響処理装置であってもよい。
 上記態様の装置は、適応的なタイミングで取得される情報に基づいて、バイノーラル処理が適用される1つ以上の処理対象音を適切に選択することができる。
 本開示に基づいて把握される第27態様に係る音響処理装置は、第1~第26態様のいずれかの音響処理装置であって、第1音に関する特性は、音空間の処理開始後、定期的に取得される、音響処理装置であってもよい。
 上記態様の装置は、定期的に取得される情報に基づいて、バイノーラル処理が適用される1つ以上の処理対象音を適切に選択することができる。
 本開示に基づいて把握される第28態様に係る音響処理装置は、第1、第2及び第25~第27態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の音量であり、回路は、第1音の音量に基づいて、第2音の評価値を算出し、評価値に基づいて、第2音を選択するか否かを制御する、音響処理装置であってもよい。
 上記態様の装置は、第1音の音量に基づいて第2音に対して算出される評価値に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第29態様に係る音響処理装置は、第28態様の音響処理装置であって、第1音の音量は、遷移を有する、音響処理装置であってもよい。
 上記態様の装置は、遷移を有する音量に基づいて算出される評価値に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第30態様に係る音響処理装置は、第28又は第29態様の音響処理装置であって、回路は、第1音の音量が大きいほど第2音がより選択されやすくなるように、評価値を算出する、音響処理装置であってもよい。
 上記態様の装置は、第1音の音量が大きいほど第2音が選択されやすい値に設定される評価値に基づいて、第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第31態様に係る音響処理装置は、第1~第30態様のいずれかの音響処理装置であって、音空間情報は、音空間における音源の情報、及び、音空間における受聴者の位置の情報を含むシーン情報であり、第2音は、音空間において第1音に対応して生じる複数の第2音のそれぞれであり、回路は、第1音の信号を取得し、シーン情報と第1音の信号とに基づいて、複数の第2音を算出し、音源の情報から第1音に関する特性を取得し、第1音に関する特性に基づいて、複数の第2音のそれぞれをバイノーラル処理が適用されない音として選択するか否かを制御することにより、複数の第2音の中から、バイノーラル処理が適用されない1つ以上の第2音を選択する、音響処理装置であってもよい。
 上記態様の装置は、音空間において第1音に対応して生じる複数の第2音のうちバイノーラル処理が適用されない1つ以上の第2音を第1音に関する特性に基づいて適切に選択することができる。
 本開示に基づいて把握される第32態様に係る音響処理装置は、第31態様の音響処理装置であって、シーン情報は、入力情報に基づいて更新され、第1音に関する特性は、シーン情報の更新に応じて取得される、音響処理装置であってもよい。
 上記態様の装置は、バイノーラル処理が適用されない1つ以上の第2音をシーン情報の更新に応じて取得される情報に基づいて適切に選択することができる。
 本開示に基づいて把握される第33態様に係る音響処理装置は、第31又は第32態様の音響処理装置であって、シーン情報及び第1音に関する特性は、ビットストリームに含まれるメタデータから取得される、音響処理装置であってもよい。
 上記態様の装置は、バイノーラル処理が適用されない1つ以上の第2音をビットストリームに含まれるメタデータから取得される情報に基づいて適切に選択することができる。
 本開示に基づいて把握される第34態様に係る音響処理装置は、第1、第2、第13、第16~第18、第25~第27及び第31~第33態様のいずれかの音響処理装置であって、第1音に関する特性は、第1音の振幅値が代表振幅値である継続時間と、継続時間における代表振幅値との組でそれぞれが構成される複数の組を時系列で示す特性である、音響処理装置であってもよい。
 上記態様の装置は、継続時間と代表振幅値との時系列の情報に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第35態様に係る音響処理装置は、第34態様の音響処理装置であって、代表振幅値は、予め設定された基準音量に対する第1音の音量の比の値である、音響処理装置であってもよい。
 上記態様の装置は、基準音量に対する比に対応する代表振幅値に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第36態様に係る音響処理装置は、第1、第2、第13、第15、第19及び第20態様のいずれかの音響処理装置であって、第1音に関する特性は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間を示す特性である、音響処理装置であってもよい。
 上記態様の装置は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第37態様に係る音響処理装置は、第1、第2、第13、第15、第19、第20及び第36態様のいずれかの音響処理装置であって、第1音に関する特性は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間と、継続時間における周波数特性との組でそれぞれが構成される複数の組を時系列で示す特性である、音響処理装置であってもよい。
 上記態様の装置は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間と、周波数特性との時系列に基づいて、第1音に対応して生じる第2音を選択するか否かを適切に制御することができる。
 本開示に基づいて把握される第38態様に係る音響処理装置は、第1、第2、第13~第24及び第34~第37態様のいずれかの音響処理装置であって、回路は、音が聞こえるか否かの境目に対応する音量を示す閾値を取得し、第1音に関する特性に基づいて、第2音の音量を算出し、第2音の音量が閾値よりも大きい場合、第2音を選択する、音響処理装置であってもよい。
 上記態様の装置は、聞こえるか否かに対応する閾値よりも第2音の音量が大きい場合、第2音を適切に選択することができる。
 本開示に基づいて把握される第39態様に係る音響処理装置は、第1、第2、第13~第20及び第31~第38態様のいずれかの音響処理装置であって、音空間情報は、音空間における音源の情報、及び、音空間における受聴者の位置の情報を含むシーン情報であり、第2音は、音空間において第1音に対応して生じる複数の第2音のそれぞれであり、回路は、第1音の信号を取得し、シーン情報と第1音の信号とに基づいて、複数の第2音を算出し、音源の情報から第1音に関する特性を取得し、第1音に関する特性に基づいて、複数の第2音のそれぞれをバイノーラル処理が適用される音として選択するか否かを制御することにより、第1音及び複数の第2音の中から、バイノーラル処理が適用される1つ以上の処理対象音を選択し、シーン情報は、入力情報に基づいて更新され、第1音に関する特性は、シーン情報の更新に応じて取得され、シーン情報の更新は、1つ以上の処理対象音に対しバイノーラル処理を適用する頻度よりも低い頻度で実施される、音響処理装置であってもよい。
 上記態様の装置は、相対的に低い頻度で更新されるシーン情報の更新に応じて取得される情報に基づいて、バイノーラル処理が適用される1つ以上の第2音を適切に選択することができる。
 本開示に基づいて把握される第40態様に係る音響処理方法は、音空間に関する音空間情報を取得するステップと、音空間情報に基づいて、音空間において音源から生じる第1音に関する特性を取得するステップと、第1音に関する特性に基づいて、音空間において第1音に対応して生じる第2音を選択するか否かを制御するステップとを含む。
 上記態様の方法は、第1態様に記載の音響処理装置と同様の効果を奏し得る。
 本開示に基づいて把握される第41態様に係るプログラムは、第40態様の音響処理方法をコンピュータに実行させるためのプログラムである。
 上記態様のプログラムは、コンピュータを用いて、第40態様の音響処理方法と同様の効果を奏し得る。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、又は、記録媒体の任意な組み合わせで実現されてもよい。
 以下、本開示における音響処理装置、符号化装置、復号装置及び立体音響再生システムについて図面を参照して詳細に説明する。立体音響再生システムは、音声信号再生システムとも表現され得る。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、並びに、ステップの順序等は、一例であり、本開示に基づいて把握される態様を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、例えば、本開示中に記載した基本的な態様に含まれない構成要素、又は、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態)
 (立体音響再生システムの例)
 図2は、立体音響再生システムの一例を示す図である。具体的には、図2は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響再生システム1000を示す。立体音響は、イマーシブオーディオ(Immersive Audio)とも表現される。立体音響再生システム1000は、音声信号処理装置1001と音声提示装置1002を含む。
 音声信号処理装置1001は、音響処理装置とも表現され、仮想音源が発した音声信号に対して音響処理を施して、受聴者に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音が、音源で発生してから受聴者に届くまでの間に受ける1つ以上の作用を再現するために、音声信号に対して施される信号処理である。
 音声信号処理装置1001は、上述した作用を引き起こす要因を記述した空間情報に基づいて音響処理を実施する。空間情報は、例えば、音源、受聴者、及び、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、並びに、音の伝搬に関するパラメータ等を含む。音声信号処理装置1001は、例えば、PC(Personal Computer)、スマートフォン、タブレット又はゲームコンソール等である。
 音響処理後の信号は、音声提示装置1002から受聴者に提示される。音声提示装置1002は、無線又は有線の通信を介して音声信号処理装置1001と接続されている。音声信号処理装置1001で生成された音響処理後の音声信号は、無線又は有線の通信を介して音声提示装置1002に伝送される。
 音声提示装置1002が、例えば、右耳用のデバイス及び左耳用のデバイス等の複数のデバイスで構成されている場合、複数のデバイス間の通信、又は、複数のデバイスのそれぞれと音声信号処理装置1001との通信によって、複数のデバイスは同期して音を提示する。音声提示装置1002は、例えば、受聴者の頭部に装着されるヘッドホン、イヤホン、ヘッドマウントディスプレイ、又は、固定された複数のスピーカで構成されたサラウンドスピーカ等である。
 なお、立体音響再生システム1000は、視覚的にAR/VRを含むER体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。例えば、空間情報によって扱われる空間は、仮想空間であって、当該空間における音源、受聴者及びオブジェクトの位置は、仮想空間における仮想的な音源、仮想的な受聴者及び仮想的なオブジェクトの仮想的な位置である。当該空間は、音空間とも表現され得る。また、空間情報は、音空間情報とも表現され得る。
 また、図2は、音声信号処理装置1001と音声提示装置1002とが別々の装置であるシステム構成例を示しているが、本開示の音響処理方法又は復号方法が適用可能な立体音響再生システム1000は図2の構成に限定されない。例えば、音声信号処理装置1001が音声提示装置1002に含まれ、音声提示装置1002が音響処理と音の提示との両方を行ってもよい。
 また、音声信号処理装置1001と音声提示装置1002とが本開示で説明する音響処理を分担して実施してもよい。また、音声信号処理装置1001又は音声提示装置1002とネットワークを介して接続されたサーバが、本開示で説明する音響処理の一部又は全体を実施してもよい。
 また、音声信号処理装置1001は、音声信号と音響処理に用いる空間情報とのデータの少なくとも一部を符号化することで生成されたビットストリームを復号して、音響処理を実施してもよい。したがって、音声信号処理装置1001は、復号装置と表現されてもよい。
 (符号化装置の例)
 図3Aは、符号化装置の構成例を示すブロック図である。具体的には、図3Aは、本開示の符号化装置の一例である符号化装置1100の構成を示す。
 入力データ1101は、エンコーダ1102に入力される空間情報及び/又は音声信号を含む符号化対象データである。空間情報の詳細については後で説明する。
 エンコーダ1102は、入力データ1101を符号化して、符号化データ1103を生成する。符号化データ1103は、例えば、符号化処理によって生成されたビットストリームである。
 メモリ1104は、符号化データ1103を記憶する。メモリ1104は、例えば、ハードディスク又はSSD(Solid-State Drive)であってもよいし、その他のメモリであってもよい。
 なお、上記説明ではメモリ1104に記憶される符号化データ1103の一例として符号化処理によって生成されたビットストリームが挙げられているが、符号化データ1103は、ビットストリーム以外のデータであってもよい。例えば、符号化装置1100は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリ1104に記憶してもよい。変換後のデータは、例えば、1つ以上のビットストリームに対応するファイル又は多重化ストリームであってもよい。
 ここで、ファイルは、例えばISOBMFF(ISO Base Media File Format)等のファイルフォーマットを有するファイルである。また、符号化データ1103は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。
 例えば、エンコーダ1102で生成されたビットストリームが、ビットストリームとは異なるデータに変換されてもよい。この場合、符号化装置1100は、図示されていない変換部を備え、変換部で変換処理を行ってもよいし、後述のプロセッサの例であるCPU(Central Processing Unit)で変換処理を行ってもよい。
 (復号装置の例)
 図3Bは、復号装置の構成例を示すブロック図である。具体的には、図3Bは、本開示の復号装置の一例である復号装置1110の構成を示す。
 メモリ1114は、例えば、符号化装置1100で生成された符号化データ1103と同じデータを記憶している。記憶されているデータは、メモリ1114から読み出され、デコーダ1112に入力データ1113として入力される。入力データ1113は、例えば、復号対象となるビットストリームである。メモリ1114は、例えば、ハードディスク又はSSDであってもよいし、その他のメモリであってもよい。
 なお、復号装置1110は、メモリ1114から読み出されたデータをそのまま入力データ1113としてデコーダ1112に入力せず、読み出されたデータを変換し、変換後のデータを入力データ1113としてデコーダ1112に入力してもよい。変換前のデータは、例えば、1つ以上のビットストリームを含む多重化データであってもよい。ここで、多重化データは、例えばISOBMFF等のファイルフォーマットを有するファイルであってもよい。
 また、変換前のデータは、上記のビットストリーム又はファイルを分割することで生成される複数のパケットであってもよい。メモリ1114からビットストリームとは異なるデータが読み出され、当該データがビットストリームに変換されてもよい。この場合、復号装置1110は、図示されていない変換部を備え、変換部で変換処理を行ってもよいし、後述のプロセッサの例であるCPUで変換処理を行ってもよい。
 デコーダ1112は、入力データ1113を復号して、受聴者に提示される音声を示す音声信号1111を生成する。
 (符号化装置の別の例)
 図3Cは、符号化装置の別の構成例を示すブロック図である。具体的には、図3Cは、本開示の符号化装置の別の一例である符号化装置1120の構成を示す。図3Cでは、図3Aの構成要素と同じ構成要素に図3Aの符号と同じ符号を付しており、これらの構成要素については説明を省略する。
 符号化装置1100は、符号化データ1103をメモリ1104に記憶している。一方、符号化装置1120は、符号化データ1103を外部へ送信する送信部1121を備える点で符号化装置1100とは異なる。
 送信部1121は、符号化データ1103又は符号化データ1103から別のデータ形式に変換されたデータに基づいて生成された送信信号1122を別の装置又はサーバに対して送信する。送信信号1122の生成に用いられるデータは、例えば、符号化装置1100で説明したビットストリーム、多重化データ、ファイル又はパケットである。
 (復号装置の別の例)
 図3Dは、復号装置の別の構成例を示すブロック図である。具体的には、図3Dは、本開示の復号装置の別の一例である復号装置1130の構成を示す。図3Dでは、図3Bの構成要素と同じ構成要素に図3Bの符号と同じ符号を付しており、これらの構成要素については説明を省略する。
 復号装置1110は、入力データ1113をメモリ1114から読み出している。一方、復号装置1130は、入力データ1113を外部から受信する受信部1131を備える点で復号装置1110とは異なる。
 受信部1131は、受信信号1132を受信して受信データを取得し、デコーダ1112に入力される入力データ1113を出力する。受信データは、デコーダ1112に入力される入力データ1113と同じであってもよいし、入力データ1113とは異なるデータ形式のデータであってもよい。
 受信データのデータ形式が、入力データ1113のデータ形式とは異なる場合、受信部1131が、受信データを入力データ1113に変換してもよい。あるいは、復号装置1130の図示されていない変換部又はCPUが、受信データを入力データ1113に変換してもよい。受信データは、例えば、符号化装置1120で説明したビットストリーム、多重化データ、ファイル又はパケットである。
 (デコーダの例)
 図4Aは、デコーダの構成例を示すブロック図である。具体的には、図4Aは、図3B又は図3Dにおけるデコーダ1112の一例であるデコーダ1200の構成を示す。
 入力データ1113は、符号化されたビットストリームであり、符号化された音声信号である符号化音声データと、音響処理に用いられるメタデータとを含んでいる。
 空間情報管理部1201は、入力データ1113に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部1201は、メタデータを解析して得られた音響処理に用いられる空間情報を管理し、レンダリング部1203に対して空間情報を提供する。
 なお、本開示では音響処理に用いられる情報が、空間情報と表現されているが、その他の表現が用いられてもよい。例えば、音響処理に用いられる情報は、音空間情報と表現されてもよいし、シーン情報と表現されてもよい。また、音響処理に用いられる情報が経時的に変化する場合、レンダリング部1203に入力される空間情報は、空間状態、音空間状態又はシーン状態等と表現される情報であってもよい。
 また、空間情報は、音空間毎又はシーン毎に管理されていてもよい。例えば、互いに異なる複数の部屋のそれぞれが仮想空間として表現される場合、複数の部屋が、それぞれ、互いに異なる複数のシーンとして管理されてもよい。また、同じ空間でも表現される状況に応じて異なるシーンとして空間情報が管理されてもよい。
 したがって、複数の音空間又は複数のシーンに対して、複数の空間情報が管理されてもよい。複数の空間情報の管理において、複数の空間情報のそれぞれを識別する識別子が空間情報に付与されていてもよい。
 空間情報のデータは、入力データ1113の一例であるビットストリームに含まれていてもよい。あるいは、ビットストリームが空間情報の識別子を含み、空間情報のデータは、ビットストリーム以外の情報源から取得されてもよい。具体的には、ビットストリームが空間情報の識別子のみを含む場合、レンダリングにおいて、空間情報の識別子を用いて、装置内のメモリ又は外部のサーバに記憶された空間情報のデータが入力データ1113として取得されてもよい。
 なお、空間情報管理部1201が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データ1113は、ビットストリームには含まれないデータとして、VR又はARを提供するソフトウェア又はサーバから取得された空間の特性及び構造を示すデータを含んでいてもよい。
 また、入力データ1113は、受聴者又はオブジェクトの特性及び位置等を示すデータを含んでいてもよい。また、入力データ1113は、受聴者の位置について復号装置(1110、1130)を含む端末が備えるセンサで取得された情報を含んでいてもよいし、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。
 つまり、空間情報管理部1201は、外部のシステム又はサーバと通信し、空間情報及び受聴者位置を取得してもよい。また、空間情報管理部1201は、外部のシステムからクロック同期情報を取得し、レンダリング部1203のクロックと同期する処理を実行してもよい。
 なお、上記の説明における空間は、仮想的に形成された空間、つまりVR空間であってもよいし、実空間又は実空間に対応する仮想空間、つまりAR空間又はMR空間であってもよい。また、仮想空間は、音場又は音空間と表現されてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値等の情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。
 音声データデコーダ1202は、入力データ1113に含まれる符号化音声データを復号して、音声信号を取得する。
 立体音響再生システム1000が取得する符号化音声データは、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームである。なお、MPEG-H 3D Audioは、あくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例である。符号化音声データは、他の符号化方式で符号化されたビットストリームであってもよい。
 例えば、符号化方式は、MP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)、WMA(Windows Media Audio)、AC3(Audio Codec―3)又はVorbis等の非可逆コーデックであってもよい。あるいは、符号化方式は、ALAC(Apple Lossless Audio Codec)又はFLAC(Free Lossless Audio Codec)等の可逆コーデックであってもよい。
 あるいは、上記以外の任意の符号化方式が用いられてもよい。例えば、PCMデータが符号化音声データの一種であってもよい。この場合、復号処理は、例えば、当該PCMデータの量子化ビット数がNである場合、Nビットの二進数を、レンダリング部1203が処理できる数形式(例えば浮動小数点形式)に変換する処理であってもよい。
 レンダリング部1203は、音声信号と空間情報とを取得し、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号(音声信号1111)を出力する。
 空間情報管理部1201は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト及び音等のレンダリングアイテムを検出し、レンダリング部1203に送信する。レンダリング開始後、空間情報管理部1201は、空間情報及び受聴者の位置の経時的な変化を把握し、空間情報を更新して管理する。そして、更新された空間情報をレンダリング部1203に送信する。
 レンダリング部1203は、入力データ1113に含まれる音声信号と、空間情報管理部1201から受信した空間情報とに基づいて、音響処理を付加した音声信号を生成し出力する。
 空間情報の更新処理と、音響処理を付加した音声信号の出力処理とは、同じスレッドで実行されてもよい。また、空間情報管理部1201とレンダリング部1203とは、それぞれ独立したスレッドに処理を配分してもよい。空間情報管理部1201とレンダリング部1203とは、空間情報の更新処理と、音響処理を付加した音声信号の出力処理とを異なるスレッドで実行する場合、スレッドの起動頻度を個々に設定してもよいし、並行して処理を実行してもよい。
 空間情報管理部1201とレンダリング部1203とが、異なる独立したスレッドで処理を実行する場合、レンダリング部1203に優先的に演算資源を割り当てることが可能である。これにより、僅かな遅延も許容されないような、例えば、1サンプル(0.02msec)の遅延でプチっというノイズが発生するような出音処理を安全に実行することが可能である。
 その際、空間情報管理部1201には、演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理(例えば、受聴者の顔の向きの更新のような処理)であるため、音声信号の出力処理のように必ずしも瞬間的に行われなくてもよい。したがって、演算資源の割り当てが制限されても、音響的な品質に大きな影響はない。
 空間情報の更新は、予め設定された時間又は期間毎に定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、受聴者又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。
 例えば、受聴者によってコントローラが操作され、自身のアバターの立ち位置が瞬間的にワープしたり、時刻が瞬時に進められたり戻されたりした場合に、空間情報が更新されてもよい。あるいは、仮想空間の管理者によって、突如、場の環境を変更するような演出が施された場合、空間情報が更新されてもよい。これらの場合において、空間情報管理部1201によって管理される空間情報を更新するためのスレッドが、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。
 図4Bは、デコーダの別の構成例を示すブロック図である。具体的には、図4Bは、図3B又は図3Dにおけるデコーダ1112の別の一例であるデコーダ1210の構成を示す。
 図4Bは、入力データ1113が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図4Aと異なる。入力データ1113は、メタデータを含むビットストリームと音声信号を含む。
 空間情報管理部1211は、図4Aの空間情報管理部1201と同じであるため説明を省略する。
 レンダリング部1213は、図4Aのレンダリング部1203と同じであるため説明を省略する。
 なお、デコーダ1112、1200及び1210は、音響処理を実施する音響処理部と表現されてもよい。また、復号装置1110及び1130は、音声信号処理装置1001であってもよく、音響処理装置と表現されてもよい。
 (音声信号処理装置の物理的構成)
 図5は、音声信号処理装置1001の物理的構成の一例を示す図である。なお、図5の音声信号処理装置1001は、図3Bの復号装置1110又は図3Dの復号装置1130であってもよい。図3B又は図3Dに示された複数の構成要素は、図5に示された複数の構成要素によって実装されてもよい。また、ここで説明する構成の一部は音声提示装置1002に備えられていてもよい。
 図5の音声信号処理装置1001は、プロセッサ1402と、メモリ1404と、通信IF(Interface)1403と、センサ1405と、スピーカ1401とを備える。
 プロセッサ1402は、例えば、CPU、DSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)である。当該CPU、DSP又はGPUが、メモリ1404に記憶されたプログラムを実行することで本開示の音響処理又は復号処理を実施してもよい。また、プロセッサ1402は、例えば、情報処理を行う回路である。プロセッサ1402は、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリ1404は、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリ1404は、ハードディスクに代表される磁気記録媒体又はSSDに代表される半導体メモリ等を含んでいてもよい。また、メモリ1404は、CPU又はGPUに組み込まれた内部メモリであってもよい。また、メモリ1404には、空間情報管理部(1201、1211)で管理される空間情報等が記憶されてもよい。また、後述の閾値データが記憶されてもよい。
 通信IF1403は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)等の通信方式に対応した通信モジュールである。音声信号処理装置1001は、例えば、通信IF1403を介して他の通信装置と通信を行い、復号対象のビットストリームを取得する。取得されたビットストリームは、例えば、メモリ1404に記憶される。
 通信IF1403は、例えば、通信方式に対応した信号処理回路とアンテナで構成される。通信方式は、Bluetooth(登録商標)及びWIGIG(登録商標)に限られず、LTE(Long Term Evolution)、NR(New Radio)又はWi-Fi(登録商標)等であってもよい。
 また、通信方式は、上記のような無線通信方式に限られない。通信方式は、Ethernet(登録商標)、USB(Universal Serial Bus)又はHDMI(登録商標)(High-Definition Multimedia Interface)等の有線通信方式であってもよい。
 センサ1405は、受聴者の位置及び向きを推定するためのセンシングを行う。具体的には、センサ1405は、身体の一部又は全体の位置、向き、動き、速度、角速度及び加速度等のうちいずれか1つ以上の検出結果に基づいて、受聴者の位置及び/又は向きを推定し、受聴者の位置及び/又は向きを示す位置/向き情報を生成する。
 なお、音声信号処理装置1001の外部の装置がセンサ1405を備えていてもよい。身体の一部は、受聴者の頭部等であってもよい。位置/向き情報は、実空間における受聴者の位置及び/又は向きを示す情報であってもよいし、所定の時点における受聴者の位置及び/又は向きを基準とした受聴者の位置及び/又は向きの変位を示す情報であってもよい。また、位置/向き情報は、立体音響再生システム1000、又は、センサ1405を備える外部装置との相対的な位置及び/又は向きを示す情報であってもよい。
 センサ1405は、例えば、カメラ等の撮像装置又はLiDAR(Laser Imaging Detection and Ranging)等の測距装置である。センサ1405は、受聴者の頭部の動きを撮像し、撮像された画像を処理することで受聴者の頭部の動きを検知してもよい。また、例えばミリ波等の任意の周波数帯域の無線を用いて位置推定を行う装置がセンサ1405として用いられてもよい。
 また、音声信号処理装置1001は、センサ1405を備える外部の機器から通信IF1403を介して位置情報を取得してもよい。この場合、音声信号処理装置1001は、センサ1405を含んでいなくてもよい。ここで、外部の機器とは、例えば図2で説明した音声提示装置1002、又は、受聴者の頭部に装着される立体映像再生装置等である。このときセンサ1405は、例えば、ジャイロセンサ及び加速度センサ等の各種のセンサを組み合わせて構成される。
 センサ1405は、例えば、受聴者の頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサ1405は、例えば、受聴者の頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。具体的には、センサ1405は、受聴者の位置として6DoFの位置(x、y、z)及び角度(yaw、pitch、roll)を検知する。センサ1405は、ジャイロセンサ及び加速度センサ等のような動きの検知に使用される各種のセンサを組み合わせて構成される。
 なお、センサ1405は、受聴者の位置を検出するためのカメラ又はGPS(Global Positioning System)受信機等により実現されてもよい。LiDAR等をセンサ1405として用いて自己位置推定を実施することで得られる位置情報が用いられてもよい。例えば、センサ1405は、立体音響再生システム1000がスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 また、センサ1405には、音声信号処理装置1001の温度を検出する熱電対等の温度センサが含まれていてもよい。また、センサ1405には、音声信号処理装置1001が備えるバッテリ、又は、音声信号処理装置1001と接続されたバッテリの残量を検出するセンサ等が含まれていてもよい。
 スピーカ1401は、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とアンプを有し、音響処理後の音声信号を音として受聴者に提示する。スピーカ1401は、アンプを介して増幅させた音声信号(より具体的には、音の波形を示す波形信号)に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬して受聴者の耳に伝達し、受聴者が音を知覚する。
 なお、ここでは、音声信号処理装置1001がスピーカ1401を備え、スピーカ1401を介して、音響処理後の音声信号を提示する例が挙げられたが、音声信号の提示手段は上記の構成に限定されない。
 例えば、通信モジュールで接続された外部の音声提示装置1002に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、音声信号処理装置1001が音声のアナログ信号を出力する端子を備え、端子にイヤホン等のケーブルを接続してイヤホン等から音声信号を提示してもよい。
 上記の場合、音声提示装置1002は、受聴者の頭部又は体の一部に装着されるヘッドホン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカ又はウェアラブルスピーカ等であってもよい。あるいは、音声提示装置1002は、固定された複数のスピーカで構成されたサラウンドスピーカ等であってもよい。そして、音声提示装置1002が、音声信号を再生してもよい。
 (符号化装置の物理的構成)
 図6は、符号化装置の物理的構成の一例を示す図である。図6の符号化装置1500は、図3Aの符号化装置1100又は図3Cの符号化装置1120であってもよく、図3A又は図3Cに示された複数の構成要素が、図6に示された複数の構成要素によって実装されてもよい。
 図6の符号化装置1500は、プロセッサ1501と、メモリ1503と、通信IF1502とを備える。
 プロセッサ1501は、例えば、CPU、DSP又はGPUである。当該CPU、DSP又はGPUが、メモリ1503に記憶されたプログラムを実行することで本開示の符号化処理を実施してもよい。また、プロセッサ1501は、例えば、情報処理を行う回路である。プロセッサ1501は、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリ1503は、例えば、RAM又はROMで構成される。メモリ1503は、ハードディスクに代表される磁気記録媒体又はSSDに代表される半導体メモリ等を含んでいてもよい。また、メモリ1503は、CPU又はGPUに組み込まれた内部メモリであってもよい。
 通信IF1502は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)等の通信方式に対応した通信モジュールである。符号化装置1500は、例えば、通信IF1502を介して他の通信装置と通信を行い、符号化されたビットストリームを送信する。
 通信IF1502は、例えば、通信方式に対応した信号処理回路とアンテナで構成される。通信方式は、Bluetooth(登録商標)及びWIGIG(登録商標)に限られず、LTE、NR又はWi-Fi(登録商標)等であってもよい。また、通信方式は、無線通信方式に限られない。通信方式は、Ethernet(登録商標)、USB又はHDMI(登録商標)等の有線通信方式であってもよい。
 (レンダリング部の構成)
 図7は、レンダリング部の構成例を示すブロック図である。具体的には、図7は、図4A及び図4Bのレンダリング部1203及び1213に対応するレンダリング部1300の詳細な構成の一例を示す。
 レンダリング部1300は、解析部1301と、選択部1302と、合成部1303とで構成され、入力信号に含まれる音データに対して音響処理を付加し出力する。
 入力信号は、例えば、空間情報とセンサ情報と音データとで構成される。入力信号は、音データとメタデータ(制御情報)とで構成されるビットストリームを含んでいてもよく、その場合、メタデータに空間情報が含まれていてもよい。
 空間情報は、立体音響再生システム1000が作り出す音空間(三次元音場)に関する情報であって、音空間に含まれるオブジェクトに関する情報と受聴者に関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトが存在する。音源オブジェクトは、単に音源とも表現され得る。
 非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトの役割を果たすが、音源オブジェクトが、別の音源オブジェクトが発した音を反射する障害物オブジェクトの役割を果たす場合もある。障害物オブジェクトは、反射オブジェクトと表現されてもよい。
 音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率等がある。
 位置情報は、ユークリッド空間の例えばX軸、Y軸及びZ軸の3軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。例えば、位置情報は、X軸及びY軸の2軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。
 形状情報は、表面の素材に関する情報を含んでいてもよい。
 減衰率は、0以上1以下の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて1以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。
 また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類毎に設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。
 また、空間情報は、オブジェクトが生物に属するか否かを示す情報、及び、オブジェクトが動体であるか否かを示す情報等を含んでいてもよい。オブジェクトが動体である場合、位置情報で示される位置は、時間とともに移動してもよい。この場合、変化した位置又は変化量の情報がレンダリング部1300に伝送される。
 音源オブジェクトに関する情報は、音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、音データと、音データを音空間内に放射するために必要な情報とを含む。音データは、音の周波数及び強弱に関する情報等を示すデータであって、受聴者に知覚される音が表現されたデータである。
 音データは、典型的にはPCM信号であるが、MP3等の符号化方式を用いて圧縮されたデータであってもよい。その場合、少なくとも当該信号が合成部1303に到来するまでに復号される必要があるため、レンダリング部1300は、図示しない復号部を含んでいてもよい。あるいは、当該信号が音声データデコーダ1202で復号されてもよい。
 1つの音源オブジェクトに対して、1つの音データが設定されていてもよいし、複数の音データが設定されていてもよい。また、各音データを識別する識別情報が音データに付与されてもよく、音源オブジェクトに関する情報は、音データの識別情報を含んでいてもよい。
 音データを音空間内に放射するために必要な情報は、例えば、音データの再生において基準として用いられる基準音量の情報、音データの性質(特性ともいう)を示す情報、音源オブジェクトの位置に関する情報、及び、音源オブジェクトの向きに関する情報(つまり、音源オブジェクトが発する音の指向性に関する情報)等を含んでいてもよい。
 基準音量の情報は、例えば、音データを音空間に放射する際の音源位置における音データの振幅値の実効値であって、デシベル(db)値として浮動小数点で表されてもよい。
 例えば、基準音量は、0dbの場合、音データが示す信号レベルの音量を増減させることなくそのままの音量で、音源オブジェクトの位置に関する情報が指し示す位置から、音空間に対して音を放射することを示していてもよい。また、基準音量は、-6dbの場合、音データが示す信号レベルの音量を約半分にして、音源オブジェクトの位置に関する情報が指し示す位置から、音空間に対して音を放射することを示していてもよい。
 基準音量の情報は、音データ毎に付与されてもよいし、複数の音データに対してまとめて付与されてもよい。
 音データの性質を示す情報は、例えば、音源の音量に関する情報であって、音源の音量の時系列的な変動を示す情報であってもよい。
 例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。つまり、有音部分と無音部分とが交互に発生する。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は、一定の時間長において維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は、一瞬だけ大きくなり、その後、無音又は小さい状態であり続ける。
 このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含んでいてもよい。そのような情報が、音データの性質を示す情報として用いられてもよい。
 遷移の情報は、周波数特性を時系列に示すデータで表現されてもよい。遷移の情報は、有音区間の継続時間長を示すデータで表現されてもよい。遷移の情報は、有音区間の継続時間長と無音区間の継続時間長との時系列を示すデータで表現されてもよい。遷移の情報は、音信号の振幅が定常的とみなされ得る(概ね一定であるとみなされ得る)継続時間と、その間の当該信号の振幅値との複数組を時系列で列挙したデータ等で表現されてもよい。
 遷移の情報は、音信号の周波数特性が定常的とみなされ得る継続時間のデータで表現されてもよい。遷移の情報は、音信号の周波数特性が定常的とみなされ得る継続時間と、その間の当該周波数特性との複数組を時系列で列挙したデータ等で表現されてもよい。遷移の情報は、例えば、スペクトログラムの概形を示すデータの形式で表現されてもよい。
 また、上記の周波数特性の基準として用いられる音量は、上記の基準音量であってもよい。基準音量の情報と音データの性質を示す情報とは、受聴者に知覚させる直接音又は反射音の音量の算出処理に用いられてもよいし、受聴者に知覚させるか否かの選択処理に用いられてもよい。音データの性質を示す情報の他の例及び利用方法については後述する。
 音源オブジェクトの向きに関する情報(向き情報)は、典型的には、yaw、pitch及びrollで表現される。あるいは、rollの回転が省略され、音源オブジェクトの向き情報は、アジマス(yaw)及びエレベーション(pitch)で表現されてもよい。音源オブジェクトの向き情報は、時間とともに変化してもよく、変化した場合に、レンダリング部1300に伝送される。
 受聴者に関する情報は、音空間における受聴者の位置及び向きに関する情報である。位置に関する情報(位置情報)は、ユークリッド空間のXYZ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。受聴者の向きに関する情報(向き情報)は、典型的には、yaw、pitch及びrollで表現される。あるいは、rollの回転が省略され、受聴者の向き情報は、アジマス(yaw)及びエレベーション(pitch)で表現されてもよい。
 受聴者の位置情報及び向き情報は、時間とともに変化してもよく、変化した場合に、レンダリング部1300に伝送される。
 センサ情報は、受聴者が装着するセンサ1405で検知された回転量又は変位量等と受聴者の位置及び向きとを含む情報である。センサ情報は、レンダリング部1300に伝送され、レンダリング部1300は、センサ情報に基づいて受聴者の位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がGPS、カメラ又はLiDAR等を用いて自己位置推定を実施して得られた位置情報を含んでいてもよい。
 また、センサ1405ではなく、通信モジュールを通じて外部から取得された情報がセンサ情報として検出されてもよい。センサ1405から、音声信号処理装置1001の温度を示す情報、及び、バッテリの残量を示す情報が取得されてもよい。また、音声信号処理装置1001又は音声提示装置1002の演算資源(CPU能力、メモリ資源又はPC性能等)がリアルタイムで取得されてもよい。
 解析部1301は、入力信号に含まれる音声信号、及び、空間情報管理部(1201、1211)から受け取った空間情報の解析を行い、直接音及び反射音の生成に必要な情報、並びに、反射音を生成するか否かの選択に必要な情報を検出する。
 直接音及び反射音の生成に必要な情報は、例えば直接音及び反射音のそれぞれについて、受聴位置に到来するまでの経路、到来するまでにかかる時間、及び、到来時の音量等に関する値である。
 出力する反射音の選択に必要な情報は、直接音と反射音との関係を示す情報であって、例えば、直接音と反射音との時間差に関する値、及び、受聴位置における直接音と反射音との音量比に関する値等である。
 なお、音量が、対数軸のデシベルの単位で表現される場合(音量がデシベル領域で表される場合)、2つの信号の音量比は、デシベル値の差で表されることは言うまでもない。具体的には、2つの信号の音量比は、それぞれの信号の振幅値がデシベル領域で表されるときの差であってもよい。その値がエネルギー値又はパワー値等に基づいて算出されてもよい。また、この差は、デシベル領域において、ゲインの差又は単にゲイン差と呼ばれ得る。
 つまり、本開示における音量比は、実質的に信号の振幅の比であるので、Sound volume ratio、Volume ratio、Amplitude ratio、Sound level ratio、Sound intensity ratio、又は、Gain ratio等と表現されてもよい。また、音量の単位がデシベルである場合、本開示における音量比は、音量差と言い換えられることは言うまでもない。
 本開示において、「音量比」とは、典型的には2つの音の音量がデシベルの単位で表現されるときのゲイン差を意味し、実施の形態の例では、閾値データも典型的にはデシベル領域で表されたゲイン差で規定されている。しかし、音量比は、デシベル領域のゲイン差に限定されない。デシベル領域以外で表される音量比が用いられる場合、算出された音量比の単位に、デシベル領域で規定された閾値データが変換されて用いられてもよい。あるいは、予めそれぞれの単位で規定された閾値データがメモリに格納されていてもよい。
 つまり、音量比の代わりに、例えば、エネルギーの値又はパワーの値等の比が用いられても、本開示におけるアルゴリズムを本開示の課題の解決に適用できることは明らかである。
 直接音と反射音との時間差は、例えば、直接音の到来時間(到来時刻)と反射音の到来時間(到来時刻)との時間差である。直接音と反射音との時間差は、直接音と反射音とがそれぞれ受聴位置に到来する時刻の時間差、直接音と反射音とがそれぞれ受聴位置に到来するまでにかかる時間の差、又は、直接音の発音が終了する時刻と反射音が受聴位置に到来する時刻との時間差であってもよい。これらの値の算出方法については後述する。
 選択部1302は、解析部1301が算出した情報と、閾値データとを用いて、反射音を生成するか否かを選択する。言い換えると、選択部1302は、反射音を生成対象反射音として選択するか否かを判定する。さらに、言い換えると、選択部1302は、複数の反射音のうちいずれの反射音を生成するか選択する。
 閾値データは、例えば直接音と反射音との時間差の値を横軸に有し、直接音と反射音との音量比を縦軸に有するグラフで、当該反射音が知覚されるか知覚されないかの境目(閾値)として表される。閾値データは、直接音と反射音との時間差の値を変数として有する近似式で表現されてもよいし、直接音と反射音との時間差の値をインデックスとして有し、対応する閾値を有する配列で表現されてもよい。
 選択部1302は、例えば直接音の到来時刻と反射音の到来時刻との時間差の値における、直接音の到来時音量と反射音の到来時音量との音量比が、閾値データを参照して設定された閾値よりも大きい値であった場合に、反射音を生成することを選択する。
 直接音の到来時刻と反射音の到来時刻との時間差は、言い換えると、直接音と反射音とがそれぞれ受聴位置に到来するまでにかかる時間の差である。また、直接音の発音が終了する時点と反射音が受聴位置に到来する時点の時間差が、直接音と反射音との時間差として用いられてもよい。その場合、直接音の到来時刻と反射音の到来時刻との時間差を基準に用いて定められた閾値データとは異なる閾値データが用いられてもよいし、共通の閾値データが用いられてもよい。
 閾値データは、音声信号処理装置1001のメモリ1404から取得してもよいし、外部の記憶装置から通信モジュールを経由して取得してもよい。閾値データの記憶方法及び閾値の設定方法については後述する。
 合成部1303は、直接音の音声信号と、選択部1302が生成することを選択した反射音の音声信号とを合成する。
 具体的には、合成部1303は、解析部1301が算出した直接音到来時刻及び直接音到来時音量の情報に基づいて、入力された音声信号を加工し直接音を生成する。また、合成部1303は、選択部1302が選択した反射音についての反射音到来時刻及び反射音到来時音量の情報に基づいて、入力された音声信号を加工し反射音を生成する。そして、合成部1303は、生成した直接音及び反射音を合成し出力する。
 (レンダリング部の動作)
 図8は、音声信号処理装置1001の動作例を示すフローチャートである。図8には、主に音声信号処理装置1001のレンダリング部1300で実行される処理が示されている。
 入力信号の解析処理(図8のS101)では、解析部1301が、音声信号処理装置1001に入力された入力信号を解析して、音空間で発生し得る直接音及び反射音を検出する。ここで検出される反射音は、最終的に合成部1303で生成される反射音として選択部1302で選択される反射音の候補である。また、解析部1301は、入力信号を解析して、直接音及び反射音の生成に必要な情報と、生成対象反射音の選択に必要な情報とを算出する。
 まず、直接音及び反射音のそれぞれの特性が算出される。具体的には、直接音及び反射音のそれぞれが受聴者へ到来する際の到来時間及び到来時音量が算出される。反射オブジェクトとして複数のオブジェクトが音空間に存在する場合、複数のオブジェクトのそれぞれに対して反射音の特性が算出される。
 直接音到来時間(td)は、直接音到来経路(pd)に基づいて算出される。直接音到来経路(pd)は、音源オブジェクトの位置情報S(xs,ys,zs)と受聴者の位置情報A(xa,ya,za)とを結ぶ経路である。直接音到来時間(td)は、位置情報S(xs,ys,zs)と位置情報A(xa,ya,za)とを結ぶ経路の長さを、音速(約340m/秒)で割って得られる値である。
 例えば、経路の長さ(X)は、(xs-xa)^2+(ys-ya)^2+(zs-za)^2)^0.5で求められる。音量は距離に反比例して減衰する。したがって、音源オブジェクトの位置情報S(xs,ys,zs)における音量がNであり、単位距離がUである場合、直接音到来時音量(ld)は、ld=N*U/Xで求められる。
 音源位置での音量Nは、先に説明した基準音量であってもよい。
 反射音到来時間(tr)は、反射音到来経路(pr)に基づいて算出される。反射音到来経路(pr)は、反射音の音像の位置と位置情報A(xa,ya,za)とを結ぶ経路である。
 なお、反射音の音像の位置の導出は、例えば、「鏡像法」又は「レイトレーシング法」が用いられてもよいし、それ以外の任意の音像位置の導出方法が用いられてもよい。鏡像法とは、室内の壁面での反射波が壁面に対して音源と対称な位置に鏡像が存在すると仮定し、その鏡像の位置から音波が放射されると仮定して音像をシミュレートする手法である。レイトレーシング法とは、光線又は音線等のような直線的に伝わる波を追跡することで、ある点において観測される像(音像)等をシミュレートする手法である。
 図9は、受聴者と障害物オブジェクトとが比較的遠い位置関係を示す図である。図10は、受聴者と障害物オブジェクトとが比較的近い位置関係を示す図である。すなわち、図9及び図10のそれぞれは、音源位置に対して壁を挟んで対称の位置に反射音の音像が形成される例を示している。このような関係に基づいて、反射音の音像の位置をxyz軸で求めることで、反射音の到来時間は、直接音の到来時間を算出する方法と同様に求められる。
 反射音到来時間(tr)は、反射音の音像の位置と位置情報A(xa,ya,za)とを結ぶ経路の長さ(Y)を、音速(約340m/秒)で割って得られる値である。音量は距離に反比例して減衰する。したがって、音源位置での音量がNであり、単位距離がUであり、反射における音量の減衰率がGである場合、反射音到来時音量(lr)は、lr=N*G*U/Yで求められる。
 先に説明したように減衰率Gは、0以上1以下の実数で表現されてもよいし、マイナスのデシベル値で表現されてもよい。この場合、信号全体の音量がGの分だけ減衰する。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に設定されてもよい。この場合、解析部1301は、信号の周波数成分毎に、指定された減衰率を掛ける。また、解析部1301は、演算量の削減のために、複数の周波数帯域の複数の減衰率の代表値又は平均値等を全体の減衰率として用いて、信号全体の音量をその分だけ減衰させてもよい。
 次に、解析部1301は、生成対象反射音の選択に必要な、直接音到来時音量(ld)と反射音到来時音量(lr)との比である音量比(L)、及び、直接音と反射音との時間差(T)を算出する。
 直接音到来時音量(ld)と上記lrとの比である音量比(L)は、例えば、L=(N*G*U/Y)/(N*U/X)=G*X/Yで求められる。求められる値は、音量の比であるため、NとUの値は予め定められた任意の値でよい。
 直接音と反射音との時間差(T)は、例えば、直接音と反射音とがそれぞれ受聴位置に到来する際にかかる時間の時間差であってもよい。例えば、直接音と反射音とがそれぞれ受聴位置に到来する際にかかる時間の差(T)は、T=tr-tdで求められる。
 また、時間差(T)は、直接音と反射音とがそれぞれ受聴位置に到来する時刻の差であってもよい。また、時間差(T)は、直接音の発話が終了する時刻と反射音が受聴位置に到来する時刻との時間差であってもよい。つまり、時間差(T)は、受聴位置において直接音が終了する時刻と反射音が開始する時刻との時間差であってもよい。
 次に、反射音の選択処理(図8のS102)では、選択部1302が、解析部1301で算出された反射音を生成するか否かを選択する。言い換えれば、選択部1302は、反射音を生成対象反射音として選択するか否かを判定する。複数の反射音が存在する場合、選択部1302は、各反射音を生成するか否かを選択する。選択部1302は、各反射音を生成するか否かを選択した結果、複数の反射音の中から、1つ以上の生成対象反射音を選択してもよいし、生成対象反射音を1つも選択しなくてもよい。
 なお、選択部1302は、生成処理に限らず、他の処理の適用対象の反射音を選択してもよい。例えば、選択部1302は、バイノーラル処理の適用対象の反射音を選択してもよい。また、選択部1302は、基本的に、処理対象の1つ以上の反射音のみを選択する。しかしながら、選択部1302は、処理対象でない1つ以上の反射音のみを選択してもよい。そして、選択されなかった1つ以上の反射音に処理が適用されてもよい。
 例えば、反射音の選択は、解析部1301で算出した音量比(L)と時間差(T)とに基づいて行われる。直接音と反射音との時間差(T)に基づいて選択処理を行うことで、直接音と反射音との音量差のみに基づいて選択処理を行う場合と比較して、受聴者が知覚に影響する度合いが大きい反射音をより適切に選択することが可能である。
 具体的には、反射音を生成するか否かの選択は、例えば直接音と反射音との時間差に対応する直接音と反射音との音量比と、予め設定された閾値とを比較することで行われる。閾値は、閾値データを参照して設定される。閾値データは、直接音に対する反射音が受聴者に知覚されるか否かの境界を示す指標であって、直接音の到来時音量(Id)と反射音の到来時音量(lr)との比で定義される。
 なお、閾値は、時間差(T)に対応して定められる数値等で表現される値に対応する。閾値データは、時間差(T)と閾値との関係に対応し、時間差(T)における閾値を特定又は算出するために用いるテーブルデータ又は関係式に対応する。閾値データの形式及び種類は、テーブルデータ又は関係式に限定されない。
 図11は、直接音と反射音との時間差と、閾値との関係を示す図である。例えば、図11に示されるような、直接音と反射音との時間差の値毎に予め定められた音量比の閾値データが参照されてもよい。あるいは、図11に示される閾値データから内挿又は外挿等によって得られる閾値データが参照されてもよい。
 そして、解析部1301で算出された時間差(T)における音量比の閾値が、閾値データから特定される。そして、選択部1302は、解析部1301で算出された直接音と反射音との音量比(L)が当該閾値を上回るか否かで、反射音を生成対象反射音として選択するか否かを決定する。
 直接音と反射音との時間差の値毎に予め定められた音量比の閾値データを用いて選択処理を行うことで、ポストマスキング又は先行音効果を考慮した選択処理を実現することが可能である。閾値データの種類、形式、記憶方法及び設定方法等について詳細な説明は後述する。
 次に、直接音及び反射音の生成処理(図8のS103)では、合成部1303が、直接音の音声信号と、選択部1302によって生成対象反射音として選択された反射音の音声信号とを生成し合成する。
 直接音の音声信号は、入力情報に含まれる音源オブジェクトの音データに対し、解析部1301で算出された到来時間(td)及び到来時音量(ld)を適用することで生成される。具体的には、音データを到来時間(td)の分だけ遅延させて、到来時音量(ld)を乗じる処理が行われる。音データを遅延させる処理は、時間軸上で音データの位置を前後に移動させる処理である。例えば、特許文献2に開示されているような音質を劣化させることなく、音データを遅延させる処理が適用されてもよい。
 反射音の音声信号は、直接音と同様に、音源オブジェクトの音データに対し、解析部1301で算出された到来時間(tr)及び到来時音量(ld)を適用することで生成される。
 ただし、反射音の生成における到来時音量(lr)は、直接音の到来時音量と異なり、反射における音量の減衰率Gが適用された値である。Gは、全周波数帯域に一括して適用される減衰率であってもよい。あるいは、反射によって生じる周波数成分の偏りを反映させるために、所定の周波数帯域毎に反射率が規定されていてもよい。その場合、到来時音量(lr)を適用する処理は、帯域毎に減衰率を乗じる処理である周波数イコライザーの処理として実施されてもよい。
 上記の例では、直接音及び反射音候補のそれぞれが受聴者へ到来する際の経路長が算出される。さらに各経路長に基づいて到来時間と到来時音量とが算出される。そして、それらの時間差と音量比とに基づいて、反射音候補の選択処理が行われる。
 なお、別の例として、直接音及び反射音のそれぞれが受聴者へ到来する際の経路長に基づいて選択処理が行われ、直接音及び反射音の到来時間及び到来時音量の算出、並びに、時間差及び音量比の算出が省略されてもよい。この場合、経路長差に応じた閾値が経路長比に対して予め定められてもよい。そして、算出された経路長比が、算出された経路長差に応じた閾値以上であるか否かで選択処理が行われてもよい。これにより、演算量を削減しながら、時間差に対応する経路長差に基づいて選択処理を行うことが可能である。
 また、経路長差に加えて、音の伝搬速度を示すパラメータの値、又は、音の伝搬速度のパラメータに影響を与えるパラメータの値が用いられてもよい。
 (選択処理の詳細)
 反射音を生成するか否かの選択処理の詳細について説明する。
 反射音の選択は、直接音と反射音との時間差(T)における、直接音到来時音量と反射音到来時音量との比である音量比を定めた閾値と、解析部1301で算出した音量比(L)とを比較することで行われる。例えば、直接音と反射音との時間差の値毎に予め定められた音量比の閾値のうち、解析部1301で算出した直接音と反射音との時間差(T)における、音量比の閾値が参照される。そして、解析部1301で算出した音量比(L)が閾値を上回るか否かで、反射音を生成対象反射音として選択するか否かが決定される。
 時間差(T)は、例えば、直接音と反射音とがそれぞれ受聴位置に到来する時刻の差、直接音と反射音とがそれぞれ受聴位置に到来する際にかかる時間の時間差、及び、直接音の発音が終了した時点と反射音が受聴位置に到来する時点との時間差のいずれであってもよい。ここで、直接音の終了時刻は、例えば直接音の到来時刻に直接音の継続時間を加算することで求められてもよい。
 閾値データは、聴覚神経作用又は脳における認知作用によって、より具体的には、後述の先行音効果、後述の経時マスキング現象、又は、それらの組み合わせによって、受聴者の知覚が2つの音のずれを検知することが可能な最小時間差に基づいて定められてもよい。具体的な数値は、既に知られている経時マスキング効果、先行音効果又はエコー検知限等の研究成果から導出されてもよいし、当該仮想空間に適用することを前提とした試聴実験によって求められてもよい。
 図12A、図12B及び図12Cは、閾値データの設定方法の例を示す図である。閾値データは、図12A、図12B及び図12Cに示されるように、直接音と反射音との時間差を横軸に有し、直接音と反射音との音量比を縦軸に有するグラフで、当該反射音が知覚されるか知覚されないかの境目(閾値)によって表される。
 閾値データは、直接音と反射音との時間差を変数として有する近似式で表現されてもよい。また、閾値データは、図11に示されるような、直接音と反射音との時間差のインデックスと、インデックスに対応する閾値との配列としてメモリ1404の領域に記憶されていてもよい。
 なお、図12Cの例示4における横軸に平行な線の高さ(最小可聴限)が閾値として用いられる場合、反射音と直接音との音量比(L)ではなく、反射音の音量そのものが閾値に対して比較される。なぜなら、当該閾値は、受聴者によって知覚可能か否かの境目の音量を示し、当該閾値よりも音量が小さい音を再現しない音として決定するための閾値であるためである。すなわち、最小可聴限に対応する閾値は、反射音の音量と直接音の音量との比に対する閾値ではない。
 最小可聴限が閾値として用いられる場合、閾値は時間差(T)に関係なく一定であるため、時間差(T)は算出されなくてもよい。
 なお、解析処理(図8のS101)で複数の反射音が生成された場合、全ての反射音に対して選択処理が実行されてもよいし、予め設定された評価方法で各反射音に対して導出された評価値に基づいて評価値が高い反射音に対してのみ選択処理が実行されてもよい。ここで、反射音の評価値は、反射音の知覚的な重要度に対応する。なお、評価値が高いことは、評価値が大きいことに対応し、これらの表現は相互に置き換えられてもよい。
 選択部1302は、例えば、音源の音量、音源の視覚性、音源の定位性、反射オブジェクト(障害物オブジェクト)の視覚性、又は、直接音と反射音との幾何学的関係性等に応じた予め設定された評価方法で、反射音の評価値を算出してもよい。
 具体的には、音源の音量が大きいほど、評価値が高くてもよい。また、視覚的定位と音響的定位とを一致させるために、受聴者から音源オブジェクト又は反射オブジェクト(障害物オブジェクト)が視認可能である場合、又は、音源オブジェクトの定位性が高い場合、評価値が高くてもよい。
 また、直接音と反射音との到来角の開き、及び、直接音と反射音との到来時間の差は、空間の把握に大きな影響を与える。そのため、直接音と反射音との到来角の開きが大きい場合、又は、直接音と反射音との到来時間の差が大きい場合、評価値が高くてもよい。
 音源の音量の情報は、コンテンツ毎に定められた基準音量、音量の時間的な遷移、又は、その双方を示していてもよい。
 例えば、仮想空間が仮想会議室であり、直接音が会話音声である場合、音量は短い時間で断続的に遷移する。つまり、有音部分と無音部分が交互に発生する。また、仮想空間がコンサートホールであり、直接音が楽曲の演奏である場合、音量は、一定の時間長において維持される。また、仮想空間が戦場であり、直接音が爆発音である場合、音量は、一瞬だけ大きくなり、その後、無音又は小さい状態であり続ける。
 このように音源の音量の情報は、その音を仮想空間に放射する際のボリューム設定に相当する基準音量の情報のみならず、音の大きさの遷移の情報を含んでいてもよい。
 遷移の情報は、周波数特性を時系列に示すデータで表現されてもよい。遷移の情報は、有音区間の継続時間長を示すデータで表現されてもよい。遷移の情報は、有音区間の継続時間長と無音区間の継続時間長との時系列を示すデータで表現されてもよい。遷移の情報は、音信号の振幅が定常的とみなされ得る(概ね一定であるとみなされ得る)継続時間と、その間の当該信号の振幅値との複数組を時系列で列挙したデータ等で表現されてもよい。
 遷移の情報は、音信号の周波数特性が定常的とみなされ得る継続時間のデータで表現されてもよい。遷移の情報は、音信号の周波数特性が定常的であるとみなされ得る継続時間と、その間の当該周波数特性との複数組を時系列で列挙したデータ等で表現されてもよい。
 また、信号の周波数特性の時間的な遷移を仮想空間の音響処理に用いる取り組みが従来から広く行われている(特許文献1等)。そのような従来の技術に鑑みた場合、上記の組が、周波数特性が一定である時間長と、その周波数特性との組であってもよいことは言うまでもない。
 幾何学的関係性は、仮想空間内の音源、受聴者及び反射オブジェクトの位置の関係性であってもよい。それらの関係性によって、直接音及び反射音がそれぞれ到来する経路長を幾何学的に算出することが可能である。したがって、音量が距離に反比例する関係を利用すれば、直接音の基準音量に対する反射音の基準音量を算出することが可能である。
 反射音の基準音量の算出には、反射オブジェクトの反射係数が用いられてもよい。また、反射係数として、一般的に用いられている典型的な値が用いられてもよい。一方、反射オブジェクトが吸音材で覆われている等のような特別な条件が存在する場合、反射オブジェクトの反射係数として、特別に付与された反射係数が用いられてもよい。
 反射音は、反射音の音量によって評価されてもよい。反射音の音量は、上述したような、直接音と反射音との幾何学的関係性、及び、反射オブジェクトに付与された指標から求められてもよい。その音量と予め定められた閾値とを比較して反射音が評価されてもよい。
 さらに、音源の音量の時間的な遷移を示す情報が評価に反映されてもよい。例えば、音源の音量の時間的な遷移を示す情報が、有音の区間の継続時間長を示す場合において、時刻が有音の区間内である場合、反射音の評価値がそのままで維持されてもよい。一方、時刻が有音の区間外である場合、反射音の基準音量が閾値を上回っていても、反射音の評価値を小さくする又はゼロにする処理が行われてもよい。
 あるいは、音源の音量の時間的な遷移を示す情報は、音信号の振幅が概ね一定であるとみなされる継続時間と、その間の当該信号の振幅値との複数組を時系列で列挙したデータであってもよい。この場合、データにおける振幅値の変化に連動して反射音の基準音量を変化させて、反射音を評価する処理が行われてもよい。
 また、直接音の音量を示す情報として、基準音量の情報と、時間的に遷移する音量の情報との両方が用いられてもよい。例えば、基準音量の情報に基づいて評価値が算出された後に、遷移する音量の情報を用いて当該評価値が補正されてもよい。
 反射音の評価において、上述した全ての方法が実行されてもよいし、一部のみが実行されてもよい。例えば、複数の評価方法で反射音が評価されてもよいし、1つの評価方法で反射音が評価されてもよい。
 複数の評価方法で反射音が評価される場合、反射音を選択するか否かは、複数の評価方法で総合的に決定された評価値に基づいて決定されてもよいし、複数の評価方法のそれぞれにおける評価値に基づいて決定されてもよい。
 音声信号処理装置1001は、複数の評価方法のそれぞれに基づいて反射音を選択するか否かが決定される場合において、複数の評価方法に基づく複数の評価結果の全てが音を選択することを示す場合、音を選択してもよい。あるいは、音声信号処理装置1001は、複数の評価方法に基づく複数の評価結果のいずれか1つが音を選択することを示す場合、音を選択してもよい。
 また、例えば、第1から第3の評価方法に、優先度が設けられてもよい。そして、音声信号処理装置1001は、第1の評価方法で音を選択しないと判定された場合、第2及び第3の評価方法における判定結果に依存することなく音を選択しないと最終的に判定してもよい。また、音響処理装置は、第2と及び第3の評価方法のいずれか一方で音を選択しないと判定されても他方で音を選択すると判定された場合、音を選択すると最終的に判定してもよい。
 また、選択処理と評価処理とは独立して実行されてもよく、いずれか一方だけが実行されてもよい。また、選択処理で選択されると決定された反射音に対してのみ評価処理が実行され、反射音を選択するか否かが評価処理で再決定されてもよい。あるいは、選択処理で選択されないと決定された反射音に対してのみ評価処理が実行され、反射音を選択するか否かが評価処理で再決定されてもよい。
 上述された選択処理は、直接音の性質に応じて反射音を選択する処理と解釈され得る。例えば、直接音の性質に応じて反射音を選択する処理において、反射音の選択に用いられる閾値が、直接音の性質に応じて設定又は調整される。あるいは、反射音の選択に用いられる評価値が、音源の音量、音源の視覚性、音源の定位性、反射オブジェクト(障害物オブジェクト)の視覚性、及び、直接音と反射音との幾何学的関係性等のいずれか1つ以上に基づいて算出される。
 また、直接音の性質に応じて反射音を選択する処理において、直接音の性質に応じて閾値を設定又は調整する処理、及び、処理対象の反射音の選択に用いられる評価値を算出する処理に限られず、他の処理が行われてもよい。また、直接音の性質に応じて閾値を設定又は調整する処理、あるいは、処理対象の反射音の選択に用いられる評価値を算出する処理が行われる場合であっても、処理が部分的に変更されてもよいし、新たな処理が追加されてもよい。
 なお、閾値を設定することは、閾値を調整すること、及び、閾値を変更すること等を含んでいてもよい。
 (閾値の設定方法)
 選択処理に用いられる閾値データは、例えば既に知られている先行音効果に基づくエコー検知限の値、又は、ポストマスキング効果に基づくマスキング閾値を参考に設定されてもよい。
 先行音効果とは、2ヶ所から音が聴こえてきた時、時間的に先に聞こえた方に音源があると認識する現象である。もし、2つの短音が融合して1つの音に聞こえるならば、全体の音の聞こえる位置(定位位置)は、最初の音の位置によって概ね支配的に決定される。エコー検知限とは、先行音効果によって生じる現象であり、2つの音のずれを受聴者の知覚が検知する最小時間差である。
 図12Cの例示2において、横軸は、反射音(エコー)の到来時間に対応し、具体的には、直接音の到来時刻から反射音の到来時刻までの遅れ時間に対応する。縦軸は、直接音に対する検知可能な反射音の音量比に対応し、具体的には、遅れ時間を伴って到来した反射音が検知可能であるか否かの閾値に対応する。
 図13は、閾値の設定方法の例を示す図である。図13における横軸は、反射音の到来時間に対応し、具体的には、直接音と反射音との時間差(T)に対応する。図13における縦軸は、反射音の音量に対応する。具体的には、図13における縦軸は、直接音の音量に対して相対的に定められる反射音の音量(音量比)に対応していてもよいし、直接音の音量によらず絶対的に定められる反射音の音量に対応していてもよい。
 例えば、図9に示されるように受聴者と障害物オブジェクトとが比較的遠い場合、反射音の到来時間が遅くなり、図13のCに示されるように、閾値は低く設定される。結果、図9の場合、反射音が生成される。一方、図10に示すように受聴者と障害物オブジェクトとが比較的近い場合、反射音の到来時間が図9の場合よりも早くなり、図13のBに示されるように、閾値は高く設定される。結果、図10の場合、反射音が生成されない。
 また、閾値データは、メモリ1404に記憶され、選択処理時にメモリ1404から取得され、選択処理に用いられてもよい。
 図14は、選択処理の一例を示すフローチャートである。まず、選択部1302は、解析部1301で検出された反射音を指定する(S201)。そして、選択部1302は、直接音と反射音との音量比(L)、及び、直接音と反射音との時間差(T)を検出する(S202及びS203)。
 時間差(T)は、例えば直接音と反射音とがそれぞれ受聴位置に到来する際にかかる時間の時間差、直接音到来時刻と反射音到来時刻との時間差、及び、直接音の発音が終了した時点と反射音が受聴位置に到来する時点との時間差のいずれであってもよい。ここでは直接音到来時刻と反射音到来時刻との時間差に基づく例を説明する。
 具体的には、選択部1302は、音源オブジェクト及び受聴者の位置情報、並びに、障害物オブジェクトの位置情報及び形状情報から、直接音のパスの長さと反射音のパスの長さとの差を算出する。そして、選択部1302は、当該長さの差を音速で除すことで、直接音が受聴者位置に到来する時刻と反射音が受聴者位置に到来する時刻との時間差(T)を検出する。
 受聴者に到来する音量は、音源の音量に対して、受聴者までの距離に比例して減衰(距離に反比例)する。したがって、直接音の音量は、音源の音量を直接音のパスの長さで除することで得られる。反射音の音量は、音源の音量を反射音のパスの長さで除して、さらに、仮想的な障害物オブジェクトに付与された減衰率を乗じることで得られる。選択部1302は、それらの音量の比を算出することで音量比を検出する。
 また、選択部1302は、閾値データを用いて、時間差(T)に対応する閾値を特定する(S204)。そして、選択部1302は、検出した音量比(L)が閾値以上であるか否かを判定する(S205)。
 音量比(L)が閾値以上である場合(S205でYes)、選択部1302は、当該反射音を生成対象の反射音として選択する(S206)。音量比(L)が閾値よりも小さい場合(S205でNo)、選択部1302は、当該反射音を生成対象の反射音として選択しない(S207)。すなわち、この場合、選択部1302は、当該反射音を生成対象外の反射音として決定する。
 その後、選択部1302は、未指定の反射音があるか否かを判定する(S208)。未指定の反射音があれば(S208でYes)、選択部1302は、上述の処理(S201~S207)を繰り返す。未指定の反射音がなければ(S208でNo)、選択部1302は、処理を終了する。
 この選択処理は、解析処理で生成した全ての反射音に対して実行されてもよいし、先述した評価値の高い反射音に対してのみ実行されてもよい。
 (閾値の記憶方法の詳細)
 本実施の形態に係る閾値データは、音声信号処理装置1001のメモリ1404に記憶される。記憶しておく閾値データの形式及び種類は、任意の形式及び任意の種類であってよい。複数の形式及び複数の種類の閾値が記憶される場合、選択処理において、いずれの形式及びいずれの種類の閾値を反射音の選択処理に用いるかが決定されてもよい。いずれの閾値データを選択処理に用いるかを決定する方法については、後述する。
 また、複数の形式及び複数の種類の閾値データが組み合わせて記憶されていてもよい。組み合わせた閾値データが空間情報管理部(1201、1211)から読み出され、選択処理に用いられる閾値が設定されてもよい。なお、メモリ1404に記憶される閾値データは、空間情報管理部(1201、1211)に記憶されてもよい。
 閾値データは、例えば、図12Cの[例示1]及び[例示2]に示す閾値の線を描くように、各時間差における閾値で記憶されていてもよい。
 また、閾値データは、図11に示すように閾値と時間差(T)とが対応付けられたテーブルデータとして記憶されていてもよい。つまり、閾値データは、時間差(T)をインデックスとして有するテーブルデータとして記憶されていてもよい。勿論、図11に示された閾値は一例であって、閾値は、図11の例に限定されない。また、閾値自体が記憶されず、時間差(T)を変数として有する関数で閾値が近似され、当該関数の係数が記憶されてもよい。また、複数の近似式が組み合わせて記憶されてもよい。
 メモリ1404には、時間差(T)と閾値との関係を示す関係式に関する情報が記憶されていてもよい。つまり、時間差(T)を変数として有する式が記憶されていてもよい。各時間差(T)の閾値が直線又は曲線で近似され、直線又は曲線の幾何学的な形状を示すパラメータが記憶されていてもよい。例えば、当該幾何学的な形状が直線である場合、当該直線を表現するための始点及び傾きが記憶されていてもよい。
 また、直接音の性質毎に閾値データの種類及び形式が定められて記憶されていてもよい。また、直接音の性質に応じて閾値を調整して選択処理に用いるためのパラメータが記憶されていてもよい。直接音の性質に応じて閾値を調整して選択処理に用いる処理は、閾値の設定方法の変形例として後述される。
 複数種類の閾値データが組み合わされて記憶される例として、図12Cの[例示3]に示されるように、時間差(T)毎に、マスキング閾値とエコー検知限閾値とのうち大きい方の値が記憶されていてもよい。図12Cの[例示4]に示されるように、時間差(T)毎に、仮想空間で再現する最小の音量と、エコー検知限閾値とのうち大きい方の値が記憶されていてもよい。
 複数種類の閾値データの組み合わせは、これに限定されない。例えば、複数の閾値データにおいて時間差(T)毎に最大値の情報が記憶されていてもよい。
 また、上記では、閾値に関する情報は、時間の項目を一次元のインデックスとして有する。閾値に関する情報は、さらに到来方向に関する変数を含む二次元又は三次元のインデックスを有していてもよい。
 図15は、直接音の方向と反射音の方向と時間差と閾値との関係を示す図である。例えば、図15に示すように、直接音の方向(θ)と、反射音の方向(γ)と、時間差(T)と、音量比(L)との関係に従って予め算出された閾値が記憶されていてもよい。
 直接音の方向(θ)は、受聴者に対する直接音の到来方向の角度に対応する。反射音の方向(γ)は、受聴者に対する反射音の到来方向の角度に対応する。ここでは、受聴者が向いている方向が0度と定められる。時間差(T)は、受聴位置への直接音の到来時間と反射音の到来時間との差に対応する。音量比(L)は、直接音の到来時音量と反射音の到来時音量との音量比に対応する。
 勿論、図15に示された閾値は一例であって、閾値は、図15の例に限定されない。また、図15では、主に直接音の到来方向の角度(θ)が0度である場合の閾値が例示されている。しかしながら、直接音の到来方向(θ)が0度以外である場合の閾値もメモリ1404に記憶される。
 また、上記では、直接音の到来方向の角度(θ)と、反射音の到来方向の角度(γ)とを独立した変数又はインデックスとして有する配列に、閾値が記憶される。しかし、直接音の到来方向の角度(θ)と、反射音の到来方向の角度(γ)とが独立した変数として用いられなくてもよい。
 例えば、直接音の到来方向の角度(θ)と反射音の到来方向の角度(γ)との角度差が用いられてもよい。この角度差は、直接音の到来方向と反射音の到来方向との成す角度に対応し、直接音と反射音との到来角と表現されてもよい。
 図16は、角度差と時間差と閾値との関係を示す図である。例えば、直接音の到来方向の角度(θ)と反射音の到来方向の角度(γ)との角度差(Φ)を変数として用いて予め算出された閾値が、図16に示される例のように記憶されていてもよい。勿論、図16に示された閾値は一例であって、閾値は、図16の例に限定されない。
 図16の例では、閾値の導出に用いられる変数の数を減らすことが可能である。そのため、メモリ1404に記憶される閾値の数を減らすことが可能である。したがって、メモリ1404に記憶されるデータ量を削減することが可能である。
 また、直接音の到来方向の角度(θ)と反射音の到来方向の角度(γ)との角度差(Φ)が用いられる場合、二次元の配列で閾値データが記憶されてもよい。また、選択処理において、三次元の配列を用いて、直接音の到来方向の角度(θ)と反射音の到来方向の角度(γ)との差が算出されてもよい。
 到来方向に応じた閾値を用いて反射音を選択する方法については後述する。
 (閾値の設定方法の第1変形例)
 図12A、図12B及び図12Cの例において、複数の形式及び複数の種類の閾値が空間情報管理部(1201、1211)に記憶されてもよい。そして、複数の形式及び複数の種類の閾値のうち、いずれの形式及びいずれの種類の閾値を反射音の選択処理に用いるかが決定されてもよい。具体的には、図12Cの例示3に示すように、反射音到来時刻に対応する時間差(T)において、最も高い閾値が採用されてもよい。
 また、例示4に示されるように、マスキング閾値、エコー検知限の閾値、及び、仮想空間で再現する最小の音量を示す閾値が記憶されていてもよい。そして、反射音到来時刻に対応する時間差(T)において、最も高い閾値が採用されてもよい。
 (閾値の設定方法の第2変形例)
 閾値の設定方法の別の例として、直接音の性質に応じて閾値を設定する方法について説明する。
 図17は、図7に示されたレンダリング部1300の別の構成例を示すブロック図である。図17のレンダリング部1300は、図7のレンダリング部1300とは、閾値調整部1304を含む点で異なる。閾値調整部1304以外の説明は、図7で説明した内容と同じであるため省略する。
 閾値調整部1304は、音声信号の性質を示す情報に基づいて、閾値データから選択部1302で用いられる閾値を選択する。あるいは、閾値調整部1304は、音声信号の性質を示す情報に基づいて、閾値データに含まれる閾値を調整してもよい。
 音声信号の性質を示す情報は、入力信号に含まれていてもよい。そして、閾値調整部1304は、入力信号から、音声信号の性質を示す情報を取得してもよい。あるいは、解析部1301が、受け付けた入力信号に含まれる音声信号を解析することにより、音声信号の性質を導出し、音声信号の性質を示す情報を閾値調整部1304に出力してもよい。
 音声信号の性質を示す情報は、レンダリング処理を開始する前に取得されてもよいし、レンダリング中に都度取得されてもよい。
 また、閾値調整部1304は、音声信号処理装置1001に含まれていなくてもよく、他の通信装置が閾値調整部1304の役割を有していてもよい。その場合、解析部1301又は選択部1302は、通信IF1403を介して他の通信装置から、音声信号の性質を示す情報、性質に応じた閾値データ、又は、性質に応じて閾値データを調整するための情報を取得してもよい。
 図18は、選択処理の別の例を示すフローチャートである。図19は、選択処理のさらに別の例を示すフローチャートである。図18及び図19では、直接音の性質に応じて閾値が設定される。具体的には、図18では、閾値調整部1304が、時間差(T)と、音声信号の性質とに基づいて、閾値データから閾値を特定する。図19では、閾値調整部1304が、時間差(T)に基づいて閾値データから特定される閾値を音声信号の性質に基づいて調整する。
 以下、各例の動作を説明する。なお、図14の例と共通の処理については説明を省略する。
 まず、図18で示す処理の例を説明する。ここでは、直接音の性質毎に閾値データがメモリ1404に予め記憶される。これにより、複数の性質に対応する複数の閾値データがメモリ1404に予め記憶される。そして、閾値調整部1304が、複数の閾値データの中から、反射音の選択処理に用いられる閾値データを特定する。
 例えば、閾値調整部1304は、入力信号に基づいて直接音の性質を取得する(S211)。閾値調整部1304は、入力信号に紐づいている直接音の性質を取得してもよい。そして、閾値調整部1304は、時間差(T)と、直接音の性質とに対応する閾値を特定する(S212)。
 また、図19に示すように、閾値調整部1304は、直接音の性質に基づいて、選択部1302で特定された閾値を調整してもよい(S221)。
 いずれの場合も、入力信号に、音声信号の性質を示す情報、音声信号の性質に応じて閾値を調整するための情報、又は、それらの両方が含まれていてもよい。閾値調整部1304は、それらの一方又は両方を用いて閾値を調整してもよい。
 また、音声信号の性質を示す情報、閾値を調整するための情報、又は、それらの両方が、音声信号が含まれる入力信号とは別の入力信号で伝送されてもよい。その場合、音声信号が含まれる入力信号に、当該入力信号とは別の入力信号を関連付ける情報が含まれていてもよいし、入力信号に別の入力信号を関連付ける情報が、閾値に関する情報とともにメモリ1404に記憶されていてもよい。
 図18及び図19の例では、反射音の選択に用いられる閾値が、直接音の性質、つまり音声信号の性質に応じて設定される。図18のように、予め性質毎に設定された閾値データが用いられてもよいし、図19のように、音声信号の性質に応じて閾値が調整されてもよい。また、音声信号の性質に応じて閾値データのパラメータが調整されてもよい。
 また、閾値調整部1304によって行われる動作は、解析部1301又は選択部1302によって行われてもよい。例えば、解析部1301が、音声信号の性質を取得してもよい。また、選択部1302が、音声信号の性質に応じて閾値を設定してもよい。
 次に、音声信号の性質と閾値との関係について説明する。
 受聴者の耳に連続して到来する2つの短音は、その時間間隔が十分に短ければ1つの音として聞こえる。この現象は、先行音効果と呼ばれる。先行音効果は、不連続な、すなわち、過渡的な音に対してのみ生じることが知られている(非特許文献1)。したがって、音声信号が定常音を示す場合に、音声信号が非定常音を示す場合よりも、エコー検知限が低く設定されてもよい。
 すなわち、このような先行音効果の特性に従って、例えば、直接音が定常的な音である場合、閾値が小さく設定される。また、定常性が高ければ高いほど閾値が小さく設定されてもよい。
 音声信号の性質が定常的である場合の処理の例について説明する。まず閾値調整部1304又は解析部1301が、時間の経過に伴う音声信号の周波数成分の変動量に基づいて、定常性を判定する。例えば、当該変動量が少ない場合、定常性が高いと判定される。逆に当該変動量が多い場合、定常性が低いと判定される。判定の結果、定常性のレベルを示すフラグが設定されてもよいし、当該変動量に応じて定常性を示すパラメータが設定されてもよい。
 次に、閾値調整部1304は、音声信号の定常性を示すフラグ又はパラメータ等のような定常性を示す情報に基づいて、閾値データ又は閾値を調整し、調整された閾値データ又は閾値を選択部1302で用いられる閾値データ又は閾値として設定してもよい。
 あるいは、直接音の定常性を示す情報に応じて閾値データを設定するためのパラメータが、予めメモリ1404に記憶されていてもよい。この場合、閾値調整部1304は、音声信号の定常性を判定し、定常性を示す情報及びパラメータに基づいて、反射音の選択に用いられる閾値データを設定してもよい。
 あるいは、閾値データの複数のパラメータが、直接音の定常性の複数のパターンに対応して、予めメモリ1404に記憶されていてもよい。この場合、閾値調整部1304は、音声信号の定常性を判定し、直接音の定常性のパターンに基づいて閾値データのパラメータを選択し、閾値データのパラメータに基づいて、反射音の選択に用いられる閾値データを設定してもよい。
 なお、音声信号の定常性は、音声信号が入力される度に、音声信号の周波数成分の変動量に基づいて判定されてもよい。
 あるいは、音声信号の定常性は、音声信号に予め紐づけられた、定常性を示す情報に基づいて、判定されてもよい。つまり、音声信号の定常性を示す情報が、音声信号に紐づけられて、予めメモリ1404に記憶されていてもよい。解析部1301は、音声信号が入力される度に、音声信号に紐づけられた定常性を示す情報を取得してもよい。そして、閾値調整部1304は、音声信号に紐づけられた定常性を示す情報に基づいて、閾値を調整してもよい。
 音声信号の性質に応じて閾値が設定される他の例として、音声信号が短い音(クリック音等)を示す場合に、音声信号が長い音を示す場合よりも、エコー検知限の適用範囲が短く設定されてもよい。この処理は、先行音効果の特性に基づく。
 先行音効果によって、受聴者の耳に連続して到来する2つの短音は、その時間間隔が十分に短ければ1つの音として聞こえることが知られている。この時間間隔の上限は、音の長さに依存する。例えば、この時間間隔の上限は、クリック音では約5msであるが、人の声又は音楽のような複雑な音では40msになることもある(非特許文献1)。
 このような先行音効果の特性に従って、例えば、直接音の継続時間長が短い音の場合、短い時間長の閾値が設定される。また、直接音の継続時間長が短いほど、より短い時間長の閾値が設定される。
 短い時間長の閾値が設定されることは、直接音と反射音との時間差(T)が小さい範囲において、先行音効果の特性に基づくエコー検知限に対応する閾値が設けられることを意味する。この範囲外では、先行音効果の特性に基づくエコー検知限に対応する閾値が設けられない。すなわち、この範囲外では、閾値が小さい。したがって、短い音に対して短い時間長の閾値が設定されることは、短い音に対して小さい閾値が設定されることに対応し得る。
 直接音の性質に応じて閾値が設定される他の例として、直接音が断続的な音(スピーチ等)である場合に、直接音が継続的な音(音楽等)である場合よりも、閾値が低く設定されてもよい。
 例えば直接音がスピーチに対応する場合、有音部と無音部とが繰り返され、マスキング効果として、無音部では、ポストマスキング効果のみが生じる。一方、直接音が音楽コンテンツのように継続的な音である場合、ポストマスキング効果と、その時に発生している音による同時マスキング効果との両方のマスキング効果が生じる。したがって、総合的なマスキング効果は、スピーチ等の場合よりも音楽等の場合に高い。
 上記のようなマスキング効果の特性に従って、スピーチ等の場合よりも音楽等の場合に、閾値が高く設定されてもよい。逆に、音楽等の場合よりもスピーチ等の場合に、閾値が低く設定されてもよい。つまり、直接音に断続的な部分が多い場合、閾値が小さく設定されてもよい。
 上述した通り、直接音の性質を示す情報は、直接音の定常性、断続性及び継続時間等を示す情報であってもよい。また、直接音の性質を示す情報は、それらの任意の組み合わせであってもよい。また、直接音の性質を示す情報は、それらのいずれかの時間変動を示す情報であってもよいし、それらの任意の組み合わせの時間変動を示す情報であってもよい。つまり、直接音の性質を示す情報は、直接音の時間変動を示す情報であってもよい。
 例えば、定常性の判定の説明において示したように、直接音の性質を示す情報は、周波数特性の時系列データであってもよい。ここで、周波数特性は、周波数バンド毎のゲイン値、時間軸信号に対するフーリエ級数、あるいは、周波数包絡線を求めるためのLPC係数又はケプストラム係数等のような、慣用されている形式で表現されてもよい。
 さらに、直接音の性質を示す情報は、直接音の断続性を示す情報として、信号の振幅が定常的である継続時間と、その間の当該信号の振幅値との複数組を時系列で列挙した情報(振幅の包絡線の概形)であってもよい。ここで、振幅値は、基準音量に対する比で表現されてもよい。
 さらに、直接音の性質を示す情報は、直接音の周波数特性に関する情報であってもよい。例えば、直接音の性質を示す情報は、直接音の周波数特性の定常性を示す情報であってもよい。具体的には、直接音の性質を示す情報は、周波数特性の変動が小さい状態である継続時間と、その間の当該信号の周波数特性との複数組を時系列で列挙した情報(スペクトログラムの概形)であってもよい。ここで、上記の周波数特性の基準として用いられる音量は、上記の基準音量であってもよい。
 例えば、直接音の時間変動を示す情報は、直接音の包絡線を示す情報である。直接音の時間変動を示す情報は、図12Cの[例示4]に記載の「最小可聴限」が閾値である場合に用いられてもよい。最小可聴限と比較する信号は、反射音の音量である。
 反射音の音量は、音源、受聴者及び反射オブジェクトの位置の情報から幾何学的な計算によって得られる。具体的には、音源の基準音量に対する反射音の基準音量が得られる。直接音の性質を示す情報として音源の音の大きさの遷移の情報を用いて反射音の基準音量を増減させることで、時々刻々の反射音の音量を正確に求めることが可能である。この理由は、音源の音量の変動が反射音の音量の変動に反映されるためである。
 反射音の音量の調整後、反射音の音量を閾値と比較することで、より正確に聴感上必要な反射音を適切に選択することが可能である。
 勿論、反射音の基準音量を調整せずに、音源の音の大きさの遷移の情報の逆数に基づいて閾値を調整し、調整された閾値と反射音の基準音量とを比較することによっても同じ結果が得られることは言うまでもない。つまり、音源の音の大きさの遷移の情報を用いて反射音の基準音量が調整されてもよいし、音源の音の大きさの遷移の情報を用いて閾値が調整されてもよい。反射音の基準音量の調整と閾値の調整とは、互いに対応する。
 音を反射する物体の表面の組成によって、音の反射率(反射に伴う音の減衰率)は、周波数帯域毎に異なる。そこで、後述するように、音を反射する物体に対し、周波数帯域毎に、音の反射率(減衰率)が紐づけられていてもよい。そのような反射率の情報と、スペクトログラムの情報とによって、当該反射音を選択するか否かをより正確に判定することが可能である。例えば、下記のような処理が行われる。
 具体的には、例えば、スペクトログラムの情報によって、ある時間区間において、高域の周波数成分が、低域の周波数成分よりも優勢であることが示されている。また、例えば、音の反射率の情報によって、高域の周波数成分において、低域の周波数成分よりも、反射率が極めて小さいことが示されている。
 この場合、音源の信号の時間軸での振幅が大きくても、スペクトログラムの情報によって示される周波数成分と、反射率の情報によって示される周波数帯域毎の減衰率とを乗じることで得られる反射音の音量は小さくなり、反射音は選択されない可能性がある。
 上述した通り、直接音の性質を示す情報は、直接音の時間変動を示す情報であってもよい。例えば、直接音の性質を示す情報は、直接音を予め定められた時間長で分析することで得られる値を示してもよい。
 具体的には、直接音の性質を示す情報は、予め定められた時間長毎に直接音の平均エネルギー又は平均振幅を算出することで得られる情報であってもよい。また、直接音の性質を示す情報は、短時間分析長毎に直接音のエネルギー又は平均振幅を算出し、短時間分析長よりも長い長時間分析長毎にエネルギー又は平均振幅の加重平均を算出することで得られる情報であってもよい。
 より具体的には、例えば、直接音の時間変動を示す情報は、予め定められた短い時間長(例えば5ms、以後この時間長のフレームは分析フレームと表現される)毎に、直接音のエネルギー又は平均振幅を算出することで得られる情報であってもよい。また、直接音の時間変動を示す情報は、過去N-1個の分析フレームで算出されたエネルギー又は平均振幅の加重平均で表される情報であってもよい。
 仮に、第n分析フレームのエネルギーがE(n)で表現される場合、直接音の性質を示す情報I(n)は、次式に従って求められる。
Figure JPOXMLDOC01-appb-M000001
 ここで、パラメータa(i)は、重み係数を表す。一般的には、a(i)≧0、かつ、a(i)の総和が1になるように、a(i)が設定される。しかしながら、a(i)の設定方法は、この限りではない。
 なお、直接音が5ms取り込まれる度に、直接音の性質を示す情報I(n)が算出される。すなわち、直接音の性質を示す情報I(n)の時間変動を低遅延で算出することが可能である。そのため、この方法は、リアルタイム性の必要なアプリケーションへの適用に適している。
 また、次式に従って、直接音の性質を示す情報I(n)が求められてもよい。
Figure JPOXMLDOC01-appb-M000002
 ここで、パラメータb(i)は、重み係数を表す。一般的には、b(i)≧0、かつ、b(i)の総和が1になるように、b(i)が設定される。しかしながら、b(i)の設定方法は、この限りではない。
 この式では、再帰的に、直接音の性質を示す情報I(n)が求められている。そのため、少ない演算量で、長い時間長の平均エネルギーを算出することが可能である。
 上記の式1及び式2は、E(n)が入力信号でありI(n)が出力信号であるフィルタとみなされ得る。その場合、式1は、移動平均(MA)モデルのフィルタであり、式2は、自己回帰(AR)モデルのフィルタであり、いずれも、低域通過型(ローパス)フィルタの特性を有する。また、両者が組み合わせられたARMAモデルのフィルタが用いられてもよい。
 なお、直接音の時間変動を示す情報を導出する方法には、上述の計算式又はフィルタに限られず、他の公知の手法が用いられてもよい。上述した通り、直接音の時間変動を示す情報は、直接音を予め定められた時間長で分析することで得られる値を示す。平均エネルギー以外の観点で直接音が分析されてもよい。
 また、上述した通り、直接音の性質を示す情報は、直接音の周波数特性に関する情報であってもよい。直接音の周波数特性に関する情報は、直接音の周波数特性を用いて算出された情報であってもよい。例えば、直接音の周波数特性に関する情報は、直接音の低域成分を予め定められた分析長で平均化することで低域成分の平均エネルギーとして得られる情報であってもよい。
 具体的には、分析フレーム長に含まれる直接音に対して、ローパス特性を有するフィルタを適用することで、直接音の低域成分が求められる。この低域成分のエネルギー又は平均振幅から、上述した式1と同様に、直接音の性質を示す情報が導出される。
 仮に、第n分析フレームの低域成分のエネルギーがE(n)で表現される場合、直接音の性質を示す情報I(n)は、次式に従って求められる。
Figure JPOXMLDOC01-appb-M000003
 ここで、パラメータc(i)は、重み係数を表す。一般的には、c(i)≧0、かつ、c(i)の総和が1になるように、c(i)が設定される。しかしながら、c(i)の設定方法は、この限りではない。
 なお、直接音が5ms取り込まれる度に、直接音の性質を示す情報I(n)が算出される。すなわち、直接音の性質を示す情報I(n)の時間変動を低遅延で算出することが可能である。そのため、この方法は、リアルタイム性の必要なアプリケーションへの適用に適している。
 また、式2と同様に、次式に従って、直接音の性質を示す情報I(n)が求められてもよい。
Figure JPOXMLDOC01-appb-M000004
 ここで、パラメータd(i)は、重み係数を表す。一般的には、d(i)≧0、かつ、d(i)の総和が1になるように、d(i)が設定される。しかしながら、d(i)の設定方法は、この限りではない。
 この式では、再帰的に、直接音の性質を示す情報I(n)が求められている。そのため、少ない演算量で、長い時間長の平均エネルギーを算出することが可能である。
 上記の式3及び式4は、E(n)が入力信号でありI(n)が出力信号であるフィルタとみなされ得る。その場合、式3は、移動平均(MA)モデルのフィルタであり、式4は、自己回帰(AR)モデルのフィルタであり、いずれも、低域通過型(ローパス)フィルタの特性を有する。また、両者が組み合わせられたARMAモデルのフィルタが用いられてもよい。
 上記では、直接音の低域成分を求める方法に、ローパス特性を有するフィルタが用いられているが、直接音の低域成分を求める方法は、これに限られない。また、直接音の時間変動を示す情報を導出する方法には、上述の計算式又はフィルタに限られず、他の公知の手法が用いられてもよい。例えば、直接音に対して周波数変換を施すことにより、直接音のスペクトルが算出されてもよい。そして、当該スペクトルの低域成分のエネルギー又は平均振幅が算出されてもよい。
 また、上記では、直接音の時間変動を示す情報の導出に、MAモデル又はARモデルが用いられている。これらモデルの係数は、予め定められた固定値であってもよいし、時間的に可変な値である可変値であってもよい。
 また、上記の分析フレーム長と、上記の情報更新スレッドの発生インターバルとの関係は、下記の様なものであってもよい。
 例えば、分析フレームの時間長がTA(msec)であり、情報更新スレッドの発生インターバルがTU(msec)である場合、MAフィルタにおける上記の(式1)及び(式3)のNの値は、TU/TAによって与えられる値程度であってもよい。また、ARフィルタにおける上記(式2)及び(式4)のb(i)及びd(i)(1≦i<N)は、当該フィルタの時定数がTU(msec)程度になるような値であってもよい。
 上記の設定の理由は、情報更新のインターバル期間内で、当該フィルタが収束することが期待されるためである。
 一方、もし上記の設定で直接音の時間変動を示す情報において値が急峻に変動し過ぎるような場合は、I(n)が予め算出されてもよい。そして、予め算出されたI(n)が反射音の選択処理に適用されてもよい。例えば、t時刻目のフレームの処理において、I(t+tau)が用いられてもよい。ここで、tauは、フィルタの収束の特性に応じて定められる値である。収束が遅い場合、収束が速い場合に比べて、tauの値は大きい。
 また、直接音の特性を示す情報として、直接音から算出される聴覚マスキング(周波数マスキング)の情報が用いられてもよい。聴覚マスキングの情報は、直接音によってマスクされる周波数領域での振幅値の閾値を示す。同じ周波数領域での反射音の振幅値を閾値と比較して、閾値よりも振幅値の小さい反射音を選択しない処理が行われてもよい。周波数領域における反射音の振幅値は、反射音の特性を示す情報として解析部1301で取得されてもよい。
 このように直接音の性質に応じて反射音の選択に用いられる閾値を設定することで、聴感上必要な反射音を適切に選択することが可能になり、聴覚の特性を効果的に立体音響再生システム1000に反映することが可能になる。直接音の性質を検出する処理、性質に応じて閾値を決定する処理、及び、性質に応じて閾値を調整する処理は、レンダリング処理時に行われてもよいし、レンダリング処理を開始する前に行われてもよい。
 例えば、これらの処理は、仮想空間作成時(ソフトウェアの作成時)、仮想空間の処理の開始時(ソフトウェアの起動時又はレンダリング開始時)、又は、仮想空間の処理において定期的に発生する情報更新スレッドが発生したタイミング等で行われてもよい。また、仮想空間作成時は、音響処理の開始前に仮想空間を構築するタイミングであってもよいし、仮想空間の情報(空間情報)の取得時であってもよいし、ソフトウェアの取得時であってもよい。
 ここで、情報更新スレッドでは、空間情報管理部(1201、1211)によって管理される空間情報を更新するための処理が行われる。
 情報更新スレッドが担う役割は、例えば、受聴者が装着しているVRゴーグルの位置及び向きに基づいて、仮想空間内に配置された受聴者のアバターの位置及び向きを更新する処理、又は、仮想空間内を移動している物体の位置の更新等である。このような処理は、数10Hz程度の比較的低頻度で起動する処理スレッド内で賄われる。
 このような発生頻度の低い処理スレッドで、直接音の性質を示す情報を更新する処理が行われてもよい。この理由は、オーディオ出力のためのオーディオ処理フレームの発生頻度よりも直接音の性質が変動する頻度が低いためである。これにより、当該処理の演算負荷を相対的に小さくすることが可能になる。また、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じる。低い頻度で情報が更新されることにより、このようなリスクを回避することも可能である。
 (閾値の設定方法の第3変形例)
 閾値の設定方法の別の例として、当該仮想空間の再現を処理する演算資源(CPU能力、メモリ資源、PC性能又はバッテリ残量等)に応じて、閾値が設定されてもよい。より具体的には、音声信号処理装置1001のセンサ1405が演算資源の量を検知し、演算資源量が少ない場合、閾値が高く設定される。これにより、より多くの反射音の音量が閾値よりも小さくなるため、バイノーラル処理が行われる反射音を減らすことが可能になり、演算量を減らすことが可能になる。
 あるいは、信号処理が、スマートフォン又はVRゴーグル等のような、蓄電池で駆動する機器で行われる場合、処理を長時間持続させることを優先し演算資源を節約することが期待される。そのような場合、演算資源の量又は残量を検知するまでもなく、閾値が高く設定されてもよい。
 (閾値の設定方法の第4変形例)
 閾値の設定方法の別の例として、図示しない閾値設定部を音声信号処理装置1001又は音声提示装置1002が備えることで、当該仮想空間の管理者又は受聴者によって閾値が設定されてもよい。
 例えば、音声提示装置1002を装着する受聴者によって、受聴対象反射音が少なく演算量が少ない「省エネモード」か、受聴対象反射音が多く演算量が多い「高性能モード」かが選択可能であってもよい。もしくは、立体音響再生システム1000を管理する管理者又は立体音響コンテンツの作成者によって、モードが選択可能であってもよい。また、モードではなく、閾値又は閾値データが直接選択可能であってもよい。
 (レンダリング部の動作の第1変形例)
 図20は、音声信号処理装置1001の動作の第1変形例を示すフローチャートである。図20には、主に音声信号処理装置1001のレンダリング部1300で実行される処理が示されている。本変形例では、レンダリング部1300の動作に音量補償処理が追加される。
 例えば、解析部1301は、データ(入力信号)を取得する(S301)。次に、解析部1301は、データを解析する(S302)。次に、選択部1302は、解析結果に基づいて、反射音を選択するか否かの判定を行う(S303)。次に、合成部1303は、選択されない反射音に基づいて音量補償処理を行う(S304)。次に、合成部1303は、直接音及び反射音の音響処理を行う(S305)。そして、合成部1303は、直接音及び反射音をオーディオとして出力する(S306)。
 上記の処理(S301~S306)のうち音量補償処理(S304)以外は、上述された他の例と共通する処理であるため、それらの説明を省略する。
 音量補償処理は、選択処理において選択されなかった反射音に応じて実行される。例えば、選択処理において反射音を選択しないことによって音量感の欠如が生じる。音量補償処理によって、このような音量感の欠如に伴う違和感が抑制される。音量感を補償する方法の例として、以下の2つの方法を開示する。2つの方法のうちいずれの方法が用いられてもよい。
 まず、直接音の音量を上昇させることで音量感を補償する方法について説明する。合成部1303は、選択されなかった反射音の音量の分だけ直接音の音量を上昇させて、直接音を生成する。これによって、反射音を生成しないことで失われる音量感が補償される。
 合成部1303は、当該音量を上昇させる際、反射音の周波数特性に従って、周波数成分毎に音量を上昇させてもよい。このような処理を可能にするため、反射オブジェクトが減衰させる音量の減衰率が所定の周波数帯域毎に付与されていてもよい。これにより、反射音の周波数特性を導出することが可能になる。
 次に、直接音に反射音を合成させることで、音量感を補償する方法について説明する。この方法において、合成部1303は、選択されなかった反射音を直接音に加算し、直接音を生成することによって、反射音を生成しないことによる音量感を補償する。生成された直接音には、選択されなかった反射音の音量(振幅)、周波数及び遅延等が反映される。
 直接音の音量を上昇させる方法の場合、補償処理の演算量は極めて軽微であるが、音量のみが補償される。直接音に反射音を合成させる方法の場合、補償処理の演算量は、直接音の音量を上昇させる方法に比べれば大きいが、反射音の特性がより正確に補償される。
 いずれの場合も、反射音を生成せず、直接音のみが生成されるため、全体の演算量が削減される。特にHRTFを畳み込む処理を含むバイノーラル処理にかかる演算量が削減されるため、全体の演算量は大きく削減される。この理由は、バイノーラル処理にかかる演算量が上記の補償処理にかかる演算量よりも遥かに大きいためである。
 なお、反射音が選択されない理由が、反射音の音量がマスキング閾値を下回ることである場合、音量感が失われないため、補償処理を行うことなく、単に反射音が除去されてもよい。
 (レンダリング部の動作の第2変形例)
 図21は、音声信号処理装置1001の動作の第2変形例を示すフローチャートである。図21には、主に音声信号処理装置1001のレンダリング部1300で実行される処理が示されている。本変形例では、レンダリング部1300の動作に左右音量差調整処理が追加される。
 例えば、解析部1301は、入力信号を解析する(S401)。次に、解析部1301は、音の到来方向を検出する(S402)。次に、選択部1302は、左右の耳で知覚される音の音量の差を調整する(S403)。また、選択部1302は、左右の耳で知覚される音の到来時間の差(遅延)を調整する(S404)。選択部1302は、調整後の音の情報に基づいて、反射音を選択するか否かの判定を行う(S405)。
 上記の処理(S401~S405)のうち左右音量差調整(S403)及び遅延調整(S404)以外は、上述された他の例と共通する処理であるため、それらの説明を省略する。
 図22は、アバターと音源オブジェクトと障害物オブジェクトとの配置例を示す図である。例えば、受聴者の正面方向が0度である場合において、図22のように、直接音の到来方向(θ)と反射音の到来方向(γ)との極性(例えば正負)が異なる場合、両耳間で生じる音量差が補正される。
 具体的には、θとγとの極性が異なる場合、直接音と反射音とで主に(先に)音を知覚する耳が異なる。この場合、選択部1302は、左右音量差調整(S403)として、反射音を主に知覚する耳の位置に合わせて直接音の音量を調整する。例えば、選択部1302は、直接音が受聴者に到来する時の音量に、(1.0-0.3sin(θ))(0≦θ≦180)を乗じることで、直接音が受聴者に到来する時の音量を減衰させる。
 選択部1302は、上記のように補正された直接音の音量と、反射音の音量との音量比を算出し、算出された音量比と閾値とを比較することによって、反射音を選択するか否かの判定を行う。これにより、両耳間で生じる音量差が補正され、反射音に影響する直接音の音量がより正確に導出され、反射音を選択するか否かの判定がより正確に行われる。
 また、選択部1302は、左右音量差調整(S403)に加えて、遅延調整(S404)として、反射音を知覚する耳の位置に合わせて、直接音の到来時間を遅延させてもよい。具体的には、選択部1302は、直接音の到来時間に(a(sinθ+θ)/c)ms(aは頭部の半径、cは音速)を加えることにより、直接音の到来時間を遅延させてもよい。
 (レンダリング部の動作の第3変形例)
 到来方向に応じた閾値を設定する方法について説明する。
 図23は、選択処理のさらに別の一例を示すフローチャートである。図14の例と共通の処理については説明を省略する。図23の例では、選択部1302が、到来方向に応じた閾値を用いて反射音を選択する。
 具体的には、選択部1302は、解析部1301で算出された直接音到来経路(pd)、反射音到来経路(pr)、及び、アバターの向き情報Dから、アバターの向きを基準に用いて定められる直接音到来方向(θ)及び反射音到来方向(γ)を算出する。すなわち、選択部1302は、直接音到来方向(θ)及び反射音到来方向(γ)を検出する(S231)。アバターの向きは、受聴者の向きに対応する。アバターの向き情報Dは、入力信号に含まれていてもよい。
 選択部1302は、直接音到来方向(θ)及び反射音到来方向(γ)に加えて時間差(T)を含む3つのインデックスを用いて、図15に示されるような三次元配列から、選択処理に用いられる閾値を特定する(S232)。
 例として、図22のように、アバターと音源オブジェクトと障害物オブジェクトとが配置されている場合に、選択処理に用いられる閾値の設定方法を説明する。
 入力信号から、アバター、音源オブジェクト及び障害物オブジェクトの位置情報と、アバターの向き情報Dとが取得される。これらの位置情報及び向き情報Dを用いて、アバターの向きが0度と定められる場合における直接音の方向(θ)と反射音の音像の方向(γ)とが算出される。図22の場合、直接音の方向(θ)は、20度程度であり、反射音の音像の方向(γ)は、265度(-95度)程度である。
 次に、図15に示される三次元の配列で記憶された閾値データを参照して、2つの方向(θ)及び(γ)の値と、解析部1301で算出された時間差(T)の値とに対応する配列領域から閾値が特定される。算出された(θ)、(γ)、(T)の値に対応するインデックスが存在しない場合、最も近いインデックスに対応する閾値が特定されてもよい。
 別の方法として、算出された(θ)、(γ)、(T)の値に近い1つ以上のインデックスに対応する1つ以上の閾値に基づいて、補間、内挿又は外挿等の処理を行うことにより、閾値が特定されてもよい。例えば、(0度、225度、T)、(0度、270度、T)、(45度、225度、T)及び(45度、270度、T)の4つのインデックスに対応する4つの閾値に基づいて、(20度、265度、T)に対応する閾値が特定されてもよい。
 直接音の到来方向の角度(θ)と反射音の到来方向の角度(γ)との差に基づく選択処理について説明する。
 例えば、図16に示されるような、直接音の到来方向(θ)と反射音の到来方向(γ)との角度差(Φ)と、時間差(T)とを二次元インデックス配列として有する閾値データが、予め作成され、設定されていてもよい。この場合、選択処理で角度差(Φ)と時間差(T)とが参照される。あるいは、選択処理で直接音の到来方向の角度(θ)と反射音の到来方向の角度(γ)との角度差(Φ)が算出され、算出された角度差(Φ)が閾値の特定に用いられてもよい。
 あるいは、当該角度差(Φ)と直接音の到来方向(θ)と時間差(T)との組み合わせ、又は、角度差(Φ)と反射音の到来方向(γ)と時間差(T)との組み合わせをインデックス配列として有する閾値データが設定されてもよい。
 あるいは、図15に示されるような、(θ)、(γ)及び(T)の値を三次元インデックス配列として有する閾値データが設定されてもよい。
 (レンダリング部の動作の第4変形例)
 上述の解析部1301、選択部1302及び合成部1303で行われる処理は、例えば特許文献3で説明されているようなパイプライン処理として行われてもよい。
 図24は、レンダリング部1300がパイプライン処理を行うための構成例を示すブロック図である。
 図24のレンダリング部1300は、残響処理部1311、初期反射処理部1312、距離減衰処理部1313、選択部1314、生成部1315及びバイノーラル処理部1316を備える。これらの複数の構成要素は、図7に示されたレンダリング部1300の複数の構成要素で構成されていてもよいし、図5に示された音声信号処理装置1001の複数の構成要素の少なくとも一部で構成されていてもよい。
 パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、複数の処理を1つずつ順番に実行することを指す。複数の処理のそれぞれでは、例えば、音声信号に対する信号処理、又は、信号処理に用いられるパラメータの生成等が実行される。
 レンダリング部1300は、パイプライン処理として、残響処理、初期反射処理、距離減衰処理及びバイノーラル処理等を行ってもよい。ただし、これらの処理は一例であり、パイプライン処理は、これら以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、パイプライン処理は、回折処理及びオクルージョン処理を含んでいてもよい。また、例えば、残響処理が、不要な場合、省略されてもよい。
 また、各処理がステージと表現されてもよい。また、各処理の結果、生成された反射音等の音声信号は、レンダリングアイテムと表現されてもよい。パイプライン処理における複数のステージ、及び、それらの順番は、図24に示された例に限られない。
 ここでは、選択処理で用いられるパラメータ(直接音及び反射音に関する到来経路、到来時間及び音量比)が、レンダリングアイテムを生成するための複数のステージのいずれかで算出される。つまり、反射音の選択に用いられるパラメータは、レンダリングアイテムを生成するためのパイプライン処理の一部で算出される。なお、全てのステージがレンダリング部1300で行われなくてもよい。例えば、一部のステージが、省略されてもよいし、レンダリング部1300以外で行われてもよい。
 パイプライン処理にステージとして含まれ得る残響処理、初期反射処理、距離減衰処理、選択処理、生成処理及びバイノーラル処理について説明する。各ステージにおいて、入力信号に含まれるメタデータを解析して、反射音の生成に用いられるパラメータが算出されてもよい。
 残響処理では、残響処理部1311が、残響音を示す音声信号、又は、音声信号の生成に用いられるパラメータを生成する。残響音とは、直接音の後に残響として受聴者に到来する音である。一例として、残響音は、後述する初期反射音が受聴者へ到来した後の比較的後期(例えば、直接音の到来時から百数十ms程度)の段階で、初期反射音よりも多くの回数(例えば、数十回)の反射を経て受聴者へ到来する音である。
 残響処理部1311は、入力信号に含まれる音声信号及び空間情報を参照し、残響音を生成するための関数として事前に準備された所定の関数を用いて残響音を計算する。
 残響処理部1311は、入力信号に含まれる音声信号に、公知の残響生成方法を適用して、残響音を生成してもよい。公知の残響生成方法の例は、シュレーダー法であるが、公知の残響生成方法は、シュレーダー法に限られない。また、残響処理部1311は、公知の残響生成方法の適用において、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部1311は、残響音を生成するためのパラメータを算出することができる。
 初期反射処理では、初期反射処理部1312が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音が受聴者へ到来した後の比較的初期(例えば、直接音の到来時から数十ms程度)の段階で、1回以上の反射を経て受聴者へ到来する反射音である。
 初期反射処理部1312は、例えば音声信号及びメタデータを参照し、音源オブジェクトから反射オブジェクトで反射して受聴者に到来する反射音の経路を計算する。例えば、経路の計算において、三次元音場(空間)の形状、三次元音場の大きさ、構造物等の反射オブジェクトの位置、及び、反射オブジェクトの反射率等が用いられてもよい。
 また、初期反射処理部1312が、直接音の経路も算出してもよい。当該経路の情報は、初期反射処理部1312が初期反射音を生成するためのパラメータとして用いられてもよいし、選択部1314が反射音を選択するためのパラメータとして用いられてもよい。
 距離減衰処理では、距離減衰処理部1313が、直接音及び反射音の経路の長さに基づいて、受聴者に到来する直接音及び反射音の音量を算出する。受聴者に到来する直接音及び反射音の音量は、音源の音量に対して、受聴者までの経路の距離に比例して減衰(距離に反比例)する。したがって、距離減衰処理部1313は、音源の音量を直接音の経路の長さで除して直接音の音量を算出することができ、音源の音量を反射音のパスの長さで除して反射音の音量を算出することができる。
 選択処理では、選択部1314が、選択処理の前に算出されたパラメータに基づいて、生成対象反射音を選択する。生成対象反射音の選択には、本開示のいずれかの選択方法が用いられてもよい。
 選択処理は、全ての反射音に対して実行されてもよいし、前述したように評価処理に基づいて評価値の高い反射音に対してのみ実行されてもよい。つまり、評価値の低い反射音は、選択処理を行うまでもなく非選択と判定されてもよい。例えば、音量が非常に小さい反射音は、反射音の評価値が低いとみなされ、非選択と判定されてもよい。
 また、例えば、全ての反射音に対して選択処理が実施されてもよい。そして、選択処理で選択された反射音の評価値が判定され、判定された評価値が低い反射音は、非選択と判定し直されてもよい。
 選択処理と評価処理とは、それぞれ独立で実行されてもよく、組み合わせて実行されてもよい。選択処理と評価処理とが組み合わせて実行する場合、2つの処理のうちのいずれが先に実行されてもよい。
 生成処理において、生成部1315は、直接音及び反射音を生成する。例えば、生成部1315は、入力信号に含まれる音声信号から、直接音の到来時刻及び到来時音量に基づいて直接音を生成する。また、生成部1315は、選択処理において選択された反射音について、入力信号に含まれる音声信号から、反射音の到来時刻及び到来時音量に基づいて反射音を生成する。
 バイノーラル処理において、バイノーラル処理部1316は、直接音の音声信号が音源オブジェクトの方向から受聴者に到来する音として知覚されるように、信号処理を実行する。さらに、バイノーラル処理部1316は、選択部1314で選択された反射音が反射オブジェクトから受聴者に到来する音として知覚されるように、信号処理を実行する。
 例えば、バイノーラル処理部1316は、音空間における受聴者の位置及び向きに基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音が受聴者に到来するように、HRIR DBを適用する処理を実行する。
 なお、HRIR(Head―Related Impulse Responses)は、1個のインパルスを発生させたときの応答特性である。具体的には、HRIRは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化が伝達関数として表現された頭部伝達関数をフーリエ変換によって周波数領域における表現から時間領域における表現に変換することで得られる応答特性である。HRIR DBは、このような情報を含むデータベースである。
 また、音空間における受聴者の位置及び向きは、例えば、仮想的な音空間における仮想的な受聴者の位置及び向きである。受聴者の頭部の動きに合わせて、仮想的な音空間における仮想的な受聴者の位置及び向きが変化してもよい。また、仮想的な音空間における仮想的な受聴者の位置及び向きは、センサ1405から取得された情報に基づいて定められてもよい。
 上記の処理に用いられるプログラム、空間情報、HRIR DB、閾値データ又はその他のパラメータ等は、音声信号処理装置1001に備わるメモリ1404又は音声信号処理装置1001の外部から取得される。
 また、パイプライン処理は、他の処理を含んでいてもよい。そして、レンダリング部1300は、パイプライン処理に含まれる他の処理を行うための図示されない処理部を含んでいてもよい。例えば、レンダリング部1300は、回折処理部及びオクルージョン処理部を含んでいてもよい。
 回折処理部は、三次元音場(空間)における受聴者と音源オブジェクトとの間の障害物オブジェクトに起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトと受聴者との間に障害物オブジェクトが存在する場合に、当該障害物オブジェクトを回り込むようにして音源オブジェクトから受聴者へ到来する音である。
 回折処理部は、例えば音声信号及びメタデータを参照し、音源オブジェクトから障害物オブジェクトを迂回して受聴者へと到来する回折音の経路を計算し、当該経路に基づいて回折音を生成する。経路の計算において、三次元音場(空間)における音源オブジェクト、受聴者及び障害物オブジェクトの位置、並びに、障害物オブジェクトの形状及び大きさ等が用いられてもよい。
 オクルージョン処理部は、障害物オブジェクトの向こう側に音源オブジェクトが存在する場合に、空間情報及び障害物オブジェクトの材質等の情報に基づいて、音源オブジェクトから障害物オブジェクトを通り抜けて漏れ聞こえる音の音声信号を生成する。
 (音源オブジェクトの例)
 上記では、音源オブジェクトに付与される位置情報は、仮想空間内における「点」を音源オブジェクトの位置として示す。すなわち、上記では、音源は、「点音源」として定義されている。
 一方で、仮想空間における音源は、長さ、大きさ及び形状等を有する物体として、すなわち、点音源でない、空間的に拡張された音源として定義されてもよい。この場合、受聴者と音源との距離、及び、音の到来方向が確定しない。したがって、このような音源に起因する反射音は、解析部1301で解析を行うまでもなく、又は、解析結果の如何にかかわらず、選択部1302で選択されることに限定されてもよい。これにより、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることが可能である。
 あるいは、当該物体の重心等の代表点が定められて、その代表点から音が発生していると仮定して本開示の処理が適用されてもよい。この場合、音源の空間的な拡張の情報に応じて、閾値が調整されてもよい。
 (直接音及び反射音の例)
 例えば、直接音は、反射オブジェクトによって反射されていない音であり、反射音は、反射オブジェクトによって反射された音である。直接音は、音源から反射オブジェクトによって反射することなく受聴者に到来した音であってもよいし、反射音は、音源から反射オブジェクトによって反射して受聴者に到来した音であってもよい。
 また、直接音及び反射音のそれぞれは、受聴者に到来した音に限られず、受聴者に到来する前の音であってもよい。例えば、直接音は、音源から出力された音、さらに言い換えれば、音源の音であってもよい。
 図25は、音の透過及び回折を示す図である。図25に示されるように、障害物オブジェクトが音源オブジェクトと受聴者との間に存在することによって、直接音が受聴者に到来しない場合がある。この場合、音源オブジェクトから発せられ、障害物オブジェクトを透過し、受聴者に到来した音が、直接音とみなされてもよい。そして、音源オブジェクトから発せられ、障害物オブジェクトによって回折し、受聴者に到来した音が、反射音とみなされてもよい。
 また、選択処理において比較される2つの音は、1つの音源が発する音に基づく直接音及び反射音に限定されない。例えば、1つの音源が発する音に基づく2つの反射音の間で比較を行って音の選択が行われてもよい。この場合、本開示における直接音は先に受聴者に届く音と読み替えられてもよく、本開示における反射音は後から受聴者に届く音と読み替えられてもよい。
 (ビットストリームの構造例)
 ビットストリームには、例えば、音声信号とメタデータとが含まれる。音声信号は、音が表現された音データであって、音の周波数及び強弱に関する情報等を示す。また、メタデータは、音場の空間である音空間に関する空間情報を含む。
 例えば、空間情報は、音声信号に基づく音を聞く受聴者が位置する空間に関する情報である。具体的には、空間情報は、音空間(例えば三次元音場)における所定の位置に音像を定位させるための、つまり、所定の位置に対応する方向から到来する音を受聴者に知覚させるための、当該所定の位置(定位位置)に関する情報である。空間情報には、例えば、音源オブジェクト情報と、受聴者の位置を示す位置情報とが含まれる。
 音源オブジェクト情報は、音声信号に基づく音を発生させる音源オブジェクトの情報である。つまり、音源オブジェクト情報は、音声信号を再生する物体(音源オブジェクト)に関する情報であって、仮想的な音空間に配置される仮想的な音源オブジェクトに関する情報である。ここで、仮想的な音空間は、音を発生させる物体が配置される実空間に対応していてもよく、仮想的な音空間における音源オブジェクトは、実空間において音を発生させる物体に対応していてもよい。
 音源オブジェクト情報は、音空間に配置される音源オブジェクトの位置、音源オブジェクトの向き、音源オブジェクトが発する音の指向性、音源オブジェクトが生物に属するか否か、及び、音源オブジェクトが動体であるか否か等を示してもよい。例えば、音声信号は、音源オブジェクト情報によって示される1以上の音源オブジェクトに対応付けられている。
 ビットストリームは、例えばメタデータ(制御情報)と音声信号とで構成されるデータ構造を有する。
 音声信号及びメタデータは、1つのビットストリームに含まれていてもよいし、複数のビットストリームに別々に含まれていてもよい。また、音声信号及びメタデータは、1つのファイルに含まれていてもよいし、複数のファイルに別々に含まれていてもよい。
 ビットストリームは、音源毎に存在してもよいし、再生時間毎に存在してもよい。再生時間毎にビットストリームが存在する場合であっても、同時に複数のビットストリームが並列で処理されてもよい。
 メタデータは、ビットストリーム毎に付与されてもよく、複数のビットストリームを制御するための情報として複数のビットストリームにまとめて付与されてもよい。この場合、複数のビットストリームがメタデータを共有してもよい。また、メタデータは、再生時間毎に付与されてもよい。
 複数のビットストリーム又は複数のファイルが存在する場合、1つ以上のビットストリーム又は1つ以上のファイルに、関連ビットストリーム又は関連ファイルを示す情報が含まれていてもよい。あるいは、全てのビットストリームのそれぞれ又は全てのファイルのそれぞれに、関連ビットストリーム又は関連ファイルを示す情報が含まれていてもよい。
 ここで、関連ビットストリーム又は関連ファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連ビットストリーム又は関連ファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。
 ここで、関連ビットストリーム又は関連ファイルを示す情報は、例えば、関連ビットストリーム又は関連ファイルを示す識別子であってもよい。また、関連ビットストリーム又は関連ファイルを示す情報は、例えば、関連ビットストリーム又は関連ファイルを示すファイル名、URL(Uniform Resource Locator)又はURI(Uniform Resource Identifier)等であってもよい。
 この場合、取得部は、関連ビットストリーム又は関連ファイルを示す情報に基づいて、関連ビットストリーム又は関連ファイルを特定し取得する。また、ビットストリーム又はファイルに、関連ビットストリーム又は関連ファイルを示す情報が含まれ、かつ、別のビットストリーム又は別のファイルに、関連ビットストリーム又は関連ファイルを示す情報が含まれていてもよい。
 ここで、関連ビットストリーム又は関連ファイルを示す情報を含むファイルは、例えばコンテンツの配信に用いられるマニフェストファイル等のような制御ファイルであってもよい。
 なお、全てのメタデータ又は一部のメタデータは、音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するためのメタデータと、映像を制御するためのメタデータとのうち、いずれか一方のメタデータが、ビットストリーム以外から取得されてもよいし、両方のメタデータが、ビットストリーム以外から取得されてもよい。
 また、映像を制御するためのメタデータが、立体音響再生システム1000で取得されるビットストリームに含まれていてもよい。この場合、立体音響再生システム1000は、画像を表示する表示装置、又は、立体映像を再生する立体映像再生装置へ、映像を制御するためのメタデータを出力してもよい。
 (メタデータに含まれる情報の例)
 メタデータは、音空間で表現されるシーンの記述に用いられる情報であってもよい。ここで、シーンとは、メタデータを用いて立体音響再生システム1000でモデリングされる音空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。
 つまり、メタデータは、音響処理を制御するための情報だけでなく、映像処理を制御するための情報も含んでいてもよい。メタデータには、音響処理を制御するための情報と、映像処理を制御するための情報とのうち、いずれか一方のみが含まれていてもよいし、両方が含まれていてもよい。
 立体音響再生システム1000は、ビットストリームに含まれるメタデータ、及び、追加で取得されるインタラクティブな受聴者の位置情報等を用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とが行われてもよいし、メタデータを用いて他の音響処理が行われてもよい。例えば、距離減衰効果、ローカリゼーション又はドップラー効果等の音響効果が付加されてもよい。
 また、音響効果の全て又は一部のオンオフを切り替える情報、又は、音響効果の複数の処理に対する優先度情報が、メタデータに付加されてもよい。
 また、一例として、メタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、音空間内において所定位置に音像を定位させる(つまり所定方向から到来する音を受聴者に知覚させる)ための、定位位置に関する情報を含む。
 ここで、障害物オブジェクトは、音源オブジェクトが発する音が受聴者へと到来するまでの間において、例えば音を遮ったり、音を反射したりして、受聴者が知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、動物又は機械等の動体を含み得る。動物は、人等であってもよい。
 また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。つまり、建材又は無生物等の音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも、障害物オブジェクトとなり得る。
 メタデータには、音空間の形状、音空間における障害物オブジェクトの形状及び位置、音空間における音源オブジェクトの形状及び位置、並びに、音空間における受聴者の位置及び向きの全て又は一部を表す情報が含まれる。
 音空間は、閉空間及び開空間のいずれであってもよい。また、メタデータには、音空間において音を反射し得る障害物オブジェクトの反射率を表す情報が含まれていてもよい。例えば、音空間の境界を構成する床、壁又は天井等も障害物オブジェクトを構成し得る。
 反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域毎に設定されていてもよい。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。なお、音空間が開空間の場合、例えば一律で設定された減衰率、回折音及び初期反射音等のパラメータが用いられてもよい。
 メタデータは、障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率以外の情報を含んでいてもよい。例えば、メタデータは、音源オブジェクト及び非発音オブジェクトの両方に関するパラメータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、メタデータは、拡散率、透過率及び吸音率等の情報を含んでいてもよい。
 音源オブジェクトに関する情報は、音量、放射特性(指向性)、再生条件、1つのオブジェクトにおける音源の数及び種類、並びに、オブジェクトにおける音源領域を示す情報等を含んでいてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、受聴者の位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準に用いて定められてもよい。
 例えば、受聴者の位置とオブジェクトの位置との相対的な関係で音源領域が定められる場合、受聴者から見て、オブジェクトの右側から音A、及び、オブジェクトの左側から音Bを受聴者に知覚させることが可能である。
 また、オブジェクトを基準に用いて音源領域が定められる場合、オブジェクトを基準に用いて、オブジェクトのどの領域からどの音を出すかを固定することが可能である。例えば、受聴者がオブジェクトを正面から見た場合、オブジェクトの右側から高い音、及び、オブジェクトの左側から低い音を受聴者に知覚させることが可能である。そして、受聴者がオブジェクトを背面から見た場合、オブジェクトの右側から低い音、及び、オブジェクトの左側から高い音を受聴者に知覚させることが可能である。
 空間に関するメタデータは、初期反射音までの時間、残響時間、及び、直接音と拡散音との比率等を含んでいてもよい。直接音と拡散音との比率がゼロの場合、直接音のみを受聴者に知覚させることが可能である。
 (補足)
 なお、本開示に基づいて把握される態様は、実施の形態に限定されず、種々変更して実施されてもよい。
 例えば、実施の形態において特定の構成要素によって実行される処理を特定の構成要素の代わりに別の構成要素が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、説明に用いられた第1及び第2等の序数は、適宜、付け替えられてもよいし、取り除かれてもよいし、新たに付与されてもよい。これらの序数は、意味のある順序に必ずしも対応せず、要素の識別に用いられてもよい。
 また、例えば、閾値に対する比較において、閾値以上であることと、閾値よりも大きいこととが相互に読み替えられてもよい。同様に、閾値以下であることと、閾値よりも小さいこととが相互に読み替えられてもよい。また、例えば、時間及び時刻は、相互に読み替えられる場合がある。
 また、複数の音から1つ以上の処理対象音を選択する処理において、条件を満たす音が存在しなければ、どの音も処理対象音として選択されなくてもよい。つまり、複数の音から1つ以上の処理対象音を選択する処理には、処理対象音が選択されないケースが含まれていてもよい。
 また、例えば、第1要素、第2要素及び第3要素の少なくとも1つという表現は、第1要素、第2要素、第3要素、又は、これらの任意の組み合わせに対応し得る。
 また、例えば、実施の形態では、本開示に基づいて把握される態様を音響処理装置、符号化装置又は復号装置として実施する場合について説明している。しかし、本開示に基づいて把握される態様は、これらに限られず、音響処理方法、符号化方法又は復号方法を実行するためのソフトウェアとして実施されてもよい。
 例えば、上述の音響処理方法、符号化方法又は復号方法を実行するためのプログラムが、予めROMに記憶されていてもよい。そして、そのプログラムに従って、CPUが動作してもよい。
 また、上述の音響処理方法、符号化方法又は復号方法を実行するためのプログラムが、コンピュータ読み取り可能な記録媒体に記憶されてもよい。そして、コンピュータは、記録媒体に記憶されたプログラムをコンピュータのRAMに記録し、そのプログラムに従って動作してもよい。
 そして、上記の各構成要素は、典型的には、入力端子及び出力端子を有する集積回路であるLSIとして実現されてもよい。これらは、個別に1チップ化されてもよいし、実施の形態の全ての構成要素又は一部の構成要素を含むように1チップ化されてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI又はウルトラLSIと表現されてもよい。
 また、LSIに限られず、専用回路又は汎用プロセッサが利用されてもよい。また、LSI製造後に、プログラミングが可能なFPGA、又は、LSI内部の回路セルの接続又は設定の再構成が可能なリコンフィギュラブル・プロセッサが利用されてもよい。さらに、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化が行われてもよい。バイオ技術の適応等が可能性としてあり得る。
 また、FPGA又はCPU等が、本開示において説明した音響処理方法、符号化方法又は復号方法を実現するためのソフトウェアの全部又は一部を無線通信又は有線通信によりダウンロードしてもよい。さらに、更新のためのソフトウェアの全部又は一部が無線通信又は有線通信によりダウンロードされてもよい。そして、FPGA又はCPU等が、ダウンロードされたソフトウェアをメモリに記憶し、記憶されたソフトウェアに基づいて動作することにより、本開示において説明したデジタル信号処理を実行してもよい。
 このとき、FPGA又はCPU等を具備する機器は、信号処理装置と無線又は有線で接続してもよいし、信号処理サーバとネットワークを介して接続してもよい。そして、この機器と、信号処理装置又は信号処理サーバとは、本開示において説明した音響処理方法、符号化方法又は復号方法を行ってもよい。
 例えば、本開示における音響処理装置、符号化装置又は復号装置が、FPGA又はCPU等を具備してもよい。さらに、音響処理装置、符号化装置又は復号装置は、FPGA又はCPU等を動作させるためのソフトウェアを外部から入手するためのインタフェース、及び、入手されたソフトウェアを記憶するためのメモリを具備してもよい。そして、FPGA又はCPU等は、記憶されたソフトウェアに基づいて動作することで、本開示において説明した信号処理を実行してもよい。
 本開示の音響処理、符号化処理又は復号処理に関するソフトウェアをサーバが提供してもよい。そして、端末又は機器は、当該ソフトウェアをインストールすることで、本開示で記載した音響処理装置、符号化装置又は復号装置として動作してもよい。なお、端末又は機器が、ネットワークを介しサーバと接続し、ソフトウェアをインストールしてもよい。
 また、端末又は機器とは異なる別の装置が、ネットワークを介しサーバと接続してソフトウェアのインストール用のデータを取得し、当該別の装置が端末又は機器にソフトウェアのインストール用のデータを提供することで端末又は機器にソフトウェアがインストールされてもよい。なお、ソフトウェアの例は、実施の形態を用いて説明した音響処理方法を端末又は機器に実行させるためのVR用ソフトウェア又はAR用ソフトウェアであってもよい。
 なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 以上、1つ以上の態様に係る装置等について、実施の形態に基づいて説明したが、本開示に基づいて把握される態様は、実施の形態に限定されない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施すことで得られる形態、及び、異なる変形例における構成要素を組み合わせて構築される形態も、1つ以上の態様の範囲内に含まれてもよい。
 (付記)
 以上の実施の形態の記載により、下記の技術が開示される。
 (技術1)回路とメモリとを備え、前記回路は前記メモリを用いて、音空間に関する音空間情報を取得し、前記音空間情報に基づいて、前記音空間において音源から生じる第1音に関する特性を取得し、前記第1音に関する特性に基づいて、前記音空間において前記第1音に対応して生じる第2音を選択するか否かを制御する、音響処理装置。
 (技術2)前記第1音は、直接音であり、前記第2音は、反射音である、技術1に記載の音響処理装置。
 (技術3)前記第1音に関する特性は、前記直接音の音量と前記反射音の音量との音量比であり、前記回路は、前記音空間情報に基づいて、前記音量比を算出し、前記音量比に基づいて、前記反射音を選択するか否かを制御する、技術2に記載の音響処理装置。
 (技術4)前記回路は、前記反射音が選択された場合、前記反射音及び前記直接音に対してバイノーラル処理を適用することにより、受聴者の両耳のそれぞれに到来する音を生成する、技術3に記載の音響処理装置。
 (技術5)前記回路は、前記音空間情報に基づいて、前記直接音の終了時刻と前記反射音の到来時刻との時間差を算出し、前記時間差及び前記音量比に基づいて、前記反射音を選択するか否かを制御する、技術3又は4に記載の音響処理装置。
 (技術6)前記回路は、前記音量比が閾値以上である場合、前記反射音を選択し、前記時間差が第1の値である場合に前記閾値として用いられる第1閾値は、前記時間差が前記第1の値よりも大きい第2の値である場合に前記閾値として用いられる第2閾値よりも大きい、技術5に記載の音響処理装置。
 (技術7)前記回路は、前記音空間情報に基づいて、前記直接音の到来時刻と前記反射音の到来時刻との時間差を算出し、前記時間差及び前記音量比に基づいて、前記反射音を選択するか否かを制御する、技術3又は4に記載の音響処理装置。
 (技術8)前記回路は、前記音量比が閾値以上である場合、前記反射音を選択し、前記時間差が第1の値である場合に前記閾値として用いられる第1閾値は、前記時間差が前記第1の値よりも大きい第2の値である場合に前記閾値として用いられる第2閾値よりも大きい、技術7に記載の音響処理装置。
 (技術9)前記回路は、前記直接音の到来方向と前記反射音の到来方向とに基づいて、前記閾値を調整する、技術6又は8に記載の音響処理装置。
 (技術10)前記回路は、前記第2音が選択されない場合、前記第2音の音量に基づいて前記第1音の音量を補正する、技術1~9のいずれかに記載の音響処理装置。
 (技術11)前記回路は、前記第2音が選択されない場合、前記第2音を前記第1音に合成する、技術1~9のいずれかに記載の音響処理装置。
 (技術12)前記音量比は、第1の時刻における前記直接音の音量と、前記第1の時刻とは異なる第2の時刻における前記反射音の音量との音量比である、技術3~9のいずれかに記載の音響処理装置。
 (技術13)前記回路は、前記第1音に関する特性に基づいて閾値を設定し、前記閾値に基づいて前記第2音を選択するか否かを制御する、技術1又は2に記載の音響処理装置。
 (技術14)前記第1音に関する特性は、前記音源の音量、前記音源の視覚性、及び、前記音源の定位性のうち、いずれか1つ、又は、いずれか2つ以上の組み合わせである、技術1、2及び13のいずれかに記載の音響処理装置。
 (技術15)前記第1音に関する特性は、前記第1音の周波数特性である、技術1、2及び13のいずれかに記載の音響処理装置。
 (技術16)前記第1音に関する特性は、前記第1音の振幅の断続性を示す特性である、技術1、2及び13のいずれかに記載の音響処理装置。
 (技術17)前記第1音に関する特性は、前記第1音の有音部の継続時間、又は、前記第1音の無音部の継続時間を示す特性である、技術1、2、13及び16のいずれかに記載の音響処理装置。
 (技術18)前記第1音に関する特性は、前記第1音の有音部の継続時間と、前記第1音の無音部の継続時間とを時系列で示す特性である、技術1、2、13、16及び17のいずれかに記載の音響処理装置。
 (技術19)前記第1音に関する特性は、前記第1音の周波数特性の変動を示す特性である、技術1、2、13及び15のいずれかに記載の音響処理装置。
 (技術20)前記第1音に関する特性は、前記第1音の周波数特性の定常性を示す特性である、技術1、2、13、15及び19のいずれかに記載の音響処理装置。
 (技術21)前記第1音に関する特性は、ビットストリームから取得される、技術1、2及び13~20のいずれかに記載の音響処理装置。
 (技術22)前記回路は、前記第2音に関する特性を算出し、前記第1音に関する特性と、前記第2音に関する特性とに基づいて、前記第2音を選択するか否かを制御する、技術1、2及び13~21のいずれかに記載の音響処理装置。
 (技術23)前記回路は、音が聞こえるか否かの境目に対応する音量を示す閾値を取得し、前記第1音に関する特性と、前記第2音に関する特性と、前記閾値とに基づいて、前記第2音を選択するか否かを制御する、技術22に記載の音響処理装置。
 (技術24)前記第2音に関する特性は、前記第2音の音量である、技術22又は23に記載の音響処理装置。
 (技術25)前記音空間情報は、前記音空間における受聴者の位置の情報を含み、前記第2音は、前記音空間において前記第1音に対応して生じる複数の第2音のそれぞれであり、前記回路は、前記第1音に関する特性に基づいて、前記複数の第2音のそれぞれを選択するか否かを制御することにより、前記第1音及び前記複数の第2音の中からバイノーラル処理が適用される1つ以上の処理対象音を選択する、技術1~24のいずれかに記載の音響処理装置。
 (技術26)前記第1音に関する特性を取得するタイミングは、前記音空間の作成時、前記音空間の処理開始時、及び、前記音空間の処理中における情報更新スレッド発生時のうち、少なくとも1つである、技術1~25のいずれかに記載の音響処理装置。
 (技術27)前記第1音に関する特性は、前記音空間の処理開始後、定期的に取得される、技術1~26のいずれかに記載の音響処理装置。
 (技術28)前記第1音に関する特性は、前記第1音の音量であり、前記回路は、前記第1音の音量に基づいて、前記第2音の評価値を算出し、前記評価値に基づいて、前記第2音を選択するか否かを制御する、技術1、2及び25~27のいずれかに記載の音響処理装置。
 (技術29)前記第1音の音量は、遷移を有する、技術28に記載の音響処理装置。
 (技術30)前記回路は、前記第1音の音量が大きいほど前記第2音がより選択されやすくなるように、前記評価値を算出する、技術28又は29に記載の音響処理装置。
 (技術31)前記音空間情報は、前記音空間における前記音源の情報、及び、前記音空間における受聴者の位置の情報を含むシーン情報であり、前記第2音は、前記音空間において前記第1音に対応して生じる複数の第2音のそれぞれであり、前記回路は、前記第1音の信号を取得し、前記シーン情報と前記第1音の信号とに基づいて、前記複数の第2音を算出し、前記音源の情報から前記第1音に関する特性を取得し、前記第1音に関する特性に基づいて、前記複数の第2音のそれぞれをバイノーラル処理が適用されない音として選択するか否かを制御することにより、前記複数の第2音の中から、前記バイノーラル処理が適用されない1つ以上の第2音を選択する、技術1~30のいずれかに記載の音響処理装置。
 (技術32)前記シーン情報は、入力情報に基づいて更新され、前記第1音に関する特性は、前記シーン情報の更新に応じて取得される、技術31に記載の音響処理装置。
 (技術33)前記シーン情報及び前記第1音に関する特性は、ビットストリームに含まれるメタデータから取得される、技術31又は32に記載の音響処理装置。
 (技術34)前記第1音に関する特性は、前記第1音の振幅値が代表振幅値である継続時間と、当該継続時間における前記代表振幅値との組でそれぞれが構成される複数の組を時系列で示す特性である、技術1、2、13、16~18、25~27及び31~33のいずれかに記載の音響処理装置。
 (技術35)前記代表振幅値は、予め設定された基準音量に対する前記第1音の音量の比の値である、技術34に記載の音響処理装置。
 (技術36)前記第1音に関する特性は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間を示す特性である、技術1、2、13、15、19及び20のいずれかに記載の音響処理装置。
 (技術37)前記第1音に関する特性は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間と、当該継続時間における周波数特性との組でそれぞれが構成される複数の組を時系列で示す特性である、技術1、2、13、15、19、20及び36のいずれかに記載の音響処理装置。
 (技術38)前記回路は、音が聞こえるか否かの境目に対応する音量を示す閾値を取得し、前記第1音に関する特性に基づいて、前記第2音の音量を算出し、前記第2音の音量が前記閾値よりも大きい場合、前記第2音を選択する、技術1、2、13~24及び34~37のいずれかに記載の音響処理装置。
 (技術39)前記音空間情報は、前記音空間における前記音源の情報、及び、前記音空間における受聴者の位置の情報を含むシーン情報であり、前記第2音は、前記音空間において前記第1音に対応して生じる複数の第2音のそれぞれであり、前記回路は、前記第1音の信号を取得し、前記シーン情報と前記第1音の信号とに基づいて、前記複数の第2音を算出し、前記音源の情報から前記第1音に関する特性を取得し、前記第1音に関する特性に基づいて、前記複数の第2音のそれぞれをバイノーラル処理が適用される音として選択するか否かを制御することにより、前記第1音及び前記複数の第2音の中から、前記バイノーラル処理が適用される1つ以上の処理対象音を選択し、前記シーン情報は、入力情報に基づいて更新され、前記第1音に関する特性は、前記シーン情報の更新に応じて取得され、前記シーン情報の更新は、前記1つ以上の処理対象音に対し前記バイノーラル処理を適用する頻度よりも低い頻度で実施される、技術1、2、13~20及び31~38のいずれかに記載の音響処理装置。
 (技術40)音空間に関する音空間情報を取得するステップと、前記音空間情報に基づいて、前記音空間において音源から生じる第1音に関する特性を取得するステップと、前記第1音に関する特性に基づいて、前記音空間において前記第1音に対応して生じる第2音を選択するか否かを制御するステップとを含む、音響処理方法。
 (技術41)技術40に記載の音響処理方法をコンピュータに実行させるための、プログラム。
 本開示は、例えば、音響処理装置、符号化装置、復号装置、又は、これらのいずれかの装置を備える端末又は機器において適用可能な態様を含む。
  1000 立体音響再生システム
  1001 音声信号処理装置(音響処理装置)
  1002 音声提示装置
  1100、1120、1500 符号化装置
  1101、1113 入力データ
  1102 エンコーダ
  1103 符号化データ
  1104、1114、1404、1503 メモリ
  1110、1130 復号装置
  1111 音声信号
  1112、1200、1210 デコーダ
  1121 送信部
  1122 送信信号
  1131 受信部
  1132 受信信号
  1201、1211 空間情報管理部
  1202 音声データデコーダ
  1203、1213、1300 レンダリング部
  1301 解析部
  1302、1314 選択部
  1303 合成部
  1304 閾値調整部
  1311 残響処理部
  1312 初期反射処理部
  1313 距離減衰処理部
  1315 生成部
  1316 バイノーラル処理部
  1401 スピーカ
  1402、1501 プロセッサ
  1403、1502 通信IF
  1405 センサ

Claims (9)

  1.  回路とメモリとを備え、
     前記回路は前記メモリを用いて、
     音空間に関する音空間情報を取得し、
     前記音空間情報に基づいて、前記音空間において音源から生じる第1音に関する特性を取得し、
     前記第1音に関する特性に基づいて、前記音空間において前記第1音に対応して生じる第2音を選択するか否かを制御する、
     音響処理装置。
  2.  前記第1音に関する特性は、前記第1音の振幅値が代表振幅値である継続時間と、当該継続時間における前記代表振幅値との組でそれぞれが構成される複数の組を時系列で示す特性である、
     請求項1に記載の音響処理装置。
  3.  前記代表振幅値は、予め設定された基準音量に対する前記第1音の音量の比の値である、
     請求項2に記載の音響処理装置。
  4.  前記第1音に関する特性は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間を示す特性である、
     請求項1に記載の音響処理装置。
  5.  前記第1音に関する特性は、周波数特性の変動量が予め定められた閾値よりも低い状態が継続する継続時間と、当該継続時間における周波数特性との組でそれぞれが構成される複数の組を時系列で示す特性である、
     請求項1に記載の音響処理装置。
  6.  前記回路は、
     音が聞こえるか否かの境目に対応する音量を示す閾値を取得し、
     前記第1音に関する特性に基づいて、前記第2音の音量を算出し、
     前記第2音の音量が前記閾値よりも大きい場合、前記第2音を選択する、
     請求項1~5のいずれか1項に記載の音響処理装置。
  7.  前記音空間情報は、前記音空間における前記音源の情報、及び、前記音空間における受聴者の位置の情報を含むシーン情報であり、
     前記第2音は、前記音空間において前記第1音に対応して生じる複数の第2音のそれぞれであり、
     前記回路は、
     前記第1音の信号を取得し、
     前記シーン情報と前記第1音の信号とに基づいて、前記複数の第2音を算出し、
     前記音源の情報から前記第1音に関する特性を取得し、
     前記第1音に関する特性に基づいて、前記複数の第2音のそれぞれをバイノーラル処理が適用される音として選択するか否かを制御することにより、前記第1音及び前記複数の第2音の中から、前記バイノーラル処理が適用される1つ以上の処理対象音を選択し、
     前記シーン情報は、入力情報に基づいて更新され、
     前記第1音に関する特性は、前記シーン情報の更新に応じて取得され、
     前記シーン情報の更新は、前記1つ以上の処理対象音に対して前記バイノーラル処理を適用する頻度よりも低い頻度で実施される、
     請求項1に記載の音響処理装置。
  8.  音空間に関する音空間情報を取得するステップと、
     前記音空間情報に基づいて、前記音空間において音源から生じる第1音に関する特性を取得するステップと、
     前記第1音に関する特性に基づいて、前記音空間において前記第1音に対応して生じる第2音を選択するか否かを制御するステップとを含む、
     音響処理方法。
  9.  請求項8に記載の音響処理方法をコンピュータに実行させるための、
     プログラム。
PCT/JP2023/036497 2022-10-19 2023-10-06 音響処理装置及び音響処理方法 WO2024084999A1 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US202263417410P 2022-10-19 2022-10-19
US63/417,410 2022-10-19
US202263436182P 2022-12-30 2022-12-30
US63/436,182 2022-12-30
JP2023064442 2023-04-11
JP2023-064442 2023-04-11
JP2023110687 2023-07-05
JP2023-110687 2023-07-05

Publications (1)

Publication Number Publication Date
WO2024084999A1 true WO2024084999A1 (ja) 2024-04-25

Family

ID=90737487

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/036497 WO2024084999A1 (ja) 2022-10-19 2023-10-06 音響処理装置及び音響処理方法

Country Status (2)

Country Link
TW (1) TW202424726A (ja)
WO (1) WO2024084999A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63210898A (ja) * 1987-02-27 1988-09-01 松下電器産業株式会社 音声合成装置
JPH0546193A (ja) * 1991-08-19 1993-02-26 Matsushita Electric Ind Co Ltd 反射音抽出装置
JP2003271154A (ja) * 2002-03-13 2003-09-25 Yamaha Corp 音源分布データの補間方法、音源分布データ補間装置、楽音信号処理装置、プログラムおよび記録媒体
JP2020134887A (ja) * 2019-02-25 2020-08-31 富士通株式会社 音信号処理プログラム、音信号処理方法及び音信号処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63210898A (ja) * 1987-02-27 1988-09-01 松下電器産業株式会社 音声合成装置
JPH0546193A (ja) * 1991-08-19 1993-02-26 Matsushita Electric Ind Co Ltd 反射音抽出装置
JP2003271154A (ja) * 2002-03-13 2003-09-25 Yamaha Corp 音源分布データの補間方法、音源分布データ補間装置、楽音信号処理装置、プログラムおよび記録媒体
JP2020134887A (ja) * 2019-02-25 2020-08-31 富士通株式会社 音信号処理プログラム、音信号処理方法及び音信号処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHAO XIAO LI XINFANG, WANG YOUXIANG: "Preparation and Photodynamic Treatment of 5-Aminolevulinic Acid Hyaluronic Acid Microneedles", CHINESE CHEMICAL SOCIETY 2017 NATIONAL POLYMER ACADEMIC PAPER REPORT, CHINESE CHEMICAL SOCIETY, CN, 10 October 2017 (2017-10-10), CN, pages 325 - 326, XP009549117 *

Also Published As

Publication number Publication date
TW202424726A (zh) 2024-06-16

Similar Documents

Publication Publication Date Title
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
US10685638B2 (en) Audio scene apparatus
JP5857071B2 (ja) オーディオ・システムおよびその動作方法
KR101333031B1 (ko) HRTFs을 나타내는 파라미터들의 생성 및 처리 방법 및디바이스
JP2023517720A (ja) 残響のレンダリング
JP7232546B2 (ja) 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
US11417347B2 (en) Binaural room impulse response for spatial audio reproduction
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
TWI834163B (zh) 三維音頻訊號編碼方法、裝置和編碼器
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
WO2021261385A1 (ja) 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
Tonges An augmented Acoustics Demonstrator with Realtime stereo up-mixing and Binaural Auralization
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2024214799A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN114128312B (zh) 用于低频效果的音频渲染
EP4325485A1 (en) Three-dimensional audio signal encoding method and apparatus, and encoder
Geronazzo Sound Spatialization.
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23879645

Country of ref document: EP

Kind code of ref document: A1