WO2023199746A1 - 音響再生方法、コンピュータプログラム及び音響再生装置 - Google Patents

音響再生方法、コンピュータプログラム及び音響再生装置 Download PDF

Info

Publication number
WO2023199746A1
WO2023199746A1 PCT/JP2023/012612 JP2023012612W WO2023199746A1 WO 2023199746 A1 WO2023199746 A1 WO 2023199746A1 JP 2023012612 W JP2023012612 W JP 2023012612W WO 2023199746 A1 WO2023199746 A1 WO 2023199746A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
processing
suppression
information
reverberation
Prior art date
Application number
PCT/JP2023/012612
Other languages
English (en)
French (fr)
Inventor
陽 宇佐見
智一 石川
成悟 榎本
摩里子 山田
康太 中橋
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2023199746A1 publication Critical patent/WO2023199746A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to a sound reproduction method and the like.
  • Patent Document 1 discloses a sound reproduction device that can output sound with a sense of presence by acquiring a sound signal and generating reverberation for the sound signal.
  • an object of the present disclosure is to provide a sound reproduction method that can output sound with a more realistic feeling.
  • a sound reproduction method includes a sound signal indicating a sound reaching a listener in a sound reproduction space, and processing availability information indicating whether or not to perform a noise suppression process on the sound signal. a processing determination step of determining the processing content of the suppression processing when the obtained processing availability information indicates that the suppression processing is to be performed; and a processing determination step of determining the processing content of the suppression processing based on the determined processing content.
  • the method includes a suppression processing step of performing suppression processing, and an output step of outputting the sound signal subjected to the suppression processing.
  • a program according to one aspect of the present disclosure causes a computer to execute the above sound reproduction method.
  • a sound reproduction device includes a sound signal indicating a sound that reaches a listener in a sound reproduction space, and processing availability information indicating whether or not to perform noise suppression processing on the sound signal.
  • an acquisition unit that acquires the processing information; a processing determining unit that determines the processing content of the suppression processing when the obtained processing availability information indicates that the suppression processing is performed; and a processing determination unit that determines the processing content of the suppression processing based on the determined processing content
  • the apparatus includes a suppression processing section that performs suppression processing, and an output section that outputs the sound signal subjected to the suppression processing.
  • the sound reproduction method it is possible to output sound with a more realistic feeling.
  • FIG. 1 is a block diagram showing the functional configuration of the sound reproduction device according to the first embodiment.
  • FIG. 2 is a flowchart of operation example 1 of the sound reproduction device according to the first embodiment.
  • FIG. 3 is a diagram showing the relationship between time and amplitude of a sound signal subjected to the suppression process according to the first embodiment.
  • FIG. 4 is a diagram showing the power spectrum of the sound signal shown in FIG. 3.
  • FIG. 5 is a diagram showing the relationship between time and amplitude of the synthesized sound signal according to the first embodiment.
  • FIG. 6 is a diagram showing the power spectrum of the synthesized sound signal shown in FIG.
  • FIG. 7 is a flowchart of the second operation example of the sound reproduction device according to the first embodiment.
  • FIG. 1 is a block diagram showing the functional configuration of the sound reproduction device according to the first embodiment.
  • FIG. 2 is a flowchart of operation example 1 of the sound reproduction device according to the first embodiment.
  • FIG. 3 is a diagram showing the relationship between time
  • FIG. 8 is a diagram showing two sound reproduction spaces and the positions of two sound sources according to the first embodiment.
  • FIG. 9 is another diagram showing two sound reproduction spaces and the positions of two sound sources according to the first embodiment.
  • FIG. 10 is a block diagram showing the functional configuration of the sound reproduction device according to the second embodiment.
  • FIG. 11 is a flowchart of operation example 3 of the sound reproduction device according to the second embodiment.
  • FIG. 12 is a diagram showing threshold values and noise floor levels according to the second embodiment.
  • a sound reproduction device is disclosed as an example of a sound reproduction technology that can output sound with a sense of presence by acquiring a sound signal and generating reverberation for the sound signal. There is.
  • the sound indicated by the sound signal acquired by the sound reproduction device disclosed in Patent Document 1 may include a target sound for the listener to hear and noise other than the target sound.
  • the sound reproduction device disclosed in Cited Document 1 generates a reverberation signal indicating reverberation based on a sound signal indicating a sound containing noise, and generates a sound in which the sound signal and the generated reverberation signal are synthesized.
  • a signal synthetic sound signal
  • This synthesized sound signal is a signal indicating a sound in which a sound containing noise and reverberation are synthesized, and the listener hears a sound in which the sound containing noise and reverberation are synthesized.
  • the reverberation signal is generated based on the sound signal indicated by the sound containing noise, and more specifically, the reverberation indicated by the reverberation signal is generated based on the sound containing noise. . Therefore, when a listener hears such reverberation, the listener feels uncomfortable, and the listener is unable to listen to sound with a sufficient sense of presence.
  • the sound reproduction technology disclosed in Patent Document 1 has difficulty in outputting sound with a sufficiently realistic feeling when the sound represented by the acquired sound signal contains noise. Therefore, there is a need for a sound reproduction method that can output sound with a more realistic feeling.
  • the sound reproduction method includes a sound signal indicating a sound reaching a listener in a sound reproduction space, and an indication as to whether or not to perform noise suppression processing on the sound signal.
  • the method includes a suppression processing step of performing the suppression processing, and an output step of outputting the sound signal subjected to the suppression processing.
  • the processability information is acquired in the acquisition step, so the noise included in the sound indicated by the sound signal is suppressed in the suppression process step according to whether or not the noise suppression process indicated by this processability information is possible.
  • a reverberation signal indicating reverberation is generated based on a sound signal that has undergone such processing, and a synthesized sound signal (synthetic sound signal) in which the sound signal and the reverberation signal are synthesized is output to a listener.
  • synthetic sound signal synthetic sound signal
  • the reverberation heard by the listener is a sound based on a sound with suppressed noise.
  • Listeners do not feel uncomfortable even when listening to such reverberations, and can listen to sounds with a sense of presence. In other words, in such a case, even if the sound represented by the acquired sound signal contains noise, a sound reproduction method is realized that can output sound with a more realistic feeling.
  • the acquiring step includes spatial information indicating the shape and acoustic characteristics of the sound reproduction space, and the listener in the sound reproduction space.
  • the suppression process step it is determined whether or not to perform the suppression process based on the acquired spatial information and the acquired position information.
  • the processing load of the sound reproduction method can be reduced.
  • the suppression processing step when the position of the listener is included in the sound reproduction space where no reverberation occurs, It is determined not to perform the suppression process.
  • processing content information indicating the processing content is acquired, and the suppression In the processing step, the processing content indicated by the acquired processing content information is performed.
  • the suppression process can be performed according to the process content indicated by the process content information.
  • reverberation is indicated based on the sound signal subjected to the suppression processing and the acquired spatial information.
  • the method includes a reverberation generation step of generating a reverberation signal, and an output step outputs a synthesized sound signal in which the sound signal subjected to the suppression processing and the generated reverberation signal are synthesized.
  • a reverberation signal indicating reverberation is generated based on a sound signal indicated by the noise-suppressed sound. Therefore, the reverberation that a listener hears is a sound based on a sound with suppressed noise. Listeners do not feel uncomfortable even when listening to such reverberations, and can listen to sounds with a sense of presence. In other words, even if the sound represented by the acquired sound signal contains noise, a sound reproduction method is realized that can output sound with a more realistic feeling.
  • the acquisition step acquires threshold data indicating a threshold
  • the sound reproduction method includes a power spectrum indicating the synthesized sound signal.
  • the processing content of the suppression process is updated based on the comparison result between the threshold value and the noise floor level, so the sound reproduction method can output sound with a more realistic feeling.
  • the threshold value is a target value of the noise floor level
  • the processing determination step the noise floor level is lower than the threshold value. If the noise is also high, the processing content is updated so that the suppression processing suppresses the noise more strongly.
  • the noise floor level is higher than the threshold, noise can be suppressed more strongly, so the sound reproduction method can output sound with a more realistic feeling.
  • a computer program according to an eighth aspect of the present disclosure causes a computer to execute the sound reproduction method according to any one of the first to seventh aspects.
  • the computer can execute the above sound reproduction method according to the program.
  • the sound reproduction device includes a sound signal indicating a sound reaching a listener in a sound reproduction space, and a sound signal indicating whether or not to perform noise suppression processing on the sound signal.
  • an acquisition unit that acquires processing availability information; a processing determining unit that determines processing content of the suppression processing when the acquired processing availability information indicates that the suppression processing is to be performed; and a processing determination unit that determines processing content of the suppression processing based on the determined processing content.
  • the apparatus includes a suppression processing section that performs the suppression processing, and an output section that outputs the sound signal subjected to the suppression processing.
  • the processing capability information is acquired in the acquisition section, and the noise included in the sound indicated by the sound signal is suppressed in the suppression processing section according to whether or not the noise suppression processing indicated by this processing capability information is possible.
  • a reverberation signal indicating reverberation is generated based on a sound signal that has undergone such processing, and a synthesized sound signal (synthetic sound signal) in which the sound signal and the reverberation signal are synthesized is output to a listener.
  • synthetic sound signal synthetic sound signal
  • the reverberation heard by the listener is a sound based on a sound with suppressed noise.
  • Listeners do not feel uncomfortable even when listening to such reverberations, and can listen to sounds with a sense of presence. In other words, in such a case, even if noise is included in the sound represented by the acquired sound signal, a sound reproduction device is realized that can output sound with a more realistic feeling.
  • ordinal numbers such as first and second are sometimes attached to elements. These ordinal numbers are attached to elements to identify them and do not necessarily correspond to any meaningful order. These ordinal numbers may be replaced, newly added, or removed as appropriate.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Therefore, the scale etc. of each figure do not necessarily match.
  • substantially the same configurations are denoted by the same reference numerals, and overlapping explanations will be omitted or simplified.
  • the numerical range is not an expression that expresses only a strict meaning, but is an expression that means that it also includes a substantially equivalent range, for example, a difference of several percentages.
  • FIG. 1 is a block diagram showing the functional configuration of a sound reproduction device 100 according to the present embodiment.
  • the sound reproduction device 100 processes a sound signal indicating the sound reaching the listener in the sound reproduction space, and outputs it to the headphones 200 worn by the listener, so that the listener can hear the sound. It is a device for making More specifically, the sound reproduction device 100 is a stereophonic sound reproduction device for allowing listeners to listen to stereophonic sound.
  • the sound reproduction device 100 according to the present embodiment is a device that is applied to various applications such as virtual reality or augmented reality (VR/AR), for example.
  • the sound reproduction space means a virtual reality space or an augmented reality space used in various applications such as virtual reality or augmented reality.
  • the headphone 200 is an audio output device that includes a head sensor section 201 and a second output section 202.
  • the head sensor unit 201 senses the direction in which the listener's head is facing and the position of the listener determined by horizontal plane coordinates and vertical height, and detects the direction in which the listener's head is facing. Detection information indicating the direction and the listener's position determined by the coordinates of the horizontal plane and the height in the vertical direction is output to the sound reproduction device 100. Note that the direction in which the listener's head is facing is also the direction in which the listener's face is facing.
  • the head sensor unit 201 preferably senses information on 6 DoF (Degrees of Freedom) of the listener's head.
  • the head sensor section 201 may be an inertial measurement unit (IMU), an accelerometer, a gyroscope, a magnetic sensor, or a combination thereof.
  • the detection information also includes the amount of rotation or displacement sensed by the head sensor section 201.
  • the direction in which the listener's head is facing may be referred to as the listener's direction.
  • the second output unit 202 is a device that reproduces the sound that reaches the listener in the sound reproduction space. More specifically, the second output unit 202 reproduces the sound based on a sound signal indicating the sound that has been processed by the sound reproduction device 100 and output from the sound reproduction device 100.
  • the sound reproduction device 100 includes an extraction section 110, an acquisition section 120, a processing determination section 130, a suppression processing section 140, a reverberation generation section 150, a first output section 160, and a storage section. 170.
  • the extraction unit 110 acquires audio content information and extracts predetermined information and signals included in the acquired audio content information.
  • the extraction unit 110 acquires audio content information from, for example, a storage device (not shown) outside the audio reproduction device 100. Note that the extraction unit 110 may acquire audio content information stored in the storage unit 170 included in the audio reproduction device 100.
  • the extraction unit 110 extracts a sound signal, processing availability information, spatial information, position information, and processing content information from the acquired audio content information.
  • the sound signal is a signal indicating the sound that reaches the listener in the sound reproduction space.
  • the sound that reaches the listener includes a target sound for the listener to hear and noise other than the target sound, and more specifically, it is composed of the target sound and the noise.
  • the target sound is, for example, the voice and music emitted by a person
  • the noise is, for example, noise that is unintentionally mixed in when the target sound is collected, or reverberation from the sound collection environment.
  • the sound signal is a signal indicating the sound that reaches the listener, and is digital data expressed in a format such as WAVE, MP3, or WMA.
  • the processing availability information is information indicating whether or not the above-mentioned sound signal is subjected to noise suppression processing included in the sound that reaches the listener.
  • the processing availability information indicates that the suppression process is to be performed or that the suppression process is not to be performed. For example, when the processing availability information indicates that the suppression process is to be performed, "1" is shown as a flag, and when the processing availability information indicates that the suppression process is not to be performed, "0" is shown as the flag.
  • the spatial information is information indicating the shape and acoustic characteristics of the sound reproduction space.
  • the sound reproduction space indicated by the spatial information may be a space where a listener is present or a space where a listener is not present.
  • Spatial information is information indicating the shape of the sound reproduction space, and more specifically, information indicating the installation position and shape of the installed objects (walls, doors, floors, ceilings, fixtures, etc.) in the sound reproduction space. .
  • the spatial information is information indicating acoustic characteristics indicating which frequency and how much the installation reflects or absorbs sound when the installation object reflects or absorbs sound.
  • the spatial information indicates the position of a sound source installed in the sound reproduction space.
  • the sound source is a sound source that emits sound that reaches the listener in the sound reproduction space.
  • the position information is information indicating the position of the listener in the sound reproduction space. More specifically, when multiple sound reproduction spaces are provided, the position information indicates the sound reproduction space in which the listener is located among the multiple sound reproduction spaces, and the location information indicates the sound reproduction space in which the listener is located. This information indicates the location of the listener.
  • the process content information is information indicating the process content of the process of suppressing noise contained in the sound reaching the listener when the acquired process availability information indicates that the suppression process is to be performed.
  • a voice enhancement method may be used for the noise suppression process, but the present invention is not limited to this, and any known method may be used.
  • the processing content information indicates that the method used for noise suppression processing is a voice enhancement method, and information necessary for using the voice enhancement method. Further, the processing content information may include information indicating which method is used among a plurality of noise suppression processing methods.
  • the audio content information includes a sound signal, processing availability information, spatial information, position information, and processing content information.
  • the audio content information is preferably subjected to encoding processing such as MPEG-H 3D Audio (ISO/IEC 23008-3) (hereinafter referred to as MPEG-H 3D Audio). That is, the extraction unit 110 obtains audio content information that is an encoded bitstream. The extraction unit 110 acquires and decodes audio content information. The extraction unit 110 performs decoding processing based on the above-mentioned MPEG-H 3D Audio or the like. That is, for example, the extraction unit 110 functions as a decoder. The extraction unit 110 decodes the encoded audio content information and provides the decoded sound signal, processing availability information, spatial information, position information, and processing content information to the acquisition unit 120.
  • MPEG-H 3D Audio MPEG-H 3D Audio
  • the acquisition unit 120 acquires the sound signal, processing availability information, spatial information, position information, and processing content information extracted by the extraction unit 110.
  • the acquisition unit 120 provides the acquired information to the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160, respectively.
  • the acquisition unit 120 does not provide information to each of a plurality of processing units, such as the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160, but provides information for each processing unit. Necessary information may be provided by the processing unit.
  • the extraction unit 110 extracts a sound signal etc.
  • the acquisition unit 120 extracts the extracted sound signal, processing availability information, spatial information, position information, and processing content information.
  • the acquisition unit 120 may acquire the sound signal, processing availability information, spatial information, position information, and processing content information from a storage device (not shown) outside the audio reproduction device 100 or the storage unit 170, for example.
  • the acquisition unit 120 further acquires detection information including the amount of rotation or displacement detected by the headphones 200 (more specifically, the head sensor unit 201), and the position and orientation of the listener.
  • the acquisition unit 120 determines the position and orientation of the listener in the sound reproduction space based on the acquired detection information.
  • the acquisition unit 120 determines that the position and orientation of the listener indicated by the acquired detection information are the position and orientation of the listener in the sound reproduction space. That is, here, the acquisition unit 120 determines that the position and orientation of the listener indicated by the acquired detection information are the position and orientation of the listener in the sound reproduction space.
  • the listener's position may be expressed in terms of horizontal coordinates and vertical height.
  • the acquisition unit 120 then updates the position information according to the determined position and orientation of the listener. Therefore, the position information that the acquisition unit 120 gives to each processing unit is information that includes updated position information.
  • the process determining unit 130 determines the processing content of the suppressing process when the process availability information acquired by the obtaining unit 120 indicates that the suppressing process is to be performed. More specifically, when the process availability information indicates that the suppression process is to be performed, the process determining unit 130 determines the process content indicated by the process content information acquired by the acquisition unit 120 as the process content of the suppression process. .
  • the suppression processing unit 140 Based on the processing content determined by the processing determining unit 130, the suppression processing unit 140 performs noise suppression processing on the sound signal representing the sound that reaches the listener.
  • the sound signal that has been subjected to the suppression process is a signal that represents a sound in which noise has been suppressed. Note that when the processing availability information acquired by the acquisition unit 120 indicates that the suppression process is not performed, the process determining unit 130 does not determine the processing content of the suppression process, and the suppression processing unit 140 does not perform the suppression process. .
  • the reverberation generation unit 150 generates a reverberation signal indicating reverberation based on the sound signal subjected to the suppression process by the suppression processing unit 140 and the spatial information acquired by the acquisition unit 120.
  • the reverberation generation unit 150 may apply a known reverberation generation method to the sound signal to generate reverberation.
  • a known reverberation generation method is, for example, the Schroeder method, but is not limited thereto.
  • the reverberation generation unit 150 uses the shape and acoustic characteristics of the sound reproduction space indicated by the spatial information when applying known reverberation generation processing. Thereby, the reverberation generation section 150 can generate a reverberation signal indicating reverberation.
  • the reverberation signal generated by the reverberation generation unit 150 is a signal indicating reverberation based on noise-suppressed sound. It is a sound based on the sound that was played.
  • reverberation here refers to late reverberation
  • reverberation may include early reflections and late reverberation.
  • the reverberation generation unit 150 may generate virtual acoustic effects other than late reverberation by performing acoustic processing on the sound signal using spatial information. For example, acoustic effects such as diffraction sound generation, distance attenuation effect, localization, sound image localization processing, or Doppler effect may be added. Further, information for switching on/off all or part of the sound effects may be acquired by the acquisition unit 120 together with the spatial information.
  • the first output unit 160 is an example of an output unit, and outputs the sound signal subjected to the suppression process by the suppression processing unit 140. More specifically, the first output unit 160 outputs a synthesized sound signal in which the sound signal subjected to the suppression process by the suppression process unit 140 and the reverberation signal generated by the reverberation generation unit 150 to the headphones 200. Output to.
  • the synthesized sound signal indicates a synthesized sound, and the synthesized sound is a sound including a noise-suppressed sound and a reverberation based on the noise-suppressed sound.
  • the first output section 160 includes a volume control section 161 and a direction control section 162.
  • the volume control unit 161 determines the volume of the noise-suppressed sound indicated by the sound signal subjected to the suppression processing by the suppression processing unit 140 and the volume of reverberation indicated by the reverberation signal generated by the reverberation generation unit 150. .
  • the volume control unit 161 preferably determines the volume of the noise-suppressed sound and the volume of the reverberation based on the volume information.
  • the volume information is information indicating the ratio of the volume of the noise-suppressed sound represented by the sound signal subjected to the suppression processing to the volume of the reverberation represented by the reverberation signal.
  • the volume control unit 161 adjusts the volume of the noise-suppressed sound and the volume of the reverberation output from the first output unit 160 so that the ratio of the respective volumes of the noise-suppressed sound and reverberation is the ratio indicated by the volume information. Determine the volume of reverberation.
  • volume information is preferably extracted from the audio content information by the extraction unit 110 and acquired by the acquisition unit 120.
  • the volume control unit 161 acquires the volume information acquired by the acquisition unit 120.
  • the direction control unit 162 performs convolution processing on the sound signal subjected to the suppression process and the generated reverberation signal, based on the spatial information, position information, and detection information acquired by the acquisition unit 120.
  • the spatial information indicates the shape and acoustic characteristics of the sound reproduction space and the position of the sound source in the sound reproduction space
  • the position information indicates the reproduction space in which the listener is located and the position of the listener in the reproduction space.
  • the information indicates the listener's orientation and the listener's position expressed in horizontal coordinates and vertical height values.
  • the direction control unit 162 refers to the head-related transfer function stored in the storage unit 170 and processes the sound signal and the reverberation signal.
  • the direction control unit 162 performs a process of convolving the head-related transfer function with the sound signal so that the sound indicated by the sound signal reaches the position of the listener indicated by the position information from the position of the sound source indicated by the spatial information. administer.
  • the direction control unit 162 preferably determines the head-related transfer function in consideration of the direction of the listener indicated by the detection information, and performs a process of convolving the determined head-related transfer function into the sound signal.
  • the direction control unit 162 performs a process of convolving the head-related transfer function with the reverberation signal so that the reverberation indicated by the reverberation signal reaches the position of the listener facing the direction indicated by the detection information in the reproduction space.
  • the direction control unit 162 generates a synthesized sound signal in which a sound signal and a reverberation signal each subjected to a process of convolving head-related transfer functions are synthesized, and outputs the generated synthesized sound signal to the headphones 200. Note that when the direction control unit 162 generates the synthesized sound signal, the sound indicated by the sound signal and the reverberation indicated by the reverberation signal are respectively equal to the sound volume and the reverberation volume determined by the volume control unit 161. Process it so that it becomes.
  • the second output section 202 of the headphones 200 reproduces the volume and reverberation of the sound with suppressed noise, which is indicated by the synthesized sound signal, based on the synthesized sound signal outputted by the first output section 160.
  • the acquisition section 120, the processing determination section 130, the suppression processing section 140, the reverberation generation section 150, and the first output section 160 perform a Outputs a synthesized sound signal. That is, for example, the acquisition unit 120, the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160 function as a renderer.
  • the sound reproduction device 100 includes the reverberation generation unit 150, but in other examples, the sound reproduction device 100 does not need to include the reverberation generation unit 150.
  • the first output section 160 outputs the sound signal subjected to the suppression process by the suppression processing section 140.
  • the storage unit 170 is a storage device that stores information necessary for information processing performed by each of the extraction unit 110, the acquisition unit 120, the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160. be.
  • the information stored in the storage unit 170 includes computer programs executed by each of the extraction unit 110, the acquisition unit 120, the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160.
  • FIG. 2 is a flowchart of operation example 1 of the sound reproduction device 100 according to the present embodiment.
  • the extraction unit 110 acquires audio content information (S10).
  • the extraction unit 110 extracts a sound signal, processing availability information, spatial information, position information, processing content information, and volume information from the acquired audio content information (S20).
  • the acquisition unit 120 acquires the sound signal, processing availability information, spatial information, position information, processing content information, and volume information extracted by the extraction unit 110, and the detection information output by the headphones 200 (S30).
  • This step S30 corresponds to an acquisition step.
  • the processing determining unit 130 determines whether the processing availability information acquired by the acquiring unit 120 indicates that a suppression process is to be performed (S40). For example, when "1" is shown as a flag in the processing availability information, the processing determining unit 130 determines that the processing availability information indicates that the suppression process is to be performed. Further, for example, when "0" is shown as a flag in the processing availability information, the processing determining unit 130 determines that the processing availability information indicates that the suppression process is not performed.
  • the process determination unit 130 determines the processing content of the suppression process (S50). More specifically, the process determination unit 130 determines the process content indicated by the process content information acquired by the acquisition unit 120 as the process content of the suppression process. This step S50 corresponds to a process determining step.
  • the suppression processing unit 140 performs suppression processing on the sound signal acquired by the acquisition unit 120 based on the processing content determined by the processing determination unit 130 (step S60).
  • the sound signal that has been subjected to the suppression process is a signal that represents a sound in which noise has been suppressed.
  • This step S60 corresponds to a suppression processing step.
  • the reverberation generation unit 150 generates a reverberation signal indicating reverberation based on the sound signal subjected to the suppression process by the suppression processing unit 140 in step S60 and the spatial information acquired by the acquisition unit 120 (S70).
  • the reverberation signal generated by the reverberation generation section 150 is a signal indicating reverberation based on noise-suppressed sound.
  • This step S70 corresponds to a reverberation generation step.
  • the first output unit 160 outputs to the headphones 200 a synthesized sound signal in which the sound signal subjected to the suppression processing by the suppression processing unit 140 in step S60 and the reverberation signal generated by the reverberation generation unit 150 are synthesized. (S80).
  • This step S80 corresponds to an output step. More specifically, the volume control unit 161 and the direction control unit 162 included in the first output unit 160 generate a synthesized sound signal based on the volume information, spatial information, position information, and detection information acquired by the acquisition unit 120. is generated and output to the headphones 200.
  • FIG. 3 is a diagram showing the relationship between time and amplitude of the sound signal subjected to the suppression processing according to the present embodiment.
  • FIG. 4 is a diagram showing the power spectrum of the sound signal shown in FIG. 3.
  • FIG. 5 is a diagram showing the relationship between time and amplitude of the synthesized sound signal according to this embodiment.
  • FIG. 6 is a diagram showing the power spectrum of the synthesized sound signal shown in FIG.
  • the power spectrum shown in FIG. 4 is the spectrum obtained by performing fast Fourier transform processing on the sound signal shown in FIG. 3
  • the power spectrum shown in FIG. 6 is the spectrum obtained by performing fast Fourier transform processing on the synthesized sound signal shown in FIG. It is.
  • the synthesized sound signal shown in FIGS. 5 and 6 is a signal obtained by combining the sound signal shown in FIGS. 3 and 4 and the reverberation signal generated based on the sound signal.
  • a signal obtained by subtracting the sound signal shown in FIG. 3 from the synthesized sound signal shown in FIG. 5 corresponds to the reverberation signal.
  • FIG. 4 and FIG. 6 will be compared. As shown by the regions surrounded by the rectangles indicated by dashed-dotted lines in each of FIGS. 4 and 6, the noise floor level in the region where the frequency is 700 Hz or less is higher in FIG. 6. In other words, in a synthesized sound signal that includes a reverberant signal, the noise floor level in this region is higher.
  • the noise floor level indicates the level of noise contained in a sound signal.
  • the noise floor level is expressed by the size of the concave portion of the spectral power in FIG. 4 where unevenness in the level is observed.
  • the noise floor level may be simply calculated by, for example, the average value of the level of the concave portion in a predetermined frequency section.
  • step S80 such a synthesized sound signal is outputted to the headphones 200, and the second output section 202 of the headphones 200 detects the noise represented by the synthesized sound signal based on the synthesized sound signal outputted by the first output section 160. Regenerate suppressed sound and reverberation.
  • step S70 is not performed, and the first output section 160 outputs the sound signal subjected to the suppression processing by the suppression processing section 140.
  • the processing determination unit 130 determines that the processing availability information indicates that the suppression processing is not performed (No in S40)
  • the processing determination unit 130 does not determine the processing content of the suppression processing, and the suppression processing unit 140 does not perform the suppression process (S90).
  • the first output unit 160 outputs the sound signal that has not been subjected to the suppression process by the suppression processing unit 140 to the headphones 200 (S100).
  • the sound reproduction method includes an acquisition step, a processing determination step, a suppression processing step, and an output step.
  • acquisition step a sound signal indicating the sound reaching the listener in the sound reproduction space and processing availability information indicating whether or not to perform noise suppression processing on the sound signal are acquired.
  • processing determination step when the acquired processing availability information indicates that a suppression process is to be performed, the processing content of the suppression process is determined.
  • suppression processing suppression processing is performed based on the determined processing content.
  • the output step the sound signal subjected to the suppression process is output.
  • the processability information is acquired in the acquisition step, so the noise included in the sound indicated by the sound signal is suppressed in the suppression processing step according to whether or not the noise suppression process indicated by this processability information is possible.
  • a reverberation signal indicating reverberation is generated based on the sound signal subjected to such processing (step S70), and a synthesized sound signal (synthesized sound signal) in which the sound signal and the reverberation signal are synthesized is generated. ) may be output to the listener.
  • the reverberation heard by the listener is a sound based on a sound with suppressed noise.
  • Listeners do not feel uncomfortable even when listening to such reverberations, and can listen to sounds with a sense of presence. In other words, in such a case, even if the sound represented by the acquired sound signal contains noise, a sound reproduction method is realized that can output sound with a more realistic feeling.
  • processing content information indicating the processing content is obtained.
  • the suppression processing step the processing content indicated by the acquired processing content information is performed.
  • the suppression process can be performed according to the process content indicated by the process content information.
  • the extraction unit 110 extracts the processability information for the sound signal from the audio content information, but the processability information may be set by analyzing the input time-series sound signal.
  • the processability information may be set by making a determination using a threshold value.
  • the input time-series sound signal may be input as a sound signal picked up by an input device such as a microphone instead of a sound signal extracted by the extraction unit 110 and input in association with audio content information.
  • the audio content information linked to the sound signal may be information set based on the environment in which the sound is collected. This makes it possible to suppress noise in the sound collection environment included in the sound signal and reproduce a predetermined virtual space.
  • the sound reproduction method includes a reverberation generation step of generating a reverberation signal indicating reverberation based on the sound signal subjected to the suppression process and the acquired spatial information.
  • a synthesized sound signal in which the sound signal subjected to the suppression process and the generated reverberation signal are combined is output.
  • a reverberation signal indicating reverberation is generated based on a sound signal indicated by the noise-suppressed sound. Therefore, the reverberation that a listener hears is a sound based on a sound with suppressed noise. Listeners do not feel uncomfortable even when listening to such reverberations, and can listen to sounds with a sense of presence. In other words, even if the sound represented by the acquired sound signal contains noise, a sound reproduction method is realized that can output sound with a more realistic feeling.
  • the computer program causes the computer to execute the above-described sound reproduction method.
  • the computer can execute the above sound reproduction method according to the program.
  • FIG. 7 is a flowchart of operation example 2 of the sound reproduction device 100 according to the present embodiment.
  • FIGS. 8 and 9 is a diagram showing two sound reproduction spaces A and B and the positions of two sound sources A1 and B1 according to the present embodiment.
  • Each of the two sound reproduction spaces A and B is an example of the above sound reproduction space, and each of the sounds output from the two sound sources A1 and B1 is an example of the sound that reaches the listener L.
  • the sound output by the sound source A1 is hereinafter referred to as the first sound
  • the first sound includes a target sound for the listener to hear and noise other than the target sound.
  • the first sound signal indicating the first sound is an example of the above sound signal.
  • the first processability information indicating whether or not to perform the suppression process on the first sound signal is an example of the above-mentioned processability information.
  • the first spatial information related to the sound reproduction space A is an example of the above-mentioned spatial information, and indicates the shape, acoustic characteristics, etc.
  • the sound output by the sound source B1 is defined as a second sound
  • the second sound includes a target sound for the listener to hear and noise other than the target sound.
  • the second sound signal indicating the second sound is an example of the above sound signal.
  • the second processability information indicating whether or not to perform the suppression process on the second sound signal is an example of the above-mentioned processability information.
  • the second spatial information related to the sound reproduction space B is an example of the above-mentioned spatial information, and indicates the shape, acoustic characteristics, etc. of the sound reproduction space B.
  • Sound reproduction space A and sound reproduction space B are adjacent spaces. Sound reproduction space A is a space where reverberation occurs. Therefore, the first spatial information indicating the shape and acoustic characteristics of the sound reproduction space A indicates that the sound reproduction space A is a space in which reverberation occurs.
  • Sound reproduction space B is a space where no reverberation occurs. Therefore, the second spatial information indicating the shape and acoustic characteristics of the sound reproduction space B indicates that the sound reproduction space B is a space in which no reverberation occurs.
  • operation example 2 will be described when the listener L is located within the sound reproduction space A.
  • the position information indicates that the listener is in the sound reproduction space A and the position in the sound reproduction space A where the listener L is located.
  • the extraction unit 110 obtains audio content information (S10).
  • the extraction unit 110 extracts a sound signal, processing availability information, spatial information, position information, processing content information, and volume information from the acquired audio content information (S21). More specifically, the extraction unit 110 extracts a first sound signal, a second sound signal, first processing availability information, second processing availability information, first spatial information, second spatial information, and position information from the audio content information. , extracts processing content information and volume information.
  • the acquisition unit 120 acquires the sound signal, processing availability information, spatial information, position information, processing content information, and volume information extracted by the extraction unit 110, and the detection information output by the headphones 200 (S31). More specifically, the acquisition unit 120 acquires a first sound signal, a second sound signal, first processing availability information, second processing availability information, first spatial information, second spatial information, position information, processing content information, and Obtain volume information and detection information.
  • the processing determining unit 130 determines whether the processing availability information acquired by the acquiring unit 120 indicates that a suppression process is to be performed (S41). In the following processing including step S41, processing for the first sound and processing for the second sound are performed separately.
  • step S41 the processing determining unit 130 determines whether the first processing availability information acquired by the acquiring unit 120 indicates that a suppression process is to be performed.
  • the first processing availability information indicates that suppression processing is to be performed.
  • the process determining unit 130 determines that the first process permission information indicates that the suppression process is to be performed (Yes in S41), and the process determining unit 130 determines the processing content of the suppressing process (S51). More specifically, the process determination unit 130 determines the process content indicated by the process content information acquired by the acquisition unit 120 as the process content of the suppression process.
  • the suppression processing unit 140 determines whether the position of the listener L is such that reverberation occurs. It is determined whether it is included in the sound reproduction space (S52).
  • the position information indicates that the listener is in the sound reproduction space A.
  • the first spatial information indicates that the sound reproduction space A is a space where reverberation occurs. Therefore, the suppression processing unit 140 determines that the position of the listener L is included in the sound reproduction space A where reverberation occurs (Yes in step S52).
  • the suppression processing unit 140 performs suppression processing on the sound signal (first sound signal) acquired by the acquisition unit 120 based on the processing content determined by the processing determination unit 130 (step S61).
  • the first sound signal subjected to the suppression process is a signal indicating the first sound with suppressed noise.
  • the reverberation generation unit 150 Based on the sound signal (first sound signal) subjected to the suppression process by the suppression processing unit 140 in step S61 and the spatial information (first spatial information) acquired by the acquisition unit 120, the reverberation generation unit 150 A reverberation signal indicating reverberation is generated (S71).
  • the reverberation signal generated by the reverberation generation unit 150 in step S71 is a signal indicating reverberation based on the first sound with suppressed noise.
  • the first output unit 160 outputs a synthesized sound signal in which the sound signal (first sound signal) subjected to the suppression process by the suppression processing unit 140 in step S61 and the reverberation signal generated by the reverberation generation unit 150 are combined. , is output to the headphones 200 (S81). More specifically, the volume control unit 161 and the direction control unit 162 included in the first output unit 160 perform synthesis based on the volume information, first spatial information, position information, and detection information acquired by the acquisition unit 120. A sound signal is generated and output to headphones 200.
  • step S41 the process determining unit 130 determines whether the second process availability information acquired by the acquiring unit 120 indicates that the suppression process is to be performed.
  • the second processing availability information indicates that the suppression processing is not performed.
  • the process determining unit 130 determines that the second process availability information indicates that the suppression process will not be performed (No in S41), the process determining unit 130 does not determine the processing content of the suppression process, and the suppression process unit 140 does not perform the suppression process (S91).
  • the first output unit 160 outputs the sound signal (second sound signal) that has not been subjected to the suppression process by the suppression processing unit 140 to the headphones 200 (S101).
  • the second output section 202 of the headphones 200 performs the following processing.
  • the second output section 202 reproduces the first sound and reverberation with suppressed noise represented by the synthesized sound signal output by the first output section 160, and reproduces the second sound signal output by the first output section 160. Play the second sound indicated by .
  • the position information indicates that the listener is in the sound reproduction space B and the position in the sound reproduction space B where the listener L is located.
  • steps S10 to S31 are performed.
  • the processing determining unit 130 determines whether the processing availability information acquired by the acquiring unit 120 indicates that a suppression process is to be performed (S41). Even when the listener L is located within the sound reproduction space B, in the following processing including step S41, the processing for the first sound and the processing for the second sound are performed separately.
  • step S41 the processing determining unit 130 determines whether the first processing availability information acquired by the acquiring unit 120 indicates that a suppression process is to be performed.
  • the first processing availability information indicates that suppression processing is to be performed.
  • the process determining unit 130 determines that the first process permission information indicates that the suppression process is to be performed (Yes in S41), and the process determining unit 130 determines the processing content of the suppressing process (S51). More specifically, the process determination unit 130 determines the process content indicated by the process content information acquired by the acquisition unit 120 as the process content of the suppression process.
  • the suppression processing unit 140 determines the position of the listener L such that reverberation occurs. It is determined whether it is included in the sound reproduction space (S52).
  • the position information indicates that the listener is in sound reproduction space B.
  • the second spatial information indicates that the sound reproduction space B is a space in which reverberation does not occur. Therefore, the suppression processing unit 140 determines that the position of the listener L is included in the sound reproduction space B where no reverberation occurs (No in step S52).
  • Step S91 will be explained in more detail as follows.
  • the reverberation generation unit 150 since the listener L is in the sound reproduction space B where no reverberation occurs, the reverberation generation unit 150 generates a sound signal (the first sound) indicated by the sound containing noise (the first sound). A reverberation signal based on a single sound signal is not generated. Therefore, even if the suppression processing unit 140 does not perform the suppression process, the listener will not hear reverberation based on the sound containing noise. In other words, more precisely, the suppression processing unit 140 does not perform the suppression processing because it is not necessary to perform the suppression processing. As a result, since no suppression processing is performed, the processing load of the sound reproduction method can be reduced.
  • the first output unit 160 outputs the sound signal (first sound signal) on which the suppression processing has not been performed by the suppression processing unit 140 to the headphones 200 (S101).
  • step S41 the process determining unit 130 determines whether the second process availability information acquired by the acquiring unit 120 indicates that the suppression process is to be performed.
  • the second processing availability information indicates that the suppression processing is not performed.
  • the process determining unit 130 determines that the second process availability information indicates that the suppression process will not be performed (No in S41), the process determining unit 130 does not determine the processing content of the suppression process, and the suppression process unit 140 does not perform the suppression process (S91).
  • the first output unit 160 outputs the sound signal (second sound signal) that has not been subjected to the suppression process by the suppression processing unit 140 to the headphones 200 (S101).
  • the second output section 202 of the headphones 200 reproduces the first sound and reverberation in which the noise represented by the synthesized sound signal is suppressed based on the synthesized sound signal outputted by the first output section 160. Then, the second sound indicated by the second sound signal output by the first output unit 160 is reproduced.
  • the second output section 202 of the headphones 200 performs the following processing. That is, the second output unit 202 reproduces the first sound indicated by the first sound signal output by the first output unit 160 and which has not been subjected to the suppression process, and The second sound indicated by the second sound signal that has not been performed is reproduced.
  • the suppression processing is not performed when the position of the listener L is included in the sound reproduction space where reverberation does not occur (for example, in the sound reproduction space B). Determine.
  • the suppression process is not performed, thereby reducing the processing load of the sound reproduction method. be able to.
  • processing content information indicating the processing content is obtained, and in the suppression processing step, the processing content indicated by the obtained processing content information is performed.
  • the suppression process can be performed according to the process content indicated by the process content information.
  • composition The configuration of the sound reproduction device 100a according to the second embodiment will be described.
  • FIG. 10 is a block diagram showing the functional configuration of the sound reproduction device 100a according to the present embodiment.
  • the sound reproduction device 100a mainly has the same configuration as the sound reproduction device 100 except that it includes a comparison section 180.
  • the sound reproduction device 100a includes an extraction section 110, an acquisition section 120, a processing determination section 130, a suppression processing section 140, a reverberation generation section 150, a first output section 160, a storage section 170, and a comparison section. 180.
  • the acquisition unit 120 acquires threshold data indicating a threshold value.
  • the threshold value indicated by the threshold value data is a value used by the comparison unit 180, and details will be described later.
  • the threshold data is stored in the storage unit 170, and the acquisition unit 120 acquires the threshold data stored in the storage unit 170.
  • the threshold data is data extracted from the audio content information by the extraction unit 110, and the acquisition unit 120 may acquire the threshold data extracted by the extraction unit 110.
  • Comparison unit 180 generates a synthesized sound signal through the same processing as first output unit 160 shown in Embodiment 1. That is, the comparator 180 can generate a synthesized sound signal by performing the same processing as that performed by the volume control section 161 and the direction control section 162 included in the first output section 160.
  • the comparison unit 180 compares the noise floor level in a predetermined frequency range in the power spectrum indicating the generated synthetic sound signal and the threshold indicated by the acquired threshold data.
  • the comparison unit 180 compares the noise floor level of a predetermined frequency range in the power spectrum indicating the generated synthetic sound signal (for example, the power spectrum illustrated in FIG. 6) with the threshold value indicated by the threshold value data, and processes and determines the comparison result. 130.
  • the process determining unit 130 updates (re-determines) the processing content of the suppression process based on the comparison result output from the comparing unit 180. More specifically, the process determining unit 130 updates (re-determines) the process content of the suppression process based on the process content indicated by the process content information acquired by the acquisition unit 120 and the output comparison result. .
  • the process determining unit 130 once determines the process content in step S50, and then the comparing unit 180 further outputs the comparison result, and the process determining unit 130 performs suppression based on the comparison result.
  • the processing content once determined in step S50 is updated to the processing content determined based on the comparison result.
  • the processing content determined based on the comparison result is, for example, a processing content that is a suppression process that suppresses noise more strongly.
  • the threshold value indicated by the threshold value data is preferably the target value of the noise floor level described above.
  • the threshold value may be one value.
  • the threshold value is a value that is greater than or equal to the lower limit value and less than or equal to the upper limit value (that is, a value that has a predetermined width).
  • the processing determining unit 130 updates the processing content so that the suppression processing suppresses noise more strongly.
  • a case where the noise floor level is higher than the threshold value is a case where noise cannot be suppressed sufficiently. If reverberation is generated based on sound whose noise has not been sufficiently suppressed, and listener L hears such reverberation, listener L will feel uncomfortable, and listener L will not be able to fully experience the presence of the audience. Unable to hear sensitive sounds.
  • the processing determination unit 130 updates the processing content to suppress noise more strongly, so that the reverberation signal generated by the reverberation generation unit 150 is free from noise.
  • the signal can be a signal indicating reverberation based on more strongly suppressed sound.
  • the first output unit 160 outputs to the headphones 200 a synthesized sound signal in which the sound signal subjected to the suppression processing to suppress noise more strongly and the reverberation signal are synthesized.
  • the reverberation heard by the listener L is a sound based on a sound in which noise is more strongly suppressed.
  • Listener L does not feel uncomfortable even when listening to such reverberation, and can listen to sound with a sense of presence. In other words, in such a case, even if the sound represented by the acquired sound signal contains noise, a sound reproduction method is realized that can output sound with a more realistic feeling.
  • FIG. 11 is a flowchart of operation example 3 of the sound reproduction device 100a according to the present embodiment.
  • step S10 to S40 shown in the operation example 1 of the first embodiment are also performed. Further, in operation example 3, the acquisition unit 120 acquires threshold data in step S10. In operation example 3, an example in which the answer in step S40 is Yes will be described.
  • step S40 the process determining unit 130 once determines the process content in step S50. Furthermore, the processes of steps S60 and S70 are performed.
  • comparison unit 180 generates a synthesized sound signal based on the volume information, spatial information, position information, and detection information acquired by the acquisition unit 120 (S110). Comparison section 180 generates a synthesized sound signal through the same processing as first output section 160 shown in Embodiment 1.
  • the comparison unit 180 compares the noise floor level in a predetermined frequency range in the power spectrum indicating the generated synthetic sound signal and the threshold value indicated by the threshold value data (S120).
  • FIG. 12 is a diagram showing the threshold and noise floor level according to this embodiment.
  • FIG. 12(a) is a diagram showing a power spectrum and a threshold value indicating a target synthesized sound signal.
  • FIG. 12(b) is a diagram showing a power spectrum representing a synthesized sound signal generated by the comparator 180 and a noise floor level in a predetermined frequency range in the power spectrum.
  • the noise floor level shown in (a) of FIG. 12 may be referred to as the noise floor level related to the target value
  • the noise floor level shown in (b) of FIG. 12 will be referred to as the synthesized sound signal.
  • the noise floor level Sometimes referred to as the noise floor level.
  • the power spectrum shown in FIG. 12(a) is the target power spectrum of the power spectrum showing the synthesized sound signal generated by the comparison unit 180.
  • the threshold value is the target value of the noise floor level as described above.
  • the threshold value is, for example, a value that includes the noise floor level (noise floor level related to the target value) in a predetermined frequency range in the power spectrum shown in FIG. 12(a).
  • the upper limit of the threshold shown in FIG. 12(a) is UL
  • the lower limit of the threshold shown in FIG. 12(a) is LL
  • the noise floor level related to the target value shown in FIG. 12(a) is In the case of NLV, UL satisfies Equation 1 and LL satisfies Equation 2.
  • the upper limit value (UL) of the threshold value and the lower limit value (LL) of the threshold value are plus or minus 10% of the noise floor level (NLV) related to the target value, but are not limited to this, and the noise floor level related to the target value (NLV) plus or minus 5%, 20% or 30%.
  • the predetermined frequency range in the power spectrum shown in FIG. 12(a) and the predetermined frequency range in the power spectrum shown in FIG. 12(b) are the same range, for example, 100 Hz or more and 700 Hz or less. .
  • the predetermined frequency range in the power spectrum shown in each of FIGS. 12A and 12B is not limited to 100 Hz or more and 700 Hz or less, and may be other frequencies.
  • step S120 the comparison unit 180 compares the noise floor level of the synthesized sound signal with a threshold value.
  • the comparison unit 180 determines that the noise floor level related to the synthesized sound signal and the threshold are the same.
  • the comparison unit 180 determines that the noise floor level of the synthesized sound signal is lower than the threshold.
  • the comparison unit 180 determines that the noise floor level related to the synthesized sound signal is higher than the threshold value.
  • the comparing section 180 outputs the comparison result to the processing determining section 130.
  • the process of step S50 is performed again, that is, the process determining unit 130 updates (redetermines) the process content of the suppression process.
  • the processing content is determined again so that the noise is suppressed more strongly. Further, for example, when the noise floor level related to the synthesized sound signal is lower than the threshold value, the processing content is determined again so that the noise is suppressed more weakly.
  • step S60 the process of step S60 is performed again, that is, the suppression processing unit 140 applies the suppression process to the sound signal acquired by the acquisition unit 120 based on the process content determined again by the process determination unit 130. conduct.
  • This suppression processing is a suppression processing that suppresses noise more weakly.
  • step S70 the process of step S70 is performed again, in other words, the reverberation generation unit 150 performs the suppression process based on the sound signal subjected to the suppression process by the suppression process unit 140 in step S60 and the spatial information acquired by the acquisition unit 120.
  • a reverberation signal indicating reverberation is generated.
  • This reverberant signal is a signal that indicates reverberation based on sound in which noise is more strongly suppressed.
  • steps S110 and S120 are performed again.
  • the comparison section 180 outputs the comparison result to the first output section 160. In this case, the process of step S80 is performed.
  • step S80 for example, the first output unit 160 generates a synthesized signal in which a sound signal subjected to a suppression process for suppressing noise more strongly and a reverberation signal indicating reverberation based on the sound whose noise has been suppressed more strongly.
  • a sound signal is output to headphones 200.
  • the reverberation heard by the listener L is a sound based on a sound in which noise is suppressed more strongly.
  • Listener L does not feel uncomfortable even when listening to such reverberation, and can listen to sound with a sense of presence. In other words, in such a case, even if the sound represented by the acquired sound signal contains noise, a sound reproduction method is realized that can output sound with a more realistic feeling.
  • threshold value data indicating the threshold value is acquired.
  • the sound reproduction method includes a comparison step of comparing a noise floor level of a predetermined frequency range in a power spectrum representing a synthesized sound signal with a threshold value indicated by the acquired threshold value data.
  • the processing content of the suppression process is updated based on the comparison result in the comparison step.
  • the processing content of the suppression process is updated based on the comparison result between the threshold value and the noise floor level, so the sound reproduction method can output sound with a more realistic feeling.
  • the threshold is the target value of the noise floor level.
  • the processing content is updated so that the suppression processing suppresses noise more strongly.
  • the noise floor level is higher than the threshold, noise can be suppressed more strongly, so the sound reproduction method can output sound with a more realistic feeling.
  • Some of the components constituting the above-mentioned sound reproduction device may be a computer system composed of a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard, mouse, etc.
  • a computer program is stored in the RAM or hard disk unit.
  • the microprocessor achieves its functions by operating according to the computer program.
  • a computer program is configured by combining a plurality of instruction codes indicating instructions to a computer in order to achieve a predetermined function.
  • a system LSI is a super-multifunctional LSI manufactured by integrating multiple components onto a single chip, and specifically, it is a computer system that includes a microprocessor, ROM, RAM, etc. .
  • a computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • Some of the components constituting the above-mentioned sound reproduction device may be composed of an IC card or a single module that is removably attached to each device.
  • the IC card or the module is a computer system composed of a microprocessor, ROM, RAM, etc.
  • the IC card or the module may include the above-mentioned super multifunctional LSI.
  • the IC card or the module achieves its functions by the microprocessor operating according to a computer program. This IC card or this module may be tamper resistant.
  • Some of the components constituting the above-mentioned sound reproduction device may store the computer program or the digital signal on a computer-readable recording medium, such as a flexible disk, hard disk, CD-ROM, MO, or DVD. , DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, or the like. Further, it may be a digital signal recorded on these recording media.
  • a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, or DVD.
  • semiconductor memory or the like. Further, it may be a digital signal recorded on these recording media.
  • some of the components constituting the above-mentioned sound reproduction device transmit the computer program or the digital signal via a telecommunications line, a wireless or wired communication line, a network typified by the Internet, data broadcasting, etc. It may also be transmitted.
  • the present disclosure may be the method described above. Moreover, it may be a computer program that implements these methods by a computer, or it may be a digital signal composed of the computer program.
  • the present disclosure also provides a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor may operate according to the computer program. .
  • an image linked to the sound output from the headphones 200 may be presented to the listener L.
  • a display device such as a liquid crystal panel or an organic EL (Electro Luminescence) panel may be provided around the listener L, and the image may be displayed on the display device. is presented. Further, the video may be presented to the listener L by wearing a head-mounted display or the like.
  • the audio content information in the present disclosure can be rephrased as a bitstream including a sound signal (sound information) and metadata. It can be said that the audio content information in the present disclosure includes processing availability information, spatial information, position information, and processing content information, all of which constitute metadata in a bitstream.
  • the audio content information may be acquired by the audio reproduction device 100 as a bitstream encoded in a predetermined format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • the encoded sound signal includes information about the target sound played by the sound playback device 100.
  • the target sound here is a sound emitted by a sound source object existing in the sound reproduction space or a natural environmental sound, and may include, for example, a mechanical sound or the sounds of animals including humans. Note that when a plurality of sound source objects exist in the sound reproduction space, the sound reproduction device 100 acquires a plurality of sound signals respectively corresponding to the plurality of sound source objects.
  • Metadata is, for example, information used in the audio reproduction device 100 to control audio processing for sound information.
  • the metadata may be information used to describe a scene expressed in a virtual space (sound playback space).
  • scene refers to a collection of all elements representing three-dimensional video and audio events in a virtual space, which are modeled by the audio reproduction device 100 using metadata.
  • the metadata here may include not only information that controls audio processing but also information that controls video processing.
  • the metadata may include information for controlling only one of the audio processing and the video processing, or may include information used for controlling both.
  • the audio reproduction device 100 generates a virtual sound effect by performing acoustic processing on sound information using metadata included in the bitstream and additionally acquired interactive position information of the listener L. do.
  • acoustic effects such as diffraction sound generation, distance attenuation effect, localization, sound image localization processing, or Doppler effect may be added.
  • information for switching on/off all or part of the sound effects may be added as metadata.
  • Metadata may be obtained from sources other than the bitstream of sound information.
  • the metadata that controls audio or the metadata that controls video may be obtained from sources other than the bitstream, or both metadata may be obtained from sources other than the bitstream.
  • the sound playback device 100 transfers the metadata that can be used to control the video to a display device that displays the image, or It may also have a function of outputting to a stereoscopic video playback device that plays back stereoscopic video.
  • the encoded metadata includes information regarding a sound reproduction space including a sound source object that emits a sound and an obstacle object, and localizing the sound image of the sound at a predetermined position within the sound reproduction space (that is, information regarding the localization position when the sound is perceived as arriving from a predetermined direction, that is, information regarding the predetermined direction.
  • the obstacle object affects the sound perceived by the listener L by, for example, blocking or reflecting the sound until the sound emitted by the sound source object reaches the listener L. It is an object that can be influenced. Obstacle objects may include animals such as people, or moving objects such as machines, in addition to stationary objects. Further, when a plurality of sound source objects exist in the sound reproduction space, other sound source objects can become obstacle objects for any sound source object. Furthermore, both non-sound source objects such as building materials or inanimate objects and sound source objects that emit sound can be obstruction objects.
  • Spatial information that constitutes metadata includes information representing not only the shape of the sound playback space, but also the shape and position of an obstacle object that exists in the sound playback space, and the shape and position of a sound source object that exists in the sound playback space.
  • the sound reproduction space may be a closed space or an open space
  • the metadata includes, for example, the reflectivity of structures such as floors, walls, or ceilings that can reflect sound in the sound reproduction space
  • the sound reproduction Information representing the reflectance of an obstacle object existing in space is included.
  • the reflectance is a ratio of energy between reflected sound and incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of the sound.
  • parameters such as a uniformly set attenuation rate, diffracted sound, or early reflected sound may be used, for example.
  • the metadata may include information other than reflectance.
  • information regarding the material of the object may be included as metadata related to both the sound source object and the non-sound source object.
  • the metadata may include parameters such as diffusivity, transmittance, or sound absorption coefficient.
  • Information regarding the sound source object may include volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources emitted from one object, or information specifying the sound source area in the object.
  • the playback conditions may determine, for example, whether the sound is a continuous sound or a sound triggered by an event.
  • the sound source area in the object may be determined based on the relative relationship between the position of the listener L and the position of the object, or may be determined using the object as a reference.
  • the surface where the listener L is looking at the object is used as a reference, and the sound X is heard from the right side of the object as viewed from the listener L, and the sound can make the listener L perceive that the sound Y is being emitted.
  • the object is defined as a reference, which sound is emitted from which region of the object can be fixed regardless of the direction in which the listener L is looking. For example, when viewing the object from the front, the listener L can be made to perceive that high sounds are coming from the right side and low sounds are coming from the left side. In this case, when the listener L goes behind the object, the listener L can be made to perceive that low sounds are coming from the right side and high sounds are coming from the left side when viewed from the back side.
  • the time to early reflected sound, reverberation time, or the ratio of direct sound to diffuse sound, etc. can be included.
  • the ratio of direct sound to diffused sound is zero, only direct sound can be perceived by listener L.
  • the information indicating the position and orientation of the listener L is included in the bitstream as metadata
  • the information indicating the position and orientation of the listener L that changes interactively is not included in the bitstream. You don't have to.
  • information indicating the position and orientation of the listener L is obtained from information other than the bitstream.
  • location information of listener L in a VR space may be obtained from an application that provides VR content
  • location information of listener L for presenting sound as AR may be obtained from a mobile terminal, for example.
  • Position information obtained by performing self-position estimation using GPS, a camera, LiDAR (Laser Imaging Detection and Ranging), or the like may be used.
  • the sound information and metadata may be stored in one bitstream, or may be stored separately in multiple bitstreams.
  • sound information and metadata may be stored in one file or separately in multiple files.
  • information indicating other related bitstreams is stored in one of the multiple bitstreams in which sound information and metadata are stored. Or it may be included in some bitstreams. Furthermore, information indicating other related bitstreams may be included in the metadata or control information of each bitstream of a plurality of bitstreams in which sound information and metadata are stored. When sound information and metadata are stored separately in multiple files, information indicating other related bitstreams or files is stored in one of the multiple files in which the sound information and metadata are stored. Or it may be included in some files. Further, information indicating other related bitstreams or files may be included in the metadata or control information of each bitstream of a plurality of bitstreams in which sound information and metadata are stored.
  • the related bitstreams or files are bitstreams or files that may be used simultaneously, for example, during audio processing.
  • the information indicating other related bitstreams may be collectively described in the metadata or control information of one bitstream among the plurality of bitstreams storing sound information and metadata.
  • the metadata or control information of two or more bitstreams out of a plurality of bitstreams storing sound information and metadata may be divided and described.
  • information indicating other related bitstreams or files may be collectively described in the metadata or control information of one of the multiple files storing sound information and metadata.
  • the metadata or control information of two or more files among a plurality of files storing sound information and metadata may be described separately.
  • a control file that collectively describes information indicating other related bitstreams or files may be generated separately from the plurality of files storing sound information and metadata. At this time, the control file does not need to store sound information and metadata.
  • the information indicating the other related bitstream or file is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator), or a URI (Uniform Resource Identifier), etc. It is.
  • the acquisition unit 120 identifies or acquires the bitstream or file based on information indicating other related bitstreams or files.
  • information indicating other related bitstreams is included in the metadata or control information of at least some bitstreams among the plurality of bitstreams storing sound information and metadata
  • the information indicating the file may be included in the metadata or control information of at least some of the plurality of files storing sound information and metadata.
  • the file containing information indicating a related bitstream or file may be a control file such as a manifest file used for content distribution, for example.
  • the extraction unit 110 decodes the encoded metadata and provides the decoded metadata to the acquisition unit 120.
  • the acquisition unit 120 provides the acquired metadata to the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160, respectively.
  • the acquisition unit 120 does not give the same metadata to each of a plurality of processing units such as the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160, but instead provides the same metadata for each processing unit. Metadata required by the corresponding processing unit may be provided.
  • the acquisition unit 120 further acquires detection information including the amount of rotation or displacement detected by the head sensor unit 201 and the position and orientation of the listener L.
  • the acquisition unit 120 determines the position and orientation of the listener L in the sound reproduction space based on the acquired detection information. More specifically, the acquisition unit 120 determines that the position and orientation of the listener L indicated by the acquired detection information are the position and orientation of the listener L in the sound reproduction space.
  • the acquisition unit 120 then updates the position information included in the metadata according to the determined position and orientation of the listener L. Therefore, the metadata that the acquisition unit 120 provides to each processing unit is metadata that includes updated position information.
  • the sound reproduction device 100 has a function as a renderer that generates a sound signal with added sound effects, but a server may perform all or part of the function of the renderer.
  • a server may perform all or part of the function of the renderer.
  • all or part of the extraction unit 110, the acquisition unit 120, the processing determination unit 130, the suppression processing unit 140, the reverberation generation unit 150, and the first output unit 160 may exist in a server not shown.
  • a sound signal generated within the server or a synthesized sound signal is received by the sound reproduction device 100 through a communication module (not shown) and reproduced by the headphones 200.
  • the present disclosure can be used in sound reproduction methods and sound reproduction devices, and is particularly applicable to stereophonic sound reproduction systems.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

音響再生方法は、音再生空間において受聴者に到達する音を示す音信号、及び、音が含む雑音の抑制処理を音信号に行うか否か示す処理可否情報を取得する取得ステップと、取得された処理可否情報が抑制処理を行うことを示す場合に、抑制処理の処理内容を決定する処理決定ステップと、決定された処理内容に基づいて、抑制処理を行う抑制処理ステップと、抑制処理が行われた音信号を出力する出力ステップとを含む。

Description

音響再生方法、コンピュータプログラム及び音響再生装置
 本開示は、音響再生方法などに関する。
 特許文献1では、音信号を取得して当該音信号についての残響を生成することで、臨場感がある音を出力することができる音響再生装置が開示されている。
国際公開第2006/92995号
 より臨場感がある音を出力することが求められている。
 そこで、本開示は、より臨場感がある音を出力することができる音響再生方法などを提供することを目的とする。
 本開示の一態様に係る音響再生方法は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得ステップと、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定ステップと、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理ステップと、前記抑制処理が行われた前記音信号を出力する出力ステップとを含む。
 本開示の一態様に係るプログラムは、上記の音響再生方法をコンピュータに実行させる。
 本開示の一態様に係る音響再生装置は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得部と、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定部と、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理部と、前記抑制処理が行われた前記音信号を出力する出力部とを備える。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様に係る音響再生方法によれば、より臨場感がある音を出力することができる。
図1は、実施の形態1に係る音響再生装置の機能構成を示すブロック図である。 図2は、実施の形態1に係る音響再生装置の動作例1のフローチャートである。 図3は、実施の形態1に係る抑制処理が行われた音信号の時間及び振幅の関係を示す図である。 図4は、図3が示す音信号のパワースペクトルを示す図である。 図5は、実施の形態1に係る合成音信号の時間及び振幅の関係を示す図である。 図6は、図5が示す合成音信号のパワースペクトルを示す図である。 図7は、実施の形態1に係る音響再生装置の動作例2のフローチャートである。 図8は、実施の形態1に係る2つの音再生空間と2つの音源の位置とを示す図である。 図9は、実施の形態1に係る2つの音再生空間と2つの音源の位置とを示す他の図である。 図10は、実施の形態2に係る音響再生装置の機能構成を示すブロック図である。 図11は、実施の形態2に係る音響再生装置の動作例3のフローチャートである。 図12は、実施の形態2に係る閾値とノイズフロアレベルとを示す図である。
 (本開示の基礎となった知見)
 従来、臨場感がある音を出力する音響再生方法が知られている。
 例えば、特許文献1では、音信号を取得して当該音信号についての残響を生成することで、臨場感がある音を出力することができる音響再生技術の一例として、音響再生装置が開示されている。
 ところで、特許文献1が開示する音響再生装置が取得する音信号が示す音には、受聴者が聞くための目的音と、目的音以外の雑音とが含まれている場合がある。この場合、引用文献1が開示する音響再生装置は、雑音が含まれる音を示す音信号に基づいて残響を示す残響信号を生成し、当該音信号と生成された残響信号とが合成された音信号(合成音信号)を、受聴者に出力する。この合成音信号は雑音を含む音と残響とが合成された音を示す信号であり、受聴者は雑音を含む音と残響とが合成された音を聞くこととなる。
 上記の通り、残響信号は、雑音が含まれる音が示す音信号に基づいて生成されており、より具体的には、残響信号が示す残響は、雑音が含まれる音に基づいて生成されている。このため、受聴者がこのような残響を受聴すると、受聴者に違和感を覚えさせることとなり、受聴者は十分に臨場感がある音を受聴することができない。つまり、特許文献1が開示する音響再生技術は、取得される音信号が示す音に雑音が含まれている場合には、十分に臨場感がある音を出力することが困難である。そのため、より臨場感がある音を出力することができる音響再生方法などが求められている。
 そこで、本開示の第1態様に係る音響再生方法は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得ステップと、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定ステップと、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理ステップと、前記抑制処理が行われた前記音信号を出力する出力ステップとを含む。
 これにより、取得ステップにおいて処理可否情報が取得されるため、この処理可否情報が示す雑音の抑制処理の可否に従って、抑制処理ステップにおいて音信号が示す音に含まれる雑音が抑制される。例えば、このような処理が行われた音信号に基づいて残響を示す残響信号が生成され、当該音信号と当該残響信号とが合成された合成音信号(合成音信号)が受聴者に出力される場合がある。この場合、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。
 また、例えば、本開示の第2態様に係る音響再生方法では、第1態様において、前記取得ステップでは、前記音再生空間の形状及び音響特性を示す空間情報と、前記音再生空間における前記受聴者の位置を示す位置情報とを取得し、前記抑制処理ステップでは、取得された空間情報と、取得された位置情報とに基づいて、前記抑制処理を行うか否かを決定する。
 これにより、受聴者が居る音再生空間の形状及び音響特性に応じて、抑制処理を行うか否かが決定される。例えば、抑制処理が行われない場合には、音響再生方法の処理負荷を軽減することができる。
 また、例えば、本開示の第3態様に係る音響再生方法では、第2態様において、前記抑制処理ステップでは、前記受聴者の位置が、残響が発生しない前記音再生空間内に含まれる場合に、前記抑制処理を行わないことを決定する。
 これにより、受聴者の位置が、残響が発生しない音再生空間内に含まれる場合には、抑制処理が行われないため、音響再生方法の処理負荷を軽減することができる。
 また、例えば、本開示の第4態様に係る音響再生方法では、第1~第3態様のいずれか1の態様において、前記取得ステップでは、前記処理内容を示す処理内容情報を取得し、前記抑制処理ステップでは、取得された前記処理内容情報が示す前記処理内容を行う。
 これにより、処理内容情報が示す処理内容に従って、抑制処理が行われることができる。
 また、例えば、本開示の第5態様に係る音響再生方法では、第2又は第3態様において、前記抑制処理が行われた前記音信号と取得された前記空間情報とに基づいて、残響を示す残響信号を生成する残響生成ステップを含み、出力ステップでは、前記抑制処理が行われた前記音信号と、生成された前記残響信号とが合成された合成音信号を出力する。
 これにより、残響を示す残響信号は、雑音が抑制された音が示す音信号に基づいて生成される。従って、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。
 また、例えば、本開示の第6態様に係る音響再生方法では、第5態様において、前記取得ステップでは、閾値を示す閾値データを取得し、前記音響再生方法は、前記合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された前記閾値データが示す前記閾値とを比較する比較ステップを含み、前記処理決定ステップでは、前記比較ステップでの比較結果に基づいて、前記抑制処理の前記処理内容を更新する。
 これにより、閾値とノイズフロアレベルとが比較された比較結果に基づいて、抑制処理の処理内容が更新されるため、音響再生方法は、より臨場感がある音を出力することができる。
 また、例えば、本開示の第7態様に係る音響再生方法では、第6態様において、前記閾値は、前記ノイズフロアレベルの目標値であり、前記処理決定ステップでは、前記ノイズフロアレベルが前記閾値よりも高い場合に、前記雑音をより強く抑制する前記抑制処理となるように前記処理内容を更新する。
 これにより、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制することができるため、音響再生方法は、より臨場感がある音を出力することができる。
 また、本開示の第8態様に係るコンピュータプログラムは、第1~第7態様のいずれか1つの態様の音響再生方法をコンピュータに実行させる。
 これにより、コンピュータが、プログラムに従って、上記の音響再生方法を実行することができる。
 また、本開示の第9態様に係る音響再生装置は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得部と、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定部と、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理部と、前記抑制処理が行われた前記音信号を出力する出力部とを備える。
 これにより、取得部において処理可否情報が取得されるため、この処理可否情報が示す雑音の抑制処理の可否に従って、抑制処理部において音信号が示す音に含まれる雑音が抑制される。例えば、このような処理が行われた音信号に基づいて残響を示す残響信号が生成され、当該音信号と当該残響信号とが合成された合成音信号(合成音信号)が受聴者に出力される場合がある。この場合、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生装置が実現される。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。
 また、以下の説明において、第1及び第2等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。
 本明細書において、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
 (実施の形態1)
 [構成]
 まず、実施の形態1に係る音響再生装置100の構成について説明する。図1は、本実施の形態に係る音響再生装置100の機能構成を示すブロック図である。
 本実施の形態に係る音響再生装置100は、音再生空間において受聴者に到達する音を示す音信号に処理を施し、受聴者が装着するヘッドフォン200に出力することで、受聴者に音を受聴させるための装置である。より具体的には、音響再生装置100は、受聴者に立体音響を受聴させるための立体音響再生装置である。本実施の形態に係る音響再生装置100は、一例として仮想現実又は拡張現実(VR/AR)などの様々なアプリケーションに応用される装置である。なお、本実施の形態においては、音再生空間とは、仮想現実又は拡張現実などの様々なアプリケーションで用いられる仮想現実空間又は拡張現実空間を意味する。
 次に、ヘッドフォン200について説明する。
 図1が示すように、ヘッドフォン200は、頭部センサ部201と、第2出力部202とを備える音声出力装置である。
 頭部センサ部201は、受聴者の頭部が向いている方向と、水平面の座標及び垂直方向の高さで定められる受聴者の位置とをセンシングして、受聴者の頭部が向いている方向と、水平面の座標及び垂直方向の高さで定められる受聴者の位置とを示す検知情報を音響再生装置100に出力する。なお、受聴者の頭部が向いている方向とは、受聴者の顔が向いている方向でもある。
 頭部センサ部201は、受聴者の頭部の6DoF(Degrees of Freedom)の情報をセンシングするとよい。例えば、頭部センサ部201は、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。また、検知情報には、頭部センサ部201によってセンシングされた回転量又は変位量等も含まれている。
 また、以下では簡単のため、受聴者の頭部が向いている方向を、受聴者の向き、と記載する場合がある。
 第2出力部202は、音再生空間において受聴者に到達する音を再生する装置である。より具体的には、第2出力部202は、音響再生装置100によって処理されかつ音響再生装置100から出力された上記音を示す音信号に基づいて、上記音を再生する。
 続いて、図1が示す音響再生装置100について説明する。
 図1が示すように、音響再生装置100は、抽出部110と、取得部120と、処理決定部130と、抑制処理部140と、残響生成部150と、第1出力部160と、記憶部170とを備える。
 抽出部110は、オーディオコンテンツ情報を取得して、取得されたオーディオコンテンツ情報が含む所定の情報及び信号を抽出する。抽出部110は、例えば音響再生装置100外の記憶装置(不図示)から、オーディオコンテンツ情報を取得する。なお、抽出部110は、音響再生装置100が備える記憶部170に記憶されているオーディオコンテンツ情報を取得してもよい。
 抽出部110は、取得されたオーディオコンテンツ情報から、音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を抽出する。
 音信号は、音再生空間において受聴者に到達する音を示す信号である。受聴者に到達する音は、受聴者が聞くための目的音と目的音以外の雑音とを含み、より具体的には目的音と雑音とで構成されている。目的音とは例えば人から発せられた音声及び音楽などであり、雑音とは例えば、目的音の収音時に意図せず混入する騒音又は収音環境による残響などである。音信号は、受聴者に到達する音を示す信号であり、WAVE、MP3又はWMAなどの形式で示されるデジタルデータある。
 処理可否情報は、受聴者に到達する音が含む雑音の抑制処理を、上記の音信号に行うか否か示す情報である。処理可否情報には、抑制処理を行うこと、又は、抑制処理を行わないことが示されている。例えば、処理可否情報が抑制処理を行うことを示す場合にはフラグとして「1」が示され、処理可否情報が抑制処理を行わないことを示す場合にはフラグとして「0」が示される。
 空間情報は、音再生空間の形状及び音響特性を示す情報である。空間情報が示す音再生空間は、仮想現実又は拡張現実などのアプリケーションにおいては、受聴者が居る空間であってもよく、受聴者が居ない空間であってもよい。空間情報は、音再生空間の形状を示す情報であり、より具体的には、当該音再生空間における設置物(壁、ドア、床、天井、什器など)の設置位置及び形状を示す情報である。また、空間情報は、当該設置物が音を反射又は吸収する際に、どの周波数をどの程度反射又は吸収するかを示す音響特性を示す情報である。また、空間情報は、当該音再生空間に設置される音源の位置を示す。当該音源とは、当該音再生空間において、受聴者に到達する音を発する音源である。
 位置情報は、音再生空間における受聴者の位置を示す情報である。より具体的には、複数の音再生空間が設けられている場合に、位置情報は複数の音再生空間のうち受聴者が居る音再生空間を示し、かつ、受聴者が居る当該音再生空間のうち受聴者が居る位置を示す情報である。
 処理内容情報は、取得された処理可否情報が抑制処理を行うことを示す場合に、受聴者に到達する音が含む雑音の抑制処理の処理内容を示す情報である。雑音の抑制処理には、例えば、音声強調法が用いられるとよいが、これに限られず公知の方法が用いられれてもよい。処理内容情報には、雑音の抑制処理に用いられる方法が音声強調法であること、及び、音声強調法が用いられるために必要な情報が示されている。また処理内容情報に、複数の雑音の抑制処理の方法のうち、いずれの方法を用いられるかを示す情報が含まれていてもよい。
 このように、本実施の形態においては、オーディオコンテンツ情報は、音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を含んでいる。
 また、オーディオコンテンツ情報は、MPEG-H 3D Audio(ISO/IEC 23008-3)(以下、MPEG-H 3D Audioと記載)などの符号化処理が施されているとよい。つまり、抽出部110は、符号化されたビットストリームであるオーディオコンテンツ情報を取得する。抽出部110は、オーディオコンテンツ情報を取得して復号する。抽出部110は、上記のMPEG-H 3D Audioなどに基づいて復号処理を施す。つまり例えば、抽出部110は、デコーダとして機能する。抽出部110は、符号化されたオーディオコンテンツ情報を復号し、復号した音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得部120に与える。
 取得部120は、抽出部110によって抽出された音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得する。取得部120は、取得した情報を処理決定部130、抑制処理部140、残響生成部150及び第1出力部160にそれぞれ与える。ここで、取得部120は、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160などの複数の処理部にそれぞれ情報を与えるのではなく、処理部ごとに、対応する当該処理部で必要な情報を与えてもよい。なお、本実施の形態においては、抽出部110がオーディオコンテンツ情報から音信号などを抽出し、取得部120が抽出された音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得するがこれに限られない。例えば、取得部120は、例えば音響再生装置100外の記憶装置(不図示)又は記憶部170から、音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得してもよい。また、取得部120は、ヘッドフォン200(より具体的には、頭部センサ部201)で検知された回転量又は変位量等と受聴者の位置及び向きとを含む検知情報を更に取得する。取得部120は、取得した検知情報に基づいて、音再生空間における受聴者の位置及び向きを決定する。つまりここでは、取得部120は、取得した検知情報が示す受聴者の位置及び向きが、音再生空間における受聴者の位置及び向きであることを決定する。つまりここでは、取得部120は、取得した検知情報が示す受聴者の位置及び向きが、音再生空間における受聴者の位置及び向きであることを決定する。受聴者の位置は水平面の座標及び垂直方向の高さで表されてもよい。そして、取得部120は、決定した受聴者の位置及び向きに応じて、位置情報を更新する。したがって、取得部120が各処理部に与える位置情報は、更新された位置情報を含む情報である。
 処理決定部130は、取得部120によって取得された処理可否情報が抑制処理を行うことを示す場合に、抑制処理の処理内容を決定する。より具体的には、処理決定部130は、処理可否情報が抑制処理を行うことを示す場合に、取得部120によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。
 抑制処理部140は、処理決定部130によって決定された処理内容に基づいて、受聴者に到達する音を示す音信号に、当該音が含む雑音の抑制処理を行う。抑制処理が行われた音信号は、雑音が抑制された音を示す信号である。なお、取得部120によって取得された処理可否情報が抑制処理を行わないことを示す場合には、処理決定部130は抑制処理の処理内容を決定せず、抑制処理部140は抑制処理を行わない。
 残響生成部150は、抑制処理部140によって抑制処理が行われた音信号と、取得部120によって取得された空間情報とに基づいて、残響を示す残響信号を生成する。残響生成部150は、当該音信号に、公知の残響生成方法を適用して、残響を生成するとよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響生成部150は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響生成部150は、残響を示す残響信号を生成することができる。また、本実施の形態においては、残響生成部150によって生成された残響信号は、雑音が抑制された音に基づく残響を示す信号であり、つまりは、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。なお、ここでは残響とは後期残響であるが、残響が初期反射と後期残響とを含んでもよい。さらに、残響生成部150は、空間情報を用いて音信号に音響処理を行うことで、後期残響以外の仮想的な音響効果を生成してもよい。例えば、回折音生成、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報が空間情報とともに取得部120によって取得されてもよい。
 第1出力部160は、出力部の一例であり、抑制処理部140によって抑制処理が行われた音信号を出力する。より具体的には、第1出力部160は、抑制処理部140によって抑制処理が行われた音信号と、残響生成部150によって生成された残響信号とが合成された合成音信号を、ヘッドフォン200に出力する。合成音信号は合成音を示し、合成音は雑音が抑制された音と雑音が抑制された音に基づく残響とを含む音である。ここでは、第1出力部160は、音量制御部161と、方向制御部162とを含む。
 音量制御部161は、抑制処理部140によって抑制処理が行われた音信号が示す雑音が抑制された音の音量と、残響生成部150によって生成された残響信号が示す残響の音量とを決定する。音量制御部161は、音量情報に基づいて、雑音が抑制された音の音量と、残響の音量とを決定するとよい。音量情報は、抑制処理が行われた音信号が示す雑音が抑制された音の音量、及び、残響信号が示す残響の音量の比率を示す情報である。音量制御部161は、第1出力部160から出力される雑音が抑制された音及び残響のそれぞれの音量の比率が、音量情報が示す比率となるように、雑音が抑制された音の音量と残響の音量とを決定する。
 なお、音量情報は、オーディオコンテンツ情報から抽出部110によって抽出され、取得部120によって取得されているとよい。音量制御部161は、取得部120によって取得された音量情報を取得する。
 方向制御部162は、取得部120によって取得された空間情報と位置情報と検知情報とに基づいて、抑制処理が行われた音信号、及び、生成された残響信号に、畳み込み処理を施す。
 上記の通り、空間情報は音再生空間の形状及び音響特性と音再生空間における音源の位置とを示し、位置情報は受聴者がいる再生空間と当該再生空間における受聴者の位置とを示し、検知情報は受聴者の向きと、水平面の座標及び垂直方向の高さの値で表される受聴者の位置とを示す。方向制御部162は、記憶部170に記憶されている頭部伝達関数を参照して、音信号及び残響信号に処理を施す。
 より具体的には、方向制御部162は、空間情報が示す音源の位置から位置情報が示す受聴者の位置に音信号が示す音が到達するように、頭部伝達関数を音信号に畳み込む処理を施す。このとき、方向制御部162は、検知情報が示す受聴者の向きを考慮して当該頭部伝達関数を決定し、決定された当該頭部伝達関数を音信号に畳み込む処理を施すとよい。また、方向制御部162は、再生空間において、検知情報が示す方向を向く受聴者が居る位置に、残響信号が示す残響が到達するように、頭部伝達関数を残響信号に畳み込む処理を施す。
 方向制御部162は、それぞれ頭部伝達関数を畳み込む処理が施された音信号及び残響信号が合成された合成音信号を生成し、生成された合成音信号をヘッドフォン200に出力する。なお、方向制御部162が合成音信号を生成する際には、音信号が示す音及び残響信号が示す残響のそれぞれが、音量制御部161によって決定された音の音量及び残響の音量のそれぞれとなるように処理を行う。
 さらに、ヘッドフォン200の第2出力部202は、第1出力部160によって出力された合成音信号に基づいて、合成音信号が示す雑音が抑制された音の音量及び残響を再生する。
 このように、取得部120、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160は、抽出部110によって抽出された情報及び信号に基づいて、ヘッドフォン200で再生可能な合成音信号を出力する。つまり例えば、取得部120、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160は、レンダラとして機能する。
 なお、本実施の形態においては、音響再生装置100は残響生成部150を備えるが、他の例では、音響再生装置100は残響生成部150を備えなくてもよい。この場合、第1出力部160は、抑制処理部140によって抑制処理が行われた音信号を出力する。
 記憶部170は、抽出部110、取得部120、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160のそれぞれが行う情報処理に必要な情報が記憶される記憶装置である。記憶部170に記憶される情報には、抽出部110、取得部120、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160のそれぞれが実行するコンピュータプログラムが含まれる。
 [動作例1]
 以下、音響再生装置100が実行する音響再生方法の動作例1について説明する。図2は、本実施の形態に係る音響再生装置100の動作例1のフローチャートである。
 はじめに、抽出部110は、オーディオコンテンツ情報を取得する(S10)。
 抽出部110は、取得したオーディオコンテンツ情報から、音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報を抽出する(S20)。
 取得部120は、抽出部110によって抽出された音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報と、ヘッドフォン200によって出力された検知情報とを取得する(S30)。このステップS30が取得ステップに相当する。
 処理決定部130は、取得部120によって取得された処理可否情報が抑制処理を行うことを示すか否かを判断する(S40)。例えば、処理決定部130は、処理可否情報においてフラグとして「1」が示される場合には、処理可否情報が抑制処理を行うことを示すと判断する。また例えば、処理決定部130は、処理可否情報においてフラグとして「0」が示される場合には、処理可否情報が抑制処理を行わないことを示すと判断する。
 ここで、処理決定部130によって、処理可否情報が抑制処理を行うことを示すと判断された場合に(S40でYes)、処理決定部130は、抑制処理の処理内容を決定する(S50)。より具体的には、処理決定部130は、取得部120によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。このステップS50が処理決定ステップに相当する。
 続いて、抑制処理部140は、処理決定部130によって決定された処理内容に基づいて、取得部120によって取得された音信号に、抑制処理を行う(ステップS60)。抑制処理が行われた音信号は、雑音が抑制された音を示す信号である。このステップS60が抑制処理ステップに相当する。
 残響生成部150は、ステップS60で抑制処理部140によって抑制処理が行われた音信号と、取得部120によって取得された空間情報とに基づいて、残響を示す残響信号を生成する(S70)。残響生成部150によって生成された残響信号は、雑音が抑制された音に基づく残響を示す信号である。このステップS70が残響生成ステップに相当する。
 第1出力部160は、ステップS60で抑制処理部140によって抑制処理が行われた音信号と、残響生成部150によって生成された残響信号とが合成された合成音信号を、ヘッドフォン200に出力する(S80)。このステップS80が出力ステップに相当する。より具体的には、第1出力部160が含む音量制御部161及び方向制御部162が、取得部120によって取得された音量情報と空間情報と位置情報と検知情報とに基づいて、合成音信号を生成し、ヘッドフォン200に出力する。
 ここで、図3~図6を用いて、抑制処理が行われた音信号及び合成音信号について説明する。
 図3は、本実施の形態に係る抑制処理が行われた音信号の時間及び振幅の関係を示す図である。図4は、図3が示す音信号のパワースペクトルを示す図である。図5は、本実施の形態に係る合成音信号の時間及び振幅の関係を示す図である。図6は、図5が示す合成音信号のパワースペクトルを示す図である。
 図4が示すパワースペクトルは図3が示す音信号に高速フーリエ変換処理が施されたスペクトルであり、図6が示すパワースペクトルは図5が示す合成音信号に高速フーリエ変換処理が施されたスペクトルである。
 図5及び図6が示す合成音信号は、図3及び図4が示す音信号と、当該音信号に基づいて生成された残響信号とが合成された信号である。つまり図5が示す合成音信号から図3が示す音信号を差し引いた信号が、残響信号に相当する。
 ここで、図4及び図6を比較する。図4及び図6のそれぞれの一点鎖線の矩形で囲まれた領域が示すように、周波数が700Hz以下の領域におけるノイズフロアレベルは、図6の方がより高い。つまり残響信号を含む合成音信号では、当該領域におけるノイズフロアレベルがより高くなっている。
 ここで、ノイズフロアレベルについて、簡単に説明する。ノイズフロアレベルとは、音信号に含まれる雑音のレベルを示す。ノイズフロアレベルは、レベルの凹凸が観測される図4のスペクトルパワーの凹み部分の大きさで表される。ノイズフロアレベルは、例えば、所定の周波数区間の凹み部分のレベルの平均値によって簡易的に計算されることがある。
 ステップS80では、このような合成音信号がヘッドフォン200に出力され、ヘッドフォン200の第2出力部202は、第1出力部160によって出力された合成音信号に基づいて、合成音信号が示す雑音が抑制された音及び残響を再生する。
 なお、仮に音響再生装置100が残響生成部150を備えない場合には、ステップS70は行われず、第1出力部160は、抑制処理部140によって抑制処理が行われた音信号を出力する。
 また、処理決定部130によって、処理可否情報が抑制処理を行わないことを示すと判断された場合に(S40でNo)、処理決定部130は抑制処理の処理内容を決定せず、抑制処理部140は抑制処理を行わない(S90)。
 第1出力部160は、抑制処理部140によって抑制処理が行われていない音信号をヘッドフォン200に出力する(S100)。
 このように、動作例1においては、音響再生方法は、取得ステップと、処理決定ステップと、抑制処理ステップと、出力ステップとを含む。取得ステップでは、音再生空間において受聴者に到達する音を示す音信号、及び、音が含む雑音の抑制処理を音信号に行うか否か示す処理可否情報を取得する。処理決定ステップでは、取得された処理可否情報が抑制処理を行うことを示す場合に、抑制処理の処理内容を決定する。抑制処理ステップでは、決定された処理内容に基づいて、抑制処理を行う。出力ステップでは、抑制処理が行われた音信号を出力する。
 これにより取得ステップにおいて処理可否情報が取得されるため、この処理可否情報が示す雑音の抑制処理の可否に従って、抑制処理ステップにおいて音信号が示す音に含まれる雑音が抑制される。動作例1では、このような処理が行われた音信号に基づいて残響を示す残響信号が生成され(ステップS70)、当該音信号と当該残響信号とが合成された合成音信号(合成音信号)が受聴者に出力される場合がある。この場合、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。
 また、動作例1においては、取得ステップでは、処理内容を示す処理内容情報を取得する。抑制処理ステップでは、取得された処理内容情報が示す処理内容を行う。
 これにより、処理内容情報が示す処理内容に従って、抑制処理が行われることができる。
 また、動作例1においては、抽出部110によってオーディオコンテンツ情報から音信号に対する処理可否情報が抽出されているが、入力される時系列音信号が分析されて処理可否情報が設定されてもよい。時系列音信号の分析としては、例えば自己相関値又は周波数成分の時間遷移などの観測により雑音の大きさが推定される手法などが知られており、推定される雑音の大きさを、所定の閾値で判定することで処理可否情報が設定されてもよい。
 さらに、入力される時系列音信号は、オーディオコンテンツ情報と紐づけられて入力される、抽出部110で抽出される音信号の代わりに、マイクなどの入力デバイスで収音される音信号としてもよい。この場合は、音信号に紐づけられるオーディオコンテンツ情報を、収音する環境にもとづいて設定される情報としてもよい。これにより、音信号に含まれる収音環境の雑音を抑圧して、所定の仮想空間の再現をすることができる。
 また、動作例1においては、音響再生方法は、抑制処理が行われた音信号と取得された空間情報とに基づいて、残響を示す残響信号を生成する残響生成ステップを含む。出力ステップでは、抑制処理が行われた音信号と、生成された残響信号とが合成された合成音信号を出力する。
 これにより、残響を示す残響信号は、雑音が抑制された音が示す音信号に基づいて生成される。従って、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。
 また、本実施の形態においては、コンピュータプログラムは、上記の音響再生方法をコンピュータに実行させる。
 これにより、コンピュータが、プログラムに従って、上記の音響再生方法を実行することができる。
 [動作例2]
 動作例2では、2つの音再生空間が設けられ、当該2つの音再生空間のそれぞれに音源が設けられる例について説明する。図7は、本実施の形態に係る音響再生装置100の動作例2のフローチャートである。図8及び図9のそれぞれは、本実施の形態に係る2つの音再生空間A及びBと2つの音源A1及びB1の位置とを示す図である。
 2つの音再生空間A及びBのそれぞれは上記の音再生空間の一例であり、2つの音源A1及びB1から出力される音のそれぞれは上記の受聴者Lに到達する音の一例である。なお識別のために、以下では、音源A1が出力する音を第1音とし、第1音は受聴者が聞くための目的音と目的音以外の雑音とを含む。第1音を示す第1音信号は、上記の音信号の一例である。第1音信号に抑制処理を行うか否か示す第1処理可否情報は、上記の処理可否情報の一例である。音再生空間Aに係る第1空間情報は、上記の空間情報の一例であり、音再生空間Aの形状及び音響特性などを示す。また、音源B1が出力する音を第2音とし、第2音は受聴者が聞くための目的音と目的音以外の雑音とを含む。第2音を示す第2音信号は、上記の音信号の一例である。第2音信号に抑制処理を行うか否か示す第2処理可否情報は、上記の処理可否情報の一例である。音再生空間Bに係る第2空間情報は、上記の空間情報の一例であり、音再生空間Bの形状及び音響特性などを示す。
 音再生空間Aと音再生空間Bとは隣接する空間である。音再生空間Aは残響が発生する空間である。従って、音再生空間Aの形状及び音響特性を示す第1空間情報には、音再生空間Aは残響が発生する空間であることが示されている。
 音再生空間Bは残響が発生しない空間である。従って、音再生空間Bの形状及び音響特性を示す第2空間情報には、音再生空間Bは残響が発生しない空間であることが示されている。
 まずは、図8が示すように、受聴者Lの位置が音再生空間A内に居る場合の動作例2について説明する。この動作例2においては、位置情報は、受聴者が音再生空間Aに居ることと、音再生空間Aのうち受聴者Lが居る位置とを示す。
 図7が示すように、はじめに、抽出部110は、オーディオコンテンツ情報を取得する(S10)。
 抽出部110は、取得したオーディオコンテンツ情報から、音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報を抽出する(S21)。より具体的には、抽出部110は、オーディオコンテンツ情報から、第1音信号、第2音信号、第1処理可否情報、第2処理可否情報、第1空間情報、第2空間情報、位置情報、処理内容情報及び音量情報を抽出する。
 取得部120は、抽出部110によって抽出された音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報と、ヘッドフォン200によって出力された検知情報とを取得する(S31)。より具体的には、取得部120は、第1音信号、第2音信号、第1処理可否情報、第2処理可否情報、第1空間情報、第2空間情報、位置情報、処理内容情報及び音量情報と、検知情報とを取得する。
 処理決定部130は、取得部120によって取得された処理可否情報が抑制処理を行うことを示すか否かを判断する(S41)。ステップS41を含む以下の処理では、第1音についての処理と、第2音についての処理とが別個で行われる。
 まず、第1音についての処理を説明する。
 ステップS41で、処理決定部130は、取得部120によって取得された第1処理可否情報が抑制処理を行うことを示すか否かを判断する。ここでは、第1処理可否情報は、抑制処理を行うことを示す。
 従って、処理決定部130は、第1処理可否情報が抑制処理を行うことを示すと判断し(S41でYes)、処理決定部130は、抑制処理の処理内容を決定する(S51)。より具体的には、処理決定部130は、取得部120によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。
 さらに、抑制処理部140は、取得部120によって取得された空間情報(第1空間情報)と、取得部120によって取得された位置情報とに基づいて、受聴者Lの位置が、残響が発生する音再生空間内に含まれるか否かを判断する(S52)。ここでは、位置情報は、受聴者が音再生空間Aに居ることを示す。また、第1空間情報は、音再生空間Aは残響が発生する空間であることを示す。従って、抑制処理部140は、受聴者Lの位置が、残響が発生する音再生空間A内に含まれる(ステップS52でYes)と判断する。
 この場合、抑制処理部140は、処理決定部130によって決定された処理内容に基づいて、取得部120によって取得された音信号(第1音信号)に、抑制処理を行う(ステップS61)。抑制処理が行われた第1音信号は、雑音が抑制された第1音を示す信号である。
 残響生成部150は、ステップS61で抑制処理部140によって抑制処理が行われた音信号(第1音信号)と、取得部120によって取得された空間情報(第1空間情報)とに基づいて、残響を示す残響信号を生成する(S71)。ステップS71で残響生成部150によって生成された残響信号は、雑音が抑制された第1音に基づく残響を示す信号である。
 第1出力部160は、ステップS61で抑制処理部140によって抑制処理が行われた音信号(第1音信号)と、残響生成部150によって生成された残響信号とが合成された合成音信号を、ヘッドフォン200に出力する(S81)。より具体的には、第1出力部160が含む音量制御部161及び方向制御部162が、取得部120によって取得された音量情報と第1空間情報と位置情報と検知情報とに基づいて、合成音信号を生成し、ヘッドフォン200に出力する。
 ここで、ステップS41に戻って、第2音についての処理を説明する。
 ステップS41で、処理決定部130は、取得部120によって取得された第2処理可否情報が抑制処理を行うことを示すか否かを判断する。ここでは、第2処理可否情報は、抑制処理を行わないことを示す。
 従って、処理決定部130は、第2処理可否情報が抑制処理を行わないことを示すと判断し(S41でNo)、処理決定部130は抑制処理の処理内容を決定せず、抑制処理部140は抑制処理を行わない(S91)。
 第1出力部160は、抑制処理部140によって抑制処理が行われていない音信号(第2音信号)をヘッドフォン200に出力する(S101)。
 以上より、動作例2の図8が示す例においては、ヘッドフォン200の第2出力部202は、以下の処理を行う。つまり、第2出力部202は、第1出力部160によって出力された合成音信号が示す雑音が抑制された第1音及び残響を再生し、第1出力部160によって出力された第2音信号が示す第2音を再生する。
 さらに、以下では、動作例2において図9が示すように、受聴者Lの位置が音再生空間B内に居る場合について説明する。この動作例2においては、位置情報は、受聴者が音再生空間Bに居ることと、音再生空間Bのうち受聴者Lが居る位置とを示す。
 上記説明したように、ステップS10~S31が行われる。
 続いて、処理決定部130は、取得部120によって取得された処理可否情報が抑制処理を行うことを示すか否かを判断する(S41)。受聴者Lの位置が音再生空間B内に居る場合においても、ステップS41を含む以下の処理では、第1音についての処理と、第2音についての処理とが別個で行われる。
 まず、第1音についての処理を説明する。
 ステップS41で、処理決定部130は、取得部120によって取得された第1処理可否情報が抑制処理を行うことを示すか否かを判断する。ここでは、第1処理可否情報は、抑制処理を行うことを示す。
 従って、処理決定部130は、第1処理可否情報が抑制処理を行うことを示すと判断し(S41でYes)、処理決定部130は、抑制処理の処理内容を決定する(S51)。より具体的には、処理決定部130は、取得部120によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。
 さらに、抑制処理部140は、取得部120によって取得された空間情報(第2空間情報)と、取得部120によって取得された位置情報とに基づいて、受聴者Lの位置が、残響が発生する音再生空間内に含まれるか否かを判断する(S52)。ここでは、位置情報は、受聴者が音再生空間Bに居ることを示す。また、第2空間情報は、音再生空間Bは残響が発生しない空間であることを示す。従って、抑制処理部140は、受聴者Lの位置が、残響が発生しない音再生空間B内に含まれる(ステップS52でNo)と判断する。
 この場合、処理決定部130は抑制処理の処理内容を決定せず、抑制処理部140は抑制処理を行わない(S91)。ステップS91について、より詳細に説明すると以下の通りである。図9が示す例においては受聴者Lは残響が発生しない音再生空間B内に受聴者Lが居るため、残響生成部150は、雑音が含まれる音(第1音)が示す音信号(第1音信号)に基づく残響信号を生成しない。よって、抑制処理部140が抑制処理を行わなくても、受聴者が雑音が含まれる音に基づく残響を受聴することはない。つまりより正確には、抑制処理部140は、抑制処理を行う必要がないため、抑制処理を行わない。この結果、抑制処理が行われないため、音響再生方法の処理負荷を軽減することができる。
 さらに、第1出力部160は、抑制処理部140によって抑制処理が行われていない音信号(第1音信号)をヘッドフォン200に出力する(S101)。
 ここで、ステップS41に戻って、第2音についての処理を説明する。
 ステップS41で、処理決定部130は、取得部120によって取得された第2処理可否情報が抑制処理を行うことを示すか否かを判断する。ここでは、第2処理可否情報は、抑制処理を行わないことを示す。
 従って、処理決定部130は、第2処理可否情報が抑制処理を行わないことを示すと判断し(S41でNo)、処理決定部130は抑制処理の処理内容を決定せず、抑制処理部140は抑制処理を行わない(S91)。
 第1出力部160は、抑制処理部140によって抑制処理が行われていない音信号(第2音信号)をヘッドフォン200に出力する(S101)。
 従って、動作例2においては、ヘッドフォン200の第2出力部202は、第1出力部160によって出力された合成音信号に基づいて合成音信号が示す雑音が抑制された第1音及び残響を再生し、第1出力部160によって出力された第2音信号が示す第2音を再生する。
 以上より、動作例2の図9が示す例においては、ヘッドフォン200の第2出力部202は、以下の処理を行う。つまり、第2出力部202は、第1出力部160によって出力された抑制処理が行われていない第1音信号が示す第1音を再生し、第1出力部160によって出力された抑制処理が行われていない第2音信号が示す第2音を再生する。
 このように、動作例2においては、抑制処理ステップでは、受聴者Lの位置が、残響が発生しない音再生空間内(例えば音再生空間B内)に含まれる場合に、抑制処理を行わないことを決定する。
 これにより、受聴者Lの位置が、残響が発生しない音再生空間内(例えば音再生空間B内)に含まれる場合には、抑制処理が行われないため、音響再生方法の処理負荷を軽減することができる。
 また、動作例2においては、取得ステップでは、処理内容を示す処理内容情報を取得し、抑制処理ステップでは、取得された処理内容情報が示す処理内容を行う。
 これにより、処理内容情報が示す処理内容に従って、抑制処理が行われることができる。
 (実施の形態2)
 実施の形態2においては、比較部180が設けられている例について説明する。
 [構成]
 実施の形態2に係る音響再生装置100aの構成について説明する。
 図10は、本実施の形態に係る音響再生装置100aの機能構成を示すブロック図である。
 本実施の形態に係る音響再生装置100aは、主に、比較部180を備える点を除いて、音響再生装置100と同じ構成を有する。
 つまり、音響再生装置100aは、抽出部110と、取得部120と、処理決定部130と、抑制処理部140と、残響生成部150と、第1出力部160と、記憶部170と、比較部180とを備える。
 本実施の形態においては、取得部120は、閾値を示す閾値データを取得する。閾値データが示す閾値は、比較部180によって用いられる値であり、詳細は後述される。
 例えば、閾値データは記憶部170に記憶されており、取得部120は、記憶部170に記憶されている閾値データを取得する。また例えば、閾値データは抽出部110によってオーディオコンテンツ情報から抽出されるデータであって、取得部120は、抽出部110によって抽出された閾値データを取得してもよい。
 続いて、比較部180が行う処理について説明する。本実施の形態においては、図2が示す実施の形態1の動作例1のステップS10、S20、S30、S40、S50、S60、及びS70の処理が行われた後、比較部180は、合成音信号を生成する。
 比較部180は、実施の形態1で示した第1出力部160と同様の処理によって、合成音信号を生成する。つまり、比較部180は、第1出力部160が含む音量制御部161及び方向制御部162が行う処理と同様の処理を行うことで、合成音信号を生成することができる。
 比較部180は、生成された合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された閾値データが示す閾値とを比較する。比較部180は、生成された合成音信号を示すパワースペクトル(例えば図6が示すパワースペクトル)における所定の周波数範囲のノイズフロアレベルと、閾値データが示す閾値とを比較し、比較結果を処理決定部130に出力する。
 処理決定部130は、比較部180から出力された比較結果に基づいて、抑制処理の処理内容を更新(再度決定)する。より具体的には、処理決定部130は、取得部120によって取得された処理内容情報が示す処理内容と、出力された比較結果とに基づいて、抑制処理の処理内容を更新(再度決定)する。
 このように、本実施の形態においては、ステップS50で処理決定部130が処理内容を一度決定し、その後さらに、比較部180が比較結果を出力し、処理決定部130が比較結果に基づいて抑制処理の処理内容を再度決定する。つまりは、ステップS50で一度決定された処理内容が、比較結果に基づいて決定された処理内容に更新される。ステップS50で一度決定された処理内容に比べ、比較結果に基づいて決定された処理内容は、一例として、雑音をより強く抑制する抑制処理となるような処理内容である。
 また、閾値データが示す閾値は、上記のノイズフロアレベルの目標値であるとよい。閾値は、1つの値であってもよい。本実施の形態においては、閾値は、下限値以上かつ上限値以下の値(つまりは所定の幅をもつ値)である。
 処理決定部130は、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制する抑制処理となるように処理内容を更新する。ノイズフロアレベルが閾値よりも高い場合とは、十分に雑音が抑制できていない場合である。もし仮に、十分に雑音が抑制できていない音に基づいて残響が生成され、受聴者Lがこのような残響を受聴すると、受聴者Lに違和感を覚えさせることとなり、受聴者Lは十分に臨場感がある音を受聴することができない。
 ノイズフロアレベルが閾値よりも高い場合に、処理決定部130が雑音をより強く抑制する抑制処理となるように処理内容を更新することで、残響生成部150によって生成された残響信号は、雑音がより強く抑制された音に基づく残響を示す信号とすることができる。さらに、第1出力部160が、雑音をより強く抑制する抑制処理が行われた音信号と、当該残響信号とが合成された合成音信号を、ヘッドフォン200に出力する。
 これにより、受聴者Lが受聴する残響は、雑音がより強く抑制された音に基づく音である。受聴者Lは、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。
 [動作例3]
 以下、音響再生装置100aが実行する音響再生方法の動作例3について説明する。図11は、本実施の形態に係る音響再生装置100aの動作例3のフローチャートである。
 動作例3においても、実施の形態1の動作例1で示したステップS10~S40の処理が行われている。また動作例3においては、ステップS10において、取得部120が閾値データを取得している。動作例3では、ステップS40でYesの場合の例について説明する。
 ステップS40でYesの場合、ステップS50にて、処理決定部130は、処理内容を一度決定する。さらに、ステップS60及びS70の処理が行われる。
 次に、比較部180は、取得部120によって取得された音量情報と空間情報と位置情報と検知情報とに基づいて、合成音信号を生成する(S110)。比較部180は、実施の形態1で示した第1出力部160と同様の処理によって、合成音信号を生成する。
 さらに、比較部180は、生成された合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、閾値データが示す閾値とを比較する(S120)。
 ここで、閾値とノイズフロアレベルとについて図12を用いて説明する。
 図12は、本実施の形態に係る閾値とノイズフロアレベルとを示す図である。図12の(a)は目標とする合成音信号を示すパワースペクトルと閾値とを示す図である。図12の(b)は比較部180によって生成された合成音信号を示すパワースペクトルと当該パワースペクトルにおける所定の周波数範囲のノイズフロアレベルとを示す図である。なお、以下では、簡単のため、図12の(a)が示すノイズフロアレベルを目標値に係るノイズフロアレベルと記載する場合があり、図12の(b)が示すノイズフロアレベルを合成音信号に係るノイズフロアレベルと記載する場合がある。
 図12の(a)が示すパワースペクトルは、比較部180によって生成された合成音信号を示すパワースペクトルの目標のパワースペクトルである。閾値は、上記の通りノイズフロアレベルの目標値である。閾値は、一例として、図12の(a)が示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベル(目標値に係るノイズフロアレベル)を含む値である。また、図12の(a)が示す閾値の上限値をULとし、図12の(a)が示す閾値の下限値をLLとし、図12の(a)が示す目標値に係るノイズフロアレベルをNLVとした場合に、ULは式1を満たし、LLは式2を満たす。
 UL = NLV × 1.1 (式1)
 LL = NLV × 0.9 (式2)
 つまり、閾値の上限値(UL)及び閾値の下限値(LL)は、目標値に係るノイズフロアレベル(NLV)のプラスマイナス10%であるが、これに限られず、目標値に係るノイズフロアレベル(NLV)のプラスマイナス5%、20%又は30%であってもよい。
 なお、図12の(a)が示すパワースペクトルにおける所定の周波数範囲、及び、図12の(b)が示すパワースペクトルにおける所定の周波数範囲は、同じ範囲であり、例えば、100Hz以上700Hz以下である。なお例えば、図12の(a)及び図12の(b)のそれぞれが示すパワースペクトルにおける所定の周波数範囲は、100Hz以上700Hz以下に限られず、他の周波数であってもよい。
 ステップS120において、比較部180は、合成音信号に係るノイズフロアレベルと閾値とを比較する。
 比較部180は、合成音信号に係るノイズフロアレベルが閾値の下限値以上かつ閾値の上限値以下であれば、合成音信号に係るノイズフロアレベルと閾値とが同じであると判断する。
 比較部180は、合成音信号に係るノイズフロアレベルが閾値の下限値未満であれば、合成音信号に係るノイズフロアレベルが閾値より低いと判断する。
 比較部180は、合成音信号に係るノイズフロアレベルが閾値の上限値より高ければ、合成音信号に係るノイズフロアレベルが閾値より高いと判断する。
 合成音信号に係るノイズフロアレベルが閾値より高い又は低い場合には、比較部180は、その比較結果を処理決定部130に出力する。この場合、再度ステップS50の処理が行われ、つまりは、処理決定部130は、抑制処理の処理内容を更新(再度決定)する。
 例えば、合成音信号に係るノイズフロアレベルが閾値より高い場合には、雑音をより強く抑制する抑制処理となるように、処理内容を再度決定する。また、例えば、合成音信号に係るノイズフロアレベルが閾値より低い場合には、雑音をより弱く抑制する抑制処理となるように、処理内容を再度決定する。
 続いて、再度ステップS60の処理が行われ、つまりは、抑制処理部140は、処理決定部130によって再度決定された処理内容に基づいて、取得部120によって取得された音信号に、抑制処理を行う。この抑制処理とは、雑音をより弱く抑制する抑制処理である。
 さらに、再度ステップS70の処理が行われ、つまりは、残響生成部150は、ステップS60で抑制処理部140によって抑制処理が行われた音信号と、取得部120によって取得された空間情報とに基づいて、残響を示す残響信号を生成する。この残響信号は、残響信号は、雑音がより強く抑制された音に基づく残響を示す信号である。
 さらに、再度ステップS110及びS120の処理が行われる。
 このように、合成音信号に係るノイズフロアレベルが閾値より高い又は低い場合には、再度ステップS50~S70、S110及びS120の処理が行われる。
 また、合成音信号に係るノイズフロアレベルが同じ場合には、比較部180は、その比較結果を第1出力部160に出力する。この場合、ステップS80の処理が行われる。
 ステップS80では、例えば、第1出力部160が、雑音をより強く抑制する抑制処理が行われた音信号と、雑音がより強く抑制された音に基づく残響を示す残響信号とが合成された合成音信号を、ヘッドフォン200に出力する。これにより、受聴者Lが受聴する残響は、雑音がより強く抑制された音に基づく音である。受聴者Lは、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。
 このように、動作例3においては、取得ステップでは、閾値を示す閾値データを取得する。音響再生方法は、合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された閾値データが示す閾値とを比較する比較ステップを含む。処理決定ステップでは、比較ステップでの比較結果に基づいて、抑制処理の処理内容を更新する。
 これにより、閾値とノイズフロアレベルとが比較された比較結果に基づいて、抑制処理の処理内容が更新されるため、音響再生方法は、より臨場感がある音を出力することができる。
 また、動作例3においては、閾値は、ノイズフロアレベルの目標値である。処理決定ステップでは、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制する抑制処理となるように処理内容を更新する。
 これにより、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制することができるため、音響再生方法は、より臨場感がある音を出力することができる。
 (その他の実施の形態)
 以上、本開示の態様に係る音響再生方法及び音響再生装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
 また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
 (1)上記の音響再生装置を構成する構成要素の一部は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記RAM又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の音響再生装置及び音響再生方法を構成する構成要素の一部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の音響再生装置を構成する構成要素の一部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)また、上記の音響再生装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。
 また、上記の音響再生装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
 (5)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 (6)また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
 (7)また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 (8)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
 また、ヘッドフォン200から出力される音と連動させた映像が受聴者Lに提示されてもよい。この場合、図1などには示されていないが、例えば、受聴者Lの周囲に液晶パネル又は有機EL(Electro Luminescence)パネルなどの表示装置が設けられていてもよく、当該表示装置に当該映像が提示される。また、受聴者Lがヘッドマウントディスプレイなどを装着することで、当該映像が提示されてもよい。
 なお、本開示におけるオーディオコンテンツ情報は、音信号(音情報)及びメタデータを含むビットストリームと言い換えることができる。本開示におけるオーディオコンテンツ情報は、処理可否情報、空間情報、位置情報、及び、処理内容情報はいずれもビットストリームにおけるメタデータを構成する情報だといえる。例えばMPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームとしてオーディオコンテンツ情報が音響再生装置100に取得されてもよい。一例として、符号化された音信号は、音響再生装置100によって再生される目的音についての情報を含む。ここでいう目的音は、音再生空間に存在する音源オブジェクトが発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、音再生空間に音源オブジェクトが複数存在する場合、音響再生装置100は、複数の音源オブジェクトにそれぞれ対応する複数の音信号を取得することになる。
 メタデータとは、例えば、音響再生装置100において音情報に対する音響処理を制御するために用いられる情報である。メタデータは、仮想空間(音再生空間)で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音響再生装置100でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音響再生装置100は、ビットストリームに含まれるメタデータ、及び追加で取得されるインタラクティブな受聴者Lの位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、主に後期残響音の生成について説明したが、メタデータを用いて他の音響処理を行ってもよい。例えば、回折音生成、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報がメタデータとして付加されてもよい。
 なお、全てのメタデータ又は一部のメタデータは、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。
 また、映像を制御するメタデータが音響再生装置100で取得されるビットストリームに含まれる場合は、音響再生装置100は映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 また、一例として、符号化されたメタデータは、音を発する音源オブジェクト、及び障害物オブジェクトを含む音再生空間に関する情報と、当該音の音像を音再生空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音が受聴者Lへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、受聴者Lが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音再生空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物オブジェクトとなり得る。
 メタデータを構成する空間情報として、音再生空間の形状だけでなく、音再生空間に存在する障害物オブジェクトの形状及び位置と、音再生空間に存在する音源オブジェクトの形状及び位置とをそれぞれ表す情報が含まれていてもよい。音再生空間は、閉空間又は開空間のいずれであってもよく、メタデータには、例えば床、壁、又は天井等の音再生空間において音を反射し得る構造物の反射率、及び音再生空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、音再生空間が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして反射率が挙げられたが、メタデータは、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報が含まれていてもよい。具体的には、メタデータは、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等が含まれてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、受聴者Lの位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準として定められてもよい。受聴者Lの位置とオブジェクトの位置との相対的な関係で定められる場合、受聴者Lがオブジェクトを見ている面を基準とし、受聴者Lから見てオブジェクトの右側からは音X、左側からは音Yが発せられているように受聴者Lに知覚させることができる。オブジェクトを基準として定められる場合、受聴者Lの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているように受聴者Lに知覚させることができる。この場合、受聴者Lがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているように受聴者Lに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、又は直接音と拡散音との比率等を含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみを受聴者Lに知覚させることができる。
 ところで、受聴者Lの位置及び向きを示す情報がメタデータとしてビットストリームに含まれていると説明したが、インタラクティブに変化する受聴者Lの位置及び向きを示す情報は、ビットストリームに含まれていなくてもよい。その場合、受聴者Lの位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、VR空間における受聴者Lの位置情報であれば、VRコンテンツを提供するアプリから取得されてもよいし、ARとして音を提示するための受聴者Lの位置情報であれば、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。なお、音情報とメタデータとは、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタデータとは、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 音情報とメタデータとが複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。音情報とメタデータとが複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。
 ここで、関連するビットストリーム又はファイルとはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音情報とメタデータとを格納した複数のビットストリームのうちの一つのビットストリームのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のビットストリームのうちの二以上のビットストリームのメタデータ又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音情報とメタデータとを格納した複数のファイルのうちの一つのファイルのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のファイルのうちの二以上のファイルのメタデータ又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報を、まとめて記述した制御ファイルが音情報とメタデータとを格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音情報とメタデータとを格納していなくてもよい。
 ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、URL(Uniform Resource Locator)、又はURI(Uniform Resource Identifier)等である。この場合、取得部120は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が音情報とメタデータとを格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタデータ又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音情報とメタデータとを格納した複数のファイルのうちの少なくとも一部のファイルのメタデータ又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。
 抽出部110は、符号化されたメタデータを復号し、復号したメタデータを取得部120に与える。取得部120は、取得したメタデータを処理決定部130、抑制処理部140、残響生成部150及び第1出力部160にそれぞれ与える。ここで、取得部120は、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160などの複数の処理部にそれぞれ同じメタデータを与えるのではなく、処理部ごとに、対応する当該処理部で必要なメタデータを与えてもよい。
 また、取得部120は、頭部センサ部201で検知された回転量又は変位量等と受聴者Lの位置及び向きとを含む検知情報を更に取得する。取得部120は、取得した検知情報に基づいて、音再生空間における受聴者Lの位置及び向きを決定する。より具体的には、取得部120は、取得した検知情報が示す受聴者Lの位置及び向きが、音再生空間における受聴者Lの位置及び向きであることを決定する。そして、取得部120は、決定した受聴者Lの位置及び向きに応じて、メタデータに含まれる位置情報を更新する。したがって、取得部120が各処理部に与えるメタデータは、更新された位置情報を含むメタデータである。
 本実施形態では音響再生装置100は、音響効果を付加した音信号を生成するレンダラとしての機能を有するが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、抽出部110、取得部120、処理決定部130、抑制処理部140、残響生成部150及び第1出力部160の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内で生成された音信号又は合成した音信号は、図示しない通信モジュールを通じて音響再生装置100で受信され、ヘッドフォン200で再生される。
 本開示は、音響再生方法及び音響再生装置に利用可能であり、特に、立体音響再生システムなどに適用可能である。
100、100a 音響再生装置
110 抽出部
120 取得部
130 処理決定部
140 抑制処理部
150 残響生成部
160 第1出力部
161 音量制御部
162 方向制御部
170 記憶部
180 比較部
200  ヘッドフォン
201  頭部センサ部
202  第2出力部
A、B 音再生空間
A1、B1 音源
L  受聴者

Claims (9)

  1.  音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得ステップと、
     取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定ステップと、
     決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理ステップと、
     前記抑制処理が行われた前記音信号を出力する出力ステップとを含む
     音響再生方法。
  2.  前記取得ステップでは、前記音再生空間の形状及び音響特性を示す空間情報と、前記音再生空間における前記受聴者の位置を示す位置情報とを取得し、
     前記抑制処理ステップでは、取得された空間情報と、取得された位置情報とに基づいて、前記抑制処理を行うか否かを決定する
     請求項1に記載の音響再生方法。
  3.  前記抑制処理ステップでは、前記受聴者の位置が、残響が発生しない前記音再生空間内に含まれる場合に、前記抑制処理を行わないことを決定する
     請求項2に記載の音響再生方法。
  4.  前記取得ステップでは、前記処理内容を示す処理内容情報を取得し、
     前記抑制処理ステップでは、取得された前記処理内容情報が示す前記処理内容を行う
     請求項1記載の音響再生方法。
  5.  前記抑制処理が行われた前記音信号と取得された前記空間情報とに基づいて、残響を示す残響信号を生成する残響生成ステップを含み、
     出力ステップでは、前記抑制処理が行われた前記音信号と、生成された前記残響信号とが合成された合成音信号を出力する
     請求項2に記載の音響再生方法。
  6.  前記取得ステップでは、閾値を示す閾値データを取得し、
     前記音響再生方法は、前記合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された前記閾値データが示す前記閾値とを比較する比較ステップを含み、
     前記処理決定ステップでは、前記比較ステップでの比較結果に基づいて、前記抑制処理の前記処理内容を更新する
     請求項5に記載の音響再生方法。
  7.  前記閾値は、前記ノイズフロアレベルの目標値であり、
     前記処理決定ステップでは、前記ノイズフロアレベルが前記閾値よりも高い場合に、前記雑音をより強く抑制する前記抑制処理となるように前記処理内容を更新する
     請求項6に記載の音響再生方法。
  8.  請求項1~7のいずれか1項に記載の音響再生方法をコンピュータに実行させるためのコンピュータプログラム。
  9.  音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得部と、
     取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定部と、
     決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理部と、
     前記抑制処理が行われた前記音信号を出力する出力部とを備える
     音響再生装置。
PCT/JP2023/012612 2022-04-14 2023-03-28 音響再生方法、コンピュータプログラム及び音響再生装置 WO2023199746A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263330848P 2022-04-14 2022-04-14
US63/330,848 2022-04-14
JP2023014559 2023-02-02
JP2023-014559 2023-02-02

Publications (1)

Publication Number Publication Date
WO2023199746A1 true WO2023199746A1 (ja) 2023-10-19

Family

ID=88329512

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/012612 WO2023199746A1 (ja) 2022-04-14 2023-03-28 音響再生方法、コンピュータプログラム及び音響再生装置

Country Status (1)

Country Link
WO (1) WO2023199746A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006261808A (ja) * 2005-03-15 2006-09-28 Yamaha Corp 適応型音場支援装置
JP2017092732A (ja) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 聴覚支援システムおよび聴覚支援装置
JP2017168887A (ja) * 2016-03-14 2017-09-21 合同会社ディメンションワークス 音響再生装置、音響再生方法、及びプログラム
US20210329381A1 (en) * 2019-10-29 2021-10-21 Apple Inc. Audio encoding with compressed ambience
JP2022017880A (ja) * 2020-07-14 2022-01-26 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2022512075A (ja) * 2018-12-04 2022-02-02 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー 環境のデータを使用するオーディオ増補

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006261808A (ja) * 2005-03-15 2006-09-28 Yamaha Corp 適応型音場支援装置
JP2017092732A (ja) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 聴覚支援システムおよび聴覚支援装置
JP2017168887A (ja) * 2016-03-14 2017-09-21 合同会社ディメンションワークス 音響再生装置、音響再生方法、及びプログラム
JP2022512075A (ja) * 2018-12-04 2022-02-02 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー 環境のデータを使用するオーディオ増補
US20210329381A1 (en) * 2019-10-29 2021-10-21 Apple Inc. Audio encoding with compressed ambience
JP2022017880A (ja) * 2020-07-14 2022-01-26 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
US10952009B2 (en) Audio parallax for virtual reality, augmented reality, and mixed reality
CN112771894B (zh) 针对计算机介导现实系统进行渲染时表示遮挡
CN110121695B (zh) 虚拟现实领域中的装置及相关联的方法
US20150208166A1 (en) Enhanced spatial impression for home audio
CN112602053B (zh) 音频装置和音频处理的方法
US10271156B2 (en) Audio signal processing method
JP6663490B2 (ja) スピーカシステム、音声信号レンダリング装置およびプログラム
CN114915874B (zh) 音频处理方法、装置、设备及介质
WO2019193244A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2023199746A1 (ja) 音響再生方法、コンピュータプログラム及び音響再生装置
US20220036075A1 (en) A system for controlling audio-capable connected devices in mixed reality environments
EP2719196B1 (en) Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
CN114631332A (zh) 比特流中音频效果元数据的信令
WO2023199673A1 (ja) 立体音響処理方法、立体音響処理装置及びプログラム
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
JP6914009B2 (ja) 音声処理装置、音声処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23788166

Country of ref document: EP

Kind code of ref document: A1