WO2023106070A1 - 音響処理装置、音響処理方法、及び、プログラム - Google Patents

音響処理装置、音響処理方法、及び、プログラム Download PDF

Info

Publication number
WO2023106070A1
WO2023106070A1 PCT/JP2022/042915 JP2022042915W WO2023106070A1 WO 2023106070 A1 WO2023106070 A1 WO 2023106070A1 JP 2022042915 W JP2022042915 W JP 2022042915W WO 2023106070 A1 WO2023106070 A1 WO 2023106070A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
volume attenuation
head
user
Prior art date
Application number
PCT/JP2022/042915
Other languages
English (en)
French (fr)
Inventor
成悟 榎本
康太 中橋
智一 石川
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2023106070A1 publication Critical patent/WO2023106070A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to a sound processing device, and a sound processing method and program related to the sound reproduction device.
  • the information processing method in the conventional sound reproducing apparatus does not perform appropriate processing for such difficult-to-perceive sounds.
  • an object of the present disclosure is to provide a sound processing device or the like that allows the user to more appropriately perceive stereoscopic sound.
  • a sound processing device is a sound processing device that allows a user to perceive reproduced sound as sound arriving from a predetermined direction on a three-dimensional sound field, wherein, for sound information including the reproduced sound, a first processing unit for generating a first output sound signal by convolving a first head-related transfer function for localizing a sound included in the information as a sound arriving from the predetermined direction; , the sound contained in the information arrives from a first direction having a first angle larger than 0 degree and smaller than 360 degrees with respect to the reproduced sound perceived by the first output sound signal a second processing unit that generates a second output sound signal by convolving a second head-related transfer function for localizing the sound as having a first delay time greater than 0 and a first volume attenuation greater than 0; a combiner for outputting an output sound signal obtained by synthesizing the generated first output sound signal and the second output sound signal.
  • a sound processing method is a sound processing method that allows a user to perceive a reproduced sound as sound arriving from a predetermined direction in a three-dimensional sound field, wherein sound information including the reproduced sound is a first head-related transfer function for localizing the sound contained in the information as a sound arriving from the predetermined direction, thereby generating a first output sound signal; including sound arriving from a first direction having a first angle greater than 0 degrees and less than 360 degrees with said predetermined direction, and greater than 0 relative to said reproduced sound perceived by a first output sound signal; generating a second output sound signal by convolving a first delay time and a second head-related transfer function to localize the sound as having a first volume attenuation greater than zero; and the second output sound signal to output an output sound signal.
  • one aspect of the present disclosure can also be implemented as a program for causing a computer to execute the sound processing method described above.
  • FIG. 1 is a schematic diagram showing a usage example of a sound processing device according to an embodiment.
  • FIG. 2 is a block diagram showing the functional configuration of the sound reproduction device according to the embodiment.
  • FIG. 3 is a block diagram showing a more detailed functional configuration of the sound processing device according to the embodiment.
  • FIG. 4 is a diagram illustrating volume attenuation according to the embodiment.
  • FIG. 5 is a diagram for explaining directions of arrival of sounds output by the sound processing device according to the embodiment.
  • FIG. 6 is a flow chart showing the operation of the sound processing device according to the embodiment.
  • FIG. 7 is a diagram illustrating a suitable first angle according to the example.
  • FIG. 8 is a diagram illustrating a suitable first delay time according to an embodiment;
  • FIG. 1 is a schematic diagram showing a usage example of a sound processing device according to an embodiment.
  • FIG. 2 is a block diagram showing the functional configuration of the sound reproduction device according to the embodiment.
  • FIG. 3 is a block diagram showing a more detailed
  • FIG. 9 is a diagram illustrating a suitable first volume attenuation according to an embodiment
  • FIG. 10 is a block diagram showing a functional configuration of a sound reproducing device according to a modification of the embodiment
  • FIG. 11 is a block diagram showing a detailed functional configuration of the sound processing device according to the modification of the embodiment
  • FIG. 12 is a diagram for explaining arrival directions of sounds output by the sound processing device according to the modification of the embodiment.
  • FIG. 13 is a flow chart showing the operation of the sound processing device according to the modification of the embodiment.
  • a virtual three-dimensional space (hereinafter sometimes referred to as a three-dimensional sound field)
  • the user perceives three-dimensional sound by controlling the position of a sound image, which is a sound source object on the user's senses.
  • a technology related to sound reproduction for the purpose is known (see, for example, Patent Literature 1).
  • the user can perceive the sound as if it were coming from a direction parallel to a straight line connecting the predetermined position and the user (i.e., a predetermined direction). Able to perceive sound.
  • the sound processing device is a sound processing device that causes a user to perceive reproduced sound as sound arriving from a predetermined direction on a three-dimensional sound field, and includes reproduced sound.
  • a first processing unit that generates a first output sound signal by convolving sound information with a first head-related transfer function for localizing sound included in the information as sound arriving from a predetermined direction; Converting sound contained in information to reproduced sound arriving from a first direction having a first angle larger than 0 degrees and smaller than 360 degrees with respect to a predetermined direction and perceived by a first output sound signal.
  • a second processing unit that generates a second output sound signal by convolving a second head-related transfer function for localizing a sound having a first delay time greater than 0 and a first volume attenuation greater than 0. and a combiner for outputting an output sound signal obtained by synthesizing the generated first output sound signal and second output sound signal.
  • the second output sound signal arrives from the first direction and is localized as sound having the first delay time and the first volume attenuation. is perceived by the user as a reflected sound. Therefore, the reflected sound having the first delay time and the first volume attenuation is perceived together with the reproduced sound as the direct sound, and the out-of-head sensation of the position where the sound image of the direct sound is localized is improved.
  • at least the second output sound signal should be synthesized and output together with the first output sound signal. An improvement effect can be obtained. Therefore, it is possible to allow the user to more appropriately perceive a three-dimensional sound while keeping the calculation cost required for processing low.
  • the output sound signal is reproduced using headphones or earphones worn on the user's head, the sound according to the first aspect processing equipment.
  • the first angle is an angle within an angle range larger than 90 degrees and smaller than 270 degrees with the predetermined direction, the first or second An acoustic processing device according to an aspect.
  • the angle range with the predetermined direction larger than 90 degrees and smaller than 270 degrees corresponds to the rear side of the user. Therefore, when the user faces the direction of the reproduced sound, the reflected sound reaches the user from behind. When localizing the reflected sound, it is effective to localize the sound behind the user 99 in order to make it difficult to perceive the existence of the reflected sound itself. It is possible to perceive
  • the sound processing device further converts the sound included in the sound information to a second angle larger than 0 degrees and smaller than 360 degrees with respect to the predetermined direction. a second delay time greater than zero and a second delay time greater than zero for reproduced sound arriving from a second direction having a second angle different from the first angle and perceived by the first output sound signal; a third processing unit configured to generate a third output sound signal by convolving a third head-related transfer function for localizing as sound having volume attenuation, wherein the combiner is configured to combine the first output sound signal and the second output sound signal; and a third output sound signal to output an output sound signal.
  • the reproduced sound is further It is perceived by the user as reflected sound. Therefore, along with the reproduced sound as the direct sound and the reflected sound by the second output sound signal, the further reflected sound having the second delay time and the second volume attenuation is perceived, and the sound image of the direct sound is localized.
  • the feeling of the outside of the head at the position where the head is positioned is further improved.
  • the second angle is an angle within an angle range larger than 90 degrees and smaller than 270 degrees with respect to the predetermined direction, and from 360 degrees
  • the difference angle obtained by subtracting the second angle and the first angle do not match.
  • the angle range with the predetermined direction larger than 90 degrees and smaller than 270 degrees corresponds to the rear side of the user. Therefore, when the user faces the direction of the reproduced sound, the reflected sound reaches the user from behind. When localizing the reflected sound, it is effective to localize the sound behind the user 99 in order to make it difficult to perceive the existence of the reflected sound itself. It is possible to perceive
  • the sound processing device is the sound processing device according to the fourth or fifth aspect, in which the first delay time and the second delay time are different delay times.
  • the first volume attenuation and the second volume attenuation are different volume attenuation amounts, respectively.
  • It is a sound processing device.
  • the sound processing device further includes a reverberation suppression processing unit that performs reverberation suppression processing for reducing the reverberation component included in the information on the sound included in the information,
  • the sound information is generated by performing dereverberation processing on original sound information including reverberation components, and includes sounds other than reduced reverberation components as reproduced sounds among the sounds included in the original sound information.
  • the acoustic processing device according to any one of 7th to 7th aspects.
  • the sound information can be generated by reducing the reverberation component. Then, by generating reproduced sound and reflected sound from the sound information, it is possible to allow the user to more appropriately perceive stereoscopic sound.
  • the sound processing device further includes an acquisition unit that acquires a sensing result from a sensor that detects movement of the user's head, and the second processing unit acquires the acquired sensing
  • the sound processing device according to any one of the first to eighth aspects, wherein the sound information is convoluted with the second head-related transfer function in which the volume attenuation amount of the first volume attenuation is changed based on the result. be.
  • the volume attenuation amount in the second output sound signal can be changed based on the movement of the user's head. For example, when the user moves his/her head so that the direction in which the reflected sound arrives and the direction in front of the user become closer, the user becomes conscious of the presence of the reflected sound itself, so that the sense of the reproduced sound outside the head is appropriately generated. The improvement effect may not be obtained. According to this aspect, by increasing the volume attenuation amount of the reflected sound (attenuating the volume) in the above case, it is possible to reduce the possibility that the user's consciousness will turn to the reflected sound. Therefore, it is possible to allow the user to more appropriately perceive stereoscopic sound.
  • the sound included in the information is reached from a predetermined direction by convolving the first head-related transfer function, and the third volume attenuation of 0 or more is localized as a sound
  • the first processing unit increases the volume attenuation of the first volume attenuation in the second processing unit
  • the first head-related transfer function is obtained by decreasing the volume attenuation of the third volume attenuation
  • the sound information is convoluted
  • the first head-related transfer function obtained by increasing the volume attenuation amount of the third volume attenuation is applied to the sound information as
  • the sound processing device according to the ninth aspect, wherein the convolution is performed by
  • the volume attenuation amount of the reproduced sound can be changed in synchronization with the volume attenuation amount of the reflected sound. Specifically, when the volume attenuation amount of the reflected sound increases (when the volume is attenuated), the volume attenuation amount of the reproduced sound is decreased (the volume is amplified). Moreover, when the volume attenuation amount of the reflected sound decreases (when the volume increases), the volume attenuation amount of the reproduced sound decreases (the volume is decreased). In this way, the reproduced sound and the reflected sound can complement each other in volume so that the total volume in the three-dimensional sound field does not change significantly.
  • the sound processing device further includes an acquisition unit that acquires a sensing result from a sensor that detects movement of the user's head, and the third processing unit acquires the acquired sensing
  • the sound processing device citing the fourth aspect, convolving the third head-related transfer function with the volume attenuation amount of the second volume attenuation changed based on the result with respect to the sound information. is a sound processing device.
  • the volume attenuation amount in the third output sound signal can be changed based on the movement of the user's head. For example, when the user moves his/her head so that the direction in which the reflected sound arrives and the direction in front of the user become closer, the user becomes conscious of the presence of the reflected sound itself, so that the sense of the reproduced sound outside the head is appropriately generated. The improvement effect may not be obtained.
  • by increasing the volume attenuation amount of the reflected sound (attenuating the volume) in the above case it is possible to reduce the possibility that the user's consciousness will turn to the reflected sound. Therefore, it is possible to allow the user to more appropriately perceive stereoscopic sound. can.
  • the sound processing device in the sound processing device according to the twelfth aspect of the present disclosure, at least one of the first angle, the first delay time, and the first volume attenuation is adjusted by the user, the first to eleventh An acoustic processing device according to any one of the aspects.
  • the user can adjust at least one of the first angle, the first delay time, and the first volume attenuation according to his/her sense.
  • At least one of the second angle, the second delay time, and the second volume attenuation is adjusted by the user, citing the fourth aspect
  • the acoustic processing device according to any one of fifth to twelfth aspects.
  • the user can adjust at least one of the second angle, the second delay time, and the second volume attenuation according to his/her sense.
  • the sound information is generated based on the original sound information including the reproduced sound and the reverberation component
  • the first delay time is the delay time of the reverberation component with respect to the reproduced sound.
  • the sound perceived by the user by the first output sound signal since the sound perceived by the user by the first output sound signal has a smaller delay time than the reverberation generated in the sound collection environment of the original sound information, the sound perceived by the first output sound signal becomes difficult to perceive as noise like reverberation. In other words, the user can appropriately perceive the sound perceived by the first output sound signal as the reflected sound.
  • the sound information is generated based on the original sound information including the reproduced sound and the reverberation component
  • the second delay time is the delay time of the reverberation component with respect to the reproduced sound.
  • the sound perceived by the user by the second output sound signal has a smaller delay time than the reverberation generated in the sound collection environment of the original sound information. becomes difficult to perceive as noise like reverberation.
  • the user can appropriately perceive the sound perceived by the first output sound signal as the reflected sound.
  • a sound processing method is a sound processing method that allows a user to perceive reproduced sound as sound arriving from a predetermined direction on a three-dimensional sound field, wherein sound information including reproduced sound is is convoluted with a first head-related transfer function for localizing the sound contained in the information as a sound arriving from a predetermined direction, thereby generating a first output sound signal, sound arriving from a first direction having a first angle greater than 0 degrees and less than 360 degrees with the predetermined direction, and a first delay time greater than 0 with respect to reproduced sound perceived by the first output sound signal , and a second head-related transfer function for localization as a sound having a first volume attenuation greater than 0 to generate a second output sound signal, the generated first output sound signal and the second output sound outputs an output sound signal synthesized with the signal.
  • a program according to the seventeenth aspect of the present disclosure is a program for causing a computer to execute the sound processing method described above.
  • Such a program can produce the same effect as the sound processing device described above using a computer.
  • FIG. 1 is a schematic diagram showing a usage example of a sound reproduction device according to an embodiment.
  • (a) shows a user 99 who uses one of the two examples of the sound reproduction device 100
  • (b) shows a user 99 who uses another one of the two examples of the sound reproduction device 100. is shown.
  • the sound reproduction device 100 shown in FIG. 1 is used simultaneously with a display device for displaying images and a device for reproducing stereoscopic video (both not shown).
  • the sound reproduction device 100 is a sound presentation device worn on the head of the user 99 . Therefore, the sound reproducing device 100 moves integrally with the user's 99 head.
  • the sound reproducing apparatus 100 may be a so-called over-ear headphone type device as shown in FIG. It may be two earplug-type devices (inner-ear headphone-type devices) that are independently worn on the left and right ears of 99, respectively. The two devices communicate with each other to synchronously present sounds for the right and left ears.
  • the sound reproduction device of the present disclosure is not limited to head-mounted sound reproduction devices such as over-ear headphone type devices and inner-ear headphone type devices.
  • the present invention can be applied to a sound reproducing device or the like that is installed close to both ears of the user 99 without speakers attached to the user 99, such as headrest speakers.
  • the sound reproduction device 100 changes the sound to be presented according to the movement of the user's 99 head, thereby making the user 99 perceive that the user 99 is moving his/her head within the three-dimensional sound field. Therefore, as described above, the sound reproducing device 100 moves the three-dimensional sound field in the direction opposite to the movement of the user 99 with respect to the movement of the user.
  • FIG. 2 is a block diagram showing the functional configuration of the sound reproduction device according to the embodiment.
  • FIG. 3 is a block diagram showing a more detailed functional configuration of the sound processing device according to the embodiment.
  • the sound reproduction device 100 includes a sound processing device 101, a communication module 102, a sensor 103, and a driver 104.
  • the sound processing device 101 is an arithmetic device for performing various kinds of signal processing in the sound reproduction device 100.
  • the sound processing device 101 includes, for example, a processor and a memory, and a program stored in the memory is executed by the processor. By doing so, various functions are exhibited.
  • the sound processing device 101 has an acquisition unit 111 , a first processing unit 121 , a second processing unit 131 and a combiner 150 .
  • the acquisition unit 111 will be described later together with the description of the communication module 102
  • the combiner 150 will be described later together with the description of the driver 104 .
  • the first processing unit 121 generates an output sound signal of reproduced sound.
  • the first processing unit 121 is a functional unit that generates a first output sound signal by convolving a first head-related transfer function for localizing sound included in information as sound arriving from a predetermined direction.
  • the first processing unit 121 performs convolution of the input sound information with a head-related transfer function for localizing the sound in a predetermined direction, and the sound is attenuated via volume attenuation ⁇ (third volume attenuation). outputs a first output sound signal.
  • Such processing by the first processing unit 121 is generally understood as convolution of the first head-related transfer function.
  • the first output sound signal is input to the first EQ 122 , adjusted for low-frequency and high-frequency sounds, and supplied to the combiner 150 .
  • the second processing unit 131 generates an output sound signal of the first reflected sound.
  • the second processing unit 131 reproduces the sound contained in the information, which arrives from a first direction having a first angle larger than 0 degree and smaller than 360 degrees with respect to the predetermined direction, and is perceived by the first output sound signal.
  • a functional unit that generates a second output sound signal by convolving a second head-related transfer function for localizing a sound as having a first delay time greater than 0 and a first volume attenuation greater than 0. is.
  • the second processing unit 131 performs convolution of the input sound information with a head-related transfer function for localizing the sound in the first direction, and performs attenuation via volume attenuation ⁇ (first volume attenuation).
  • Such processing by the second processing unit 131 is generally understood as convolution of the second head-related transfer function.
  • the second output sound signal is input to the second EQ 132 , adjusted for low-frequency and high-frequency sounds, and supplied to the combiner 150 . Note that information designating a head-related transfer function to be convoluted after that is added by the first angle determination unit 130 to the sound information before being input to the second processing unit 131 .
  • the communication module 102 is an interface device for accepting input of sound information to the sound reproduction device 100 .
  • the communication module 102 includes, for example, an antenna and a signal converter, and receives sound information from an external device through wireless communication. More specifically, the communication module 102 uses an antenna to receive a radio signal representing audio information converted into a format for wireless communication, and uses a signal converter to reconvert the radio signal into audio information. .
  • the sound reproducing device 100 acquires sound information from an external device through wireless communication.
  • the sound information acquired by the communication module 102 is acquired by the acquisition unit 111 . Sound information is thus input to the sound processing device 101 . Communication between the sound reproduction device 100 and an external device may be performed by wired communication.
  • the sound processing device 101 also includes a dereverberation processing unit 120 shown in FIG.
  • a dereverberation processing unit 120 shown in FIG.
  • the reverberation suppression processing unit 120 performs reverberation suppression processing for reducing the reverberation component included in the information on the sound included in the information.
  • the sound information including the sound other than the reduced reverberation component as the reproduced sound among the sounds included in the original sound information is removed. It can be generated and input to the first processing unit 121 and the second processing unit 131 .
  • the dereverberation processing unit 120 may be inserted before the acquisition unit 111 or may be inserted after the acquisition unit 111 .
  • the sound information acquired by the sound reproduction device 100 is encoded in a predetermined format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • the encoded sound information includes information about the reproduced sound reproduced by the sound reproduction device 100 and the sound image of the sound localized at a predetermined position in the three-dimensional sound field (that is, the sound arriving from a predetermined direction). information about the localization position when perceived as a .
  • the sound information includes information about a plurality of sounds including a first reproduced sound and a second reproduced sound, and the sound image when each sound is reproduced is the sound arriving from different directions in the three-dimensional sound field. The sound image is localized so that it is perceived as
  • the sound information may include only information about the reproduced sound. In this case, information about the predetermined direction may be acquired separately. Further, as described above, the sound information includes the first sound information regarding the first reproduced sound and the second sound information regarding the second reproduced sound. However, the sound images may be localized at different positions in the three-dimensional sound field by reproducing them at the same time. As described above, the form of the sound information to be input is not particularly limited, and the sound reproduction device 100 (especially the sound processing device 101) may be provided with the acquisition unit 111 corresponding to various forms of sound information.
  • the acquisition unit 111 in this embodiment includes, for example, an encoded sound information input unit, a decoding processing unit, and a sensing information input unit.
  • the encoded sound information input unit is a processing unit to which the encoded (in other words, encoded) sound information acquired by the acquisition unit 111 is input.
  • the encoded sound information input unit outputs the input sound information to the decode processing unit.
  • the decoding processing unit decodes (in other words, decodes) the sound information output from the encoded sound information input unit, and uses the information regarding the predetermined sound and the information regarding the predetermined direction included in the sound information for subsequent processing. It is a processing unit that generates in a format that can be
  • the sensing information input unit will be described below together with the function of the sensor 103 .
  • the sensor 103 is a device for detecting the movement speed of the user's 99 head.
  • the sensor 103 is configured by combining various sensors used for motion detection, such as a gyro sensor and an acceleration sensor.
  • the sensor 103 is built in the sound reproducing device 100, but, for example, like the sound reproducing device 100, an external sensor such as a stereoscopic image reproducing device that operates according to the movement of the user's 99 head may be used. It may be built in the device. In this case, the sensor 103 may not be included in the sound reproduction device 100.
  • the movement of the head of the user 99 may be detected by capturing an image of the movement of the user's 99 head using an external imaging device or the like as the sensor 103 and processing the captured image.
  • the sensor 103 is, for example, integrally fixed to the housing of the sound reproduction device 100 and detects the speed of movement of the housing. After being worn by the user 99, the sound reproducing device 100 including the housing described above moves integrally with the head of the user 99, so the sensor 103 detects the movement speed of the head of the user 99 as a result. be able to.
  • the senor 103 may detect, as the amount of movement of the head of the user 99, the amount of rotation about at least one of three mutually orthogonal axes in the three-dimensional space. A displacement amount having at least one displacement direction may be detected. Also, the sensor 103 may detect both the amount of rotation and the amount of displacement as the amount of movement of the user's 99 head.
  • the sensing information input unit of the acquisition unit 111 acquires the movement speed of the user's 99 head from the sensor 103 . More specifically, the sensing information input unit acquires the amount of movement of the head of the user 99 detected by the sensor 103 per unit time as the movement speed. In this manner, the sensing information input unit acquires at least one of the rotational speed and the displacement speed from the sensor 103 as a sensing result.
  • the amount of head movement of the user 99 obtained here is used to determine the coordinates and orientation of the user 99 within the three-dimensional sound field.
  • the sound reproduction device 100 determines the relative position of the sound image based on the determined coordinates and direction of the user 99 and reproduces the sound.
  • the sensing result obtained from the sensor 103 by the sensing information input unit of the obtaining unit 111 is used to control the volume attenuation amounts of the volume attenuation ⁇ and the volume attenuation ⁇ . That is, the volume attenuation amounts of volume attenuation ⁇ and volume attenuation ⁇ automatically change according to the sensing result. This is because when the user 99 faces the direction of the reflected sound, if the reflected sound from that direction is clearly heard, the user 99 may feel uncomfortable. Therefore, when the user 99 rotates the head, as the front direction of the user 99 approaches the direction of the reflected sound, control is performed so that the volume of the reflected sound is attenuated.
  • the volume of the reproduced sound is amplified (the volume attenuation amount is decreased) so that the volume as a whole does not change. That is, when the volume attenuation amount of the volume attenuation ⁇ in the second processing unit 131 increases, the first processing unit 121 decreases the volume attenuation amount of the volume attenuation ⁇ , and the volume attenuation of the volume attenuation ⁇ in the second processing unit 131 If the amount decreases, increase the volume attenuation amount of volume attenuation ⁇ .
  • FIG. 4 is a diagram explaining volume attenuation according to the embodiment.
  • the volume attenuation amount (dashed line) of the volume attenuation ⁇ with respect to the rotation angle (yaw angle) when the head of the user 99 rotates around the axis parallel to the vertical direction of the head of the user 99 and the volume The volume attenuation amount (solid line) of the attenuation ⁇ is shown.
  • the first angle here is set to 120 degrees.
  • the volume attenuation amount of the volume attenuation ⁇ and the volume attenuation amount of the volume attenuation ⁇ are calculated based on the following formula (1).
  • ⁇ in the above formula indicates the volume attenuation amount (gain) of volume attenuation ⁇
  • ⁇ in the above formula indicates the volume attenuation amount (gain) of volume attenuation ⁇
  • the relationship between the volume attenuation ⁇ and the volume attenuation ⁇ described using the above formula (1) is an example, and the volume attenuation amount of the reflected sound increases as the user 99 rotates the head toward the direction of the reflected sound. Any relationship may be used. In addition, the above relationship is not only the relationship between the volume attenuation ⁇ and the volume attenuation ⁇ , but also the volume attenuation ⁇ and the volume attenuation ⁇ in the case of generating another reflected sound having the volume attenuation ⁇ (described later in the modified example). Relationships may also be established.
  • the combiner 150 is a functional unit that combines the generated output sound signals and outputs them to the driver 104 .
  • the combiner 150 outputs an output sound signal synthesized by adding the first output sound signal and the second output sound signal.
  • the combiner 150 further performs signal conversion from a digital signal to an analog signal based on the output sound signal, thereby generating a waveform signal, causing the driver 104 to generate sound waves based on the waveform signal, and providing the user 99 with sound.
  • the driver 104 has, for example, a diaphragm and a driving mechanism such as a magnet and a voice coil.
  • the driver 104 operates the drive mechanism according to the waveform signal, and causes the drive mechanism to vibrate the diaphragm. In this way, the driver 104 generates a sound wave by vibrating the diaphragm according to the output sound signal, the sound wave propagates through the air and is transmitted to the ear of the user 99, and the user 99 perceives the sound.
  • FIG. 5 is a diagram for explaining directions of arrival of sounds output by the sound processing device according to the embodiment.
  • FIG. 5 shows a plan view of a virtual three-dimensional sound field from a direction along the vertical direction of the user's 99 head.
  • FIG. 5 shows the user 99 in a posture with the upper direction of the page facing forward, and the user 99 is in an upright posture in a direction perpendicular to the page.
  • a predetermined direction in which the reproduced sound is localized is set in front of the user 99 .
  • the position P1 where the reproduced sound is localized is shown as a black circle, and a virtual speaker is also shown.
  • the first reflected sound is localized in a direction having a first angle clockwise from the predetermined direction (position P2).
  • the dashed-dotted line extending to the left and right of the user 99 in the drawing indicates a virtual boundary plane that divides the head of the user 99 into front and back.
  • This boundary plane may be a plane along the ear canal of the user 99, a plane passing through the rearmost point of the ear shell of the user 99, or simply a plane passing through the center of gravity of the head of the user 99. may be It is known that there is a difference in the audibility of sounds before and after such a boundary plane, that is, before and after the user 99 .
  • the first angle is preferably set to an angle within an angle range of greater than 90 degrees and less than 270 degrees with respect to the predetermined direction.
  • the first angle, the first delay time, and the first volume attenuation described above are numerical values set in advance by the sound processing device 101 or numerical values that change according to the sensing result of the sensor 103. However, at least one of these may be configured to be adjustable by a numerical value arbitrarily input by the user 99 . That is, the sound processing device 101 may accept input by the user 99 for adjusting at least one of the first angle, the first delay time, and the first volume attenuation.
  • FIG. 6 is a flow chart showing the operation of the sound processing device according to the embodiment.
  • the acquisition unit 111 acquires original sound information via the communication module 102 . Since the original sound information includes a reverberation component in addition to the reproduced sound, the reverberation suppression processing unit 120 generates sound information including the reproduced sound with the reverberation component reduced.
  • the first processing unit 121 generates a first output sound signal by convolving the sound information with a first head-related transfer function for localizing the sound included in the information as sound arriving from a predetermined direction. (S101).
  • the second processing unit 131 delays the sound included in the sound information by a first delay greater than 0 with respect to the reproduced sound that arrives from the first direction and is perceived by the first output sound signal.
  • a second output sound signal is generated by convolving with time and a second head-related transfer function to localize the sound as having a first volume attenuation greater than zero (S102).
  • steps S101 and S102 described above may be changed, or may be executed in parallel.
  • the combiner 150 synthesizes the generated first output sound signal and second output sound signal, and outputs the synthesized output sound signal (step S103).
  • the output sound signal output in this way is reproduced by the driver 104, so that the reflected sound is superimposed on the reproduced sound and perceived by the user 99 as a three-dimensional sound.
  • the user 99 can be made to perceive effective stereophonic sound without the need for a large-scale computing device.
  • FIG. 7 is a diagram explaining a suitable first angle according to the embodiment.
  • FIG. 8 is a diagram illustrating a suitable first delay time according to an embodiment;
  • FIG. 9 is a diagram illustrating a suitable first volume attenuation according to an embodiment;
  • FIG. 7 shows the distance (perceived distance) to the sound image position perceived by the subject when the first angle is swung from 0 degrees to 180 degrees, that is, how far the sound was heard in a predetermined direction. It can be said that the larger the perceived distance, the stronger the sense of being outside the head, and the more effectively three-dimensional sound can be perceived.
  • the conditions are set such that the first volume attenuation is -3 dB and the first delay time is 2.2 ms.
  • the first direction As shown in FIG. 7, by setting the first direction to the direction of 105 degrees or 120 degrees, a high sense of being out of the head is obtained.
  • FIG. 8 shows the perceptual distance perceived by the subject when the first delay time is changed from 0 ms to 3.4 ms.
  • the conditions are set such that the first volume attenuation amount is ⁇ 3 dB and the first angle is 105 degrees.
  • setting the first delay time from 2.4 ms to 2.8 ms provides a high sense of feeling outside the head, and setting the first delay time from 1.8 ms to 3.0 ms provides a sufficient effect. A feeling of being out of the head is obtained.
  • an increase in delay time leads to deterioration of sound quality, so a relatively short first delay time is appropriate. Therefore, it is preferable to set the first delay time from 1.8 ms to 2.4 ms, such as 2.2 ms.
  • FIG. 9 shows the perceptual distance perceived by the subject when the volume attenuation amount of the first volume attenuation is varied from -30 dB to 0 dB.
  • the conditions are set such that the first delay time is 2.2 ms and the first angle is 105 degrees.
  • the volume attenuation of the first volume attenuation is set to -5 dB to -3 dB.
  • a high head feeling is obtained. no improvement was seen.
  • the volume attenuation should be as small as possible, since the reflected sound of high volume causes deterioration of the sound quality.
  • FIG. 10 is a block diagram showing a functional configuration of a sound reproducing device according to a modification of the embodiment
  • FIG. 11 is a block diagram showing a detailed functional configuration of the sound processing device according to the modification of the embodiment
  • the sound reproduction device 100a according to the modification includes a sound processing device 101a.
  • the sound processing device 101a differs from the sound processing device 101 according to the above-described embodiment in that it has a third processing unit 141 .
  • the third processing unit 141 generates an output sound signal of the second reflected sound.
  • the third processing unit 141 extracts the sound contained in the information from a second direction having a second angle larger than 0 degree and smaller than 360 degrees with respect to the predetermined direction and different from the first angle. at a second delay time greater than 0, the second delay time being different than the first delay time, and a second volume attenuation greater than 0 relative to the reproduced sound arriving and perceived by the first output sound signal.
  • a functional unit that generates a third output sound signal by convolving a third head-related transfer function for localizing a sound having a second volume attenuation different from the first volume attenuation.
  • the third processing unit 141 performs convolution of the input sound information with a head-related transfer function for localizing the sound in the second direction, and performs attenuation through volume attenuation ⁇ (third volume attenuation). outputs the third output sound signal.
  • Such processing by the third processing unit 141 is generally understood as convolution of the third head-related transfer function.
  • the third output sound signal is input to the third EQ 142 and subjected to low-frequency and high-frequency sound adjustment before being supplied to the combiner 150 . Note that information designating a head-related transfer function to be convoluted after that is added by the second angle determination unit 140 to the sound information before being input to the third processing unit 141 .
  • the combiner 150 is a functional unit that combines the generated output sound signals and outputs them to the driver 104 .
  • the combiner 150 outputs a synthesized output sound signal by adding the first output sound signal, the second output sound signal, and the third output sound signal. That is, in the sound processing device 101a, the second processing unit 131 and the third processing unit 141 each generate two different reflected sounds, and the combiner 150 superimposes them on the reproduced sound. When two reflected sounds are generated and superimposed on the reproduced sound as in this modified example, it is possible to further improve the effect of developing the three-dimensional sound field depending on the conditions.
  • FIG. 12 is a diagram for explaining directions of arrival of sounds output by the sound processing device according to the embodiment.
  • FIG. 12 shows a plan view of a virtual three-dimensional sound field from the same viewpoint as in FIG.
  • the first reflected sound is localized in a direction having a first angle clockwise from the predetermined direction (position P2).
  • a second reflected sound is localized in a direction having a second angle clockwise from the predetermined direction (position P3).
  • the first angle and the second angle do not match, and the direction is symmetrical with respect to the two-dot chain line parallel to the back of the front of the user 99 (also parallel to the predetermined direction). not become If the first direction and the second direction are symmetrical, depending on the conditions, two reflected sounds may be superimposed and localized as one reflected sound behind the user 99 . Therefore, the second angle is an angle that does not match the first angle when the difference angle is obtained by subtracting the second angle from 360 degrees.
  • the first angle and the second angle are positioned on the rear surface side of the user 99 with respect to the virtual boundary plane that divides the user's 99 head into front and back. Therefore, both the first angle and the second angle are set to angles within an angle range larger than 90 degrees and smaller than 270 degrees with respect to the predetermined direction.
  • the second angle, the second delay time, and the second volume attenuation described above are set in advance by the sound processing device 101a in the same manner as the first angle, the first delay time, and the first volume attenuation. It is a numerical value or a numerical value that changes according to the sensing result by the sensor 103, but at least one of these may be configured to be adjustable by a numerical value arbitrarily input by the user 99.
  • the sound processing device 101a may accept input by the user 99 for adjusting at least one of the second angle, the second delay time, and the second volume attenuation.
  • FIG. 13 is a flow chart showing the operation of the sound processing device according to the embodiment.
  • steps S101 and S102 are performed in the same manner as the operation of the sound processing device 101 described with reference to FIG.
  • the third processing unit 141 converts the sound included in the sound information into a second direction greater than 0 with respect to the reproduced sound that arrives from the second direction and is perceived by the first output sound signal.
  • a third output sound signal is generated by convolving a delay time and a third head-related transfer function for localization as a sound having a second volume attenuation greater than 0 (S201).
  • steps S101, S102, and S201 may be changed, or they may be executed in parallel.
  • the combiner 150 synthesizes the generated first output sound signal, second output sound signal, and third output sound signal, and outputs the synthesized output sound signal (step S202).
  • the output sound signal output in this way is reproduced by the driver 104, so that the reflected sound is superimposed on the reproduced sound and perceived by the user 99 as a three-dimensional sound.
  • the user 99 can be made to perceive effective stereophonic sound without requiring a large-scale computing device.
  • three or more reflected sounds may be superimposed on the reproduced sound.
  • the content of the present disclosure is also effective when the sound follows the movement of the user's head.
  • the stereoscopic Acoustic filters may be selected to accentuate variations.
  • the sound reproducing device described in the above embodiments may be realized as one device having all the components, or each function is assigned to a plurality of devices, and the plurality of devices cooperate with each other. It may be realized by In the latter case, an information processing device such as a smart phone, a tablet terminal, or a PC may be used as the device corresponding to the processing module.
  • an information processing device such as a smart phone, a tablet terminal, or a PC may be used as the device corresponding to the processing module.
  • the decode processing unit can correct the original sound information to select a changed stereophonic filter.
  • the decoding processing unit in this example is a processing unit that generates information about a predetermined direction included in the sound information and corrects the original sound information.
  • the decoding processing unit calculates the angular amount of fluctuation in the predetermined direction on the time axis, and determines that the angular amount of fluctuation in the predetermined direction is equal to or greater than the threshold when the calculated angular amount of fluctuation in the predetermined direction is smaller than the threshold.
  • Information about the predetermined direction is corrected so that the user perceives the predetermined sound more emphasized than in a certain case.
  • only the stereophonic filter that defines the direction of arrival of the predetermined sound is selected based on the information about the predetermined direction after correction output from the decoding processing unit. A stereophonic filter will be applied.
  • the information processing method and the like disclosed in the present application may be realized by correcting the information regarding the predetermined direction in the original sound information.
  • a sound reproduction device that can achieve the same effect as disclosed in the present application can be realized by simply inserting the decoding processing unit as described above, for example, by replacing it with a processing unit that performs decoding processing in a conventional stereophonic sound reproduction device. can be done.
  • the sound reproduction device of the present disclosure is connected to a reproduction device having only a driver, and outputs an output sound signal to the reproduction device using a stereophonic filter selected based on the acquired sound information. It can also be realized as an acoustic processing device that only performs In this case, the sound processing device may be implemented as hardware including a dedicated circuit, or as software for causing a general-purpose processor to execute specific processing.
  • processing executed by a specific processing unit may be executed by another processing unit.
  • order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by reading and executing a software program recorded in a recording medium such as a hard disk or a semiconductor memory by a program execution unit such as a CPU or processor.
  • each component may be realized by hardware.
  • each component may be a circuit (or integrated circuit). These circuits may form one circuit as a whole, or may be separate circuits. These circuits may be general-purpose circuits or dedicated circuits.
  • general or specific aspects of the present disclosure may be embodied in an apparatus, apparatus, method, integrated circuit, computer program, or recording medium such as a computer-readable CD-ROM. Also, general or specific aspects of the present disclosure may be implemented in any combination of devices, devices, methods, integrated circuits, computer programs and recording media.
  • the present disclosure may be implemented as an audio signal reproduction method executed by a computer, or may be implemented as a program for causing a computer to execute the audio signal reproduction method.
  • the present disclosure may be implemented as a computer-readable non-transitory recording medium on which such programs are recorded.
  • the present disclosure is useful for sound reproduction, such as allowing the user to perceive stereoscopic sound.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

音響処理装置(100)は、再生音を含む音情報に対して、情報に含まれる音を、所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成する第1処理部(121)と、音情報に対して、情報に含まれる音を、所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成する第2処理部(131)と、生成した第1出力音信号と第2出力音信号とを合成した出力音信号を出力するコンバイナ(150)と、を備える。

Description

音響処理装置、音響処理方法、及び、プログラム
 本開示は、音響処理装置、ならびに、当該音響再生装置に係る音響処理方法及びプログラムに関する。
 従来、仮想的な三次元空間内で、感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。
特開2020-18620号公報
 一方で、音を三次元音場内の立体的な音としてユーザに知覚させる際に、ユーザによって知覚されにくい音が発生する場合がある。従来の音響再生装置などにおける情報処理方法では、このような知覚されにくい音に対して、適切な処理がなされていない場合があった。
 上記に鑑みて、本開示は、より適切に立体的な音をユーザに知覚させる音響処理装置等を提供することを目的とする。
 本開示の一態様に係る音響処理装置は、再生音を三次元音場上における所定方向から到達する音としてユーザに知覚させる音響処理装置であって、前記再生音を含む音情報に対して、情報に含まれる音を、前記所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成する第1処理部と、前記音情報に対して、情報に含まれる音を、前記所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される前記再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成する第2処理部と、生成した前記第1出力音信号と前記第2出力音信号とを合成した出力音信号を出力するコンバイナと、を備える。
 また、本開示の一態様に係る音響処理方法は、再生音を三次元音場上における所定方向から到達する音としてユーザに知覚させる音響処理方法であって、前記再生音を含む音情報に対して、情報に含まれる音を、前記所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成し、前記音情報に対して、情報に含まれる音を、前記所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される前記再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成し、生成した前記第1出力音信号と前記第2出力音信号とを合成した出力音信号を出力する。
 また、本開示の一態様は、上記に記載の音響処理方法をコンピュータに実行させるためのプログラムとして実現することもできる。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、より適切に立体的な音をユーザに知覚させることが可能となる。
図1は、実施の形態に係る音響処理装置の使用事例を示す概略図である。 図2は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。 図3は、実施の形態に係る音響処理装置のより詳細な機能構成を示すブロック図である。 図4は、実施の形態に係る音量減衰について説明する図である。 図5は、実施の形態に係る音響処理装置によって出力された音の到達方向を説明する図である。 図6は、実施の形態に係る音響処理装置の動作を示すフローチャートである。 図7は、実施例に係る、適切な第1角度について説明する図である。 図8は、実施例に係る、適切な第1遅延時間について説明する図である。 図9は、実施例に係る、適切な第1音量減衰について説明する図である。 図10は、実施の形態の変形例に係る音響再生装置の機能構成を示すブロック図である。 図11は、実施の形態の変形例に係る音響処理装置の詳細な機能構成を示すブロック図である。 図12は、実施の形態の変形例に係る、音響処理装置によって出力された音の到達方向を説明する図である。 図13は、実施の形態の変形例に係る音響処理装置の動作を示すフローチャートである。
 (開示の基礎となった知見)
 従来、仮想的な三次元空間内(以下、三次元音場という場合がある)で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。仮想的な三次元空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置とユーザとを結ぶ直線に平行な方向(すなわち所定方向)から到達する音であるかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到達時間差、及び、両耳間での音のレベル差(又は音圧差)などを生じさせる計算処理が必要となる。
 ここで、近年、通信回線を利用して映像と音声とを双方向に送受信して通信相手とコミュニケーションをとるといった、いわゆるオンライン会議システムが盛んに利用されている。このようなオンライン会議システムでは、ヘッドホンなどの頭部装着型の音響再生装置が用いられることも多い。上記のようなオンライン会議システムに代表されるように、音をヘッドホンで受聴するような場合に、当該音を三次元音場に展開してユーザに知覚させることは困難である。例えば、単に通信相手が表示されている表示装置の方向を音の到達方向として、この方向から到達するように音を知覚させる頭部伝達関数を畳み込むだけでは、十分な頭外感が得られないことが知られている。すなわち、ユーザの頭部内に音像が定位されるため、表示装置の先にいる通信相手の映像と、頭部内に定位された音とに違和感が生じる。そして、このような違和感を抱えたまま、受聴を継続すると、必要以上に疲労してしまうという場合がある。同様の課題は、VR、AR等の三次元映像空間を利用したコンテンツの音を、ヘッドホン等の音響再生装置で受聴した場合などにも生じうる。
 従来、ヘッドホンを利用しても音を三次元音場に展開することが可能な技術が知られている。例えば、疑似的な部屋を想定して、反射音がどのように発生するかをシミュレーションすることで、これらの反射音を人為的に作り出して合成し、ユーザに受聴させるという手法がある。すると、ユーザは、合成された反射音を含む音によって、本来の音が疑似的な部屋内で所定方向から到達しているかのように知覚することができる。ただし、この手法では、疑似的な部屋内で発生する反射音を複雑な計算によって算出する必要があり、また、このような反射音を作り出すために、頭部伝達関数の畳み込みを数多く行う必要がある。ある方向から到達する反射音として音を知覚させるための頭部伝達関数を目的の音の信号に対して畳み込む処理は、通常膨大な計算が必要となるため、大規模な計算装置が必要になる。
 一方で、音の信号に時間的な遅延を生じさせ、音量を減衰させるフィルタ処理などによって、反射音に似た音を作り出すことも可能である。ただし、このフィルタ処理は、音を三次元音場に展開できる効果が低く、実用性に欠ける。
 本開示では、上記に鑑みて、ヘッドホン等の音響再生装置を用いて三次元音場内の所定方向からの音として、音をユーザに知覚させる際に、1~数個程度の反射音を作り出して合成することで、大規模な計算装置を必要とせずとも、三次元音場に展開できる効果を十分に得られる音響処理装置について説明する。
 より具体的には、本開示の第1態様に係る音響処理装置は、再生音を三次元音場上における所定方向から到達する音としてユーザに知覚させる音響処理装置であって、再生音を含む音情報に対して、情報に含まれる音を、所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成する第1処理部と、音情報に対して、情報に含まれる音を、所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成する第2処理部と、生成した第1出力音信号と第2出力音信号とを合成した出力音信号を出力するコンバイナと、を備える。
 このような音響処理装置では、第2出力音信号が、第1方向から到達し、第1遅延時間、及び、第1音量減衰を有する音として定位されるので、疑似的な反射壁によって再生音が反射された反射音としてユーザに知覚される。このため、直接音としての再生音とともに、第1遅延時間、及び、第1音量減衰を有して反射音が知覚されて、直接音の音像が定位される位置の頭外感が向上される。特に、この処理では、第1出力音信号とともに、少なくとも第2出力音信号が合成されて出力されればよく、第2出力音信号を生成するための計算処理ができれば、直接音の頭外感の向上効果を得ることができる。よって、処理に要する計算コストを低く抑えながら、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第2態様に係る音響処理装置は、出力された出力音信号が、ユーザの頭部に装着されたヘッドホンまたはイヤホンを用いて再生される、第1態様に記載の音響処理装置である。
 これによれば、ユーザの頭部に装着されたヘッドホンまたはイヤホンを用いて、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第3態様に係る音響処理装置は、第1角度が、所定方向との角度が90度より大きく、270度より小さい角度範囲内の角度である、第1又は第2態様に記載の音響処理装置である。
 これによれば、再生音が到達する所定方向がユーザの正面方向と重なるときに、所定方向との角度が90度より大きく、270度より小さい角度範囲は、ユーザの後面側に対応する。したがってユーザが再生音の方向を向いているときに、反射音がユーザの後面側から到達することになる。反射音を定位させる際、反射音そのものの存在を感じにくくするために、ユーザ99の後面側に定位することが有効であり、上記のようにすることで、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第4態様に係る音響処理装置は、さらに、音情報に対して、情報に含まれる音を、所定方向との角度が0度より大きく360度より小さい第2角度であって、第1角度とは異なる第2角度を有する第2方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第2遅延時間、及び、0より大きい第2音量減衰を有する音として定位させるための第3頭部伝達関数を畳み込むことで、第3出力音信号を生成する第3処理部を備え、コンバイナが、第1出力音信号と第2出力音信号と第3出力音信号とを合成した出力音信号を出力する、第1~第3態様のいずれか1態様に記載の音響処理装置である。
 これによれば、第3出力音信号が、第2方向から到達し、第2遅延時間、及び、第2音量減衰を有する音としてさらに定位されるので、疑似的な反射壁によって再生音がさらに反射された反射音としてユーザに知覚される。このため、直接音としての再生音及び第2出力音信号による反射音とともに、第2遅延時間、及び、第2音量減衰を有してさらなる反射音が知覚されて、直接音の音像が定位される位置の頭外感がさらに向上される。このように2つ以上の少ない反射音を生成して知覚させることで、比較的低い計算コストでも高い頭外感の向上効果が得られ、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第5態様に係る音響処理装置は、第2角度が、所定方向との角度が90度より大きく、270度より小さい角度範囲内の角度であり、且つ、360度から第2角度を減じた差分角度と第1角度とが一致しない角度である、第4態様に記載の音響処理装置である。
 これによれば、再生音が到達する所定方向がユーザの正面方向と重なるときに、所定方向との角度が90度より大きく、270度より小さい角度範囲は、ユーザの後面側に対応する。したがってユーザが再生音の方向を向いているときに、反射音がユーザの後面側から到達することになる。反射音を定位させる際、反射音そのものの存在を感じにくくするために、ユーザ99の後面側に定位することが有効であり、上記のようにすることで、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第6態様に係る音響処理装置は、第1遅延時間と第2遅延時間とはそれぞれ異なる遅延時間である、第4又は第5態様に記載の音響処理装置である。
 これによれば、第2出力音信号による反射音と、第3出力音信号による反射音とが、同じ一つの反射音として知覚される可能性を低減できるので、2つの反射音によって、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第7態様に係る音響処理装置は、第1音量減衰と第2音量減衰とはそれぞれ異なる音量減衰量である、第4~第6態様のいずれか1態様に記載の音響処理装置である。
 これによれば、第2出力音信号による反射音と、第3出力音信号による反射音とが、同じ一つの反射音として知覚される可能性を低減できるので、2つの反射音によって、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第8態様に係る音響処理装置は、さらに、情報に含まれる音に対して、当該情報に含まれる残響成分を減少させる残響抑圧処理を行う残響抑圧処理部を備え、音情報が、残響成分を含む原音情報に対して残響抑圧処理が行われることで生成され、原音情報に含まれる音のうち、減少した残響成分以外の音を再生音として含んでいる、第1~第7態様のいずれか1態様に記載の音響処理装置である。
 これによれば、原音情報に残響成分が含まれる場合に、この残響成分を減少させて音情報を生成することができる。そして、音情報から再生音と反射音とを生成して、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第9態様に係る音響処理装置は、さらに、ユーザの頭部の動きを検知するセンサから、センシング結果を取得する取得部を備え、第2処理部が、取得したセンシング結果に基づいて、第1音量減衰の音量減衰量を変化させた第2頭部伝達関数を、音情報に対して畳み込む、第1~第8態様のいずれか1態様に記載の音響処理装置である。
 これによれば、ユーザの頭部の動きに基づいて第2出力音信号における音量減衰量を変化させることができる。例えば、ユーザが頭部を動かすことで、反射音が到達する方向とユーザの正面方向とが近くなったとき、ユーザが反射音そのものの存在を意識してしまい、適切に再生音の頭外感の向上効果を得られない場合がある。この態様によれば、上記の場合に反射音の音量減衰量を増加させる(音量を減衰させる)ことで、ユーザの意識が反射音に向かう可能性を低減できる。よって、より適切に立体的な音をユーザに知覚させることが可能となる。
 また、例えば、本開示の第10態様に係る音響処理装置は、第1頭部伝達関数が、畳み込まれることで情報に含まれる音を、所定方向から到達し、0以上の第3音量減衰を有する音として定位させ、第1処理部が、第2処理部における第1音量減衰の音量減衰量が増加した場合、第3音量減衰の音量減衰量を減少させた第1頭部伝達関数を、音情報に対して畳み込み、第2処理部における第1音量減衰の音量減衰量が減少した場合、第3音量減衰の音量減衰量を増加させた第1頭部伝達関数を、音情報に対して畳み込む、第9態様に記載の音響処理装置である。
 これによれば、反射音の音量減衰量と同期して再生音の音量減衰量を変化させることができる。具体的には、反射音の音量減衰量が増加した場合(音量が減衰した場合)、再生音の音量減衰量が減少される(音量が増幅される)。また、反射音の音量減衰量が減少した場合(音量が増加した場合)、再生音の音量減衰量が減少される(音量が減少される)。このようにして、三次元音場内における全体としての音量の合計が極端に変化しないように、再生音と反射音とで、互いの音量の補完をすることができる。
 また、例えば、本開示の第11態様に係る音響処理装置は、さらに、ユーザの頭部の動きを検知するセンサから、センシング結果を取得する取得部を備え、第3処理部が、取得したセンシング結果に基づいて、第2音量減衰の音量減衰量を変化させた第3頭部伝達関数を、音情報に対して畳み込む、第4態様を引用する第5~第10のいずれか1態様に記載の音響処理装置である。
 これによれば、ユーザの頭部の動きに基づいて第3出力音信号における音量減衰量を変化させることができる。例えば、ユーザが頭部を動かすことで、反射音が到達する方向とユーザの正面方向とが近くなったとき、ユーザが反射音そのものの存在を意識してしまい、適切に再生音の頭外感の向上効果を得られない場合がある。この態様によれば、上記の場合に反射音の音量減衰量を増加させる(音量を減衰させる)ことで、ユーザの意識が反射音に向かう可能性を低減できる。よって、より適切に立体的な音をユーザに知覚させることが可能となる。できる。
 また、例えば、本開示の第12態様に係る音響処理装置は、第1角度、第1遅延時間、及び、第1音量減衰のうち、少なくとも1つが、ユーザにより調整される、第1~第11態様のいずれか1態様に記載の音響処理装置である。
 これによれば、第1角度、第1遅延時間、及び、第1音量減衰のうち、少なくとも1つをユーザが自身の感覚に合わせて調整することができる。
 また、例えば、本開示の第13態様に係る音響処理装置は、第2角度、第2遅延時間、及び、第2音量減衰のうち、少なくとも1つが、ユーザにより調整される、第4態様を引用する第5~第12のいずれか1態様に記載の音響処理装置である。
 これによれば、第2角度、第2遅延時間、及び、第2音量減衰のうち、少なくとも1つをユーザが自身の感覚に合わせて調整することができる。
 また、例えば、本開示の第14態様に係る音響処理装置は、音情報が、再生音及び残響成分を含む原音情報に基づいて生成され、第1遅延時間が、再生音に対する残響成分の遅延時間よりも小さい遅延時間である、第1~第13態様のいずれか1態様に記載の音響処理装置である。
 これによれば、第1出力音信号によってユーザに知覚される音は、元の原音情報の収音環境で発生する残響よりも遅延時間が小さくなるので、第1出力音信号によって知覚される音を、残響のようなノイズとして知覚しにくくなる。つまり、ユーザに対して第1出力音信号によって知覚される音を、反射音として適切に知覚させることができる。
 また、例えば、本開示の第15態様に係る音響処理装置は、音情報が、再生音及び残響成分を含む原音情報に基づいて生成され、第2遅延時間が、再生音に対する残響成分の遅延時間よりも小さい遅延時間である、第4態様を引用する第5~第14のいずれか1態様に記載の音響処理装置である。
 これによれば、第2出力音信号によってユーザに知覚される音は、元の原音情報の収音環境で発生する残響よりも遅延時間が小さくなるので、第1出力音信号によって知覚される音を、残響のようなノイズとして知覚しにくくなる。つまり、ユーザに対して第1出力音信号によって知覚される音を、反射音として適切に知覚させることができる。
 また、本開示の第16態様に係る音響処理方法は、再生音を三次元音場上における所定方向から到達する音としてユーザに知覚させる音響処理方法であって、再生音を含む音情報に対して、情報に含まれる音を、所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成し、音情報に対して、情報に含まれる音を、所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成し、生成した第1出力音信号と第2出力音信号とを合成した出力音信号を出力する。
 このような音響処理方法では、上記に記載の音響処理装置と同様の効果を奏することができる。
 また、本開示の第17態様に係るプログラムは、上記に記載の音響処理方法をコンピュータに実行させるためのプログラムである。
 このようなプログラムは、コンピュータを用いて上記に記載の音響処理装置と同様の効果を奏することができる。
 (実施の形態)
 [概要]
 はじめに、実施の形態に係る音響再生装置の概要について説明する。図1は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図1では、(a)に2つの例のうちの1つの音響再生装置100を使用するユーザ99を、(b)に2つの例のうちの別の1つの音響再生装置100を使用するユーザ99を示している。
 図1に示す音響再生装置100は、上記したように、画像を表示する表示装置や立体映像再生のための装置(いずれも不図示)と同時に使用される。
 音響再生装置100は、ユーザ99の頭部に装着される音提示デバイスである。したがって、音響再生装置100は、ユーザ99の頭部と一体的に移動する。例えば、本実施の形態における音響再生装置100は、図1の(a)に示すように、いわゆるオーバーイヤーヘッドホン型のデバイスであってもよいし、図1の(b)に示すように、ユーザ99の左右の耳にそれぞれ独立して装着される2つの耳栓型のデバイス(インナーイヤーヘッドホン型デバイス)であってもよい。この2つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。
 なお、本開示の音響再生装置は、オーバーイヤーヘッドホン型デバイス及びインナーイヤーヘッドホン型デバイスなどの頭部装着型の音響再生装置に限られない。例えば、ヘッドレストスピーカのようにスピーカがユーザ99に装着されていない状態で、ユーザ99の両耳に近接して設置される音響再生装置などにも適用可能である。
 音響再生装置100は、ユーザ99の頭部の動きに応じて提示する音を変化させることで、ユーザ99が三次元音場内で頭部を動かしているようにユーザ99に知覚させる。このため、上記したように、音響再生装置100は、ユーザ99の動きに対して三次元音場をユーザの動きとは逆方向に移動させる。
 [構成]
 次に、図2及び図3を参照して、本実施の形態に係る音響再生装置100の構成について説明する。図2は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。また、図3は、実施の形態に係る音響処理装置のより詳細な機能構成を示すブロック図である。
 図2に示すように、本実施の形態に係る音響再生装置100は、音響処理装置101と、通信モジュール102と、センサ103と、ドライバ104と、を備える。
 音響処理装置101は、音響再生装置100における各種の信号処理を行うための演算装置である、音響処理装置101は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。
 音響処理装置101は、取得部111、第1処理部121、第2処理部131、及び、コンバイナ150を有する。取得部111については、通信モジュール102の説明と併せて、コンバイナ150については、ドライバ104の説明と併せてそれぞれ後述する。
 第1処理部121は、再生音の出力音信号を生成する。第1処理部121は、情報に含まれる音を、所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成する機能部である。第1処理部121では、入力された音の情報に対して、音を所定方向に定位させるための頭部伝達関数の畳み込みを行い、音量減衰α(第3音量減衰)を介して、減衰された第1出力音信号を出力する。このような、第1処理部121による処理を総じて、第1頭部伝達関数の畳み込みと解される。第1出力音信号は、第1EQ122に入力されて、低域及び高域の音の調整が行われたうえでコンバイナ150に供される。
 第2処理部131は、第1の反射音の出力音信号を生成する。第2処理部131は、情報に含まれる音を、所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成する機能部である。第2処理部131では、入力された音の情報に対して、音を第1方向に定位させるための頭部伝達関数の畳み込みを行い、音量減衰β(第1音量減衰)を介して、減衰された第2出力音信号を出力する。このような、第2処理部131による処理を総じて、第2頭部伝達関数の畳み込みと解される。第2出力音信号は、第2EQ132に入力されて、低域及び高域の音の調整が行われたうえでコンバイナ150に供される。なお、音の情報には、第2処理部131に入力される前に、第1角度決定部130によって、その後に畳み込まれる頭部伝達関数を指定する情報が付加される。
 通信モジュール102は、音響再生装置100への音情報の入力を受け付けるためのインタフェース装置である。通信モジュール102は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報を受信する。より詳しくは、通信モジュール102は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生装置100は、外部の装置から無線通信により音情報を取得する。通信モジュール102によって取得された音情報は、取得部111によって取得される。このようにして音情報は、音響処理装置101に入力される。なお、音響再生装置100と外部の装置との通信は、有線通信によって行われてもよい。
 また、音響処理装置101は、図3に示す残響抑圧処理部120を備える。反射音を生成して合成する際に、元の音に残響成分、すなわち、音の収音環境において反射などで遅れて収音器に入力された音の成分が含まれると、反射音を合成したことによる音の頭外感の向上効果が低減される。このため、音響処理装置101では、残響抑圧処理部120によって、情報に含まれる音に対して、当該情報に含まれる残響成分を減少させる残響抑圧処理を行う。再生対象の再生音と、残響成分とを含む原音情報から、残響抑圧処理を行うことで、原音情報に含まれる音のうち、減少した残響成分以外の音を再生音として含んでいる音情報を生成して、第1処理部121、及び、第2処理部131に入力することができる。残響抑圧処理部120は、取得部111の前段に挿入されていてもよいし、取得部111の後段に挿入されていてもよい。
 音響再生装置100が取得する音情報は、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されている。一例として、符号化された音情報には、音響再生装置100によって再生される再生音についての情報と、当該音の音像を三次元音場内において所定位置に定位させる(つまり所定方向から到達する音として知覚させる)際の定位位置に関する情報、すなわち所定方向に関する情報とが含まれる。例えば、音情報には第1の再生音及び第2の再生音を含む複数の音に関する情報が含まれ、それぞれの音が再生された際の音像を三次元音場内における異なる方向から到達する音として知覚させるように音像を定位させる。
 この立体的な音によって、例えば、表示装置を用いて視認される画像と併せて、視聴されるコンテンツなどの臨場感を向上することができる。なお、音情報には、再生音についての情報のみが含まれていてもよい。この場合、所定方向に関する情報を別途取得してもよい。また、上記したように、音情報は、第1の再生音に関する第1音情報、及び、第2の再生音に関する第2音情報を含むが、これらを別個に含む複数の音情報をそれぞれ取得し、同時に再生することで三次元音場内における異なる位置に音像を定位させてもよい。このように、入力される音情報の形態に特に限定はなく、音響再生装置100(特に、音響処理装置101)に各種の形態の音情報に応じた取得部111が備えられればよい。
 本実施の形態における取得部111は、例えば、エンコード音情報入力部、デコード処理部、及び、センシング情報入力部を備える。
 エンコード音情報入力部は、取得部111が取得した、符号化された(言い換えるとエンコードされている)音情報が入力される処理部である。エンコード音情報入力部は、入力された音情報をデコード処理部へと出力する。デコード処理部は、エンコード音情報入力部から出力された音情報を復号する(言い換えるとデコードする)ことにより音情報に含まれる所定音に関する情報と、所定方向に関する情報とを、以降の処理に用いられる形式で生成する処理部である。センシング情報入力部については、センサ103の機能とともに、以下に説明する。
 センサ103は、ユーザ99の頭部の動き速度を検知するための装置である。センサ103は、ジャイロセンサ、加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。本実施の形態では、センサ103は、音響再生装置100に内蔵されているが、例えば、音響再生装置100と同様にユーザ99の頭部の動きに応じて動作する立体映像再生装置等、外部の装置に内蔵されていてもよい。この場合、センサ103は、音響再生装置100に含まれなくてもよい。また、センサ103として、外部の撮像装置などを用いて、ユーザ99の頭部の動きを撮像し、撮像された画像を処理することでユーザ99の頭部の動きを検知してもよい。
 センサ103は、例えば、音響再生装置100の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生装置100は、ユーザ99が装着した後、ユーザ99の頭部と一体的に移動するため、センサ103は、結果としてユーザ99の頭部の動きの速度を検知することができる。
 センサ103は、例えば、ユーザ99の頭部の動きの量として、三次元空間内で互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、センサ103は、ユーザ99の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。
 取得部111のセンシング情報入力部は、センサ103からユーザ99の頭部の動き速度を取得する。より具体的には、センシング情報入力部は、単位時間あたりにセンサ103が検知したユーザ99の頭部の動きの量を動きの速度として取得する。このようにしてセンシング情報入力部は、センサ103からセンシング結果として回転速度及び変位速度の少なくとも一方を取得する。ここで取得されるユーザ99の頭部の動きの量は、三次元音場内のユーザ99の座標及び向きを決定するために用いられる。音響再生装置100では、決定されたユーザ99の座標及び向きに基づいて、音像の相対的な位置を決定して音が再生される。
 さらに、本実施の形態では、取得部111のセンシング情報入力部がセンサ103から取得したセンシング結果を、音量減衰α、及び、音量減衰βの音量減衰量の制御に用いる。つまり、センシング結果に応じて、音量減衰α、及び、音量減衰βの音量減衰量が自動的に変化する。これは、ユーザ99が反射音の方向に向いたときに、その方向からの反射音が明確に鳴っていると、ユーザ99が違和感を抱く可能性があるためである。したがって、ユーザ99が頭部を回転させた際に、ユーザ99の正面方向が反射音の方向に近づくにつれて、反射音の音量を減衰させるように制御する。これと同時に、全体としての音量が変化しないように、再生音の音量を増幅させる(音量減衰量を減少させる)ことを同時に行う。つまり、第1処理部121は、第2処理部131における音量減衰βの音量減衰量が増加した場合、音量減衰αの音量減衰量を減少させ、第2処理部131における音量減衰βの音量減衰量が減少した場合、音量減衰αの音量減衰量を増加させる。
 図4は、実施の形態に係る音量減衰について説明する図である。図中では、ユーザ99の頭部の上下方向に平行な軸周りにユーザ99の頭部が回転した際の回転角(ヨー角)に対する、音量減衰αの音量減衰量(破線)、及び、音量減衰βの音量減衰量(実線)を示している。なお、ここでの第1角度は、120度に設定されている。ここでは、下記式(1)に基づいて、音量減衰αの音量減衰量、及び、音量減衰βの音量減衰量が算出されている。
Figure JPOXMLDOC01-appb-M000001
 なお、上記式中のαは、音量減衰αの音量減衰量(ゲイン)を示し、上記式中のβは、音量減衰βの音量減衰量(ゲイン)を示している。この例では、所定方向との角度が120度の方向に設定された反射音に対して、ユーザ99がその半分の60度の方向まで頭部を回転させると反射音がなくなることが分かる。このようにして、音響処理装置101では、反射音そのものが違和感の要因とならないように、適宜再生音及び反射音の音量減衰量が変化される。上記式(1)を用いて説明した音量減衰α及び音量減衰βの関係は一例であり、反射音の方向に向かってユーザ99が頭部を回転させるほど、反射音の音量減衰量が増加されれば、どのような関係が用いられてもよい。また、以上の関係は、音量減衰α及び音量減衰βの関係だけでなく、音量減衰γを有する他の反射音(変形例にて後述する)を生成する場合の音量減衰α及び音量減衰γの関係についても成立してもよい。
 コンバイナ150は、生成された出力音信号を合成してドライバ104へと出力する機能部である。コンバイナ150は、第1出力音信号、及び、第2出力音信号を加算することによって合成した出力音信号を出力する。コンバイナ150は、さらに、出力音信号に基づいてデジタル信号からアナログ信号への信号変換などを行うことで、波形信号を生成し、波形信号に基づいてドライバ104に音波を発生させ、ユーザ99に音を提示する。ドライバ104は、例えば、振動板とマグネット及びボイスコイルなどの駆動機構とを有する。ドライバ104は、波形信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ104は、出力音信号に応じた振動板の振動により、音波を発生させ、音波が空気を伝播してユーザ99の耳に伝達し、ユーザ99が音を知覚する。
 以上のようにしてコンバイナ150から出力された出力音信号がドライバ104によって再生されると、図5のような音場が形成される。図5は、実施の形態に係る、音響処理装置によって出力された音の到達方向を説明する図である。図5では、ユーザ99の頭部の上下方向に沿う方向から仮想的な三次元音場を平面視した図を示している。図5では、紙面上方向を正面とした姿勢のユーザ99を示しており、このユーザ99は、紙面に垂直な方向に直立の姿勢でいる。そして、ユーザ99の正面方向に、再生音が定位される所定方向が設定されている。なお、再生音が定位されている位置P1を、黒丸印として示しており、仮想的なスピーカが併せて示されている。
 図示するように、所定方向から時計回りに第1角度を有する方向に、第1の反射音が定位されている(位置P2)。
 また、図中のユーザ99の左右に延びる1点鎖線は、ユーザ99の頭部を前後に分ける仮想的な境界面を示している。この境界面は、ユーザ99の外耳道に沿う面であってもよいし、ユーザ99の耳殻の最後端の点を通る面であってもよいし、単にユーザ99の頭部の重心を通る面であってもよい。このような境界面の前後において、つまり、ユーザ99の前後で音の聞き取りやすさに差があることが知られる。反射音を定位させる際、反射音そのものの存在を感じにくくするために、ユーザ99の後面側に定位することが有効である。したがって、第1角度は、所定方向との角度が90度より大きく、270度より小さい角度範囲内の角度に設定されるとよい。
 なお、以上に説明した第1角度、第1遅延時間、及び、第1音量減衰は、音響処理装置101によってあらかじめ設定された数値か、センサ103によるセンシング結果に応じて変化する数値であるとして説明したが、これらのうち、少なくとも1つは、ユーザ99が任意に入力した数値によって調整可能に構成されてもよい。つまり、音響処理装置101は、第1角度、第1遅延時間、及び、第1音量減衰の少なくとも1つを調整するためのユーザ99による入力を受け付けてもよい。
 [動作]
 次に、図6を参照して、上記に説明した音響再生装置100の動作について説明する。図6は、実施の形態に係る音響処理装置の動作を示すフローチャートである。まず、音響再生装置100の動作が開始されると、取得部111が通信モジュール102を介して原音情報を取得する。原音情報には、再生音の他に残響成分が含まれているため、残響抑圧処理部120によって残響成分が減少された再生音を含む音情報が生成される。
 第1処理部121は、音情報に対して、情報に含まれる音を、所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成する(S101)。次に、第2処理部131は、音情報に対して、情報に含まれる音を、第1方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成する(S102)。
 以上のステップS101及びステップS102は、実行される順序が入れ替えられてもよく、並列に実行されてもよい。そして、コンバイナ150は、生成された第1出力音信号、及び、第2出力音信号を合成し、合成した出力音信号を出力する(ステップS103)。このようにして出力された出力音信号がドライバ104によって再生されることで、再生音に、反射音が重畳されて三次元的な音としてユーザ99に知覚される。特に、反射音を1つしか生成していないので、大規模な演算装置などは必要なく、効果的な立体音響をユーザ99に知覚させることができる。
 [実施例]
 図7は、実施の形態に係る、適切な第1角度について説明する図である。図8は、実施例に係る、適切な第1遅延時間について説明する図である。図9は、実施例に係る、適切な第1音量減衰について説明する図である。
 図7では、第1角度を0度から180度まで振ったときの被験者によって知覚された音像位置までの距離(知覚距離)、つまり、所定方向にどの程度離れて聞こえたかを示している。知覚距離は、大きいほど、頭外感が強く、効果的に三次元的な音を知覚させることができているといえる。なお、ここでは、第1音量減衰量が-3dB、第1遅延時間が2.2msの条件に設定している。図7に示すように、105度又は120度の方向に第1方向を設定することで高い頭外感が得られている。
 また、図8では、第1遅延時間を0msから3.4msまで振ったときの被験者によって知覚された知覚距離を示している。なお、ここでは、第1音量減衰量が-3dB、第1角度が105度の条件に設定している。図8に示すように、2.4msから2.8msに第1遅延時間を設定することで高い頭外感が得られ、1.8msから3.0msに第1遅延時間を設定することで十分な頭外感が得られている。ただし、遅延時間の増加は、音質の劣化に繋がるため、比較的短い第1遅延時間が適切である。したがって、1.8msから2.4ms、例えば、2.2ms等に第1遅延時間を設定するとよい。
 また、図9では、第1音量減衰の音量減衰量を-30dBから0dBまで振ったときの被験者によって知覚された知覚距離を示している。なお、ここでは、第1遅延時間が2.2ms、第1角度が105度の条件に設定している。図9に示すように、-5dB~-3dBに第1音量減衰の音量減衰量を設定することで高い頭外感が得られ、-3dB以上の音量減衰量を設定してもそれ以上の頭外感の向上は見られなかった。なお、大音量の反射音は、音質の劣化の要因となるため、音量減衰量は可能な限り小さい方がよいと考えられる。
 [変形例]
 次に、以上に説明した実施の形態の変形例に係る音響処理装置について説明する。以下説明される変形例では、上記に説明した実施の形態と実質的に同一の構成について、上記の説明を参照することで、ここでの説明を省略する。図10は、実施の形態の変形例に係る音響再生装置の機能構成を示すブロック図である。図11は、実施の形態の変形例に係る音響処理装置の詳細な機能構成を示すブロック図である。図10及び図11に示すように、変形例に係る音響再生装置100aは、音響処理装置101aを備える。また、音響処理装置101aは、第3処理部141を有する点で上記の実施の形態に係る音響処理装置101の構成と異なっている。
 第3処理部141は、第2の反射音の出力音信号を生成する。第3処理部141は、情報に含まれる音を、所定方向との角度が0度より大きく360度より小さい第2角度であって、第1角度とは異なる第2角度を有する第2方向から到達し、第1出力音信号によって知覚される再生音に対して0より大きい第2遅延時間であって、第1遅延時間とは異なる第2遅延時間、及び、0より大きい第2音量減衰であって、第1音量減衰とは異なる第2音量減衰を有する音として定位させるための第3頭部伝達関数を畳み込むことで、第3出力音信号を生成する機能部である。第3処理部141では、入力された音の情報に対して、音を第2方向に定位させるための頭部伝達関数の畳み込みを行い、音量減衰γ(第3音量減衰)を介して、減衰された第3出力音信号を出力する。このような第3処理部141による処理を総じて、第3頭部伝達関数の畳み込みと解される。第3出力音信号は、第3EQ142に入力されて、低域及び高域の音の調整が行われたうえでコンバイナ150に供される。なお、音の情報には、第3処理部141に入力される前に、第2角度決定部140によって、その後に畳み込まれる頭部伝達関数を指定する情報が付加される。
 コンバイナ150は、生成された出力音信号を合成してドライバ104へと出力する機能部である。コンバイナ150は、第1出力音信号、第2出力音信号、及び、第3出力音信号を加算することによって合成した出力音信号を出力する。つまり、音響処理装置101aは、第2処理部131及び第3処理部141のそれぞれが異なる2つの反射音を生成し、コンバイナ150がこれらを再生音に重畳させる。本変形例のように、反射音を2つ生成して再生音に重畳させる場合、条件により三次元音場に展開する効果をより向上させることが可能となる。
 以上のようにしてコンバイナ150から出力された出力音信号がドライバ104によって再生されると、図12のような音場が形成される。図12は、実施の形態に係る、音響処理装置によって出力された音の到達方向を説明する図である。図12では、図5と同様の視点における仮想的な三次元音場を平面視した図を示している。
 図示するように、所定方向から時計回りに第1角度を有する方向に、第1の反射音が定位されている(位置P2)。そして、所定方向から時計回りに第2角度を有する方向に、第2の反射音が定位されている(位置P3)。図中に示すように、第1角度と第2角度とは一致しておらず、また、ユーザ99の正面奥に平行(所定方向にも平行)な2点鎖線に対して、線対称な方向になっていない。仮に、第1方向と第2方向とが線対称となる場合、条件によっては、2つの反射音が重畳されてユーザ99の背後に1つの反射音として定位されてしまうことがある。したがって、第2角度は、360度から第2角度を減じた差分角度が、第1角度と一致しない角度になっている。
 また、図中に示すように、第1角度及び第2角度は、ユーザ99の頭部を前後に分ける仮想的な境界面よりもユーザ99の後面側に定位されている。したがって、第1角度及び第2角度は、いずれも所定方向との角度が90度より大きく、270度より小さい角度範囲内の角度に設定されている。
 なお、以上に説明した第2角度、第2遅延時間、及び、第2音量減衰は、第1角度、第1遅延時間、及び、第1音量減衰と同様に音響処理装置101aによってあらかじめ設定された数値か、センサ103によるセンシング結果に応じて変化する数値であるが、これらのうち、少なくとも1つは、ユーザ99が任意に入力した数値によって調整可能に構成されてもよい。つまり、音響処理装置101aは、第2角度、第2遅延時間、及び、第2音量減衰の少なくとも1つを調整するためのユーザ99による入力を受け付けてもよい。
 [動作]
 次に、図13を参照して、上記に説明した音響再生装置100aの動作について説明する。図13は、実施の形態に係る音響処理装置の動作を示すフローチャートである。まず、図6を参照して説明した、音響処理装置101の動作と同様に、ステップS101及びステップS102が実施される。次に、第3処理部141は、音情報に対して、情報に含まれる音を、第2方向から到達し、第1出力音信号によって知覚される前記再生音に対して0より大きい第2遅延時間、及び、0より大きい第2音量減衰を有する音として定位させるための第3頭部伝達関数を畳み込むことで、第3出力音信号を生成する(S201)。
 以上のステップS101、ステップS102、及び、ステップS201は、実行される順序が入れ替えられてもよく、並列に実行されてもよい。そして、コンバイナ150は、生成された第1出力音信号、第2出力音信号、及び、第3出力音信号を合成し、合成した出力音信号を出力する(ステップS202)。このようにして出力された出力音信号がドライバ104によって再生されることで、再生音に、反射音が重畳されて三次元的な音としてユーザ99に知覚される。特に、反射音を2つしか生成していないので、この場合も大規模な演算装置などは必要なく、効果的な立体音響をユーザ99に知覚させることができる。
 なお、処理部をさらに増やして、3つ以上の反射音を再生音に重畳させてもよい。
 (その他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。
 例えば、上記の実施の形態では、ユーザの頭部の動きに音が追従しない例を説明したが、本開示の内容は、ユーザの頭部の動きに音が追従する場合においても有効である。つまり、ユーザの頭部の動きとともに相対的に移動する第1位置から到達する音として所定音をユーザに知覚させる動作の中で、所定音の到達方向の変動量が閾値より小さい場合に、立体音響フィルタを選択して、変動が強調されるようにしてもよい。
 また、例えば、上記の実施の形態に説明した音響再生装置は、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、PCなどの情報処理装置が用いられてもよい。
 上記実施の形態の説明と異なる構成として例えば、デコード処理部によって、元の音情報を補正することにより、変更された立体音響フィルタを選択させることもできる。具体的には、本例におけるデコード処理部は、音情報に含まれる所定方向に関する情報を生成するとともに、元の音情報の補正を行う処理部である。デコード処理部は、時間軸上での所定方向の変動の角度量を算出し、算出された所定方向の変動の角度量が閾値よりも小さい場合において、所定方向の変動の角度量が閾値以上である場合に比べて所定音をより強調してユーザに知覚させるように、所定方向に関する情報を補正する。これにより、デコード処理部から出力された補正後の所定方向に関する情報に基づいて、所定音が到達する到達方向を規定する立体音響フィルタが選択されるだけで、上記の実施の形態における変更後の立体音響フィルタが適用されることとなる。
 このように、本願開示の情報処理方法等を、元の音情報における所定方向に関する情報を補正することによって実現してもよい。上記のようなデコード処理部は、例えば、従来の立体音響再生装置のデコード処理を行う処理部と入れ替えて挿入するだけで、本願開示と同様の効果を奏することができる音響再生装置を実現することができる。
 また、本開示の音響再生装置は、ドライバのみを備える再生装置に接続され、当該再生装置に対して、取得した音情報に基づいて選択が行われた立体音響フィルタを用いて出力音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。
 また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、コンピュータによって実行される音声信号再生方法として実現されてもよいし、音声信号再生方法コンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。
   99 ユーザ
  100、100a 音響再生装置
  101、101a 音響処理装置
  102 通信モジュール
  103 センサ
  104 ドライバ
  111 取得部
  120 残響抑圧処理部
  121 第1処理部
  122 第1EQ
  130 第1角度決定部
  131 第2処理部
  132 第2EQ
  140 第2角度決定部
  141 第3処理部
  142 第3EQ
  150 コンバイナ
  200 立体映像再生装置
   S1 第1位置
   S1a 第2位置
   S1b 第3位置
   S1c 第7位置
   S2 第4位置
   S2a 第5位置
   S2b 第6位置

Claims (17)

  1.  再生音を三次元音場上における所定方向から到達する音としてユーザに知覚させる音響処理装置であって、
     前記再生音を含む音情報に対して、情報に含まれる音を、前記所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成する第1処理部と、
     前記音情報に対して、情報に含まれる音を、前記所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される前記再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成する第2処理部と、
     生成した前記第1出力音信号と前記第2出力音信号とを合成した出力音信号を出力するコンバイナと、を備える、
     音響処理装置。
  2.  出力された前記出力音信号は、ユーザの頭部に装着されたヘッドホンまたはイヤホンを用いて再生される、
     請求項1に記載の音響処理装置。
  3.  前記第1角度は、前記所定方向との角度が90度より大きく、270度より小さい角度範囲内の角度である、
     請求項1に記載の音響処理装置。
  4.  さらに、前記音情報に対して、情報に含まれる音を、前記所定方向との角度が0度より大きく360度より小さい第2角度であって、前記第1角度とは異なる第2角度を有する第2方向から到達し、第1出力音信号によって知覚される前記再生音に対して0より大きい第2遅延時間、及び、0より大きい第2音量減衰を有する音として定位させるための第3頭部伝達関数を畳み込むことで、第3出力音信号を生成する第3処理部を備え、
     前記コンバイナは、前記第1出力音信号と前記第2出力音信号と前記第3出力音信号とを合成した前記出力音信号を出力する、
     請求項1に記載の音響処理装置。
  5.  前記第2角度は、前記所定方向との角度が90度より大きく、270度より小さい角度範囲内の角度であり、且つ、360度から前記第2角度を減じた差分角度と前記第1角度とが一致しない角度である、
     請求項4に記載の音響処理装置。
  6.  前記第1遅延時間と前記第2遅延時間とはそれぞれ異なる遅延時間である、
     請求項4に記載の音響処理装置。
  7.  前記第1音量減衰と前記第2音量減衰とはそれぞれ異なる音量減衰量である、
     請求項4に記載の音響処理装置。
  8.  さらに、情報に含まれる音に対して、当該情報に含まれる残響成分を減少させる残響抑圧処理を行う残響抑圧処理部を備え、
     前記音情報は、
     前記残響成分を含む原音情報に対して前記残響抑圧処理が行われることで生成され、
     前記原音情報に含まれる音のうち、減少した前記残響成分以外の音を前記再生音として含んでいる、
     請求項1に記載の音響処理装置。
  9.  さらに、前記ユーザの頭部の動きを検知するセンサから、センシング結果を取得する取得部を備え、
     前記第2処理部は、取得した前記センシング結果に基づいて、前記第1音量減衰の音量減衰量を変化させた前記第2頭部伝達関数を、前記音情報に対して畳み込む、
     請求項1に記載の音響処理装置。
  10.  前記第1頭部伝達関数は、畳み込まれることで情報に含まれる音を、所定方向から到達し、0以上の第3音量減衰を有する音として定位させ、
     前記第1処理部は、
     前記第2処理部における前記第1音量減衰の音量減衰量が増加した場合、前記第3音量減衰の音量減衰量を減少させた前記第1頭部伝達関数を、前記音情報に対して畳み込み、
     前記第2処理部における前記第1音量減衰の音量減衰量が減少した場合、前記第3音量減衰の音量減衰量を増加させた前記第1頭部伝達関数を、前記音情報に対して畳み込む、
     請求項9に記載の音響処理装置。
  11.  さらに、前記ユーザの頭部の動きを検知するセンサから、センシング結果を取得する取得部を備え、
     前記第3処理部は、取得した前記センシング結果に基づいて、前記第2音量減衰の音量減衰量を変化させた前記第3頭部伝達関数を、前記音情報に対して畳み込む、
     請求項4を引用する請求項5に記載の音響処理装置。
  12.  前記第1角度、前記第1遅延時間、及び、前記第1音量減衰のうち、少なくとも1つは、前記ユーザにより調整される、
     請求項1に記載の音響処理装置。
  13.  前記第2角度、前記第2遅延時間、及び、前記第2音量減衰のうち、少なくとも1つは、前記ユーザにより調整される、
     請求項4を引用する請求項5に記載の音響処理装置。
  14.  前記音情報は、前記再生音及び残響成分を含む原音情報に基づいて生成され、
     前記第1遅延時間は、前記再生音に対する前記残響成分の遅延時間よりも小さい遅延時間である、
     請求項1に記載の音響処理装置。
  15.  前記音情報は、前記再生音及び残響成分を含む原音情報に基づいて生成され、
     前記第2遅延時間は、前記再生音に対する前記残響成分の遅延時間よりも小さい遅延時間である、
     請求項4を引用する請求項5~14のいずれか1項に記載の音響処理装置。
  16.  再生音を三次元音場上における所定方向から到達する音としてユーザに知覚させる音響処理方法であって、
     前記再生音を含む音情報に対して、情報に含まれる音を、前記所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1出力音信号を生成し、
     前記音情報に対して、情報に含まれる音を、前記所定方向との角度が0度より大きく360度より小さい第1角度を有する第1方向から到達し、第1出力音信号によって知覚される前記再生音に対して0より大きい第1遅延時間、及び、0より大きい第1音量減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2出力音信号を生成し、
     生成した前記第1出力音信号と前記第2出力音信号とを合成した出力音信号を出力する、
     音響処理方法。
  17.  請求項16に記載の音響処理方法をコンピュータに実行させるための
     プログラム。
PCT/JP2022/042915 2021-12-09 2022-11-18 音響処理装置、音響処理方法、及び、プログラム WO2023106070A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021200227 2021-12-09
JP2021-200227 2021-12-09

Publications (1)

Publication Number Publication Date
WO2023106070A1 true WO2023106070A1 (ja) 2023-06-15

Family

ID=86730277

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/042915 WO2023106070A1 (ja) 2021-12-09 2022-11-18 音響処理装置、音響処理方法、及び、プログラム

Country Status (1)

Country Link
WO (1) WO2023106070A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045619A1 (fr) * 1999-01-28 2000-08-03 Sony Corporation Dispositif source sonore virtuelle et appareil acoustique comportant un tel dispositif
JP2020018620A (ja) 2018-08-01 2020-02-06 株式会社カプコン 仮想空間における音声生成プログラム、四分木の生成方法、および音声生成装置
WO2021187147A1 (ja) * 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、プログラム、及び、音響再生システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045619A1 (fr) * 1999-01-28 2000-08-03 Sony Corporation Dispositif source sonore virtuelle et appareil acoustique comportant un tel dispositif
JP2020018620A (ja) 2018-08-01 2020-02-06 株式会社カプコン 仮想空間における音声生成プログラム、四分木の生成方法、および音声生成装置
WO2021187147A1 (ja) * 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、プログラム、及び、音響再生システム

Similar Documents

Publication Publication Date Title
US9918177B2 (en) Binaural headphone rendering with head tracking
EP3311593B1 (en) Binaural audio reproduction
JP4584416B2 (ja) 位置調節が可能な仮想音像を利用したスピーカ再生用多チャンネルオーディオ再生装置及びその方法
JP4927848B2 (ja) オーディオ処理のためのシステムおよび方法
JP2019514293A (ja) 焦点距離に近い音源を強調する空間オーディオ処理
KR20110127074A (ko) 음향 신호의 개별화
JP2008522483A (ja) 多重チャンネルオーディオ入力信号を2チャンネル出力で再生するための装置及び方法と、これを行うためのプログラムが記録された記録媒体
CN109587601B (zh) 使用虚拟声学系统将声音移入和移出听者头部的系统
US11902772B1 (en) Own voice reinforcement using extra-aural speakers
US9392367B2 (en) Sound reproduction apparatus and sound reproduction method
US20110109798A1 (en) Method and system for simultaneous rendering of multiple multi-media presentations
KR102160248B1 (ko) 다채널 음향 신호의 정위 방법 및 장치
US11221820B2 (en) System and method for processing audio between multiple audio spaces
JP2003032776A (ja) 再生システム
JP2004506396A (ja) 音声周波数応答処理システム
JP5787128B2 (ja) 音響システム、音響信号処理装置および方法、並びに、プログラム
JP4744695B2 (ja) 仮想音源装置
WO2021187147A1 (ja) 音響再生方法、プログラム、及び、音響再生システム
WO2016088306A1 (ja) 音声再生システム
WO2023106070A1 (ja) 音響処理装置、音響処理方法、及び、プログラム
EP3745745A1 (en) Apparatus, method, computer program or system for use in rendering audio
WO2022038929A1 (ja) 情報処理方法、プログラム、及び、音響再生装置
JP5776223B2 (ja) 音像制御装置および音像制御方法
JP3573797B2 (ja) ステレオ音声再生装置
JP2011259299A (ja) 頭部伝達関数生成装置、頭部伝達関数生成方法及び音声信号処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22904001

Country of ref document: EP

Kind code of ref document: A1