WO2021187147A1 - 音響再生方法、プログラム、及び、音響再生システム - Google Patents

音響再生方法、プログラム、及び、音響再生システム Download PDF

Info

Publication number
WO2021187147A1
WO2021187147A1 PCT/JP2021/008539 JP2021008539W WO2021187147A1 WO 2021187147 A1 WO2021187147 A1 WO 2021187147A1 JP 2021008539 W JP2021008539 W JP 2021008539W WO 2021187147 A1 WO2021187147 A1 WO 2021187147A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
user
head
perceive
arriving
Prior art date
Application number
PCT/JP2021/008539
Other languages
English (en)
French (fr)
Inventor
成悟 榎本
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN202180019555.9A priority Critical patent/CN115244947A/zh
Priority to EP21771288.4A priority patent/EP4124065A4/en
Priority to JP2022508208A priority patent/JPWO2021187147A1/ja
Publication of WO2021187147A1 publication Critical patent/WO2021187147A1/ja
Priority to US17/903,345 priority patent/US20220417697A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • This disclosure relates to a sound reproduction system and a sound reproduction method.
  • Patent Document 1 a technique related to sound reproduction for allowing a user to perceive a three-dimensional sound by controlling the position of a sound image which is a sensory sound source object in a virtual three-dimensional space.
  • the sound reproduction method causes the user to perceive the first sound as a sound arriving from the first position on the three-dimensional sound field, and arrives from a second position different from the first position.
  • a sound reproduction method in which the user perceives a second sound as a sound the acquisition step of acquiring the movement speed of the user's head, and the sound arriving from a predetermined position on the three-dimensional sound field to the user.
  • the output sound signal is generated to be perceived by the user as a sound arriving from the third position between the second position and the second position.
  • the sound reproduction system causes the user to perceive the first sound as a sound arriving from the first position on the three-dimensional sound field, and from a second position different from the first position.
  • An acoustic reproduction system that causes the user to perceive a second sound as a sound to reach, the acquisition unit that acquires the movement speed of the user's head, and the sound that arrives from a predetermined position on the three-dimensional sound field.
  • the generation unit includes a generation unit that generates an output sound signal for the user to perceive, and the generation unit produces the first sound and the second sound when the acquired movement speed is larger than the first threshold value.
  • the output sound signal for the user to perceive as a sound arriving from the third position between the first position and the second position is generated.
  • one aspect of the present disclosure can also be realized as a program for causing a computer to execute the sound reproduction method described above.
  • FIG. 1 is a schematic view showing a use case of the sound reproduction system according to the embodiment.
  • FIG. 2 is a block diagram showing a functional configuration of the sound reproduction system according to the embodiment.
  • FIG. 3 is a flowchart showing the operation of the sound reproduction system according to the embodiment.
  • FIG. 4 is a first diagram illustrating a third position where the sound image is localized by the third head-related transfer function according to the embodiment.
  • FIG. 5 is a flowchart showing the operation of the sound reproduction system according to the modified example of the embodiment.
  • FIG. 6A is a first diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the modified example of the embodiment.
  • FIG. 6B is a second diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the modified example of the embodiment.
  • FIG. 6C is a third diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the modified example of the embodiment.
  • the user is made to perceive a three-dimensional sound by controlling the position of a sound image, which is a sound source object perceived by the user, in a virtual three-dimensional space (hereinafter, may be referred to as a three-dimensional sound field).
  • a technique related to sound reproduction for this purpose is known (see, for example, Patent Document 1).
  • the user can perceive this sound as if it were a sound emitted from the predetermined position.
  • a process of convolving a head-related transfer function for perceiving it as a sound arriving from a predetermined position with a signal of a target sound is known.
  • the convolution of the head-related transfer function has a relatively large load as a calculation process, and resources that contribute to the calculation are required. That is, in order to carry out the process of convolving the head-related transfer function with high resolution, a high-performance calculation device and electric power associated with the use of the calculation device are required.
  • VR virtual reality
  • the main focus is that the position of the virtual three-dimensional space does not follow the movement of the user, and the user can feel as if he / she is moving in the virtual space.
  • attempts are being made to enhance the sense of reality by incorporating an auditory element into the visual element. For example, when the sound image is localized in front of the user, the sound image moves to the left of the user when the user turns to the right, and the sound image moves to the right of the user when the user turns to the left. In this way, it becomes necessary to move the localization position of the sound image in the virtual space in the direction opposite to the movement of the user with respect to the movement of the user.
  • An object of the present disclosure is to provide a sound reproduction method or the like that allows a user to perceive a three-dimensional sound by this appropriate calculation process.
  • the sound reproduction method causes the user to perceive the first sound as a sound arriving from the first position on the three-dimensional sound field, and is different from the first position.
  • a sound reproduction method in which the user perceives the second sound as a sound arriving from the second position, the acquisition step of acquiring the movement speed of the user's head, and the arrival from a predetermined position on the three-dimensional sound field.
  • the first sound and the second sound are generated when the acquired movement speed is larger than the first threshold value.
  • the output sound signal for causing the user to perceive the sound as a sound arriving from the third position between the first position and the second position is generated.
  • the movement speed of the user's head makes the first sound perceived as the sound arriving from the first position and the second sound perceived as the sound arriving from the second position.
  • the process for localizing the sound image of the first sound to the first position and the process for localizing the sound image of the second sound to the second position are both processes for localizing to the third position. Since it can be standardized, the amount of processing can be reduced. Further, here, if the first threshold value is set to a value that makes the perception of the sound image position of the user ambiguous when the movement speed of the user's head exceeds this, the above processing is performed.
  • the first head transmission function for localizing the sound to the first position is provided with the first sound related to the first sound.
  • the output sound signal is generated and acquired by folding the second head transmission function for convolving into the sound signal and localizing the sound to the second position into the second sound signal related to the second sound.
  • the third head transmission function for localizing the sound to the third position is folded into the added sound signal obtained by adding the second sound signal to the first sound signal. This may generate the output sound signal.
  • the first head related transfer function is convoluted into the first sound signal related to the first sound
  • the second head related transfer function is convoluted into the second sound signal for the second sound.
  • the process of convolution of the first head-related transfer function for the first sound signal and the process of convolution of the second head-related transfer function for the second sound signal are combined with the convolution of the third head-related transfer function for the added sound signal. It can be common to the processing. Therefore, since the amount of processing can be reduced, it is possible for the user to perceive a three-dimensional sound by more appropriate calculation processing.
  • the movement speed is the rotation speed of the user's head around the first axis passing through the user's head
  • the third position is the three-dimensional sound field of the first axis.
  • it may be a position on a bisector that bisects the angle formed by the straight lines connecting each of the first position and the second position and the user.
  • the set third position can be used in response to the rotational movement of the user's head.
  • the third position is the angle formed by the straight lines connecting the first position and the second position and the user in the virtual plane when the three-dimensional sound field is viewed from the direction of the first axis which is the rotation axis. It is set at a position on the bisector that divides evenly. Therefore, the third position can be set in the direction between the direction of the first position and the direction of the second position as seen by the user according to the arrival direction of the sound that is ambiguous due to the rotation movement of the user. Therefore, it is possible to make the user perceive a three-dimensional sound by suppressing a sense of discomfort in the direction of arrival of the sound while reducing the amount of processing.
  • the rotation speed is per unit time detected by a detector that moves integrally with the user's head and detects a rotation amount having at least one of three axes orthogonal to each other as the rotation axis. It may be acquired as a rotation amount.
  • the rotation speed of the user's head can be acquired as the movement speed by using a detector. Therefore, based on the rotation speed acquired as described above, it is possible to suppress a sense of discomfort in the direction of arrival of the sound and allow the user to perceive a three-dimensional sound.
  • the movement speed is the displacement speed of the user's head along the second axial direction passing through the user's head, and the displacement speed moves integrally with the user's head.
  • It may be acquired as a displacement amount per unit time detected by a detector that detects a displacement amount having at least one of three axes orthogonal to each other as a displacement direction.
  • the set third position can be used according to the displacement movement of the user's head.
  • the displacement speed of the user's head can be acquired by using a detector. Therefore, based on the displacement speed acquired as described above, it is possible to suppress a sense of discomfort in the direction of arrival of the sound and allow the user to perceive a three-dimensional sound.
  • a plurality of sounds arriving from each position in a predetermined region on the three-dimensional sound field, including the first position and the second position are the first sound and the first sound.
  • a plurality of sounds including at least the second sound are perceived by the user, and in the generation step, when the movement speed is larger than the first threshold value, all of the plurality of sounds reach from the third position.
  • the output sound signal may be generated to be perceived by the user.
  • the head-related transfer function that is convoluted for each sound within a predetermined range can be shared by the head-related transfer function for localizing the sound image at the third position. Therefore, the amount of processing for convolution of the head-related transfer function is reduced, and it becomes possible for the user to perceive a three-dimensional sound by more appropriate calculation processing.
  • the user is made to perceive the first intermediate sound as a sound arriving from the first intermediate position between the first position and the third position, and the second position and the first position are described.
  • the user is made to perceive the second intermediate sound as the sound from the second intermediate position between the three positions, and in the generation step, the movement speed is further equal to or less than the first threshold value and smaller than the first threshold value.
  • the output sound signal for causing the user to perceive the first intermediate sound and the second intermediate sound as sounds arriving from the third position may be generated.
  • the same processing as described above can be applied within a narrow range including the first intermediate position and the second intermediate position closer to the third position than the first position and the second position, respectively.
  • the movement speed of the user's head is smaller than the first threshold value, if the sounds of the first position and the second position are aggregated at the third position, the change in the sound image position can be perceived, which makes the user feel uncomfortable. I haven't done this because I may remember it.
  • the movement speed of the user's head is higher than the second threshold value, even if the sounds in a narrow range narrower than the predetermined range including the first position and the second position are aggregated in the third position, No change in sound image position is perceived.
  • the sounds at the first intermediate position and the second intermediate position included in such a narrow range are set to the third position. It is possible to reduce the processing amount of calculation processing by consolidating it into. Therefore, it is possible to make the user perceive a three-dimensional sound by a more appropriate calculation process.
  • the sound reproduction system causes the user to perceive the first sound as a sound arriving from the first position on the three-dimensional sound field, and from a second position different from the first position.
  • An acoustic reproduction system that causes the user to perceive a second sound as a sound to reach, the acquisition unit that acquires the movement speed of the user's head, and the sound that arrives from a predetermined position on the three-dimensional sound field.
  • the generation unit includes a generation unit that generates an output sound signal for the user to perceive, and the generation unit produces the first sound and the second sound when the acquired movement speed is larger than the first threshold value.
  • the output sound signal for the user to perceive as a sound arriving from the third position between the first position and the second position is generated.
  • one aspect of the present disclosure can also be realized as a program for causing a computer to execute the sound reproduction method described above.
  • ordinal numbers such as 1, 2, and 3 may be attached to the elements. These ordinals are attached to the elements to identify them and do not necessarily correspond to a meaningful order. These ordinals may be replaced, newly added, or removed as appropriate.
  • FIG. 1 is a schematic view showing a use case of the sound reproduction system according to the embodiment.
  • FIG. 1 shows a user 99 who uses the sound reproduction system 100.
  • the sound reproduction system 100 shown in FIG. 1 is used at the same time as the stereoscopic image reproduction system 200.
  • the image enhances the auditory sense of presence and the sound enhances the visual sense of presence. You can feel as if you were at the scene where the images and sounds were taken. For example, when an image (moving image) in which a person has a conversation is displayed, the user 99 is emitted from the person's mouth even when the localization of the sound image of the conversation sound is deviated from the person's mouth. It is known to be perceived as a conversational sound. In this way, the visual information corrects the position of the sound image, and the image and the sound may be combined to enhance the sense of presence.
  • the stereoscopic image reproduction system 200 is an image display device worn on the head of the user 99. Therefore, the stereoscopic image reproduction system 200 moves integrally with the head of the user 99.
  • the stereoscopic image reproduction system 200 is a glasses-type device supported by the ears and nose of the user 99, as shown in the figure.
  • the stereoscopic image reproduction system 200 changes the image to be displayed according to the movement of the head of the user 99, so that the user 99 is perceived as moving the head in the three-dimensional image space. That is, when an object in the three-dimensional image space is located in front of the user 99, when the user 99 turns to the right, the object moves to the left of the user 99, and when the user 99 turns to the left, the object moves to the left. Moves to the right of the user. In this way, the stereoscopic image reproduction system 200 moves the three-dimensional image space in the direction opposite to the movement of the user 99 with respect to the movement of the user 99.
  • the stereoscopic image reproduction system 200 displays two images in which the visual difference is deviated in each of the left and right eyes of the user 99.
  • the user 99 can perceive the three-dimensional position of the object on the image based on the deviation of the visual difference of the displayed image.
  • the stereoscopic image reproduction system 200 does not need to be used at the same time. That is, the stereoscopic video reproduction system 200 is not an essential component of the present disclosure.
  • the sound reproduction system 100 is a sound presentation device worn on the head of the user 99. Therefore, the sound reproduction system 100 moves integrally with the head of the user 99.
  • the sound reproduction system 100 is two earplug-type devices that are independently attached to the left and right ears of the user 99. By communicating with each other, the two devices simultaneously present the sound for the right ear and the sound for the left ear.
  • the sound reproduction system 100 makes the user 99 perceive that the user 99 is moving the head in the three-dimensional sound field by changing the sound presented according to the movement of the head of the user 99. Therefore, as described above, the sound reproduction system 100 moves the three-dimensional sound field in the direction opposite to the movement of the user with respect to the movement of the user 99.
  • the sound reproduction system 100 reduces the load amount of calculation processing by utilizing this phenomenon. That is, the sound reproduction system 100 acquires the movement speed of the head of the user 99, and when the acquired movement speed is larger than the first threshold value, it is perceived as a sound arriving from within a predetermined region on the three-dimensional sound field. A plurality of sounds are perceived as sounds arriving from one place in the predetermined area.
  • This predetermined area corresponds to a range in which the user 99's perception of the sound image position becomes ambiguous due to the fast movement speed of the head. Therefore, since it is necessary to set it for each user 99, it may be set by conducting an experiment in advance, for example. Further, since the predetermined area is also affected by the movement amount of the head of the user 99, the predetermined area may be set according to the movement amount by detecting the movement amount of the head of the user 99.
  • the first threshold value for the movement speed it is necessary to set a numerical value peculiar to the user 99 from which movement speed the perception of the sound image position by the user 99 becomes ambiguous. Therefore, the value set by conducting an experiment or the like in advance may be adopted. A generalized predetermined region and a first threshold value may be set by averaging from the experimental results of a plurality of users 99.
  • FIG. 2 is a block diagram showing a functional configuration of the sound reproduction system according to the embodiment.
  • the sound reproduction system 100 includes a processing module 101, a communication module 102, a detector 103, and a driver 104.
  • the processing module 101 is an arithmetic unit for performing various signal processing in the sound reproduction system 100.
  • the processing module 101 includes, for example, a processor and a memory, and a program stored in the memory is executed by the processor. And it exerts various functions.
  • the processing module 101 has an input unit 111, an acquisition unit 121, a generation unit 131, and an output unit 141. Details of each functional unit included in the processing module 101 will be described below together with details of other configurations of the processing module 101.
  • the communication module 102 is an interface device for receiving an input of a sound signal to the sound reproduction system 100.
  • the communication module 102 includes, for example, an antenna and a signal converter, and receives a sound signal from an external device by wireless communication. More specifically, the communication module 102 receives a radio signal indicating a sound signal converted into a format for wireless communication by using an antenna, and reconverts the radio signal into a sound signal by a signal converter. ..
  • the sound reproduction system 100 acquires a sound signal from an external device by wireless communication.
  • the sound signal acquired by the communication module 102 is input to the input unit 111. In this way, the sound signal is input to the processing module 101.
  • the communication between the sound reproduction system 100 and the external device may be performed by wired communication.
  • the sound signal acquired by the sound reproduction system 100 is encoded in a predetermined format such as MPEG-H Audio.
  • the encoded sound signal includes information about the sound reproduced by the sound reproduction system 100 and information about the localization position when the sound image of the sound is localized in a predetermined position in the three-dimensional sound field. Is done.
  • the sound signal contains information on a plurality of sounds including the first sound and the second sound, and the sound image when each sound is reproduced is localized at different positions in the three-dimensional sound field.
  • the sound signal may include only information about the sound. In this case, information on the localization position may be acquired separately. Further, as described above, the sound signal includes the first sound signal related to the first sound and the second sound signal related to the second sound, but a plurality of sound signals including these separately are acquired and reproduced at the same time. By doing so, the sound image may be localized at different positions in the three-dimensional sound field.
  • the form of the input sound signal is not particularly limited, and the sound reproduction system 100 may be provided with the input unit 111 corresponding to various forms of the sound signal.
  • the detector 103 is a device for detecting the movement speed of the head of the user 99.
  • the detector 103 is configured by combining various sensors used for motion detection such as a gyro sensor and an acceleration sensor.
  • the detector 103 is built in the sound reproduction system 100.
  • a stereoscopic image reproduction system 200 that operates according to the movement of the head of the user 99 like the sound reproduction system 100, etc. It may be built in an external device. In this case, the detector 103 does not have to be included in the sound reproduction system 100.
  • the movement of the head of the user 99 may be captured by using an external image pickup device or the like, and the movement of the user 99 may be detected by processing the captured image.
  • the detector 103 is integrally fixed to the housing of the sound reproduction system 100, for example, and detects the speed of movement of the housing. Since the sound reproduction system 100 moves integrally with the head of the user 99 after being worn by the user 99, the speed of movement of the head of the user 99 can be detected as a result.
  • the detector 103 may detect, for example, as the amount of movement of the head of the user 99, the amount of rotation having at least one of the three axes orthogonal to each other in the three-dimensional space as the rotation axis, or the above three axes.
  • the amount of displacement may be detected with at least one of the above as the displacement direction. Further, the detector 103 may detect both the amount of rotation and the amount of displacement as the amount of movement of the head of the user 99.
  • the acquisition unit 121 acquires the movement speed of the head of the user 99 from the detector 103. More specifically, the acquisition unit 121 acquires the amount of movement of the head of the user 99 detected by the detector 103 per unit time as the movement speed. In this way, the acquisition unit 121 acquires at least one of the rotation speed and the displacement speed from the detector 103.
  • the generation unit 131 determines whether or not the movement speed of the head of the acquired user 99 is larger than the above-mentioned first threshold value. The generation unit 131 determines whether or not to reduce the load amount of the calculation process based on the result of this determination. More detailed operation of the generation unit 131 will be described later.
  • the generation unit 131 performs a calculation process on the input sound signal according to the above determination content, and generates an output sound signal for presenting the sound.
  • the output unit 141 is a functional unit that outputs the generated output sound signal to the driver 104.
  • the driver 104 generates a waveform signal by performing signal conversion from a digital signal to an analog signal based on the output sound signal, generates a sound wave based on the waveform signal, and presents the sound to the user 99.
  • the driver 104 has, for example, a diaphragm and a drive mechanism such as a magnet and a voice coil.
  • the driver 104 operates the drive mechanism in response to the waveform signal, and the drive mechanism vibrates the diaphragm. In this way, the driver 104 generates sound waves by vibrating the diaphragm in response to the output sound signal, the sound waves propagate through the air and are transmitted to the ears of the user 99, and the user 99 perceives the sound.
  • FIG. 3 is a flowchart showing the operation of the sound reproduction system according to the embodiment.
  • the first sound signal related to the first sound and the second sound signal related to the second sound are acquired (step S101).
  • the sound signal acquired by the communication module 102 from an external device is input to the input unit 111, so that the processing module 101 acquires the sound signal including the first sound signal and the second sound signal.
  • the acquisition unit 121 acquires the movement speed of the head of the user 99 as a detection result from the detector 103 (acquisition step S102).
  • the generation unit 131 compares the acquired movement speed with the first threshold value and determines whether or not the movement speed is larger than the first threshold value (step S103).
  • the sound reproduction system 100 receives the first sound and the second sound from the first position and the second position, which are the original sound image positions, respectively. To make the user 99 perceive as. Therefore, the generation unit 131 convolves the first sound signal with the first head-related transfer function for localizing the sound image at the first position.
  • the generation unit 131 convolves the second sound signal with a second head-related transfer function for localizing the sound image at the second position (step S104).
  • the generation unit 131 generates an output sound signal including the first sound signal and the second sound signal that have undergone the convolution process in this way (step S105).
  • the sound reproduction system 100 refers to the first position and the second position, which are the original sound image positions of the first sound and the second sound.
  • the user 99 is made to perceive as a sound arriving from a third position between these positions. Therefore, the generation unit 131 generates an added sound signal related to the sound on which the first sound and the second sound are superimposed by adding the first sound signal and the second sound signal.
  • the space between the first position and the second position is, for example, a virtual straight line passing through the first position and another virtual straight line parallel to the virtual straight line and passing through the second position. It means the area sandwiched between. At this time, the virtual straight line and other virtual straight lines may be included in the region.
  • the generation unit 131 further convolves the added sound signal with a third head-related transfer function for localizing the sound image at the third position (step S107).
  • the generation unit 131 generates an output sound signal including the added sound signal that has undergone the convolution process in this way (step S108).
  • step S103 to step S108 are also referred to as a generation step.
  • the output unit 141 drives the driver 104 by outputting the output sound signal generated by the generation unit 131 to the driver 104, and causes the driver 104 to present a sound based on the output sound signal (step S106).
  • the first sound and the second sound can be perceived as the sound arriving from the third position
  • the first sound is regarded as the sound arriving from the first position
  • the second sound is regarded as the sound arriving from the second position.
  • the calculation process for localizing the sound image can be simplified as compared with the case where the sound is perceived as a sound arriving from. As a result, the request processing capacity can be temporarily reduced, and heat generation due to the drive of the processor and power consumption associated with calculation processing can be reduced.
  • the calculation process can be simplified as needed in this way, so that the user can perceive a three-dimensional sound by a more appropriate calculation process.
  • FIG. 4 is a diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the embodiment.
  • the sound image position in the three-dimensional sound field is indicated by a black dot
  • the direction of arrival of the sound to the user 99 is indicated by an arrow extending from the black dot toward the user 99.
  • a virtual speaker is also shown at the black dot indicating the sound image position.
  • the user 99 is rotating the head, and the rotation speed of this rotation is larger than the first threshold value.
  • the following operations may be performed.
  • the head of the user 99 is rotated around the first axis in the direction perpendicular to the paper surface.
  • the third position P3 or P3a in this example is formed by a straight line connecting the first position P1 or P1a and the user 99 and a straight line connecting the second position P2 or P2a and the user 99. It is the position on the bisector that divides the corner into two equal parts and is indicated by the arrow with dot hatching in the figure.
  • the head-related transfer function contains information about the distance at which the sound image is localized, a plurality of head-related transfer functions that localize the sound image at multiple distances in the same sound arrival direction are prepared. It may be configured to convolve one selected head-related transfer function. In this case, since the arrival direction of the first sound and the second sound and the distance to the sound image position are averaged, the user 99 tends to feel a sense of discomfort, so that a narrower predetermined area is set and the sense of discomfort is reduced. Configuration for may be further included.
  • the displacement speed of this displacement is assumed to be larger than the first threshold value.
  • the head of the user 99 is displaced along a second axis in the vertical direction along the paper surface.
  • the third position P3 in this example is a position on an equidistant line that is orthogonal to the second axis direction and has the same distance from the first position P1 and the second position P2.
  • a position corresponding to either the first position or the second position itself may be set.
  • the first sound is the dialogue of a person on the content and the second sound is the environmental sound on the content
  • the first sound is prioritized and the sound image position set as the first sound is the third position. Is set as. According to this, the first sound and the second sound are perceived as the sounds arriving from the first position set in the third position.
  • the first head-related transfer function for causing the user 99 to perceive the sound as the sound arriving from the first position is used as it is.
  • the head-related transfer function that has already been used is used in this example, for example, as shown in the above example, any of the first position and the second position that are originally set by the sound signal, etc. It is not necessary to set a position that does not correspond to the sound image position as the third position. In other words, the sound image position originally set by the sound signal can be set as the third position. Therefore, since the head-related transfer function for localizing the sound image to the originally set sound image position can be diverted, the head for causing the user 99 to perceive the sound as a sound arriving from an arbitrary point in the three-dimensional sound field. There is no need to use mapping information that maps head-related transfer functions.
  • the process of determining the head-related transfer function for the set third position is simplified, and the user 99 can perceive a three-dimensional sound by a more appropriate calculation process.
  • the space between the first position and the second position means the range including the first position and the second position itself.
  • an intermediate point on a line segment that spatially connects the first position and the second position may be set, or simply a random position between the first position and the second position may be set. It may be set.
  • FIG. 5 is a flowchart showing the operation of the sound reproduction system according to the modified example of the embodiment.
  • FIG. 6A is a first diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the modified example of the embodiment.
  • FIG. 6B is a second diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the modified example of the embodiment.
  • FIG. 6C is a third diagram illustrating a third position where the sound image is localized by the third head related transfer function according to the modified example of the embodiment.
  • the sound reproduction system according to the present modification is a target in which the head related transfer function is convoluted with respect to the sound signal with the first threshold value and the second threshold value as the boundary, as compared with the sound reproduction system 100 according to the above embodiment.
  • the difference is that the sound changes.
  • a second threshold value smaller than the first threshold value is set.
  • the first threshold is whether or not to apply a third head-related transfer function for the user 99 to perceive the first sound and the second sound as sounds arriving from the third position, as in the above embodiment. Used for judgment.
  • the first intermediate sound and the second intermediate sound localized at the first intermediate position and the second intermediate position closer to the third position than the first sound and the second sound by the determination using the second threshold value.
  • the sound signals related to the first sound and the second sound that is, the first sound signal and the second sound signal
  • the process of convolving the head related transfer function is applied.
  • the third head related transfer function is also convoluted in the sound signals related to the first intermediate sound and the second intermediate sound (that is, the first intermediate sound signal and the second intermediate sound signal), and the first sound and the second sound are recorded.
  • the first intermediate tone and the second intermediate tone are all localized at the third position P3.
  • the first sound is localized at the first position P1 and the second sound is localized. Is localized at the second position P2, and the first intermediate sound and the second intermediate sound are localized at the third position P3. That is, in this modification, when the movement speed of the head of the user 99 is not so fast as shown below the second threshold value, the first position P1 and the second position P2 are not included, and the first intermediate position is not included.
  • the calculation process of the convolution of the head related transfer function is simplified for a narrower predetermined region (that is, a narrow region) including P1 m and the second intermediate position P2 m.
  • step S102 As an operation in the sound reproduction system according to the present modification, as shown in FIG. 5, after the acquisition unit 121 acquires the movement speed (step S102), does the generation unit 131 have a movement speed larger than the second threshold value? It is determined whether or not (step S201). When the movement speed is equal to or less than the second threshold value (No in step S201), the process proceeds to step S202, and the head for localizing the sound image at the position where each sound signal should be originally localized, as in the above embodiment.
  • the operation of convolving the part transfer function step S202 is performed. That is, the first sound signal related to the first sound is convoluted with the first head-related transfer function for localizing the sound image at the first position P1, and the second sound signal related to the second sound is the second position P2.
  • the second head-related transfer function for localizing the sound image is convoluted, and the first intermediate sound signal related to the first intermediate sound has the first intermediate head-related transfer function for localizing the sound image at the first intermediate position P1m. Is convoluted, and the second intermediate sound signal relating to the second intermediate sound is convoluted with a second intermediate head related transfer function for localizing the sound image at the second intermediate position P2m.
  • the generation unit 131 further determines whether or not the movement speed is higher than the first threshold value (step S204).
  • the sound reproduction system 100 causes the user 99 to perceive the first intermediate sound and the second intermediate sound as sounds arriving from the third position. Therefore, the generation unit 131 convolves the third head-related transfer function into the added sound signal obtained by adding the first intermediate sound signal related to the first intermediate sound and the second intermediate sound signal related to the second intermediate sound (step S205). ..
  • the generation unit 131 generates an output sound signal including a first sound signal and a second sound signal that have been subjected to the convolution process in this way, and an added sound signal obtained by adding the first intermediate sound signal and the second intermediate sound signal. Generate (step S206). After that, the process proceeds to step S106, and the same operation as that of the above embodiment is performed.
  • step S204 when the movement speed is higher than the first threshold value (Yes in step S204), the process proceeds to step S207, and the added sound signal obtained by adding the first sound signal and the second sound signal by the same operation as the above embodiment.
  • the process of convolving the third head-related transfer function is performed.
  • the first intermediate sound signal and the second intermediate sound signal are further added to the added sound signal, and the first sound, the second sound, the first intermediate sound, and the second intermediate sound are in the third position. It is perceived by the user 99 as a sound arriving from P3.
  • the sound image shown in FIG. 6A is formed in the three-dimensional sound field when the movement speed of the user 99 is equal to or less than the second threshold value.
  • FIG. 6A shows a view of the three-dimensional sound field viewed from the first axis direction as in FIG. 4.
  • each of the first sound, the second sound, the first intermediate sound, and the second intermediate sound arrives from the original sound image position. It is perceived by the user 99 as a sound.
  • FIG. 6B shows a view of the three-dimensional sound field viewed from the first axis direction as in FIG. 4.
  • the user 99 when the movement speed of the user 99 is equal to or less than the first threshold value and greater than the second threshold value, the user 99 arrives from the first intermediate position P1m, which is originally closer to the third position P3 than the first position P1.
  • the first intermediate sound perceived by the user 99 as a sound is perceived by the user 99 as a sound arriving from the third position P3.
  • the sound is originally perceived by the user 99 as a sound arriving from the second intermediate position P2m, which is closer to the third position P3 than the second position P2.
  • the second intermediate sound is perceived by the user 99 as a sound arriving from the third position P3.
  • FIG. 6C shows a view of the three-dimensional sound field viewed from the first axis direction as in FIG. 4.
  • the sound within the predetermined area having a width corresponding to the movement speed of the user 99 in stages arrives from the third position P3 as the sound of the user 99. Is perceived by.
  • the sound in the predetermined region indicated by the long broken line is perceived by the user 99 as the sound arriving from the third position P3.
  • the sound in the narrow predetermined region (that is, the narrow region) indicated by the broken line is perceived by the user 99 as the sound arriving from the third position P3. ..
  • the first intermediate position P1m and the second intermediate position P2m are considered as the third position P3. That is, the third position P3 is set based on the four positions of the first position P1, the second position P2, the first intermediate position P1m, and the second intermediate position P2m.
  • the third position P3 on a straight line connecting the center between the first position P1, the second position P2, the first intermediate position P1m, and the second intermediate position P2m and the user 99, and the first position.
  • a position having the same distance as the shortest distance from each of P1, the second position P2, the first intermediate position P1m, and the second intermediate position P2m to the position of the user 99 is set.
  • the third position P3 may be set to the average coordinates of the coordinates corresponding to the four positions in the plane coordinates viewed from the first axis direction.
  • the user 99 is provided with three or more stages such as a third threshold value for the movement speed of the user 99, and the sound in a narrower predetermined region is perceived by the user 99 as a sound reaching from the third position P3. good.
  • a third threshold value for the movement speed of the user 99 There is no particular limitation on the number of stages in the relationship between the speed of movement and the size of the predetermined area.
  • the user 99-specific numerical value setting from which movement speed makes the perception of the sound image position by the user 99 ambiguous may be set based on, or a generalized numerical value may be set.
  • the content of the present disclosure is also effective when the sound follows the movement of the user's head. That is, the first sound is perceived by the user as a sound arriving from the first position that moves relatively with the movement of the user's head, and the sound arriving from the second position that moves relatively with the movement of the user's head.
  • the action of making the user perceive the second sound when the movement speed of the head is larger than the first threshold value, the first sound and the second sound move relatively with the movement of the user's head. Perceive it as a sound arriving from a position.
  • a process of convolving the head-related transfer function for localizing the first sound and the second sound into the first position and the second position into each sound signal is performed, and the sound signal is bounded by the first threshold value. Since the head-related transfer function that is folded into is standardized, the calculation process is simplified. That is, similarly to the above-described embodiment, the request processing capacity can be temporarily reduced, and heat generation due to the drive of the processor, power consumption associated with the calculation process, and the like can be reduced. On the other hand, even if such calculation processing is simplified, if the movement speed of the user's head is large, it becomes difficult to accurately perceive the position of the sound image, so that the user feels a great deal of discomfort with respect to the sound image position. It's hard to become. Therefore, it is possible to make the user perceive a three-dimensional sound by a more appropriate calculation process.
  • the sound reproduction system described in the above embodiment may be realized as one device including all the components, or each function is assigned to a plurality of devices, and the plurality of devices cooperate with each other. It may be realized by.
  • an information processing device such as a smartphone, a tablet terminal, or a PC may be used as the device corresponding to the processing module.
  • the sound reproduction system of the present disclosure is connected to a reproduction device provided with only a driver, and outputs an output sound signal obtained by convolving the head-related transfer function based on the acquired sound signal to the reproduction device. It can also be realized as a sound processing device only.
  • the sound processing device may be realized as hardware having a dedicated circuit, or may be realized as software for causing a general-purpose processor to execute a specific process.
  • another processing unit may execute the processing executed by the specific processing unit. Further, the order of the plurality of processes may be changed, or the plurality of processes may be executed in parallel.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • each component may be realized by hardware.
  • each component may be a circuit (or an integrated circuit). These circuits may form one circuit as a whole, or may be separate circuits from each other. Further, each of these circuits may be a general-purpose circuit or a dedicated circuit.
  • the general or specific aspects of the present disclosure may be realized by a recording medium such as a system, an apparatus, a method, an integrated circuit, a computer program, or a computer-readable CD-ROM.
  • the general or specific aspects of the present disclosure may be realized by any combination of systems, devices, methods, integrated circuits, computer programs and recording media.
  • the present disclosure may be realized as a voice signal reproduction method executed by a computer, or may be realized as a program for causing a voice signal reproduction method computer to execute.
  • the present disclosure may be realized as a computer-readable non-temporary recording medium in which such a program is recorded.
  • the present disclosure is useful in the case of sound reproduction in which the user perceives a three-dimensional sound accompanied by the movement of the user's head.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

音響再生方法では、三次元音場上の第1位置(P1)から到達する音として第1音をユーザ(99)に知覚させ、かつ、第1位置(P1)とは異なる第2位置(P2)から到達する音として第2音をユーザ(99)に知覚させる音響再生方法であって、ユーザ(99)の頭部の動き速度を取得する取得ステップ(S102)と、三次元音場上の所定位置から到達する音をユーザに知覚させるための出力音信号を生成する生成ステップと、を含み、生成ステップでは、取得した動き速度が第1閾値より大きい場合に、第1音及び第2音を第1位置(P1)と第2位置(P2)との間の第3位置(P3)から到達する音としてユーザ(99)に知覚させる出力音信号を生成する。

Description

音響再生方法、プログラム、及び、音響再生システム
 本開示は、音響再生システム、及び、音響再生方法に関する。
 従来、仮想的な三次元空間内で、感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。
特開2020-18620号公報
 一方で、立体的な音をユーザに知覚させるための音を発生させる際には、膨大な計算処理が必要になる。ここで、従来の音響再生方法等では、適切な計算処理が行われていない場合があった。
 上記に鑑みて、本開示は、より適切な計算処理により立体的な音をユーザに知覚させる音響再生方法等を提供することを目的とする。
 本開示の一態様に係る音響再生方法は、三次元音場上の第1位置から到達する音として第1音をユーザに知覚させ、かつ、前記第1位置とは異なる第2位置から到達する音として第2音を前記ユーザに知覚させる音響再生方法であって、前記ユーザの頭部の動き速度を取得する取得ステップと、前記三次元音場上の所定位置から到達する音を前記ユーザに知覚させるための出力音信号を生成する生成ステップと、を含み、前記生成ステップでは、取得した前記動き速度が第1閾値より大きい場合に、前記第1音及び前記第2音を前記第1位置と前記第2位置との間の第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する。
 また、本開示の一態様に係る音響再生システムは、三次元音場上の第1位置から到達する音として第1音をユーザに知覚させ、かつ、前記第1位置とは異なる第2位置から到達する音として第2音を前記ユーザに知覚させる音響再生システムであって、前記ユーザの頭部の動き速度を取得する取得部と、前記三次元音場上の所定位置から到達する音を前記ユーザに知覚させるための出力音信号を生成する生成部と、を含み、前記生成部は、取得した前記動き速度が第1閾値より大きい場合に、前記第1音及び前記第2音を前記第1位置及び前記第2位置の間の第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する。
 また、本開示の一態様は、上記に記載の音響再生方法をコンピュータに実行させるためのプログラムとして実現することもできる。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
図1は、実施の形態に係る音響再生システムの使用事例を示す概略図である。 図2は、実施の形態に係る音響再生システムの機能構成を示すブロック図である。 図3は、実施の形態に係る音響再生システムの動作を示すフローチャートである。 図4は、実施の形態に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第1図である。 図5は、実施の形態の変形例に係る音響再生システムの動作を示すフローチャートである。 図6Aは、実施の形態の変形例に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第1図である。 図6Bは、実施の形態の変形例に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第2図である。 図6Cは、実施の形態の変形例に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第3図である。
 (開示の基礎となった知見)
 従来、仮想的な三次元空間内(以下、三次元音場という場合がある)で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。仮想的な三次元空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置から発せられた音であるかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到来時間差、及び、両耳間での音のレベル差などを生じさせる計算処理が必要となる。
 このような計算処理の一例として、所定位置から到達する音として知覚させるための頭部伝達関数を目的の音の信号に対して畳み込む処理が知られている。この頭部伝達関数の畳み込みの処理を、より高解像度に実施することで、ユーザが体感する臨場感が向上される。一方で、頭部伝達関数の畳み込みは、計算処理としては比較的負荷が大きく、計算に資するリソースが要求される。すなわち、頭部伝達関数を畳み込む処理を高解像度に実施するためには、高性能な計算装置や、計算装置の使用に伴う電力などが要求される。
 また、近年、仮想現実(VR:Virtual Reality)に関する技術の開発が盛んに行われている。仮想現実では、ユーザの動きに対して仮想的な三次元空間の位置が追従せず、あたかもユーザが仮想空間内を移動しているように体感できることが主眼に置かれている。特に、この仮想現実の技術において視覚的な要素に聴覚的な要素を取り入れることで、より臨場感を高めるといった試みが行われている。例えば、ユーザの正面に音像が定位しているときに、ユーザが右を向くと当該音像がユーザの左方向に移動し、ユーザが左を向くと当該音像がユーザの右方向に移動する。このように、ユーザの動きに対して、仮想空間内の音像の定位位置をユーザの動きとは逆方向に移動させる必要が生じる。
 仮想空間の臨場感を向上させるためには、空間解像度を高めて頭部伝達関数の畳み込みの処理を実施することが要求される。したがって、上記の仮想現実など、高い臨場感で立体的な音をユーザに知覚させるための音響再生を行うには、計算装置及び消費電力などの制約がより顕著なものになる。
 そこで、本開示では、上記に鑑みて、臨場感の低下を抑制しつつ、計算処理の負荷量を減少させることで、より適切な計算処理を実施する。本開示では、この適切な計算処理により立体的な音をユーザに知覚させる音響再生方法等を提供することを目的とする。
 より具体的には、本開示の一態様に係る音響再生方法は、三次元音場上の第1位置から到達する音として第1音をユーザに知覚させ、かつ、前記第1位置とは異なる第2位置から到達する音として第2音を前記ユーザに知覚させる音響再生方法であって、前記ユーザの頭部の動き速度を取得する取得ステップと、前記三次元音場上の所定位置から到達する音を前記ユーザに知覚させるための出力音信号を生成する生成ステップと、を含み、前記生成ステップでは、取得した前記動き速度が第1閾値より大きい場合に、前記第1音及び前記第2音を前記第1位置と前記第2位置との間の第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する。
 このような音響再生方法によれば、第1位置から到達する音として知覚される第1音、及び、第2位置から到達する音として知覚される第2音を、ユーザの頭部の動き速度が第1閾値よりも大きい場合に、第3位置から到達する音として知覚させることができる。このとき、第1音の音像を第1位置に定位させるための処理と、第2音の音像を第2位置に定位させるための処理とを、いずれも第3位置に定位させるための処理に共通化することができるので、処理量を低減できる。また、ここで、第1閾値が、ユーザの頭部の動き速度がこれを超える場合に、ユーザの音像位置の知覚が曖昧になるような値に設定されていれば、上記の処理を行ったとしても、音像位置の変化による臨場感への影響が抑制される。これにより、処理量を低減させることで生じ得るユーザの違和感を低減することもできる。よって、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
 また、例えば、前記生成ステップでは、取得した前記動き速度が前記第1閾値以下の場合に、音を前記第1位置に定位させるための第1頭部伝達関数を、前記第1音に関する第1音信号に畳み込み、かつ、音を前記第2位置に定位させるための第2頭部伝達関数を、前記第2音に関する第2音信号に畳み込むことで前記出力音信号を生成し、取得した前記動き速度が前記第1閾値より大きい場合に、音を前記第3位置に定位させるための第3頭部伝達関数を、前記第1音信号に前記第2音信号を加算した加算音信号に畳み込むことで前記出力音信号を生成してもよい。
 第1音の音像を第1位置に定位させる際に、第1頭部伝達関数を第1音に関する第1音信号に畳み込み、第2音の音像を第2位置に定位させる際に、第2頭部伝達関数を第2音に関する第2音信号に畳み込む。上記によれば、第1音及び第2音の音像を第3位置に定位させる場合に、第1音信号及び第2音信号を加算した加算音信号に対して、音を第3位置に定位させるための第3頭部伝達関数を畳み込む処理を行うのみでよい。つまり、第1音信号に対する第1頭部伝達関数の畳み込みの処理と、第2音信号に対する第2頭部伝達関数の畳み込みの処理とを、加算音信号に対する第3頭部伝達関数の畳み込みの処理に共通化することができる。よって、処理量を低減できるので、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
 また、例えば、前記動き速度は、前記ユーザの頭部を通過する第1軸回りの前記ユーザの頭部の回転速度であり、前記第3位置は、前記三次元音場を前記第1軸の方向からみた仮想平面内において、前記第1位置及び前記第2位置のそれぞれと前記ユーザとを結ぶ直線同士が成す角を二等分する二等分線上の位置であってもよい。
 これによれば、ユーザの頭部の回転の動きに対応して、設定された第3位置を用いることができる。このとき、第3位置は、三次元音場を回転軸である第1軸の方向からみた仮想平面内において、第1位置及び第2位置のそれぞれとユーザとを結ぶ直線同士が成す角を二等分する二等分線上の位置に設定される。したがって、ユーザの回転の動きによって曖昧になる音の到来方向に合わせて、ユーザから見た第1位置の方向と第2位置の方向との間の方向に第3位置を設定できる。よって、処理量を低減しながらも、音の到来方向の違和感を抑制して立体的な音をユーザに知覚させることが可能となる。
 また、例えば、前記回転速度は、前記ユーザの頭部と一体的に移動し、互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知する検知器によって検知された単位時間当たりの回転量として取得されてもよい。
 これによれば、動き速度として、ユーザの頭部の回転速度を、検知器を用いて取得することができる。よって、上記のようにして取得した回転速度に基づいて、音の到来方向の違和感を抑制して立体的な音をユーザに知覚させることが可能となる。
 また、例えば、前記動き速度は、前記ユーザの頭部を通過する第2軸方向に沿う前記ユーザの頭部の変位速度であり、前記変位速度は、前記ユーザの頭部と一体的に移動し、互いに直交する3軸の少なくとも一つを変位方向とする変位量を検知する検知器によって検知された単位時間当たりの変位量として取得されてもよい。
 ユーザの頭部の変位の動きに対応して、設定された第3位置を用いることができる。このとき、ユーザの頭部の変位速度を、検知器を用いて取得することができる。よって、上記のようにして取得した変位速度に基づいて、音の到来方向の違和感を抑制して立体的な音をユーザに知覚させることが可能となる。
 また、例えば、前記音響再生方法では、前記第1位置及び前記第2位置を含む、前記三次元音場上の所定領域内の各位置から到達する複数の音であって、前記第1音及び前記第2音を少なくとも含む複数の音を前記ユーザに知覚させ、前記生成ステップでは、前記動き速度が前記第1閾値より大きい場合に、前記複数の音の全てを前記第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成してもよい。
 これによれば、所定範囲内の複数の音の全てを第3位置から到達する音としてユーザに知覚させることができる。このため、所定範囲内の音それぞれに畳み込まれる頭部伝達関数を、音像を第3位置に定位させるための頭部伝達関数によって共通化することができる。よって、頭部伝達関数の畳み込みの処理量が削減され、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
 また、例えば、前記音響再生方法では、前記第1位置及び前記第3位置の間の第1中間位置から到達する音として第1中間音をユーザに知覚させ、かつ、前記第2位置及び前記第3位置の間の第2中間位置からの音として第2中間音をユーザに知覚させ、前記生成ステップでは、さらに、前記動き速度が前記第1閾値以下、かつ、前記第1閾値よりも小さい第2閾値より大きい場合に、前記第1中間音及び前記第2中間音を前記第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成してもよい。
 これによれば、第1位置及び第2位置のそれぞれよりも第3位置に近い第1中間位置及び第2中間位置を含む、狭い範囲内で上記と同様の処理を適用することができる。ここでは、ユーザの頭部の動き速度は、第1閾値よりは小さいため、第1位置及び第2位置等の音を第3位置に集約させると音像位置の変化を知覚できてしまうので違和感を覚える可能性があるためこれを実施していない。一方でユーザの頭部の動き速度は、第2閾値よりは大きいため、第1位置及び第2位置等を含む所定範囲よりも狭い、狭小範囲内の音を第3位置に集約させても、音像位置の変化は知覚されない。そこで、動き速度が第1閾値以下、かつ、第1閾値よりも小さい第2閾値より大きい場合に、このような狭小範囲内に含まれる第1中間位置及び第2中間位置の音を第3位置に集約させて計算処理の処理量を削減することができる。よって、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
 また、本開示の一態様に係る音響再生システムは、三次元音場上の第1位置から到達する音として第1音をユーザに知覚させ、かつ、前記第1位置とは異なる第2位置から到達する音として第2音を前記ユーザに知覚させる音響再生システムであって、前記ユーザの頭部の動き速度を取得する取得部と、前記三次元音場上の所定位置から到達する音を前記ユーザに知覚させるための出力音信号を生成する生成部と、を含み、前記生成部は、取得した前記動き速度が第1閾値より大きい場合に、前記第1音及び前記第2音を前記第1位置及び前記第2位置の間の第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する。
 これによれば、上記に記載の音響再生方法と同様の効果を奏する音響再生システムを実現することができる。
 また、本開示の一態様は、上記に記載の音響再生方法をコンピュータに実行させるためのプログラムとして実現することもできる。
 これによれば、コンピュータを用いて上記に記載の音響再生方法と同様の効果を奏することができる。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 また、以下の説明において、第1、第2及び第3等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 (実施の形態)
 [概要]
 はじめに、実施の形態に係る音響再生システムの概要について説明する。図1は、実施の形態に係る音響再生システムの使用事例を示す概略図である。図1では、音響再生システム100を使用するユーザ99が示されている。
 図1に示す音響再生システム100は、立体映像再生システム200と同時に使用されている。上記に説明したように、本実施の形態では、立体的な画像及び立体的な音を同時に視聴することで、画像が聴覚的な臨場感を、音が視覚的な臨場感をそれぞれ高め合い、画像及び音が撮られた現場に居るかのように体感することができる。例えば、人が会話をする画像(動画像)が表示されている場合に、会話音の音像の定位が当該人の口元とずれている場合にも、ユーザ99が、当該人の口から発せられた会話音として知覚することが知られている。このように視覚情報によって、音像の位置が補正されるなど、画像と音とが併せられることで臨場感が高められることがある。
 立体映像再生システム200は、ユーザ99の頭部に装着される画像表示デバイスである。したがって、立体映像再生システム200は、ユーザ99の頭部と一体的に移動する。例えば、立体映像再生システム200は、図示するように、ユーザ99の耳と鼻とで支持するメガネ型のデバイスである。
 立体映像再生システム200は、ユーザ99の頭部の動きに応じて表示する画像を変化させることで、ユーザ99が三次元画像空間内で頭部を動かしているように知覚させる。つまり、ユーザ99の正面に三次元画像空間内の物体が位置しているときに、ユーザ99が右を向くと当該物体がユーザ99の左方向に移動し、ユーザ99が左を向くと当該物体がユーザの右方向に移動する。このように、立体映像再生システム200は、ユーザ99の動きに対して、三次元画像空間をユーザ99の動きとは逆方向に移動させる。
 立体映像再生システム200は、ユーザ99の左右の目それぞれに視差分のずれが生じた2つの画像をそれぞれ表示する。ユーザ99は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、音響再生システム100を睡眠誘導用のヒーリング音の再生に使用する等、ユーザ99が目を閉じて使用する場合等には、立体映像再生システム200が同時に使用される必要はない。つまり、立体映像再生システム200は、本開示の必須の構成要素ではない。
 音響再生システム100は、ユーザ99の頭部に装着される音提示デバイスである。したがって、音響再生システム100は、ユーザ99の頭部と一体的に移動する。例えば、音響再生システム100は、ユーザ99の左右の耳にそれぞれ独立して装着される2つの耳栓型のデバイスである。この2つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。
 音響再生システム100は、ユーザ99の頭部の動きに応じて提示する音を変化させることで、ユーザ99が三次元音場内で頭部を動かしているようにユーザ99に知覚させる。このため、上記したように、音響再生システム100は、ユーザ99の動きに対して三次元音場をユーザの動きとは逆方向に移動させる。
 ここで、ユーザ99の頭部の動きが一定以上になると、ユーザ99は、三次元音場内における音像の位置の識別が曖昧になることが知られている。本実施の形態に係る音響再生システム100は、この現象を利用することで計算処理の負荷量を減少させる。すなわち、音響再生システム100は、ユーザ99の頭部の動き速度を取得し、取得した動き速度が第1閾値より大きい場合に、三次元音場上の所定領域内から到達する音として知覚される複数の音を当該所定領域内の1箇所から到達する音として知覚させる。
 この所定領域は、頭部の動き速度が速いことにより、ユーザ99による音像位置の知覚が曖昧になる範囲に該当する。したがって、ユーザ99ごとに設定される必要があるので、例えば、事前に実験などを行うことで設定されればよい。また、所定領域は、ユーザ99の頭部の動き量の影響も受けるので、ユーザ99の頭部の動き量を検知することで、動き量に応じた所定領域が設定されてもよい。
 また、動き速度に対する第1閾値についても同様に、どの程度の動き速度から、ユーザ99による音像位置の知覚が曖昧になるかのユーザ99固有の数値設定が必要になる。したがって、事前に実験などを行うことで設定された値が採用されればよい。なお、複数のユーザ99の実験結果から、平均化することにより、一般化した所定領域及び第1閾値が設定されてもよい。
 [構成]
 次に、図2を参照して、本実施の形態に係る音響再生システム100の構成について説明する。図2は、実施の形態に係る音響再生システムの機能構成を示すブロック図である。
 図2に示すように、本実施の形態に係る音響再生システム100は、処理モジュール101と、通信モジュール102と、検知器103と、ドライバ104と、を備える。
 処理モジュール101は、音響再生システム100における各種の信号処理を行うための演算装置である、処理モジュール101は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。
 処理モジュール101は、入力部111、取得部121、生成部131、及び、出力部141を有する。処理モジュール101が有する各機能部の詳細は、処理モジュール101の他の構成の詳細と併せて以下に説明する。
 通信モジュール102は、音響再生システム100への音信号の入力を受け付けるためのインタフェース装置である。通信モジュール102は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音信号を受信する。より詳しくは、通信モジュール102は、無線通信のための形式に変換された音信号を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音信号への再変換を行う。これにより、音響再生システム100は、外部の装置から無線通信により音信号を取得する。通信モジュール102によって取得された音信号は、入力部111に入力される。このようにして音信号は、処理モジュール101に入力される。なお、音響再生システム100と外部の装置との通信は、有線通信によって行われてもよい。
 音響再生システム100が取得する音信号は、例えば、MPEG-H Audio等の所定の形式で符号化されている。一例として、符号化された音信号には、音響再生システム100によって再生される音についての情報と、当該音の音像を三次元音場内において所定位置に定位させる際の定位位置に関する情報とが含まれる。例えば、音信号には第1音及び第2音を含む複数の音に関する情報が含まれ、それぞれの音が再生された際の音像を三次元音場内における異なる位置に定位させる。
 この立体的な音によって、例えば、立体映像再生システム200を用いて視認される画像と併せて、視聴されるコンテンツなどの臨場感を向上することができる。なお、音信号には、音についての情報のみが含まれていてもよい。この場合、定位位置に関する情報を別途取得してもよい。また、上記したように、音信号は、第1音に関する第1音信号、及び、第2音に関する第2音信号を含むが、これらを別個に含む複数の音信号をそれぞれ取得し、同時に再生することで音像を三次元音場内における異なる位置に定位させてもよい。このように、入力される音信号の形態に特に限定はなく、音響再生システム100に各種の形態の音信号に応じた入力部111が備えられればよい。
 検知器103は、ユーザ99の頭部の動き速度を検知するための装置である。検知器103は、ジャイロセンサ、加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。本実施の形態では、検知器103は、音響再生システム100に内蔵されているが、例えば、音響再生システム100と同様にユーザ99の頭部の動きに応じて動作する立体映像再生システム200等、外部の装置に内蔵されていてもよい。この場合、検知器103は、音響再生システム100に含まれなくてもよい。また、検知器103として、外部の撮像装置などを用いて、ユーザ99の頭部の動きを撮像し、撮像された画像を処理することでユーザ99の動きを検知してもよい。
 検知器103は、例えば、音響再生システム100の筐体に一体的に固定され、筐体の動きの速度を検知する。音響再生システム100は、ユーザ99が装着した後、ユーザ99の頭部と一体的に移動するため、結果としてユーザ99の頭部の動きの速度を検知することができる。
 検知器103は、例えば、ユーザ99の頭部の動きの量として、三次元空間内で互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、検知器103は、ユーザ99の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。
 取得部121は、検知器103からユーザ99の頭部の動き速度を取得する。より具体的には、取得部121は、単位時間あたりに検知器103が検知したユーザ99の頭部の動きの量を動き速度として取得する。このようにして取得部121は、検知器103から回転速度及び変位速度の少なくとも一方を取得する。
 ここで、生成部131は、取得したユーザ99の頭部の動き速度が上記の第1閾値よりも大きいか否かの判定を行う。生成部131は、この判定の結果に基づいて、計算処理の負荷量を減少させるか否かを決定する。生成部131のより詳細な動作については、後述する。生成部131は、上記の決定内容に従って、入力された音信号に対して計算処理を実施し、音を提示させるための出力音信号を生成する。
 出力部141は、生成された出力音信号をドライバ104へと出力する機能部である。ドライバ104は、出力音信号に基づいてデジタル信号からアナログ信号への信号変換などを行うことで、波形信号を生成し、波形信号に基づいて音波を発生させ、ユーザ99に音を提示する。ドライバ104は、例えば、振動板とマグネット及びボイスコイルなどの駆動機構とを有する。ドライバ104は、波形信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ104は、出力音信号に応じた振動板の振動により、音波を発生させ、音波が空気を伝播してユーザ99の耳に伝達し、ユーザ99が音を知覚する。
 [動作]
 次に、図3を参照して、上記に説明した音響再生システム100の動作について説明する。図3は、実施の形態に係る音響再生システムの動作を示すフローチャートである。図3に示すように、まず、音響再生システム100の動作が開始されると、第1音に関する第1音信号及び第2音に関する第2音信号が取得される(ステップS101)。ここでは、外部の装置から通信モジュール102が取得した音信号が、入力部111に入力されることで、処理モジュール101が第1音信号及び第2音信号を含む音信号を取得する。
 続いて、取得部121は、検知器103から検知結果として、ユーザ99の頭部の動き速度を取得する(取得ステップS102)。生成部131は、取得した動き速度と、第1閾値と比較して、動き速度が第1閾値よりも大きいか否かの判定を行う(ステップS103)。動き速度が第1閾値以下の場合(ステップS103でNo)、音響再生システム100は、第1音及び第2音を、それぞれの本来の音像位置である第1位置及び第2位置から到達する音としてユーザ99に知覚させる。このため、生成部131は、第1音信号に、音像を第1位置に定位させるための第1頭部伝達関数を畳み込む。また、生成部131は、第2音信号に、音像を第2位置に定位させるための第2頭部伝達関数を畳み込む(ステップS104)。生成部131は、このようにして畳み込みの処理を行った第1音信号及び第2音信号を含む出力音信号を生成する(ステップS105)。
 一方で、動き速度が第1閾値より大きい場合(ステップS103でYes)、音響再生システム100は、第1音及び第2音の元の音像位置である第1位置及び第2位置に対して、これらの位置の間の第3位置から到達する音としてユーザ99に知覚させる。このため、生成部131は、第1音信号及び第2音信号を加算することで、第1音及び第2音が重畳された音に関する加算音信号を生成する。なお、第1位置及び第2位置の間とは、例えば、第1位置を通過する仮想直線と、当該仮想直線に平行な他の仮想直線であって第2位置を通過する他の仮想直線とに挟まれる領域を意味する。この際、仮想直線及び他の仮想直線上を当該領域内に含むとしてもよい。
 生成部131は、さらに、この加算音信号に、音像を第3位置に定位させるための第3頭部伝達関数を畳み込む(ステップS107)。生成部131は、このようにして畳み込みの処理を行った加算音信号を含む出力音信号を生成する(ステップS108)。なお、ステップS103~ステップS108を併せて、生成ステップともいう。
 出力部141は、生成部131によって生成された出力音信号をドライバ104に出力することでドライバ104を駆動させて、出力音信号に基づく音を提示させる(ステップS106)。このようにして、第1音及び第2音を併せて第3位置から到達する音として知覚させることができるため、第1音を第1位置から到達する音とし、第2音を第2位置から到達する音として知覚させる場合に比べ、音像を定位させるための計算処理を簡略化できる。これにより、一時的に要求処理能力を低下させ、プロセッサの駆動による発熱、計算処理に伴う電力消費などを低減できる。また、上記したように、計算処理の簡略化によっても、ユーザ99の音像位置の知覚が曖昧になっているため、臨場感への影響が少ない。音響再生システム100では、このように、必要に応じて計算処理を簡略化できるので、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
 ここで、以上に説明した第3位置について、図4を参照してより詳しく説明する。図4は、実施の形態に係る第3頭部伝達関数によって音像が定位される第3位置について説明する図である。なお、図4では、三次元音場内での音像位置を黒点によって示し、黒点からユーザ99に向けて延びる矢印によってユーザ99への音の到来方向を示している。なお、音像位置を示す黒点には仮想的なスピーカが併せて示されている。
 図4に示す例では、ユーザ99が頭部を回転させており、この回転の回転速度が第1閾値よりも大きいものとして説明を行う。なお、ユーザ99が頭部を変位させ、この変位の変位速度が第1閾値よりも大きい場合に、以下の動作が行われてもよい。この例では、白抜き両矢印に示すように、紙面に対して垂直方向の第1軸回りにユーザ99の頭部が回転している。このとき、図中に示すように、本例における第3位置P3又はP3aは、第1位置P1又はP1a及びユーザ99を結ぶ直線と、第2位置P2又はP2a及びユーザ99を結ぶ直線とが成す角を二等分する、図中にドットハッチングを付した矢印で指し示す二等分線上の位置である。
 このようにして、頭部伝達関数の畳み込みの計算処理を簡略化することで、より適切な計算処理により立体的な音をユーザ99に知覚させることが可能となる。なお、頭部伝達関数に音像の定位される距離に関する情報が含まれる場合、同じ音の到来方向において、複数の距離の位置に音像を定位させる複数の頭部伝達関数が用意され、この中から選択された1つの頭部伝達関数を畳み込む構成としてもよい。この場合、第1音と第2音との到来方向及び音像位置までの距離が平均化されるため、ユーザ99が違和感を覚えやすいので、より狭小な所定領域が設定される等の違和感の低減のための構成がさらに含まれてもよい。
 ユーザ99が頭部を変位させる場合、この変位の変位速度が第1閾値よりも大きいものとして説明を行う。この例では、例えば、紙面に沿う上下方向の第2軸に沿ってユーザ99の頭部が変位する。このとき、本例における第3位置P3は、第2軸方向に直交し、かつ、第1位置P1及び第2位置P2からの距離が等しい、等距離線上の位置である。このような位置に音像を定位させることで、ユーザ99の頭部の変位に合わせて弁別が曖昧になる距離の領域において平均的な第3位置P3を設定できる。なお、ユーザ99の頭部の変位方向は、一方向であってもよい。
 また、第3位置の設定の際に、第1位置及び第2位置のいずれか一方のそのものに対応する位置が設定されてもよい。例えば、第1音がコンテンツ上の人のセリフであり、第2音がコンテンツ上の環境音である場合等に、第1音が優先され、第1音に設定された音像位置が第3位置として設定される。これによれば、第3位置に設定される第1位置から到達する音として第1音及び第2音が知覚される。この際、第1位置から到達する音として音をユーザ99に知覚させるための第1頭部伝達関数がそのまま使用される。
 つまり、この例では、既に使用されていた頭部伝達関数を用いるため、例えば、上記の例に示すように、音信号によって、元より設定されている第1位置及び第2位置などのいずれの音像位置にも該当しない位置を第3位置とする必要がない。言い換えると、音信号によって元より設定されている音像位置を第3位置とすることができる。このため、元より設定されている音像位置に音像を定位させるための頭部伝達関数を流用できるので、三次元音場内の任意の点から到達する音としてユーザ99に音を知覚させるための頭部伝達関数をマッピングしたマッピング情報などを用いる必要がない。よって、設定された第3位置に対する頭部伝達関数の決定の処理が簡略化され、より適切な計算処理により立体的な音をユーザ99に知覚させることが可能となる。このように、第1位置と第2位置との間とは、第1位置及び第2位置そのものを含む範囲を意味する。
 また、第3位置として、第1位置と第2位置とを空間的に結ぶ線分上の中間点が設定されてもよいし、単に第1位置と第2位置との間のランダムな位置が設定されてもよい。
 [変形例]
 以下、本実施の形態の変形例に係る音響再生システムの動作について、図5及び図6を参照して説明する。なお、以下の実施の形態の変形例についての説明では、上記の実施の形態と比較して、異なる点を中心に説明し、実質的に同等の点について省略又は簡略化して説明する。
 図5は、実施の形態の変形例に係る音響再生システムの動作を示すフローチャートである。図6Aは、実施の形態の変形例に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第1図である。図6Bは、実施の形態の変形例に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第2図である。図6Cは、実施の形態の変形例に係る第3頭部伝達関数によって音像が定位される第3位置について説明する第3図である。本変形例に係る音響再生システムは、上記の実施の形態に係る音響再生システム100と比べて、第1閾値及び第2閾値を境に音信号に対して頭部伝達関数が畳み込まれる対象の音が変化する点が異なっている。
 より具体的には、本変形例に係る音響再生システムでは、第1閾値よりも小さい第2閾値が設定される。第1閾値は、上記の実施の形態と同様に、第1音及び第2音を第3位置から到達する音としてユーザ99に知覚させるための第3頭部伝達関数を適用するか否かの判定に用いられる。本変形例では、さらに、第2閾値を用いた判定により、第1音及び第2音よりも第3位置に近い第1中間位置及び第2中間位置に定位されている第1中間音及び第2中間音を第3位置から到達する音としてユーザ99に知覚させる第3頭部伝達関数を畳み込むことで、計算処理の処理量の削減を実現する。
 ここでは、ユーザ99の頭部の動き速度に基づく判定が行われ、動き速度が第2閾値以下の場合に、第1音が第1位置P1に定位され、第2音が第2位置P2に定位され、第1中間音が第1中間位置P1m(図6A等参照)に定位され、第2中間音が第2中間位置P2m(図6A等参照)に定位される。一方で、ユーザ99の頭部の動き速度が第1閾値より大きい場合に、上記のように、第1音及び第2音に関する音信号(つまり、第1音信号及び第2音信号)に第3頭部伝達関数を畳み込む処理が適用される。このとき、第1中間音及び第2中間音に関する音信号(つまり、第1中間音信号及び第2中間音信号)にも第3頭部伝達関数が畳み込まれ、第1音、第2音、第1中間音及び第2中間音がすべて第3位置P3に定位される。
 これに加え、本変形例では、ユーザ99の頭部の動き速度が第2閾値よりも大きく、かつ、第1閾値以下の場合に、第1音が第1位置P1に定位され、第2音が第2位置P2に定位され、第1中間音及び第2中間音が第3位置P3に定位される。すなわち、本変形例では、第2閾値以下のように、ユーザ99の頭部の動き速度がそれほど速くない場合には、第1位置P1及び第2位置P2が含まれず、かつ、第1中間位置P1m及び第2中間位置P2mが含まれる、より狭小な所定領域(つまり狭小領域)について、頭部伝達関数の畳み込みの計算処理が簡略化される。
 本変形例に係る音響再生システムにおける動作としては、図5に示すように、取得部121が動き速度を取得(ステップS102)した後、生成部131は、動き速度が第2閾値よりも大きいか否かの判定を行う(ステップS201)。動き速度が第2閾値以下の場合(ステップS201でNo)、ステップS202に進み、上記の実施の形態と同様に、それぞれの音信号について、本来定位されるべき位置に音像を定位させるための頭部伝達関数を畳み込む動作(ステップS202)が実施される。すなわち、第1音に関する第1音信号には、第1位置P1に音像を定位させるための第1頭部伝達関数が畳み込まれ、第2音に関する第2音信号には、第2位置P2に音像を定位させるための第2頭部伝達関数が畳み込まれ、第1中間音に関する第1中間音信号には、第1中間位置P1mに音像を定位させるための第1中間頭部伝達関数が畳み込まれ、第2中間音に関する第2中間音信号には、第2中間位置P2mに音像を定位させるための第2中間頭部伝達関数が畳み込まれる。
 一方で、動き速度が第2閾値より大きい場合(ステップS201でYes)、生成部131は、動き速度が第1閾値よりも大きいか否かの判定をさらに行う(ステップS204)。動き速度が第1閾値以下の場合(ステップS204でNo)、音響再生システム100は、第1中間音及び第2中間音を、第3位置から到達する音としてユーザ99に知覚させる。このため、生成部131は、第1中間音に関する第1中間音信号及び第2中間音に関する第第2中間音信号を加算した加算音信号に、第3頭部伝達関数を畳み込む(ステップS205)。生成部131は、このようにして畳み込みの処理を行った第1音信号、第2音信号、ならびに、第1中間音信号及び第2中間音信号を加算した加算音信号を含む出力音信号を生成する(ステップS206)。その後、ステップS106に進み、上記の実施の形態と同様の動作が実施される。
 一方で、動き速度が第1閾値より大きい場合(ステップS204でYes)、ステップS207に進み、上記の実施の形態と同様の動作により、第1音信号及び第2音信号を加算した加算音信号に対して第3頭部伝達関数を畳み込む処理が実施される。本変形例では、さらに、この加算音信号に第1中間音信号及び第2中間音信号も加算されており、第1音、第2音、第1中間音及び第2中間音が第3位置P3から到達する音としてユーザ99に知覚される。
 以上の動作の結果、本実施の形態の変形例に係る音響再生システムでは、ユーザ99の動き速度が第2閾値以下の場合に、三次元音場内に、図6Aに示す音像が形成される。なお、図6Aでは、図4と同様に三次元音場を第1軸方向から見た図が示されている。図6Aに示すように、ユーザ99の動き速度が第2閾値以下の場合に、第1音、第2音、第1中間音、及び第2中間音のそれぞれは、本来の音像位置から到達する音としてユーザ99に知覚される。
 また、本変形例に係る音響再生システムでは、ユーザ99の動き速度が第1閾値以下、かつ、第2閾値より大きい場合に、三次元音場内に、図6Bに示す音像が形成される。なお、図6Bでは、図4と同様に三次元音場を第1軸方向から見た図が示されている。
 図6Bに示すように、ユーザ99の動き速度が第1閾値以下、かつ、第2閾値より大きい場合に、本来、第1位置P1よりも第3位置P3に近い第1中間位置P1mから到達する音としてユーザ99に知覚される第1中間音が、第3位置P3から到達する音としてユーザ99に知覚される。同様に、動き速度が第1閾値以下、かつ、第2閾値より大きい場合に、本来、第2位置P2よりも第3位置P3に近い第2中間位置P2mから到達する音としてユーザ99に知覚される第2中間音が、第3位置P3から到達する音としてユーザ99に知覚される。
 さらに、本変形例に係る音響再生システムでは、ユーザ99の動き速度が第1閾値より大きい場合に、三次元音場内に、図6Cに示す音像が形成される。なお、図6Cでは、図4と同様に三次元音場を第1軸方向から見た図が示されている。
 図6Cに示すように、ユーザ99の動き速度が第1閾値より大きい場合に、第1中間位置P1m及び第2中間位置P2mを含め、第1位置P1及び第2位置P2を内包する所定領域の中に含まれる音像位置に本来定位される音が、すべて第3位置P3から到達する音としてユーザ99に知覚される。
 このようにすることで、動き速度が第2閾値を超えた際に、ユーザ99の動き速度に段階的に対応する広さの所定領域内の音が第3位置P3から到達する音としてユーザ99に知覚される。例えば、図中では、第1閾値を超える動き速度の場合、長破線で示す所定領域内の音が、第3位置P3から到達する音としてユーザ99に知覚される。また、第2閾値を超え、第1閾値以下の動き速度の場合、破線で示す狭小な所定領域(つまり狭小領域)内の音が、第3位置P3から到達する音としてユーザ99に知覚される。
 なお、この時、第3位置P3として、第1中間位置P1m及び第2中間位置P2mが考慮される。つまり、第3位置P3は、第1位置P1、第2位置P2、第1中間位置P1m及び第2中間位置P2mの4つの位置に基づいて設定される。ここでは、例えば、第3位置P3として、第1位置P1、第2位置P2、第1中間位置P1m、及び第2中間位置P2m間の中心とユーザ99とを結ぶ直線上、かつ、第1位置P1、第2位置P2、第1中間位置P1m、及び第2中間位置P2mのそれぞれから、ユーザ99の位置までの距離のうち最も短い距離と同じ距離の位置が設定される。また、第3位置P3は、第1軸方向から見た平面座標内における4つの位置に対応する座標同士の平均座標などに設定されてもよい。
 なお、さらに、ユーザ99の動き速度に対する第3閾値等の3以上の段階が設けられ、さらに狭小な所定領域内の音が第3位置P3から到達する音としてユーザ99に知覚される構成としてもよい。動き速度と所定領域の広さとの関係における段階の数に特に限定はない。
 また、第2閾値については、上記の実施の形態の説明における第1閾値と同様に、どの程度の動き速度から、ユーザ99による音像位置の知覚が曖昧になるかのユーザ99固有の数値設定などに基づいて設定されてもよいし、一般化された数値が設定されてもよい。
 (その他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。
 例えば、上記の実施の形態では、ユーザの頭部の動きに音が追従しない例を説明したが、本開示の内容は、ユーザの頭部の動きに音が追従する場合においても有効である。つまり、ユーザの頭部の動きとともに相対的に移動する第1位置から到達する音として第1音をユーザに知覚させ、ユーザの頭部の動きとともに相対的に移動する第2位置から到達する音として第2音をユーザに知覚させる動作の中で、頭部の動き速度が第1閾値より大きい場合に、第1音及び第2音をユーザの頭部の動きとともに相対的に移動する第3位置から到達する音として知覚させる。
 この場合においても、第1音及び第2音を第1位置及び第2位置に定位させるための頭部伝達関数をそれぞれの音信号に畳み込む処理が行われ、第1閾値を境に、音信号に畳み込まれる頭部伝達関数が共通化されるため、計算処理が簡略化される。すなわち、上記の実施の形態と同様に、一時的に要求処理能力を低下させ、プロセッサの駆動による発熱、計算処理に伴う電力消費などを低減できる。一方で、このような計算処理の簡略化を行ったとしてもユーザの頭部の動き速度が大きければ、音像の位置を正確に知覚することが難しくなるために、音像位置に対するユーザの違和感が大きくなりにくい。したがって、より適切な計算処理により立体的な音をユーザに知覚させることが可能となる。
 また、例えば、上記の実施の形態に説明した音響再生システムは、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、PCなどの情報処理装置が用いられてもよい。
 また、本開示の音響再生システムは、ドライバのみを備える再生装置に接続され、当該再生装置に対して、取得した音信号に基づいて頭部伝達関数の畳み込み処理を行った出力音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。
 また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、コンピュータによって実行される音声信号再生方法として実現されてもよいし、音声信号再生方法コンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示は、ユーザの頭部の動きを伴う、立体的な音をユーザに知覚させる音響再生の際に有用である。
   99 ユーザ
  100 音響再生システム
  101 処理モジュール
  102 通信モジュール
  103 検知器
  104 ドライバ
  111 入力部
  121 取得部
  131 生成部
  141 出力部
  200 立体映像再生システム
   P1、P1a 第1位置
   P2、P2a 第2位置
   P3、P3a 第3位置
   P1m 第1中間位置
   P2m 第2中間位置

Claims (9)

  1.  三次元音場上の第1位置から到達する音として第1音をユーザに知覚させ、かつ、前記第1位置とは異なる第2位置から到達する音として第2音を前記ユーザに知覚させる音響再生方法であって、
     前記ユーザの頭部の動き速度を取得する取得ステップと、
     前記三次元音場上の所定位置から到達する音を前記ユーザに知覚させるための出力音信号を生成する生成ステップと、を含み、
     前記生成ステップでは、取得した前記動き速度が第1閾値より大きい場合に、前記第1音及び前記第2音を前記第1位置と前記第2位置との間の第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する
     音響再生方法。
  2.  前記生成ステップでは、
     取得した前記動き速度が前記第1閾値以下の場合に、音を前記第1位置に定位させるための第1頭部伝達関数を、前記第1音に関する第1音信号に畳み込み、かつ、音を前記第2位置に定位させるための第2頭部伝達関数を、前記第2音に関する第2音信号に畳み込むことで前記出力音信号を生成し、
     取得した前記動き速度が前記第1閾値より大きい場合に、音を前記第3位置に定位させるための第3頭部伝達関数を、前記第1音信号に前記第2音信号を加算した加算音信号に畳み込むことで前記出力音信号を生成する
     請求項1に記載の音響再生方法。
  3.  前記動き速度は、前記ユーザの頭部を通過する第1軸回りの前記ユーザの頭部の回転速度であり、
     前記第3位置は、前記三次元音場を前記第1軸の方向からみた仮想平面内において、前記第1位置及び前記第2位置のそれぞれと前記ユーザとを結ぶ直線同士が成す角を二等分する二等分線上の位置である
     請求項1又は2に記載の音響再生方法。
  4.  前記回転速度は、前記ユーザの頭部と一体的に移動し、互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知する検知器によって検知された単位時間当たりの回転量として取得される
     請求項3に記載の音響再生方法。
  5.  前記動き速度は、前記ユーザの頭部を通過する第2軸方向に沿う前記ユーザの頭部の変位速度であり、
     前記変位速度は、前記ユーザの頭部と一体的に移動し、互いに直交する3軸の少なくとも一つを変位方向とする変位量を検知する検知器によって検知された単位時間当たりの変位量として取得される
     請求項1又は2に記載の音響再生方法。
  6.  前記音響再生方法では、前記第1位置及び前記第2位置を含む、前記三次元音場上の所定領域内の各位置から到達する複数の音であって、前記第1音及び前記第2音を少なくとも含む複数の音を前記ユーザに知覚させ、
     前記生成ステップでは、前記動き速度が前記第1閾値より大きい場合に、前記複数の音の全てを前記第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する
     請求項1~5のいずれか一項に記載の音響再生方法。
  7.  前記音響再生方法では、前記第1位置及び前記第3位置の間の第1中間位置から到達する音として第1中間音をユーザに知覚させ、かつ、前記第2位置及び前記第3位置の間の第2中間位置からの音として第2中間音をユーザに知覚させ、
     前記生成ステップでは、さらに、前記動き速度が前記第1閾値以下、かつ、前記第1閾値よりも小さい第2閾値より大きい場合に、前記第1中間音及び前記第2中間音を前記第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する
     請求項1~6のいずれか一項に記載の音響再生方法。
  8.  請求項1~7のいずれか一項に記載の音響再生方法をコンピュータに実行させるための
     プログラム。
  9.  三次元音場上の第1位置から到達する音として第1音をユーザに知覚させ、かつ、前記第1位置とは異なる第2位置から到達する音として第2音を前記ユーザに知覚させる音響再生システムであって、
     前記ユーザの頭部の動き速度を取得する取得部と、
     前記三次元音場上の所定位置から到達する音を前記ユーザに知覚させるための出力音信号を生成する生成部と、を含み、
     前記生成部は、取得した前記動き速度が第1閾値より大きい場合に、前記第1音及び前記第2音を前記第1位置及び前記第2位置の間の第3位置から到達する音として前記ユーザに知覚させるための前記出力音信号を生成する
     音響再生システム。
PCT/JP2021/008539 2020-03-16 2021-03-04 音響再生方法、プログラム、及び、音響再生システム WO2021187147A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202180019555.9A CN115244947A (zh) 2020-03-16 2021-03-04 音响再现方法、程序及音响再现系统
EP21771288.4A EP4124065A4 (en) 2020-03-16 2021-03-04 ACOUSTIC REPRODUCTION PROCEDURE, PROGRAM, AND ACOUSTIC REPRODUCTION SYSTEM
JP2022508208A JPWO2021187147A1 (ja) 2020-03-16 2021-03-04
US17/903,345 US20220417697A1 (en) 2020-03-16 2022-09-06 Acoustic reproduction method, recording medium, and acoustic reproduction system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202062990081P 2020-03-16 2020-03-16
US62/990,081 2020-03-16
JP2020209499 2020-12-17
JP2020-209499 2020-12-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/903,345 Continuation US20220417697A1 (en) 2020-03-16 2022-09-06 Acoustic reproduction method, recording medium, and acoustic reproduction system

Publications (1)

Publication Number Publication Date
WO2021187147A1 true WO2021187147A1 (ja) 2021-09-23

Family

ID=77772060

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/008539 WO2021187147A1 (ja) 2020-03-16 2021-03-04 音響再生方法、プログラム、及び、音響再生システム

Country Status (5)

Country Link
US (1) US20220417697A1 (ja)
EP (1) EP4124065A4 (ja)
JP (1) JPWO2021187147A1 (ja)
CN (1) CN115244947A (ja)
WO (1) WO2021187147A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106070A1 (ja) * 2021-12-09 2023-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響処理装置、音響処理方法、及び、プログラム
WO2023199818A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号処理装置、音響信号処理方法、及び、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017184174A (ja) * 2016-03-31 2017-10-05 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム
EP3503592A1 (en) * 2017-12-19 2019-06-26 Nokia Technologies Oy Methods, apparatuses and computer programs relating to spatial audio
JP2020018620A (ja) 2018-08-01 2020-02-06 株式会社カプコン 仮想空間における音声生成プログラム、四分木の生成方法、および音声生成装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9918177B2 (en) * 2015-12-29 2018-03-13 Harman International Industries, Incorporated Binaural headphone rendering with head tracking
US10028071B2 (en) * 2016-09-23 2018-07-17 Apple Inc. Binaural sound reproduction system having dynamically adjusted audio output

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017184174A (ja) * 2016-03-31 2017-10-05 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム
EP3503592A1 (en) * 2017-12-19 2019-06-26 Nokia Technologies Oy Methods, apparatuses and computer programs relating to spatial audio
JP2020018620A (ja) 2018-08-01 2020-02-06 株式会社カプコン 仮想空間における音声生成プログラム、四分木の生成方法、および音声生成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4124065A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106070A1 (ja) * 2021-12-09 2023-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響処理装置、音響処理方法、及び、プログラム
WO2023199818A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号処理装置、音響信号処理方法、及び、プログラム

Also Published As

Publication number Publication date
US20220417697A1 (en) 2022-12-29
EP4124065A1 (en) 2023-01-25
JPWO2021187147A1 (ja) 2021-09-23
CN115244947A (zh) 2022-10-25
EP4124065A4 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
US10959037B1 (en) Gaze-directed audio enhancement
CN111615834B (zh) 用于虚拟化的音频的甜蜜点适配的方法、系统和装置
JP7165215B2 (ja) 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム
US20120207308A1 (en) Interactive sound playback device
US20190349705A9 (en) Graphical user interface to adapt virtualizer sweet spot
US20220417697A1 (en) Acoustic reproduction method, recording medium, and acoustic reproduction system
US10542368B2 (en) Audio content modification for playback audio
US11221820B2 (en) System and method for processing audio between multiple audio spaces
JP2003032776A (ja) 再生システム
EP4214535A2 (en) Methods and systems for determining position and orientation of a device using acoustic beacons
US20230179938A1 (en) Information processing method, recording medium, and sound reproduction device
US11070933B1 (en) Real-time acoustic simulation of edge diffraction
CN111615044B (zh) 声音信号的能量分布修正方法及其系统
WO2022038931A1 (ja) 情報処理方法、プログラム、及び、音響再生装置
WO2023106070A1 (ja) 音響処理装置、音響処理方法、及び、プログラム
TW202031058A (zh) 聲音訊號的能量分布修正方法及其系統
WO2022220182A1 (ja) 情報処理方法、プログラム、及び情報処理システム
KR102549948B1 (ko) 디바이스 위치에 기초하여 오디오 필터를 결정하는 오디오 시스템 및 방법
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
US12003954B2 (en) Audio system and method of determining audio filter based on device position
JP2007318188A (ja) 音像提示方法および音像提示装置
JP2007088807A (ja) 音像提示方法および音像提示装置
CN117063489A (zh) 信息处理方法、程序和信息处理系统
JP2007166126A (ja) 音像提示方法および音像提示装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21771288

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022508208

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021771288

Country of ref document: EP

Effective date: 20221017