WO2022201456A1 - 情報呈示装置、情報呈示方法および情報呈示プログラム - Google Patents

情報呈示装置、情報呈示方法および情報呈示プログラム Download PDF

Info

Publication number
WO2022201456A1
WO2022201456A1 PCT/JP2021/012653 JP2021012653W WO2022201456A1 WO 2022201456 A1 WO2022201456 A1 WO 2022201456A1 JP 2021012653 W JP2021012653 W JP 2021012653W WO 2022201456 A1 WO2022201456 A1 WO 2022201456A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound image
virtual sound
user
information
sub
Prior art date
Application number
PCT/JP2021/012653
Other languages
English (en)
French (fr)
Inventor
智治 粟野
勝 木村
耕佑 細谷
純 正田
章紘 伊藤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/012653 priority Critical patent/WO2022201456A1/ja
Priority to JP2023508338A priority patent/JP7294561B2/ja
Publication of WO2022201456A1 publication Critical patent/WO2022201456A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an information presentation device, an information presentation method, and an information presentation program.
  • a conventional information presentation device is equipped with a cross-talk canceller (CTC), and for example, in order to give the position of a virtual sound image indicating the direction of arrival of the sound and the sense of depth to the sound output, two or more Using the audio output emitted from the speaker and the filter coefficients of the crosstalk canceller, which is the inverse matrix of the transfer function obtained from the impulse response prepared in advance, the crosstalk of the audio output reaching the user's ears is eliminated.
  • CTC cross-talk canceller
  • the present disclosure has been made in order to solve the above-described problems.
  • an information presenting device an information presenting method, and an information presenting program capable of presenting a sound that can be freely localized from a position of a speaker to a user's ear.
  • the information presentation device is The position information of the virtual sound image to be presented to the user, which is specified from the outside, is input, Using the input positional information of the virtual sound image and the positional information of the plurality of speakers arranged in the listening range of the user, the plurality of speakers are arranged so as to generate a sound image from the arrival direction of the virtual sound image. Determining the left and right position parameters of each, A crosstalk cancellation amount control parameter is determined so as to generate a virtual sound image at a depth position of the virtual sound image using the input position information of the virtual sound image and distance information obtained from the user's ear position.
  • a virtual sound image position determining unit for an acoustic signal for presentation to the user is input; Using the acoustic signal and the left/right position parameter determined by the virtual sound image position determining unit, a virtual sound image obtained by assigning the left/right positions of the acoustic signals output from the plurality of speakers in the arrival direction of the virtual sound image is generated. generate and crosstalk is eliminated using the crosstalk elimination amount control parameter for the virtual sound image to which the left and right positions in the direction of arrival are given; and a virtual sound image generation unit that generates a virtual sound image by adding a depth position to the user's ear position of the virtual sound image of the acoustic signals output from the plurality of speakers.
  • the information presentation device is The position information of the virtual sound image to be presented to the user, which is specified from the outside, is input, Using the input position information of the virtual sound image and the position information of three or more speakers arranged in the user's listening range, a virtual sound image position determining unit that determines positions of two or more sub-virtual sound images; Using the position information of the sub-virtual sound image and the position information of the plurality of speakers, Determining the left and right position parameters of each of the plurality of speakers so as to generate a sound image from the direction of arrival of the secondary virtual sound image, Using position information of the sub-virtual sound image and distance information obtained from the user's ear position, a virtual virtual sound image that determines a crosstalk cancellation amount control parameter so as to generate a virtual sound image at the depth position of the sub-virtual sound image.
  • a sound image position determination unit an acoustic signal for presentation to the user is input;
  • a virtual sound image obtained by giving the left and right positions of the sound signals output from the plurality of speakers in the direction of arrival of the auxiliary virtual sound image, using the sound signals and the left and right position parameters determined by the virtual sound image position determining unit. to generate crosstalk elimination using the crosstalk elimination amount control parameter for the sub-virtual sound image to which the left and right positions in the direction of arrival are given; a virtual sound image generation unit that generates a virtual sound image by adding a depth position to the user's ear position of the sub-virtual sound image of the acoustic signals output from the plurality of speakers.
  • the information presentation method is The position information of the virtual sound image to be presented to the user, which is specified from the outside, is input, Using the input positional information of the virtual sound image and the positional information of the plurality of speakers arranged in the listening range of the user, the plurality of speakers are arranged so as to generate a sound image from the arrival direction of the virtual sound image. Determining the left and right position parameters of each, A crosstalk cancellation amount control parameter is determined so as to generate a virtual sound image at a depth position of the virtual sound image using the input position information of the virtual sound image and distance information obtained from the user's ear position.
  • a virtual sound image obtained by assigning the left/right positions of the acoustic signals output from the plurality of speakers in the arrival direction of the virtual sound image is generated.
  • generate and crosstalk is eliminated using the crosstalk elimination amount control parameter for the virtual sound image to which the left and right positions in the direction of arrival are given; generating a virtual sound image of the acoustic signals output from the plurality of speakers to which a depth position up to the user's ear position of the virtual sound image is added.
  • the information presentation method is The position information of the virtual sound image to be presented to the user, which is specified from the outside, is input, Using the input position information of the virtual sound image and the position information of three or more speakers arranged in the user's listening range, determining the positions of two or more sub-virtual images; Using the position information of the sub-virtual sound image and the position information of the plurality of speakers, Determining the left and right position parameters of each of the plurality of speakers so as to generate a sound image from the direction of arrival of the secondary virtual sound image, A step of determining a crosstalk cancellation amount control parameter so as to generate a virtual sound image at the depth position of the sub-virtual sound image, using the position information of the sub-virtual sound image and the distance information obtained from the ear position of the user.
  • a virtual sound image obtained by giving the left and right positions of the sound signals output from the plurality of speakers in the direction of arrival of the auxiliary virtual sound image, using the sound signals and the left and right position parameters determined by the virtual sound image position determining unit. to generate crosstalk elimination using the crosstalk elimination amount control parameter for the sub-virtual sound image to which the left and right positions in the direction of arrival are given; and generating a virtual sound image to which a depth position to the position of the user's ear of the sub-virtual sound image of the acoustic signals output from the plurality of speakers is added.
  • the information presentation program is The position information of the virtual sound image to be presented to the user, which is specified from the outside, is input, Using the input positional information of the virtual sound image and the positional information of the plurality of speakers arranged in the listening range of the user, the plurality of speakers are arranged so as to generate a sound image from the arrival direction of the virtual sound image. Determining the left and right position parameters of each, A crosstalk cancellation amount control parameter is determined so as to generate a virtual sound image at a depth position of the virtual sound image using the input position information of the virtual sound image and distance information obtained from the user's ear position.
  • a virtual sound image obtained by assigning the left/right positions of the acoustic signals output from the plurality of speakers in the arrival direction of the virtual sound image is generated.
  • generate and crosstalk is eliminated using the crosstalk elimination amount control parameter for the virtual sound image to which the left and right positions in the direction of arrival are given; a step of generating a virtual sound image of the acoustic signals output from the plurality of speakers to which a depth position to the user's ear position of the virtual sound image is added.
  • the information presentation program is The position information of the virtual sound image to be presented to the user, which is specified from the outside, is input, Using the input position information of the virtual sound image and the position information of three or more speakers arranged in the user's listening range, determining the positions of two or more sub-virtual images; Using the position information of the sub-virtual sound image and the position information of the plurality of speakers, Determining the left and right position parameters of each of the plurality of speakers so as to generate a sound image from the direction of arrival of the secondary virtual sound image, A step of determining a crosstalk cancellation amount control parameter so as to generate a virtual sound image at the depth position of the sub-virtual sound image, using the position information of the sub-virtual sound image and the distance information obtained from the ear position of the user.
  • an acoustic signal for presentation to the user is input;
  • a virtual sound image obtained by giving the left and right positions of the sound signals output from the plurality of speakers in the direction of arrival of the auxiliary virtual sound image, using the sound signals and the left and right position parameters determined by the virtual sound image position determining unit. to generate crosstalk elimination using the crosstalk elimination amount control parameter for the sub-virtual sound image to which the left and right positions in the direction of arrival are given; generating a virtual sound image of the acoustic signals output from the plurality of speakers to which a depth position up to the position of the user's ear of the sub-virtual sound image is added.
  • the filter coefficient obtained from the frequency characteristic measurement result of the impulse response for each position of the virtual sound image, and the position of the virtual sound image specified from the outside, in particular, from the speaker It is possible to present sound that can be arbitrarily localized up to the user's ear, and it is possible to present appropriate information to the user.
  • FIG. 1 is a block configuration diagram of an information presentation device and an information presentation system according to Embodiment 1;
  • FIG. 4 is a table showing the contents of speaker arrangement data;
  • FIG. 4 is a schematic diagram for defining a virtual sound image generation position;
  • FIG. 4 is a schematic diagram for defining the amount of crosstalk;
  • FIG. 4 is a diagram showing an example of the relationship between the amount of crosstalk and a crosstalk cancellation amount control parameter;
  • 4 is a flow chart showing the flow of processing of the information presenting device according to the first embodiment;
  • 1 is a diagram showing an example of a hardware configuration of an information presenting device according to Embodiment 1;
  • FIG. 3 is a diagram showing another example of the hardware configuration of the information presenting device according to Embodiment 1;
  • FIG. 11 is a block configuration diagram of an information presenting device showing Embodiment 2.
  • FIG. 10 is a schematic diagram for generating a desired virtual sound image from a plurality of sub-virtual sound images according to Embodiment 2; 10 is a flow chart showing the flow of processing of the information presenting device according to the second embodiment;
  • FIG. 10 is a diagram showing an example of a hardware configuration of an information presentation device according to a second embodiment;
  • FIG. FIG. 10 is a diagram showing another example of the hardware configuration of the information presentation device according to the second embodiment;
  • FIG. 11 is a block configuration diagram of an information presenting device showing Embodiment 3;
  • FIG. 12 is a schematic diagram for correcting a desired position of a virtual sound image by controlling output volumes of a plurality of sub-virtual sound images according to Embodiment 3;
  • FIG. 1 is a block configuration diagram of an information presentation device and an information presentation system showing the first embodiment.
  • FIG. 2 is a table showing the contents of speaker arrangement data.
  • FIG. 3 is a schematic diagram for defining a virtual sound image generation position.
  • FIG. 4 is a schematic diagram for defining the amount of crosstalk.
  • FIG. 5 is a diagram showing an example of the relationship between the crosstalk amount and the crosstalk cancellation amount control parameter.
  • FIG. 6 is a flow chart showing the flow of processing of the information presenting device according to the first embodiment.
  • FIG. 7 is a diagram showing an example of the hardware configuration of the information presenting device according to the first embodiment.
  • FIG. 8 is a diagram showing another example of the hardware configuration of the information presenting apparatus according to the first embodiment.
  • an information presentation system 1000 is composed of an information presentation device 100, an external device 200, and an information output device 210.
  • an information presentation system 1000 is composed of an information presentation device 100, an external device 200, and an information output device 210.
  • the principle of operation will be explained in the case of two speakers linearly arranged on the same plane. Also good.
  • the external device 200 includes an in-vehicle information system IVI such as a navigation system for vehicles such as automobiles or railways, an occupant monitoring system, and an exterior surroundings monitoring system, a camera, a microphone, a biosensor, an ultrasonic sensor, a radar, and LiDAR (Light Detection And Landing). ) and various sensors SENS combining single or multiple state detection means.
  • IVI in-vehicle information system
  • IVI such as a navigation system for vehicles such as automobiles or railways, an occupant monitoring system, and an exterior surroundings monitoring system
  • a camera a microphone
  • biosensor a biosensor
  • ultrasonic sensor ultrasonic sensor
  • radar and LiDAR (Light Detection And Landing).
  • LiDAR Light Detection And Landing
  • the in-vehicle information system IVI receives vehicle interior/exterior information D100 detected by various sensors SENS, and determines information to be presented to the user U who is a passenger. Further, the in-vehicle information system IVI outputs sound image position data D101 at predetermined frame intervals T (for example, 10 msec) as position information of a virtual sound image of an audio signal corresponding to information to be presented to the user U.
  • predetermined frame intervals T for example, 10 msec
  • sound source data D110 is output at each predetermined frame period T.
  • the frame number ⁇ indicating the time order of individual frames will be omitted unless necessary, and if omitted, it will be regarded as the current frame.
  • the type of the sound source data D110 for example, a sine wave or rectangular wave, which is a continuous or intermittent tone sound, or a voice guidance sound can be used. It is possible to use them properly depending on the situation. In the case of sign sounds, there is no language dependency, so warning sounds that can be presented to anyone can be generated. In addition, since the voice guidance sound can add linguistic information to the sound, that is, the meaning of the warning can be added, the warning sound can be emitted in a more comprehensible manner.
  • the information presentation device 100 receives the sound image position data D101 and the sound source data D110, and outputs virtual sound image signals D111 and D112 for presentation to the user U.
  • the information output device 210 is composed of a D/A converter 220, an L speaker SP1 and an R speaker SP2, outputs a virtual sound image signal D211 from the L speaker SP1, and outputs a virtual sound image signal D212 from the R speaker SP2.
  • the information presentation device 100 is composed of a virtual sound image position determining unit 1 and a virtual sound image generating unit 2.
  • the virtual sound image generating section 2 includes a left/right position providing section 3 and a depth position providing section 4 therein.
  • the virtual sound image position determining unit 1 inputs the sound image position data D101 output by the external device 200 and the speaker arrangement data D102 output by the speaker arrangement database SPDB, and determines the desired virtual sound image S generated by the virtual sound image generating unit 2 described later. The position is determined, and a left/right position parameter D103 and a crosstalk cancellation amount control parameter ⁇ D104, which are position information of the desired virtual sound image S, are output every predetermined frame period T, respectively.
  • the speaker arrangement database SPDB stores the speaker positions for each speaker number and the range of virtual sound image generation positions that can be generated by the left-right position providing unit 3 and the depth position providing unit 4, which will be described later. , and outputs these pieces of information to the virtual sound image position determination unit 1 as speaker arrangement data D102.
  • a method of determining the generation position of the virtual sound image in the virtual sound image position determination unit 1 will be specifically described.
  • the coordinates of the position of the desired virtual sound image S are (x s , y s , z s ), and the coordinates of the position of the L speaker SP1 arranged in the listening range of the user U are (x 1 , y 1 , z 1 ), similarly, the coordinates of the position of the R speaker SP2 arranged in the listening range of the user U are (x 2 , y 2 , z 2 ), and the head of the user U faces the direction facing each speaker.
  • the left ear EARl and the right ear of the user U can also be expressed as (-w/2,0,0) and (w/2,0,0), respectively.
  • the left-right position which is the direction in which the desired virtual sound image S arrives, is first determined by an extension line (line l 1 in the figure) connecting the center of the user U's head and the position of the desired virtual sound image S;
  • the coordinates (x p , y p , z p ) of the intersection point P with the extension line (line l 2 in the drawing) of the horizontal line segment connecting the two speaker positions are calculated.
  • This intersection point P is the lateral position, which is the arrival direction of the desired virtual sound image S, given by the lateral position assigning unit 4 .
  • the arrival direction angle ⁇ of the desired virtual sound image S is calculated, and the coordinates (x 1 , y 1 , z 1 ) of the position of the L speaker SP1 are calculated. ), the coordinates (x 2 , y 2 , z 2 ) of the position of the R speaker SP2, and the coordinates of the position of the user U, the speaker position angle ⁇ 0 is calculated and output as the left and right position parameters D103.
  • the desired depth position of the virtual sound image S is, for example, the distance d L defined by the Euclidean distance from the position of the desired virtual sound image S to the left ear EARl of the user U, shown in the following equation (1), and the distance d R defined by the Euclidean distance from the position of the desired virtual sound image S to the user's U right ear EARr.
  • a target crosstalk amount which will be described later, is calculated, and a crosstalk elimination amount control parameter ⁇ D104 corresponding to this crosstalk amount is calculated.
  • the crosstalk amount used to determine the crosstalk cancellation amount control parameter ⁇ D104 is defined.
  • the crosstalk amount VCT is the received sound signal Y L ( ⁇ ), which is defined by the following equation (2) from the received sound signal Y R ( ⁇ ) at the right ear EARr of the user U.
  • This formula (2) is also the ratio of the signal received by the ear near the L speaker SP1 (that is, the left ear EAR1 of the user U) and the crosstalk signal.
  • the amount of crosstalk is defined by the L speaker SP1 and the user U's left ear EARl, but it may be defined by the R speaker SP2 and the user's U right ear EARr.
  • the received sound signal Y L ( ⁇ ) at the left ear EARl of the user U is the denominator
  • the received sound signal Y R ( ⁇ ) at the right ear EARr of the user U is the numerator, and their positions are switched.
  • FIG. 5 shows an example of changes in the amount of crosstalk VCT at the left ear EARl of the user U when the value of the crosstalk cancellation amount control parameter ⁇ D104 is changed from 0 to 1.
  • FIG. 5 shows an example of changes in the amount of crosstalk VCT at the left ear EARl of the user U when the value of the crosstalk cancellation amount control parameter ⁇ D104 is changed from 0 to 1.
  • FIG. 5 shows that the amount of crosstalk V CT (vertical axis) decreases as ⁇ increases, that is, the amount of crosstalk elimination increases.
  • the larger the crosstalk cancellation amount control parameter ⁇ D104 the closer the virtual sound image is generated near the ear of the user U, and the smaller the crosstalk cancellation amount control parameter ⁇ D104, the closer the virtual sound image is generated to the speaker. That is, by adjusting the crosstalk cancellation amount control parameter ⁇ D104, it is possible to freely generate a virtual sound image for the user U at any depth position.
  • the received sound signal Y L ( ⁇ ) at the left ear of the user U, the sound received at the right ear of the user U, Audio signals may be reproduced from the L speaker SP1 and the R speaker SP2 so that the ratio of the signal Y R ( ⁇ ) is the inverse ratio of the respective distances.
  • the crosstalk amount VCT has the following relationship (3) based on the definition of equation (2) and the distances d L and d R obtained from equation (1).
  • is an angular frequency
  • Y L ( ⁇ ) and Y R ( ⁇ ) are Fourier representations of the received sound signals.
  • the crosstalk cancellation amount control parameter ⁇ may be directly calculated by acoustic simulation.
  • the graph information in FIG. 5 may be fitted as a function (for example, converted to an approximate function) or quantized and held as a table.
  • the equation (3) takes an indefinite value, or the crosstalk amount VCT becomes 0. Therefore, as an exception, the crosstalk cancellation amount control parameter ⁇ is set to 1, and the virtual sound image is localized near the user U's ear.
  • the value of the crosstalk amount V CT in Equation (3) is equal to dL and dR . is always 0 regardless of the value of To avoid this, the relationship between the crosstalk amount V CT and the distance d L can be approximately obtained by using the following equation (4) instead of the equation (3). From equation (4), when dL is 0, the crosstalk amount VCT is 0. That is, the desired virtual sound image S can be localized at the ear position of the user U, and the distance dL increases. Accordingly, the crosstalk amount VCT increases, and the desired virtual sound image S is localized near the speaker. Note that when dL is the same as dC , the crosstalk amount VCT takes an indefinite value, so as an exception, depth is not added and only left and right positions are added.
  • d C is the distance of the line segment extending vertically from the center of the user U toward the line segment l2, and takes a predetermined non - zero value.
  • the virtual sound image generation unit 2 has a left/right position giving unit 3 and a depth position giving unit 4 therein. Generates a virtual sound image with directions and depth positions.
  • the left-right position assigning unit 3 receives, for example, a monaural sound signal s mono (t) with a sampling frequency of 16 kHz as the sound source data D110, and sets the arrival direction angle ⁇ of the desired virtual sound image S and the speaker as the left-right position parameter D103.
  • the gain g L ( ⁇ ) of the audio signal output from the L speaker SP1 and the audio output from the R speaker SP2 are adjusted so as to satisfy the following equation (5) by an amplitude panning method based on the sine law.
  • the signal gain g R ( ⁇ ) is calculated respectively.
  • Equation (6) by multiplying the monaural audio signal s mono (t) by the gains g L ( ⁇ ) and g R ( ⁇ ) obtained in Equation (5), Stereo conversion and left and right positions of the virtual sound image are given, and an audio signal s 1 (t) D111 for output from the L speaker SP1 and an audio signal s 2 (t) D112 for output from the R speaker SP2 are output, respectively. do.
  • g L ( ⁇ ) and g R ( ⁇ ) are variables that take values of 0 ⁇ g L ( ⁇ ) ⁇ 1 and 0 ⁇ g R ( ⁇ ) ⁇ 1, and the values changes.
  • an amplitude panning method based on the sine law is used, but the invention is not limited to this method.
  • Various sound localization methods can be used, such as Furthermore, not only the gain but also the phases of the audio signal D111 and the audio signal D112 may be changed. For example, the phases of the audio signal D111 and the audio signal D112 are reversed, in other words, the sign of the audio signal D111 is inverted. By changing the phase, it is possible to generate the arrival direction of the desired virtual sound image S outside the line connecting the position of the L speaker SP1 and the position of the R speaker SP2. can extend the range of stereotactic positions.
  • the depth positioning unit 4 has a crosstalk canceller CTC inside.
  • the crosstalk canceller CTC uses the crosstalk cancellation amount control parameter ⁇ D104 calculated by the virtual sound image position determination unit 1 to cancel crosstalk in the stereo audio signals D111 and D112 output by the left/right position assignment unit 3, that is, Virtual sound image signals D211 and D212 to which the depth from the L speaker SP1 and the R speaker SP2 to the position near the ear of the user U are added are generated.
  • is an angular frequency
  • is a frame number
  • S 1 ( ⁇ , ⁇ ) and S 2 ( ⁇ , ⁇ ) are Fourier representations of s 1 (t) and s 2 (t), respectively. is.
  • predetermined signals are generated between the L speaker SP1 and the user U's left ear EARl, the R speaker SP2 and the user U's right ear EARr, the R speaker SP2 and the user U's left ear EARl, and the R speaker SP2 and the user's U right ear EARr.
  • the frequency components of the impulse responses be G [1,L] ( ⁇ ), G [1,R] ( ⁇ ), G [2,L] ( ⁇ ), G [2,R] ( ⁇ ), respectively, and Define the matrix G( ⁇ ) shown in equation (8).
  • Predetermined impulses between the L speaker SP1 and the user U's left ear EARl, the R speaker SP2 and the user U's right ear EARr, the R speaker SP2 and the user U's left ear EARl, and the R speaker SP2 and the user's U right ear EARr Regarding the response it is sufficient to fix the positions of the L speaker SP1, the R speaker SP2, and the user U at predetermined positions and measure each of them only once.
  • Equation (9) The inverse matrix of G( ⁇ ) shown in Equation (8) is the filter coefficient H( ⁇ ) of the crosstalk canceller CTC, which is expressed by Equation (9) below.
  • H [1,L] ( ⁇ ), H [1,R] ( ⁇ ), H [2,L] ( ⁇ ), H [2,R] ( ⁇ ) are respectively Filter coefficients of inverse filters obtained from the impulse responses of the left ear EARl of the user U, the R speaker SP2 and the right ear EARr of the user U, the R speaker SP2 and the left ear EARl of the user U, and the impulse responses of the R speaker SP2 and the right ear EARr of the user U corresponds to
  • a crosstalk cancellation amount control parameter ⁇ is introduced to make the crosstalk cancellation amount variable with respect to the predetermined filter coefficients, and is shown in the following equation (10).
  • Equation 10 H ⁇ ( ⁇ ) obtained by Equation (10), the crosstalk is eliminated from the stereo audio signal d s ( ⁇ , ⁇ ), that is, the audio signal d ⁇ ( ⁇ , ⁇ ) to which the depth of the virtual sound image is added. ) can be obtained by the following equation (11). Note that the symbol " ⁇ " represents a hat in the formula.
  • the expression (11) is expressed in the frequency domain
  • the expression (12) is expressed by processing on the time axis, and the virtual sound image signal d 1 ⁇ (t) D211 and the virtual sound image signal d 2 ⁇ (t) Calculate D212.
  • h ⁇ [1,L] , h ⁇ [1,R] , h ⁇ [2,L] , and h ⁇ [2,R] are filters with a variable crosstalk cancellation amount of the crosstalk canceller CTC.
  • Each element of the coefficient H ⁇ ( ⁇ ) is obtained by performing an inverse Fourier transform. It corresponds to the filter coefficients of the inverse filter obtained from the impulse responses of the ear EARl, the R speaker SP2 and the user's U right ear EARr.
  • the virtual sound image signal d 1 ⁇ (t) D211 and the virtual sound image signal d 2 ⁇ (t) D212 thus obtained are output.
  • the depth amount is controlled by controlling the ratio ⁇ reflected by the filter coefficient H( ⁇ ) of the crosstalk canceller CTC. It is also possible to directly control the amount of crosstalk.
  • not only values between 0 and 1, but also negative values or values greater than 1 may be applied. In this case, the crosstalk increases or the opposite phase crosstalk is obtained.
  • Equation (14) is expressed in the frequency domain, so Equation (15) represents this in terms of processing on the time axis, and the virtual sound image signal d 1 ⁇ ( t) D211 and virtual sound image signal d 2 ⁇ (t) D212 are calculated.
  • h ⁇ [1,L] , h ⁇ [1,R] , h ⁇ [2,L] , and h ⁇ [2,R] are filters with a variable crosstalk cancellation amount of the crosstalk canceller CTC.
  • the coefficient H ⁇ ( ⁇ ) is obtained by inverse Fourier transforming each element of the coefficient H ⁇ ( ⁇ ). It corresponds to the filter coefficients of the inverse filter obtained from the impulse responses of the ear EARl, the R speaker SP2 and the user's U right ear EARr.
  • the virtual sound image signal d 1 ⁇ (t) D211 and the virtual sound image signal d 2 ⁇ (t) D212 thus obtained are output.
  • the D/A converter 220 converts the virtual sound image signal d 1 ⁇ (t) D211 and the virtual sound image signal d 2 ⁇ (t) D212, which are sampled digital signals, into analog signals, and converts them to levels that can be reproduced by speakers.
  • the virtual sound image signal d 1 ⁇ (t) D211 is output as sound from the L speaker SP1
  • the virtual sound image signal d 2 ⁇ (t) D212 is output as sound from the R speaker SP2. Note that the virtual sound image signal D211 and the virtual sound image signal D212 are output at the same timing without any time lag.
  • FIG. 6 is a flow chart showing the flow of processing of the information presentation device 100 showing the first embodiment.
  • (A) shows the flow of processing in steps ST1 and ST2
  • (B) shows the flow of processing in steps ST2A and ST2B, which are internal processing in step ST2.
  • Step ST1 First, in step ST1, the virtual sound image position determination unit 1 reads the sound image position data D101 output by the external device 200, reads the speaker placement data D102 output by the speaker placement database SPDB, and generates the The position of the desired virtual sound image S is determined, and a left/right position parameter D103 and a crosstalk elimination amount control parameter ⁇ D104, which are position information of the virtual sound image, are output.
  • Step ST2 the virtual sound image generation unit 2 reads the left/right position parameter D103, the crosstalk elimination amount control parameter ⁇ D104, and the sound source data D110, and sequentially performs the processing of steps ST2A and ST2B described later to obtain the arrival direction and depth position of the sound image. Generate and output a virtual sound image with
  • Step ST2A the left-right position assigning unit 3 reads the left-right position parameter D103 and the sound source data D110, and assigns the left-right position of the sound image to the virtual sound image. By adjusting the output characteristics of each channel for the audio signal, processing is performed to give the direction of arrival of the virtual sound image. After that, an audio signal s 1 (t) D111 for output from the L speaker 11 and an audio signal s 2 (t) D112 for output from the R speaker 12 are generated and output.
  • Step ST2B In step ST2B, the audio signal D111 and the audio signal D112 are read, and the crosstalk is eliminated in the crosstalk canceller using the crosstalk elimination amount control parameter ⁇ D104 calculated by the sound image position determination unit 1 in the processing of step ST1. , a virtual sound image signal d 1 ⁇ (t) D211 and a virtual sound image signal d 2 ⁇ (t) D212 to which the depth from the L speaker SP1 and R speaker SP2 to the ear position of the user U is added are generated and output. After completing the process of step ST2B, the process returns to step ST1.
  • Each configuration of the information presentation device 100 shown in FIG. 1 can be realized by a computer, which is an information processing device with a built-in CPU (Central Processing Unit).
  • a computer with a built-in CPU is, for example, a smartphone or tablet type portable computer, a car navigation system, an occupant monitoring system or an instrument panel (instrument panel) system, a microcomputer for embedding in an in-vehicle information system such as a vehicle exterior monitoring device. , and SoC (System on Chip).
  • each configuration of the information presentation apparatus 100 shown in FIG. 1 is an LSI (Large Scale) that is an electric circuit such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array). Integrated circuit). Also, each configuration of the information presentation apparatus 100 shown in FIG. 1 may be a combination of a computer and an LSI.
  • LSI Large Scale
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • FIG. 7 is a block diagram showing an example of the hardware configuration of the information presentation device 100 configured using an LSI such as DSP, ASIC, or FPGA.
  • the information presenting device 100 includes a control circuit 201 and a signal input/output section 202 .
  • the control circuit 201 comprises a signal processing circuit 203, a recording medium 204, and a signal path 205 such as a bus.
  • the signal input/output unit 202 is composed of an information output device 210 composed of a D/A conversion unit 220, a speaker and an amplifier, and an in-vehicle information system such as a car navigation system, an occupant monitoring system, an instrument panel system, and an exterior monitoring device. It is an interface circuit that realizes a connection function with an external device 200 that is connected to the network.
  • the recording medium 204 is used to store various data such as various setting data and signal data for the signal processing circuit 203 .
  • volatile memory such as SDRAM (Synchronous DRAM) and nonvolatile memory such as HDD (Hard Disk Drive) or SSD (Solid State Drive) can be used.
  • the recording medium 204 stores, for example, the initial state of the information presentation process, various setting data, constant data for control, and the like.
  • FIG. 8 is a block diagram showing an example of the hardware configuration of the information presenting device 100 configured using an arithmetic device such as a computer.
  • the control circuit 201 of the information presentation device 100 includes a processor 300 containing a CPU 301, a memory 302, a recording medium 303, and a signal path 304 such as a bus.
  • the memory 302 is a program memory that stores various programs for realizing the information presentation processing of the first embodiment, a work memory that is used when the processor performs data processing, and a ROM that is used as a memory for expanding signal data.
  • storage means such as (Read Only Memory) and RAM (Random Access Memory).
  • a recording medium 303 is used to store various data such as various setting data and signal data for the processor 300 .
  • a volatile memory such as SDRAM or a nonvolatile memory such as HDD or SSD can be used.
  • a startup program including an OS (Operating System) and various data such as various setting data and sound signal data can be accumulated. Note that the data in the memory 302 can also be accumulated in this recording medium 303 .
  • the processor 300 uses the RAM in the memory 302 as a working memory, and operates according to a computer program (that is, an information presentation program) read out from the ROM in the memory 302 to perform the virtual sound image position determining section 1, Information presentation processing of the virtual sound image generation unit 2 can be executed.
  • a computer program that is, an information presentation program
  • the program for executing the information presentation device 100 may be stored in a storage device inside the computer that executes the software program, or may be distributed in a computer-readable external storage medium such as a CD-ROM or flash memory. It is stored in a format that can be read and operated when the computer is started. It is also possible to acquire programs from other computers through wireless and wired networks such as LAN (Local Area Network). Furthermore, the information output device 210 and the external device 200 connected to the information presentation device 100 may transmit and receive various data as digital signals through a wireless or wired network without analog-to-digital conversion.
  • the program that executes the information presentation device 100 is combined with the program that executes the external device 200, for example, the program that executes the car navigation system, the passenger monitoring system, the instrument panel device, and the vehicle surroundings monitoring device. It is also possible to operate on one computer, or it is possible to perform distributed processing on a plurality of computers.
  • the information presentation apparatus controls the output characteristics of each of the plurality of speakers in accordance with the position information of the virtual sound image, and the crosstalk cancellation amount of the crosstalk canceller is controlled by the virtual sound image and the user.
  • the arrival direction and depth position of the virtual sound image are made variable by controlling according to the distance information to the ear, so that the position of the virtual sound image designated from the outside, especially from the speaker This has the effect of presenting a sound that can be freely localized between the user's ears.
  • the information presentation apparatus controls the output characteristics of each of the plurality of speakers in accordance with the position information of the virtual sound image, and adjusts the crosstalk cancellation amount of the crosstalk canceller between the virtual sound image and the user's ear. Since the arrival direction and depth position of the virtual sound image can be changed by controlling according to the distance information, the filter coefficients obtained from the impulse response frequency characteristic measurement result are prepared in advance for each position of the virtual sound image. It is possible to reduce the number of impulse response measurement man-hours and the storage capacity for holding filter coefficient data obtained from the impulse response, and it is also effective in reducing various costs such as device design time and device scale. Play.
  • Embodiment 2. ⁇ 2-1>> Configuration
  • two speakers the L speaker SP1 and the R speaker SP2 are used to control the direction of arrival and the depth position of the desired virtual sound image.
  • To generate a desired virtual sound image at a position that cannot be generated by two speakers by generating two or more sub-virtual sound images using three or more speakers and simultaneously outputting and synthesizing them. is possible, and this will be described as a second embodiment.
  • FIG. 9 is a block configuration diagram of an information presenting device showing Embodiment 2.
  • FIG. 10 is a schematic diagram of generating a desired virtual sound image from a plurality of sub-virtual sound images according to the second embodiment.
  • FIG. 11 is a flow chart showing the processing flow of the information presenting apparatus according to the second embodiment.
  • FIG. 12 is a diagram showing an example of the hardware configuration of the information presenting device according to the second embodiment.
  • FIG. 13 is a diagram showing another example of the hardware configuration of the information presenting device according to the first embodiment.
  • the configuration different from that in FIG. This is the sub-virtual sound image position determination unit 5 .
  • the same reference numerals as in FIG. 1 denote the same or corresponding parts.
  • the B speaker SP3 is arranged in the listening range of the user U and behind the user U.
  • the sub-virtual sound image position determination unit 5 receives the sound image position data D101 output by the external device 200 and the speaker placement data D102 output by the speaker placement database SPDB, and determines the desired virtual sound image specified by the sound image position data D101.
  • the position of the first sub-virtual sound image S1 and the position of the second sub-virtual sound image S2 are determined from the position of S and the speaker positions and the virtual sound image generatable range of the speaker arrangement data D102.
  • a speaker number required to generate the second sub-virtual sound image S2 is determined. Based on this determination result, the sub virtual sound image position determining section 5 outputs first sub sound image position data D101a and second sub sound image position data D101b.
  • the first sub-virtual sound image position determination unit 1a has functions equivalent to those of the virtual sound image position determination unit 1 of Embodiment 1, and inputs the first sub-sound image position data D101a and the speaker arrangement data D102.
  • the position of the first sub-virtual sound image S1 generated by the sub-virtual sound image generation unit 2a is determined, and the position information of the first sub-virtual sound image, that is, the left-right position parameter D103a and the crosstalk elimination amount control parameter ⁇ D104a are set at a predetermined frame period.
  • Each T is output.
  • the second sub-virtual sound image position determination unit 1b has functions equivalent to those of the virtual sound image position determination unit 1 of Embodiment 1, and inputs the second sub-sound image position data D101b and the speaker arrangement data D102.
  • the position of the second sub-virtual sound image S2 generated by the sub-virtual sound image generating unit 2b is determined, and the position information of the second sub-virtual sound image S2, that is, the left-right position parameter D103b and the crosstalk elimination amount control parameter ⁇ D104b are set to a predetermined frame. They are output for each cycle T.
  • the first sub-virtual sound image generation unit 2a has functions equivalent to those of the virtual sound image generation unit 2 of Embodiment 1, and inputs the left-right position parameter D103a, the crosstalk elimination amount control parameter ⁇ D104a, and the sound source data D110, A first sub-virtual sound image S1 to which the arrival direction and depth position of the sound image are given is generated, and the obtained first sub-virtual sound image signal D211a and first sub-virtual sound image signal D212a are output.
  • the second sub-virtual sound image generation unit 2b has functions equivalent to those of the virtual sound image generation unit 2 of Embodiment 1, and inputs the left-right position parameter D103b, the crosstalk elimination amount control parameter ⁇ D104b, and the sound source data D110, A second sub-virtual sound image S2 to which the arrival direction and depth position of the sound image are given is generated, and the obtained second sub-virtual sound image signal D211b and second sub-virtual sound image signal D212b are output.
  • the D/A conversion unit 220 converts the first sub-virtual sound image signal D211a, the first sub-virtual sound image signal D212a, the second sub-virtual sound image signal D211b, and the second sub-virtual sound image signal D212b into analog signals, which are output by speakers.
  • the first sub virtual sound image signal D211a is transmitted from the L speaker SP1, the first sub virtual sound image signal D212a from the R speaker SP2, the second sub virtual sound image signal D211b from the B speaker SP3, and the second sub virtual sound image signal D211b from the B speaker SP3.
  • the sub-virtual sound image signal D212b is output as an audio from the L speaker SP1. All of these sub-virtual sound image signals are output at the same timing without any time lag.
  • FIG. 10 is a schematic diagram of newly generating a desired virtual sound image S from the first sub-virtual sound image S1 and the second sub-virtual sound image S2 generated by the series of processes described above.
  • the user U can hear the desired position of the virtual sound image S. It can be perceived as if there is a synthesized sound image.
  • this method it is possible to generate a virtual sound image that has depth in a position that cannot be generated with two speakers, particularly in the horizontal direction of the left ear of the user U as shown in FIG.
  • FIG. 11 is a flow chart showing the flow of processing of the information presentation device 100 showing the second embodiment.
  • Step ST1 First, in step ST1, the sub-virtual sound image position determination unit 5 reads the sound image position data D101 output by the external device 200, reads the speaker placement data D102 output by the speaker placement database SPDB, and designates the sound image position data D101. Performing processing for determining the position of the first sub virtual sound image S1 and the position of the second sub virtual sound image S2 from the position of the desired virtual sound image S, the speaker position of the speaker arrangement data D102, and the virtual sound image generatable range, A process of determining speaker numbers required to generate the first sub-virtual sound image S1 and the second sub-virtual sound image S2 is performed. Based on the result of this determination, first sub sound image position data D101a and second sub sound image position data D101b, which are used in the processes of steps ST2A and ST2B, which will be described later, are output.
  • Step ST2A the first sub-virtual sound image position determination unit 1a reads the first sub-sound image position data D101a and the speaker arrangement data D102, performs processing for determining the position of the first sub-virtual sound image S1, A left/right position parameter D103a and a crosstalk elimination amount control parameter ⁇ D104a, which are position information of the virtual sound image, are output every predetermined frame period T, respectively.
  • Step ST2B the second sub-virtual sound image position determination unit 1b inputs the second sub-sound image position data D101b and the speaker arrangement data D102, performs processing for determining the position of the second sub-virtual sound image S2, and performs the second sub-virtual sound image S2.
  • a left/right position parameter D103b and a crosstalk elimination amount control parameter ⁇ D104b, which are position information of the sound image S2, are output every predetermined frame period T, respectively.
  • Step ST3A In step ST3A, in the first sub-virtual sound image generation unit 2a, the left-right position parameter D103a, the crosstalk elimination amount control parameter ⁇ D104a, and the sound source data D110 are input, and the arrival direction and depth position of the sound image are added to the first sub-virtual sound image S1. , and outputs the obtained first sub-virtual sound image signal D211a and first sub-virtual sound image signal D212a.
  • Step ST3B In step ST3B, in the second sub-virtual sound image generation unit 2b, the left-right position parameter D103b, the crosstalk elimination amount control parameter ⁇ D104b, and the sound source data D110 are input, and the direction of arrival and the depth position of the sound image are added to the second sub-virtual sound image S2. and outputs the obtained second sub-virtual sound image signal D211b and second sub-virtual sound image signal D212b. After completing the process of step ST3B, the process returns to step ST1.
  • steps ST2A and ST2B described above is in no particular order, and the processing of step ST2B may be executed before the processing of step ST2A, or the processing of both steps may be executed simultaneously. Also, the processing of steps ST3A and ST3B may be performed in any order, and the processing of step ST3B may be performed prior to the processing of step ST3A, or the processing of both steps may be performed simultaneously.
  • Each configuration of the information presenting apparatus 100 shown in FIG. 9 can be realized by a computer, which is an information processing apparatus with a built-in CPU, as shown in the first embodiment.
  • a computer with a built-in CPU is, for example, a smartphone or tablet type portable computer, a car navigation system, an occupant monitoring system or an instrument panel (instrument panel) system, a microcomputer for embedding in an in-vehicle information system such as a vehicle exterior monitoring device. , and SoCs.
  • each configuration of the information presentation device 100 shown in FIG. 9 may be realized by an LSI, which is an electric circuit such as a DSP, ASIC, or FPGA, as shown in the first embodiment. Also, each configuration of the information presentation apparatus 100 shown in FIG. 9 may be a combination of a computer and an LSI.
  • FIG. 12 is a block diagram showing an example of the hardware configuration of the information presentation device 100 configured using LSI such as DSP, ASIC, or FPGA.
  • LSI such as DSP, ASIC, or FPGA.
  • FIG. 12 the same reference numerals as those in FIG. 7 denote the same or corresponding parts, and their configurations are the same as those shown in the first embodiment, so description thereof will be omitted.
  • the sub-virtual sound image position determination unit 5, the first sub-virtual sound image position determination unit 1a, the second sub-virtual sound image position determination unit 1b, the first sub-virtual sound image generation unit 2a, and the second sub-virtual sound image generation unit shown in FIG. 2b can be realized by a control circuit 201 having a signal processing circuit 203 and a recording medium 204 shown in FIG.
  • FIG. 13 is a block diagram showing an example of the hardware configuration of the information presenting device 100 configured using an arithmetic device such as a computer.
  • the same reference numerals as those in FIG. 8 denote the same or corresponding parts, and their configurations are the same as those shown in the first embodiment, so description thereof will be omitted.
  • the sub-virtual sound image position determination unit 5 the first sub-virtual sound image position determination unit 1a, the second sub-virtual sound image position determination unit 1b, the first sub-virtual sound image generation unit 2a, and the second sub-virtual sound image generation unit shown in FIG.
  • Each function of 2b can be realized by the processor 300 , the memory 302 and the recording medium 303 which are the internal components of the control circuit 201 .
  • Processor 300 uses RAM in memory 302 as a working memory, and operates according to a computer program (that is, an information presentation program) read out from ROM in memory 302 to perform sub-virtual sound image position determination unit 5. , the first sub-virtual sound image position determination unit 1a, the second sub-virtual sound image position determination unit 1b, the first sub-virtual sound image generation unit 2a, and the second sub-virtual sound image generation unit 2b.
  • a computer program that is, an information presentation program
  • the program for executing the information presentation device 100 may be stored in a storage device inside the computer that executes the software program, or may be distributed in a computer-readable external storage medium such as a CD-ROM or flash memory. It is stored in a format that can be read and operated when the computer is started. It is also possible to acquire programs from other computers through wireless and wired networks such as LAN (Local Area Network). Furthermore, the information output device 210 and the external device 200 connected to the information presentation device 100 may transmit and receive various data as digital signals through a wireless or wired network without analog-to-digital conversion.
  • the program that executes the information presentation device 100 is combined with the program that executes the external device 200, for example, the program that executes the car navigation system, the passenger monitoring system, the instrument panel device, and the vehicle surroundings monitoring device. It is also possible to operate on one computer, or it is possible to perform distributed processing on a plurality of computers.
  • the information presentation apparatus determines two sub-virtual sound image positions from the desired position of the virtual sound image and the positions of the three speakers, and sets the output characteristics of each of the three speakers to two Two sub-virtual sound images are generated by controlling according to the position information of the sub-virtual sound images and controlling the crosstalk cancellation amount of the crosstalk canceller according to the two sub-virtual sound images and distance information to the user's ear.
  • By making the user simultaneously perceive the two generated sub-virtual sound images it is possible to present the virtual sound image to the user at a desired position of the virtual sound image. A remarkable effect is achieved in that a virtual sound image having depth in the horizontal direction of the user can be generated.
  • Embodiment 3 In the second embodiment described above, two sub-virtual sound images are generated and the user perceives the generated two sub-virtual sound images at the same time, thereby presenting the virtual sound image to the user at a desired virtual sound image position.
  • the virtual sound image may be perceived at a position different from the desired position of the virtual sound image due to differences in the size or position of the user's head. Therefore, it is possible to correct the position of the virtual sound image by controlling the output volumes of the two sub-virtual sound images, which will be described as a third embodiment.
  • FIG. 14 is a block configuration diagram of an information presenting device showing Embodiment 3.
  • FIG. 15 is a schematic diagram of correcting the position of a desired virtual sound image by controlling the output volumes of two sub-virtual sound images according to the third embodiment.
  • FIG. 14 the configuration different from that in FIG. In FIG. 14, the same reference numerals as in FIG. 9 denote the same or corresponding parts.
  • the volume correction unit 6 performs, for example, the amplitude panning method based on the sine law in the same manner as the processing described in the left-right position assignment unit 3, to generate a first sub-virtual sound image signal D211a and a second sub-virtual sound image signal D211a, which are a pair of output signals of the first sub-virtual sound image S1.
  • the output volumes of the first sub-virtual sound image signal D212a and the second sub-virtual sound image signal D211b and the second sub-virtual sound image signal D212b, which are a pair of output signals of the second sub-virtual sound image S2, are corrected and output.
  • FIG. 15 is a schematic diagram of correcting the position of the desired virtual sound image by controlling the output volumes of the two sub-virtual sound images, and the desired virtual sound image S is corrected so as to be positioned just beside the left ear EARl of the user U. It is an example to do.
  • the size of the ellipses of the first sub-virtual sound image S1 and the second sub-virtual sound image S2 represents the output sound volume.
  • the output volume of the first sub-virtual sound image S1 becomes higher than that of the second sub-virtual sound image S2 by correcting the volume by the volume correction unit 6, but the virtual sound image moves in the direction of increasing the volume.
  • the position of the desired virtual sound image S moves in the direction after the correction rather than before the correction. Therefore, by controlling the output volume of the sub-virtual sound image, it becomes possible to correct the desired position of the virtual sound image, and to increase the accuracy of the desired position of the virtual sound image.
  • a monaural audio signal with a sampling frequency of 16 kHz is used as the sound source data D110. It is also possible to obtain the same effect as described above by using stereo signals instead of monaural sound source data.
  • any component of the embodiment can be modified, or any component of the embodiment can be omitted.
  • the information presentation device is suitable for use in, for example, an in-vehicle information system such as an exterior surroundings monitoring system.
  • an in-vehicle information system such as an exterior surroundings monitoring system.
  • various sensors SENS detect obstacles outside the vehicle, and the user of the information presentation system 1000 A warning sound corresponding to the detection direction of the obstacle and the far-near situation can be output to the user U so as to perceive it as the arrival direction of the virtual sound image and the sense of depth. It can be used as a vehicle exterior surroundings monitoring system with improved

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

必要な音の到来方向や奥行き感を示す仮想音像の位置毎の情報を事前に必要とせずに、外部から指定される仮想音像の位置、特に、スピーカからユーザの耳元までの間に定位することが可能な音声を呈示する。 仮想音像の位置情報と、複数のスピーカの位置情報と、ユーザの耳元位置とから得られる距離情報とを用いて、仮想音像の到来方向と奥行き位置に音像を生成するように、複数のスピーカのそれぞれの左右位置パラメータと、クロストーク消去量制御パラメータとを決定する仮想音像位置決定部(1)と、 ユーザに呈示するための音響信号と、仮想音像位置決定部(1)により決定された左右位置パラメータと、クロストーク消去量制御パラメータとを用いて、仮想音像の到来方向とユーザ耳元位置までの奥行き位置を付与した仮想音像を生成する仮想音像生成部(2)を備える。

Description

情報呈示装置、情報呈示方法および情報呈示プログラム
 本開示は、情報呈示装置、情報呈示方法および情報呈示プログラムに関する。
 従来の情報呈示装置では、ユーザに対して状況変化を伝える方法として、効果音、警告音などのサイン音、あるいは音声ガイダンスなどの音声出力による聴覚的な情報呈示が有効な方法として広く使われている。従来の情報呈示装置はクロストークキャンセラ(Cross-Talk Canceller;CTC)を備え、上記音声出力に対して例えば、音の到来方向及び奥行き感を示す仮想音像の位置を付与するために、2つ以上のスピーカから発せられる音声出力と、事前に用意したインパルス応答から得られる伝達関数の逆行列である、クロストークキャンセラのフィルタ係数とを用いて、ユーザの両耳に届く音声出力のクロストークを消去することで、スピーカ位置と異なる位置に仮想音像を生成する技術が知られている(例えば、特許文献1参照)。
国際公開第2019/163013号
 上記した従来の情報呈示装置は、必要な音の到来方向及び奥行き感を示す仮想音像の位置毎に、インパルス応答の周波数特性測定結果から得られるフィルタ係数を事前に用意しておく必要があり、インパルス応答の測定工数、インパルス応答から得られるフィルタ係数データを保持するための記憶容量が大きくかかることに加え、インパルス応答を測定した位置に対応した仮想音像しか得られず、自在に仮想音像の位置を変更することはできないといった課題があった。
 本開示は、上述の課題を解決するためになされたものであり、仮想音像の位置毎のインパルス応答の周波数測定結果から得られるフィルタ係数を事前に用意することなく、外部から指定される仮想音像の位置、特に、スピーカからユーザの耳元までの間に自在に定位することが可能な音声を呈示することが可能な情報呈示装置、情報呈示方法および情報呈示プログラムを得ることを目的とする。
 本開示に係る情報呈示装置は、
外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された複数のスピーカの位置情報を用いて、前記仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
前記入力された前記仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定する仮想音像位置決定部と、
前記ユーザに呈示するための音響信号が入力され、
前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
前記到来方向における左右位置を付与した仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
前記複数のスピーカから出力される前記音響信号の、前記仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成する仮想音像生成部、を備えるものである。
 また、本開示に係る情報呈示装置は、
外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された3つ以上の複数のスピーカの位置情報を用いて、
2つ以上の副仮想音像の位置を決定する仮想音像位置判断部と、
前記副仮想音像の位置情報と、前記複数のスピーカの位置情報とを用いて、
前記副仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
前記副仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記副仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定する仮想音像位置決定部と、
前記ユーザに呈示するための音響信号が入力され、
前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
前記到来方向における左右位置を付与した副仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成する仮想音像生成部、を備えるものである。
 また、本開示に係る情報呈示方法は、
外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された複数のスピーカの位置情報を用いて、前記仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
前記入力された前記仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
前記ユーザに呈示するための音響信号が入力され、
前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
前記到来方向における左右位置を付与した仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
前記複数のスピーカから出力される前記音響信号の、前記仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、を備えるものである。
また、本開示に係る情報呈示方法は、
外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された3つ以上の複数のスピーカの位置情報を用いて、
2つ以上の副仮想音像の位置を決定するステップと、
前記副仮想音像の位置情報と、前記複数のスピーカの位置情報とを用いて、
前記副仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
前記副仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記副仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
前記ユーザに呈示するための音響信号が入力され、
前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
前記到来方向における左右位置を付与した副仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、を備えるものである。
 また、本開示に係る情報呈示プログラムは、
外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された複数のスピーカの位置情報を用いて、前記仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
前記入力された前記仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
前記ユーザに呈示するための音響信号が入力され、
前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
前記到来方向における左右位置を付与した仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
前記複数のスピーカから出力される前記音響信号の、前記仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、をコンピュータにより実行させるものである。
 また、本開示に係る情報呈示プログラムは、
外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された3つ以上の複数のスピーカの位置情報を用いて、
2つ以上の副仮想音像の位置を決定するステップと、
前記副仮想音像の位置情報と、前記複数のスピーカの位置情報とを用いて、
前記副仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
前記副仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記副仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
前記ユーザに呈示するための音響信号が入力され、
前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
前記到来方向における左右位置を付与した副仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、をコンピュータにより実行させるものである。
 本開示によれば、仮想音像の位置毎に、インパルス応答の周波数特性測定結果から得られるフィルタ係数を事前に用意しておく必要がなく、外部から指定される仮想音像の位置、特に、スピーカからユーザの耳元までの間に自在に定位することが可能な音声を呈示することができ、ユーザにとって適切な情報呈示が可能となるという効果を有する。
実施の形態1を示す情報呈示装置及び情報呈示システムのブロック構成図である。 スピーカ配置データの内容を示す表である。 仮想音像生成位置を定義するための模式図である。 クロストーク量を定義するための模式図である。 クロストーク量とクロストーク消去量制御パラメータとの関係の一例を示す図である。 実施の形態1を示す情報呈示装置の処理の流れを示すフローチャートである。 実施の形態1を示す情報呈示装置のハードウェア構成の一例を示す図である。 実施の形態1を示す情報呈示装置のハードウェア構成の別の一例を示す図である。 実施の形態2を示す情報呈示装置のブロック構成図である。 実施の形態2における複数の副仮想音像から所望する仮想音像を生成する模式図である。 実施の形態2を示す情報呈示装置の処理の流れを示すフローチャートである。 実施の形態2を示す情報呈示装置のハードウェア構成の一例を示す図である。 実施の形態2を示す情報呈示装置のハードウェア構成の別の一例を示す図である。 実施の形態3を示す情報呈示装置のブロック構成図である。 実施の形態3における複数の副仮想音像の出力音量を制御して所望する仮想音像の位置を補正する模式図である。
実施の形態1.
《1-1》構成
 実施の形態1における情報呈示装置について図1~図8を用いて説明する。図1は本実施の形態1を示す情報呈示装置及び情報呈示システムのブロック構成図である。図2はスピーカ配置データの内容を示す表である。図3は仮想音像生成位置を定義するための模式図である。図4はクロストーク量を定義するための模式図である。図5はクロストーク量とクロストーク消去量制御パラメータとの関係の一例を示す図である。図6は本実施の形態1を示す情報呈示装置の処理の流れを示すフローチャートである。図7は本実施の形態1を示す情報呈示装置のハードウェア構成の一例を示す図である。図8は本実施の形態1を示す情報呈示装置のハードウェア構成の別の一例を示す図である。
 図1において、情報呈示システム1000は、情報呈示装置100と、外部装置200と、情報出力装置210とで構成されている。本実施の形態では説明を簡単にするために、同一平面上で直線配置した2個のスピーカの場合で動作原理を説明するが、3個以上のスピーカを用いた3次元配置の構成であっても良い。
 外部装置200は、自動車あるいは鉄道等の車両のナビゲーションシステム、乗員モニタリングシステム、車外周囲監視システム等の車載情報システムIVIと、カメラ、マイクロフォン、生体センサ、超音波センサ、レーダ及びLiDAR(Light Detection And Randging)等の単一あるいは複数の状態検出手段を組み合わせた各種センサSENSとで構成されている。
 各種センサSENSは、車内あるいは車外に設置され、例えば、車内の乗員の視線、眠気などの人の状態、あるいは車外の障害物、交通状況などの車内外情報D100を検出し出力する。車載情報システムIVIは、各種センサSENSで検出した車内外情報D100が入力され、乗員であるユーザUに呈示すべき情報を判断する。更に車載情報システムIVIは、ユーザUに呈示すべき情報に対応した音声信号の仮想音像の位置情報として、所定のフレーム周期T(例えば、10msec)毎に、音像位置データD101を出力すると共に、ユーザUに呈示すべき情報に対応した音声信号として、所定のフレーム周期T毎に、音源データD110を出力する。なお、以降の説明において、個々のフレームの時間順序を示すフレーム番号τは、必要な場合を除きその記載を省略し、省略されている場合は現在のフレームとして見做すこととする。
 音源データD110の種類として、例えば、正弦波あるいは矩形波などのトーン音が連続あるいは断続するサイン音、あるいは音声によるガイダンス音を用いることができ、ユーザUに呈示すべき情報の種類、または状況に応じて使い分けることが可能である。サイン音の場合は言語依存性が無いので、誰にでも呈示可能な警告音を発することができる。また、音声によるガイダンス音は音に言語情報を付加することができる、すなわち、警告の意味を付加することができるので、より分かりやすい警告音を発することができる。
 情報呈示装置100は、音像位置データD101及び音源データD110が入力され、ユーザUに呈示するための仮想音像信号D111及びD112を出力する。
 情報出力装置210は、D/A変換部220、LスピーカSP1及びRスピーカSP2とで構成され、仮想音像信号D211をLスピーカSP1から出力すると共に、仮想音像信号D212をRスピーカSP2から出力する。
 図1において、情報呈示装置100は、仮想音像位置決定部1、仮想音像生成部2とから構成される。また、仮想音像生成部2は、その内部に左右位置付与部3、奥行き位置付与部4から構成される。
(仮想音像位置決定部1)
 仮想音像位置決定部1は、外部装置200が出力する音像位置データD101、スピーカ配置データベースSPDBが出力するスピーカ配置データD102を入力し、後述する仮想音像生成部2で生成する所望する仮想音像Sの位置を決定し、所望する仮想音像Sの位置情報である、左右位置パラメータD103、クロストーク消去量制御パラメータλD104を、所定のフレーム周期T毎にそれぞれ出力する。
 スピーカ配置データベースSPDBは、図2に示すように、スピーカ番号毎のスピーカ位置と、後述する左右位置付与部3及び奥行き位置付与部4により生成可能な仮想音像生成位置の範囲とを記憶しており、これらの情報をスピーカ配置データD102として仮想音像位置決定部1に出力する。
(仮想音像生成位置の定義)
 仮想音像位置決定部1における仮想音像の生成位置の決定方法について具体的に説明する。図3に示すように、所望する仮想音像Sの位置の座標を(x,y,z)、ユーザUの聴取範囲に配置されたLスピーカSP1の位置の座標を(x,y,z)、同様にユーザUの聴取範囲に配置されたRスピーカSP2の位置の座標を(x,y,z)、ユーザUの頭部は各スピーカに相対する向きに向いており、LスピーカSP1からユーザUまでの距離とRスピーカSP2からユーザUまでの距離は等しいものとする。また、ユーザUの左耳EARlの位置の座標を(x,y,z)、ユーザUの右耳EARrの位置の座標を(x,y,z)とする。なお、ユーザUの頭部の中心の座標を原点(0,0,0)に置き、ユーザUの頭部の0より大きい所定の幅をwとした場合、ユーザUの左耳EARl及び右耳EARrの位置の座標は、それぞれ(-w/2,0,0)、(w/2,0,0)と表現することもできる。
 所望する仮想音像Sの到来方向である左右位置は、まず、ユーザUの頭部の中心と所望する仮想音像Sの位置とを結ぶ線分の延長線(図中の線l)と、2つのスピーカ位置を結ぶ水平方向の線分の延長線(図中の線l)との交点Pの座標(x,y,z)を算出する。この交点Pが左右位置付与部4により付与される、所望する仮想音像Sの到来方向である左右位置である。この交点Pの座標(x,y,z)を用いて、所望する仮想音像Sの到来方向角度θを算出すると共に、LスピーカSP1の位置の座標(x,y,z)、RスピーカSP2の位置の座標(x,y,z)、及びユーザUの位置の座標とからスピーカ位置角度θとを算出し、左右位置パラメータD103としてそれぞれ出力する。
 次に、所望する仮想音像Sの奥行き位置は、例えば、次の式(1)に示す、所望する仮想音像Sの位置からユーザUの左耳EARlまでのユークリッド距離により定義される距離d、及び所望する仮想音像Sの位置からユーザUの右耳EARrまでのユークリッド距離により定義される距離dにより決定する。この距離d及び距離dを用いて、後述する目標とするクロストーク量を算出し、このクロストーク量に対応するクロストーク消去量制御パラメータλD104を算出する。
Figure JPOXMLDOC01-appb-M000001
(クロストーク量の定義)
 ここで、クロストーク消去量制御パラメータλD104を決定するのに用いるクロストーク量を定義する。クロストーク量VCTは、図4に示すように、単一スピーカ(図4ではLスピーカSP1)で音声信号を再生する条件の下、ユーザUの左耳EARlでの受音信号Y(ω)、ユーザUの右耳EARrでの受音信号Y(ω)から次の式(2)で定義される。
Figure JPOXMLDOC01-appb-M000002

 この式(2)は、LスピーカSP1から近い耳(すなわちユーザUの左耳EARl)で受音した信号とクロストーク信号の比でもある。なお、図3の例では、LスピーカSP1とユーザUの左耳EARlでクロストーク量を定義しているが、RスピーカSP2とユーザUの右耳EARrで定義しても良く、式(2)における、ユーザUの左耳EARlの受音信号Y(ω)が分母、ユーザUの右耳EARrでの受音信号Y(ω)が分子となり、それぞれの位置が入れ替わることとなる。
 図5は、クロストーク消去量制御パラメータλD104の値を0から1まで動かした際の、ユーザUの左耳EARlにおけるクロストーク量VCTの変化の一例を示すものである。図5より、λの増加に合わせてクロストーク量VCT(縦軸)が減少、つまりクロストークを消去する量が増加していることがわかる。クロストーク消去量制御パラメータλD104は大きいほどユーザUの耳元側に仮想音像を生成し、クロストーク消去量制御パラメータλD104が小さいほどスピーカに近い位置に仮想音像を生成する。つまり、クロストーク消去量制御パラメータλD104を調整することで、ユーザUに対して奥行き位置に自在に仮想音像を生成することが可能となる。
 より具体的に述べるならば、所望する仮想音像Sの位置に仮想音像を生成するためには、ユーザUの左耳での受音信号Y(ω)、ユーザUの右耳での受音信号Y(ω)の比がそれぞれの距離の逆比になるようにLスピーカSP1及びRスピーカSP2から音声信号を再生すればよい。つまり、式(2)の定義と、式(1)で得られる距離d、距離dより、クロストーク量VCTは次の式(3)の関係が成り立つ。
Figure JPOXMLDOC01-appb-M000003

 ここで、ωは角周波数であり、Y(ω)及びY(ω)は、それぞれの受音信号をフーリエ表現したものである。
 よって、図5のグラフを参照し、式(3)に示すクロストーク量VCT(縦軸)を満たすようにクロストーク消去量制御パラメータλ(横軸)を調整することで、所望する仮想音像Sの奥行き位置を制御することができる。なお、図5のクロストーク量VCTとクロストーク消去量制御パラメータλD104の関係を表すグラフを参照する以外の方法として、音響シミュレーションで直接的にクロストーク消去量制御パラメータλD104を算出してもよい。また、図5のグラフ情報は関数としてフィッティング(例えば、近似関数に変換)、もしくは量子化してテーブルとして保持してもよい。
 なお、式(3)において、dあるいはdが0の場合、式(3)が不定値を取る、あるいは、クロストーク量VCTが0となるので、例外処理としてクロストーク消去量制御パラメータλは1に設定し、ユーザUの耳元に仮想音像を定位させる。
 また、所望する仮想音像の位置がユーザUの正面となる場合、すなわち、dとdが等距離となる場合、式(3)のクロストーク量VCTの値が、dとdの値にかかわらず常に0となる。これを避けるため、次の式(4)を式(3)の代わりに用いることで、クロストーク量VCTと距離dとの関係を近似的に得ることができる。式(4)より、dが0となる場合はクロストーク量VCTは0となる、すなわち、ユーザUの耳元位置に所望する仮想音像Sを定位させることができ、距離dが増加するに従ってクロストーク量VCTが大きくなり、スピーカに近い位置に所望する仮想音像Sが定位することとなる。なお、dがdと同一となる場合、クロストーク量VCTは不定値を取るので、例外処理として奥行き付与を行わず、左右位置のみ付与する。
Figure JPOXMLDOC01-appb-M000004

 ここで、dは図3に示すように、ユーザUの中心から線分lに向かって垂直に伸ばした線分の距離であり、0ではない所定の値を取る。
 仮想音像生成部2は、その内部に左右位置付与部3及び奥行き位置付与部4を有しており、左右位置パラメータD103、クロストーク消去量制御パラメータλD104、音源データD110を入力し、音像の到来方向と奥行き位置を付与した仮想音像を生成する。
(左右位置付与部3)
 仮想音像生成部2の内部構成である左右位置付与部3の詳細を説明する。左右位置付与部3は、音源データD110として、例えば、サンプリング周波数16kHzのモノラル音声信号smono(t)を入力すると共に、左右位置パラメータD103である、所望する仮想音像Sの到来方向角度θとスピーカ位置角度θとを入力し、仮想音像に音像の左右位置を付与する処理、すなわち、モノラル音声信号をステレオ化する共に、ステレオ化した音声信号に対し、それぞれのチャンネルの出力特性を調整することで、仮想音像の到来方向を付与する処理が為される。本実施の形態では、例えば、サイン則による振幅パニング法により、次の式(5)を満たすように、LスピーカSP1から出力する音声信号のゲインg(τ)、RスピーカSP2から出力する音声信号のゲインg(τ)をそれぞれ算出する。
Figure JPOXMLDOC01-appb-M000005
 続いて、式(6)に示すように、モノラル音声信号smono(t)に対して、式(5)で得られたゲインg(τ)及びg(τ)を乗算することで、ステレオ化ならびに仮想音像の左右位置を付与し、LスピーカSP1から出力するための音声信号s(t)D111と、RスピーカSP2から出力するための音声信号s(t)D112とをそれぞれ出力する。
Figure JPOXMLDOC01-appb-M000006

 ここで、tはサンプル時間、τはフレーム番号である。また、g(τ)及びg(τ)は、それぞれ0≦g(τ)≦1、0≦g(τ)≦1の値をとる変数であり、フレーム周期T毎にその値は変化する。
 なお、本実施の形態では、ゲインg(τ)及びg(τ)の算出方法として、サイン則による振幅パニング法を用いているが、これに限ることは無く、例えば、タンジェント則又は線形則などのさまざまな音像定位法を用いることができる。更に、ゲインだけでは無く音声信号D111及び音声信号D112の位相も変化させても良い。例えば、音声信号D111と音声信号D112とが逆位相となるようにする、言い換えれば、音声信号D111の信号の符号を反転させることである。位相を変化させることで、所望する仮想音像Sの到来方向を、LスピーカSP1の位置とRスピーカSP2の位置とを結ぶ線分よりも外側に生成することが可能であり、所望する仮想音像Sの定位位置の範囲を広げることができる。
(奥行き位置付与部4)
 続いて、奥行き位置付与部4の詳細を説明する。奥行き位置付与部4は、その内部にクロストークキャンセラCTCを有する。クロストークキャンセラCTCは、左右位置付与部3が出力するステレオ音声信号D111、D112に対して、仮想音像位置決定部1が算出したクロストーク消去量制御パラメータλD104を用いてクロストークを消去、すなわち、LスピーカSP1及びRスピーカSP2からユーザUの耳元位置までの奥行きを付与した仮想音像信号D211、D212を生成する。
(クロストークキャンセラCTCの詳細)
 ここで、クロストークキャンセラCTCの詳細動作を説明する。まず、左右位置付与部3から得られた音声信号s(t)D111と音声信号s(t)D112とから、2チャンネルのステレオ音声信号d(ω,τ)を次の式(7)のように定義する。
Figure JPOXMLDOC01-appb-M000007

 ここで、ωは角周波数、τはフレーム番号であり、S(ω,τ)、S(ω,τ)は、それぞれs(t)とs(t)とをフーリエ表現したものである。
 続いて、LスピーカSP1とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARr、RスピーカSP2とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARrとの所定のインパルス応答の周波数成分を、それぞれG[1,L](ω)、G[1,R](ω)、G[2,L](ω)、G[2,R](ω)とし、次の式(8)で示す行列G(ω)を定義する。なお、LスピーカSP1とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARr、RスピーカSP2とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARrとの所定のインパルス応答については、LスピーカSP1、RスピーカSP2及びユーザUの位置を所定の位置に固定した上で、それぞれ一度だけ測定すればよい。
Figure JPOXMLDOC01-appb-M000008

 式(8)に示したG(ω)の逆行列を取ったものが、クロストークキャンセラCTCのフィルタ係数H(ω)であり、次の式(9)で表される。
Figure JPOXMLDOC01-appb-M000009

 ここで、H[1,L](ω)、H[1,R](ω)、H[2,L](ω)、H[2,R](ω)は、それぞれ、LスピーカSP1とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARr、RスピーカSP2とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARrのインパルス応答から得られる逆フィルタのフィルタ係数に相当する。この所定のフィルタ係数に対して、クロストーク消去量を可変とするためにクロストーク消去量制御パラメータλを導入したものを、次の式(10)で示す。
Figure JPOXMLDOC01-appb-M000010

 ここでIは単位行列である。式(10)で得られたHλ(ω)を用いて、ステレオ音声信号d(ω,τ)からクロストークを消去、すなわち、仮想音像の奥行きを付与した音声信号d^(ω,τ)は次の式(11)で得ることができる。なお、記号”^”は、数式でのハット(hat)を表している。
Figure JPOXMLDOC01-appb-M000011

 また、式(11)は周波数領域での表現であるので、これを時間軸での処理で表したものが式(12)であり、仮想音像信号d^(t)D211及び仮想音像信号d^(t)D212を算出する。
Figure JPOXMLDOC01-appb-M000012

 ここで、hλ[1,L]、hλ[1,R]、hλ[2,L]、hλ[2,R]は、クロストークキャンセラCTCのクロストーク消去量を可変としたフィルタ係数Hλ(ω)の各要素を逆フーリエ変換したものであり、それぞれ、LスピーカSP1とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARr、RスピーカSP2とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARrのインパルス応答から得られる逆フィルタのフィルタ係数に相当する。以上、得られた仮想音像信号d^(t)D211、及び仮想音像信号d^(t)D212を出力する。
 上記では、クロストークキャンセラCTCのフィルタ係数H(ω)の反映する比率λの制御により奥行き量の制御を行っていたが、これに限ることは無く、例えば、式(13)に示すρを用いることでクロストーク量を直接制御することも可能である。
Figure JPOXMLDOC01-appb-M000013

 ここで、ρは図5で示したλと同様に0から1までの間の値をとるとき、前出のλと同等の効果を得られ、値が1に近いほどクロストーク量が減少する。式(13)ではフィルタ係数Hρ(ω)の対角成分はパラメータρで制御せず、制御箇所が少ないので扱いやすくなり、フィルタ係数Hρ(ω)の調整工数を削減できる効果がある。
 また、ρに関しては0から1の値のみならず、負の値、もしくは1より大きい値を適用してもよい。その場合、クロストークが増加、もしくは逆相のクロストークを得ることとなるが、それぞれ音像が狭くなる効果、音像の拡がり感が得られる効果がある。
 式(13)で得られたHρ(ω)を用いて、ステレオ音声信号d(ω,τ)からクロストークを消去、すなわち、仮想音像の奥行きを付与した音声信号d^(ω,τ)は次の式(14)で得ることができる。
Figure JPOXMLDOC01-appb-M000014

 また、式(11)と同様に、式(14)は周波数領域での表現であるので、これを時間軸での処理で表したものが式(15)であり、仮想音像信号d^(t)D211及び仮想音像信号d^(t)D212を算出する。
Figure JPOXMLDOC01-appb-M000015

 ここで、hρ[1,L]、hρ[1,R]、hρ[2,L]、hρ[2,R]は、クロストークキャンセラCTCのクロストーク消去量を可変としたフィルタ係数Hρ(ω)の各要素を逆フーリエ変換したものであり、それぞれ、LスピーカSP1とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARr、RスピーカSP2とユーザUの左耳EARl、RスピーカSP2とユーザUの右耳EARrのインパルス応答から得られる逆フィルタのフィルタ係数に相当する。以上、得られた仮想音像信号d^(t)D211、及び仮想音像信号d^(t)D212を出力する。
 D/A変換部220は、サンプリングされたデジタル信号である仮想音像信号    d^(t)D211、及び仮想音像信号d^(t)D212をアナログ信号へ変換し、スピーカで再生可能なレベルに増幅した後、仮想音像信号d^(t)D211をLスピーカSP1から音声出力すると共に、仮想音像信号d^(t)D212をRスピーカSP2から音声出力する。なお、仮想音像信号D211と仮想音像信号D212は時間ずれ無く同じタイミングで音声出力する。
《1-2》処理動作
 続いて、実施の形態1の情報呈示装置の処理動作について図6を用いて説明する。図6は、本実施の形態1を示す情報呈示装置100の処理の流れを示すフローチャートである。(A)はステップST1とステップST2の処理の流れを示し、(B)はステップST2中の内部処理であるステップST2AとステップST2Bの処理の流れを示す。
(ステップST1)
 まず、ステップST1で、仮想音像位置決定部1において、外部装置200が出力する音像位置データD101を読み込むと共に、スピーカ配置データベースSPDBが出力するスピーカ配置データD102を読み込み、後述するステップST2の処理で生成する所望する仮想音像Sの位置を決定し、仮想音像の位置情報である、左右位置パラメータD103、クロストーク消去量制御パラメータλD104をそれぞれ出力する。
(ステップST2)
 ステップST2では、仮想音像生成部2において、左右位置パラメータD103、クロストーク消去量制御パラメータλD104、音源データD110を読み込み、後述するステップST2A、ステップST2Bの処理を順次行い、音像の到来方向と奥行き位置を付与した仮想音像を生成し出力する。
(ステップST2A)
 ステップST2Aでは、左右位置付与部3において、左右位置パラメータD103と、音源データD110とを読み込み、仮想音像に音像の左右位置を付与する処理、すなわち、モノラル音声信号をステレオ化する共に、ステレオ化した音声信号に対し、それぞれのチャンネルの出力特性を調整することで、仮想音像の到来方向を付与する処理が為される。その後、Lスピーカ11から出力するための音声信号s(t)D111と、Rスピーカ12から出力するための音声信号s(t)D112とをそれぞれ生成し出力する。
(ステップST2B)
 ステップST2Bでは、音声信号D111と、音声信号D112とを読み込み、クロストークキャンセラにおいて、ステップST1の処理で音像位置決定部1が算出したクロストーク消去量制御パラメータλD104を用いてクロストークを消去、すなわち、LスピーカSP1及びRスピーカSP2からユーザUの耳元位置までの奥行きを付与した仮想音像信号d^(t)D211、仮想音像信号d^(t)D212とをそれぞれ生成し出力する。ステップST2Bの処理が完了した後、ステップST1の処理に戻る。
《1-3》ハードウェア構成
(ハードウェア)
 図1に示される情報呈示装置100の各構成は、CPU(Central Processing Unit)内蔵の情報処理装置であるコンピュータで実現可能である。CPU内蔵のコンピュータは、例えば、スマートフォン又はタブレットタイプの可搬型コンピュータ、カーナビゲーションシステム、乗員モニタリングシステム又は計器盤(インストルメントパネル)システム、車外周囲監視装置などの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びSoC(System on Chip)などである。
 また、図1に示される情報呈示装置100の各構成は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、又はFPGA(Field-Programmable Gate Array)などの電気回路であるLSI(Large Scale Integrated circuit)により実現されてもよい。また、図1に示される情報呈示装置100の各構成は、コンピュータとLSIの組み合わせであってもよい。
 図7は、DSP、ASIC又はFPGAなどのLSIを用いて構成される情報呈示装置100のハードウェア構成の例を示すブロック図である。図7の例では、情報呈示装置100は、制御回路201と信号入出力部202、を備えている。制御回路201は、信号処理回路203、記録媒体204、及びバスなどの信号路205を備える。信号入出力部202は、D/A変換部220とスピーカ及びアンプで構成される情報出力装置210、ならびにカーナビゲーションシステム、乗員モニタリングシステム、計器盤システム、車外周囲監視装置などの車載情報システムで構成される外部装置200との接続機能を実現するインタフェース回路である。
 図1に示される仮想音像位置決定部1、仮想音像生成部2の各構成は、信号処理回路203と記録媒体204とを有する制御回路201で実現することができる。
 記録媒体204は、信号処理回路203の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体204としては、例えば、SDRAM(Synchronous DRAM)などの揮発性メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性メモリを使用することが可能である。記録媒体204には、例えば、情報呈示処理の初期状態及び各種設定データ、制御用の定数データ等が記憶される。
(コンピュータプログラム構成)
 一方、図8は、コンピュータ等の演算装置を用いて構成される情報呈示装置100のハードウェア構成の例を示すブロック図である。図8の例では、情報呈示装置100の制御回路201は、CPU301を内蔵するプロセッサ300、メモリ302、記録媒体303、及びバスなどの信号路304を備えている。
メモリ302は、実施の形態1の情報呈示処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するROM(Read Only Memory)及びRAM(Random Access Memory)等の記憶手段である。
 図1に示される、仮想音像位置決定部1、仮想音像生成部2の各機能は、制御回路201の内部構成である、プロセッサ300、メモリ302、及び記録媒体303で実現することができる。
 記録媒体303は、プロセッサ300の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体303としては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSD等の不揮発性メモリを使用することが可能である。OS(Operating System)を含む起動プログラム及び、各種設定データ、音響信号データ等の各種データを蓄積することができる。なお、この記録媒体303に、メモリ302内のデータを蓄積しておくこともできる。
 プロセッサ300は、メモリ302中のRAMを作業用メモリとして使用し、メモリ302中のROMから読み出されたコンピュータ・プログラム(すなわち、情報呈示プログラム)に従って動作することにより、仮想音像位置決定部1、仮想音像生成部2の情報呈示処理を実行することができる。
 情報呈示装置100を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROMあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、LAN(Local Area Network)等の無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。さらに、情報呈示装置100に接続される情報出力装置210及び外部装置200に関しても、アナログ・デジタル変換などを介せずに、無線又は有線ネットワークを通じて各種データをデジタル信号のまま送受信してもよい。
 また、情報呈示装置100を実行するプログラムは、外部装置200で実行されるプログラム、例えば、カーナビゲーション、乗員モニタリングシステム、計器盤装置、車外周囲監視装置を実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。
 以上、説明した実施の形態1の構成による情報呈示装置は、複数のスピーカのそれぞれの出力特性を仮想音像の位置情報に応じて制御すると共に、クロストークキャンセラのクロストーク消去量を仮想音像とユーザの耳元までの距離情報に応じて制御することにより、仮想音像の到来方向及び奥行き位置を可変としたので、事前調整を必要とせずに、外部から指定される仮想音像の位置、特に、スピーカからユーザの耳元の間に自在に定位することが可能な音声を呈示することができる効果を奏する。
 また、実施の形態1の構成による情報呈示装置は、複数のスピーカのそれぞれの出力特性を仮想音像の位置情報に応じて制御すると共に、クロストークキャンセラのクロストーク消去量を仮想音像とユーザの耳元までの距離情報に応じて制御することにより、仮想音像の到来方向及び奥行き位置を可変としたので、仮想音像の位置毎に、インパルス応答の周波数特性測定結果から得られるフィルタ係数を事前に用意しておく必要が無く、インパルス応答の測定工数、及びインパルス応答から得られるフィルタ係数データを保持するための記憶容量を削減することができ、装置設計時間及び装置規模などの各種コストを低減する効果も奏する。
実施の形態2.
《2-1》構成
 上記した実施の形態1では、LスピーカSP1とRスピーカSP2の2つのスピーカを用いて所望する仮想音像の到来方向と奥行き位置を制御していたが、これに限ることは無く、3つ以上のスピーカを用いて2つ以上の副仮想音像を生成し、それらを同時に出力して合成することで、2つのスピーカでは生成できないような位置に所望する仮想音像を生成することが可能であり、これを実施の形態2として説明する。
 実施の形態2における情報呈示装置について図9~図13を用いて説明する。図9は実施の形態2を示す情報呈示装置のブロック構成図である。図10は実施の形態2における複数の副仮想音像から所望する仮想音像を生成する模式図である。図11は本実施の形態2を示す情報呈示装置の処理の流れを示すフローチャートである。図12は本実施の形態2を示す情報呈示装置のハードウェア構成の一例を示す図である。図13は本実施の形態1を示す情報呈示装置のハードウェア構成の別の一例を示す図である。図9中、図1と異なる構成としては第1副仮想音像位置決定部1a、第1副仮想音像位置生成部2a、第2副仮想音像位置決定部1b、第2副仮想音像生成部2b、副仮想音像位置判断部5である。図9中、図1と同一符号を付したものは同一または相当部分を示す。BスピーカSP3は、ユーザUの聴取範囲かつユーザUの後方に配置されている。
 副仮想音像位置判断部5は、外部装置200が出力する音像位置データD101を入力すると共に、スピーカ配置データベースSPDBが出力するスピーカ配置データD102を入力し、音像位置データD101が指定する所望の仮想音像Sの位置と、スピーカ配置データD102のスピーカ位置と仮想音像生成可能範囲とから、第1副仮想音像S1の位置と第2副仮想音像S2の位置を判断すると共に、第1副仮想音像S1と第2副仮想音像S2とを生成するのに必要なスピーカ番号を判断する。この判断結果に基づいて、副仮想音像位置判断部5は、第1副音像位置データD101aと、第2副音像位置データD101bとを出力する。
 第1副仮想音像位置決定部1aは、実施の形態1の仮想音像位置決定部1と同等の機能を有しており、第1副音像位置データD101a、スピーカ配置データD102を入力し、第1副仮想音像生成部2aで生成する第1副仮想音像S1の位置を決定し、第1副仮想音像の位置情報である、左右位置パラメータD103a、クロストーク消去量制御パラメータλD104aを、所定のフレーム周期T毎にそれぞれ出力する。
 第2副仮想音像位置決定部1bは、実施の形態1の仮想音像位置決定部1と同等の機能を有しており、第2副音像位置データD101b、スピーカ配置データD102を入力し、第2副仮想音像生成部2bで生成する第2副仮想音像S2の位置を決定し、第2副仮想音像S2の位置情報である、左右位置パラメータD103b、クロストーク消去量制御パラメータλD104bを、所定のフレーム周期T毎にそれぞれ出力する。
 第1副仮想音像生成部2aは、実施の形態1の仮想音像生成部2と同等の機能を有しており、左右位置パラメータD103a、クロストーク消去量制御パラメータλD104a、音源データD110を入力し、音像の到来方向と奥行き位置を付与した第1副仮想音像S1を生成し、得られた第1副仮想音像信号D211a、及び第1副仮想音像信号D212aを出力する。
 第2副仮想音像生成部2bは、実施の形態1の仮想音像生成部2と同等の機能を有しており、左右位置パラメータD103b、クロストーク消去量制御パラメータλD104b、音源データD110を入力し、音像の到来方向と奥行き位置を付与した第2副仮想音像S2を生成し、得られた第2副仮想音像信号D211b、及び第2副仮想音像信号D212bを出力する。
 D/A変換部220は、第1副仮想音像信号D211a、第1副仮想音像信号D212a、第2副仮想音像信号D211b、及び第2副仮想音像信号D212bをそれぞれアナログ信号へ変換し、スピーカで再生可能なレベルに増幅した後、第1副仮想音像信号D211aをLスピーカSP1から、第1副仮想音像信号D212aをRスピーカSP2から、第2副仮想音像信号D211bをBスピーカSP3から、第2副仮想音像信号D212bをLスピーカSP1から、それぞれ音声出力する。なお、これらの副仮想音像信号は全て時間ずれ無く同じタイミングで音声出力する。
 図10は、上述した一連の処理によって生成した第1副仮想音像S1と第2副仮想音像S2により、所望する仮想音像Sを新たに生成する模式図である。図10に示すように、第1副仮想音像S1と第2副仮想音像S2を3つのスピーカからユーザUに向けて同時に出力することで、ユーザUは聴感的に所望する仮想音像Sの位置に合成音像があるように知覚することができる。この方法により、2つのスピーカでは生成できないような位置、特に、図10に示すように、ユーザUの左耳の真横方向に奥行きを持つような仮想音像を生成することが可能である。
《2-2》処理動作
 続いて、実施の形態2の情報呈示装置の処理動作について図11を用いて説明する。図11は、本実施の形態2を示す情報呈示装置100の処理の流れを示すフローチャートである。
(ステップST1)
 まず、ステップST1では、副仮想音像位置判断部5において、外部装置200が出力する音像位置データD101を読み込むと共に、スピーカ配置データベースSPDBが出力するスピーカ配置データD102を読み込み、音像位置データD101が指定する所望の仮想音像Sの位置と、スピーカ配置データD102のスピーカ位置と仮想音像生成可能範囲とから、第1副仮想音像S1の位置と第2副仮想音像S2の位置を判断する処理を行うと共に、第1副仮想音像S1と第2副仮想音像S2とを生成するのに必要なスピーカ番号を判断する処理を行う。この判断結果に基づいて、後述するステップST2A及びステップST2Bの処理で用いる、第1副音像位置データD101aと、第2副音像位置データD101bとを出力する。
(ステップST2A)
 ステップST2Aでは、第1副仮想音像位置決定部1aにおいて、第1副音像位置データD101aと、スピーカ配置データD102とを読み込み、第1副仮想音像S1の位置を決定する処理を行い、第1副仮想音像の位置情報である、左右位置パラメータD103a、クロストーク消去量制御パラメータλD104aを、所定のフレーム周期T毎にそれぞれ出力する。
(ステップST2B)
 ステップST2Bでは、第2副仮想音像位置決定部1bにおいて、第2副音像位置データD101b、スピーカ配置データD102を入力し、第2副仮想音像S2の位置を決定する処理を行い、第2副仮想音像S2の位置情報である、左右位置パラメータD103b、クロストーク消去量制御パラメータλD104bを、所定のフレーム周期T毎にそれぞれ出力する。
(ステップST3A)
 ステップST3Aでは、第1副仮想音像生成部2aにおいて、左右位置パラメータD103a、クロストーク消去量制御パラメータλD104a、音源データD110を入力し、音像の到来方向と奥行き位置を付与した第1副仮想音像S1を生成する処理を行い、得られた第1副仮想音像信号D211a、及び第1副仮想音像信号D212aを出力する。
(ステップST3B)
 ステップST3Bでは、第2副仮想音像生成部2bにおいて、左右位置パラメータD103b、クロストーク消去量制御パラメータλD104b、音源データD110を入力し、音像の到来方向と奥行き位置を付与した第2副仮想音像S2を生成する処理を行い、得られた第2副仮想音像信号D211b、及び第2副仮想音像信号D212bを出力する。ステップST3Bの処理が完了した後、ステップST1の処理に戻る。
 なお、上述したステップST2AとステップST2Bの処理については順不同であり、ステップST2Bの処理をステップST2Aの処理よりも先に実行しても良いし、両ステップの処理を同時に実行しても良い。また、ステップST3AとステップST3Bの処理も順不同であり、ステップST3Bの処理をステップST3Aの処理よりも先に実行しても良いし、両ステップの処理を同時に実行しても良い。
《2-3》ハードウェア構成
(ハードウェア)
 図9に示される情報呈示装置100の各構成は、実施の形態1で示したのと同様に、CPU内蔵の情報処理装置であるコンピュータで実現可能である。CPU内蔵のコンピュータは、例えば、スマートフォン又はタブレットタイプの可搬型コンピュータ、カーナビゲーションシステム、乗員モニタリングシステム又は計器盤(インストルメントパネル)システム、車外周囲監視装置などの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びSoCなどである。
 また、図9に示される情報呈示装置100の各構成は、実施の形態1で示したのと同様に、DSP、ASIC、又はFPGAなどの電気回路であるLSIにより実現されてもよい。また、図9に示される情報呈示装置100の各構成は、コンピュータとLSIの組み合わせであってもよい。
 図12は、DSP、ASIC又はFPGAなどのLSIを用いて構成される情報呈示装置100のハードウェア構成の例を示すブロック図である。図12中、図7と同一符号を付したものは同一または相当部分を示すものとし、またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
 図9に示される、副仮想音像位置判断部5、第1副仮想音像位置決定部1a、第2副仮想音像位置決定部1b、第1副仮想音像生成部2a、第2副仮想音像生成部2bの各構成は、図12に示す、信号処理回路203と記録媒体204とを有する制御回路201で実現することができる。
(コンピュータプログラム構成)
 一方、図13は、コンピュータ等の演算装置を用いて構成される情報呈示装置100のハードウェア構成の例を示すブロック図である。図13中、図8と同一符号を付したものは同一または相当部分を示すものとし、またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
 図9に示される、副仮想音像位置判断部5、第1副仮想音像位置決定部1a、第2副仮想音像位置決定部1b、第1副仮想音像生成部2a、第2副仮想音像生成部2bの各機能は、制御回路201の内部構成である、プロセッサ300、メモリ302、及び記録媒体303で実現することができる。
 プロセッサ300は、メモリ302中のRAMを作業用メモリとして使用し、メモリ302中のROMから読み出されたコンピュータ・プログラム(すなわち、情報呈示プログラム)に従って動作することにより、副仮想音像位置判断部5、第1副仮想音像位置決定部1a、第2副仮想音像位置決定部1b、第1副仮想音像生成部2a、第2副仮想音像生成部2bの情報呈示処理を実行することができる。
 情報呈示装置100を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROMあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、LAN(Local Area Network)等の無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。さらに、情報呈示装置100に接続される情報出力装置210及び外部装置200に関しても、アナログ・デジタル変換などを介せずに、無線又は有線ネットワークを通じて各種データをデジタル信号のまま送受信してもよい。
 また、情報呈示装置100を実行するプログラムは、外部装置200で実行されるプログラム、例えば、カーナビゲーション、乗員モニタリングシステム、計器盤装置、車外周囲監視装置を実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。
 以上、説明した実施の形態2の構成による情報呈示装置は、所望する仮想音像の位置と3つのスピーカ位置とから2つの副仮想音像位置を決定し、3つのスピーカのそれぞれの出力特性を2つの副仮想音像の位置情報に応じて制御すると共に、クロストークキャンセラのクロストーク消去量を2つの副仮想音像とユーザの耳元までの距離情報に応じて制御することで2つの副仮想音像を生成し、生成された2つの副仮想音像をユーザに同時に知覚させることで、ユーザに対して所望する仮想音像位置に仮想音像を呈示することができる上、2つのスピーカでは生成できないような位置、特に、ユーザの真横方向に奥行きを持つような仮想音像を生成できるという顕著な効果を奏する。
実施の形態3.
 上記した実施の形態2では、2つの副仮想音像を生成し、生成された2つの副仮想音像をユーザに同時に知覚させることで、ユーザに対して所望する仮想音像位置に仮想音像を呈示していたが、ユーザの頭部の大きさあるいは位置の違いによって、所望する仮想音像の位置と異なる位置に仮想音像が知覚される場合がある。そこで、2つの副仮想音像の出力音量を制御することで仮想音像の位置を補正することが可能であり、これを実施の形態3として説明する。
 実施の形態3における情報呈示装置について図14及び図15を用いて説明する。図14は実施の形態3を示す情報呈示装置のブロック構成図である。図15は実施の形態3における2つの副仮想音像の出力音量を制御して所望する仮想音像の位置を補正する模式図である。図14中、図9と異なる構成としては音量補正部6である。図14中、図9と同一符号を付したものは同一または相当部分を示す。
 音量補正部6は、左右位置付与部3で説明した処理と同様、例えば、サイン則による振幅パニング法により、第1副仮想音像S1の一対の出力信号である第1副仮想音像信号D211a及び第1副仮想音像信号D212aと、第2副仮想音像S2の一対の出力信号である第2副仮想音像信号D211b及び第2副仮想音像信号D212bとの出力音量を補正し出力する。
 図15は、2つの副仮想音像の出力音量を制御して所望する仮想音像の位置を補正する模式図であり、所望する仮想音像SをユーザUの左耳EARlの真横に位置するように補正する一例である。図15において、第1副仮想音像S1と第2副仮想音像S2の楕円の大きさが出力音量の大きさを表している。図15の例では、音量補正部6で音量補正することで、第2副仮想音像S2よりも第1副仮想音像S1の出力音量が大きくなるが、音量の大きな方向に仮想音像は移動するので、所望する仮想音像Sの位置は補正前よりも補正後の方向に移動することとなる。よって、副仮想音像の出力音量を制御することで所望する仮想音像の位置を補正することが可能となり、所望する仮想音像の位置の精度を高めることが可能となる。
 なお、上記した実施の形態2及び実施の形態3では、3つのスピーカで2つの副仮想音像を生成する一例を示したが、これに限ることは無く、例えば、4つ以上のスピーカを用いても良いし、副仮想音像の数も3つ以上生成しても良く、その場合は、スピーカ数及び副仮想音像の数に応じた処理を行えば良い。
 上記した実施の形態のそれぞれにおいて、音源データD110として、サンプリング周波数16kHzのモノラル音声信号を用いたが、これに限ることは無く、例えば、サンプリング周波数22kHzなどの異なるサンプリング周波数の音声信号を用いてもよく、また、音源データもモノラルではなくステレオ信号を用いても上述したのと同様の効果を奏する。
 上記以外にも、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 本開示に係る情報呈示装置は、例えば、車外周囲監視システムなどの車載情報システムに用いられるのに適している。例えば、実施の形態1または実施の形態2に係る情報呈示システム1000の外部装置200を車外周囲監視システムとした場合、各種センサSENSが車外障害物を検出し、情報呈示システム1000の使用者であるユーザUに対し、障害物の検出方向及び遠近状況に応じた警告音を、仮想音像の到来方向と奥行き感として知覚できるように出力できるので、ユーザに対して適切な情報呈示ができ、更に機能が向上した車外周囲監視システムとして利用することができる。
1 仮想音像位置決定部、1a 第1仮想音像位置決定部、2 仮想音像生成部、2a 第2仮想音像生成部、2b 第2仮想音像生成部、3 左右位置付与部、4 奥行き位置付与部、5、仮想音像位置判断部、6 音量補正部、100 情報呈示装置、
200 外部装置、
201 制御回路、202 信号入出力部、203 信号処理回路、204 記録媒体、205 信号路、
210 情報出力装置、220 D/A変換部、
300 プロセッサ、301 CPU、302 メモリ、303 記録媒体、304 信号路

Claims (7)

  1.  外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
    前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された複数のスピーカの位置情報を用いて、前記仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
    前記入力された前記仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定する仮想音像位置決定部と、
    前記ユーザに呈示するための音響信号が入力され、
    前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
    前記到来方向における左右位置を付与した仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
    前記複数のスピーカから出力される前記音響信号の、前記仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成する仮想音像生成部、を備える情報呈示装置。
  2.  外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
    前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された3つ以上の複数のスピーカの位置情報を用いて、
    2つ以上の副仮想音像の位置を決定する仮想音像位置判断部と、
    前記副仮想音像の位置情報と、前記複数のスピーカの位置情報とを用いて、
    前記副仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
    前記副仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記副仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定する仮想音像位置決定部と、
    前記ユーザに呈示するための音響信号が入力され、
    前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
    前記到来方向における左右位置を付与した副仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
    前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成する仮想音像生成部、を備える情報呈示装置。
  3.  前記副仮想音像の出力音量を補正して仮想音像の位置を補正する音量補正部を備えることを特徴とする、請求項2に記載の情報呈示装置。
  4.  外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
    前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された複数のスピーカの位置情報を用いて、前記仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
    前記入力された前記仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
    前記ユーザに呈示するための音響信号が入力され、
    前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
    前記到来方向における左右位置を付与した仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
    前記複数のスピーカから出力される前記音響信号の、前記仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、を備える情報呈示方法。
  5.  外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
    前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された3つ以上の複数のスピーカの位置情報を用いて、
    2つ以上の副仮想音像の位置を決定するステップと、
    前記副仮想音像の位置情報と、前記複数のスピーカの位置情報とを用いて、
    前記副仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
    前記副仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記副仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
    前記ユーザに呈示するための音響信号が入力され、
    前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
    前記到来方向における左右位置を付与した副仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
    前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、を備える情報呈示方法。
  6.  外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
    前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された複数のスピーカの位置情報を用いて、前記仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
    前記入力された前記仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
    前記ユーザに呈示するための音響信号が入力され、
    前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
    前記到来方向における左右位置を付与した仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
    前記複数のスピーカから出力される前記音響信号の、前記仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、をコンピュータにより実行させるための情報呈示プログラム。
  7.  外部から指定される、ユーザに呈示する仮想音像の位置情報が入力され、
    前記入力された前記仮想音像の位置情報、及び前記ユーザの聴取範囲に配置された3つ以上の複数のスピーカの位置情報を用いて、
    2つ以上の副仮想音像の位置を決定するステップと、
    前記副仮想音像の位置情報と、前記複数のスピーカの位置情報とを用いて、
    前記副仮想音像の到来方向からの音像を生成するように前記複数のスピーカのそれぞれの左右位置パラメータを決定する共に、
    前記副仮想音像の位置情報と、前記ユーザの耳元位置とから得られる距離情報とを用いて、前記副仮想音像の奥行き位置に仮想音像を生成するようにクロストーク消去量制御パラメータを決定するステップと、
    前記ユーザに呈示するための音響信号が入力され、
    前記音響信号と前記仮想音像位置決定部により決定された前記左右位置パラメータを用いて、前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の到来方向における左右位置を付与した仮想音像を生成し、
    前記到来方向における左右位置を付与した副仮想音像に対し、前記クロストーク消去量制御パラメータを用いてクロストーク消去を行い、
    前記複数のスピーカから出力される前記音響信号の、前記副仮想音像の前記ユーザ耳元位置までの奥行き位置を付与した仮想音像を生成するステップ、をコンピュータにより実行させるための情報呈示プログラム。
PCT/JP2021/012653 2021-03-25 2021-03-25 情報呈示装置、情報呈示方法および情報呈示プログラム WO2022201456A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/012653 WO2022201456A1 (ja) 2021-03-25 2021-03-25 情報呈示装置、情報呈示方法および情報呈示プログラム
JP2023508338A JP7294561B2 (ja) 2021-03-25 2021-03-25 情報呈示装置、情報呈示方法および情報呈示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/012653 WO2022201456A1 (ja) 2021-03-25 2021-03-25 情報呈示装置、情報呈示方法および情報呈示プログラム

Publications (1)

Publication Number Publication Date
WO2022201456A1 true WO2022201456A1 (ja) 2022-09-29

Family

ID=83395490

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/012653 WO2022201456A1 (ja) 2021-03-25 2021-03-25 情報呈示装置、情報呈示方法および情報呈示プログラム

Country Status (2)

Country Link
JP (1) JP7294561B2 (ja)
WO (1) WO2022201456A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017135669A (ja) * 2016-01-29 2017-08-03 沖電気工業株式会社 音響再生装置及びプログラム
WO2018207478A1 (ja) * 2017-05-09 2018-11-15 株式会社ソシオネクスト 音声処理装置及び音声処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017135669A (ja) * 2016-01-29 2017-08-03 沖電気工業株式会社 音響再生装置及びプログラム
WO2018207478A1 (ja) * 2017-05-09 2018-11-15 株式会社ソシオネクスト 音声処理装置及び音声処理方法

Also Published As

Publication number Publication date
JPWO2022201456A1 (ja) 2022-09-29
JP7294561B2 (ja) 2023-06-20

Similar Documents

Publication Publication Date Title
JP7139409B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
EP3320692B1 (en) Spatial audio processing apparatus
JP7183467B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
CN106686520B (zh) 能跟踪用户的多声道音响系统和包括其的设备
JP5603325B2 (ja) マイクロホン配列からのサラウンド・サウンド生成
US8638947B2 (en) Angle-dependent operating device or method for generating a pseudo-stereophonic audio signal
US10477337B2 (en) Audio processing device and method therefor
US8180062B2 (en) Spatial sound zooming
RU2693312C2 (ru) Устройство и способ генерирования выходного сигнала, имеющего по меньшей мере два выходных канала
WO2019229199A1 (en) Adaptive remixing of audio content
JP2004504787A (ja) ステレオサラウンド及び/又はオーディオ中央信号を得るマルチチャンネルステレオコンバータ
JP6870078B2 (ja) 動的サウンド調整のための雑音推定
JP2009512364A (ja) 仮想オーディオシミュレーション
CN107925814B (zh) 生成提升声音印象的方法和设备
KR20140097530A (ko) 음향 신호 조정
JP5010148B2 (ja) 3次元パンニング装置
WO2022201456A1 (ja) 情報呈示装置、情報呈示方法および情報呈示プログラム
JP2021013063A (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
AU2015255287B2 (en) Apparatus and method for generating an output signal employing a decomposer
JPH10294999A (ja) 仮想音像定位用音響信号合成装置
CN114401481B (zh) 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
JP2005106880A (ja) 音場補正装置
AU2012252490A1 (en) Apparatus and method for generating an output signal employing a decomposer
JP2000235684A (ja) 音像位置制御装置
KR20150086395A (ko) 음향 신호 조정

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21933062

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023508338

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21933062

Country of ref document: EP

Kind code of ref document: A1