WO2023171280A1 - 信号処理装置、音響出力装置、信号処理方法 - Google Patents

信号処理装置、音響出力装置、信号処理方法 Download PDF

Info

Publication number
WO2023171280A1
WO2023171280A1 PCT/JP2023/005311 JP2023005311W WO2023171280A1 WO 2023171280 A1 WO2023171280 A1 WO 2023171280A1 JP 2023005311 W JP2023005311 W JP 2023005311W WO 2023171280 A1 WO2023171280 A1 WO 2023171280A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
masking
content
ambient
processing
Prior art date
Application number
PCT/JP2023/005311
Other languages
English (en)
French (fr)
Inventor
康信 村田
慎平 土谷
宜紀 田森
徹徳 板橋
明文 河野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023171280A1 publication Critical patent/WO2023171280A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present technology relates to a signal processing device, an audio output device, and a signal processing method, and particularly relates to a technology suitable for the field of stereophonic sound reproduction equipped with a plurality of audio output drivers.
  • 3D three dimensions
  • 360-degree audio 360-degree audio
  • a plurality of channels of audio output drivers are arranged in each of the left and right ear units, allowing the user to perceive content sounds with various directions.
  • some of these headphones are equipped with a plurality of microphones for noise cancellation processing, and collect ambient sounds in various directions.
  • a use case is assumed in which such so-called multi-microphone/multi-driver headphones are used to listen to content such as 3D audio in an environment where ambient sounds are generated.
  • Patent Document 1 listed below discloses a technology related to three-dimensional (3D) audio transmission.
  • the present technology proposes a technology that performs processing appropriate to the situation of content sound and ambient sound.
  • a signal processing device obtains content sound data of multiple channels output from a plurality of audio output drivers arranged in an audio output device, and a plurality of microphones arranged in the audio output device to collect ambient sound.
  • a masking determination section that determines the masking state of the content sound and the ambient sound using the ambient sound data and information on the direction of arrival of the ambient sound; and an acoustic processing according to the masking state determination result by the masking determination section.
  • an audio processing control section that performs control regarding the above.
  • a case is assumed in which a plurality of sound output drivers are provided in a housing of a sound output device such as headphones to reproduce stereophonic sound, and a plurality of microphones are arranged to collect ambient sound.
  • the masking state is determined for the content sound data and the ambient sound data, and sound processing control is performed according to the masking state.
  • FIG. 1 is a block diagram of headphones according to a first embodiment of the present technology.
  • FIG. 3 is a schematic explanatory diagram of a microphone and an acoustic output driver in headphones according to an embodiment.
  • FIG. 3 is an explanatory diagram of sounds heard by a person wearing headphones according to an embodiment.
  • FIG. 3 is an explanatory diagram of the position of an acoustic output driver and noise canceling characteristics.
  • FIG. 3 is an explanatory diagram of the minimum audible limit and simultaneous masking.
  • FIG. 3 is an explanatory diagram of masking with noise added.
  • FIG. 3 is an explanatory diagram of masking with noise added.
  • FIG. 6 is an explanatory diagram of masking when there is unerased noise.
  • FIG. 3 is a schematic explanatory diagram of a microphone and an acoustic output driver in headphones according to an embodiment.
  • FIG. 3 is an explanatory diagram of sounds heard by a person wearing headphones according to an embodiment.
  • FIG. 3 is an
  • FIG. 6 is an explanatory diagram of masking when there is unerased noise.
  • FIG. 3 is an explanatory diagram of spatial masking.
  • FIG. 3 is an explanatory diagram when the directions of arrival of noise and content sound match.
  • FIG. 6 is an explanatory diagram of masking when the arrival directions of noise and content sound match.
  • FIG. 6 is an explanatory diagram of a state in which noise cancellation processing is added when the arrival directions of noise and content sound match.
  • FIG. 6 is an explanatory diagram of masking with noise cancellation processing added when the arrival directions of noise and content sound match.
  • FIG. 6 is an explanatory diagram of masking when the arrival directions of noise and content sound match.
  • FIG. 6 is an explanatory diagram when noise and content sound arrive in different directions.
  • FIG. 6 is an explanatory diagram of a state in which noise cancellation processing is added when the arrival directions of noise and content sound are different.
  • FIG. 6 is an explanatory diagram of masking with noise cancellation processing added when noise and content sound arrive in different directions.
  • FIG. 6 is an explanatory diagram of a case where the direction of arrival of noise is included in the direction of arrival of content sound.
  • FIG. 3 is an explanatory diagram of masking states that differ depending on the direction of arrival.
  • FIG. 6 is an explanatory diagram when noise cancellation processing is applied with different masking states for each direction of arrival.
  • FIG. 3 is an explanatory diagram of a state in which noise cancellation processing has been performed.
  • FIG. 3 is an explanatory diagram when the direction of arrival of noise exists in a direction other than the direction of arrival of content sound.
  • FIG. 3 is an explanatory diagram of masking states that differ depending on the direction of arrival.
  • FIG. 6 is an explanatory diagram when noise cancellation processing is applied with different masking states for each direction of arrival.
  • FIG. 3 is an explanatory diagram of a state in which noise cancellation processing has been performed.
  • 7 is a flowchart of a processing example of a determination unit according to an embodiment.
  • 7 is a flowchart of a processing example of a determination unit according to an embodiment.
  • FIG. 3 is a block diagram of headphones according to a second embodiment.
  • FIG. 7 is an explanatory diagram of an example of a message display of an ambient sound notification on the host device.
  • FIG. 6 is an explanatory diagram of a display example of ambient sound and arrival direction notification on the host device.
  • FIG. 6 is an explanatory diagram of a display example of ambient sound and arrival direction notification on the host device.
  • FIG. 3 is an explanatory diagram of a display example including a masking state on a host device.
  • FIG. 3 is an explanatory diagram of a display example including a masking state on a host device.
  • FIG. 3 is an explanatory diagram of a display example including a masking state on a host device.
  • 7 is a flowchart of a processing example of a determination unit according to an embodiment.
  • a multi-microphone/multi-driver equipped headphone will be used as an example of the sound output device, and a case will be described using the headphone as an example in which content including stereophonic data such as 3D audio is listened to.
  • the audio output driver installed in the headphones is also simply referred to as a "driver" hereinafter.
  • noise cancellation will be referred to as "NC" effect will be improved and the battery life of the headphones will be extended by reducing power consumption.
  • the masking effect There is a phenomenon called the masking effect, where certain sounds are blocked and blocked by other sounds, making them inaudible. Note that when there are two sound sources, a masking effect may occur where one signal blocks the other signal. The side that masks the other is called the “masker,” and the side that is masked is called the “maskey.”
  • the transmission bit rate is reduced by reducing the quantization bits of the content sound data for stereophonic sound reproduction.
  • FIG. 1 shows an example of the configuration of headphones 1 according to the first embodiment.
  • the headphones 1 receive content sound data CT as stereophonic data from the host device 100, and output reproduced sound based on the content sound data CT.
  • the host device 100 is assumed to be a device separate from the headphones 1, it may be a device section provided inside the headphones 1. For example, it may be an audio streaming control section within the headphones 1.
  • the host device 100 in the embodiment may be of any type as long as it is a device or circuit that is a source of the content sound data CT to be reproduced by the headphones 1, and may be integrated with or separate from the headphones 1. do not have.
  • This headphone 1 is provided with N drivers 2 (2A, 2B, . . . 2(N)) that output, for example, N-channel stereophonic sound.
  • the drivers 2A, 2B, . . . , 2(N) are arranged at different positions in the left and right housings of the headphones 1, corresponding to each channel. For example, as schematically shown in FIG. 2, drivers 2A, 2B, .
  • each channel of content sound reaching the eardrum 201 has a different direction of arrival.
  • FIG. 1 also shows a configuration corresponding to one ear 200, the configuration on the other side is also similar.
  • M microphones 3 (3A, 3B, . . . 3 (M)) are provided at different positions toward the outside of the housing 10. This collects ambient sound on the M channel.
  • the microphone 3 is placed at an appropriate position for performing NC processing using, for example, an FF (feedforward) method.
  • FIG. 2 is merely a schematic diagram, and the driver 2 and microphone 3 are not necessarily lined up in the cross-sectional direction of the housing 10 as shown in the figure.
  • the plurality of drivers 2 are arranged at various locations on the inner surface of the housing 10, and the plurality of microphones 3 are arranged at various locations on the outer surface of the housing 10.
  • the host device 100 for the headphones 1 is a device that becomes a source of the content sound data CT, and is assumed to be, for example, a smartphone, an HMD (head mounted display), a game device, a tablet, a personal computer, and other various devices.
  • the host device 100 includes, for example, a display section, displays content video, and transmits content sound data CT to the headphones 1. This allows the user to view video and audio content.
  • the content sound data CT is N-channel stereophonic sound data to be reproduced by the headphones 1. That is, it is assumed that the content sound data CT is subjected to signal processing on the host device 100 side according to the number of channels and the position of the driver 2 of the headphones 1.
  • the headphones 1 that receive the content sound data CT are provided with functions such as a determination section 4, an ambient sound type determination section 5, an NC signal generation section 6, and an output signal generation section 7, using one or more microprocessors, for example. .
  • the sound collected by the microphone 3 is converted into ambient sound data S1 as digital data at the output stage of the microphone 3, for example, and is supplied to the determination section 4, the ambient sound type determination section 5, and the NC signal generation section 6.
  • the conversion to digital data may be performed at the input stage of a microprocessor forming each of these parts.
  • the microprocessor is provided with an A/D conversion terminal, so that the determination section 4, the ambient sound type determination section 5, and the NC signal generation section 6 acquire the ambient sound data S1 as digital data.
  • the determination unit 4 has a function of acquiring the ambient sound data S1 from the microphone 3 and the content sound data CT to perform determination and control. Specifically, it has the functions of a masking determination section 4a and an acoustic processing control section 4b.
  • the masking determination unit 4a uses the N-channel content sound data CT output from the N-channel driver 2, the M-channel ambient sound data S1 obtained by the microphone 3, and the information on the direction of arrival of the ambient sound. Performs processing to determine the masking state of content sound and ambient sound. Therefore, the masking determination unit 4a determines the arrival direction of the ambient sound (noise) from the M channel ambient sound data S1. The masking determination unit 4a also calculates the frequency characteristics of the M-channel ambient sound data S1. The masking determination unit 4a also calculates the frequency characteristics of the N-channel content sound data CT. The masking determination unit 4a determines the masking state regarding the ambient sound and content sound according to this information. Details will be described later.
  • the sound data of each channel of the content sound data CT is sound data output from different drivers 2, respectively.
  • the channel number corresponds to the arrangement position of each driver 2. Therefore, the channel information of the content sound data CT corresponds to information on the arrival direction of the content sound to the user. Therefore, the level of each content sound arrival direction can be determined based on the level of each channel in the content sound data CT of a plurality of channels.
  • the content sound data CT itself includes information on the arrival direction of the content sound to the user.
  • the sound processing control section 4b performs control regarding sound processing according to the masking state determination result by the masking determination section 4a.
  • the acoustic processing control section 4b outputs a control signal to the NC signal generation section 6 according to the masking state to control the NC operation.
  • the control of the NC operation includes turning on/off the NC process, controlling the selection of the driver 2 that outputs the NC signal, and the like. For example, it is determined which driver 2 should output the NC signal S2 to maximize the NC effect in response to incoming noise, and a command is sent to the NC signal generation unit 6.
  • the acoustic processing control unit 4b performs a process of transmitting notification information SS to the host device 100, which is an external device, according to the determination result of the masking state, for example.
  • the notification information SS includes quantization bit information necessary for the content sound data CT.
  • the quantization bit information includes, for example, information on the channel and band on which the number of quantization bits is reduced in the content sound data CT.
  • the ambient sound type determination unit 5 performs a process of determining the type of sound with respect to the ambient sound data obtained by the microphone 3. Note that the type determination does not necessarily involve a specific sound determination, but may instead be a determination of whether the sound is treated as noise or not. Note that the ambient sound type determination unit 5 is mainly required for the processing of the second embodiment, so it may not be provided for the processing of the first embodiment. However, in the first embodiment, for example, processing may be performed in which the NC processing is turned on/off depending on the type of sound of the ambient sound data S1.
  • the NC signal generation unit 6 has a function of generating an NC signal S2 for canceling the ambient sound data obtained by the microphone 3 as noise.
  • the NC signal S2 is generated by processing according to the FF-NC algorithm.
  • the output signal generation section 7 has a function of generating a signal output from the driver 2. Basically, a signal for driving the driver 2 of each channel is generated based on the data of each channel of the content sound data CT. Note that equalizer processing and the like for the content sound data CT may also be included. Further, the output signal generation section 7 generates a signal for driving the driver 2 of the designated channel based on the input NC signal S2. Note that the channel of the driver 2 that outputs the NC signal may be specified by the audio processing control section 4b as described above.
  • the masking determination process performed by the determination unit 4 will be described below.
  • masking effects include ⁇ simultaneous masking (frequency masking),'' which blocks sounds of adjacent frequencies at the same time, and ⁇ temporal masking,'' which blocks sounds immediately before and after.
  • ⁇ simultaneous masking frequency masking
  • ⁇ temporal masking ⁇ temporal masking
  • the above-mentioned “simultaneous masking” and “spatial masking” that occurs due to a difference in the direction of arrival of sound are mainly used.
  • spatial masking refers to the fact that the masking effect is most effective when the directions of arrival of the masker and the masker are the same from the listener's perspective, and the masking effect is weaker when the directions of arrival are different.
  • FIG. 3 schematically shows a state in which the arrival directions of noise AN, which is ambient sound, and content sound AC are different.
  • ambient sound is considered to be noise AN.
  • noise AN and the content sound AC output by the headphones 1 from the driver 2
  • the following cases can be considered from the viewpoint of the masker/maskey relationship and the direction of arrival of each sound.
  • ⁇ Noise AN masks content sound AC (sound corresponding to all quantization bits or a part of quantization bits) with simultaneous masking effect ⁇ Content sound AC masks noise AN
  • FIG. 4 shows experimental results showing driver selection and NC performance in multi-driver headphones.
  • the horizontal axis is the frequency
  • the vertical axis is the sound pressure level
  • the vertical axis indicates that the downward direction is quieter, that is, the NC effect is higher.
  • the measurement result C1 is the sound pressure at the eardrum position when the headphones are not worn.
  • Measurement result C2 is the sound pressure at the eardrum position when the headphones are only worn (NC processing off).
  • Measurement result C3 is when the NC signal is output with the driver set as No. 1
  • measurement result C4 is when the NC signal is output with the driver set as No. 2
  • measurement result C5 is when the NC signal is output with the driver set as No. 3.
  • measurement result C6 shows the case where the NC signal is output with the driver set as No. 4.
  • the NC effect is high in the low range, but the NC effect decreases above 4 kHz.
  • measurement result C5 has a particularly high NC effect in the range of 1 to 6 kHz, although the low frequency range is not as strong as measurement result C6.
  • the measurement results C3 and C4 also each have different characteristics from the other measurement results.
  • the minimum audible limit indicates the limit sound pressure level that humans can hear in each band, and sounds smaller than the minimum audible limit cannot be heard.
  • Simultaneous masking means that when a certain frequency component (F1) reaches the eardrum and is heard, the nearby frequency component (F2) must be relatively large compared to the frequency component (F1). This is a phenomenon that cannot be heard because it is masked by the sound.
  • the horizontal axis is frequency and the vertical axis is amplitude.
  • the minimum audible limit 40 is indicated by a chain line.
  • the figure also shows frequency components 20, 21, 22, and 23 of sounds generated at the same time.
  • the masking levels 30, 31, 32, and 33 that are simultaneously masked by the respective frequency components 20, 21, 22, and 23 are shown by broken lines.
  • sounds lower than masking level 30 are masked.
  • the masking level 30 extends to other frequencies in an umbrella-like manner as the frequency of the frequency component 20 and the peak.
  • the level of frequency component 22 is below the minimum audible limit.
  • the frequency component 21 is less than the masking level 30 of the frequency component 20, that is, it is masked by the frequency component 20.
  • the frequency component 23 is masked by the frequency component 20 in a region 23M.
  • the frequency component 20 has a region 20M below the minimum audible limit.
  • the areas 20M and 23M blacked out in the figure and the frequency components 21 and 22 as a whole are audio components that are masked or below the minimum audible limit, and highly accurate information is not required for these parts. It is possible to think that.
  • the determination unit 4 transmits information on the channel and band for reducing the number of quantization bits in the content sound data CT to the host device 100 based on the determination of the masking state, the host device 100 side can control the quantization process and reduce the transmission bit rate.
  • FIG. 6 shows a state when noise is added to FIG. 5.
  • noise 24 of a single frequency is added to an environment in which content sound having frequency components 20, 21, 22, and 23 as shown in FIG. 5 is being listened to.
  • the noise 24 exceeds the level at which the frequency component 20 is masked at the same time, so it deteriorates the content sound.
  • NC processing is performed to aim at canceling the noise 24 to a level below that of simultaneous masking.
  • FIG. 7 also shows a case where a single-frequency noise 24 is added to the environment in which content sound having frequency components 20, 21, 22, and 23 as shown in FIG. 5 is being listened to.
  • the noise 24 is originally below the masking level 30 due to the frequency component 20 of the content sound. In such a case, there is no need to perform NC processing.
  • the example in FIG. 8 is an example in which the noise 24 remaining unerased by the NC process exceeds the masking level 30, which is subject to simultaneous masking of the content sound.
  • the accuracy of the lower bits of the content sound deteriorates due to the noise 24, that is, in this case, the noise left after NC processing. That is, this is a region indicated by a masking level 34 or lower due to noise 24 in frequency components 20, 21, 22, and 23. Since the quantization error in this region is buried in the noise 24 left after the NC processing, the transmission bit rate is subject to reduction.
  • the example in FIG. 9 is a case where the noise 24 remaining after NC processing is higher than the level of the content sound.
  • the portions of the frequency components 20, 21, 22, and 23 shown as regions below the masking level 34 due to the noise 24 are buried in the noise 24.
  • the allowable range of quantization errors targeted for bit rate reduction is wider than in the case of FIG. 8.
  • FIG. 10 shows the experimental results of spatial masking.
  • the front direction is assumed to be 0 degrees.
  • FIG. 10 shows the results of an experiment in which the masker was positioned in the 0 degree direction and the maskie was moved in 30 degree increments. As shown by a curve 41, it can be seen that the volume at which masking becomes inaudible (masked) tends to vary depending on the angle.
  • the masker is approximately 6.4 dB larger, and the results show that masking is difficult when there is an angular difference.
  • driver position and NC effect minimum audible limit
  • simultaneous masking simultaneous masking
  • spatial masking spatial masking
  • content sound AC, noise AN, unerased noise AN (NC), and NC sound ANC are each schematically indicated by arrows. Each arrow indicates the arrival direction of the sound reaching the eardrum 201, and the thickness indicates the loudness of the sound.
  • driver 2 (2A, 2B...2(N)) and microphone 3 (3A, 3B...3(M)) are The description of the code is omitted. It should be understood that the configurations of each driver 2 and microphone 3 are similar to those in FIGS. 2 and 3.
  • FIG. 11 shows an example where the arrival directions of the noise AN and the content sound AC match, and the noise AN is a masker.
  • the content sound is one channel
  • the noise is also unidirectional
  • the magnitude relationship is the same across all bands.
  • FIG. 12 shows that the noise AN masks the content sound AC.
  • the noise AN masks the content sound AC, by performing the NC processing, the content sound AC can be heard more clearly.
  • it is effective for the NC effect to perform NC processing using the driver 2 located in the same direction as the noise arrival direction. Therefore, the NC sound ANC is output by selecting a driver according to the direction in which the noise arrives.
  • FIG. 13 shows that the NC sound ANC is output from the driver 2 in the noise arrival direction.
  • FIG. 14 shows that there is unerased noise AN (NC).
  • NC unerased noise AN
  • FIG. 14 it is shown as if the noise AN is canceled from the position of the driver 2, but this is for convenience of illustration, and what is actually canceled is the position of the eardrum 201.
  • NC unerased noise AN
  • the following cases (A) and (B) are assumed.
  • FIG. 15 shows that noise AN is masked by content sound AC.
  • the noise AN is not perceived by the listener, so there is no need to perform NC processing.
  • the allocated bits are maximized to achieve a level of detail that can be perceived by the user.
  • FIG. 16 shows a case where noise AN and content sound AC arrive in different directions. Note that, similarly to the first case, the content sound is set to one channel, the noise is also set to a single direction, and the magnitude relationship is the same for the entire band.
  • the NC sound ANC by outputting the NC sound ANC using the driver 2 suitable for the arrival direction and characteristics of the noise AN, it is made easier to listen to the content signal.
  • the driver 2 located in the same direction as the arrival direction of the noise AN is used to output the NC sound ANC.
  • the determination is made by adding spatial masking to the simultaneous masking described with reference to FIGS. 5 to 9.
  • the masking levels (30, 31, 32, 33, 34) shown in FIGS. 5 to 9 may be shifted up or down depending on the angular difference in the direction of arrival.
  • FIG. 19 shows an example of the third case.
  • Content sounds AC1, AC2, and AC3 are output from each driver 2 as content sounds AC.
  • noises AN1 and AN2 have arrived as noise AN.
  • the directions of arrival of noise AN1 and content sound AC1 match, and the directions of arrival of noise AN2 and content sound AC2 match.
  • NC processing is performed in the same way as in the first case. Further, the transmission bit of the content sound data CT is determined according to the noise AN(NC) remaining after the NC processing.
  • the relationship between the masker and the masker may differ depending on the direction, as shown in FIG. 20.
  • the noise AN1 masks the content sound AC1.
  • content sound AC2 masks noise AN2. Since such a case is assumed, it is determined in each direction of arrival which of the noise AN and the content sound AC serves as a masker.
  • FIG. 21 shows a state in which when the noise AN1 masks the content sound AC1, the NC sound ANC is output using the driver 2 in the same direction. Further, the unerased noise AN(NC) resulting from the NC processing is shown in FIG. Regarding the unerased noise AN (NC), the processing described as (A) or (B) in the first case may be performed.
  • FIGS. 21 and 22 show that noise AN2 is masked by content sound AC2.
  • noise AN in a certain direction of arrival may mask content sound AC in another direction of arrival.
  • level of the noise AN1 is so high that it masks the content sound AC2.
  • NC processing is performed on the noise AN1.
  • FIG. 21 shows how the NC sound ANC is output from the driver 2 in the same direction as the noise AN1
  • FIG. 22 shows the unerased noise AN(NC).
  • the transmission bit allocation for each of the content sounds AC1, AC2, and AC3 is determined depending on how much the remaining noise AN (NC) interferes with the content sounds AC1, AC2, and AC3.
  • FIG. 23 shows an example of the fourth case.
  • Content sounds AC1 and AC2 are output from each driver 2 as content sound AC.
  • noises AN1, AN2, and AN3 have arrived as noise AN.
  • the directions of arrival of noise AN1 and content sound AC1 match, and the directions of arrival of noise AN2 and content sound AC2 match.
  • Noise AN3 is noise that arrives from a direction other than the arrival direction of content sound AC.
  • NC processing is performed as necessary to determine the transmission bits of the content sound data CT in accordance with the masking effect that occurs.
  • the noise AN1 masks the content sound AC1 as shown in FIG. 24.
  • the content sound AC2 masks the noise AN2. Therefore, NC processing is performed on the noises AN1 and AN3.
  • FIG. 25 shows how the NC sound ANC1 is output from the driver 2 in the same direction as the noise AN1, and the NC sound ANC3 is output from the driver 2 in the same direction as the noise AN3.
  • FIG. 26 shows the unerased noises AN1 (NC) and AN3 (NC).
  • transmission bit allocation for each of the content sounds AC1, AC2, and AC3 is determined depending on how much the remaining noises AN1 (NC) and AN3 (NC) interfere with the content sounds AC1, AC2, and AC3.
  • the determination unit 4 determines the characteristics and direction of arrival of the noise AN, the characteristics of the content sound AC, and the Based on the positional relationship, the NC processing in the NC signal generation section 6 is controlled. That is, control is performed as to whether or not to perform NC processing for each characteristic of noise AN. Further, the determination unit 4 determines how many quantization bits should be allocated to transmitting the content sound data CT based on the minimum audible limit and the masking effect, and performs a process of transmitting a request to the host device 100.
  • FIGS. 27 and 28 Examples of processing by the determination unit 4 are shown in FIGS. 27 and 28. Note that in FIGS. 27 and 28, “CN1" and “CN2" indicate connections in the flowchart.
  • Step S101 is the end determination of the repeated loop.
  • the processing in FIGS. 27 and 28 is terminated by turning off the power, changing the operating mode, or the like.
  • the determination unit 4 analyzes the frequency characteristics and direction of arrival of the ambient sound obtained by the microphone 3, that is, the noise AN, in step S102. Further, the determination unit 4 analyzes the frequency characteristics of the content sound data CT in step S103. Note that the determination unit 4 can determine the arrival direction of the content sound AC to the user, that is, which component of the sound is output from which driver 2, based on the channel number of the content sound data CT.
  • step S110 it is determined whether the loop of processing from step S111 to step S118 continues or ends.
  • the processing from step S111 to step S118 is performed for each direction of arrival. For example, according to the number of channels of the driver 2, the processes from step S111 to step S118 are performed for each of the first direction to the Nth direction. When these processes are completed in all directions of arrival, the loop ends.
  • step S111 the determination unit 4 compares the noise AN coming from one direction with the minimum audible limit.
  • the level of the noise AN also takes into consideration the amount of noise that is shielded by the housing of the headphones 1. If (noise AN) ⁇ (minimum audible limit), that is, if all of the frequency components constituting the noise AN are below the minimum audible limit, the determination unit 4 proceeds to step S115, and there is no need for NC processing for the noise AN. Set to no. Then, in step S116, the determination unit 4 sets an inaudible flag on for the noise in the direction of arrival of the current processing target.
  • step S112 determines whether or not the content sound AC from the direction of arrival is present. If the content sound AC does not exist, the determination unit 4 proceeds to step S117 and sets NC processing on. Also, the driver 2 that outputs the NC sound ANC is set. Then, in step S118, the determination unit 4 sets the inaudible flag to OFF for the noise in the direction of arrival of the current processing target.
  • step S112 If it is determined in step S112 that the content sound AC is present from the direction of arrival, the determination unit 4 compares the level of the noise AN and the content sound AC output based on the content sound data CT in step S113. If it is determined that the level of the noise AN is higher than the content sound AC, the determination unit 4 performs the processes of steps S117 and S118 described above.
  • the determination unit 4 determines in step S114 whether the content sound AC masks the noise by simultaneous masking. If the content sound AC does not mask the noise AN, the determination unit 4 performs the processing in steps S117 and S118 described above. If the content sound AC masks the noise AN, the determination unit 4 performs the processing in steps S115 and S116 described above.
  • the setting of the NC process is determined for each direction of arrival. That is, the inaudible flag is set to OFF in the direction where NC processing is required, and the inaudible flag is set to ON in the direction where NC processing is not required. Then, in step S110, the determination unit 4 concludes the loop and proceeds to step S120 in FIG. 28.
  • step S120 it is determined whether the loop of processing from step S121 to step S125 continues or ends.
  • the processing from step S121 to step S125 is also performed for each direction of arrival.
  • step S121 the determination unit 4 checks the inaudible flag for one arrival direction targeted for processing. If the inaudible flag is set to be on, that is, NC processing is not required, the process returns to step S120 for that direction of arrival and proceeds to processing for the next direction of arrival.
  • step S121 If the inaudible flag is off in step S121, the determination unit 4 proceeds to step S122 and estimates the frequency characteristics and level of the noise AN (NC) remaining after NC processing. Then, in step S123, the remaining noise AN (NC) is compared with the minimum audible limit.
  • step S125 the inaudible flag is set on for the unerased noise AN (NC).
  • the remaining noise AN (NC) is estimated for each direction, and whether the remaining noise AN (NC) is less than the minimum audible limit or the content sound If the signal is masked by AC, the inaudible flag is turned on for that direction of arrival.
  • step S130 the determination unit determines whether the inaudible flag is on in all directions of arrival.
  • the determination unit 4 determines the necessary quantization bits for all channels of the content sound data CT in step S137. In this case, since highly accurate content sound data CT is required, the maximum allocation as the number of quantization bits is required.
  • step S130 If it is confirmed in step S130 that there is a direction of arrival in which the inaudible flag is off, the determination unit 4 proceeds to step S131, and performs the process in step S132 for each direction of arrival in which the inaudible flag is off.
  • step S132 the determination unit 4 calculates the spatial masking effect that the direction gives to other directions. As a result, the effect of spatial masking given to other directions is determined for one or more arrival directions for which the inaudible flag is off.
  • step S133 the determination unit 4 determines whether the loop continues or ends for each direction of arrival. That is, the processes from step S134 to step S136 are performed for each direction of arrival. In step S134, the determining unit 4 determines whether or not there is spatial masking that is affected by the direction of arrival that is the processing target.
  • step S135 determines the necessary quantization bits of the content sound data CT in the direction. In this case, since highly accurate content sound data CT is required, the maximum allocation as the number of quantization bits is required.
  • step S136 determines the necessary quantization bits of the content sound data CT in the direction. In this case, since there are areas where highly accurate information is not required due to masking, a reduction in the number of quantization bits is required.
  • step S133 the number of quantization bits is set for each arrival direction in either step S135 or step S136.
  • the number of quantization bits is set for each direction. By associating each direction targeted for loop processing with each channel, the number of quantization bits for each channel is set.
  • the determination unit 4 transmits notification information SS to the host device.
  • the notification information SS includes information on the required number of quantization bits for each channel.
  • step S140 After transmitting the notification information SS in step S140, the determination unit 4 returns to step S101 in FIG. 27. Then, the above process is repeated.
  • the determination unit 4 performing the processing shown in FIGS. 27 and 28, it is possible to reduce the transmission bits of content sound data depending on the situation and achieve a reduction in the transmission bit rate. .
  • the determination unit 4 determines which driver 2 in the headphones 1 should be used to cancel noise AN, or which driver 2 does not require NC processing, and changing the settings sequentially, it is possible to create a more comfortable content sound AC. It is possible to improve S/N, sound separation, and NC effect.
  • Second embodiment In the second embodiment, it will be described that processing is mainly performed to make the user aware of surrounding sounds. In the first embodiment so far, the ambient sound is treated as noise AN and the necessary processing is performed, but in the second embodiment, the necessary processing is performed on the ambient sound that the user wants to recognize. Perform processing.
  • ambient sounds include the following: ⁇ Sounds such as cars approaching from behind or from the side ⁇ Sounds approaching your room (the user wearing headphones 1) (footsteps, etc.) ⁇ Announcements (announcements for public transportation and various public facilities, etc.) ⁇ Alerts, sirens (sounds of emergency vehicles, emergency earthquake early warnings, etc.) ⁇ Voice calling you (user wearing headphones 1)
  • FIG. 29 shows a configuration example of the headphones 1.
  • the ambient sound signal processing section 8 performs processing on the ambient sound data S1 obtained by the microphone 3 based on the control of the acoustic processing control section 4b of the determining section 4. For example, noise reduction processing, voice enhancement processing, etc. are performed on the ambient sound data S1, and the processed sound data S3 is output.
  • the ambient sound signal processing unit 8 may perform processing to generate sound data S3 such as a beep sound or an announcement sound.
  • the sound data S3 signal-processed or generated by the ambient sound signal processing section 8 is supplied to the output signal generation section 7.
  • the output signal generation unit 7 generates an output signal to the driver 2 according to the designated channel based on the content sound data CT, the NC sound data S2, and the sound data S3.
  • the ambient sound type determination unit 5 performs a process of determining the type of sound with respect to the ambient sound data obtained by the microphone 3. For example, it determines the specific type of sound, such as the sound of an approaching car, footsteps, announcements of trains, etc. Note that the type determination does not necessarily involve determining a specific sound, but may also determine whether or not the sound is treated as noise.
  • the determination unit 4 inputs the ambient sound data S1 and the type information of the ambient sound data S1, and performs processing by the masking determination unit 4a and the sound processing control unit 4b. Similar to the first embodiment, the masking determination unit 4a determines the masking state in the relationship between the ambient sound data S1 and the content sound data CT. In this case, it is also determined whether the ambient sound required by the type information will be masked by the content sound AC.
  • the sound processing control section 4b performs control regarding sound processing according to the masking state determination result by the masking determination section 4a.
  • the acoustic processing control section 4b outputs a control signal to the NC signal generation section 6 according to the masking state to control the NC operation.
  • the control of the NC operation includes turning on/off the NC process, controlling the selection of the driver 2 that outputs the NC signal, and the like.
  • the sound processing control unit 4b performs control so that the driver 2 outputs a sound that makes the surrounding sound perceptible, depending on the type of sound of the surrounding sound data S1 and the determination result of the masking state.
  • the processing control unit 4b selects the channel of the driver 2 that outputs the sound that makes the surrounding sound perceptible, depending on the direction of arrival of the surrounding sound.
  • the sound processing control unit 4b also outputs an ambient sound signal so that a sound based on the ambient sound obtained by the microphone 3, that is, a sound obtained by signal processing the ambient sound data S1, is output from the driver 2 as a sound that makes the ambient sound perceivable. Controls the processing section 8. Alternatively, the sound processing control section 4b controls the ambient sound signal processing section 8 so that the driver 2 outputs a generated sound that makes the ambient sound perceptible.
  • the acoustic processing control unit 4b performs a process of transmitting notification information SS to the host device 100, which is an external device, according to the determination result of the masking state, for example.
  • the acoustic processing control unit 4b transmits information used for display to make ambient sounds perceptible as notification information SS.
  • the information used to display the surrounding sound may include some or all of information on the arrival direction of the surrounding sound, information on the type of the surrounding sound, and information on the masking state determination result.
  • the ambient sound type determining section 5 determines the type of sound.
  • the determining unit 4 determines whether the ambient sound data S1 is a sound that should be recognized by the user based on the type information, and if it is a sound that the user should recognize, the sound is masked by the content sound AC. Determine the state. It is also determined whether or not it will be canceled due to NC processing.
  • the determination unit 4 performs processing to make the ambient sound recognizable.
  • the determination unit 4 causes the ambient sound signal processing unit 8 to perform processing to make the ambient sound data S1 easier to listen to, such as noise reduction processing and voice enhancement processing, and the sound from the processed sound data S3 is transmitted from the driver 2. Output.
  • the determination unit 4 instructs the driver 2 to output based on the arrival direction of the ambient sound. Thereby, when listening to the content sound AC, the user can listen to the ambient sound itself from the direction in which the ambient sound actually arrives.
  • a sound indicating an alert such as a beep sound or a message sound may be output instead of the surrounding sound itself.
  • the determination unit 4 causes the ambient sound signal processing unit 8 to execute sound data generation processing, and causes the driver 2 to output a sound based on the generated sound data S3, such as a beep sound or a message sound.
  • the determination unit 4 instructs the driver 2 to output based on the arrival direction of the ambient sound. This allows the user to recognize that the necessary ambient sound is coming from the direction in which the beep sound or the like is coming. A beep sound is suitable in cases where only the presence of ambient sound needs to be notified.
  • the user can recognize what kind of sound it is, but with a beep sound or a message sound, the user may not be able to recognize the type of sound. Therefore, depending on the type and urgency, the content of the message may be changed, and the quality and volume of the beep sound may be changed. This can increase alertness and make the user aware of the type of surrounding sound. Examples of message sounds may include specific content such as "A car is approaching from behind" or "Someone is approaching the room.”
  • the determination criteria may be changed based on the size of the road on which the user is walking (or running) and the number of vehicles passing by, and the notification may be made according to the determination.
  • notification may be performed using a display on the host device 100 in place of or in addition to the sound output from the headphones 1 as described above. That is, the determination unit 4 transmits the determination result to the host device 100 such as a smartphone or an HMD, and the host device 100 notifies the user.
  • the host device 100 such as a smartphone or an HMD
  • the user When viewing game content, video content, etc., the user is staring at the screen of the host device, so it is suitable to notify the user of the surrounding sounds by displaying a message on the screen or the like.
  • FIG. 30 shows an example in which a message 61 is displayed on the screen 60 of the host device 100.
  • the display position of such a message 61 may be changed depending on the direction of arrival of the surrounding sound. For example, the message 61 "A car is approaching" will appear at the bottom of the screen if it is approaching from behind, at the top or center of the screen if it is coming from the front, or at the left or right side of the screen if it is coming from the left. If it is, the display position may be controlled such as on the right side of the screen.
  • FIGS. 31 and 32 There is also a method of making an effect image 62 appear on the screen 60 as shown in FIGS. 31 and 32.
  • the ambient sound be made to appear depending on the direction of arrival of the ambient sound.
  • FIG. 31 shows the case of sound coming from the left
  • FIG. 32 shows the case of sound coming from the front.
  • the size of the effect image 62 may represent the loudness of the surrounding sound.
  • the notification may be made by vibration or the like on the host device 100 side or the headphones 1 side. Further, the notification by display and the notification by sound in the headphones 1 as described above may be used together.
  • FIG. 33, FIG. 34, and FIG. 35 are examples of notifying more detailed surrounding sound conditions through screen display.
  • an image of a space centered on the user's head is displayed as spatial coordinates 50.
  • a content sound image 51, ambient sound type images 55, 57, and effect images 56, 58 are displayed at positions based on the spatial coordinates 50 according to the arrival direction of the sound.
  • the content sound image 51 is an image indicating the type and masking range of the content sound AC.
  • the sound of a musical instrument such as a violin is localized to the left of the user, and a circular range in which other sounds are masked by the sound of the musical instrument is shown.
  • Ambient sound type images 55 and 57 are images indicating the type of ambient sound, and include, for example, an image of a car or an image of footprints indicating footsteps. Effect images 56 and 58 show ambient sound. The size of the ambient sound type images 55, 57 and the effect images 56, 58 indicates the amount of ambient sound to be masked. Furthermore, the direction of arrival of the ambient sound is indicated by the display position of the ambient sound type images 55, 57 and the effect images 56, 58.
  • the setting section 53 serves as an operation section for the user to arbitrarily turn on/off the notification function.
  • the setting section 53 is provided with setting fields such as "Ambient sound extraction ON/OFF”, “Car ON/OFF”, and "Footsteps ON/OFF”.
  • FIG. 33A shows a state in which ambient sound extraction is turned off. In this case, content sound image 51 is displayed.
  • FIG. 33B shows a state in which ambient sound extraction is turned on and car is set as the type of ambient sound. When the car is turned on, a slide bar 54 is displayed. The user can set the extraction level using the slide bar 54.
  • an ambient sound type image 55 and an effect image 56 are displayed according to the direction of arrival and the amount to be masked, as shown in FIG. 33B.
  • the sound of the car is in the same direction as the content sound, indicating that it is masked to some extent.
  • FIG. 34A shows a case where the content sound has moved.
  • the determination unit 4 may request the host device 100 to automatically change the localization of the musical instrument.
  • the determination unit 4 requests the host device 100 to change the localization of the content sound in response to the fact that the sound of a car is masked.
  • the channel of the content sound data CT is changed on the host device 100 side, and the localization is changed.
  • the localization is changed as shown in FIG. 34A, the amount of masking due to the spatial masking effect is reduced, making it easier for the user to hear the sound of the car.
  • the sizes of the ambient sound type image 55 and the effect image 56 are reduced as shown in FIG. 34B.
  • FIG. 35A shows a case where the setting unit 53 sets footsteps to be extracted. In this case as well, by turning on the footsteps, the slide bar 59 is displayed, and the user can use the slide bar 59 to set the extraction level of the footsteps.
  • FIG. 35B shows a case where footsteps coming from the right side are detected. In response, an image 57 of the ambient sound type of footsteps and an effect image 58 are displayed on the right side. This example shows a state in which the footsteps are masked to some extent by the content sound.
  • the position of the sound source moves automatically. This is followed in real time, the masking effect is analyzed, and the NC processing and transmission bit rate setting of the content sound data CT are appropriately performed.
  • a combination of the HMD as the host device 100 and the headphones 1 has high compatibility because the user's visual and auditory directions match.
  • the position of the headphones 1 (microphone 3) naturally changes as well, so the movement of the surrounding sound source as seen by the user can be responded to in real time by changing the signal from the microphone 3.
  • FIGS. 33 to 35 show images when there is stereophonic sound content
  • displays such as those shown in FIGS. 33 to 35 may be performed for content that is not stereophonic sound, or in a silent state where there is no content.
  • FIG. 36 shows a processing example of the determination unit 4 that implements such an operation.
  • Step S201 is the end determination of the repeated loop.
  • the process in FIG. 36 is ended by turning off the power, changing the operating mode, or the like.
  • the determination unit 4 analyzes the frequency characteristics and direction of arrival of the ambient sound obtained by the microphone 3, that is, the noise AN, in step S202. Further, the type of sound is determined based on the type information from the ambient sound type determining section 5.
  • step S203 the determination unit 4 analyzes the frequency characteristics of the content sound data CT. Note that the arrival direction of the content sound AC can be determined based on the channel number of the content sound data CT.
  • step S204 the determining unit 4 determines whether there is a sound that the user should recognize among the surrounding sounds. If the result of determining the type of ambient sound is the sound of a car, footsteps, announcement, alert, etc., it is assumed that the sound to be recognized exists, and its frequency characteristics and direction of arrival are determined.
  • step S205 the determination unit 4 determines the masking state and determines whether or not NC processing is to be performed. Similar to the first embodiment, the determination unit 4 determines the masking state based on the relationship between the ambient sound and the content sound. Then, it is determined whether to turn on or off the NC process accordingly.
  • the determination unit 4 also determines whether the NC processing is on or off based on whether or not there is a sound that the user should recognize in the surrounding sounds. For example, if the ambient sound does not include a sound that the user should recognize, the determination unit 4 determines to perform normal NC processing on the ambient sound. If the ambient sound includes a sound that the user should recognize, NC processing is performed on at least frequency components other than the relevant sound, and it is determined that the NC processing is not performed on the sound that the user should recognize. Note that in this case, the determination may be made to perform normal NC processing. For example, when generating a beep sound or a message sound, NC processing for ambient sounds may always be performed normally. If the ambient sound is only the sound that the user should recognize (or if the sound that the user should recognize is dominant), it is determined that the NC process is not performed. Note that in this case as well, the determination may be made to perform normal NC processing as described above.
  • step S206 the determination unit 4 controls the NC signal generation unit 6 based on the determination result in step S205. For example, it instructs to turn on/off NC processing. Control may be performed to disable NC processing only for specific frequency components.
  • the determining unit 4 also specifies the channel of the driver 2 that outputs the NC sound.
  • step S207 the determination unit 4 branches the process depending on whether or not the user is to be notified through the display on the host device 100. For example, if the ambient sound includes a sound that the user should recognize and the display notification is set to on, the process advances to step S220 and notification information SS is transmitted to the host device 100.
  • This notification information SS includes information on the type of ambient sound, the direction of arrival, and the level to be masked, thereby enabling the host device 100 to display as described with reference to FIGS. 30 to 35.
  • step S208 the determination unit 4 branches the process depending on whether the notification is to be performed by voice or not. For example, if the ambient sound includes a sound that the user should recognize, the determination unit 4 proceeds to step S210, and branches the process depending on what kind of notification is to be turned on.
  • the determination unit 4 proceeds to step S211 and instructs the ambient sound signal processing unit 8 to perform noise reduction processing, voice enhancement processing, etc. on the ambient sound data S1. It also indicates the channel of the driver 2 to output according to the direction of arrival.
  • step S212 instructs the ambient sound signal processing unit 8 to generate a beep sound or message sound. It also indicates the channel of the driver 2 to output according to the direction of arrival.
  • the signal processing device of the embodiment is realized as a processor or the like having the function of the determination section 4 including a masking determination section 4a and an acoustic processing control section 4b.
  • the sound output device of the embodiment is realized as headphones 1 including such a determination unit 4.
  • the masking determination unit 4a uses content sound data CT of multiple channels output from a plurality of drivers 2 disposed in the headphones 1 and ambient sound data CT obtained by a plurality of microphones 3 disposed in the headphones 1 and collecting ambient sounds.
  • the masking state of the content sound and the surrounding sound is determined using the sound data S1 and information on the direction of arrival of the surrounding sound.
  • the sound processing control section 4b performs control regarding sound processing according to the masking state determination result by the masking determination section 4a.
  • control related to sound processing suitable for each can be executed.
  • the masking state by taking into account the level and direction of arrival of ambient sound, the content sound channel (information on which output position to output from), and the level of each channel, so-called multi-mic, multi-driver headphones
  • the masking situation can be determined more appropriately. Therefore, when playing stereophonic content such as 3D audio, it is possible to control appropriate sound processing in accordance with highly accurate masking situation determination. For example, it is possible to enable the user to recognize necessary surrounding sounds, to enable the user to listen to content sounds comfortably through appropriate NC processing, and to reduce the load on system processing.
  • the driver 2 that outputs the sound that makes the user recognize the ambient sound is determined depending on the direction of arrival of the ambient sound.
  • the driver 2 that is, determining the channel
  • the user recognizes that the sound is coming from a direction corresponding to the determined channel. Therefore, it becomes possible to hear the surrounding sound itself, the notification sound or message sound in place of the surrounding sound, and also recognize the direction in which the actual surrounding sound is coming.
  • the arrival direction of ambient sound by constantly analyzing ambient sound data S1 collected by the microphone 3 of the headphones 1, it is possible to follow the user's own movements and movements in real time.
  • control is performed so that the driver 2 outputs a generated sound that makes the user recognize the surrounding sound (step S212 in FIG. 36). For example, it generates and outputs a sound that means some kind of caution, warning, or notification, such as a beep sound or a message sound.
  • a sound that means some kind of caution, warning, or notification, such as a beep sound or a message sound.
  • the determination unit 4 determines the notification information SS used for display to make the ambient sound recognizable, according to the determination result of the sound type and masking state of the ambient sound data S1.
  • An example has been given in which the process of transmitting to the host device 100 is performed (step S220 in FIG. 36). For example, when an ambient sound that is determined to be necessary for the user is detected, information used for display to make the user aware of the ambient sound is transmitted to the host device 100. This causes the host device 100 to display a display that allows the user to recognize surrounding sounds as described in FIGS. 30 to 35. When viewing 3D audio content accompanied by images, the user is also gazing at the screen, so it is also effective to notify the user of necessary surrounding sounds through display.
  • the notification information SS used for display to make the user recognize the ambient sound includes information on the arrival direction of the ambient sound.
  • the external device such as the host device 100 can perform display according to the direction of arrival of the surrounding sound (see FIGS. 30 to 35).
  • the notification information SS used for display to make the user recognize the ambient sound includes information about the type of ambient sound.
  • the external device such as the host device 100 can display information according to the type of ambient sound, such as the sound of a car or footsteps (see FIGS. 31 to 35).
  • the notification information SS used for display to make the user recognize surrounding sounds includes information on the masking state determination result.
  • an external device such as the host device 100 can display a situation in which ambient sound is masked by content sound (see FIGS. 33 to 35).
  • the acoustic processing control unit 4b controls noise canceling processing for ambient sounds in accordance with the determination result of the masking state.
  • the ambient sounds can be reduced or eliminated for users who are enjoying stereophonic content.
  • NC processing may be performed for ambient sounds that are not masked by the content sound depending on the frequency component or direction of arrival, and the NC processing may be turned off for ambient sounds that are masked.
  • the sound processing control section 4b may also control the NC processing using the sound type of the ambient sound data obtained by the microphone 3. For example, if it is determined that the ambient sound is a sound that is necessary for the user, the NC process can be turned off and the user can listen to it.
  • the acoustic processing control unit 4b controls the driver 2 (that is, the channel) that outputs the NC sound for the ambient sound according to the masking state determination result and the information about the direction of arrival of the ambient sound.
  • the driver 2 that is, the channel
  • An example of performing control to determine is described.
  • the NC effect can be made more effective by determining the driver 2 that outputs the NC sound ANC in accordance with the direction of arrival of the ambient sound.
  • the audio processing control unit 4b performs a process of transmitting the quantization bit information necessary for the content sound data CT to the host device 100 according to the determination result of the masking state.
  • the audio processing control unit 4b performs a process of transmitting the quantization bit information necessary for the content sound data CT to the host device 100 according to the determination result of the masking state.
  • stereophonic sound reproduction we are facing a significant increase in the transmission bit rate due to multi-viewpoints and free-viewpoints, and reducing the transmission bitrate of content sound data has become one of the important issues. Since the information on the masked sound component does not need to be transmitted in the first place, the number of quantization bits can be reduced. Therefore, quantization bit information necessary for the content sound data is transmitted to the host device 100 according to the masking state determination result.
  • the amount of content sound data can be reduced on the host device 100 side, resulting in a reduction in the transmission bit rate of the content sound data, an improvement in the S/N of the content signal, an improvement in the sense of sound separation, and an improvement in the NC effect. Furthermore, it is possible to extend the battery life of the headphones 1 by reducing power consumption.
  • the quantization bit information transmitted to the host device 100 includes information on the channel and band for reducing the number of quantization bits in content sound data. Thereby, the host device 100 can reduce the number of quantization bits in the specified band in the specified channel.
  • the determination unit 4 can also selectively perform power-off control of the driver 2.
  • the driver 2 of a channel that does not output NC sound and does not output content sound is controlled to turn off power supply.
  • the technology of the present disclosure can also be applied to sound output devices such as various earphones such as inner ear type and canal type.
  • the present technology can also adopt the following configuration.
  • a masking determination unit that determines the masking state of the content sound and the surrounding sound using information on the arrival direction of the content sound and the surrounding sound;
  • a signal processing device comprising: a sound processing control unit that performs control regarding sound processing according to a determination result of a masking state by the masking determination unit.
  • the sound processing control unit controls the sound output driver to output a sound that makes the surrounding sound perceptible according to the sound type of the surrounding sound data obtained by the microphone and the masking state determination result.
  • the signal processing device according to item 1).
  • the sound processing control unit performs a process of transmitting information used for a display that makes the surrounding sound perceptible to an external device according to the sound type of the surrounding sound data obtained by the microphone and the masking state determination result.
  • the signal processing device according to any one of (1) to (5).
  • the sound processing control unit performs a process of transmitting to the external device information used for a display that makes ambient sounds perceivable, including information on the direction of arrival of the ambient sounds.
  • the acoustic processing control unit performs a process of transmitting information used for a display that makes ambient sound perceptible, including information on a determination result of a masking state, to the external device. signal processing device.
  • the signal processing device according to any one of (1) to (9), wherein the acoustic processing control unit controls noise canceling processing for ambient sound according to a determination result of a masking state.
  • the acoustic processing control unit is configured to control, among the plurality of acoustic output drivers, an acoustic output driver that outputs a noise canceling signal for ambient sound, according to a determination result of a masking state and information on an arrival direction of ambient sound.
  • the signal processing device according to any one of (1) to (10) above.
  • a determination section comprising: a sound processing control section that performs control regarding sound processing according to a determination result of a masking state by the masking determination section.
  • a masking determination process that determines the masking state of the content sound and the surrounding sound using the arrival direction information of the content sound and the surrounding sound
  • a sound processing control process that controls sound processing according to a masking state determination result by the masking determination process
  • a signal processing method performed by a signal processing device.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

信号処理装置は、音響出力装置に配置された複数の音響出力ドライバから出力する複数チャネルのコンテンツ音データと、音響出力装置に配置され周囲音を集音する複数のマイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定部を備える。またマスキング判定部によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御部を備える。

Description

信号処理装置、音響出力装置、信号処理方法
 本技術は信号処理装置、音響出力装置、信号処理方法に関し、特に音響出力ドライバを複数備えた立体音響再生の分野に好適な技術に関する。
 例えば3D(three dimensions)オーディオ、360度オーディオなどとして、立体音響再生の技術が開発されている。立体音響再生に用いるヘッドホンでは左耳側及び右耳側のユニットのそれぞれに複数チャネルの音響出力ドライバ(ドライバユニット)を配置し、ユーザに多様な方向性のコンテンツ音声を知覚させる。また、このようなヘッドホンではノイズキャンセル処理のためのマイクロホンを複数設け、多様な方向性で周囲音を集音するものもある。
 このような、いわゆるマルチマイクロホン・マルチドライバのヘッドホンによって、周囲音が生じている環境下において3Dオーディオ等のコンテンツを聴取するユースケースが想定される。
 下記特許文献1には立体(3D)オーディオの伝送に関する技術が開示されている。
特開2021-152677号公報
 ここでコンテンツ音と周囲音の2つを考えた場合において、一方の音で他方の音がマスキングされることを考える。すなわち周囲音がコンテンツ音によってマスキングされ、ユーザに認知されないケースや、周囲音によりコンテンツ音成分の一部がマスキングされるようなケースである。例えば周囲音をノイズとしてノイズキャンセル処理を行う場合は、その消し残り成分により、コンテンツ音成分の一部がマスキングされる場合もある。
 このようなマスキングの状態を判定することで、より効率的な処理や、ユーザにとって望ましい処理が実現できると考えられる。
 そこで本技術は、コンテンツ音と周囲音の状況に適した処理が行われるようにする技術を提案する。
 本技術に係る信号処理装置は、音響出力装置に配置された複数の音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記音響出力装置に配置され周囲音を集音する複数のマイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定部と、前記マスキング判定部によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御部と、を備える。
 ヘッドホン等の音響出力装置の筐体内で複数の音響出力ドライバが備えられて立体音響の再生を行うとともに、周囲音を集音する複数のマイクロホンが配置される場合を想定する。この場合に、コンテンツ音データと周囲音データについてマスキング状態を判定し、そのマスキング状態に応じた音響処理制御を行う。
本技術の第1の実施の形態のヘッドホンのブロック図である。 実施の形態のヘッドホンにおけるマイクロホンと音響出力ドライバの模式的な説明図である。 実施の形態のヘッドホンの装着者に聴取される音の説明図である。 音響出力ドライバの位置とノイズキャンセル特性の説明図である。 最小可聴限と同時刻マスキングの説明図である。 ノイズが加わった状態のマスキングの説明図である。 ノイズが加わった状態のマスキングの説明図である。 消し残りノイズがあるときのマスキングの説明図である。 消し残りノイズがあるときのマスキングの説明図である。 空間マスキングの説明図である。 ノイズとコンテンツ音の到来方向が一致する場合の説明図である。 ノイズとコンテンツ音の到来方向が一致する場合のマスキングの説明図である。 ノイズとコンテンツ音の到来方向が一致する場合にノイズキャンセル処理を加えた状態の説明図である。 ノイズとコンテンツ音の到来方向が一致する場合にノイズキャンセル処理を加えた状態でのマスキングの説明図である。 ノイズとコンテンツ音の到来方向が一致する場合のマスキングの説明図である。 ノイズとコンテンツ音の到来方向が異なる場合の説明図である。 ノイズとコンテンツ音の到来方向が異なる場合にノイズキャンセル処理を加えた状態の説明図である。 ノイズとコンテンツ音の到来方向が異なる場合にノイズキャンセル処理を加えた状態でのマスキングの説明図である。 ノイズの到来方向がコンテンツ音の到来方向に含まれる場合の説明図である。 到来方向毎に異なるマスキング状態の説明図である。 到来方向毎に異なるマスキング状態でノイズキャンセル処理を加えた場合の説明図である。 ノイズキャンセル処理が行われた状態の説明図である。 ノイズの到来方向がコンテンツ音の到来方向以外に存在する場合の説明図である。 到来方向毎に異なるマスキング状態の説明図である。 到来方向毎に異なるマスキング状態でノイズキャンセル処理を加えた場合の説明図である。 ノイズキャンセル処理が行われた状態の説明図である。 実施の形態の判定部の処理例のフローチャートである。 実施の形態の判定部の処理例のフローチャートである。 第2の実施の形態のヘッドホンのブロック図である。 ホスト機器での周囲音通知のメッセージ表示例の説明図である。 ホスト機器での周囲音及び到来方向通知の表示例の説明図である。 ホスト機器での周囲音及び到来方向通知の表示例の説明図である。 ホスト機器でのマスキング状態を含めた表示例の説明図である。 ホスト機器でのマスキング状態を含めた表示例の説明図である。 ホスト機器でのマスキング状態を含めた表示例の説明図である。 実施の形態の判定部の処理例のフローチャートである。
 以下、実施の形態を次の順序で説明する。
<1.第1の実施の形態>
<2.第2の実施の形態>
<3.まとめ及び変型例>
<1.第1の実施の形態>
 本開示の実施の形態では、音響出力装置の例として、マルチマイクロホン・マルチドライバ搭載ヘッドホンを挙げ、このヘッドホンにおいて、3Dオーディオ等の立体音響データを含むコンテンツを聴取する場合を例にして説明する。なおヘッドホンに搭載される音響出力ドライバは、以下、単に「ドライバ」とも表記する。
 まず第1の実施の形態では、主に立体音響再生を行うためにコンテンツ音データの伝送量が増大することに対処する処理を説明する。
 立体音響再生の場合、旧来の2チャネルステレオ音声等を再生するコンテンツから比較すると、音源数が飛躍的に増加しており、コンテンツ音データの伝送ビットレートが肥大化するという実情がある。
 一方で、コンテンツ音以外に周囲から発せられ鼓膜に届く周囲音(ノイズ)が存在する。このとき、マスキング効果という現象を活用することで、コンテンツ音データの伝送ビットレートの低減、あるいはコンテンツ音データのS/N(Signal-to-Noise Ratio)向上、音の分離感の向上、ノイズキャンセル(以下、ノイズキャンセルを「NC」と表記する)効果の向上、さらには消費電力の削減によるヘッドホンの電池寿命の長時間化を実現する。
 ある音がほかの音によって妨害され、遮蔽されて聞こえなくなるマスキング効果という現象が存在する。なお音源がふたつ存在するとき、一方の信号が、もう一方の信号を遮蔽するマスキング効果が発生することがある。他方をマスクする側を「マスカー」、マスクされる側を「マスキー」と呼ぶ。
 本実施の形態では、このマスキング効果を利用し、ノイズ環境下における立体音響コンテンツ視聴時に、ノイズ、立体音響のコンテンツ音データ、ノイズの到来方向から、どちらの信号が支配的(マスカー)となり、もう一方の信号(マスキー)をどの程度劣化させるか、あるいはかき消してしまうか、を解析する。
 そして解析結果に応じて、ノイズがマスカーになる場合には、立体音響再生のコンテンツ音データの量子化ビットを削減することで、伝送ビットレート低減を実現する。
 またノイズ環境下でコンテンツ音を聴取するとき、NC機能をONにする。このとき、NC効果、およびNC処理後のコンテンツ音のS/N等の質は、ノイズの到来方向に依存する。そこで、ヘッドホンにおけるどのドライバを使用してノイズをキャンセルするべきか、あるいはどのドライバでのノイズキャンセリングが不要か、を割り出して、設定を変更することで、より快適な再生音のS/N、音の分離感、NC効果の向上を実現する。
 図1に第1の実施の形態のヘッドホン1の構成例を示す。
 ヘッドホン1は、ホスト機器100から立体音響データとしてのコンテンツ音データCTが伝送され、そのコンテンツ音データCTによる再生音の出力を行う。
 なお、ホスト機器100とは、ヘッドホン1と別体の機器を想定しているが、ヘッドホン1の内部に設けられる装置部でもよい。例えばヘッドホン1内の音声ストリーミング制御部などでもよい。すなわち実施の形態におけるホスト機器100とは、ヘッドホン1で再生するコンテンツ音データCTのソースとなる機器や回路部であれば、どのような形態でもよく、またヘッドホン1との一体/別体を問わない。
 このヘッドホン1には、例えばNチャネルの立体音響音声を出力するN個のドライバ2(2A、2B・・・2(N))が設けられている。ドライバ2A、2B・・・2(N)は、ヘッドホン1の左右の各ハウジング内において、各チャネルに対応した互いに異なる位置に配置される。
 例えば図2に模式的に示すように、ドライバ2A、2B・・・2(N)はハウジング10内において、ユーザの耳200に向けて放音するように設けられている。これにより鼓膜201に到達するコンテンツ音の各チャネルは、到来方向が異なるものとなる。
 なお説明の簡略化のために、ユーザの左右の耳のうちの一方側のハウジング10について図示及び説明を行うが、他方のハウジングも同様である。Nチャネル(N個)のドライバは、左右の各ハウジング10に設けられる。図1も一方の耳200に対応する構成として示しているが、他方側の構成も同様である。
 図1,図2に示すように、ハウジング10の外側に向けて、互いに異なる位置にM個のマイクロホン3(3A,3B・・・3(M))が設けられている。これによりMチャネルの周囲音を集音する。マイクロホン3は例えばFF(フィードフォワード)方式でNC処理を行うための適切な位置に配置されている。
 なお図2はあくまでも模式図であり、ドライバ2及びマイクロホン3は、必ずしも図のようにハウジング10の断面方向に並ぶわけではない。
 例えば複数のドライバ2はハウジング10の内面側に、また複数のマイクロホン3はハウジング10の外面側において、それぞれ各所に配置される。
 ヘッドホン1に対するホスト機器100は、コンテンツ音データCTのソースとなる機器であり、例えばスマートフォン、HMD(ヘッド・マウント・ディスプレイ)、ゲーム機器、タブレット、パーソナルコンピュータ、その他の各種の機器が想定される。
 ホスト機器100は、例えば表示部を備えてコンテンツ映像の表示を行い、またコンテンツ音データCTをヘッドホン1に伝送する。これによりユーザは映像及び音声によるコンテンツを視聴することができる。この場合に、コンテンツ音データCTはヘッドホン1で再生するNチャネルの立体音響データとされている。すなわちコンテンツ音データCTは、ホスト機器100側で、ヘッドホン1のドライバ2のチャネル数及び位置に応じた信号処理が施されている想定である。
 コンテンツ音データCTを受信するヘッドホン1には、例えば1又は複数のマイクロプロセッサにより、判定部4、周囲音種別判定部5、NC信号生成部6、出力信号生成部7としての各機能が設けられる。
 マイクロホン3で集音された音声は、例えばマイクロホン3の出力段階でデジタルデータとしての周囲音データS1に変換されて判定部4、周囲音種別判定部5、NC信号生成部6に供給される。なお、デジタルデータへの変換は、これらの各部を構成するマイクロプロセッサの入力段で行われてもよい。例えばマイクロプロセッサにA/D変換端子が設けられていることで、判定部4、周囲音種別判定部5、NC信号生成部6はデジタルデータとしての周囲音データS1を取得する。
 判定部4は、マイクロホン3からの周囲音データS1と、コンテンツ音データCTを取得して判定及び制御を行う機能である。具体的にはマスキング判定部4a及び音響処理制御部4bとしての機能を備える。
 マスキング判定部4aは、Nチャネルのドライバ2から出力するNチャネルのコンテンツ音データCTと、マイクロホン3で得られたMチャネルの周囲音データS1と、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定する処理を行う。
 このためマスキング判定部4aは、Mチャネルの周囲音データS1から周囲音(ノイズ)の到来方向を判定する。
 またマスキング判定部4aはMチャネルの周囲音データS1の周波数特性を算出する。
 またマスキング判定部4aはNチャネルのコンテンツ音データCTの周波数特性を算出する。
 マスキング判定部4aはこれらの情報に応じて周囲音とコンテンツ音に関するマスキング状態を判定する。詳細は後述する。
 なお本実施の形態のように立体音響コンテンツの場合、コンテンツ音データCTの各チャネルの音データは、それぞれ異なるドライバ2から出力する音データである。つまりチャネル番号が各ドライバ2の配置位置に対応している。このためコンテンツ音データCTのチャネル情報は、ユーザに対するコンテンツ音の到来方向の情報に相当する。従って複数チャネルのコンテンツ音データCTにおける各チャネルのレベルにより、コンテンツ音の到来方向毎のレベルが判定できる。
 換言すれば、コンテンツ音データCT自体が、ユーザに対するコンテンツ音の到来方向の情報を含む。
 音響処理制御部4bは、マスキング判定部4aによるマスキング状態の判定結果に応じて音響処理に関する制御を行う。
 例えば音響処理制御部4bは、マスキング状態に応じてNC信号生成部6に制御信号を出力し、NC動作の制御を行う。NC動作の制御とは、NC処理のオン/オフや、NC信号を出力するドライバ2の選択制御などである。例えば到来するノイズに対して、どのドライバ2でNC信号S2を出力するとNC効果を最も大きくできるかを判定し、NC信号生成部6に指令を送る。
 また音響処理制御部4bは、例えばマスキング状態の判定結果に応じて、通知情報SSを外部機器であるホスト機器100に送信する処理を行う。
 第1の実施の形態の場合、通知情報SSとして、コンテンツ音データCTに必要な量子化ビット情報がある。量子化ビット情報とは、例えばコンテンツ音データCTにおいて量子化ビット数の削減を行うチャネルと帯域の情報を含む。
 周囲音種別判定部5は、マイクロホン3で得られる周囲音データについて、音の種別を判定する処理を行う。なお、種別判定は、必ずしも具体的な音の判定を行わず、ノイズとして扱う音であるか否かの判定でもよい。
 なお周囲音種別判定部5は、主に第2の実施の形態の処理で必要になるため、第1の実施の形態の処理に関しては設けられなくてもよい。但し、第1の実施の形態において例えば周囲音データS1の音の種別に応じてNC処理をオン/オフするような処理が行われるようにしてもよい。
 NC信号生成部6は、マイクロホン3で得られる周囲音データをノイズとして、それを打ち消すためのNC信号S2を生成する機能である。例えばFF-NCアルゴリズムに従った処理でNC信号S2を生成する。
 出力信号生成部7は、ドライバ2から出力する信号を生成する機能である。基本的にはコンテンツ音データCTの各チャネルのデータに基づいて、各チャネルのドライバ2を駆動する信号を生成する。なおコンテンツ音データCTに対するイコライザ処理等を含むこともある。
 また出力信号生成部7は入力されたNC信号S2に基づいて、指定されたチャネルのドライバ2を駆動する信号を生成する。なおNC信号を出力するドライバ2のチャネルは、上述のように音響処理制御部4bによって指定される場合がある。
 以下、判定部4によるマスキングの判定処理について説明する。
 マスキング効果には種類がある。同時刻の隣接周波数音を遮蔽する「同時刻マスキング(周波数マスキング)」、直前・直後の音を遮蔽する「時間マスキング」などである。
 本開示では、上記の「同時刻マスキング」と、音の到来方向の違いによって発生する「空間マスキング」を主に利用する。
 「空間マスキング」は、聴取者から見てマスカーとマスキーの到来方向が同じとき、最もマスキング効果が発揮され、到来方向が異なるときはマスキング効果が弱くなることである。なお図3には、周囲音であるノイズANとコンテンツ音ACの到来方向が異なる状態を模式的に示している。
 第1の実施の形態では周囲音をノイズANと考える。
 そしてノイズANと、ヘッドホン1がドライバ2から出力するコンテンツ音ACを考えた場合、マスカー/マスキー関係 と、それぞれの音の到来方向の観点で、以下のケースが考えられる。
・ノイズANが同時刻マスキング効果で、コンテンツ音AC(量子化ビットすべて、あるいは量子化ビットの一部に相当する音)をマスクする
・コンテンツ音ACがノイズANをマスクする
・ノイズANとコンテンツ音ACの到来方向が同一(マスキング効果:大)
・ノイズANとコンテンツ音ACの到来方向が異なる(マスキング効果:小)
 これらのケースの組み合わせにおいて、立体音響コンテンツの視聴時のS/N改善、音の分離感の向上、NC効果の向上、ビットレート削減を実現する。
 ここで前提とする現象・効果について次の3つの点について説明する。
・ドライバの位置とNC効果
・最小可聴限と同時刻マスキング
・空間マスキング
 まずドライバの位置とNC効果について述べる。
 図4はマルチドライバヘッドホンにおけるドライバの選択とNC性能を示すための実験結果である。実験ではNo.1からNo.4とした4つのドライバを搭載したマルチドライバヘッドホンを用いている。
 図4の横軸は周波数、縦軸は音圧レベルであり、縦軸では下方向が静か、つまりNC効果が高いことを表す。
 測定結果C1は、ヘッドホンを装着しない状態での鼓膜位置の音圧である。
 測定結果C2は、ヘッドホンを装着しただけの状態(NC処理オフ)での鼓膜位置の音圧である。
 測定結果C3はNo.1としたドライバでNC信号を出力した場合、測定結果C4はNo.2としたドライバでNC信号を出力した場合、測定結果C5はNo.3としたドライバでNC信号を出力した場合、測定結果C6はNo.4としたドライバでNC信号を出力した場合を、それぞれ示している。
 測定結果C6では低域のNC効果が高いが、4kHz以上でNC効果が低下している。
 一方で、測定結果C5は、低域が測定結果C6ほどではないが、1~6kHzで特にNC効果が高いことがわかる。測定結果C3,C4もそれぞれ他の測定結果と異なる特性を持つ。
 このように、それぞれ異なるドライバでNC処理を行った場合の測定結果C3,C4,C5,C6から、マルチドライバヘッドホンのノイズキャンセルに関しては、NC信号を出力するドライバによって、NC効果が高い帯域と低い帯域がある。これは、各ドライバの配置位置や鼓膜までの特性に起因する。
 このような特徴は、換言すれば、NC信号を出力するドライバの選択や組み合わせによって、どの帯域で重点的にノイズキャンセル処理をするかを選択できることになり、これがマルチドライバヘッドホンのノイズキャンセリングの利点であるといえる。
 次に最小可聴限と同時刻マスキング(周波数方向)について説明する。
 最小可聴限は、それぞれの帯域において、人が聞き取ることができる限界の音圧レベルを示し、最小可聴限より小さい音は聞くことができない。
 同時刻マスキングは、ある周波数成分(F1)が鼓膜に到達して聴取するとき、その近傍の周波数成分(F2)は、周波数成分(F1)と比較してある程度大きくないと、周波数成分(F1)にマスキングされてしまい聞き取ることができない現象である。
 これらを考えると、マスキングされる精度にあたる部分、および最小可聴限未満の部分は、量子化誤差を許容できることになり、伝送ビットレートを削減できることになる。
 図5で説明する。横軸は周波数、縦軸は振幅である。
 図では最小可聴限40を一点鎖線で示している。
 また図では、同時刻に発生した音の周波数成分20,21,22,23を示している。また各周波数成分20,21,22,23によって同時刻マスキングされるマスキングレベル30,31,32,33を破線で示している。
 周波数成分20の音によってはマスキングレベル30より低い音はマスキングされる。マスキングレベル30は、周波数成分20の周波数と頂点として傘状に他の周波数に広がる。つまり周波数成分20に近い周波数の音は、比較的大きい音でもマスキングされやすく、周波数が離れるほど、マスキングされにくくなる。
 周波数成分21のマスキングレベル31、周波数成分22のマスキングレベル32、周波数成分23のマスキングレベル33も、同様の傾向になる。
 この図5の例の場合、周波数成分22のレベルは、最小可聴限未満である。
 周波数成分21は、周波数成分20によるマスキングレベル30未満であり、つまり周波数成分20によってマスキングされてしまう。
 周波数成分23は、領域23Mの部分が周波数成分20によりマスキングされる。
 周波数成分20は、領域20Mが最小可聴限未満である。
 つまり、図中で黒塗りとした領域20M、23M、及び周波数成分21,22の全体は、マスキングされるか最小可聴限未満である音声成分であり、この部分には精度の高い情報は必要ないと考えることが可能である。
 これらのように、発生している音のマスキングの状態を判定すると、量子化精度が要求されない領域が判定できる。従って、判定部4が、マスキング状態の判定に基づいて、コンテンツ音データCTにおいて量子化ビット数の削減を行うチャネルと帯域の情報をホスト機器100に送信すると、ホスト機器100側でコンテンツ音データCTの量子化処理を制御し、伝送ビットレートを削減できる。
 以下、図5と同様に各種の場合を示していく。
 図6は、図5にノイズが加わったときの状態を示している。例えば図5のような周波数成分20,21,22,23を持つコンテンツ音を聴取している環境に、単一周波数のノイズ24が加わった場合とする。
 この図6の場合、ノイズ24は周波数成分20で同時刻マスキングされるレベルを超えているため、コンテンツ音を劣化させる。
 このような場合は、NC処理を行い、同時刻マスキングされるレベル以下までノイズ24をキャンセルすることを目指す。
 図7も、図6と同じく図5のような周波数成分20,21,22,23を持つコンテンツ音を聴取している環境に、単一周波数のノイズ24が加わった場合である。但しこの図7の場合、ノイズ24がそもそもコンテンツ音の周波数成分20によるマスキングレベル30以下である。このような場合は、NC処理を行う必要がない。
 図8の例は、ノイズ24についてNC処理による消し残りが、コンテンツ音の同時刻マスキングを受けるマスキングレベル30を超えているときの例である。
 ノイズ24、すなわちこの場合はNC処理の消し残りノイズによって、コンテンツ音の下位ビットの精度が劣化してしまう。すなわち周波数成分20,21,22,23におけるノイズ24によるマスキングレベル34以下の領域で示す部分である。
 この領域の量子化誤差は、NC処理の消し残りノイズ24に埋もれるので、伝送ビットレートの削減対象となる。
 図9の例は、NC処理の消し残りノイズ24がコンテンツ音のレベルより大きい場合である。周波数成分20,21,22,23における、ノイズ24によるマスキングレベル34以下の領域で示す部分はノイズ24に埋もれる。つまり図8の場合よりも、ビットレート削減の対象とする量子化誤差の許容範囲が広がることになる。
 次に空間マスキングについて説明する。
 図10は空間マスキングの実験結果を示している。
 ユーザ(聴取者)から見て、正面方向を0度とする。マスカーが0度方向に位置して、マスキーを30度ごと移動させた実験結果を示したものを図10に示している。
 カーブ41として示すように、マスキーが聞こえなくなる(マスキングされる)音量が、角度によって差が生じる傾向があることがわかる。
 90度の位置では、0度(マスカーとマスキー方向が同一)と比較すると、マスカーが約6.4dB大きくないとマスキングできないことがわかり、角度差があるとマスキングされにくい結果が得られている。
 本実施の形態では、以上、ドライバの位置とNC効果、最小可聴限と同時刻マスキング、空間マスキングという3つの現象・効果を利用する。
 第1ケースから第4ケースとして説明する。
 なお図11から図26の各図では、コンテンツ音AC、ノイズAN、消し残りノイズAN(NC)、NC音ANCを、それぞれ模式的に矢印で示している。
 各矢印は鼓膜201に到達する音の到来方向を示し、太さは音の大きさを示している。
 また図11から図26の各図では、図の見やすさを優先し、ドライバ2(2A、2B・・・2(N))及びマイクロホン3(3A,3B・・・3(M))については符号の記載を省略する。各ドライバ2及びマイクロホン3の構成は、図2,図3と同様と理解されたい。
 [第1ケース:ノイズとコンテンツ音の到来方向が一致する場合]
 図11は、ノイズANとコンテンツ音ACの到来方向が一致する場合で、ノイズANがマスカーとなっている例である。
 なお、実施の形態の基本的な考え方の説明のため、コンテンツ音は1チャネル、ノイズも単一方向とし、大小関係も全帯域で同じ関係とする。
 図12は、ノイズANがコンテンツ音ACをマスクしてしまうことを示している。
 ノイズANがコンテンツ音ACをマスクしてしまうことに対して、NC処理を行うことで、コンテンツ音ACを、よりはっきりと聴取できるようになる。基本的に、ノイズ到来方向と同じ方向に位置するドライバ2を使用してNC処理をすることがNC効果に有効である。そこでNC音ANCはノイズ到来方向に応じたドライバを選択して出力させる。図13は、ノイズ到来方向のドライバ2からNC音ANCを出力していることを示している。
 ここでNC音が鼓膜に到達するノイズANを完全にキャンセルできるわけではない。図14には消し残りノイズAN(NC)があることを示している。なお図14では、あたかもドライバ2の位置からノイズANがキャンセルされているように表しているが、これは図示の都合であり、実際にキャンセルされるのは鼓膜201の位置である。他の図の消し残りノイズAN(NC)の図示についても同様である。
 消し残りノイズAN(NC)について次の(A)(B)のような場合が想定される。
 (A)消し残りノイズAN(NC)が最小可聴限及びコンテンツ信号の量子化ノイズより大きい場合、消し残りノイズが同時刻マスキング効果でコンテンツ音ACの量子化下位ビットの音を埋もれさせてしまう。そこでコンテンツ音データCTの量子化ビットを削減する。
 (B)消し残りノイズAN(NC)が知覚できなくなるまで消える場合、あるいはコンテンツ音ACにマスキングされる場合、コンテンツ音データCTの伝送では割り当てビットを最大にする。但しコンテンツ音データCT自身の周波数特性によりマスキングを考慮したビット削減は行うようにする。
 次に、同じくノイズANとコンテンツ音ACの到来方向が一致する場合で、コンテンツ音ACがマスカーとなる場合を述べる。
 図15は、コンテンツ音ACによってノイズANがマスクされることを示している。このようにコンテンツ音ACのレベルが大きく、ノイズANをマスクする場合、ノイズANは聴取者に知覚されなくなるため、NC処理を行わなくてもよい。
 コンテンツ音データCTの伝送では割り当てビットを最大にすることで、ユーザに認知できる精細さを実現する。
 [第2ケース:ノイズとコンテンツ音の到来方向が異なる場合]
 図16は、ノイズANとコンテンツ音ACの到来方向が異なる場合を示している。
 なお、第1ケースと同様に、コンテンツ音は1チャネル、ノイズも単一方向とし、大小関係も全帯域で同じ関係とする。
 まずノイズANのレベルが大きいときを考える。
 空間マスキング効果により、コンテンツ音ACとノイズANがそれぞれ聴取しやすく、ノイズANが目立って聞こえる。あるいは、大小差が十分大きければノイズANがコンテンツ音ACを完全にマスキングしてしまう。
 そのため、ノイズANの到来方向・特性に適したドライバ2を使用してNC音ANCを出力することで、コンテンツ信号を聴取しやすくする。例えば図17のように、ノイズANの到来方向と同方向に位置するドライバ2を使用してNC音ANCを出力することが通常想定される。
 但し到来方向が異なることで、図18に示す消し残りノイズAN(NC)が聞き取りやすくなる傾向にある。つまり空間マスキングの効果により、マスキング効果が小さい傾向にあるためである。するとコンテンツ音データCTのビット削減によるコンテンツ音ACの劣化は認識されやすい。
 そこで図5から図9で説明した同時刻マスキングに、空間マスキングを加味して判定を行う。例えば到来方向の角度差に応じて、図5から図9に示したマスキングレベル(30,31,32,33,34)が上下にシフトするように考えればよい。
 [第3ケース:ノイズ(複数)の到来方向がコンテンツ音(複数)の到来方向に含まれる場合]
 図19に第3ケースの一例を示す。コンテンツ音ACとして、コンテンツ音AC1,AC2,AC3が各ドライバ2から出力される。またノイズANとして、ノイズAN1,AN2が到来している。ノイズAN1とコンテンツ音AC1の到来方向は一致し、ノイズAN2とコンテンツ音AC2の到来方向は一致している。
 ノイズANのレベルが大きいとき、第1ケースと同様にNC処理を実行する。またNC処理による消し残りノイズAN(NC)に応じて、コンテンツ音データCTの伝送ビットを決定する。
 ここでノイズAN、コンテンツ音ACが複数存在する場合、図20のように、方向ごとにマスカーとマスキーの関係が異なる場合がある。
 図20の例では、ノイズAN1がコンテンツ音AC1をマスクしている。一方、コンテンツ音AC2がノイズAN2をマスクしている。
 このような場合が想定されるため、各到来方向において、ノイズANとコンテンツ音ACのどちらがマスカーとなるかをそれぞれ判定する。
 ノイズANのレベルが、コンテンツ音ACより大きい場合、ノイズANについてNC処理を行う。例えばノイズAN1がコンテンツ音AC1をマスクしている場合に、同方向のドライバ2を用いてNC音ANCを出力している状態を図21に示している。
 またそのNC処理による消し残りノイズAN(NC)を図22に示している。消し残りノイズAN(NC)に関しては、第1ケースで(A)又は(B)として述べた処理を行えば良い。
 一方、コンテンツ音ACがノイズANをマスクするほどにレベルが大きい場合、ノイズANについてNC処理を行う必要がない。
 例えばノイズAN2がコンテンツ音AC2によってマスクされていることを図21,図22に示している。
 また図19のような場合、或る到来方向のノイズANによって、他の到来方向のコンテンツ音ACがマスクされる場合もある。例えばノイズAN1がコンテンツ音AC2をマスクするほどレベルが大きい場合である。
 ノイズAN1についてNC処理が行われる。図21にNC音ANCをノイズAN1と同方向のドライバ2から出力している様子を示し、図22には消し残りノイズAN(NC)を示している。
 このときに、消し残りのノイズAN(NC)がコンテンツ音AC1,AC2,AC3をどれだけ阻害するかによって、コンテンツ音AC1,AC2,AC3のそれぞれの伝送ビット割り当てを決定する。
 [第4ケース:ノイズ(複数)の到来方向が、コンテンツ音(複数)の到来方向以外にもある場合]
 図23に第4ケースの一例を示す。コンテンツ音ACとして、コンテンツ音AC1,AC2が各ドライバ2から出力される。またノイズANとして、ノイズAN1,AN2,AN3が到来している。ノイズAN1とコンテンツ音AC1の到来方向は一致し、ノイズAN2とコンテンツ音AC2の到来方向は一致している。ノイズAN3は、コンテンツ音ACの到来方向以外から到来するノイズである。
 この場合も第3ケースと同様に、必要に応じてNC処理を行い、発生するマスキング効果にあわせてコンテンツ音データCTの伝送ビットを決定する。
 図23の例では、図24に示すようにノイズAN1がコンテンツ音AC1をマスクしている。またコンテンツ音AC2がノイズAN2をマスクしている。
 従ってノイズAN1,AN3についてNC処理を行う。図25にNC音ANC1をノイズAN1と同方向のドライバ2から出力し、NC音ANC3をノイズAN3と同方向のドライバ2から出力している様子を示している。図26には消し残りノイズAN1(NC),AN3(NC)を示している。
 このときに、消し残りのノイズAN1(NC),AN3(NC)がコンテンツ音AC1,AC2,AC3をどれだけ阻害するかによって、コンテンツ音AC1,AC2,AC3のそれぞれの伝送ビット割り当てを決定する。
 図1の判定部4(マスキング判定部4a及び音響処理制御部4b)は、以上の第1ケースから第4ケースのように、ノイズANの特性と到来方向、コンテンツ音ACの特性とドライバ2の位置の関係から、NC信号生成部6におけるNC処理の制御を行う。すなわちノイズANの特性毎に、NC処理を行うか否かの制御を行う。また判定部4は、最小可聴限及びマスキング効果によってコンテンツ音データCTの伝送にどれだけの量子化ビットを割り当てれば十分かを判定して、ホスト機器100に要求を伝える処理を行う。
 この判定部4の処理例を図27,図28に示す。
 なお図27,図28において「CN1」「CN2」はフローチャートの接続を示す。
 ヘッドホン1がコンテンツ音データCTを受信してコンテンツ音ACをドライバ2から出力している期間、判定部4は図27、図28の処理を繰り返す。ステップS101は、その繰り返しのループの終了判定である。例えば電源オフ、動作モード変更などにより、図27,図28の処理が終了される。
 ループ処理の実行中は、判定部4はステップS102で、マイクロホン3で得られる周囲音、すなわちノイズANについて周波数特性や到来方向を解析する。
 また判定部4はステップS103で、コンテンツ音データCTの周波数特性を解析する。なお判定部4は、ユーザにとってのコンテンツ音ACの到来方向、つまりどの成分の音がどのドライバ2から出力されるかは、コンテンツ音データCTのチャネル番号で判定できる。
 ステップS110では、ステップS111からステップS118までの処理のループが継続か終了かを判定する。
 ステップS111からステップS118までの処理は、到来方向毎について行う。例えばドライバ2のチャネル数に合わせて、第1の方向から第Nの方向までのそれぞれについてステップS111からステップS118までの処理を行う。全ての到来方向においてこれらの処理を終えたらループ終了となる。
 ステップS111で判定部4は、或る1つの方向からのノイズANと最小可聴限とを比較する。ノイズANのレベルはヘッドホン1の筐体によって遮蔽される分も加味する。
 (ノイズAN)<(最小可聴限)の場合、つまりノイズANを構成する周波数成分の全てが最小可聴限未満であれば、判定部4はステップS115に進み、当該ノイズANについてNC処理の必要はないと設定する。
 そして判定部4はステップS116で、現在の処理対象の到来方向のノイズについて不可聴フラグをオンに設定する。
 (ノイズAN)<(最小可聴限)ではない場合、判定部4はステップS112に進み、当該到来方向からのコンテンツ音ACが存在するか否かを判定する。
 コンテンツ音ACが存在しなければ、判定部4はステップS117に進み、NC処理オンを設定する。またNC音ANCを出力するドライバ2を設定する。
 そして判定部4はステップS118で、現在の処理対象の到来方向のノイズについて不可聴フラグをオフに設定する。
 ステップS112で当該到来方向からのコンテンツ音ACが存在すると判定した場合は、判定部4はステップS113でノイズANと、コンテンツ音データCTに基づいて出力されるコンテンツ音ACのレベルを比較する。
 ノイズANのレベルがコンテンツ音ACより大きいと判定した場合、判定部4は上述のステップS117,S118の処理を行う。
 ノイズANのレベルがコンテンツ音AC以下と判定した場合、判定部4はステップS114でコンテンツ音ACが同時刻マスキングによりノイズをマスクするか否かを判定する。コンテンツ音ACがノイズANをマスクするのでなければ判定部4は上述のステップS117,S118の処理を行う。
 コンテンツ音ACがノイズANをマスクするのであれば判定部4は上述のステップS115,S116の処理を行う。
 以上の処理を各到来方向について実行されることで、到来方向毎にNC処理の設定が決定される。つまりNC処理が必要な方向について不可聴フラグがオフ、NC処理が不要な方向について不可聴フラグがオンと設定される。
 そして判定部4はステップS110でループ終了として図28のステップS120に進む。
 ステップS120では、ステップS121からステップS125までの処理のループが継続か終了かを判定する。このステップS121からステップS125までの処理も到来方向毎について行う。
 ステップS121で判定部4は、処理対象とした1つの到来方向について、不可聴フラグを確認する。不可聴フラグがオン、すなわちNC処理不要と設定されていれば、その到来方向についてはステップS120に戻り、次の到来方向の処理に移る。
 ステップS121で不可聴フラグがオフであれば、判定部4はステップS122に進み、NC処理の消し残りノイズAN(NC)の周波数特性及びレベルを推定する。
 そしてステップS123で消し残りノイズAN(NC)と最小可聴限とを比較する。
 (消し残りノイズAN(NC))<(最小可聴限)の場合、つまり消し残りノイズAN(NC)を構成する周波数成分の全てが最小可聴限未満であれば、判定部4はステップS125に進み、当該消し残りノイズAN(NC)について不可聴フラグをオンに設定する。
 (消し残りノイズAN(NC))<(最小可聴限)ではない場合は、判定部4はステップS124に進み、同時刻マスキングによりコンテンツ音ACが当該消し残りノイズAN(NC)をマスクするか否かを判定する。
 マスクする場合は、判定部4はステップS125に進み、当該消し残りノイズAN(NC)について不可聴フラグをオンに設定する。
 当該消し残りノイズAN(NC)がマスクされないと判定した場合は、そのまま不可聴フラグ=オフを維持したまま、ステップS120に戻る。
 以上のステップS121からステップS125までの処理を到来方向毎に行うことで、各方向について消し残りノイズAN(NC)を推定し、消し残りノイズAN(NC)が最小可聴限未満か、或いはコンテンツ音ACにマスクされるものである場合に、その到来方向について不可聴フラグがオンに変更される。
 以上のループ処理を終えたら、判定部4はステップS120からステップS130に進む。
 ステップS130で判定部は、全ての到来方向において不可聴フラグがオンであるか否かを確認する。
 全ての到来方向において不可聴フラグがオンであれば、判定部4はステップS137において、コンテンツ音データCTの全チャネルの必要量子化ビットを決定する。この場合は、精度の高いコンテンツ音データCTが要求されるため量子化ビット数として最大割当を要求することになる。
 ステップS130で不可聴フラグがオフの到来方向の存在を確認した場合、判定部4はステップS131に進み、不可聴フラグがオフの到来方向のそれぞれについて、ステップS132の処理を行う。ステップS132で判定部4は、当該方向が他の方向に与える空間マスキングの効果を算出する。これにより不可聴フラグがオフである1又は複数の到来方向について、他の方向に与える空間マスキングの効果が求められる。
 ステップS133で判定部4は到来方向毎のループの継続/終了を判定する。すなわちステップS134からステップS136の処理を到来方向毎に行う。
 判定部4はステップS134で、処理対象としている到来方向について、影響を受ける空間マスキングの有無を判定する。
 処理対象としている到来方向が空間マスキングの影響を受けない場合、判定部4はステップS135に進み、当該方向のコンテンツ音データCTの必要量子化ビットを決定する。この場合は、精度の高いコンテンツ音データCTが要求されるため量子化ビット数として最大割当を要求することになる。
 処理対象としている到来方向が空間マスキングの影響を受ける場合、判定部4はステップS136に進み、当該方向のコンテンツ音データCTの必要量子化ビットを決定する。この場合は、マスキングによって精度の高い情報が必要ない領域があるため、量子化ビット数の削減を要求することになる。
 以上のステップS133からのループで、各到来方向について、ステップS135又はステップS136のいずれかで量子化ビット数の設定が行われる。
 ステップS135,S136、又はステップS137で各方向について量子化ビット数の設定が行われる。ループ処理の対象とする各方向を各チャネルに対応させることで、各チャネルについての量子化ビット数の設定が行われたことになる。
 ステップS140で判定部4は、ホスト機器に通知情報SSを送信する。この場合、通知情報SSにはチャネル毎の必要量子化ビット数の情報を含むことになる。
 ステップS140で通知情報SSの送信を行ったら、判定部4は図27のステップS101に戻る。そして以上の処理を繰り返す。
 以上、第1の実施の形態では、判定部4が図27,図28の処理を行うことにより、状況に応じてコンテンツ音データの伝送ビットを削減し、伝送ビットレート低減を実現することができる。
 またヘッドホン1におけるどのドライバ2を使用してノイズANをキャンセルするべきか、あるいはどのドライバ2でのNC処理が不要か、を割り出して、逐次設定を変更することで、より快適なコンテンツ音ACのS/N、音の分離感、NC効果の向上を実現することができる。
<2.第2の実施の形態>
 第2の実施の形態では、主に周囲音をユーザに認知させる処理を行うことを説明する。ここまでの第1の実施の形態では、周囲音をノイズANとしてとらえて、必要な処理を行うものとしたが、第2の実施の形態では、ユーザに認知させたい周囲音を対象として必要な処理を行う。
 そのような周囲音の具体例としては、例えば次のようなものがある。
・後方や側方から近づく自動車などの音
・自分(ヘッドホン1を装着しているユーザ)の部屋に近づいてくる音(足音等)
・アナウンス(公共交通機関や各種公共施設のアナウンス等)
・アラート,サイレン(緊急車両の音、緊急地震速報等)
・自分(ヘッドホン1を装着しているユーザ)を呼ぶ声
 図29にヘッドホン1の構成例を示す。但し図1と同一部分は同一符号を付し重複説明を避ける。図1と異なるのは、周囲音信号処理部8が設けられていることである。
 周囲音信号処理部8は、マイクロホン3で得られた周囲音データS1について、判定部4の音響処理制御部4bの制御に基づいた処理を行う。例えば周囲音データS1についてノイズリダクション処理や音声強調処理などを行って、処理後の音データS3を出力する。或いは周囲音信号処理部8は、ビープ音やアナウンス音声等の音データS3の生成処理を行う場合もある。
 周囲音信号処理部8で信号処理或いは生成された音データS3は出力信号生成部7に供給される。出力信号生成部7は、コンテンツ音データCT、NC音データS2と共に、音データS3に基づいて、指定されたチャネルに応じてドライバ2への出力信号を生成する。
 周囲音種別判定部5は、マイクロホン3で得られる周囲音データについて、音の種別を判定する処理を行う。例えば接近してくる自動車の音、足音、電車等のアナウンス音など具体的な音の種別を判定する。なお、種別判定は、必ずしも具体的な音の判定が行わず、ノイズとして扱う音であるか否かの判定でもよい。
 判定部4は周囲音データS1及び周囲音データS1の種別情報を入力し、マスキング判定部4a、音響処理制御部4bの処理を行う。
 マスキング判定部4aは第1の実施の形態と同様に、周囲音データS1とコンテンツ音データCTの関係におけるマスキング状態の判定を行う。
 この場合、種別情報により必要とされる周囲音がコンテンツ音ACにマスクされてしまうか否かも判定される。
 音響処理制御部4bは、マスキング判定部4aによるマスキング状態の判定結果に応じて音響処理に関する制御を行う。
 例えば音響処理制御部4bは、マスキング状態に応じてNC信号生成部6に制御信号を出力し、NC動作の制御を行う。NC動作の制御とは、NC処理のオン/オフや、NC信号を出力するドライバ2の選択制御などである。
 また音響処理制御部4bは、周囲音データS1の音の種別と、マスキング状態の判定結果に応じて、周囲音を認知させる音がドライバ2から出力されるようにする制御を行う
 この場合、音響処理制御部4bは、周囲音の到来方向に応じて、周囲音を認知させる音を出力するドライバ2のチャネルを選択する。
 また音響処理制御部4bは、周囲音を認知させる音として、マイクロホン3で得られた周囲音に基づく音、すなわち周囲音データS1を信号処理した音がドライバ2から出力されるように周囲音信号処理部8を制御する。
 或いは音響処理制御部4bは、周囲音を認知させる生成音がドライバ2から出力されるように周囲音信号処理部8を制御する。
 また音響処理制御部4bは、例えばマスキング状態の判定結果に応じて、通知情報SSを外部機器であるホスト機器100に送信する処理を行う。
 この第2の実施の形態の場合、音響処理制御部4bは通知情報SSとして、周囲音を認知させる表示に用いる情報を送信する。周囲音を認知させる表示に用いる情報としては、周囲音の到来方向の情報、周囲音の種別の情報、マスキング状態の判定結果の情報の一部或いは全部が含まれることがある。
 このような第2の実施の形態では、次のような処理が行われる。
 周囲音の中には、上述の例のようにユーザが認知すべき音がある。そこで周囲音種別判定部5が音の種別を判定する。
 判定部4(マスキング判定部4a)は周囲音データS1について、種別情報により、ユーザに認知させるべき音か否かを判定し、認知させるべき音であったら、その音がコンテンツ音ACによってマスキングされる状態を判定する。NC処理によりキャンセルされてしまうか否かも判定する。
 必要な周囲音がマスキングされたりノイズとしてキャンセルされたりする場合は、そのままではユーザが認知できないため、判定部4(音響処理制御部4b)は、その周囲音を認知させるための処理を行う。
 周囲音を認知させるための処理として、音出力を行う処理がある。
 例えば判定部4は周囲音信号処理部8に周囲音データS1についてノイズリダクション処理や音声強調処理など、聴取しやすいようにする処理を実行させ、その処理後の音データS3による音をドライバ2から出力させる。この場合、判定部4は周囲音の到来方向に基づいて出力するドライバ2を指示することが考えられる。
 これによりユーザは、コンテンツ音ACの聴取時に、実際の当該周囲音の到来方向から、その周囲音自体を聴くことができる。
 音出力を行う手法としては、周囲音自体ではなく、ビープ音等のアラートを示す音や、メッセージ音を出力するようにしてもよい。
 例えば判定部4は周囲音信号処理部8に、音データ生成処理を実行させ、生成された音データS3による音、例えばビープ音やメッセージ音等をドライバ2から出力させる。
 これによりユーザは、コンテンツ音ACの聴取時に、何らかの必要な周囲音が生じていることを認知できる。
 この場合も、判定部4は周囲音の到来方向に基づいて出力するドライバ2を指示することが考えられる。これによりユーザはビープ音等の到来方向から、必要な周囲音が到来していることを認識できる。
 ビープ音は、周囲音の存在のみを通知すればよいようなケースでは好適である。
 なお、例えば周囲音自体、ビープ音、メッセージ音を出力するドライバ2は、コンテンツ音ACによる空間マスキングの影響のないチャネルのドライバを選択するという考え方もある。これにより、必要な周囲音の認知性を向上させることができる。
 また周囲音自体を出力することでユーザはどのような音かを認識できるが、ビープ音やメッセージ音では、音の種別を認識できないことがある。そこで、種別や緊急性に応じて、メッセージ内容を変更したり、ビープ音の音質、音量を変更したりしてもよい。これにより注意喚起性を高めたり、周囲音の種別を認知させたりすることができる。
 メッセージ音の例としては、「後方より、車が近づいています」「部屋に誰かが近づいています」等、具体的な内容を含むようにしてもよい。
 またGPS位置情報と組み合わせ、歩いている(あるいは走っている)道の大きさや車通りから、判定基準を変え、判定に応じて通知を行うようにしてもよい。
 周囲音の認知のためには、以上のようなヘッドホン1での音出力による通知に代えて、或いは音出力とともに、ホスト機器100での表示を用いた通知を行うようにしてもよい。すなわち判定部4は、スマートフォンやHMDなどのホスト機器100に判定結果を伝えて、ホスト機器100側でユーザに通知するようにする。
 ゲームコンテンツや動画コンテンツなどを視聴している場合、ユーザはホスト機器の画面を注視しているため、画面においてメッセージ表示等で周囲音を通知することは好適である。
 例えば図30は、ホスト機器100の画面60上にメッセージ61を表示させている例を示している。
 このようなメッセージ61は周囲音の到来方向に応じて表示位置を変更してもよい。例えば「車が近づいています」というメッセージ61は、後方から近づいているのであれば図30のように画面下部、前方からであれば画面上部や中央、左方からであれば画面左側、右方からであれば画面右側などとして、表示位置を制御してもよい。
 図31,図32のように、画面60にエフェクト画像62を出現させる手法もある。この場合も周囲音の到来方向に応じて出現させることが考えられる。図31は左方からの音の場合、図32は前方からの音の場合である。
 エフェクト画像62のサイズにより、周囲音の大きさを表現してもよい。
 これらの表示による通知によって、動画視聴やVR(Virtual Reality)等のゲームのプレイ中などに、周囲音に対応できる。例えば自分の部屋に近づいてくる足音がマスキングされて聞き取ることができないようなときに、この処理が行われることで、ゲームをプレイしているユーザは、その通知をもとにゲームを中断するなど適切な対応をとることができる。
 なお、以上のように表示で通知することに加えて、ホスト機器100側或いはヘッドホン1側で振動等により、通知をおこなってもよい。また表示による通知と、上述のようなヘッドホン1における音による通知とを併用してもよい。
 図33,図34,図35は、画面表示により、より詳細な周囲音の状況を通知する例である。
 各図においては空間座標50として、ユーザの頭部を中心とした空間のイメージが表示される。この空間座標50を基準として音の到来方向に応じて位置に、コンテンツ音画像51、周囲音種別画像55,57、エフェクト画像56,58が表示される。
 コンテンツ音画像51は、コンテンツ音ACについて種別や、マスキング範囲を示す画像とされる。図33Aの場合、ユーザの左側にバイオリン等の楽器の音が定位している状態であるとともに、その楽器の音によって他の音がマスクされる範囲が円状に示されている。
 周囲音種別画像55,57は周囲音の種別を示す画像で、例えば車の画像や、足音を示す足跡の画像などを例示している。エフェクト画像56,58は周囲音を示す。
 周囲音種別画像55,57やエフェクト画像56,58のサイズにより、周囲音においてマスクされる量が示される。また周囲音種別画像55,57やエフェクト画像56,58の表示位置により、周囲音の到来方向が示される。
 また画面60には、設定部53が表示される。設定部53は、通知機能のオン/オフをユーザが任意に設定するための操作部となる。
 例えば設定部53には、「周囲音抽出 ON/OFF」「自動車 ON/OFF」「足音 ON/OFF」という設定フィールドが用意される。
 図33Aは周囲音抽出がオフとされている状態である。この場合、コンテンツ音画像51が表示されている。
 図33Bは、周囲音抽出がオンとされ、周囲音の種別として自動車がオンとされた状態である。自動車がオンとされると、スライドバー54が表示される。ユーザはスライドバー54により抽出レベルを設定することができる。
 そして自動車の音が検知されると、図33Bのようにその到来方向や、マスクされる量に応じて周囲音種別画像55やエフェクト画像56が表示される。この場合、自動車の音がコンテンツ音と同方向であり、ある程度の量がマスキングされていることが示される。
 図34Aは、コンテンツ音が移動した場合を示している。例えばコンテンツ音データCTの元々の内容として定位が変化する場合、ユーザが操作により楽器の定位を変更させた場合が考えられる。
 或いは判定部4がホスト機器100に要求して、自動的に楽器の定位を変更させることも考えられる。例えば判定部4は、自動車の音がマスキングされていることに応じて、コンテンツ音の定位変更をホスト機器100に要求する。これによりホスト機器100側でコンテンツ音データCTのチャネル変更が行われ、定位が変化される。
 図34Aのように定位が変化されると、空間マスキング効果によりマスクされる量が減少するため、ユーザは車の音を聞きやすくなる。マスクされる量が減少した分、図34Bのように周囲音種別画像55やエフェクト画像56のサイズが小さくされる。
 図35Aは設定部53で足音を抽出対象とした場合である。この場合も足音オンとすることでスライドバー59が表示され、ユーザはスライドバー59により足音の抽出レベルを設定することができる。
 図35Bは右側から到来する足音が検知された場合である。これに応じて右側に足音の周囲音種別画像57とエフェクト画像58が表示される。この例では、コンテンツ音により足音がある程度マスキングされている状態が示されている。
 この図33から図35のような表示を行うことで、ユーザは、より詳細に周囲音や、そのマスキング状態を認識できるようになる。
 以上は立体音響コンテンツを想定しているが、例えばゲームなどでは音源の位置は自動的に移動する。これにリアルタイムに追従して、マスキング効果を解析し、NC処理とコンテンツ音データCTの伝送ビットレート設定を適切に行う。
 ホスト機器100としてのHMDとヘッドホン1の組み合わせであれば、ユーザの視覚と聴覚の方向が一致するため、親和性が高い。ユーザが頭部の向きを変えると、自然と同時にヘッドホン1(マイクロホン3)の位置も変わるため、ユーザから見た周囲音源の移動は、マイクロホン3からの信号の変化でリアルタイムに対応できる。
 図33から図35では立体音響コンテンツが存在する場合のイメージを示したが、立体音響ではないコンテンツ、あるいはコンテンツがない無音状態において、図33から図35のような表示を行ってもよい。
 ここまで第2の実施の形態として、音声や表示により、必要な周囲音を通知する例を述べてきた。このような動作を実現する判定部4の処理例を図36に示す。
 ヘッドホン1がコンテンツ音データCTを受信してコンテンツ音ACをドライバ2から出力している期間、判定部4は図36の処理を繰り返す。ステップS201は、その繰り返しのループの終了判定である。例えば電源オフ、動作モード変更などにより、図36の処理が終了される。
 ループ期間において、判定部4はステップS202で、マイクロホン3で得られる周囲音、すなわちノイズANについて周波数特性や到来方向を解析する。また周囲音種別判定部5からの種別情報により、音の種別を判定する。
 判定部4はステップS203で、コンテンツ音データCTの周波数特性を解析する。なおコンテンツ音ACの到来方向は、コンテンツ音データCTのチャネル番号で判定できる。
 判定部4はステップS204で、周囲音のうちでユーザが認知すべき音の有無を判定する。周囲音の種別判定結果として、自動車の音、足音、アナウンス、アラート等の音が存在した場合は、その認知すべき音が存在するとして、その周波数特性、到来方向を判定する。
 ステップS205で判定部4は、マスキング状態の判定及びNC処理の実行有無の判定を行う。
 第1の実施の形態と同様に判定部4は、周囲音とコンテンツ音の関係で、マスキング状態を判定する。そしてそれに応じてNC処理のオン/オフを判定する。
 また判定部4は、周囲音にユーザが認知すべき音が存在するか否かによってもNC処理のオン/オフを判定する。
 例えば判定部4は、周囲音にユーザが認知すべき音が含まれていない場合は、周囲音に対して通常のNC処理を実行すると判定する。
 周囲音にユーザが認知すべき音が含まれている場合は、少なくとも該当の音以外の周波数成分に対してNC処理を実行し、認知すべき音についてはNC処理が行われないと判定する。なお、この場合、通常のNC処理を行うとする判定でもよい。例えばビープ音やメッセージ音を生成する場合は、周囲音に対するNC処理は常に通常に実行してもよい。
 周囲音が、ユーザが認知すべき音のみである場合(或いは認知すべき音が支配的である場合)は、NC処理を実行しないと判定する。なおこの場合も上記のように通常のNC処理を行うとする判定でもよい。
 ステップS206で判定部4は、ステップS205の判定結果によりNC信号生成部6を制御する。例えばNC処理のオン/オフを指示する。特定の周波数成分のみNC処理を無効化するような制御を行う場合もある。判定部4は、NC音を出力するドライバ2のチャネルも指示する。
 ステップS207で判定部4は、ホスト機器100の表示によりユーザに通知を行う場合であるか否かにより処理を分岐する。例えば周囲音に、ユーザが認知すべき音が含まれており、表示による通知がオンに設定されているような場合は、ステップS220に進み、ホスト機器100へ通知情報SSを送信する。この通知情報SSには、周囲音の種別、到来方向、マスキングされるレベルの情報が含まれることで、ホスト機器100において図30から図35で説明したような表示が可能となる。
 ステップS208で判定部4は、音声による通知を行う場合であるか否かにより処理を分岐する。例えば周囲音にユーザが認知すべき音が含まれていた場合、判定部4はステップS210に進み、どのような通知オンとするかで処理を分岐する。
 周囲音自体を出力する場合は、判定部4はステップS211に進み、周囲音信号処理部8に、周囲音データS1についてノイズリダクション処理や音声強調処理等を実行するように指示する。また到来方向に応じて出力するドライバ2のチャネルも指示する。
 通知音を生成する場合は、判定部4はステップS212に進み、周囲音信号処理部8に、ビープ音やメッセージ音の生成を指示する。また到来方向に応じて出力するドライバ2のチャネルも指示する。
 例えば以上の図36の処理が繰り返されることで、上述した音声や表示で周囲音の通知を行う動作が実現される。
<3.まとめ及び変型例>
 以上の第1,第2の実施の形態によれば次のような効果が得られる。
 実施の形態の信号処理装置は、マスキング判定部4aと音響処理制御部4bを備える判定部4の機能を有するプロセッサ等として実現される。また実施の形態の音響出力装置は、このような判定部4を備えるヘッドホン1として実現される。
 これらにおいてマスキング判定部4aは、ヘッドホン1に配置された複数のドライバ2から出力する複数チャネルのコンテンツ音データCTと、ヘッドホン1に配置され周囲音を集音する複数のマイクロホン3で得られた周囲音データS1と、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定する。
 音響処理制御部4bは、マスキング判定部4aによるマスキング状態の判定結果に応じて音響処理に関する制御を行う。
 これにより、例えばコンテンツ音ACが周囲音(ノイズAN)にマスキングされる場合や、必要な周囲音がコンテンツ音にマスキングされる場合などに、それぞれ適した音響処理に関する制御を実行できる。特に周囲音のレベルと到来方向、及びコンテンツ音のチャネル(どの出力位置から出力するかの情報)と各チャネルのレベルも加味してマスキング状態を判定することで、いわゆるマルチマイク・マルチドライバのヘッドホンにおけるマスキングの状況をより適切に判定できる。
 従って3Dオーディオなどの立体音響コンテンツの再生時に、精度の高いマスキング状況判定に応じた適切な音響処理の制御が可能になる。例えばユーザが必要な周囲音を認知できるようにすることや、適切なNC処理により快適なコンテンツ音の聴取ができるようにすることや、システム処理の負荷を軽減することなどが可能になる。
 第2の実施の形態では、周囲音データS1の音の種別と、マスキング状態の判定結果に応じて、周囲音を認知させる音がドライバ2から出力されるようにする制御を行う例を述べた(図36参照)。
 例えば立体音響コンテンツを楽しんでいるユーザにとって、周囲音は全てノイズというわけではない。例えば安全上或いは生活上で必要な音も存在する。そこで、周囲音の種別に応じて、必要であると判定した場合は、その周囲音がドライバ2から出力されるようにし、ユーザに認知させる。これにより周囲音も適切に聞こえる状態で立体音響を楽しむことができるようになる。
 第2の実施の形態では、周囲音の到来方向に応じて、周囲音を認知させる音を出力するドライバ2を決定する例を挙げた。
 このようにドライバ2を決定(つまりチャネルを決定)することで、ユーザには決定されたチャネルに応じた方向から音の到来が認知される。従って、周囲音自体や、周囲音に代わる通知音やメッセージ音声を聞くと共に、実際の周囲音の到来方向も認知できるようになる。
 周囲音の到来方向については、ヘッドホン1のマイクロホン3で集音される周囲音データS1を常時解析することで、ユーザ自身の動作、移動にリアルタイムに追従できる。
 第2の実施の形態では、周囲音を認知させる音として、マイクロホン3で得られた周囲音データS1を信号処理した音がドライバ2から出力されるようにする制御を行う例を挙げた(図36のステップS211)。
 これにより必要な周囲音がマスキングによって聞こえなくなるということがなくなり、ユーザはヘッドホン1により立体音響を聴いていても実際の周囲音を認知できる。
 第2の実施の形態では、周囲音を認知させる生成音がドライバ2から出力されるようにする制御を行う例も述べた(図36のステップS212)。
 例えばビープ音、メッセージ音声等、何らかの注意、警告、告知を意味する音を生成して出力する。これにより必要な周囲音がコンテンツ音によるマスキングやノイズキャンセル処理により聞こえなくなっても、ユーザは周囲の状況(必要な周囲音が発生している状況)を認知できるようになる。
 第2の実施の形態では、判定部4(音響処理制御部4b)は、周囲音データS1の音の種別とマスキング状態の判定結果に応じて、周囲音を認知させる表示に用いる通知情報SSをホスト機器100に送信する処理を行う例を挙げた(図36のステップS220)。
 例えばユーザにとって必要と判定される周囲音が検知された場合は、ホスト機器100に対して、周囲音を認知させる表示に用いる情報を送信する。これにより図30から図35で説明したような、周囲音を認知させる表示をホスト機器100において実行させる。画像を伴う立体音響コンテンツを視聴している場合、ユーザは画面も注視しているため、表示による必要な周囲音の通知も有効である。
 第2の実施の形態では、周囲音を認知させる表示に用いる通知情報SSに、周囲音の到来方向の情報を含む例を挙げた。
 これによりホスト機器100等の外部機器では、周囲音の到来方向に応じた表示を行うことができるようになる(図30から図35参照)。
 第2の実施の形態では、周囲音を認知させる表示に用いる通知情報SSに、周囲音の種別の情報を含む例を挙げた。
 これによりホスト機器100等の外部機器では、周囲音の種別、例えば自動車の音や足音などの別に応じた表示を行うことができるようになる(図31から図35参照)。
 第2の実施の形態では、周囲音を認知させる表示に用いる通知情報SSに、マスキング状態の判定結果の情報を含む例を挙げた。
 これによりホスト機器100等の外部機器では、周囲音がコンテンツ音にマスキングされている状況などを示す表示を行うことができるようになる(図33から図35参照)。
 第1,第2の実施の形態では、音響処理制御部4bは、マスキング状態の判定結果に応じて、周囲音に対するノイズキャンセル処理の制御を行う例を述べた。
 周囲音についてNC処理を行うことで、立体音響コンテンツを楽しんでいるユーザにとって、周囲音を低減又は解消できる。但し、元々マスキングされている周囲音については、NC処理を行わなくてもよい。従ってマスキング判定結果に応じてNC処理の制御を行うことで、NC処理を効率化できる。つまり周波数成分や到来方向によりコンテンツ音でマスキングされない周囲音についてNC処理を実行させ、マスキングされている周囲音についてはNC処理をオフとしてもよい。
 またさらに、音響処理制御部4bは、マイクロホン3で得られた周囲音データの音の種別も用いてNC処理の制御を行っても良い。
 例えば周囲音が、ユーザにとって必要な音と判定した場合は、NC処理をオフとして、ユーザに聴取させるようにすることができる。
 第1,第2の実施の形態では、音響処理制御部4bは、マスキング状態の判定結果と、周囲音の到来方向の情報に応じて、周囲音に対するNC音を出力するドライバ2(つまりチャネル)を決定する制御を行う例を述べた。
 周囲音についてNC処理を行う場合に、その周囲音の到来方向に合わせてNC音ANCを出力するドライバ2を決定することで、NC効果をより有効化できる。
 第1の実施の形態では、音響処理制御部4bは、マスキング状態の判定結果に応じて、コンテンツ音データCTに必要な量子化ビット情報をホスト機器100に送信する処理を行う例を述べた。
 立体音響再生に関しては、多視点、自由視点化で、伝送ビットレートの大幅な増加に直面しており、コンテンツ音データの伝送ビットレートの低減が重要な課題の1つとなっている。ここでマスキングされる音成分の情報はそもそも伝送する必要がなくなるので、量子化ビット数を削減できる。そこでマスキング状態の判定結果に応じて、コンテンツ音データに必要な量子化ビット情報をホスト機器100に送信する。これによりホスト機器100側でコンテンツ音データのデータ量を削減でき、結果としてコンテンツ音データの伝送ビットレートの低減、あるいはコンテンツ信号のS/N向上、音の分離感の向上、NC効果の向上、さらには消費電力の削減による ヘッドホン1の電池寿命の長時間化を実現することができる。
 第1の実施の形態でホスト機器100に送信する量子化ビット情報は、コンテンツ音データにおいて量子化ビット数の削減を行うチャネルと帯域の情報を含むものとした。
 これによりホスト機器100では、指定されたチャネルにおける指定された帯域の量子化ビット数削減を行うことができる。
 なお、判定部4(音響処理制御部4b)は、選択的にドライバ2の電源オフ制御を行うようにすることもできる。例えばNC音を出力せず、かつコンテンツ音の出力も行わないチャネルのドライバ2は、電源供給をオフにする制御である。
 常時、このように一時的に使用されないドライバ2を監視して、電源供給をオフとすることで、消費電力を削減し、ヘッドホン1の電池寿命の長時間化に貢献する。
 また実施の形態では音響出力装置の例としてヘッドホン1で説明したが、本開示の技術はインナーイヤー型、カナル型等の各種のイヤホンとしての音響出力装置においても適用できる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 なお本技術は以下のような構成も採ることができる。
 (1)
 音響出力装置に配置された複数の音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記音響出力装置に配置され周囲音を集音する複数のマイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定部と、
 前記マスキング判定部によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御部と、を備えた
 信号処理装置。
 (2)
 前記音響処理制御部は、前記マイクロホンで得られた周囲音データの音の種別と、マスキング状態の判定結果に応じて、周囲音を認知させる音を前記音響出力ドライバから出力させる制御を行う
 上記(1)に記載の信号処理装置。
 (3)
 前記音響処理制御部は、複数の前記音響出力ドライバのうちで、周囲音の到来方向に応じて、周囲音を認知させる音を出力する音響出力ドライバを決定する
 上記(2)に記載の信号処理装置。
 (4)
 前記音響処理制御部は、周囲音を認知させる音として、前記マイクロホンで得られた周囲音を信号処理した音が前記音響出力ドライバから出力されるようにする制御を行う
 上記(2)又は(3)に記載の信号処理装置。
 (5)
 前記音響処理制御部は、周囲音を認知させる生成音が前記音響出力ドライバから出力されるようにする制御を行う
 上記(2)又は(3)に記載の信号処理装置。
 (6)
 前記音響処理制御部は、前記マイクロホンで得られた周囲音データの音の種別と、マスキング状態の判定結果に応じて、周囲音を認知させる表示に用いる情報を外部機器に送信する処理を行う
 上記(1)から(5)のいずれかに記載の信号処理装置。
 (7)
 前記音響処理制御部は、周囲音を認知させる表示に用いる情報に、周囲音の到来方向の情報を含めて前記外部機器に送信する処理を行う
 上記(6)に記載の信号処理装置。
 (8)
 前記音響処理制御部は、周囲音を認知させる表示に用いる情報に、周囲音の種別の情報を含めて前記外部機器に送信する処理を行う
 上記(6)又は(7)に記載の信号処理装置。
 (9)
 前記音響処理制御部は、周囲音を認知させる表示に用いる情報に、マスキング状態の判定結果の情報を含めて前記外部機器に送信する処理を行う
 上記(6)から(8)のいずれかに記載の信号処理装置。
 (10)
 前記音響処理制御部は、マスキング状態の判定結果に応じて、周囲音に対するノイズキャンセル処理の制御を行う
 上記(1)から(9)のいずれかに記載の信号処理装置。
 (11)
 前記音響処理制御部は、複数の前記音響出力ドライバのうちで、マスキング状態の判定結果と周囲音の到来方向の情報に応じて、周囲音に対するノイズキャンセル信号を出力する音響出力ドライバを決定する制御を行う
 上記(1)から(10)のいずれかに記載の信号処理装置。
 (12)
 前記音響処理制御部は、マスキング状態の判定結果に応じて、コンテンツ音データに必要な量子化ビット情報を外部機器に送信する処理を行う
 上記(1)から(11)のいずれかに記載の信号処理装置。
 (13)
 前記外部機器に送信する量子化ビット情報は、コンテンツ音データにおいて量子化ビット数の削減を行うチャネルと帯域の情報を含む
 上記(12)に記載の信号処理装置。
 (14)
 複数の音響出力ドライバと、
 周囲音を集音する複数のマイクロホンと、
 前記音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記マイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定部と、
 前記マスキング判定部によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御部と、を備えた
 音響出力装置。
 (15)
 音響出力装置に配置された複数の音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記音響出力装置に配置され周囲音を集音する複数のマイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定処理と、
 前記マスキング判定処理によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御処理と、
 を信号処理装置が実行する信号処理方法。
1 ヘッドホン
2,2A・・・2(N) 音響出力ドライバ(ドライバ)
3,3A・・・3(M) マイクロホン
4 判定部
4a マスキング判定部
4b 音響処理制御部
5 周囲音種別判定部
6 NC信号生成部
7 出力信号生成部
8 周囲音信号処理部
100 ホスト機器
200 耳
201 鼓膜
AC コンテンツ音
AN ノイズ
AN(NC) 消し残りノイズ
ANC NC音
S1 周囲音データ
S2 NC音データ
S3 音データ
SS 通知情報
CT コンテンツ音データ

Claims (15)

  1.  音響出力装置に配置された複数の音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記音響出力装置に配置され周囲音を集音する複数のマイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定部と、
     前記マスキング判定部によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御部と、を備えた
     信号処理装置。
  2.  前記音響処理制御部は、前記マイクロホンで得られた周囲音データの音の種別と、マスキング状態の判定結果に応じて、周囲音を認知させる音を前記音響出力ドライバから出力させる制御を行う
     請求項1に記載の信号処理装置。
  3.  前記音響処理制御部は、複数の前記音響出力ドライバのうちで、周囲音の到来方向に応じて、周囲音を認知させる音を出力する音響出力ドライバを決定する
     請求項2に記載の信号処理装置。
  4.  前記音響処理制御部は、周囲音を認知させる音として、前記マイクロホンで得られた周囲音を信号処理した音が前記音響出力ドライバから出力されるようにする制御を行う
     請求項2に記載の信号処理装置。
  5.  前記音響処理制御部は、周囲音を認知させる生成音が前記音響出力ドライバから出力されるようにする制御を行う
     請求項2に記載の信号処理装置。
  6.  前記音響処理制御部は、前記マイクロホンで得られた周囲音データの音の種別と、マスキング状態の判定結果に応じて、周囲音を認知させる表示に用いる情報を外部機器に送信する処理を行う
     請求項1に記載の信号処理装置。
  7.  前記音響処理制御部は、周囲音を認知させる表示に用いる情報に、周囲音の到来方向の情報を含めて前記外部機器に送信する処理を行う
     請求項6に記載の信号処理装置。
  8.  前記音響処理制御部は、周囲音を認知させる表示に用いる情報に、周囲音の種別の情報を含めて前記外部機器に送信する処理を行う
     請求項6に記載の信号処理装置。
  9.  前記音響処理制御部は、周囲音を認知させる表示に用いる情報に、マスキング状態の判定結果の情報を含めて前記外部機器に送信する処理を行う
     請求項6に記載の信号処理装置。
  10.  前記音響処理制御部は、マスキング状態の判定結果に応じて、周囲音に対するノイズキャンセル処理の制御を行う
     請求項1に記載の信号処理装置。
  11.  前記音響処理制御部は、複数の前記音響出力ドライバのうちで、マスキング状態の判定結果と周囲音の到来方向の情報に応じて、周囲音に対するノイズキャンセル信号を出力する音響出力ドライバを決定する制御を行う
     請求項1に記載の信号処理装置。
  12.  前記音響処理制御部は、マスキング状態の判定結果に応じて、コンテンツ音データに必要な量子化ビット情報を外部機器に送信する処理を行う
     請求項1に記載の信号処理装置。
  13.  前記外部機器に送信する量子化ビット情報は、コンテンツ音データにおいて量子化ビット数の削減を行うチャネルと帯域の情報を含む
     請求項12に記載の信号処理装置。
  14.  複数の音響出力ドライバと、
     周囲音を集音する複数のマイクロホンと、
     前記音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記マイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定部と、
     前記マスキング判定部によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御部と、を備えた
     音響出力装置。
  15.  音響出力装置に配置された複数の音響出力ドライバから出力する複数チャネルのコンテンツ音データと、前記音響出力装置に配置され周囲音を集音する複数のマイクロホンで得られた周囲音データと、周囲音の到来方向の情報とを用いて、コンテンツ音と周囲音のマスキング状態を判定するマスキング判定処理と、
     前記マスキング判定処理によるマスキング状態の判定結果に応じて音響処理に関する制御を行う音響処理制御処理と、
     を信号処理装置が実行する信号処理方法。
PCT/JP2023/005311 2022-03-10 2023-02-15 信号処理装置、音響出力装置、信号処理方法 WO2023171280A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022037152 2022-03-10
JP2022-037152 2022-03-10

Publications (1)

Publication Number Publication Date
WO2023171280A1 true WO2023171280A1 (ja) 2023-09-14

Family

ID=87936761

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/005311 WO2023171280A1 (ja) 2022-03-10 2023-02-15 信号処理装置、音響出力装置、信号処理方法

Country Status (1)

Country Link
WO (1) WO2023171280A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014030254A (ja) * 2013-10-07 2014-02-13 Pioneer Electronic Corp ヘッドフォン
JP2016139944A (ja) * 2015-01-28 2016-08-04 株式会社ナカヨ 特定音検知機能を有するウェアラブル機器
WO2021261385A1 (ja) * 2020-06-22 2021-12-30 公立大学法人秋田県立大学 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014030254A (ja) * 2013-10-07 2014-02-13 Pioneer Electronic Corp ヘッドフォン
JP2016139944A (ja) * 2015-01-28 2016-08-04 株式会社ナカヨ 特定音検知機能を有するウェアラブル機器
WO2021261385A1 (ja) * 2020-06-22 2021-12-30 公立大学法人秋田県立大学 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム

Similar Documents

Publication Publication Date Title
US11676568B2 (en) Apparatus, method and computer program for adjustable noise cancellation
CN107210032B (zh) 在掩蔽语音区域中掩蔽再现语音的语音再现设备
US8194865B2 (en) Method and device for sound detection and audio control
WO2011064950A1 (ja) 補聴システム、補聴方法、プログラムおよび集積回路
KR20170027780A (ko) 추적되는 사용자 위치의 함수로서의 파라메트릭 스피커 구동
KR20130010893A (ko) 멀티채널 사운드 재생 방법 및 장치
WO2012097148A2 (en) Automotive constant signal-to-noise ratio system for enhanced situation awareness
KR20190059642A (ko) 귀 개방형 헤드폰을 이용한 다채널 사운드 구현 장치 및 그 방법
JP2018060403A (ja) 音出力装置及び携帯装置
CN116324969A (zh) 具有定位反馈的听力增强和可穿戴系统
US20220174395A1 (en) Auditory augmented reality using selective noise cancellation
JP7031668B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2010506525A (ja) 補聴器の駆動方法および補聴器
WO2023171280A1 (ja) 信号処理装置、音響出力装置、信号処理方法
WO2013042324A1 (ja) 音響再生装置
US11877133B2 (en) Audio output using multiple different transducers
CN115804106A (zh) 声学输出装置和声学输出装置的控制方法
Holzmüller et al. Frequency limitation for optimized perception of local active noise control
AU2019268093A1 (en) Communication device with position-dependent spatial source generation, communication system, and related method
WO2023189075A1 (ja) 信号処理装置、音響出力装置、信号処理方法
US20230292032A1 (en) Dual-speaker system
WO2022185725A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230421945A1 (en) Method and system for acoustic passthrough
EP4235643A1 (en) Acoustic control system
US20230007432A1 (en) Acoustic reproduction method, acoustic reproduction device, and recording medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23766460

Country of ref document: EP

Kind code of ref document: A1