WO2021251136A1 - 信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器 - Google Patents

信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器 Download PDF

Info

Publication number
WO2021251136A1
WO2021251136A1 PCT/JP2021/019901 JP2021019901W WO2021251136A1 WO 2021251136 A1 WO2021251136 A1 WO 2021251136A1 JP 2021019901 W JP2021019901 W JP 2021019901W WO 2021251136 A1 WO2021251136 A1 WO 2021251136A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal processing
filter coefficient
user
sound
correction
Prior art date
Application number
PCT/JP2021/019901
Other languages
English (en)
French (fr)
Inventor
康信 村田
宏平 浅田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/000,690 priority Critical patent/US20230223001A1/en
Priority to JP2022530116A priority patent/JPWO2021251136A1/ja
Publication of WO2021251136A1 publication Critical patent/WO2021251136A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17813Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms
    • G10K11/17815Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms between the reference signals and the error signals, i.e. primary path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17825Error signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3011Single acoustic input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3024Expert systems, e.g. artificial intelligence
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3026Feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3027Feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3028Filtering, e.g. Kalman filters or special analogue or digital filters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3035Models, e.g. of the acoustic system
    • G10K2210/30351Identification of the environment for applying appropriate model characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3038Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3044Phase shift, e.g. complex envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3048Pretraining, e.g. to identify transfer functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Definitions

  • the present disclosure relates to a signal processing device, a signal processing method, a signal processing program, a signal processing model manufacturing method, and an acoustic output device.
  • a signal of the eardrum position may be required to maximize the NC effect size of the eardrum position, but it is difficult to arrange the microphone at the eardrum position due to the specifications of the product. There was a case.
  • the present disclosure proposes new and improved signal processing devices, signal processing methods, signal processing programs, signal processing model manufacturing methods, and acoustic output devices that can promote further improvement in usability.
  • an acquisition unit that acquires acoustic characteristics in the user's ear separated from the outside world, and an NC filter unit that generates sound data having a phase opposite to the environmental sound leaked into the user's ear.
  • a signal processing device including a correction unit that corrects the sound data by using a correction filter, and a determination unit that determines the filter coefficient of the correction filter based on the acoustic characteristics.
  • Embodiment of the present disclosure >> ⁇ 1.1.
  • the characteristics of the signal at the time when the sound generated by the signal after applying the noise reduction signal reaches the user's ear may change depending on the wearing state of the headphones or the like.
  • the standard specification (default) NC filter installed in the product (hereinafter referred to as " ⁇ default” as appropriate) may be defined by the standard head and wearing condition at the time of design. For this reason, when used by the user, an error may occur in the head shape and the wearing state as compared with the default, so that the optimum NC effect may not be obtained. Therefore, there is room for further improvement of usability.
  • FIG. 1 is a diagram showing a configuration example for NC individual optimization.
  • the microphone MI 11 indicates a microphone for FF (Feed Forward) NC (hereinafter, appropriately referred to as a “first microphone”) arranged inside the headphone HP 11.
  • the microphone MI12 indicates a microphone for FB (Feed Back) NC arranged inside the headphone HP11 (hereinafter, appropriately referred to as a “second microphone”).
  • the microphone MI13 indicates a microphone arranged at the eardrum position (hereinafter, appropriately referred to as a “third microphone”).
  • the acoustic characteristic F0 indicates the acoustic characteristic (spatial acoustic characteristic) from the noise source N to the first microphone.
  • the acoustic characteristic F1 indicates the acoustic characteristic from the first microphone to the third microphone.
  • the acoustic characteristic F1 is a leakage characteristic that does not pass through the space inside the headphone HP11.
  • the device characteristic H1 indicates the acoustic characteristics from the driver (speaker) of the headphone HP 11 to the third microphone.
  • the device characteristic H2 indicates the acoustic characteristics from the driver of the headphone HP11 to the second microphone.
  • the microphone characteristic M1 indicates the microphone characteristic of the first microphone.
  • the microphone characteristic M2 indicates the microphone characteristic of the second microphone.
  • the microphone characteristic M3 indicates the microphone characteristic of the third microphone.
  • the NC filter that maximizes the NC effect size is determined in the standard head and wearing state at the time of design.
  • This NC filter is the ⁇ default installed in the product.
  • the ⁇ default is determined based on the device characteristic H1 at the time of design and the acoustic characteristic F1.
  • the following formula (1) shows a calculation formula for determining the ⁇ default.
  • the F1 default indicates the acoustic characteristic F1 at the time of design.
  • the H1 default indicates the device characteristic H1 at the time of design.
  • the device characteristic H1 and the acoustic characteristic F1 may differ among users. Therefore, by paying attention to the device characteristic H1 and correcting the H1 default M1 (hereinafter, appropriately referred to as “H1M1 characteristic”) included in the above equation (1) among users, individual optimization can be performed. .. However, in this case, since it is necessary to arrange the microphone near the eardrum, it is difficult to measure the device characteristic H1 under the user's usage environment. Therefore, in the present embodiment, for example, focusing on the device characteristic H2, the device characteristic H1 is estimated based on the degree of similarity between the device characteristic H1 and the device characteristic H2.
  • 3 (A) and 3 (B) are diagrams showing configuration examples at the time of design and at the time of use.
  • Device characteristic H2 The default indicates the device characteristic H2 at the time of design.
  • Device characteristic H2 The user shows the device characteristic H2 when the personal optimization is executed.
  • FIG. 2 the case where the device characteristic H1 default is used as the device characteristic H1 is shown, but in FIGS. 4 and 5, the device characteristic H1 user is used.
  • the standard ⁇ default is used for the NC filter of the product.
  • the acoustic characteristics may change depending on the device characteristics H1 user based on the wearing state of the user and the like. Therefore, in FIG. 5, the acoustic characteristics that may change in FIG. 4 are corrected.
  • FIG. 5 the acoustic characteristics that may change in FIG. 4 are corrected.
  • FIG. 5 shows a case where the correction is performed immediately after the application of the device characteristic H1 user for convenience of explanation, but the correction may be performed before and after the application of the ⁇ default, or the ⁇ default itself may be corrected. .. Further, in an actual product, it is often the case that the correction is performed by narrowing down the band to about 100 Hz or less so as not to cause an adverse effect.
  • FIG. 6A shows the H1M characteristics measured by a microphone arranged at the eardrum position.
  • FIG. 6B shows the H2M characteristics measured by the microphone for FBNC.
  • FIGS. 6 (A) and 6 (B) includes HM characteristic data measured about 440 times while changing the wearing state. Since the data shown in FIGS. 6 (A) and 6 (B) are all measured using a dummy head, it is assumed that there is no difference depending on the shape of the head.
  • the horizontal axis is frequency (Hz), and the vertical axis is sound pressure (dB).
  • the HM characteristics may differ significantly between the H1M characteristics and the H2M characteristics at about 200 Hz or higher.
  • HM characteristics examples include the shape of the user's ear canal, ear hair, indoor temperature and humidity, and the like, but there may be various other factors. Therefore, it is desired to narrow down the correction to a band (for example, about 100 Hz) in which the H1M characteristic and the H2M characteristic tend to be close to each other. Specifically, in a band with a similar tendency, appropriate correction could be made by substituting the H2M characteristic. However, since the similarity cannot be guaranteed depending on the individual difference of the head between users and the wearing state, it may not be possible to correct it appropriately.
  • FIG. 7A shows an example of the simulation result measured by the microphone arranged at the eardrum position.
  • FIG. 7A includes five graphs.
  • graph LA1 shows the simulation results of an exposed state in which the user does not wear headphones or the like.
  • Graph LA2 shows the simulation result when the user wears headphones or the like and does not perform NC.
  • Graph LA3 shows the simulation result when NC is performed by ⁇ default.
  • Graph LA4 shows the simulation result when NC is performed with the optimum NC filter that maximizes the NC effect size.
  • Graph LA5 shows the simulation result when NC is performed by the NC filter (corrected filter) corrected by the correction filter estimated by machine learning.
  • the indexes on the vertical axis and the horizontal axis are the same as those in FIG.
  • FIG. 7A shows the lower the sound pressure on the vertical axis, the higher the NC effect.
  • the NC effect here includes the effect of sound insulation.
  • the graph LA3 and the graph LA4 are compared, it can be seen that the difference may be about 15 dB in the band having a large difference.
  • Graphs LA3 to LA5 show that by applying a correction filter to the ⁇ default installed in the product, it is possible to approach the optimum NC filter. It is shown that the closer the graph LA5 is to the graph LA4, the closer the NC filter corrected by the correction filter estimated by machine learning has the characteristics close to the optimum NC filter, so that the NC effect is improved.
  • FIG. 7B shows the frequency characteristics (gain) of the NC filter corresponding to the graphs LA3 to LA5 of FIG. 7A.
  • FIG. 8 shows an example of a simulation result when the target user in FIG. 7 changes the wearing state by attaching / detaching headphones or the like. Since the graph included in FIG. 8 is the same as that in FIG. 7, the description thereof will be omitted.
  • the error in the mounting state greatly affects the NC effect and the characteristics of the NC filter. For example, at 200 Hz or less, the difference between the graph LA4 and the graph LA5 is significantly different in FIG. 8 than in FIG. 7. For example, the graph LA3 sharply decreases from around 350 Hz in FIG. 7, while it gradually decreases from around 200 Hz in FIG. 8.
  • the correction filter is estimated by using machine learning such as DNN (Deep Neural Network)
  • machine learning such as DNN
  • the signal processing device 10 can realize NC optimization with a higher degree of freedom in a wider band.
  • the DNN appearing in the embodiment is an example of artificial intelligence.
  • the H2M characteristic measured by the FBNC microphone is used as an input, and the coefficient of the correction filter for optimally correcting the noise canceling signal generated based on the measurement data measured by the FFNC microphone ( A DNN that outputs a correction filter coefficient) (hereinafter, appropriately referred to as a “correction filter coefficient estimation DNN” or a “first DNN”) will be described.
  • the first DNN is not limited to the correction of the noise canceling signal, but outputs a correction filter coefficient for optimally correcting the filter that generates the noise canceling signal based on the measurement data measured by the microphone for FFNC. You may.
  • the DNN for determining the necessity / non-necessity of the correction. (Hereinafter, referred to as "correction determination DNN” or “second DNN” as appropriate) will be described.
  • the correction filter according to the embodiment may be, for example, FIR (Fiinite Impulse Response) having a finite impulse response.
  • FIR Finite Impulse Response
  • the corrected filter according to the embodiment may be, for example, an ⁇ default to which a correction filter at a time of use or the like is applied.
  • the NC effect size in the environment set by the JEITA standard is shown, but the NC effect size may be estimated not only in JEITA but also in the environment set by other standards. Since the signal processing device 10 can estimate the effect of optimization by estimating the NC effect size, it is possible to determine whether or not to execute the optimization.
  • the headphone 20 will be described as an example of the acoustic output device.
  • FIG. 9 is a diagram showing a configuration example of the signal processing system 1.
  • the signal processing system 1 includes a signal processing device 10 and headphones 20.
  • Various devices can be connected to the signal processing device 10.
  • headphones 20 are connected to the signal processing device 10, and information is linked between the devices.
  • the signal processing device 10 and the headphones 20 are connected to an information communication network by wireless or wired communication so that they can communicate with each other and operate in cooperation with each other.
  • the information communication network may be composed of an Internet, a home network, an IoT (Internet of Things) network, a P2P (Peer-to-Peer) network, a proximity communication mesh network, and the like.
  • Radio can utilize technologies based on mobile communication standards such as Wi-Fi, Bluetooth®, or 4G and 5G.
  • power line communication technology such as Ethernet (registered trademark) or PLC (Power Line Communications) can be used.
  • the signal processing device 10 and the headphones 20 may be separately provided as a plurality of computer hardware devices on a so-called on-premises (On-Premise), an edge server, or the cloud, or the signal processing device 10 and the headphones 20 may be provided separately.
  • the functions of any of a plurality of devices may be provided as the same device.
  • the signal processing device 10 and the headphones 20 may be devices in which the signal processing device 10 and the headphones 20 function integrally and communicate with an external information processing device.
  • the user can use a user interface (including Graphical User Interface: GUI) that operates on a terminal device (display as an information display device, a PC (Personal computer) including voice and keyboard input, or a personal device such as a smartphone), which is not shown.
  • Information and data communication with the signal processing device 10 and the headphone 20 is enabled via software (composed of a computer program (hereinafter, also referred to as a program)).
  • the signal processing device 10 is an information processing device that performs processing for determining a coefficient (filter coefficient) of a correction filter for performing optimum NC for an individual user. Specifically, the signal processing device 10 acquires the acoustic characteristics in the user's ear separated from the outside world. Then, the signal processing device 10 generates sound data having a phase opposite to that of the environmental sound leaked into the user's ear, and corrects it by using a correction filter. Further, the signal processing device 10 determines the correction filter coefficient based on the acoustic characteristics. Thereby, the signal processing device 10 can estimate the correction filter coefficient for optimization without requiring the signal of the eardrum position. Further, the signal processing device 10 can realize the processing for optimization without relying on the experience of the designer or the adjustment. As a result, the signal processing device 10 has room for further improvement in usability.
  • the signal processing device 10 also has a function of controlling the overall operation of the signal processing system 1. For example, the signal processing device 10 controls the overall operation of the signal processing system 1 based on the information linked between the devices. Specifically, the signal processing device 10 determines the correction filter coefficient for optimization based on the information received from the headphones 20.
  • the signal processing device 10 is realized by a PC (Personal Computer), a server (Server), or the like.
  • the signal processing device 10 is not limited to a PC, a server, or the like.
  • the signal processing device 10 may be a computer hardware device such as a PC or a server that implements the function as the signal processing device 10 as an application.
  • the headphone 20 is a headphone used by the user to hear the sound.
  • the headphone 20 is not limited to the headphone and may be any sound output device as long as it has a driver and a microphone and can separate the space including the eardrum of the user from the outside world.
  • the headphones 20 may be earphones.
  • the headphone 20 collects, for example, the measurement sound output from the driver with a microphone.
  • the functions of the signal processing system 1 include a function of estimating a correction filter coefficient for correcting the ⁇ default for performing the optimum NC for the individual user, and whether or not to perform the optimum NC correction for the individual user. It includes a function to judge.
  • FIG. 10 is a diagram showing an outline of a function for performing optimum NC for an individual user.
  • the signal processing system 1 measures the acoustic characteristics (H2 user M2 characteristics) based on the signal picked up by the second microphone. Then, the signal processing system 1 estimates the correction filter coefficient using the first DNN that estimates the correction filter coefficient based on the measured acoustic characteristics. Further, the signal processing system 1 estimates the ⁇ default NC effect based on the measured H2 user M2 characteristic, and uses the second DNN for determining whether or not the correction effect can be sufficiently expected, and the correction effect is obtained. Apply a correction filter when you can expect enough.
  • the first DNN and the second DNN will be described.
  • the H2 user M2 characteristic based on the signal picked up by the second microphone is input, and the correction filter coefficient is output.
  • optimization by Adam is performed as an example of the optimization method.
  • the correction filter coefficient based on the H1 user M3 is used as the teacher data.
  • the correction filter coefficient that satisfies the minimum NC simulation result may be used as the teacher data.
  • this correction filter coefficient is output, and the H2 user M2 characteristic is input as teacher data.
  • the loss function (loss function) is used to convert both the teacher data and the estimated data into frequency characteristics using an FFT (Fast Fourier Transform), and then a common low-pass filter is used to convert each band.
  • the average (average value) may be calculated from the sum of the absolute values of the differences.
  • Second DNN In the second DNN, the acoustic characteristics based on the signal picked up by the second microphone (for example, the time signal of the impulse response and the FFT frequency signal) and the corrected filter coefficient are input, and whether or not to correct is output. do. In the second DNN, optimization by Adam is performed as an example of the optimization method. The second DNN uses a loss function based on cross entropy. In the second DNN, NC simulation is performed with the H2 user M2 characteristic, the microphone characteristic M1, the microphone characteristic M3, and the corrected filter coefficient.
  • the teacher data is labeled as to whether or not the correction is performed based on whether or not the NC effect size, which is the correction effect obtained as a simulation result, is equal to or greater than a predetermined threshold value.
  • the NC effect size is the suppression amount when the sound pressure at the eardrum position is compared in a predetermined noise sound source and noise environment in the exposed state without the headphones 20 and the state in which NC is enabled. Is.
  • the signal processing system 1 performs 1/3 octave band analysis for each of the exposed state in which the headphones 20 are not worn and the state in which NC is enabled, and the suppression amount and noise suppression rate of each band are performed. May be treated as an NC effect size.
  • FIG. 11 shows the estimation result of the second DNN when the noise suppression rate is used for the NC effect size. Specifically, the estimation result of estimating the noise suppression rate of the correction filter coefficient ⁇ with the H2M2 characteristic as an input is shown.
  • the noise suppression rate can be divided into four quadrants as shown in FIG. In FIG. 11, the predetermined threshold value is 0.7.
  • the horizontal axis is the correct answer data
  • the vertical axis is the estimated data.
  • the signal processing system 1 learns the second DNN in response to the input of the corrected filter coefficient.
  • the function of the signal processing system 1 includes a function of estimating whether or not noise is suppressed by correcting the NC filter.
  • the signal processing system 1 estimates whether or not noise is suppressed by using a DNN that outputs a noise suppression rate (hereinafter, appropriately referred to as “noise suppression rate estimation DNN” or “third DNN”). conduct.
  • the third DNN will be described.
  • Third DNN In the third DNN, the H2 user M2 characteristic, the H2M2 characteristic, and the ⁇ default are input, and the noise suppression rate is output. In the third DNN, optimization by Adam is performed as an example of the optimization method. The third DNN uses a loss function based on the root mean square error.
  • FIG. 12 is a diagram showing an outline of the functions of the signal processing system according to the embodiment.
  • FIG. 12 shows a case where the first DNN and the second DNN function integrally.
  • the integrated first DNN and the second DNN are collectively referred to as “DNN”.
  • the H2 user M2 characteristic and the corrected filter are input, and the correction filter coefficient and whether or not to correct are output.
  • the corrected filter may be used as the final output.
  • the case where the two DNNs are configured to be bonded by the fully connected layer so that the first DNN and the second DNN are integrated is shown, but the first DNN and the second DNN are shown. It is assumed that the DNN of 2 may be configured to be arranged separately.
  • the correction filter for correcting the error in the wearing state of the user as described above is appropriately referred to as a “wearing error correction filter” or a “first correction filter”.
  • the correction filter for correcting the difference based on the acoustic characteristics of the environmental sound is appropriately referred to as an "environmental sound difference correction filter” or a "second correction filter”.
  • the measurement sound may be buried in noise unless the environment is quiet to some extent.
  • the signal processing system 1 determines which of the first correction filter and the second correction filter is estimated according to the noise level of the environmental sound.
  • FIG. 13 is a diagram showing an outline of processing using the first correction filter and the second correction filter in addition to the processing of FIG.
  • the function of the signal processing system 1 includes a function of estimating the correction filter coefficient based on the ambient sound.
  • the signal processing system 1 estimates the corrected filter by using a DNN that outputs a second correction filter coefficient (hereinafter, appropriately referred to as “environmental sound difference correction filter coefficient estimation DNN” or “fourth DNN”). do.
  • the fourth DNN estimates the second correction filter will be described.
  • the fourth DNN the signal picked up by the first microphone and the corrected filter at the target time are input, and the second correction filter coefficient is output.
  • optimization by Adam is performed as an example of the optimization method.
  • the signal processing system 1 estimates the optimum filter coefficient based on the signal picked up by the first microphone and the signal picked up by the third microphone. Then, the signal processing system 1 estimates, for example, a correction filter coefficient that corrects the difference between the ⁇ default and the optimum filter coefficient by using the gradient method.
  • both the teacher data and the estimated data may be weighted for each frequency band using the loss function, and then the average may be calculated from the sum of the amplitude and the phase distance of each band.
  • the weighting for each frequency band is, for example, weighting based on the exclusion of high frequencies where the NC effect cannot be expected with the low-pass filter and the exclusion of low frequencies with low frequency resolution with the high-pass filter.
  • FIG. 14 is a flowchart showing the flow of processing according to FIG.
  • the signal processing system 1 determines whether to perform correction based on the first correction filter or correction based on the second correction filter, depending on the loudness of the ambient sound when the optimization function is executed. The details of the processing flow related to the signal processing device 10 will be described later.
  • FIG. 15 is a flowchart showing a flow of a process of determining whether or not to perform a correction based on the second correction filter after the determination based on the environmental sound in addition to the process of FIG.
  • the signal processing system 1 determines whether to perform correction based on the second correction filter based on the magnitude of the estimated second correction filter coefficient.
  • FIG. 16 is a modification of FIG. 15.
  • FIG. 16 is a flowchart showing a flow of processing for comparing the current corrected NC effect estimation result and the new corrected NC effect estimation result and determining whether or not to correct. In FIG. 16, it is not necessary to determine whether or not to perform the correction based on the comparison of the threshold values as shown in FIGS. 14 and 15.
  • FIG. 17 shows an outline of a function in which the signal processing system 1 stores (saves) the correction filter coefficient and performs processing based on the history of the correction filter coefficient when the optimization function is executed.
  • the signal processing system 1 stores (saves) the correction filter coefficient and performs processing based on the history of the correction filter coefficient when the optimization function is executed.
  • ⁇ defaults which are preset NC filters
  • FIG. 17 shows a case where the optimization process is performed based on one ⁇ default, the process may be performed based on a plurality of ⁇ defaults.
  • DNN1 in FIG. 17 is the first DNN.
  • NC effect estimation DNN a DNN that estimates the NC effect when an NC filter having a predetermined filter coefficient is used
  • DNN3 in FIG. 17 is a DNN that estimates the NC effect in an environment set by a predetermined standard (hereinafter, appropriately referred to as “NC effect user environment estimation DNN” or “sixth DNN”). The details of the fifth DNN and the sixth DNN will be described later.
  • the NC effect JEITA in FIG. 17 is an NC effect size in a noise environment of the JEITA standard.
  • the noise suppression rate for the NC effect size in the noise environment of the JEITA standard, but in the case of the noise suppression rate, the output is one numerical value, which is not enough for the input of DNN3, so here the NC effect size.
  • the noise suppression rate shall not be used.
  • FIGS. 18 to 24 will be described with reference to an example of a memory (for example, a storage unit 120) stored by the signal processing device 10.
  • a predetermined process such as weighting and averaging based on the NC effect size of each band.
  • the predetermined process is not limited to the process of weighting and averaging based on the NC effect size of each band as long as it is a process of calculating a numerical value as an index of the NC effect size. May be good. This number is calculated between 0 and 1. Further, it will be described that the larger the numerical value is, the higher the NC performance is.
  • FIG. 18 shows a case where the optimization process is not executed.
  • FIG. 18A shows a state in which nothing is stored in the memory of the correction filter. For example, it is the initial time such as at the time of purchase.
  • N. standard the state in which the first correction filter is used
  • O. unknown the state in which the headphones 20 are attached and the optimization is not executed
  • FIG. 18B shows a state in which the NC effect size when the user uses the headphones 20 while traveling by train without wearing glasses or the like and does not affect the wearing state of the headphones 20 is stored.
  • the state of being moved by train is hereinafter appropriately referred to as "B. train”. Since the optimization process has not been executed, the mounting state is "O. unknown".
  • the NC effect size of "0.55" is stored in “B. train” in the state of "O. unknown".
  • the signal processing device 10 stores the measured value of the NC effect size in the "B. train” in the state of "O. unknown”.
  • the signal processing device 10 stores the environmental sound of "B. train".
  • FIG. 18C shows a state in which the user has memorized the NC effect size when using the headphones 20 while traveling by bus after "B. train".
  • the state of being moved by bus is hereinafter appropriately referred to as "C. bus”.
  • the NC effect size in "C. Bus” is larger than the NC effect size in "B. Train”.
  • the NC effect size of "0.60” is stored in the "C. bus” in the state of "O. unknown”.
  • the signal processing device 10 stores the actually measured value of the NC effect size in the “C. bus” in the “O. unknown” state.
  • the signal processing device 10 stores the environmental sound of the “C. bus”.
  • FIG. 19 shows a case where the user notices the optimization function and executes it in a quiet environment without removing the headphones 20.
  • the state in which the user executes the optimization function without wearing glasses or the like is appropriately referred to as "P. (not wearing)".
  • the signal processing device 10 determines that the spatial characteristics at the time of mounting in the "None" state are different from those in the "N. standard” state, and estimates the correction filter (p) as the first correction filter. .. Further, the signal processing device 10 estimates the NC effect size of the case where the correction filter (p) is applied and the case where the correction filter (p) is not applied.
  • the NC effect size when the correction filter (p) is applied the NC effect size of "0.70” is stored in the “C. bus” in the state of "P. None".
  • the signal processing device 10 stores the estimated value of the NC effect size in the “C. bus” in the state of "P. None".
  • the measured value is stored in "O. Unknown", so that the measured value is used for the NC effect size.
  • the NC effect size of "0.74" is stored in "A.JEITA" in the state of "P. None".
  • the signal processing device 10 stores the estimated value of the NC effect size in "A.JEITA" in the state of "P. None".
  • the signal processing device 10 compares the two NC effect sizes of "O. unknown” and “P. None” in the “C. bus", and updates the first correction filter (S21).
  • the signal processing device 10 compares the NC effect size of "0.60” of "O. unknown” with the NC effect size of "0.70” of "P. None", and "P. Since the NC effect size of "None" is larger, the first correction filter is updated to the correction filter (p). Subsequently, the signal processing device 10 uses the updated first correction filter to store the NC effect size when used in the “C. bus” with the headphones 20 attached (S22).
  • the NC effect size of "0.68" is stored in the “C. bus” in the state of "P. None".
  • the signal processing device 10 measures the NC effect size when used in the "B. train” with the headphones 20 attached, and compares it with the NC effect size when used in the "C. bus” (S23). ). Since the signal processing device 10 has a larger NC effect size in "B. train”, it overwrites the NC effect size. Since the condition of the environmental sound at the time of storing the maximum NC effect size has changed from "C. bus” to "B. train", the signal processing device 10 deletes (erases) the memory of "C. bus".
  • the signal processing device 10 stores the NC effect size when the user uses the "B. train” and “C. bus” while wearing the glasses without performing the optimization function. (S24).
  • the NC effect size of "0.64" is stored in "B. train” in the state of "O. unknown”.
  • Q. spectacles the state in which optimization is performed while wearing spectacles.
  • the signal processing device 10 determines that the characteristics of wearing the "Q. glasses” at the time of execution are different from those of "N. standard” and "P. None", and sets the correction filter (q) to the first correction filter.
  • the signal processing device 10 estimates the effect sizes of "A. JEITA” and "B. train” in the state of "Q. glasses".
  • the NC effect size of "0.70” is stored in "A.JEITA” in the state of “Q. glasses”
  • the NC effect size of "0.71” is stored in "B. train”. ..
  • the actually measured value is stored in "O. unknown”
  • this actually measured value is used for the NC effect size of "B. train” in the state of "Q. glasses”.
  • If the measured value is not stored in "O. Unknown”, enter the NC effect size of "A. JEITA” in the state of "Q. Glasses" together with the environmental sound of "B. Train”.
  • the signal processing device 10 compares the two NC effect sizes of "O. unknown” and “Q. glasses” in “B. train”, and updates the first correction filter (S26).
  • the signal processing device 10 compares the NC effect size of "0.64" of "O. unknown” with the NC effect size of "0.71” of "Q. glasses", and the result of the comparison. , Since the NC effect size of "Q. Glasses" is larger, the first correction filter is updated to the correction filter (q).
  • FIG. 20 is a flowchart showing the flow of processing according to FIGS. 18 and 19.
  • the signal processing device 10 determines that the order of searching the list in the memory is not the storage order or the address order, but the NC effect size order or the neighborhood of the H2 user M2 characteristic.
  • the correction filters may be rearranged in the order of the number of times the corrections are made. As a result, the signal processing device 10 can select a correction filter with higher certainty.
  • the frequency of executing the optimization function may be low. Headphones 20 may be used multiple times while not performing the optimization function. For this reason, the signal processing device 10 may store the NC effect size in the state of "O. unknown" and use it for searching for the characteristics in the vicinity.
  • the signal processing device 10 may use, for example, (1) “average value of NC effect size in the target wearing state", (2) “average value of NC effect size when the mounting state is unknown", (1) of each correction filter. 3) "The number of times the headphones 20 were used when the correction filter was selected in the target wearing state", and (4) "When the wearing state is unknown, the headphones 20 are used when the correction filter is selected”. By storing “the number of times it has been used” and the like, it may be used for searching for characteristics in the vicinity.
  • the signal processing device 10 may perform processing in descending order of the number of times when searching for characteristics in the vicinity.
  • the correction filter having a large number of times of the above (3) tends to be in the same wearing state even if the user repeats the attachment / detachment a plurality of times, so that the reliability can be improved.
  • the signal processing apparatus 10 may search in the order of the NC effect size of (1) above. Further, in the above (1), if the correction filter having the same NC effect size is included, the signal processing device 10 may search in the order of the number of times in the above (4). Then, the signal processing device 10 may search in the order of the NC effect size of (2) above. Note that this search order is an example and is not limited to this search order.
  • FIG. 21A shows the memory of the second correction filter at the initial stage.
  • A.JEITA through
  • A.JEITA environmental sound at that time
  • n. standard the state of the memory of the second correction filter after the initial time
  • N. standard the mounting information at that time
  • the correction filter is represented by a combination of "a” and "n”.
  • the signal processing device 10 accesses the memory of the initial second correction filter.
  • FIG. 21B shows a state in which the NC effect size when used in "B. train” is stored without executing the optimization function in a state where the user does not wear anything.
  • the NC effect size of "0.62" is stored in the "NC filter (an) B. train” in the state of "O. unknown”.
  • the signal processing device 10 stores the actually measured value of the NC effect size in the “NC filter (an) B. train” in the “O. unknown” state.
  • the signal processing device 10 stores the environmental sound of "B. train”.
  • FIG. 21C shows a state in which the NC effect size is stored when the user executes the optimization function on the “B. train”.
  • the signal processing device 10 estimates the second correction filter and the NC effect size.
  • the NC effect size of "0.72" is stored in the "NC filter (bn) B. train” in the state of "O. unknown”.
  • the signal processing device 10 stores the estimated value of the NC effect size in the "NC filter (bn) B. train” in the state of "O. unknown". Then, it continues to FIG.
  • the signal processing device 10 has an actually measured value of the “NC filter (an) B. train” in the “O. unknown” state and an estimation of the “NC filter (bn) B. train”. Compare with the value. Specifically, the signal processing device 10 has an NC effect size of "0.62", which is an actually measured value of "NC filter (an) B. train” in the state of "O. unknown", and "NC". Compare with the NC effect size of "0.71” which is the estimated value of "filter (bn) B. train”. Since the signal processing device 10 has a larger estimated value of the newly estimated "NC filter (bn) B. train", it is assumed that this correction filter has higher NC performance, and the second correction filter is updated. .. FIG. 22A shows a state in which the user has stored the actually measured value of the “NC filter (bn) B. train” without removing the headphones 20.
  • FIG. 22B shows a state in which the NC effect size when the environmental sound changes when the user uses the headphone 20 without removing the headphone 20 on the “C. bus” is stored.
  • the NC effect size of "0.66” is stored in the "NC filter (bn) C. bus” in the state of "O. unknown”.
  • the signal processing device 10 stores an estimated value of the NC effect size in the “C. bus” in the “O. unknown” state.
  • FIG. 22C stores the NC effect size when the optimization is executed in a quiet environment (“P. None” state) after that (for example, at a later date) when the user does not wear glasses or the like. Indicates the state. In this case, the signal processing device 10 clears all the values corresponding to the state of "O. unknown” on the assumption that the headphones 20 are attached and detached. The signal processing device 10 determines that the state of "P. None” has a characteristic different from the state of "N. Standard” contained in the memory, and the correction filter (p) corresponding to "P. None". To estimate. Further, the signal processing device 10 estimates the NC effect size of "NC filter (ap) A. JEITA” and “NC filter (an) A. JEITA" in the state of "P.
  • the NC effect size of "0.77” is stored in the "NC filter (ap) A. JEITA” in the state of "P. None", and the "NC filter (an) A. JEITA” is stored.
  • the NC effect size of "0.68” is stored in. Then, since the estimated value of the estimated “NC filter (ap) A. JEITA" is larger in the signal processing device 10 based on the estimation result, the second correction filter is updated to the correction filter (p). .. Then, it continues to FIG.
  • FIG. 23A shows a state in which the NC effect size when the user uses the headphones 20 on the “B. train” and “C. bus” without removing the headphones 20 is stored.
  • the signal processing device 10 stores the estimated value of the NC effect size in the “B. train” and the “C. bus” in the “no P.” state.
  • the NC effect size of "0.78" is stored in the “B. train” in the “P. None” state
  • the NC effect size of "0.70” is stored in the "C. bus”. ..
  • FIG. 23B shows the NC effect when the user wears the glasses and then uses them in the “C. Bus” and “D. Airplane” without performing the optimization function after wearing them (for example, at a later date). Indicates the state in which the amount is memorized. Here, since the user has not executed the optimization function after wearing the glasses, it is stored in "O. unknown”.
  • the signal processing device 10 stores the measured values of the NC effect sizes in the “C. bus” and the “D. airplane” in the “O. unknown” state.
  • the NC effect size of "0.58” is stored in the "C. bus” in the state of "O. unknown”
  • the NC effect size of "0.62" is stored in the "D. airplane”. ..
  • FIG. 23C shows a state in which the NC effect size when the user executes the optimization function when the surroundings become quiet while wearing the headphones 20 is stored.
  • the signal processing device 10 determines that the state of "Q. spectacles” has different characteristics from the states of "N. standard” and “P. None", and determines that the state of "Q. spectacles” is a correction filter (q. ) Is estimated. Further, the signal processing device 10 includes "NC filter (ap) A. JEITA", “NC filter (bp) B. train”, and “NC filter (b)” in the state of "Q. glasses”. -Q) B. Estimate the amount of NC effect with "train”.
  • the NC effect size of "0.74" is stored in the "NC filter (ap) A. JEITA” in the state of "Q. glasses", and the “NC filter (bp) B. train”.
  • the NC effect size of "0.66” is stored in, and the NC effect size of "0.77” is stored in "NC filter (bq) B. train”.
  • FIG. 23D shows a state in which the NC effect size when the user uses the headphones 20 while wearing them on the “C. bus” and the “D. airplane” is stored.
  • the signal processing device 10 stores the estimated value of the NC effect size in the “C. bus” and the “D. airplane” with the user wearing the headphones 20.
  • the NC effect size of "0.70” is stored in the “C. bus” in the state of "Q. glasses”
  • the NC effect size of "0.78” is stored in the "D. airplane”. ..
  • FIG. 24 is a flowchart showing the flow of processing according to FIGS. 21 to 23.
  • the function of the signal processing system 1 includes a function of estimating the NC effect when an NC filter having a predetermined filter coefficient is used.
  • the signal processing system 1 estimates the NC effect using the fifth DNN.
  • the fifth DNN will be described.
  • the H2 user M2 characteristic and the corrected filter coefficient are input, and the NC effect size is output.
  • the H2M2 characteristic may be used as an input.
  • optimization by Adam is performed as an example of the optimization method.
  • the fifth DNN uses a loss function based on the root mean square error.
  • NC simulation is performed using the teacher data generated by the first DNN, and the NC effect size obtained as a simulation result is used as the teacher data.
  • the function of the signal processing system 1 includes a function of estimating the NC effect in an environment set by a predetermined standard.
  • the signal processing system 1 estimates the NC effect using the sixth DNN.
  • the sixth DNN will be described.
  • the NC effect size in the noise environment of a predetermined standard, the corrected filter coefficient, and the characteristics of the environmental sound under the user's usage environment are input, and the NC effect size under the user's usage environment is output. And.
  • the sixth DNN uses a loss function based on the root mean square error.
  • the NC effect size obtained as the simulation result of NC is used as the teacher data.
  • NC is performed using data such as an NC filter, a correction filter, environmental sound sound data (for example, environmental sound sound data measured by the first microphone to the third microphone), and characteristics.
  • the NC effect amount obtained as a result of the simulation is used as the teacher data.
  • FIG. 25 is a block diagram showing a functional configuration example of the signal processing system 1 according to the embodiment.
  • the signal processing device 10 includes a communication unit 100, a control unit 110, and a storage unit 120.
  • the signal processing device 10 has at least a control unit 110.
  • the communication unit 100 has a function of communicating with an external device. For example, the communication unit 100 outputs information received from the external device to the control unit 110 in communication with the external device. Specifically, the communication unit 100 outputs the information received from the headphones 20 to the control unit 110. For example, the communication unit 100 outputs the signal picked up by the microphone provided in the headphones 20 to the control unit 110.
  • the communication unit 100 transmits information input from the control unit 110 to the external device in communication with the external device. Specifically, the communication unit 100 transmits information regarding acquisition of the sound pickup signal input from the control unit 110 to the headphones 20.
  • the communication unit 100 is composed of a hardware circuit (communication processor, etc.), and is configured to perform processing by a computer program operating on the hardware circuit or another processing device (CPU, etc.) that controls the hardware circuit. can do.
  • Control unit 110 has a function of controlling the operation of the signal processing device 10. For example, the control unit 110 performs a process of determining a correction filter coefficient for performing the optimum NC for the individual user.
  • the control unit 110 includes an acquisition unit 111, a processing unit 112, and an output unit 113, as shown in FIG. 25.
  • the control unit 110 is composed of a processor such as a CPU, and is designed to read software (computer program) that realizes each function of the acquisition unit 111, the processing unit 112, and the output unit 113 from the storage unit 120 and perform processing. You may.
  • one or more of the acquisition unit 111, the processing unit 112, and the output unit 113 are configured by a hardware circuit (processor or the like) different from the control unit 110, and operate on another hardware circuit or the control unit 110. It can be configured to be controlled by a computer program that does.
  • the acquisition unit 111 has a function of acquiring the acoustic characteristics in the user's ear separated from the outside world.
  • the acquisition unit 111 acquires, for example, the acoustic characteristics based on the sound collection signal obtained by collecting the measured sound output in the ear.
  • the acquisition unit 111 acquires the acoustic characteristics based on the sound pickup signal picked up by the microphone of the sound output device.
  • the acquisition unit 111 acquires the data stored in the storage unit 120. For example, the acquisition unit 111 acquires information regarding the correction filter coefficient.
  • the processing unit 112 has a function for controlling the processing of the signal processing device 10. As shown in FIG. 25, the processing unit 112 includes a determination unit 1121, an NC filter unit 1122, a correction unit 1123, a generation unit 1124, and a determination unit 1125.
  • the determination unit 1121, NC filter unit 1122, correction unit 1123, generation unit 1124, and determination unit 1125 included in the processing unit 112 may be configured as independent computer program modules, or may have a plurality of functions. It may be configured as a module of one cohesive computer program.
  • the determination unit 1121 has a function of determining the correction filter coefficient based on the acoustic characteristics acquired by the acquisition unit 111.
  • the determination unit 1121 determines the correction filter coefficient using a trained model (for example, the first DNN) that inputs the acoustic characteristics and outputs the filter coefficient. For example, the determination unit 1121 determines the correction filter coefficient using a trained model in which the acoustic characteristics estimated at the user's eardrum position are learned as teacher data.
  • a trained model for example, the first DNN
  • the determination unit 1121 determines the correction filter coefficient using a trained model (for example, a second DNN) that inputs the acoustic characteristics and the sound data and outputs whether or not the sound data is corrected. For example, the determination unit 1121 corrects using a trained model in which the given information labeled as to whether or not to correct based on the noise suppression rate estimated based on the acoustic characteristics and the sound data is learned as teacher data. Determine the filter coefficient.
  • a trained model for example, a second DNN
  • the determination unit 1121 determines the correction filter coefficient using a learned model (for example, a third DNN) that inputs the acoustic characteristics and the pre-measured acoustic characteristics and sound data and outputs the noise suppression rate. ..
  • the determination unit 1121 determines the correction filter coefficient using a trained model in which the noise suppression rate based on the acoustic characteristics estimated at the user's eardrum position and the sound data is learned as teacher data.
  • the determination unit 1121 inputs the sound collection signal and sound data collected by a microphone different from the microphone whose acoustic characteristics are measured, and outputs a correction filter coefficient that corrects the difference in the filter coefficient based on the environmental sound in the user environment.
  • the correction filter coefficient is determined using the trained model (4th DNN). For example, the determination unit 1121 determines the correction filter coefficient using a trained model in which the filter coefficient for correcting the difference in the filter coefficient based on the acoustic characteristics estimated at the user's eardrum position is learned as teacher data.
  • the determination unit 1121 determines the correction filter coefficient using a trained model (for example, the fifth DNN) that inputs the acoustic characteristics and the sound data and outputs the NC effect size. For example, the determination unit 1121 determines the correction filter coefficient using a trained model in which the effect size based on the acoustic characteristics estimated at the user's eardrum position is learned as teacher data.
  • a trained model for example, the fifth DNN
  • the determination unit 1121 is a trained model (sixth) in which the NC effect size in the environment defined by a predetermined standard, the sound data, and the acoustic characteristics of the environmental sound in the user environment are input, and the NC effect size in the user environment is output. DNN) is used to determine the correction filter coefficient. For example, the determination unit 1121 determines the correction filter coefficient using a trained model in which the NC effect size based on the sound data, the filter coefficient, and the acoustic characteristics of the environmental sound in the user environment is learned as teacher data.
  • NC filter unit 1122 has a function of generating sound data having a phase opposite to that of the environmental sound leaked into the user's ear.
  • the NC filter unit 1122 generates, for example, sound data having a phase opposite to the acoustic characteristics of the environmental sound acquired by the acquisition unit 111.
  • the correction unit 1123 has a function of correcting the sound data generated by the NC filter unit 1122 by using a correction filter. Specifically, the correction unit 1123 corrects using the correction filter coefficient determined by the determination unit 1121.
  • the generation unit 1124 has a function of generating a trained model.
  • the generation unit 1124 generates a trained model learned by inputting input data and output data into a loss function, for example.
  • the determination unit 1121 determines the correction filter coefficients estimated using the trained model generated by the generation unit 1124.
  • the determination unit 1125 has a function of determining whether or not to correct the sound data generated by the NC filter unit 1122 by using the correction filter. For example, the determination unit 1125 determines whether or not the correction effect can be sufficiently expected by using the correction filter, and if the correction effect can be sufficiently expected, determines that the correction is performed by using the correction filter.
  • the determination unit 1125 determines the noise level of the environmental sound.
  • the determination unit 1125 determines which correction filter to use, the first correction filter or the second correction filter, according to the noise level of the environmental sound.
  • the output unit 113 has a function of outputting the sound data corrected by the correction unit 1123.
  • the output unit 113 provides the corrected sound data to, for example, the headphones 20 via the communication unit 100.
  • the headphone 20 receives the corrected sound data, the headphone 20 reproduces the sound based on the corrected sound data. As a result, the user can audition the sound corrected by the correction filter.
  • the storage unit 120 is realized by, for example, a RAM (Random Access Memory), a semiconductor memory element such as a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 120 has a function of storing computer programs and data (including a form of the program) related to processing in the signal processing device 10.
  • FIG. 26 shows an example of the storage unit 120.
  • the storage unit 120 may have items such as "correction filter coefficient ID”, “correction filter coefficient”, “execution state”, "use environment 1", and "use environment 2".
  • “Correction filter coefficient ID” indicates identification information for identifying the correction filter coefficient.
  • “Correction filter coefficient” indicates a correction filter coefficient.
  • “Execution state” indicates the execution state of the optimization function. In the example shown in FIG. 26, an example in which conceptual information such as “execution state # 1" and “execution state # 2" is stored in “execution state” is shown, but in reality, “N. standard” and “N. standard” are shown. Data such as “O. unknown” is stored. "Usage environment 1" and the like indicate the user's usage environment. In the example shown in FIG. 26, an example in which conceptual information such as “use environment # 1" and “use environment # 2" is stored in “use environment 1" is shown, but in reality, “B. train” is shown. And data such as "C. Bus” are stored.
  • the headphone 20 includes a communication unit 200, a control unit 210, and an output unit 220.
  • the communication unit 200 has a function of communicating with an external device.
  • the communication unit 200 outputs information received from the external device to the control unit 210 in communication with the external device.
  • the communication unit 200 outputs the information received from the signal processing device 10 to the control unit 210.
  • the communication unit 200 outputs information regarding acquisition of sound data corrected by the correction filter to the control unit 210.
  • Control unit 210 has a function of controlling the operation of the headphones 20. For example, the control unit 210 transmits the acoustic characteristics based on the sound collection signal picked up by the microphone to the signal processing device 10 via the communication unit 200.
  • the output unit 220 is realized by a member capable of outputting sound such as a speaker.
  • the output unit 220 outputs a sound based on the sound data.
  • FIG. 27 is a flowchart showing a processing flow in the signal processing device 10 according to the embodiment.
  • the signal processing device 10 acquires the acoustic characteristics in the user's ear separated from the outside world (S101).
  • the signal processing device 10 determines the correction filter coefficient using the trained model that outputs the correction filter coefficient when the acquired acoustic characteristics are input (S102).
  • the signal processing device 10 generates sound data having a phase opposite to that of the environmental sound leaked into the user's ear (S103).
  • the signal processing device 10 determines whether or not to correct using the correction filter (S104).
  • the signal processing device 10 determines that the correction is performed using the correction filter (S104; YES)
  • the signal processing device 10 corrects the generated sound data using the determined correction filter coefficient (S105). Further, when the signal processing device 10 determines that the correction is not performed by using the correction filter (S104; NO), the signal processing device 10 ends the information processing.
  • the signal processing device 10 has described the case where the correction / non-correction is determined by using machine learning such as DNN, but the present invention is not limited to this example.
  • the signal processing device 10 may decide whether to correct or not by accepting a selection from the user, for example.
  • the signal processing device 10 presents an NC effect size using the current filter coefficient, an NC effect size using the estimated correction filter coefficient, an NC effect size of the correction filter coefficient stored in the memory, and the like from the user. By accepting the selection, it may be decided whether or not to correct.
  • the signal processing device 10 may display a list of correction filters on a mobile terminal such as a smart phone (hereinafter, appropriately referred to as “terminal device 30”) and accept selection from the user.
  • the signal processing device 10 may display a list of correction filters according to the wearing state of the user. Thereby, the signal processing device 10 can allow the user to explicitly select the correction filter. Further, the signal processing device 10 can enable the user to confirm the NC effect size with an arbitrary environmental sound.
  • FIG. 28 shows an example of a display screen displaying a list of correction filters.
  • the list of correction filters includes "standard", “filter 1", and "filter 2".
  • the "standard” is a correction filter estimated by the signal processing device 10 when, for example, the user does not wear anything.
  • the "filter 1” is, for example, a correction filter estimated by the signal processing device 10 when the user wears eyeglasses.
  • the “filter 2” is, for example, a correction filter estimated by the signal processing device 10 when the user wears a hat.
  • the display screen HG11 displaying a list of correction filters includes a predetermined area SK11 to which a correction filter based on a new measurement is added as an option when the user operates (for example, clicks or taps) the measurement B11. Is done. Further, the display screen HG 11 includes a predetermined area SK12 in which the characteristics of the correction filter selected by the user are highlighted. Further, when the user operates the audition C11 included in the display screen HG11, the terminal device 30 outputs, for example, a sound based on the correction filter selected by the user.
  • the signal processing device 10 may perform a process for outputting a sound based on the correction filter selected by the user. This allows the user to audition the sound based on the selected correction filter.
  • the signal processing device 10 selects a sound (for example, a musical piece (song)) stored in the terminal device 30 so that the user can easily recognize the difference of the correction filter included in the list at the time of auditioning. You may play it.
  • the signal processing device 10 may reproduce an arbitrary sound selected in advance by the user. Thereby, the signal processing device 10 can easily compare the correction filters in the user's usage environment. Further, the signal processing device 10 may perform processing for displaying the H2 user M2 characteristic.
  • the signal processing device 10 allows the user to visually grasp the characteristics of the H2 user M2. Further, the signal processing device 10 may perform processing for allowing the user to give a name to each correction filter on the UI of the terminal device 30. As a result, the signal processing device 10 can make it easier for the user to use the correction filter properly by allowing the user to give a name. At this time, the ease of recognizing and operating the information displayed on the UI may deteriorate. Therefore, the signal processing device 10 may perform processing for allowing the user to compare the audition listening with the UI of the headphone 20 alone by using the guide voice or the like. Further, the signal processing device 10 may perform processing for enabling the estimation processing of the correction filter coefficient on the user's terminal device 30 or the server to which the terminal device 30 is connected.
  • the display screen of the terminal device 30 is provided with a tab for correcting the mounting error and a tab for correcting the difference in the environmental sound, and the user selects the tab to display a list of correction filters.
  • FIG. 29 shows an example of a display screen when the list of the first correction filter and the list of the second correction filter are managed and selected by tabs. The same description as in FIG. 28 will be omitted as appropriate.
  • the display screen HG 21 includes a tab TB11 and a tab TB12 for switching the list of correction filters by the user's selection.
  • the terminal device 30 displays a list of correction filters corresponding to the tab TB11 or the tab TB12.
  • the signal processing device 10 may perform a process for switching the list of correction filters corresponding to the tab selected by the user.
  • the signal processing device 10 may display the acoustic characteristics of the environmental sound targeted by the default NC filter of the product and the acoustic characteristics of the environmental sound in the user environment. good. This allows the user to refer to the selection.
  • the terminal device 30 is not limited to a mobile terminal such as a smart phone, and may be any information processing device as long as it can accept operations related to the correction filter from the user.
  • the signal processing device 10 updates the estimated correction filter coefficient triggered by the user's operation, but the present invention is not limited to this example.
  • the signal processing device 10 may update the estimated correction filter coefficient for the environmental sound that changes from time to time at any time. As shown in FIG. 30, the signal processing device 10 may update the correction filter coefficient according to the change of the environmental sound by cross-fading the correction filter. As a result, the signal processing device 10 can update the correction filter coefficient without interruption of sound or discomfort.
  • the signal processing device 10 is not limited to the crossfade, and the correction filter coefficient may be updated based on any processing.
  • the signal processing device 10 estimates the correction filter coefficient for the difference in the environmental sound, but the filter coefficient of the NC filter may be estimated.
  • the sound pick-up signal picked up by the third microphone is the minimum based on the sound pick-up signal picked up by the first microphone and the sound pick-up signal picked up by the third microphone. You may estimate the filter coefficient so that In the above embodiment, the signal processing device 10 uses the correction filter coefficient estimated by various environmental sounds as the teacher data, but the correction filter coefficient can be estimated by determining the standard filter coefficient. good.
  • the signal processing device 10 may perform correction by adjusting the gain of the filter without determining the correction filter coefficient.
  • the signal processing device 10 may add an offset based on the error between the H2M2 characteristic and the H2 user M2 characteristic. Further, the signal processing device 10 may adjust this offset to calculate an offset value that minimizes the sum of squares of the error.
  • the signal processing device 10 may perform correction using the offset value as a gain adjustment value. Further, the signal processing device 10 may accept adjustments from the user based on the offset value. Thereby, the signal processing device 10 can be adjusted according to the user's subjective preference and hearing condition. Further, the signal processing device 10 may estimate the correction filter coefficient when the least squares sum error of the offset value is larger than a predetermined threshold value.
  • FIG. 31 shows a case where the least squares sum error of the offset value is smaller than a predetermined threshold value.
  • FIG. 31 (A) is before the gain adjustment
  • FIG. 31 (B) is after the gain adjustment.
  • FIG. 32 shows a case where the least squares sum error of the offset value is larger than a predetermined threshold value.
  • FIG. 32 (A) is before the gain adjustment
  • FIG. 32 (B) is after the gain adjustment.
  • FIG. 33 is a flowchart showing a processing flow when adjusting the gain.
  • the correction according to the embodiment includes, for example, a case where an error based on an individual difference of the headphones 20 or the like is corrected.
  • FIG. 34 is a block diagram showing a hardware configuration example of the signal processing device according to the embodiment.
  • the signal processing device 900 shown in FIG. 34 can realize, for example, the signal processing device 10 and the headphones 20 shown in FIG. 25.
  • the information processing by the signal processing device 10 and the headphones 20 according to the embodiment is realized by the cooperation between the software (consisting of a computer program) and the hardware described below.
  • the signal processing device 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, and a RAM (Random Access Memory) 903. Further, the signal processing device 900 includes a host bus 904a, a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 910, and a communication device 911.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, the hardware configuration may further include components other than the components shown here.
  • the CPU 901 functions as, for example, an arithmetic processing device or a control device, and controls all or a part of the operation of each component based on various computer programs recorded in the ROM 902, the RAM 903, or the storage device 908.
  • the ROM 902 is a means for storing a program read into the CPU 901, data used for calculation, and the like.
  • the RAM 903 temporarily or permanently stores data (a part of the program) such as a program read into the CPU 901 and various parameters that change appropriately when the program is executed. These are connected to each other by a host bus 904a composed of a CPU bus or the like.
  • the CPU 901, ROM 902, and RAM 903 may, for example, realize the functions of the control unit 110 and the control unit 210 described with reference to FIG. 25 in collaboration with software.
  • the CPU 901, ROM 902, and RAM 903 are connected to each other via, for example, a host bus 904a capable of high-speed data transmission.
  • the host bus 904a is connected to the external bus 904b having a relatively low data transmission speed via, for example, the bridge 904.
  • the external bus 904b is connected to various components via the interface 905.
  • the input device 906 is realized by a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever, in which information is input by a listener. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or an external connection device such as a mobile phone or a PDA that supports the operation of the signal processing device 900. .. Further, the input device 906 may include, for example, an input control circuit that generates an input signal based on the information input by using the above input means and outputs the input signal to the CPU 901. By operating the input device 906, the administrator of the signal processing device 900 can input various data to the signal processing device 900 and instruct the processing operation.
  • the input device 906 may be formed by a device that detects the position of the user.
  • the input device 906 includes an image sensor (for example, a camera), a depth sensor (for example, a stereo camera), an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a sound sensor, and a distance measuring sensor (for example, ToF (Time of Flygt). ) Sensors), may include various sensors such as force sensors.
  • the input device 906 provides information on the state of the signal processing device 900 itself such as the posture and moving speed of the signal processing device 900, and information on the peripheral space of the signal processing device 900 such as brightness and noise around the signal processing device 900. May be obtained.
  • the input device 906 receives a GNSS signal (for example, a GPS signal from a GPS (Global Positioning System) satellite) from a GNSS (Global Navigation Satellite System) satellite and receives position information including the latitude, longitude and altitude of the device.
  • a GNSS module to be measured may be included.
  • the input device 906 may detect the position by transmission / reception with Wi-Fi (registered trademark), a mobile phone, PHS, a smart phone, or the like, short-range communication, or the like.
  • Wi-Fi registered trademark
  • the input device 906 can realize, for example, the function of the acquisition unit 111 described with reference to FIG. 25.
  • the output device 907 is formed of a device capable of visually or audibly notifying the user of the acquired information.
  • Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, LED projectors and lamps, acoustic output devices such as speakers and headphones, and printer devices. ..
  • the output device 907 outputs, for example, the results obtained by various processes performed by the signal processing device 900.
  • the display device visually displays the results obtained by various processes performed by the signal processing device 900 in various formats such as texts, images, tables, and graphs.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, etc. into an analog signal and outputs it aurally.
  • the output device 907 can realize, for example, the functions of the output unit 113 and the output unit 220 described with reference to FIG. 25.
  • the storage device 908 is a data storage device formed as an example of the storage unit of the signal processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device for recording data on the storage medium, a reading device for reading data from the storage medium, a deleting device for deleting data recorded on the storage medium, and the like.
  • the storage device 908 stores a computer program executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 can realize, for example, the function of the storage unit 120 described with reference to FIG. 25.
  • the drive 909 is a reader / writer for a storage medium, and is built in or externally attached to the signal processing device 900.
  • the drive 909 reads information recorded in a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to the removable storage medium.
  • connection port 910 is a port for connecting an external connection device such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, an optical audio terminal, or the like. ..
  • the communication device 911 is, for example, a communication interface formed by a communication device or the like for connecting to the network 920.
  • the communication device 911 is, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), WUSB (Wireless USB), or the like.
  • the communication device 911 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, or the like.
  • the communication device 911 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the communication device 911 can realize, for example, the functions of the communication unit 100 and the communication unit 200 described with reference to FIG. 25.
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), and a WAN (Wide Area Network).
  • the network 920 may include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).
  • the above is an example of a hardware configuration capable of realizing the functions of the signal processing device 900 according to the embodiment.
  • Each of the above components may be realized by using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to appropriately change the hardware configuration to be used according to the technical level at each time when the embodiment is implemented.
  • the signal processing device 10 performs a process of determining the correction filter coefficient based on the acoustic characteristics in the user's ear separated from the outside world. Further, the signal processing device 10 performs a process of correcting sound data having a phase opposite to that of the environmental sound leaked into the user's ear by using a correction filter. Thereby, the signal processing device 10 can determine the correction filter coefficient for optimization without requiring, for example, an acoustic signal at the eardrum position, which is difficult to mount on the product. Further, the signal processing device 10 can promote the improvement of the NC effect by correcting using the correction filter.
  • each device described in the present specification may be realized as a single device, or a part or all of the devices may be realized as separate devices.
  • the signal processing device 10 and the headphones 20 shown in FIG. 25 may be realized as independent devices.
  • it may be realized as a server device connected to the signal processing device 10 and the headphones 20 by a network or the like.
  • the server device connected by a network or the like may have the function of the control unit 110 of the signal processing device 10.
  • each device described in the present specification may be realized by using any of software, hardware, and a combination of software and hardware.
  • the computer program constituting the software is stored in advance in, for example, a recording medium (non-transitory medium: non-transitory media) provided inside or outside each device. Then, each program is read into RAM at the time of execution by a computer and executed by a processor such as a CPU.
  • An acquisition unit that acquires the acoustic characteristics in the user's ear separated from the outside world, An NC filter unit that generates sound data in phase opposite to the environmental sound leaked into the user's ear.
  • a correction unit that corrects the sound data using a correction filter,
  • a determination unit that determines the filter coefficient of the correction filter based on the acoustic characteristics, and
  • a signal processing device (2) The acquisition unit The signal processing device according to (1) above, which acquires the acoustic characteristics based on the sound collection signal obtained by collecting the measured sound output in the ear.
  • the decision-making part The signal processing device according to (1) or (2) above, wherein the filter coefficient is determined by using a trained model having an acoustic characteristic as an input and a filter coefficient as an output.
  • the decision-making part The signal processing device according to (3) above, wherein the filter coefficient is determined by using the trained model in which the acoustic characteristics estimated at the eardrum position of the user are learned as teacher data.
  • the decision-making part Use a trained model that inputs acoustic characteristics and sound data and outputs whether or not to correct the sound data, and determines the filter coefficient in any one of (1) to (4) above.
  • the decision-making part The filter coefficient is determined using the trained model in which the given information labeled as to whether or not to correct based on the noise suppression rate estimated based on the acoustic characteristics and the sound data is trained as the teacher data.
  • the signal processing device according to (5).
  • the signal processing device according to.
  • the decision-making part The signal processing device according to (7) above, wherein the filter coefficient is determined using the trained model in which the noise suppression rate based on the acoustic characteristics estimated at the eardrum position of the user and the sound data is learned as teacher data.
  • the decision-making part It has been learned that the sound collection signal and sound data collected by a microphone different from the microphone whose acoustic characteristics are measured are input, and the correction filter coefficient that corrects the difference in the filter coefficient based on the environmental sound in the user environment is output.
  • the signal processing apparatus according to any one of (1) to (8), wherein the filter coefficient is determined by using a model.
  • the decision-making part The signal processing according to (9) above, wherein the filter coefficient is determined using the trained model in which the filter coefficient for correcting the difference in the filter coefficient based on the acoustic characteristics estimated at the user's eardrum position is learned as teacher data.
  • Device (11) The decision-making part The signal processing apparatus according to any one of (1) to (10) above, wherein the filter coefficient is determined by using a trained model in which acoustic characteristics and sound data are input and NC effect size is output.
  • (12) The decision-making part The signal processing apparatus according to (11), wherein the filter coefficient is determined by using the trained model in which the effect size based on the acoustic characteristics estimated at the user's eardrum position is learned as teacher data.
  • the decision-making part The filter coefficient is based on a trained model in which the NC effect size and sound data in the environment defined by a predetermined standard and the acoustic characteristics of the environmental sound in the user environment are input, and the NC effect size in the user environment is output.
  • the signal processing apparatus according to any one of (1) to (12) above.
  • the decision-making part The signal processing apparatus according to (13) above, wherein the filter coefficient is determined using the trained model in which the NC effect size based on the sound data, the filter coefficient, and the acoustic characteristics of the environmental sound in the user environment is learned as teacher data. .. (15) It is a signal processing method executed by a computer.
  • the acquisition process to acquire the acoustic characteristics in the user's ear separated from the outside world An NC filter process that generates sound data having a phase opposite to that of the environmental sound leaked into the user's ear.
  • a correction step of correcting the sound data using a correction filter and
  • a determination step of determining the filter coefficient of the correction filter based on the acoustic characteristics and Signal processing methods including.
  • a model manufacturing method for signal processing that manufactures a model for performing noise canceling.
  • An acoustic output device including an output unit that outputs noise-cancelled sound based on a signal provided by the signal processing device, wherein the signal processing device collects sound picked up by a microphone of the sound output device.
  • An acoustic output device characterized in that a filter coefficient for performing optimum noise canceling is determined based on acoustic characteristics based on a sound signal, and a signal generated based on the determined filter coefficient is provided.
  • Signal processing system 10
  • Signal processing device 20 Headphones 30
  • Terminal device 100
  • Communication unit 110
  • Control unit 111
  • Acquisition unit 112
  • Processing unit 1121
  • Decision unit 1122
  • Correction unit 1124
  • Communication unit 1125
  • Judgment unit 113
  • Output unit 200
  • Communication unit 210
  • Control unit 220 Output section

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

更なるユーザビリティの向上を促進する。信号処理装置(10)は、外界から分離されたユーザの耳内の音響特性を取得する取得部(111)と、前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ部(1122)と、前記音データを補正フィルタを用いて補正する補正部(1123)と、前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定部(1121)と、を備える。

Description

信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器
 本開示は、信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器に関する。
 近年、携帯型のオーディオプレイヤの普及に伴い、携帯型のオーディオプレイヤ用の音響出力機器(例えば、ヘッドホンやイヤホン等)を対象として、リスナ(ユーザ)に対して、外部環境のノイズ(騒音)を低減した良好な再生音場空間を提供するノイズ低減システムが普及してきている。
 上記技術に関連して、ノイズキャンセリング(Noise Canceling:NC)フィルタを用いて、ユーザの鼓膜位置において騒音を抑制する技術が普及してきている。
特開2016-015585号公報
 しかしながら、従来の技術では、更なるユーザビリティの向上を促進する余地があった。例えば、従来の技術では、鼓膜位置のNC効果量を最大にするために鼓膜位置の信号を必要とする場合があるが、製品の仕様上、鼓膜位置にマイクを配置することは実現が困難な場合があった。
 そこで、本開示では、更なるユーザビリティの向上を促進することが可能な、新規かつ改良された信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器を提案する。
 本開示によれば、外界から分離されたユーザの耳内の音響特性を取得する取得部と、前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ部と、前記音データを補正フィルタを用いて補正する補正部と、前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定部と、を備える、信号処理装置が提供される。
実施形態に係るNC最適化のための構成例を示す図である。 実施形態に係るNCフィルタ決定に係る機能の概要を示す図である。 実施形態に係るNCフィルタ設計時及び使用時の構成例を示す図である。 実施形態に係る使用時のNC最適化のための機能の概要を示す図である。 実施形態に係る使用時のNC最適化のための機能の概要を示す図である。 実施形態に係るHM特性の一例を示す図である。 実施形態に係るNC効果のシミュレーション結果の一例を示す図である。 実施形態に係るNC効果のシミュレーション結果の一例を示す図である。 実施形態に係るNC効果のシミュレーション結果の一例を示す図である。 実施形態に係るNC効果のシミュレーション結果の一例を示す図である。 実施形態に係る信号処理システムの構成例を示す図である。 実施形態に係るNC最適化のための機能の概要を示す図である。 実施形態に係る第2のDNNの推定結果の一例を示す図である。 実施形態に係る信号処理システムの機能の概要を示す図である。 実施形態に係る信号処理システムの機能の概要を示す図である。 実施形態に係る信号処理システムの処理の流れを示すフローチャートである。 実施形態に係る信号処理システムの処理の流れを示すフローチャートである。 実施形態に係る信号処理システムの処理の流れを示すフローチャートである。 実施形態に係る補正フィルタの記憶及び参照の機能の概要を示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示すフローチャートである。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示す図である。 実施形態に係る補正フィルタの記憶及び参照の処理の流れを示すフローチャートである。 実施形態に係る信号処理システムのブロック図を示す図である。 実施形態に係る記憶部の一例を示す図である。 実施形態に係る信号処理装置における処理の流れを示すフローチャートである。 実施形態に係る補正フィルタのリストを表示する表示画面の一例を示す図である。 実施形態に係る補正フィルタのリストを表示する表示画面の一例を示す図である。 実施形態に係る補正フィルタを更新するための機能の概要を示す図である。 実施形態に係る補正フィルタのゲインを調整する場合の機能の概要を示す図である。 実施形態に係る補正フィルタのゲインを調整する場合の機能の概要を示す図である。 実施形態に係る補正フィルタのゲインを調整する場合の処理の流れを示すフローチャートである。 実施形態に係る信号処理装置のハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の一実施形態
  1.1.はじめに
  1.2.NC個人最適化
  1.3.信号処理システムの構成
 2.信号処理システムの機能
  2.1.第1のDNN
  2.2.第2のDNN
  2.3.第3のDNN
  2.4.補正フィルタの推定処理
  2.5.第4のDNN
  2.6.処理の流れ
  2.7.補正フィルタの記憶と参照
  2.8.第5のDNN
  2.9.第6のDNN
  2.10.機能構成例
  2.11.信号処理システムの処理
  2.12.処理のバリエーション
 3.ハードウェア構成例
 4.まとめ
<<1.本開示の一実施形態>>
 <1.1.はじめに>
 ユーザの頭部の形や耳の大きさ等の身体的な特徴や、眼鏡や帽子の有無等の外部的な要因により、ヘッドホン内等の容積や空気密度は異なり得る。従って、ノイズ低減信号を適用した後の信号による音がユーザの耳に達した時点での信号の特性は、ヘッドホン内等の容積や空気密度に応じて変化し得るので、ユーザに応じて変化し得る。ヘッドホン等の装着状態の違いによっても、ノイズ低減信号を適用した後の信号による音がユーザの耳に達した時点での信号の特性は変化し得る。
 製品に搭載されている標準仕様(デフォルト)のNCフィルタ(以下、適宜、「αデフォルト」とする)は、設計時の標準の頭部や装着状態で定めたものである場合がある。このため、ユーザの使用時のものは、デフォルトと比較して、頭部形状や装着状態に誤差が生じる場合があるため、最適なNC効果が得られない場合がある。このため、更なるユーザビリティの向上を促進する余地があった。
 そこで、本開示では、更なるユーザビリティの向上を促進することが可能な、新規かつ改良された信号処理装置、信号処理方法及び信号処理用モデル製造方法を提案する。
 <1.2.NC個人最適化>
 まず、NC個人最適化について説明する。図1は、NC個人最適化のための構成例を示す図である。マイクMI11は、ヘッドホンHP11の内部に配置されたFF(Feed Forward)NC用のマイク(以下、適宜、「第1マイク」とする)を示す。マイクMI12は、ヘッドホンHP11の内部に配置されたFB(Feed Back)NC用のマイク(以下、適宜、「第2マイク」とする)を示す。マイクMI13は、鼓膜位置に配置されたマイク(以下、適宜、「第3マイク」とする)を示す。音響特性F0は、ノイズ源Nから第1マイクまでの音響特性(空間音響特性)を示す。音響特性F1は、第1マイクから第3マイクまでの音響特性を示す。なお、音響特性F1は、ヘッドホンHP11の内部の空間を介さない漏れ込み特性である。デバイス特性H1は、ヘッドホンHP11のドライバ(スピーカ)から第3マイクまでの音響特性を示す。デバイス特性H2は、ヘッドホンHP11のドライバから第2マイクまでの音響特性を示す。マイク特性M1は、第1マイクのマイク特性を示す。マイク特性M2は、第2マイクのマイク特性を示す。マイク特性M3は、第3マイクのマイク特性を示す。
 続いて、NC個人最適化のための機能の概要について説明する。図2では、設計時の標準の頭部や装着状態において、NC効果量が最大になるNCフィルタを決定する。このNCフィルタが、製品に搭載されるαデフォルトである。図2では、設計時のデバイス特性H1と、音響特性F1とに基づいて、αデフォルトを決定する。下記式(1)は、αデフォルトを決定するための算出式を示す。
Figure JPOXMLDOC01-appb-M000001
 (式中、F1デフォルトは、設計時の音響特性F1を示す。H1デフォルトは、設計時のデバイス特性H1を示す。)
 デバイス特性H1及び音響特性F1はユーザ間で異なり得る。このため、デバイス特性H1に着目し、上記式(1)に含まれるH1デフォルトM1(以下、適宜、「H1M1特性」とする)をユーザ間で補正することで、個人最適化を行うこともできる。しかしながら、この場合には、鼓膜付近にマイクを配置する必要があるため、ユーザの使用環境下でデバイス特性H1を測定することは難しい。そこで本実施形態では、例えば、デバイス特性H2に着目して、デバイス特性H1とデバイス特性H2との類似度に基づいて、デバイス特性H1を推定する。
 図3(A)及び図3(B)は、設計時及び使用時の構成例を示す図である。デバイス特性H2デフォルトは、設計時のデバイス特性H2を示す。デバイス特性H2ユーザは、個人最適化を実行した際のデバイス特性H2を示す。
 続いて、図4及び図5を用いて、使用時のNC個人最適化のための機能の概要について説明する。なお、図2と同様の説明は適宜省略する。また、図2では、デバイス特性H1としてデバイス特性H1デフォルトを用いる場合を示したが、図4及び図5では、デバイス特性H1ユーザを用いる。図4において、製品のNCフィルタには、標準のαデフォルトが用いられている。しかしながら、ユーザの装着状態等に基づくデバイス特性H1ユーザによって、音響特性が変化し得る。そこで、図5では、図4で変化し得る音響特性を補正する。図5では、例えば、デバイス特性H2ユーザに着目し、デバイス特性H2ユーザとデバイス特性H2デフォルトとの差分を打ち消す補正フィルタを用いて補正を行う。なお、図5では、説明の便宜上、デバイス特性H1ユーザの適用直後に補正を行う場合を示したが、αデフォルトの適用前後で補正を行ってもよいし、αデフォルト自身を補正してもよい。また、実際の製品では、悪影響が生じないように、約100Hz以下に帯域を絞って補正を行う場合が多くなり得る。
 続いて、図6を用いて、上記式(1)に含まれるHM特性について説明する。図6(A)は、鼓膜位置に配置されたマイクで測定したH1M特性を示す。図6(B)は、FBNC用のマイクで測定したH2M特性を示す。図6(A)及び図6(B)のそれぞれは、装着状態を変えながら約440回測定したHM特性のデータを含む。なお、図6(A)及び図6(B)に示すデータは、全てダミーヘッドを用いて測定されたデータであるため、頭部の形状による差分はないものとする。また、横軸は周波数(Hz)であり、縦軸は音圧(dB)である。
 ここで、図6(A)に示すH1M特性のデータは、上述したように、ユーザの使用環境下で測定することが困難である。仮に、H1M特性が測定可能であれば、推定ではなく計算によって最適な補正フィルタ係数αが決定可能となる。また、補正フィルタ係数αは、H1M特性に基づいて決定されるものであり、H2M特性に基づいて決定することができない値である。そこで、上述したように、デバイス特性H2ユーザに着目し、デバイス特性H2ユーザに基づく差分を打ち消すようにαデフォルトを補正する。ただし、図6(A)及び図6(B)に示すように、約200Hz以上において、H1M特性とH2M特性とではHM特性が大きく異なり得る。このHM特性が大きく異なる要因の一例には、ユーザの外耳道の形、耳毛、室内の温度や湿度等が挙げられるが、これら以外にも様々な要因があり得る。このため、H1M特性とH2M特性とが近い傾向を示す帯域(例えば、約100Hz)に絞って補正を行うことが望まれた。具体的には、近い傾向の帯域においては、H2M特性を代用することで、適切な補正が可能となり得た。しかしながら、ユーザ間の頭部の個人差や装着状態によっては類似性を担保できないため、適切に補正できない場合があった。
 続いて、図7を用いて、NC効果のシミュレーションを説明する。図7Aは、鼓膜位置に配置されたマイクで測定されるシミュレーション結果の一例を示す。図7Aには、5つのグラフが含まれる。このうち、グラフLA1は、ユーザがヘッドホン等を装着していない曝露な状態のシミュレーション結果を示す。グラフLA2は、ユーザがヘッドホン等を装着してNCを行わない場合のシミュレーション結果を示す。グラフLA3は、αデフォルトでNCを行った場合のシミュレーション結果を示す。グラフLA4は、NC効果量が最大になる最適なNCフィルタでNCを行った場合のシミュレーション結果を示す。グラフLA5は、機械学習により推定された補正フィルタで補正したNCフィルタ(補正済フィルタ)でNCを行った場合のシミュレーション結果を示す。なお、縦軸及び横軸の指標は、図6と同様である。
 ここで、図7Aでは、縦軸の音圧が低いほど、NC効果が高い。なお、ここでのNC効果には、遮音による効果も含まれるものとする。また、グラフLA3とグラフLA4とを比較すると、差分の大きい帯域では、約15dBほど異なる場合があることが分かる。グラフLA3乃至グラフLA5は、製品に搭載されているαデフォルトに補正フィルタを適用することによって、最適なNCフィルタに近づけることができることを示す。グラフLA5がグラフLA4に近づくほど、機械学習により推定された補正フィルタで補正したNCフィルタが、最適なNCフィルタに近い特性を有するようになるため、NC効果が改善されることを示す。また、図7Bは、図7AのグラフLA3乃至グラフLA5に対応するNCフィルタの周波数特性(ゲイン)を示す。
 図8は、図7で対象となったユーザが、ヘッドホン等を脱着することにより、装着状態が変化した際のシミュレーション結果の一例を示す。なお、図8に含まれるグラフは、図7と同様であるため、説明を省略する。図7及び図8を比較することによって、装着状態の誤差がNC効果及びNCフィルタの特性に大きく影響を与えることが分かる。例えば、200Hz以下では、グラフLA4とグラフLA5との差分が図7よりも図8のほうが大きく異なる。例えば、グラフLA3は、図7では350Hz付近から急激に減少するのに対して図8では200Hz付近から緩やかに減少する。
 以下、実施形態では、DNN(Deep Neural Network)等の機械学習を用いて補正フィルタを推定する場合を説明する。DNN等の機械学習を用いることで、帯域の制限なく、ユーザの頭部の形状や装着状態や外部環境音等に応じた補正フィルタを適切に推定することができる。これにより、信号処理装置10は、より広い帯域で、より自由度高くNCの最適化を実現することができる。なお、実施形態に登場するDNNは、人工知能の一例である。
 以下、実施形態では、FBNC用のマイクで測定したH2M特性を入力とし、FFNC用のマイクで測定した測定データを基に生成されたノイズキャンセリング信号を最適に補正するための補正フィルタの係数(補正フィルタ係数)を出力するDNN(以下、適宜、「補正フィルタ係数推定DNN」又は「第1のDNN」とする)を説明する。なお、第1のDNNは、ノイズキャンセリング信号の補正に限らず、FFNC用のマイクで測定した測定データを基にノイズキャンセリング信号を生成するフィルタを最適に補正するための補正フィルタ係数を出力してもよい。また、以下、最適化を実行した際のNC効果量が十分である場合、若しくは、漏れ込みが大きいため補正をしてもNC効果量が十分でない場合において、補正の要/不要を判定するDNN(以下、適宜、「補正判定DNN」又は「第2のDNN」とする)を説明する。
 以下、実施形態に係る補正フィルタは、例えば、インパルス応答が有限であるFIR(Finite Impulse Response)であってもよい。
 以下、実施形態に係る補正済フィルタは、例えば、αデフォルトに対して、使用時等の対象となる時点での補正フィルタを適用したものであってもよい。
 以下、実施形態では、JEITA規格で設定された環境におけるNC効果量を推定する場合を示すが、JEITAに限らず、他の規格で設定された環境におけるNC効果量を推定してもよい。信号処理装置10は、NC効果量を推定することで最適化の効果を推定することができるため、最適化を実行するか否かを判定することができる。
 以下、実施形態では、音響出力機器の一例として、ヘッドホン20を用いて説明する。
 <1.3.信号処理システムの構成>
 実施形態に係る信号処理システム1の構成について説明する。図9は、信号処理システム1の構成例を示す図である。図9に示したように、信号処理システム1は、信号処理装置10及びヘッドホン20を備える。信号処理装置10には、多様な装置が接続され得る。例えば、信号処理装置10には、ヘッドホン20が接続され、各装置間で情報の連携が行われる。信号処理装置10及びヘッドホン20は、相互に情報・データ通信を行い連携して動作することが可能なように、無線または有線通信により、情報通信ネットワークに接続される。情報通信ネットワークは、インターネット、ホームネットワーク、IoT(Internet of Things)ネットワーク、P2P(Peer-to-Peer)ネットワーク、近接通信メッシュネットワークなどによって構成されうる。無線は、例えば、Wi-FiやBluetooth(登録商標)、または4Gや5Gといった移動通信規格に基づく技術を利用することができる。有線は、Ethernet(登録商標)またはPLC(Power Line Communications)などの電力線通信技術を利用することができる。
 信号処理装置10及びヘッドホン20は、いわゆるオンプレミス(On-Premise)上、エッジサーバ、またはクラウド上に複数のコンピュータハードウェア装置として、各々別々に提供されても良いし、信号処理装置10及びヘッドホン20のうちの任意の複数の装置の機能を同一の装置として提供してもよい。例えば、信号処理装置10及びヘッドホン20は、信号処理装置10とヘッドホン20とが一体となって機能するとともに、外部の情報処理装置と通信する装置であってもよい。さらに、ユーザは図示されない端末装置(情報表示装置としてのディスプレイや音声及びキーボード入力を含むPC(Personal computer)またはスマートホン等のパーソナルデバイス)上で動作するユーザインタフェース(Graphical User Interface:GUI含む)やソフトウェア(コンピュータ・プログラム(以下、プログラムとも称する)により構成される)を介して、信号処理装置10及びヘッドホン20と相互に情報・データ通信が可能なようにされている。
 (1)信号処理装置10
 信号処理装置10は、ユーザ個人に最適なNCを行うための補正フィルタの係数(フィルタ係数)を決定する処理を行う情報処理装置である。具体的には、信号処理装置10は、外界から分離されたユーザの耳内の音響特性を取得する。そして、信号処理装置10は、ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成し、補正フィルタを用いて補正する。また、信号処理装置10は、補正フィルタ係数を音響特性に基づいて決定する。これにより、信号処理装置10は、鼓膜位置の信号を必要とすることなく最適化用の補正フィルタ係数を推定することができる。また、信号処理装置10は、設計者の経験や匙加減に頼ることなく最適化のための処理を実現することができる。これにより、信号処理装置10は、更なるユーザビリティの向上を促進する余地があった。
 また、信号処理装置10は、信号処理システム1の動作全般を制御する機能も有する。例えば、信号処理装置10は、各装置間で連携される情報に基づき、信号処理システム1の動作全般を制御する。具体的には、信号処理装置10は、ヘッドホン20から受信する情報に基づき、最適化のための補正フィルタ係数を決定する。
 信号処理装置10は、PC(Personal Computer)、サーバ(Server)等により実現される。なお、信号処理装置10は、PC、サーバ等に限定されない。例えば、信号処理装置10は、信号処理装置10としての機能をアプリケーションとして実装したPC、サーバ等のコンピュータハードウェア装置であってもよい。
 (2)ヘッドホン20
 ヘッドホン20は、音を聞くためにユーザが利用するヘッドホンである。ヘッドホン20は、ドライバ及びマイクを有し、ユーザの鼓膜を含む空間と外界とを分離可能な音響出力機器であれば、ヘッドホンに限らず、どのようなものであってもよい。例えば、ヘッドホン20は、イヤホンであってもよい。
 ヘッドホン20は、例えば、ドライバから出力された測定音をマイクで収音する。
<<2.信号処理システムの機能>>
 以上、信号処理システム1の構成について説明した。続いて、信号処理システム1の機能について説明する。なお、信号処理システム1の機能には、ユーザ個人に最適なNCを行うための、αデフォルトを補正する補正フィルタ係数を推定する機能と、ユーザ個人に最適なNCの補正を行うか否かを判定する機能とが含まれる。
 図10は、ユーザ個人に最適なNCを行うための機能の概要を示す図である。信号処理システム1は、第2マイクで収音された信号に基づいて音響特性(H2ユーザM2特性)を測定する。そして、信号処理システム1は、測定された音響特性に基づいて、補正フィルタ係数を推定する第1のDNNを用いて、補正フィルタ係数を推定する。また、信号処理システム1は、測定されたH2ユーザM2特性に基づいて、αデフォルトのNC効果を推定し、補正効果が十分見込めるか否かを判定する第2のDNNを用いて、補正効果が十分見込める場合に補正フィルタを適用する。以下、第1のDNN及び第2のDNNについて説明する。
 <2.1.第1のDNN>
 第1のDNNでは、第2マイクで収音された信号に基づくH2ユーザM2特性を入力とし、補正フィルタ係数を出力とする。第1のDNNでは、最適化手法の一例として、Adamによる最適化を行う。第1のDNNでは、H1ユーザM3に基づく補正フィルタ係数を教師データとする。ここで、第1のDNNでは、例えば、勾配法を用いて、NCのシミュレーション結果が最小を満たす補正フィルタ係数を教師データとしてもよい。第1のDNNでは、この補正フィルタ係数を出力、H2ユーザM2特性を入力として教師データとする。第1のDNNでは、ロス関数(損失関数)を用いて、教師データ及び推定データの双方にFFT(Fast Fourier Transform)を用いて周波数特性に変換した後、共通のローパスフィルタを用いて各帯域の差分の絶対値の総和から平均(平均値)を算出してもよい。
 <2.2.第2のDNN>
 第2のDNNでは、第2マイクで収音された信号に基づく音響特性(例えば、インパルス応答の時間信号及びFFTした周波数信号)及び補正済フィルタ係数を入力とし、補正するか否かを出力とする。第2のDNNでは、最適化手法の一例として、Adamによる最適化を行う。第2のDNNでは、クロスエントロピに基づくロス関数を用いる。第2のDNNでは、H2ユーザM2特性と、マイク特性M1と、マイク特性M3と、補正済フィルタ係数とでNCのシミュレーションを行う。そして、第2のDNNでは、シミュレーション結果として得られる補正効果であるNC効果量が、所定の閾値以上か否かに基づいて、補正を行うか否かをラベル付したものを教師データとする。ここで、NC効果量とは、ヘッドホン20を装着していない曝露な状態と、NCを有効にした状態とにおいて、所定のノイズ音源及びノイズ環境で鼓膜位置の音圧を比較したときの抑制量である。例えば、信号処理システム1は、ヘッドホン20を装着していない曝露な状態と、NCを有効にした状態とのそれぞれに対して1/3オクターブバンド解析を行い、各帯域の抑制量や騒音抑制率をNC効果量として処理を行ってもよい。
 図11は、NC効果量に騒音抑制率を用いた場合の第2のDNNの推定結果を示す。具体的には、H2M2特性を入力として、補正フィルタ係数αの騒音抑制率を推定した推定結果を示す。ここで、騒音抑制率が所定の閾値以上の場合に補正しないとする場合には、図11に示すように、4つの象限に分割され得る。なお、図11では、所定の閾値は0.7である。ここで、横軸は正解データであり、縦軸は推定データである。なお、信号処理システム1は、補正済フィルタ係数の入力に応じて、第2のDNNを学習する。
 続いて、騒音抑制率に基づく最適化について説明する。ここで、信号処理システム1の機能には、NCフィルタを補正することにより騒音が抑制されるか否かの推定を行う機能が含まれる。信号処理システム1は、騒音抑制率を出力するDNN(以下、適宜、「騒音抑制率推定DNN」又は「第3のDNN」とする)を用いて、騒音が抑制されるか否かの推定を行う。以下、第3のDNNについて説明する。
 <2.3.第3のDNN>
 第3のDNNでは、H2ユーザM2特性、H2M2特性、及びαデフォルトを入力とし、騒音抑制率を出力とする。第3のDNNでは、最適化手法の一例として、Adamによる最適化を行う。第3のDNNでは、二乗平均誤差に基づくロス関数を用いる。
 <2.4.補正フィルタの推定処理>
 図12は、実施形態に係る信号処理システムの機能の概要を示す図である。図12では、第1のDNNと第2のDNNとが一体に機能する場合を示す。図12では、一体となった第1のDNNと第2のDNNとをまとめて「DNN」と表記している。図12に示すDNNでは、H2ユーザM2特性及び補正済フィルタを入力とし、補正フィルタ係数及び補正するか否かを出力とする。また、図12に示すDNNでは、補正済フィルタを最終的な出力としてもよい。なお、図12では、第1のDNNと第2のDNNとが一体となるように2つのDNNが全結合層で結合されるように構成される場合を示したが、第1のDNNと第2のDNNとが別々に配置されるように構成されてもよいものとする。
 続いて、周囲の環境音を測定し、環境音の音響特性に基づく差分を補正する補正フィルタを推定する場合について説明する。ここで、上述してきたような、ユーザの装着状態の誤差を補正する補正フィルタを、適宜、「装着誤差補正フィルタ」又は「第1の補正フィルタ」とする。また、環境音の音響特性に基づく差分を補正する補正フィルタを、適宜、「環境音差分補正フィルタ」又は「第2の補正フィルタ」とする。ここで、第1の補正フィルタを推定する場合には、ある程度静かな環境でなければ測定音が騒音に埋もれてしまう可能性がある。第2の補正フィルタを推定する場合には、ある程度大きな騒音があるほうが環境音の特徴を測定し易く望ましい場合がある。そのため、信号処理システム1は、環境音の騒音レベルに応じて、第1の補正フィルタと第2の補正フィルタとのどちらの補正フィルタを推定するかを判定する。
 図13は、図12の処理に加えて、第1の補正フィルタ及び第2の補正フィルタを用いた処理の概要を示す図である。なお、第1の補正フィルタを推定する際には、図12と同様の入出力情報等に基づいて処理を行う。ここで、信号処理システム1の機能には、周囲の環境音に基づいて補正フィルタ係数を推定する機能が含まれる。信号処理システム1は、第2の補正フィルタ係数を出力するDNN(以下、適宜、「環境音差分補正フィルタ係数推定DNN」又は「第4のDNN」とする)を用いて、補正済フィルタを推定する。以下、第4のDNNが第2の補正フィルタを推定する処理について説明する。
 <2.5.第4のDNN>
 第4のDNNでは、第1マイクで収音された信号及び対象となる時点での補正済フィルタを入力とし、第2の補正フィルタ係数を出力とする。第4のDNNでは、最適化手法の一例として、Adamによる最適化を行う。第4のDNNでは、H1M3及び音響特性F1ユーザを用いて、様々な環境音で周囲の音場を測定する。この場合、信号処理システム1は、第1マイクで収音された信号と、第3マイクで収音された信号とに基づいて、最適なフィルタ係数を推定する。そして、信号処理システム1は、例えば、勾配法を用いて、αデフォルトと、最適なフィルタ係数との差分を補正する補正フィルタ係数を推定する。そして、信号処理システム1は、第1マイクで収音された信号を入力とし、推定された補正フィルタ係数とを出力とした教師データを生成する。第4のDNNでは、ロス関数を用いて、教師データ及び推定データの双方に周波数帯域ごとの重み付をした後、各帯域の振幅及び位相距離の総和から平均を算出してもよい。ここで、周波数帯域ごとの重み付けとは、例えば、ローパスフィルタでNC効果が期待できない高域の除外や、ハイパスフィルタで周波数分解能の低い低域の除外に基づく重み付けである。
 <2.6.処理の流れ>
 図14は、図13に係る処理の流れを示すフローチャートである。信号処理システム1は、最適化の機能実行時の周囲の環境音の大きさによって、第1の補正フィルタに基づく補正を行うか、第2の補正フィルタに基づく補正を行うかを決定する。なお、信号処理装置10に係る処理の流れについての詳細は後述する。
 図15は、図14の処理に加えて、環境音に基づく判定後、第2の補正フィルタに基づく補正を行うか否かの判定を行う処理の流れを示すフローチャートである。信号処理システム1は、推定された第2の補正フィルタ係数の大きさによって、第2の補正フィルタに基づく補正を行うかを決定する。
 図16は、図15の変形例である。図16は、現補正済NC効果推定結果と、新補正済NC効果推定結果とを比較して補正をするか否かの判定を行う処理の流れを示すフローチャートである。図16では、図14及び図15に示すような閾値の比較に基づいて補正を行うか否かを判定しなくてもよい。
 <2.7.補正フィルタの記憶と参照>
 図17は、信号処理システム1が、補正フィルタ係数を記憶(保存)し、最適化の機能実行時に補正フィルタ係数の履歴に基づいて処理を行う場合の機能の概要を示す。近年、プリセットのNCフィルタであるαデフォルトが複数搭載された製品も普及してきている。図17では、一つのαデフォルトに基づいて最適化の処理を行う場合を示したが、複数のαデフォルトに基づいて処理を行ってもよい。ここで、図17のDNN1は、第1のDNNである。図17のDNN2は、所定のフィルタ係数を有するNCフィルタを用いた場合のNC効果を推定するDNN(以下、適宜、「NC効果推定DNN」又は「第5のDNN」とする)である。図17のDNN3は、所定の規格で設定された環境におけるNC効果を推定するDNN(以下、適宜、「NC効果ユーザ環境推定DNN」又は「第6のDNN」とする)である。なお、第5のDNN及び第6のDNNについての詳細は後述する。また、図17のNC効果JEITAは、JEITA規格のノイズ環境におけるNC効果量である。なお、JEITA規格のノイズ環境におけるNC効果量に騒音抑制率を用いる場合もあり得るが、騒音抑制率の場合は出力が一つの数値となり、DNN3の入力に足り得ないため、ここではNC効果量に騒音抑制率は用いないものとする。
 続いて、図18乃至図24を用いて、補正フィルタの記憶や参照の処理の流れについて説明する。図18乃至図24では、信号処理装置10により記憶されるメモリ(例えば、記憶部120)の一例を用いて説明する。図18乃至図24では、各帯域のNC効果量に基づいて重み付けをして平均化する等の所定の処理を行うことによって指標として一つの数値が算出される。なお、所定の処理は、NC効果量の指標として数値を算出する処理であれば、各帯域のNC効果量に基づいて重み付けをして平均化する処理に限らず、どのようなものであってもよい。この数値は、0から1までの間で算出される。また、数値が大きいほど、NCの性能が高いものとして説明する。まず、メモリに記憶された第1の補正フィルタを更新する場合の処理について説明する。図18は、最適化の処理を実行していない場合を示す。
 図18Aは、補正フィルタのメモリに何も記憶されていない状態を示す。例えば、購入時等の初期時である。ここで、第1の補正フィルタを用いた状態を、以下、適宜、「N.標準」とする。また、ヘッドホン20を装着して最適化を実行していない状態を、以下、適宜、「O.不明」とする。
 図18Bは、ユーザが眼鏡等何も装着せずに、ヘッドホン20の装着状態に影響しない状態で、電車で移動中にヘッドホン20を使用した際のNC効果量を記憶した状態を示す。ここで、電車で移動中の状態を、以下、適宜、「B.電車」とする。なお、最適化の処理が実行されていないため、装着状態は、「O.不明」である。ここでは、「O.不明」の状態での「B.電車」に「0.55」のNC効果量が記憶される。信号処理装置10は、「O.不明」の状態での、「B.電車」でのNC効果量の実測値を記憶する。信号処理装置10は、「B.電車」の環境音を記憶する。なお、説明の便宜上、「B.電車」のラベルを用いて説明したが、ヘッドホン20は、その際の使用環境が「B.電車」であることを認識する必要はないものとする。
 図18Cは、ユーザが「B.電車」の後、バスで移動中にヘッドホン20を使用した際のNC効果量を記憶した状態を示す。ここで、バスで移動中の状態を、以下、適宜、「C.バス」とする。ここで、「C.バス」でのNC効果量が、「B.電車」でのNC効果量よりも大きいものとする。ここでは、「O.不明」の状態での「C.バス」に「0.60」のNC効果量が記憶される。図18Cでは、信号処理装置10は、「O.不明」の状態での、「C.バス」でのNC効果量の実測値を記憶する。信号処理装置10は、「C.バス」の環境音を記憶する。
 続いて、図19は、ユーザが最適化の機能に気づき、ヘッドホン20を外さずに、静かな環境で実行する場合を示す。ここで、ユーザが眼鏡等何も装着せずに最適化の機能を実行する状態を、以下、適宜、「P.(装着)なし」とする。信号処理装置10は、「P.なし」の状態での実行時の装着における空間特性が「N.標準」の状態と異なると判断し、補正フィルタ(p)を第1の補正フィルタとして推定する。また、信号処理装置10は、補正フィルタ(p)を適用した場合と適用しない場合とのそれぞれのNC効果量を推定する。ここでは、補正フィルタ(p)を適用する場合のNC効果量として、「P.なし」の状態での「C.バス」に「0.70」のNC効果量が記憶される。信号処理装置10は、「P.なし」の状態での、「C.バス」でのNC効果量の推定値を記憶する。なお、補正フィルタ(p)を適用しない場合には、「O.不明」に実測値が記憶されているため、NC効果量にはこの実測値が用いられる。また、「P.なし」の状態での「A.JEITA」に「0.74」のNC効果量が記憶される。信号処理装置10は、「P.なし」の状態での、「A.JEITA」でのNC効果量の推定値を記憶する。
 信号処理装置10は、「C.バス」での「O.不明」と「P.なし」との2つのNC効果量を比較して、第1の補正フィルタを更新する(S21)。ここでは、信号処理装置10は、「O.不明」の「0.60」のNC効果量と、「P.なし」の「0.70」のNC効果量とを比較して、「P.なし」のNC効果量のほうが大きいため、第1の補正フィルタを補正フィルタ(p)に更新する。続いて、信号処理装置10は、更新済みの第1の補正フィルタを用いて、ヘッドホン20を装着したまま「C.バス」で使用した際のNC効果量を記憶する(S22)。ここでは、「P.なし」の状態での「C.バス」に「0.68」のNC効果量が記憶される。続いて、信号処理装置10は、ヘッドホン20を装着したまま「B.電車」で使用した際のNC効果量を測定し、「C.バス」で使用した際のNC効果量と比較する(S23)。信号処理装置10は、「B.電車」でのNC効果量のほうが大きいため、NC効果量を上書きする。信号処理装置10は、最大となるNC効果量の記憶時の環境音の条件が「C.バス」から「B.電車」へ変化したため、「C.バス」の記憶を削除(消去)する。
 その後(例えば、後日)、信号処理装置10は、ユーザが最適化の機能を実行することなく眼鏡を装着したまま「B.電車」及び「C.バス」で使用した際のNC効果量を記憶する(S24)。ここでは、「O.不明」の状態での「B.電車」に「0.64」のNC効果量が記憶される。続いて、ユーザはヘッドホン20を外さずに最適化の機能を静かな環境で実行したものとする。ここで、眼鏡を装着したまま最適化を行う状態を、以下、適宜、「Q.眼鏡」とする。信号処理装置10は、「Q.眼鏡」の状態での実行時の装着における特性が「N.標準」及び「P.なし」と異なると判断し、補正フィルタ(q)を第1の補正フィルタとして推定する(S25)。また、信号処理装置10は、「Q.眼鏡」の状態での「A.JEITA」と「B.電車」とのそれぞれの効果量を推定する。ここでは、「Q.眼鏡」の状態での「A.JEITA」に「0.70」のNC効果量が記憶され、「B.電車」に「0.71」のNC効果量が記憶される。ここで、「O.不明」に実測値が記憶されているため、「Q.眼鏡」の状態での「B.電車」のNC効果量には、この実測値が用いられる。なお、「O.不明」に実測値が記憶されていない場合には、「Q.眼鏡」の状態での「A.JEITA」のNC効果量を「B.電車」の環境音と合せて入力として推定する。そして、信号処理装置10は、「B.電車」での「O.不明」と「Q.眼鏡」との2つのNC効果量を比較して、第1の補正フィルタを更新する(S26)。ここでは、信号処理装置10は、「O.不明」の「0.64」のNC効果量と、「Q.眼鏡」の「0.71」のNC効果量とを比較して、比較の結果、「Q.眼鏡」のNC効果量のほうが大きいため、第1の補正フィルタを補正フィルタ(q)に更新する。
 図20は、図18及び図19に係る処理の流れを示すフローチャートである。
 信号処理装置10は、H2ユーザM2特性の近傍を判定するために、メモリ内のリストを検索する順番を記憶順やアドレス順ではなく、NC効果量の順や、H2ユーザM2特性の近傍と判定された回数の順に補正フィルタを並び替えてもよい。これにより、信号処理装置10は、より確実性の高い補正フィルタを選択することができる。ここで、ユーザによっては最適化の機能を実行する頻度が低い場合がある。最適化の機能を実行しない間に、ヘッドホン20が複数回使用される可能性がある。このことから、信号処理装置10は、「O.不明」の状態でのNC効果量を記憶しておき、近傍の特性の検索に用いてもよい。信号処理装置10は、例えば、各補正フィルタの(1)「対象となる装着状態におけるNC効果量の平均値」、(2)「装着状態が不明の場合におけるNC効果量の平均値」、(3)「対象となる装着状態において、補正フィルタが選択された際にヘッドホン20を使用した回数」、及び(4)「装着状態が不明の場合において、補正フィルタが選択された際にヘッドホン20を使用した回数」等を記憶することで、近傍の特性の検索に用いてもよい。
 信号処理装置10は、上記(3)の回数がユーザの装着状態のばらつきに依存する可能性が高いため、近傍の特性を検索する場合にはこの回数の多い順に処理を行ってもよい。ここで、上記(3)の回数が多い補正フィルタは、ユーザが複数回の脱着を繰り返しても同じ装着状態になる傾向があるため信頼性が高くなり得る。信号処理装置10は、仮に同じ回数の補正フィルタが含まれる場合には、上記(1)のNC効果量の順に検索してもよい。また、信号処理装置10は、上記(1)において、仮に同じNC効果量の補正フィルタが含まれる場合には、上記(4)の回数の順に検索してもよい。そして、信号処理装置10は、上記(2)のNC効果量の順に検索してもよい。なお、この検索順は一例であり、この検索順に限られないものとする。
 続いて、図21乃至図24を用いて、第2の補正フィルタを記憶したメモリの更新の処理について説明する。なお、図18乃至図20と同様の説明は適宜省略する。
 図21Aは、初期時の第2の補正フィルタのメモリを示す。ここで、初期時の第2の補正フィルタのメモリの状態を、以下、適宜、「A.JEITA(スルー)」とし、その際の環境音を、以下、適宜、「A.JEITA」とする。また、初期時以降の第2の補正フィルタのメモリの状態を、以下、適宜、「n.標準」とし、その際の装着情報を、以下、適宜、「N.標準」とする。また、補正フィルタは、「a」と「n」の組み合わせで表記される。図21Aでは、信号処理装置10は、初期時の第2の補正フィルタのメモリにアクセスする。
 図21Bは、ユーザが何も装着しない状態で、最適化の機能を実行せずに、「B.電車」で使用した際のNC効果量を記憶した状態を示す。ここでは、「O.不明」の状態での「NCフィルタ(a-n)B.電車」に「0.62」のNC効果量が記憶される。図21Bでは、信号処理装置10は、「O.不明」の状態での、「NCフィルタ(a-n)B.電車」でのNC効果量の実測値を記憶する。信号処理装置10は、「B.電車」の環境音を記憶する。
 図21Cは、ユーザが「B.電車」で最適化の機能を実行した際のNC効果量を記憶した状態を示す。図21Cでは、信号処理装置10は、第2の補正フィルタとNC効果量とを推定する。ここでは、「O.不明」の状態での「NCフィルタ(b-n)B.電車」に「0.72」のNC効果量が記憶される。信号処理装置10は、「O.不明」の状態での、「NCフィルタ(b-n)B.電車」でのNC効果量の推定値を記憶する。そして、図22に続く。
 図22Aでは、信号処理装置10は、「O.不明」の状態での「NCフィルタ(a-n)B.電車」の実測値と、「NCフィルタ(b-n)B.電車」の推定値とを比較する。具体的には、信号処理装置10は、「O.不明」の状態での「NCフィルタ(a-n)B.電車」の実測値である「0.62」のNC効果量と、「NCフィルタ(b-n)B.電車」の推定値である「0.71」のNC効果量とを比較する。信号処理装置10は、新たに推定した「NCフィルタ(b-n)B.電車」の推定値のほうが大きいため、この補正フィルタのほうがNCの性能が高いとして、第2の補正フィルタを更新する。図22Aは、ユーザがヘッドホン20を外さずに「NCフィルタ(b-n)B.電車」の実測値を記憶した状態を示す。
 図22Bは、ユーザがヘッドホン20を外すことなく、「C.バス」で使用した際に、環境音が変化した際のNC効果量を記憶した状態を示す。ここでは、「O.不明」の状態での「NCフィルタ(b-n)C.バス」に「0.66」のNC効果量が記憶される。図22Bでは、信号処理装置10は、「O.不明」の状態での、「C.バス」でのNC効果量の推定値を記憶する。
 図22Cは、その後(例えば、後日)、ユーザが眼鏡等何も装着していない状態で、静かな環境で最適化を実行した際(「P.なし」の状態)のNC効果量を記憶した状態を示す。この場合、信号処理装置10は、ヘッドホン20の脱着が生じているものと仮定して、「O.不明」の状態に対応する値を全てクリアする。信号処理装置10は、「P.なし」の状態が、メモリ内に含まれる「N.標準」の状態とは異なる特性であると判断し、「P.なし」に対応する補正フィルタ(p)を推定する。また、信号処理装置10は、「P.なし」の状態での「NCフィルタ(a-p)A.JEITA」と、「NCフィルタ(a-n)A.JEITA」とのNC効果量を推定する。ここでは、「P.なし」の状態での「NCフィルタ(a-p)A.JEITA」に「0.77」のNC効果量が記憶され、「NCフィルタ(a-n)A.JEITA」に「0.68」のNC効果量が記憶される。そして、信号処理装置10は、推定結果に基づいて、推定した「NCフィルタ(a-p)A.JEITA」の推定値のほうが大きいため、第2の補正フィルタを補正フィルタ(p)に更新する。そして、図23に続く。
 図23Aは、ユーザがヘッドホン20を外すことなく、「B.電車」及び「C.バス」で使用した際のNC効果量を記憶した状態を示す。図23Aでは、信号処理装置10は、「P.なし」の状態での、「B.電車」及び「C.バス」でのNC効果量の推定値を記憶する。ここでは、「P.なし」の状態での「B.電車」に「0.78」のNC効果量が記憶され、「C.バス」に「0.70」のNC効果量が記憶される。
 図23Bは、その後(例えば、後日)、ユーザが眼鏡を装着した状態で、装着後に最適化の機能を実行せずに、「C.バス」及び「D.飛行機」で使用した際のNC効果量を記憶した状態を示す。ここでは、ユーザが眼鏡を装着後に最適化の機能を実行していないので、「O.不明」に記憶される。図23(B)では、信号処理装置10は、「O.不明」の状態での、「C.バス」及び「D.飛行機」でのNC効果量の実測値を記憶する。ここでは、「O.不明」の状態での「C.バス」に「0.58」のNC効果量が記憶され、「D.飛行機」に「0.62」のNC効果量が記憶される。
 図23Cは、ユーザがヘッドホン20を装着したまま、周囲が静かになったときに最適化の機能を実行した際のNC効果量を記憶した状態を示す。信号処理装置10は、「Q.眼鏡」の状態が、「N.標準」及び「P.なし」の状態とは異なる特性であると判断し、「Q.眼鏡」に対応する補正フィルタ(q)を推定する。また、信号処理装置10は、「Q.眼鏡」の状態での「NCフィルタ(a-p)A.JEITA」と、「NCフィルタ(b-p)B.電車」と、「NCフィルタ(b-q)B.電車」とのNC効果量を推定する。ここでは、「Q.眼鏡」の状態での「NCフィルタ(a-p)A.JEITA」に「0.74」のNC効果量が記憶され、「NCフィルタ(b-p)B.電車」に「0.66」のNC効果量が記憶され、「NCフィルタ(b-q)B.電車」に「0.77」のNC効果量が記憶される。
 図23Dでは、信号処理装置10は、新たに推定した「NCフィルタ(b-q)B.電車」の推定値のほうが大きいため、このNCの性能が高いとして、補正フィルタ(q)を第2の補正フィルタとして選択する。図23Dは、ユーザがヘッドホン20を装着したまま、「C.バス」及び「D.飛行機」で使用した際のNC効果量を記憶した状態を示す。図23Dでは、信号処理装置10は、ユーザがヘッドホン20を装着した状態での、「C.バス」及び「D.飛行機」でのNC効果量の推定値を記憶する。ここでは、「Q.眼鏡」の状態での「C.バス」に「0.70」のNC効果量が記憶され、「D.飛行機」に「0.78」のNC効果量が記憶される。
 図24は、図21乃至図23に係る処理の流れを示すフローチャートである。
 <2.8.第5のDNN>
 続いて、補正フィルタの推定結果に基づく最適化について説明する。ここで、信号処理システム1の機能には、所定のフィルタ係数を有するNCフィルタを用いた場合のNC効果の推定を行う機能が含まれる。信号処理システム1は、第5のDNNを用いて、NC効果の推定を行う。以下、第5のDNNについて説明する。
 第5のDNNでは、H2ユーザM2特性及び補正済フィルタ係数を入力とし、NC効果量を出力とする。なお、第5のDNNでは、上記に加えて、H2M2特性を入力としてもよいものとする。第5のDNNでは、最適化手法の一例として、Adamによる最適化を行う。第5のDNNでは、二乗平均誤差に基づくロス関数を用いる。第5のDNNでは、第1のDNNで生成した教師データを用いてNCのシミュレーションを行い、シミュレーション結果として得られるNC効果量を教師データとする。
 <2.9.第6のDNN>
 続いて、所定の規格で設定された環境に基づく最適化について説明する。ここで、信号処理システム1の機能には、所定の規格で設定された環境におけるNC効果の推定を行う機能が含まれる。信号処理システム1は、第6のDNNを用いて、NC効果の推定を行う。以下、第6のDNNについて説明する。
 第6のDNNでは、所定の規格のノイズ環境におけるNC効果量、補正済フィルタ係数、及びユーザの使用環境下での環境音の特性を入力とし、ユーザの使用環境下でのNC効果量を出力とする。第6のDNNでは、二乗平均誤差に基づくロス関数を用いる。第6のDNNでは、NCのシミュレーション結果として得られるNC効果量を教師データとする。例えば、第6のDNNでは、NCフィルタ、補正フィルタ、及び、環境音の音データ(例えば、第1マイク乃至第3マイクで測定された環境音の音データ)及び特性等のデータを用いてNCのシミュレーションを行い、シミュレーション結果として得られるNC効果量を教師データとする。
 <2.10.機能構成例>
 図25は、実施形態に係る信号処理システム1の機能構成例を示すブロック図である。
 (1)信号処理装置10
 図25に示したように、信号処理装置10は、通信部100、制御部110、及び記憶部120を備える。なお、信号処理装置10は、少なくとも制御部110を有する。
 (1-1)通信部100
 通信部100は、外部装置と通信を行う機能を有する。例えば、通信部100は、外部装置との通信において、外部装置から受信する情報を制御部110へ出力する。具体的には、通信部100は、ヘッドホン20から受信する情報を制御部110へ出力する。例えば、通信部100は、ヘッドホン20に備えられたマイクで収音された信号を制御部110へ出力する。
 通信部100は、外部装置との通信において、制御部110から入力される情報を外部装置へ送信する。具体的には、通信部100は、制御部110から入力される収音信号の取得に関する情報をヘッドホン20へ送信する。通信部100は、ハードウェア回路(通信プロセッサなど)で構成され、ハードウェア回路上またはハードウェア回路を制御する別の処理装置(CPUなど)上で動作するコンピュータ・プログラムにより処理を行うように構成することができる。
 (1-2)制御部110
 制御部110は、信号処理装置10の動作を制御する機能を有する。例えば、制御部110は、ユーザ個人に最適なNCを行うための補正フィルタ係数を決定する処理を行う。
 上述の機能を実現するために、制御部110は、図25に示すように、取得部111、処理部112、出力部113を有する。制御部110はCPUなどのプロセッサにより構成され、取得部111、処理部112、出力部113の各機能を実現するソフトウエア(コンピュータ・プログラム)を記憶部120から読み込んで処理をするようにされていてもよい。また、取得部111、処理部112、出力部113の一つ以上は、制御部110とは別のハードウェア回路(プロセッサなど)で構成され、別のハードウェア回路上または制御部110上で動作するコンピュータ・プログラムにより制御されるように構成することができる。
 ・取得部111
 取得部111は、外界から分離されたユーザの耳内の音響特性を取得する機能を有する。取得部111は、例えば、耳内に出力された測定音を収音した収音信号に基づく音響特性を取得する。例えば、取得部111は、音響出力機器のマイクで収音された収音信号に基づく音響特性を取得する。
 取得部111は、記憶部120に記憶されたデータを取得する。例えば、取得部111は、補正フィルタ係数に関する情報を取得する。
 ・処理部112
 処理部112は、信号処理装置10の処理を制御するための機能を有する。処理部112は、図25に示すように、決定部1121、NCフィルタ部1122、補正部1123、生成部1124、及び判定部1125を有する。処理部112の有する決定部1121、NCフィルタ部1122、補正部1123、生成部1124、及び判定部1125は、各々が独立したコンピュータ・プログラムのモジュールとして構成されていてもよいし、複数の機能を一つのまとまりのあるコンピュータ・プログラムのモジュールとして構成していてもよい。
 ・決定部1121
 決定部1121は、取得部111により取得された音響特性に基づいて、補正フィルタ係数を決定する機能を有する。
 決定部1121は、音響特性を入力とし、フィルタ係数を出力とする学習済モデル(例えば、第1のDNN)を用いて、補正フィルタ係数を決定する。例えば、決定部1121は、ユーザの鼓膜位置において推定される音響特性を教師データとして学習した学習済モデルを用いて、補正フィルタ係数を決定する。
 決定部1121は、音響特性と音データとを入力とし、音データを補正するか否かを出力とする学習済モデル(例えば、第2のDNN)を用いて、補正フィルタ係数を決定する。例えば、決定部1121は、音響特性と音データとに基づいて推定される騒音抑制率に基づいて補正するか否かをラベル付した付与情報を教師データとして学習した学習済モデルを用いて、補正フィルタ係数を決定する。
 決定部1121は、音響特性と予め測定された音響特性及び音データとを入力とし、騒音抑制率を出力とする学習済モデル(例えば、第3のDNN)を用いて、補正フィルタ係数を決定する。例えば、決定部1121は、ユーザの鼓膜位置において推定される音響特性と音データとに基づく騒音抑制率を教師データとして学習した学習済モデルを用いて、補正フィルタ係数を決定する。
 決定部1121は、音響特性を測定したマイクとは異なるマイクで収音された収音信号と音データとを入力とし、ユーザ環境における環境音に基づくフィルタ係数の差分を補正する補正フィルタ係数を出力とする学習済モデル(第4のDNN)を用いて、補正フィルタ係数を決定する。例えば、決定部1121は、ユーザの鼓膜位置において推定される音響特性に基づくフィルタ係数の差分を補正するフィルタ係数を教師データとして学習した学習済モデルを用いて、補正フィルタ係数を決定する。
 決定部1121は、音響特性と音データとを入力とし、NC効果量を出力とする学習済モデル(例えば、第5のDNN)を用いて、補正フィルタ係数を決定する。例えば、決定部1121は、ユーザの鼓膜位置において推定される音響特性に基づく効果量を教師データとして学習した学習済モデルを用いて、補正フィルタ係数を決定する。
 決定部1121は、所定の規格で定められた環境におけるNC効果量と音データとユーザ環境における環境音の音響特性とを入力とし、ユーザ環境におけるNC効果量を出力とする学習済モデル(第6のDNN)を用いて、補正フィルタ係数を決定する。例えば、決定部1121は、音データとフィルタ係数とユーザ環境における環境音の音響特性とに基づくNC効果量を教師データとして学習した学習済モデルを用いて、補正フィルタ係数を決定する。
 ・NCフィルタ部1122
 NCフィルタ部1122は、ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成する機能を有する。NCフィルタ部1122は、例えば、取得部111により取得された環境音の音響特性と逆位相の音データを生成する。
 ・補正部1123
 補正部1123は、NCフィルタ部1122により生成された音データを補正フィルタを用いて補正する機能を有する。具体的には、補正部1123は、決定部1121により決定された補正フィルタ係数を用いて補正する。
 ・生成部1124
 生成部1124は、学習済モデルを生成する機能を有する。生成部1124は、例えば、入力データと出力データとを損失関数に入力することにより学習した学習済モデルを生成する。決定部1121は、生成部1124により生成された学習済モデルを用いて推定された補正フィルタ係数を決定する。
 ・判定部1125
 判定部1125は、NCフィルタ部1122により生成された音データを補正フィルタを用いて補正するか否かを判定する機能を有する。例えば、判定部1125は、補正フィルタを用いることにより、補正効果が十分見込めるか否かを判定し、補正効果が十分見込める場合には、補正フィルタを用いて補正すると判定する。
 判定部1125は、環境音の騒音レベルを判定する。判定部1125は、環境音の騒音レベルに応じて、第1の補正フィルタと第2の補正フィルタとのどちらの補正フィルタを用いるかを判定する。
 ・出力部113
 出力部113は、補正部1123により補正された音データを出力する機能を有する。出力部113は、補正された音データを、通信部100を介して、例えば、ヘッドホン20へ提供する。ヘッドホン20は、補正された音データを受信すると、補正された音データに基づく音を再生する。これにより、ユーザは、補正フィルタにより補正された音を試聴することができる。
 (1-3)記憶部120
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、信号処理装置10における処理に関するコンピュータ・プログラムやデータ(プログラムの一形式を含む)を記憶する機能を有する。
 図26は、記憶部120の一例を示す。図26に示すように、記憶部120は、「補正フィルタ係数ID」、「補正フィルタ係数」、「実行状態」、「使用環境1」、「使用環境2」といった項目を有してもよい。
 「補正フィルタ係数ID」は、補正フィルタ係数を識別するための識別情報を示す。「補正フィルタ係数」は、補正フィルタ係数を示す。「実行状態」は、最適化機能の実行状態を示す。図26に示す例では、「実行状態」に「実行状態#1」や「実行状態#2」といった概念的な情報が格納される例を示したが、実際には、「N.標準」や「O.不明」等のデータが格納される。「使用環境1」等は、ユーザの使用環境を示す。図26に示す例では、「使用環境1」に「使用環境#1」や「使用環境#2」といった概念的な情報が格納される例を示したが、実際には、「B.電車」や「C.バス」等のデータが格納される。
 (2)ヘッドホン20
 図25に示したように、ヘッドホン20は、通信部200、制御部210、及び出力部220を備える。
 (2-1)通信部200
 通信部200は、外部装置と通信を行う機能を有する。例えば、通信部200は、外部装置との通信において、外部装置から受信する情報を制御部210へ出力する。具体的には、通信部200は、信号処理装置10から受信する情報を制御部210へ出力する。例えば、通信部200は、補正フィルタにより補正された音データの取得に関する情報を制御部210へ出力する。
 (2-2)制御部210
 制御部210は、ヘッドホン20の動作を制御する機能を有する。例えば、制御部210は、通信部200を介して、マイクで収音された収音信号に基づく音響特性を信号処理装置10へ送信する。
 (2-3)出力部220
 出力部220は、スピーカ等の音を出力可能な部材によって実現される。出力部220は、音データに基づく音を出力する。
 <2.11.信号処理システムの処理>
 以上、実施形態に係る信号処理システム1の機能について説明した。続いて、信号処理システム1の処理について説明する。
 図27は、実施形態に係る信号処理装置10における処理の流れを示すフローチャートである。信号処理装置10は、外界から分離されたユーザの耳内の音響特性を取得する(S101)。次いで、信号処理装置10は、取得した音響特性を入力すると補正フィルタ係数を出力する学習済モデルを用いて補正フィルタ係数を決定する(S102)。そして、信号処理装置10は、ユーザの耳内へ漏れ込んだ環境音と逆位相の音データを生成する(S103)。次いで、信号処理装置10は、補正フィルタを用いて補正するか否かを判定する(S104)。信号処理装置10は、補正フィルタを用いて補正すると判定した場合(S104;YES)、生成した音データを、決定した補正フィルタ係数を用いて補正する(S105)。また、信号処理装置10は、補正フィルタを用いて補正しないと判定した場合(S104;NO)、情報処理を終了する。
 <2.12.処理のバリエーション>
(UIを用いた補正フィルタの選択)
 上記実施形態では、信号処理装置10は、補正する/しないをDNN等の機械学習を用いて決定する場合を説明したが、この例に限られない。信号処理装置10は、例えば、ユーザからの選択を受け付けることで、補正する/しないを決定してもよい。
 NC効果量が高いほどユーザにとって快適かどうかはユーザの主観に依存し得る。NC効果量が高くなることでユーザにとって快適ではなくなる一例として、例えば、中低域のノイズが大きく抑制されることで、ノイズによってマスクされていた高域のノイズが相対的に強調されて耳障りになる場合がある。信号処理装置10は、現状のフィルタ係数を用いたNC効果量、推定された補正フィルタ係数を用いたNC効果量、メモリに記憶された補正フィルタ係数のNC効果量等を提示してユーザからの選択を受け付けることで、補正する/しないを決定してもよい。例えば、信号処理装置10は、スマートホン等の携帯端末(以下、適宜、「端末装置30」とする)に補正フィルタのリストを表示させてユーザからの選択を受け付けてもよい。例えば、信号処理装置10は、ユーザの装着状態に応じた補正フィルタのリストを表示させてもよい。これにより、信号処理装置10は、ユーザが明示的に補正フィルタを選択できるようにすることができる。また、信号処理装置10は、ユーザが任意の環境音でNC効果量を確認できるようにすることができる。
 図28は、補正フィルタのリストを表示する表示画面の一例を示す。図28では、補正フィルタのリストに、「標準」と「フィルタ1」と「フィルタ2」とが含まれる。ここで、「標準」は、例えばユーザが何も装着しない際に信号処理装置10が推定した補正フィルタである。「フィルタ1」は、例えばユーザが眼鏡を装着した際に信号処理装置10が推定した補正フィルタである。「フィルタ2」は、例えばユーザが帽子を装着した際に信号処理装置10が推定した補正フィルタである。図28では、補正フィルタのリストを表示する表示画面HG11には、ユーザが測定B11を操作(例えば、クリックやタップ)すると新たな測定に基づく補正フィルタが選択肢として追加される所定の領域SK11が含まれる。また、表示画面HG11には、ユーザが選択した補正フィルタの特性がハイライトされる所定の領域SK12が含まれる。また、表示画面HG11に含まれる試聴C11をユーザが操作すると、端末装置30は、例えば、ユーザに選択された補正フィルタに基づく音を出力する。
 信号処理装置10は、試聴C11に対する操作を受け付けると、ユーザに選択された補正フィルタに基づく音を出力するための処理を行ってもよい。これにより、ユーザは選択した補正フィルタに基づく音を試聴することができる。ここで、信号処理装置10は、試聴の際に、リストに含まれる補正フィルタの差分をユーザが認識し易いように、端末装置30に記憶された音(例えば、楽曲(曲))を選択して再生してもよい。若しくは、信号処理装置10は、ユーザにより予め選択された任意の音を再生してもよい。これにより、信号処理装置10は、ユーザの使用環境下において、補正フィルタの比較を容易に行えるようにすることができる。また、信号処理装置10は、H2ユーザM2特性を表示させるための処理を行ってもよい。これにより、信号処理装置10は、H2ユーザM2特性をユーザに視覚的に把握させることができる。また、信号処理装置10は、端末装置30のUI上でユーザが各補正フィルタに名前をつけられるようにするための処理を行ってもよい。これにより、信号処理装置10は、ユーザが名前をつけられるようにすることで、ユーザに補正フィルタを使い分けし易くさせることができる。この際、UI上に表示された情報の認識のし易さや操作のし易さが劣化してしまう場合がある。このため、信号処理装置10は、ガイド音声等を用いてヘッドホン20のUI単体で同様にユーザが試聴を比較できるようにするための処理を行ってもよい。また、信号処理装置10は、ユーザの端末装置30、若しくは、端末装置30が接続しているサーバで、補正フィルタ係数の推定処理が行えるようにするための処理を行ってもよい。
 続いて、周囲の環境音の誤差に対する補正フィルタを端末装置30で管理及び操作する場合を説明する。ここでは、端末装置30の表示画面には装着誤差を補正するためのタブと環境音の差分を補正するためのタブとが設けられて、ユーザがタブを選択することで、補正フィルタのリストを切り替える。図29は、第1の補正フィルタのリストと第2の補正フィルタのリストとをタブで管理及び選択する場合の表示画面の一例を示す。なお、図28と同様の説明は適宜省略する。表示画面HG21には、ユーザが選択することで補正フィルタのリストを切り替えるタブTB11及びタブTB12が含まれる。表示画面HG21に含まれるタブTB11又はタブTB12をユーザが選択すると、端末装置30は、タブTB11又はタブTB12に対応する補正フィルタのリストを表示する。信号処理装置10は、ユーザの選択を受け付けると、ユーザに選択されたタブに対応する補正フィルタのリストを切り替えるための処理を行ってもよい。これにより、ユーザは、補正フィルタの種類に応じて、別々に補正フィルタを管理及び選択することができる。また、信号処理装置10は、第2の補正フィルタのタブの選択時には、製品のデフォルトのNCフィルタが対象としている環境音の音響特性と、ユーザ環境における環境音の音響特性とを表示させてもよい。これにより、ユーザは選択の参考にすることができる。
 なお、実施形態に係る端末装置30は、スマートホン等の携帯端末に限らず、ユーザからの補正フィルタに関する操作を受け付け可能な情報処理装置であれば、どのようなものであってもよい。
(環境音が随時変化する場合の処理)
 上記実施形態では、信号処理装置10が、ユーザの操作をトリガとして推定された補正フィルタ係数を更新する場合を示したが、この例に限られない。信号処理装置10は、随時変化する環境音に対して推定された補正フィルタ係数を随時更新してもよい。図30に示すように、信号処理装置10は、補正フィルタをクロスフェードすることにより、環境音の変化に追随して補正フィルタ係数を更新してもよい。これにより、信号処理装置10は、音途切れや違和感なく補正フィルタ係数を更新することができる。なお、信号処理装置10は、クロスフェードに限らず、どのような処理に基づいて補正フィルタ係数を更新してもよい。
(NCフィルタの推定)
 上記実施形態では、信号処理装置10が、環境音の差分に対する補正フィルタ係数を推定する場合を示したが、NCフィルタのフィルタ係数を推定してもよい。例えば、信号処理装置10は、第1マイクで収音された収音信号と、第3マイクで収音された収音信号とに基づいて、第3マイクで収音された収音信号が最小になるようなフィルタ係数を推定してもよい。上記実施形態では、信号処理装置10が、様々な環境音で推定された補正フィルタ係数を教師データとする場合を示したが、標準となるフィルタ係数を定めることで補正フィルタ係数を推定してもよい。
(ゲインを調整する場合の処理)
 上記実施形態では、信号処理装置10が、補正フィルタ係数を決定し、決定した補正フィルタ係数で補正する場合を示した。ここで、信号処理装置10は、補正フィルタ係数を決定せずに、フィルタのゲインを調整することで補正を行ってもよい。この場合には、信号処理装置10は、H2M2特性とH2ユーザM2特性との誤差に基づいて、オフセットを加えてもよい。また、信号処理装置10は、このオフセットを調整し、誤差の二乗和が最小になるオフセット値を算出してもよい。信号処理装置10は、このオフセット値の最小二乗和誤差が所定の閾値よりも小さい場合には、オフセット値をゲインの調整値として補正を行ってもよい。また、信号処理装置10は、オフセット値を基準としてユーザからの調整を受け付けてもよい。これにより、信号処理装置10は、ユーザの主観的な好みや聞こえ具合に応じて調整することができる。また、信号処理装置10は、オフセット値の最小二乗和誤差が所定の閾値よりも大きい場合には、補正フィルタ係数の推定を行ってもよい。
 図31は、オフセット値の最小二乗和誤差が所定の閾値よりも小さい場合を示す。図31(A)はゲイン調整前であり、図31(B)はゲイン調整後である。
 図32は、オフセット値の最小二乗和誤差が所定の閾値よりも大きい場合を示す。図32(A)はゲイン調整前であり、図32(B)はゲイン調整後である。
 図33は、ゲインを調整する場合の処理の流れを示すフローチャートである。
(誤差の補正)
 なお、上記実施形態では、ユーザ間の個人差や装着状態に基づく誤差を補正する場合を説明したが、補正はこれらの場合に限られない。実施形態に係る補正には、例えば、ヘッドホン20等の個体差に基づく誤差を補正する場合も含まれるものとする。
<<3.ハードウェア構成例>>
 最後に、図34を参照しながら、実施形態に係る信号処理装置のハードウェア構成例について説明する。図34は、実施形態に係る信号処理装置のハードウェア構成例を示すブロック図である。なお、図34に示す信号処理装置900は、例えば、図25に示した信号処理装置10及びヘッドホン20を実現し得る。実施形態に係る信号処理装置10及びヘッドホン20による情報処理は、ソフトウェア(コンピュータ・プログラムにより構成される)と、以下に説明するハードウェアとの協働により実現される。
 図34に示すように、信号処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、及びRAM(Random Access Memory)903を備える。また、信号処理装置900は、ホストバス904a、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート910、及び通信装置911を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 CPU901は、例えば、演算処理装置又は制御装置として機能し、ROM902、RAM903、又はストレージ装置908に記録された各種コンピュータ・プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM902は、CPU901に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM903には、例えば、CPU901に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等のデータ(プログラムの一部)が一時的又は永続的に格納される。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。CPU901、ROM902およびRAM903は、例えば、ソフトウェアとの協働により、図25を参照して説明した制御部110及び制御部210の機能を実現し得る。
 CPU901、ROM902、及びRAM903は、例えば、高速なデータ伝送が可能なホストバス904aを介して相互に接続される。一方、ホストバス904aは、例えば、ブリッジ904を介して比較的データ伝送速度が低速な外部バス904bに接続される。また、外部バス904bは、インタフェース905を介して種々の構成要素と接続される。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロホン、スイッチ及びレバー等、リスナによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、信号処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いて入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。信号処理装置900の管理者は、この入力装置906を操作することにより、信号処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
 他にも、入力装置906は、ユーザの位置を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ(例えば、ToF(Time of Flight)センサ)、力センサ等の各種のセンサを含み得る。また、入力装置906は、信号処理装置900の姿勢、移動速度等、信号処理装置900自身の状態に関する情報や、信号処理装置900の周辺の明るさや騒音等、信号処理装置900の周辺空間に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi-Fi(登録商標)、携帯電話・PHS・スマートホン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図25を参照して説明した取得部111の機能を実現し得る。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音響出力装置や、プリンタ装置等がある。出力装置907は、例えば、信号処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、信号処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図25を参照して説明した出力部113及び出力部220の機能を実現し得る。
 ストレージ装置908は、信号処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するコンピュータ・プログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図25を参照して説明した記憶部120の機能を実現し得る。
 ドライブ909は、記憶媒体用リーダライタであり、信号処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート910は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。
 通信装置911は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置911は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置911は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置911は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置911は、例えば、図25を参照して説明した通信部100及び通信部200の機能を実現し得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、実施形態に係る信号処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
<<4.まとめ>>
 以上説明したように、実施形態に係る信号処理装置10は、外界から分離されたユーザの耳内の音響特性に基づいて補正フィルタ係数を決定する処理を行う。また、信号処理装置10は、ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを補正フィルタを用いて補正する処理を行う。これにより、信号処理装置10は、例えば、製品上搭載することが困難な鼓膜位置の音響信号を必要とすることなく、最適化用の補正フィルタ係数を決定することができる。また、信号処理装置10は、補正フィルタを用いて補正することで、NC効果の向上を促進することができる。
 よって、更なるユーザビリティの向上を促進することが可能な、新規かつ改良された信号処理装置、信号処理方法及び信号処理用モデル製造方法及び音響出力機器を提供することが可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図25に示した信号処理装置10及びヘッドホン20は、それぞれ単独の装置として実現されてもよい。また、例えば、信号処理装置10及びヘッドホン20とネットワーク等で接続されたサーバ装置として実現されてもよい。また、信号処理装置10が有する制御部110の機能をネットワーク等で接続されたサーバ装置が有する構成であってもよい。
 また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するコンピュータ・プログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。
 また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 外界から分離されたユーザの耳内の音響特性を取得する取得部と、
 前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ部と、
 前記音データを補正フィルタを用いて補正する補正部と、
 前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定部と、
 を備える、信号処理装置。
(2)
 前記取得部は、
 前記耳内に出力された測定音を収音した収音信号に基づく前記音響特性を取得する
 前記(1)に記載の信号処理装置。
(3)
 前記決定部は、
 音響特性を入力とし、フィルタ係数を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
 前記(1)又は(2)に記載の信号処理装置。
(4)
 前記決定部は、
 ユーザの鼓膜位置において推定される音響特性を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
 前記(3)に記載の信号処理装置。
(5)
 前記決定部は、
 音響特性と音データとを入力とし、当該音データを補正するか否かを出力とする学習済モデルを用いて、前記フィルタ係数を決定する
 前記(1)~(4)のいずれか一つに記載の信号処理装置。
(6)
 前記決定部は、
 音響特性と音データとに基づいて推定される騒音抑制率に基づいて補正するか否かをラベル付した付与情報を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
 前記(5)に記載の信号処理装置。
(7)
 前記決定部は、
 音響特性と予め測定された音響特性及び音データとを入力とし、騒音抑制率を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
 前記(1)~(6)のいずれか一つに記載の信号処理装置。
(8)
 前記決定部は、
 ユーザの鼓膜位置において推定される音響特性と音データとに基づく騒音抑制率を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
 前記(7)に記載の信号処理装置。
(9)
 前記決定部は、
 前記音響特性を測定したマイクとは異なるマイクで収音された収音信号と音データとを入力とし、ユーザ環境における環境音に基づくフィルタ係数の差分を補正する補正フィルタ係数を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
 前記(1)~(8)のいずれか一つに記載の信号処理装置。
(10)
 前記決定部は、
 ユーザの鼓膜位置において推定される音響特性に基づくフィルタ係数の差分を補正するフィルタ係数を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
 前記(9)に記載の信号処理装置。
(11)
 前記決定部は、
 音響特性と音データとを入力とし、NC効果量を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
 前記(1)~(10)のいずれか一つに記載の信号処理装置。
(12)
 前記決定部は、
 ユーザの鼓膜位置において推定される音響特性に基づく効果量を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
 前記(11)に記載の信号処理装置。
(13)
 前記決定部は、
 所定の規格で定められた環境におけるNC効果量と音データとユーザ環境における環境音の音響特性とを入力とし、当該ユーザ環境におけるNC効果量を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
 前記(1)~(12)のいずれか一つに記載の信号処理装置。
(14)
 前記決定部は、
 音データとフィルタ係数とユーザ環境における環境音の音響特性とに基づくNC効果量を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
 前記(13)に記載の信号処理装置。
(15)
 コンピュータが実行する信号処理方法であって、
 外界から分離されたユーザの耳内の音響特性を取得する取得工程と、
 前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ工程と、
 前記音データを補正フィルタを用いて補正する補正工程と、
 前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定工程と、
 を含む信号処理方法。
(16)
 外界から分離されたユーザの耳内の音響特性を取得する取得手順と、
 前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ手順と、
 前記音データを補正フィルタを用いて補正する補正手順と、
 前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定手順と、
 をコンピュータに実行させる信号処理プログラム。
(17)
 マイクで収音された収音信号に基づく音響特性に基づいてフィルタ係数を補正するか否かを決定するとともに、最適なノイズキャンセリングを行うためのフィルタ係数を決定し、決定したフィルタ係数に基づいてノイズキャンセリングの信号を生成するために、予めマイクで収音された収音信号に基づく音響特性と、最適なノイズキャンセリングを行うための補正フィルタ係数とを入力として学習することにより、最適なノイズキャンセリングを行うためのモデルを製造する信号処理用モデル製造方法。
(18)
 信号処理装置から提供された信号に基づいてノイズキャンセリングされた音を出力する出力部、を備える音響出力機器であって、当該信号処理装置が、当該音響出力機器のマイクで収音された収音信号に基づく音響特性に基づいて、最適なノイズキャンセリングを行うためのフィルタ係数を決定し、決定したフィルタ係数に基づいて生成した信号を提供することを特徴とする、音響出力機器。
 1 信号処理システム
 10 信号処理装置
 20 ヘッドホン
 30 端末装置
 100 通信部
 110 制御部
 111 取得部
 112 処理部
 1121 決定部
 1122 NCフィルタ部
 1123 補正部
 1124 生成部
 1125 判定部
 113 出力部
 200 通信部
 210 制御部
 220 出力部

Claims (18)

  1.  外界から分離されたユーザの耳内の音響特性を取得する取得部と、
     前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ部と、
     前記音データを補正フィルタを用いて補正する補正部と、
     前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定部と、
     を備える、信号処理装置。
  2.  前記取得部は、
     前記耳内に出力された測定音を収音した収音信号に基づく前記音響特性を取得する
     請求項1に記載の信号処理装置。
  3.  前記決定部は、
     音響特性を入力とし、フィルタ係数を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
     請求項1に記載の信号処理装置。
  4.  前記決定部は、
     ユーザの鼓膜位置において推定される音響特性を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
     請求項3に記載の信号処理装置。
  5.  前記決定部は、
     音響特性と音データとを入力とし、当該音データを補正するか否かを出力とする学習済モデルを用いて、前記フィルタ係数を決定する
     請求項1に記載の信号処理装置。
  6.  前記決定部は、
     音響特性と音データとに基づいて推定される騒音抑制率に基づいて補正するか否かをラベル付した付与情報を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
     請求項5に記載の信号処理装置。
  7.  前記決定部は、
     音響特性と予め測定された音響特性及び音データとを入力とし、騒音抑制率を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
     請求項1に記載の信号処理装置。
  8.  前記決定部は、
     ユーザの鼓膜位置において推定される音響特性と音データとに基づく騒音抑制率を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
     請求項7に記載の信号処理装置。
  9.  前記決定部は、
     前記音響特性を測定したマイクとは異なるマイクで収音された収音信号と音データとを入力とし、ユーザ環境における環境音に基づくフィルタ係数の差分を補正する補正フィルタ係数を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
     請求項1に記載の信号処理装置。
  10.  前記決定部は、
     ユーザの鼓膜位置において推定される音響特性に基づくフィルタ係数の差分を補正するフィルタ係数を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
     請求項9に記載の信号処理装置。
  11.  前記決定部は、
     音響特性と音データとを入力とし、NC効果量を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
     請求項1に記載の信号処理装置。
  12.  前記決定部は、
     ユーザの鼓膜位置において推定される音響特性に基づく効果量を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
     請求項11に記載の信号処理装置。
  13.  前記決定部は、
     所定の規格で定められた環境におけるNC効果量と音データとユーザ環境における環境音の音響特性とを入力とし、当該ユーザ環境におけるNC効果量を出力とする学習済モデルを用いて、前記フィルタ係数を決定する
     請求項1に記載の信号処理装置。
  14.  前記決定部は、
     音データとフィルタ係数とユーザ環境における環境音の音響特性とに基づくNC効果量を教師データとして学習した前記学習済モデルを用いて、前記フィルタ係数を決定する
     請求項13に記載の信号処理装置。
  15.  コンピュータが実行する信号処理方法であって、
     外界から分離されたユーザの耳内の音響特性を取得する取得工程と、
     前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ工程と、
     前記音データを補正フィルタを用いて補正する補正工程と、
     前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定工程と、
     を含む信号処理方法。
  16.  外界から分離されたユーザの耳内の音響特性を取得する取得手順と、
     前記ユーザの耳内へ漏れ込んだ環境音とは逆位相の音データを生成するNCフィルタ手順と、
     前記音データを補正フィルタを用いて補正する補正手順と、
     前記補正フィルタのフィルタ係数を前記音響特性に基づいて決定する決定手順と、
     をコンピュータに実行させる信号処理プログラム。
  17.  マイクで収音された収音信号に基づく音響特性に基づいてフィルタ係数を補正するか否かを決定するとともに、最適なノイズキャンセリングを行うためのフィルタ係数を決定し、決定したフィルタ係数に基づいてノイズキャンセリングの信号を生成するために、予めマイクで収音された収音信号に基づく音響特性と、最適なノイズキャンセリングを行うための補正フィルタ係数とを入力として学習することにより、最適なノイズキャンセリングを行うためのモデルを製造する信号処理用モデル製造方法。
  18.  信号処理装置から提供された信号に基づいてノイズキャンセリングされた音を出力する出力部、を備える音響出力機器であって、当該信号処理装置が、当該音響出力機器のマイクで収音された収音信号に基づく音響特性に基づいて、最適なノイズキャンセリングを行うためのフィルタ係数を決定し、決定したフィルタ係数に基づいて生成した信号を提供することを特徴とする、音響出力機器。
PCT/JP2021/019901 2020-06-11 2021-05-26 信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器 WO2021251136A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/000,690 US20230223001A1 (en) 2020-06-11 2021-05-26 Signal processing apparatus, signal processing method, signal processing program, signal processing model production method, and sound output device
JP2022530116A JPWO2021251136A1 (ja) 2020-06-11 2021-05-26

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-101763 2020-06-11
JP2020101763 2020-06-11

Publications (1)

Publication Number Publication Date
WO2021251136A1 true WO2021251136A1 (ja) 2021-12-16

Family

ID=78846024

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019901 WO2021251136A1 (ja) 2020-06-11 2021-05-26 信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器

Country Status (3)

Country Link
US (1) US20230223001A1 (ja)
JP (1) JPWO2021251136A1 (ja)
WO (1) WO2021251136A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010259008A (ja) * 2009-04-28 2010-11-11 Toshiba Corp 信号処理装置、音響装置及び信号処理方法
JP2011015080A (ja) * 2009-06-30 2011-01-20 Toshiba Corp 音響補正装置、及び音響補正方法
US9792893B1 (en) * 2016-09-20 2017-10-17 Bose Corporation In-ear active noise reduction earphone
JP2019054337A (ja) * 2017-09-13 2019-04-04 ソニー株式会社 イヤホン装置、ヘッドホン装置及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015173369A (ja) * 2014-03-12 2015-10-01 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
US11386881B2 (en) * 2020-03-27 2022-07-12 Google Llc Active noise cancelling based on leakage profile

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010259008A (ja) * 2009-04-28 2010-11-11 Toshiba Corp 信号処理装置、音響装置及び信号処理方法
JP2011015080A (ja) * 2009-06-30 2011-01-20 Toshiba Corp 音響補正装置、及び音響補正方法
US9792893B1 (en) * 2016-09-20 2017-10-17 Bose Corporation In-ear active noise reduction earphone
JP2019054337A (ja) * 2017-09-13 2019-04-04 ソニー株式会社 イヤホン装置、ヘッドホン装置及び方法

Also Published As

Publication number Publication date
JPWO2021251136A1 (ja) 2021-12-16
US20230223001A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
US11496824B2 (en) Acoustic output apparatus with drivers in multiple frequency ranges and bluetooth low energy receiver
CN113676803B (zh) 一种主动降噪方法及装置
US9613028B2 (en) Remotely updating a hearing and profile
KR102196012B1 (ko) 트랜스듀서 상태의 검출에 기초하여 오디오 트랜스듀서의 성능을 향상시키는 방법들 및 시스템들
US8787584B2 (en) Audio metrics for head-related transfer function (HRTF) selection or adaptation
US20190124456A1 (en) Processor-readable medium, apparatus and method for updating hearing aid
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20190251948A1 (en) Signal processing device, signal processing method, and program
US12089008B2 (en) Remotely updating a hearing aid profile
US11451923B2 (en) Location based audio signal message processing
US11206003B2 (en) Personalized headphone equalization
WO2021251136A1 (ja) 信号処理装置、信号処理方法、信号処理プログラム、信号処理用モデル製造方法及び音響出力機器
CN112567766B (zh) 信号处理装置、信号处理方法和介质
TW202407513A (zh) 音訊和觸覺訊號處理
US20230209300A1 (en) Method and device for processing spatialized audio signals
WO2021235117A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US20240078994A1 (en) Active damping of resonant canal modes
US20230099275A1 (en) Method and system for context-dependent automatic volume compensation
CN110475197B (zh) 一种声场回放方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21823119

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022530116

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21823119

Country of ref document: EP

Kind code of ref document: A1