WO2021048974A1 - 情報処理装置、情報処理方法及び記憶媒体 - Google Patents

情報処理装置、情報処理方法及び記憶媒体 Download PDF

Info

Publication number
WO2021048974A1
WO2021048974A1 PCT/JP2019/035904 JP2019035904W WO2021048974A1 WO 2021048974 A1 WO2021048974 A1 WO 2021048974A1 JP 2019035904 W JP2019035904 W JP 2019035904W WO 2021048974 A1 WO2021048974 A1 WO 2021048974A1
Authority
WO
WIPO (PCT)
Prior art keywords
response function
frequency response
information processing
processing device
feature amount
Prior art date
Application number
PCT/JP2019/035904
Other languages
English (en)
French (fr)
Inventor
良峻 伊藤
隆行 荒川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/035904 priority Critical patent/WO2021048974A1/ja
Priority to US17/639,980 priority patent/US11937040B2/en
Priority to CN201980100182.0A priority patent/CN114423339A/zh
Priority to EP19944898.6A priority patent/EP4029442A4/en
Priority to BR112022002570A priority patent/BR112022002570A2/pt
Priority to JP2021545051A priority patent/JP7239007B2/ja
Publication of WO2021048974A1 publication Critical patent/WO2021048974A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6801Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
    • A61B5/6813Specially adapted to be attached to a specific body part
    • A61B5/6814Head
    • A61B5/6815Ear
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/30Security of mobile devices; Security of mobile applications
    • H04W12/33Security of mobile devices; Security of mobile applications using wearable devices, e.g. using a smartwatch or smart-glasses

Definitions

  • the present invention relates to an information processing device, an information processing method, and a storage medium.
  • Patent Document 1 discloses an earphone having a personal authentication function based on an acoustic signal propagating on the user's head.
  • the personal authentication device of Patent Document 1 extracts a logarithmic spectrum, a mer cepstrum coefficient, a linear prediction analysis coefficient, etc. as feature quantities from acoustic characteristics and uses them for user authentication.
  • the acoustic characteristics acquired by a wearable device as described in Patent Document 1 may change depending on the wearable state. Since changes in acoustic characteristics due to such factors may affect the authentication accuracy, a robust feature extraction method is required for different wearing conditions.
  • An object of the present invention is to provide an information processing device, an information processing method, and a storage medium capable of extracting a feature amount that is robust against a difference in wearing state.
  • the denominator includes an acquisition unit for acquiring the acoustic characteristics of the frequency domain based on the sound wave propagating in the user's head, and a term indicating the characteristics of the peak of the acoustic characteristics.
  • a first frequency response function having a rational polynomial in which a term indicating the notch characteristic of acoustic characteristics is included in the molecule is generated, and a feature quantity used for bioauthentication of the user is extracted based on the first frequency response function.
  • An information processing apparatus is provided that includes an extraction unit.
  • the denominator includes a step of acquiring the acoustic characteristics of the frequency domain based on the sound wave propagating in the user's head, and a term indicating the characteristics of the peak of the acoustic characteristics.
  • a first frequency response function having a rational polynomial in which a term indicating the notch characteristic of the acoustic characteristic is included in the molecule is generated, and the feature quantity used for bioauthentication of the user is calculated based on the first frequency response function.
  • An information processing method is provided that comprises a step of extraction.
  • the denominator includes a step in which the computer acquires the acoustic characteristics of the frequency domain based on the sound waves propagating in the user's head, and a term indicating the characteristics of the peak of the acoustic characteristics.
  • a storage medium in which a program for executing an information processing method including a step of extracting a feature amount is stored is provided.
  • an information processing device capable of extracting a feature amount that is robust against a difference in wearing state.
  • the information processing system according to this embodiment is a system for performing biometric authentication by a wearable device such as an earphone.
  • FIG. 1 is a schematic diagram showing the overall configuration of the information processing system according to the present embodiment.
  • the information processing system includes an information communication device 1 and an earphone 2 that can be wirelessly connected to each other.
  • the earphone 2 includes an earphone control device 20, a speaker 26, and a microphone 27.
  • the earphone 2 is an audio device that can be worn on the head of the user 3, particularly the ear, and is typically a wireless earphone, a wireless headset, or the like.
  • the speaker 26 functions as a sound wave generating unit that emits sound waves toward the ear canal of the user 3 when worn, and is arranged on the mounting surface side of the earphone 2.
  • the microphone 27 is arranged on the mounting surface side of the earphone 2 so that the microphone 27 can receive the sound wave echoed by the user 3's ear canal or the like when the microphone is worn.
  • the earphone control device 20 controls the speaker 26 and the microphone 27 and communicates with the information communication device 1.
  • sound such as sound wave and voice includes inaudible sound whose frequency or sound pressure level is out of the audible range.
  • the information communication device 1 is, for example, a computer that is communicably connected to the earphone 2 and performs biometric authentication based on acoustic information.
  • the information communication device 1 further controls the operation of the earphone 2, transmits voice data for generating sound waves emitted from the earphone 2, receives voice data obtained from the sound wave received by the earphone 2, and the like.
  • the information communication device 1 transmits compressed music data to the earphone 2.
  • the earphone 2 is a telephone device for business commands at an event venue, a hospital, or the like
  • the information communication device 1 transmits voice data of business instructions to the earphone 2.
  • the voice data of the utterance of the user 3 may be further transmitted from the earphone 2 to the information communication device 1.
  • the information communication device 1 and the earphone 2 may be connected by wire. Further, the information communication device 1 and the earphone 2 may be configured as an integrated device, and another device may be included in the information processing system.
  • FIG. 2 is a block diagram showing a hardware configuration example of the earphone control device 20.
  • the earphone control device 20 includes a CPU (Central Processing Unit) 201, a RAM (Random Access Memory) 202, a ROM (Read Only Memory) 203, and a flash memory 204. Further, the earphone control device 20 includes a speaker I / F (Interface) 205, a microphone I / F206, a communication I / F207, and a battery 208. Each part of the earphone control device 20 is connected to each other via a bus, wiring, a driving device, etc. (not shown).
  • the CPU 201 is a processor that performs a predetermined calculation according to a program stored in the ROM 203, the flash memory 204, etc., and also has a function of controlling each part of the earphone control device 20.
  • the RAM 202 is composed of a volatile storage medium and provides a temporary memory area necessary for the operation of the CPU 201.
  • the ROM 203 is composed of a non-volatile storage medium and stores necessary information such as a program used for the operation of the earphone control device 20.
  • the flash memory 204 is a storage device composed of a non-volatile storage medium, which temporarily stores data, stores an operation program of the earphone control device 20, and the like.
  • Communication I / F207 is a communication interface based on standards such as Bluetooth (registered trademark) and Wi-Fi (registered trademark), and is a module for communicating with the information communication device 1.
  • the speaker I / F205 is an interface for driving the speaker 26.
  • the speaker I / F 205 includes a digital-to-analog conversion circuit, an amplifier, and the like.
  • the speaker I / F 205 converts voice data into an analog signal and supplies it to the speaker 26. As a result, the speaker 26 emits a sound wave based on the voice data.
  • the microphone I / F206 is an interface for acquiring a signal from the microphone 27.
  • the microphone I / F206 includes an analog-to-digital conversion circuit, an amplifier, and the like.
  • the microphone I / F 206 converts an analog signal generated by a sound wave received by the microphone 27 into a digital signal. As a result, the earphone control device 20 acquires voice data based on the received sound wave.
  • the battery 208 is, for example, a secondary battery and supplies the electric power required for the operation of the earphone 2.
  • the earphone 2 can operate wirelessly without being connected to an external power source by wire.
  • the hardware configuration shown in FIG. 2 is an example, and devices other than these may be added, or some devices may not be provided. Further, some devices may be replaced with another device having the same function.
  • the earphone 2 may further include an input device such as a button so that the operation by the user 3 can be received, and further includes a display device such as a display and an indicator lamp for providing information to the user 3. You may.
  • the hardware configuration shown in FIG. 2 can be changed as appropriate.
  • FIG. 3 is a block diagram showing a hardware configuration example of the information communication device 1.
  • the information communication device 1 includes a CPU 101, a RAM 102, a ROM 103, and an HDD (Hard Disk Drive) 104. Further, the information communication device 1 includes a communication I / F 105, an input device 106, and an output device 107. Each part of the information communication device 1 is connected to each other via a bus, wiring, a driving device, etc. (not shown).
  • each part constituting the information communication device 1 is shown as an integrated device, but some of these functions may be provided by an external device.
  • the input device 106 and the output device 107 may be external devices different from the parts constituting the functions of the computer including the CPU 101 and the like.
  • the CPU 101 is a processor that performs a predetermined calculation according to a program stored in the ROM 103, the HDD 104, or the like, and also has a function of controlling each part of the information communication device 1.
  • the RAM 102 is composed of a volatile storage medium and provides a temporary memory area necessary for the operation of the CPU 101.
  • the ROM 103 is composed of a non-volatile storage medium and stores necessary information such as a program used for the operation of the information communication device 1.
  • the HDD 104 is a storage device composed of a non-volatile storage medium, which temporarily stores data transmitted to and received from the earphone 2, stores an operation program of the information communication device 1, and the like.
  • Communication I / F105 is a communication interface based on standards such as Bluetooth (registered trademark) and Wi-Fi (registered trademark), and is a module for communicating with other devices such as earphone 2.
  • the input device 106 is a keyboard, a pointing device, or the like, and is used by the user 3 to operate the information communication device 1.
  • pointing devices include mice, trackballs, touch panels, pen tablets and the like.
  • the output device 107 is, for example, a display device.
  • the display device is a liquid crystal display, an OLED (Organic Light Emitting Diode) display, or the like, and is used for displaying information, a GUI (Graphical User Interface) for operation input, or the like.
  • the input device 106 and the output device 107 may be integrally formed as a touch panel.
  • the hardware configuration shown in FIG. 3 is an example, and devices other than these may be added, or some devices may not be provided. Further, some devices may be replaced with another device having the same function. Further, some functions of the present embodiment may be provided by other devices via a network, or the functions of the present embodiment may be distributed and realized by a plurality of devices.
  • the HDD 104 may be replaced with an SSD (Solid State Drive) using a semiconductor memory, or may be replaced with a cloud storage.
  • the hardware configuration shown in FIG. 3 can be changed as appropriate.
  • FIG. 4 is a functional block diagram of the earphone 2 and the information communication device 1 according to the present embodiment.
  • the information communication device 1 includes an acoustic characteristic acquisition unit 121, a feature amount extraction unit 122, and a determination unit 123. Since the configuration of the block diagram of the earphone 2 is the same as that of FIG. 2, the description thereof will be omitted.
  • the acoustic characteristic acquisition unit 121 may be more generally referred to as an acquisition unit, and the feature amount extraction unit 122 may be more generally referred to as an extraction unit.
  • the CPU 101 performs a predetermined arithmetic process by loading the program stored in the ROM 103, the HDD 104, etc. into the RAM 102 and executing the program. Further, the CPU 101 controls each part of the information communication device 1 such as the communication I / F 105 based on the program. As a result, the CPU 101 realizes the functions of the acoustic characteristic acquisition unit 121, the feature amount extraction unit 122, and the determination unit 123. The specific contents of the processing performed by each functional block will be described later.
  • the functions of the functional blocks described in the information communication device 1 may be provided in the earphone control device 20 instead of the information communication device 1. That is, each of the above-mentioned functions may be realized by the information communication device 1, the earphone control device 20, or the information communication device 1 and the earphone control device 20 in cooperation with each other. Good.
  • the information communication device 1 and the earphone control device 20 may be more generally referred to as an information processing device. In the following description, unless otherwise specified, as shown in FIG. 4, each functional block related to acquisition and determination of acoustic information is assumed to be provided in the information communication device 1.
  • FIG. 5 is a flowchart showing an outline of the biometric authentication process performed by the information communication device 1 according to the present embodiment. The operation of the information communication device 1 will be described with reference to FIG.
  • the biometric authentication process of FIG. 5 is executed, for example, when the user 3 starts using the earphone 2 by operating the earphone 2. Alternatively, the biometric authentication process of FIG. 5 may be executed every time a predetermined time elapses when the power of the earphone 2 is on.
  • step S101 the acoustic characteristic acquisition unit 121 gives an instruction to the earphone control device 20 to emit an inspection sound.
  • the earphone control device 20 transmits an inspection signal to the speaker 26, and the speaker 26 emits an inspection sound generated based on the inspection signal to the ear canal of the user 3.
  • the inspection signal a signal including a frequency component in a predetermined range such as a chirp signal, an M-sequence (Maximum Length Sequence) signal, white noise, and an impulse signal can be used.
  • the inspection sound may be an audible sound whose frequency and sound pressure level are within the audible range.
  • the user 3 can be notified that the authentication is being performed by causing the user 3 to perceive the sound wave at the time of authentication.
  • the inspection sound may be an inaudible sound whose frequency or sound pressure level is out of the audible range. In this case, the sound wave can be less likely to be perceived by the user 3, and the comfort during use is improved.
  • the microphone 27 receives the echo sound (otoacoustic emission) in the ear canal or the like and converts it into an electric signal in the time domain. This electrical signal is sometimes called an acoustic signal.
  • the microphone 27 transmits an acoustic signal to the earphone control device 20, and the earphone control device 20 transmits an acoustic signal to the information communication device 1.
  • the acoustic characteristic acquisition unit 121 acquires the acoustic characteristic of the frequency domain based on the sound wave propagating on the user's head.
  • This acoustic characteristic can be, for example, a frequency spectrum obtained by converting an acoustic signal in the time domain into a frequency domain using an algorithm such as a fast Fourier transform.
  • the acquired acoustic characteristics are stored in the HDD 104.
  • step S104 the feature amount extraction unit 122 extracts the feature amount from the acoustic characteristics.
  • the specific content of this process will be described later.
  • the extracted feature amount is stored in the HDD 104 and used for biometric authentication.
  • step S105 the determination unit 123 determines whether or not the user 3 is a registrant by collating the feature amount extracted by the feature amount extraction unit 122 with the feature amount of the registrant recorded in advance in the HDD 104. Is determined. When it is determined that the user 3 is a registrant (YES in step S106), the process proceeds to step S107. When it is determined that the user 3 is not a registrant (NO in step S106), the process proceeds to step S108.
  • step S107 the information communication device 1 transmits a control signal indicating that the user 3 is permitted to use the earphone 2 to the earphone 2. As a result, the earphone 2 is ready for use by the user 3.
  • step S108 the information communication device 1 transmits a control signal to the earphone 2 indicating that the user 3 is not allowed to use the earphone 2.
  • the unusable state may be, for example, a state in which no sound is emitted from the speaker 26 of the earphone 2.
  • the control in steps S107 and S108 may not control the earphone 2 side, but may control the information communication device 1 side.
  • the use permission state and the use disapproval state may be switched by changing the communication connection state between the information communication device 1 and the earphone 2.
  • the determination unit 123 may further determine whether or not the earphone 2 is attached to the ear of the user 3 based on the acoustic characteristics or the feature amount. When it is determined that the user 3 is not worn in the ear, a process of disallowing the use of the earphone 2 may be performed as in the case where it is determined that the user 3 is not a registrant.
  • FIG. 6 is a flowchart showing a feature amount extraction process performed by the information communication device 1 according to the present embodiment.
  • the feature amount extraction process in step S104 of FIG. 5 will be described in more detail with reference to FIG.
  • step S111 the feature amount extraction unit 122 calculates the frequency response function of the rational polynomial model based on the acoustic characteristics acquired by the acoustic characteristic acquisition unit 121.
  • the acoustic characteristics and the frequency response function of the rational polynomial model will be described.
  • the frequency response function of the rational polynomial model is sometimes called the first frequency response function.
  • FIG. 7 is a graph showing a measurement example of the acoustic characteristics acquired by the acoustic characteristics acquisition unit 121.
  • the horizontal axis of FIG. 7 shows the frequency, and the vertical axis shows the signal strength in an arbitrary unit.
  • the vertical axis is displayed on a logarithmic scale.
  • This intensity indicates, for example, the intensity of the sound wave received by the microphone 27.
  • the acoustic characteristics are obtained by normalizing the intensity of the sound wave received by the microphone 27 by the intensity of the sound wave emitted from the speaker 26.
  • the acquired acoustic characteristics have a plurality of peaks (maximum points) P1, P2, P3 and a plurality of notches (minimum points) N1, N2.
  • Peaks P1, P2, P3 and notches N1, N2 represent resonances that occur in the air column formed by the user 3's ear canal, eardrum, and earphone 2. Since a plurality of peaks P1, P2, P3 and notches N1 and N2 are observed, it can be seen that there are a plurality of resonance modes. For example, each of the peaks P1, P2, and P3 shows a resonance mode in which the amplitude of the sound wave increases at the position of the microphone 27 of the earphone 2.
  • a resonance mode in the earphone 2 can also be observed. Since the properties of the peaks P1, P2, P3 and the notches N1 and N2 depend on the shape of the ear canal of the user 3, it is effective for extracting the feature amount for identifying an individual.
  • Such acoustic characteristics can be expressed by the frequency response function based on the rational polynomial model shown in the following equation (1).
  • is an angular frequency.
  • ⁇ l ( ⁇ ) is a basis function in polynomial expansion, and this basis function does not depend on the subject whose acoustic characteristics have been acquired.
  • ⁇ l ( ⁇ ) is a complex function.
  • ⁇ l and ⁇ l are the real coefficients of the polynomial, and this term differs depending on the subject. That is, ⁇ l and ⁇ l are feature quantities indicating the characteristics of the subject.
  • N m is the number of modes assumed in the rational polynomial model, and l is an argument indicating each mode.
  • the denominator of equation (1) becomes zero at the frequency where the peak occurs, and the numerator of equation (1) becomes zero at the frequency where the notch occurs.
  • the peak feature is considered in the denominator and the notch feature is considered in the numerator.
  • the feature amount extraction unit 122 determines the coefficients ⁇ l and ⁇ l so as to approximate the acquired acoustic characteristics by the equation (1), and estimates the frequency response function. For this approximation, an approximate solution method such as a least squares method or a maximum likelihood estimation method, which includes an algorithm such as minimization of an error function, can be used.
  • the feature amount extraction unit 122 outputs the coefficients ⁇ l and ⁇ l of the frequency response function based on the rational polynomial model as the feature amount indicating the user 3.
  • different coefficients for a plurality of N m alpha l extract the beta l, extracted as obtained coefficient alpha l, feature amount by combining the beta l in a plurality of N m mutually May be good.
  • the properties of peaks and notches that can be stably obtained at a plurality of N m can be reflected in the feature amount.
  • the coefficients ⁇ l and ⁇ l are feature quantities that are robust against differences in wearing states because they do not require a process of calculating the logarithm at the time of derivation. Details of this will be described later.
  • the acoustic properties include peaks and notches due to resonances that occur in the ear canal of the user 3, the eardrum, and the air column formed by the eardrum 2. Since the frequencies and sizes of these peaks and notches depend on the shape of the air column described above, they can change depending on the position of the earphone 2. Therefore, the acoustic characteristics may change depending on the wearing state of the earphone 2.
  • FIG. 8 is a graph showing an example of changes in acoustic characteristics when the earphone 2 is repeatedly attached and detached.
  • FIG. 8 shows that the wearing state is changed by repeating the attachment / detachment to acquire the acoustic characteristics five times, and the acoustic characteristics are superimposed and displayed. Focusing on the peaks P4, P5 and notch N3 in FIG. 8, it can be seen that the variation of the notch N3 is larger than the variation of the peaks P4 and P5.
  • the mer cepstrum coefficient has been used as a feature quantity for authentication.
  • the process of deriving the mel spectrum coefficient may include a process of calculating the logarithm of the acoustic characteristics. Converting the acoustic properties to a logarithmic scale emphasizes areas of low intensity.
  • the fluctuation due to the change in the mounting state is remarkable.
  • the conversion to a logarithmic scale emphasizes the effect of fluctuations near the notch where the intensity is minimal. Due to the superposition of these two effects, the feature amount extraction using the mer cepstrum coefficient including the process of calculating the logarithm in the derivation process may be easily affected by the change in the wearing state.
  • the feature quantity extraction method of the present embodiment does not require the process of calculating the logarithm at the time of derivation, and is therefore robust against the difference in the mounting state.
  • the present embodiment while paying attention to the features of the notch and the peak, it is possible to extract a feature amount that is robust against the difference in the wearing state of the earphone 2.
  • the feature quantity is extracted from the frequency response function by the rational polynomial model. It will be explained that this process is a feature extraction method focusing on the features of notches and peaks.
  • the frequency response function based on the rational polynomial model of equation (1) can be converted into the frequency response function based on the pole / residue model shown in equation (5) below. This transformation corresponds to the partial fraction expansion of the frequency response function by the rational polynomial model.
  • the frequency response function of the pole / residue model is sometimes called the second frequency response function.
  • ⁇ k is a complex number indicating the pole of the acoustic characteristic
  • R k is a complex number indicating the shape of the pole.
  • ⁇ k and R k are sometimes called poles and residues, respectively.
  • j is an imaginary unit
  • C is a remainder term
  • "*" is a symbol indicating complex conjugate.
  • ⁇ k includes information on the intrinsic frequency f k of the pole and the attenuation ratio ⁇ k of the pole.
  • the natural frequency f k and the pole attenuation ratio ⁇ k are expressed by the following equations (6) and (7), respectively. Note that Re ( ⁇ k ) is the real part of ⁇ k , and Im ( ⁇ k ) is the imaginary part of ⁇ k.
  • equation (5) is one in which the frequency response function expressed by the sum of N m-number of damped oscillation.
  • the frequency response function based on the rational polynomial model in Eq. (1) can be converted into the frequency response function based on the pole / residue model constructed by the sum of damped sine waves. Therefore, the frequency response function based on the rational polynomial model substantially includes the characteristics of the resonance mode, and is suitable for feature extraction focusing on the peak and notch characteristics of the resonance mode.
  • the features may be extracted from the terms included in the frequency response function of the pole / residue model instead of the rational polynomial model.
  • each term of the pole / residue model changes depending on the subject, it is difficult to determine the term to be compared when matching the features, whereas the basis function of the rational polynomial model is Since it does not depend on the user, there is an advantage that it is easy to compare when collating the features. Therefore, it is desirable to extract the features from the terms included in the frequency response function of the rational polynomial model.
  • the information processing system of the present embodiment is different from the first embodiment in the content of the feature amount extraction process, but the other parts are the same as those of the first embodiment.
  • the differences from the first embodiment will be mainly described, and the description of common parts will be omitted or simplified.
  • FIG. 9 is a flowchart showing a feature amount extraction process performed by the information communication device 1 according to the present embodiment.
  • the present embodiment differs from the first embodiment in that a process of converting the rational polynomial model into a pole / residue model and excluding some terms is added.
  • step S111 the feature amount extraction unit 122 calculates the frequency response function of the rational polynomial model as in the first embodiment.
  • step S121 the feature extraction unit 122 converts the frequency response function of the rational polynomial model into the frequency response function of the pole / residue model. Since the content of this process is as described in the first embodiment using the equations (1), (5) and the like, the description thereof will be omitted.
  • the feature amount extraction unit 122 determines an insignificant term from each term of the frequency response function of the pole / residue model.
  • the non-significant term is a term in which it is clear that the damped vibration based on the physical phenomenon of resonance in the ear canal is not properly expressed. Specifically, there are terms such as a term in which the attenuation ratio ⁇ k is negative and a term in which the natural frequency f k is outside the frequency range in which resonance can occur, which are clearly contrary to the physical phenomenon of resonance in the ear canal. Be done.
  • the feature amount extraction unit 122 determines an unstable term from each term in the frequency response function of the pole / residue model.
  • the unstable term is a term that does not appear stably when the process of approximating the acoustic characteristics with the frequency response function is performed several times by changing the calculation conditions such as the approximation conditions. For example, a term that does not have the same natural frequency and the same attenuation ratio when the number of modes N m considered in the model as shown in Eq. (1) or Eq. (5) is changed is an unstable term. ..
  • the feature extraction unit 122 excludes some terms from the frequency response function of the pole / residue model and converts it into the frequency response function of the rational polynomial model.
  • the "partial term” may be an insignificant term extracted in step S122 and an unstable term extracted in step S123. This excludes terms that do not properly represent physical phenomena. Further, since it is not necessary to extract the remainder term C as a feature quantity indicating the feature of the user 3, the "partial term” may include the remainder term C.
  • the process of excluding some of the terms may be, specifically, a process of changing the value of the residue R k or the remainder term C of the corresponding term to zero.
  • step S112 the feature amount extraction unit 122 outputs the coefficient of the frequency response function of the rational polynomial model obtained in step S124 as the feature amount by the same processing as in the first embodiment.
  • the method of the present embodiment it is possible to extract a feature amount that is robust against the difference in the wearing state as in the first embodiment.
  • the feature amount is extracted after excluding insignificant terms, unstable terms, etc., it is possible to extract the feature amount that more appropriately reflects the biological features such as the shape of the ear canal of the user 3. it can.
  • the information processing system of the present embodiment is different from the first and second embodiments in the content of the feature amount extraction process, but is the same as the first and second embodiments except for the other parts.
  • the differences from the second embodiment will be mainly described, and the description of common parts will be omitted or simplified.
  • FIG. 10 is a flowchart showing a feature amount extraction process performed by the information communication device 1 according to the present embodiment.
  • a process of reconstructing the spectrum from the frequency response function of the rational polynomial model obtained by excluding some terms to calculate the Mel-Frequency Cepstrum Coefficient (MFCC) is added. The point is different from the second embodiment.
  • MFCC Mel-Frequency Cepstrum Coefficient
  • step S111 to step S124 Since the processes from step S111 to step S124 are the same as those in the second embodiment, the description thereof will be omitted.
  • step S131 the feature extraction unit 122 reconstructs the spectrum of acoustic characteristics from the frequency response function of the rational polynomial model generated in step S124.
  • step S132 the feature amount extraction unit 122 calculates the mel frequency cepstrum coefficient from the reconstructed spectrum.
  • the mel frequency cepstrum coefficient is described.
  • a mel filter bank is a filter bank that includes a plurality of triangular window functions.
  • the plurality of triangular window functions are configured so that the higher the frequency, the wider the frequency width, based on the Mel scale considering the human auditory characteristics.
  • the spectrum obtained by applying the mel filter bank is called the mel spectrum.
  • the intensity (vertical axis) of the mel spectrum converted into a logarithmic scale is called a mel logarithmic spectrum.
  • the feature amount extraction unit 122 performs a discrete cosine transform on the mel logarithmic spectrum to calculate the cepstrum of the quefrency domain.
  • the mel frequency cepstrum coefficient is calculated by extracting the coefficient of the order term of the predetermined range of the cepstrum. In this method, it is possible to obtain features that are efficiently compressed by weighting in consideration of human auditory characteristics.
  • step S133 the feature amount extraction unit 122 outputs the mel frequency cepstrum coefficient acquired by the process of step S132 as a feature amount.
  • the method of the present embodiment it is possible to extract a feature amount that more appropriately expresses the features of the living body such as the shape of the ear canal of the user 3.
  • weighting is performed in consideration of human auditory characteristics in the process of calculating the mel frequency cepstrum coefficient, it is possible to extract features with efficient compression.
  • the information processing system of the present embodiment is different from the first to third embodiments in the content of the feature amount extraction process, but the other parts are the same as those of the first to third embodiments.
  • the differences from the third embodiment will be mainly described, and the description of common parts will be omitted or simplified.
  • FIG. 11 is a flowchart showing a feature amount extraction process performed by the information communication device 1 according to the present embodiment.
  • the present embodiment differs from the second or third embodiment in that both the coefficient of the frequency response function of the rational polynomial model and the mel frequency cepstrum coefficient are extracted as features.
  • step S111 to step S124 Since the processes from step S111 to step S124 are the same as those in the second embodiment, the description thereof will be omitted.
  • step S141 the feature amount extraction unit 122 outputs the coefficient of the frequency response function of the rational polynomial model obtained in step S124 as the first feature amount by the same processing as in the first or second embodiment.
  • steps S131 and S132 are the same as those of the third embodiment, the description thereof will be omitted.
  • step S142 the feature amount extraction unit 122 outputs the mel frequency cepstrum coefficient acquired by the process of step S132 as the second feature amount.
  • step S105 in FIG. 5 it is determined whether or not the user 3 is a registrant based on both the first feature amount and the second feature amount. Specifically, the first score obtained by the collation using the first feature amount and the second score obtained by the collation using the second feature amount are weighted and added at a predetermined ratio, and after the addition. A method of determining whether or not the user 3 is a registrant based on the score can be used. Further, the collation using the first feature amount and the collation using the second feature amount may be performed separately, and the logical sum or the logical product of the two collation results may be used as the final collation result.
  • the feature amount extraction method according to the second embodiment and the feature amount extraction method according to the third embodiment are used in combination, both effects can be obtained. Further, in the present embodiment, since the first feature amount from which the peak and notch features are extracted and the second feature amount from which the waveform features of the acoustic characteristics are mainly extracted can be used in combination, the determination can be made more multifaceted. Highly accurate biometric authentication can be realized in consideration of various information.
  • FIG. 12 is a functional block diagram of the information processing device 4 according to the fifth embodiment.
  • the information processing device 4 includes an acquisition unit 421 and an extraction unit 422.
  • the acquisition unit 421 acquires the acoustic characteristics of the frequency domain based on the sound waves propagating in the user's head.
  • the extraction unit 422 generates a first frequency response function having a rational polypoly whose denominator includes a term indicating the characteristic of the peak of the acoustic characteristic, and the feature used for bioauthentication of the user based on the first frequency response function. Extract the amount.
  • an information processing device 4 capable of extracting a feature amount that is robust against a difference in wearing state.
  • the earphone 2 is illustrated as an example of the wearable device, but the earphone is not limited to the earphone worn in the external ear canal as long as the acoustic information necessary for processing can be acquired.
  • the wearable device may be headphones that cover the entire ear, or may be a bone conduction type acoustic device that indirectly transmits sound waves from the head other than the external ear canal.
  • the wearable device may be composed of two earphones worn on both ears. In that case, the biometric authentication of the above-described embodiment may be performed on both ears, and only one ear may be described above. The biometric authentication of the embodiment may be performed.
  • a processing method in which a program for operating the configuration of the embodiment is recorded in a storage medium so as to realize the functions of the above-described embodiment, the program recorded in the storage medium is read as a code, and the program is executed in a computer is also described in each embodiment. Included in the category. That is, a computer-readable storage medium is also included in the scope of each embodiment. Moreover, not only the storage medium in which the above-mentioned program is recorded but also the program itself is included in each embodiment. Further, one or more components included in the above-described embodiment are circuits such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array) configured to realize the functions of the components. There may be.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the storage medium for example, a floppy (registered trademark) disk, a hard disk, an optical disk, a magneto-optical disk, a CD (Compact Disk) -ROM, a magnetic tape, a non-volatile memory card, or a ROM can be used.
  • the program recorded on the storage medium is not limited to the one that executes the processing by itself, but the one that operates on the OS (Operating System) and executes the processing in cooperation with the functions of other software and the expansion board. Is also included in the category of each embodiment.
  • SaaS Software as a Service
  • An acquisition unit that acquires the acoustic characteristics of the frequency domain based on the sound waves propagating in the user's head, A term indicating the characteristics of the peak of the acoustic characteristics is included in the denominator, and a term indicating the characteristics of the notch of the acoustic characteristics is included in the numerator to generate a first frequency response function having a rational polynomial.
  • An extraction unit that extracts the feature amount used for bioauthentication of the user based on the frequency response function, and Information processing device.
  • Appendix 2 The extraction unit extracts the coefficient of the rational polynomial as the feature quantity.
  • the information processing device according to Appendix 1.
  • the acoustic property has a plurality of the peaks and has a plurality of the peaks.
  • the extraction unit generates a second frequency response function including the sum of a plurality of fractions.
  • the information processing device according to any one of Supplementary note 1 to 3.
  • the second frequency response function includes a partial fraction expansion of the first frequency response function.
  • the extraction unit generates the first frequency response function by excluding some terms from the plurality of fractions included in the second frequency response function and then converting the first frequency response function into the first frequency response function.
  • the information processing device according to any one of Supplementary note 4 to 7.
  • the extraction unit generates the first frequency response function by excluding terms that are not physically significant from the plurality of fractions included in the second frequency response function and then converting the terms into the first frequency response function.
  • the information processing device according to any one of Supplementary note 4 to 8.
  • the extraction unit removes terms unstable with respect to changes in calculation conditions from the plurality of fractions included in the second frequency response function, and then converts the first frequency response function into the first frequency response function. Generate a frequency response function, The information processing device according to any one of Supplementary note 4 to 9.
  • the extraction unit generates a spectrum of a frequency domain using the first frequency response function converted from the second frequency response function.
  • the information processing device according to any one of Appendix 8 to 10.
  • the extraction unit extracts the feature amount based on the spectrum.
  • the information processing device according to Appendix 11.
  • the extraction unit extracts the first feature amount based on the coefficient of the first frequency response function, and extracts the second feature amount based on the spectrum.
  • the information processing device according to Appendix 11 or 12.
  • Appendix 14 The acoustic characteristics are based on sound waves propagating in the user's ear canal acquired by a wearable device worn on the user's head.
  • the information processing device according to any one of Appendix 1 to 13.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Otolaryngology (AREA)
  • Headphones And Earphones (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Collating Specific Patterns (AREA)

Abstract

ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法及び記憶媒体
 本発明は、情報処理装置、情報処理方法及び記憶媒体に関する。
 特許文献1には、ユーザの頭部を伝搬する音響信号に基づく個人認証機能を備えたイヤホンが開示されている。特許文献1の個人認証装置は、音響特性から対数スペクトラム、メルケプストラム係数、線形予測分析係数等を特徴量として抽出してユーザの認証に用いている。
国際公開第2018/034178号 国際公開第2018/198310号 特開2005-339265号公報
 特許文献1に記載されているような装着型機器により取得される音響特性は、装着状態によって変化し得る。このような要因による音響特性の変化は認証精度に影響を与える可能性があるため、装着状態の違いに対して頑健な特徴抽出手法が求められている。
 本発明は、装着状態の違いに対して頑健な特徴量を抽出することができる情報処理装置、情報処理方法及び記憶媒体を提供することを目的とする。
 本発明の一観点によれば、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、を備える、情報処理装置が提供される。
 本発明の他の一観点によれば、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、を備える、情報処理方法が提供される。
 本発明の他の一観点によれば、コンピュータに、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、を備える情報処理方法を実行させるためのプログラムが記憶された記憶媒体が提供される。
 本発明によれば、装着状態の違いに対して頑健な特徴量を抽出することができる情報処理装置、情報処理方法及び記憶媒体が提供される。
第1実施形態に係る情報処理システムの全体構成を示す模式図である。 第1実施形態に係るイヤホン制御装置のハードウェア構成例を示すブロック図である。 第1実施形態に係る情報通信装置のハードウェア構成例を示すブロック図である。 第1実施形態に係るイヤホン及び情報通信装置の機能ブロック図である。 第1実施形態に係る情報通信装置により行われる生体認証処理の概略を示すフローチャートである。 第1実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。 音響特性の測定例を示すグラフである。 イヤホンの着脱を繰り返したときの音響特性の変化例を示すグラフである。 第2実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。 第3実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。 第4実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。 第5実施形態に係る情報処理装置の機能ブロック図である。
 以下、図面を参照して、本発明の例示的な実施形態を説明する。図面において同様の要素又は対応する要素には同一の符号を付し、その説明を省略又は簡略化することがある。
 [第1実施形態]
 本実施形態に係る情報処理システムについて説明する。本実施形態の情報処理システムは、イヤホン等の装着型機器により生体認証を行うためのシステムである。
 図1は、本実施形態に係る情報処理システムの全体構成を示す模式図である。情報処理システムは、互いに無線通信接続され得る情報通信装置1とイヤホン2とを備える。
 イヤホン2は、イヤホン制御装置20、スピーカ26及びマイクロホン27を備える。イヤホン2は、ユーザ3の頭部、特に耳に装着可能な音響機器であり、典型的にはワイヤレスイヤホン、ワイヤレスヘッドセット等である。スピーカ26は、装着時にユーザ3の外耳道に向けて音波を発する音波発生部として機能するものであり、イヤホン2の装着面側に配されている。マイクロホン27は、装着時にユーザ3の外耳道等で反響した音波を受けることができるようにイヤホン2の装着面側に配されている。イヤホン制御装置20は、スピーカ26及びマイクロホン27の制御及び情報通信装置1との通信を行う。
 なお、本明細書において、音波、音声等の「音」は、周波数又は音圧レベルが可聴範囲外である非可聴音を含むものとする。
 情報通信装置1は、例えば、イヤホン2と通信可能に接続されるコンピュータであり、音響情報に基づく生体認証を行う。情報通信装置1は、更に、イヤホン2の動作の制御、イヤホン2から発せられる音波の生成用の音声データの送信、イヤホン2が受けた音波から得られた音声データの受信等を行う。具体例としては、ユーザ3がイヤホン2を用いて音楽鑑賞を行う場合には、情報通信装置1は、音楽の圧縮データをイヤホン2に送信する。また、イヤホン2がイベント会場、病院等における業務指令用の電話装置である場合には、情報通信装置1は業務指示の音声データをイヤホン2に送信する。この場合、更に、ユーザ3の発話の音声データをイヤホン2から情報通信装置1に送信してもよい。
 なお、この全体構成は一例であり、例えば、情報通信装置1とイヤホン2が有線接続されていてもよい。また、情報通信装置1とイヤホン2が一体の装置として構成されていてもよく、情報処理システム内に更に別の装置が含まれていてもよい。
 図2は、イヤホン制御装置20のハードウェア構成例を示すブロック図である。イヤホン制御装置20は、CPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203及びフラッシュメモリ204を備える。また、イヤホン制御装置20は、スピーカI/F(Interface)205、マイクロホンI/F206、通信I/F207及びバッテリ208を備える。なお、イヤホン制御装置20の各部は、不図示のバス、配線、駆動装置等を介して相互に接続される。
 CPU201は、ROM203、フラッシュメモリ204等に記憶されたプログラムに従って所定の演算を行うとともに、イヤホン制御装置20の各部を制御する機能をも有するプロセッサである。RAM202は、揮発性記憶媒体から構成され、CPU201の動作に必要な一時的なメモリ領域を提供する。ROM203は、不揮発性記憶媒体から構成され、イヤホン制御装置20の動作に用いられるプログラム等の必要な情報を記憶する。フラッシュメモリ204は、不揮発性記憶媒体から構成され、データの一時記憶、イヤホン制御装置20の動作用プログラムの記憶等を行う記憶装置である。
 通信I/F207は、Bluetooth(登録商標)、Wi-Fi(登録商標)等の規格に基づく通信インターフェースであり、情報通信装置1との通信を行うためのモジュールである。
 スピーカI/F205は、スピーカ26を駆動するためのインターフェースである。スピーカI/F205は、デジタルアナログ変換回路、増幅器等を含む。スピーカI/F205は、音声データをアナログ信号に変換し、スピーカ26に供給する。これによりスピーカ26は、音声データに基づく音波を発する。
 マイクロホンI/F206は、マイクロホン27から信号を取得するためのインターフェースである。マイクロホンI/F206は、アナログデジタル変換回路、増幅器等を含む。マイクロホンI/F206は、マイクロホン27が受け取った音波により生じたアナログ信号をデジタル信号に変換する。これにより、イヤホン制御装置20は、受け取った音波に基づく音声データを取得する。
 バッテリ208は、例えば二次電池であり、イヤホン2の動作に必要な電力を供給する。これにより、イヤホン2は、外部の電源に有線接続することなく、ワイヤレスで動作することができる。
 なお、図2に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。例えば、イヤホン2はユーザ3による操作を受け付けることができるようにボタン等の入力装置を更に備えていてもよく、ユーザ3に情報を提供するためのディスプレイ、表示灯等の表示装置を更に備えていてもよい。このように図2に示されているハードウェア構成は適宜変更可能である。
 図3は、情報通信装置1のハードウェア構成例を示すブロック図である。情報通信装置1は、CPU101、RAM102、ROM103及びHDD(Hard Disk Drive)104を備える。また、情報通信装置1は、通信I/F105、入力装置106及び出力装置107を備える。なお、情報通信装置1の各部は、不図示のバス、配線、駆動装置等を介して相互に接続される。
 図3では、情報通信装置1を構成する各部が一体の装置として図示されているが、これらの機能の一部は外付け装置により提供されるものであってもよい。例えば、入力装置106及び出力装置107は、CPU101等を含むコンピュータの機能を構成する部分とは別の外付け装置であってもよい。
 CPU101は、ROM103、HDD104等に記憶されたプログラムに従って所定の演算を行うとともに、情報通信装置1の各部を制御する機能をも有するプロセッサである。RAM102は、揮発性記憶媒体から構成され、CPU101の動作に必要な一時的なメモリ領域を提供する。ROM103は、不揮発性記憶媒体から構成され、情報通信装置1の動作に用いられるプログラム等の必要な情報を記憶する。HDD104は、不揮発性記憶媒体から構成され、イヤホン2と送受信するデータの一時記憶、情報通信装置1の動作用プログラムの記憶等を行う記憶装置である。
 通信I/F105は、Bluetooth(登録商標)、Wi-Fi(登録商標)等の規格に基づく通信インターフェースであり、イヤホン2等の他の装置との通信を行うためのモジュールである。
 入力装置106は、キーボード、ポインティングデバイス等であって、ユーザ3が情報通信装置1を操作するために用いられる。ポインティングデバイスの例としては、マウス、トラックボール、タッチパネル、ペンタブレット等が挙げられる。
 出力装置107は、例えば表示装置である。表示装置は、液晶ディスプレイ、OLED(Organic Light Emitting Diode)ディスプレイ等であって、情報の表示、操作入力用のGUI(Graphical User Interface)等の表示に用いられる。入力装置106及び出力装置107は、タッチパネルとして一体に形成されていてもよい。
 なお、図3に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。更に、本実施形態の一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態の機能が複数の装置に分散されて実現されるものであってもよい。例えば、HDD104は、半導体メモリを用いたSSD(Solid State Drive)に置換されていてもよく、クラウドストレージに置換されていてもよい。このように図3に示されているハードウェア構成は適宜変更可能である。
 図4は、本実施形態に係るイヤホン2及び情報通信装置1の機能ブロック図である。情報通信装置1は、音響特性取得部121、特徴量抽出部122及び判定部123を備える。イヤホン2のブロック図の構成は図2と同様であるため説明を省略する。なお、音響特性取得部121はより一般的に取得部と呼ばれることがあり、特徴量抽出部122はより一般的に抽出部と呼ばれることがある。
 CPU101は、ROM103、HDD104等に記憶されたプログラムをRAM102にロードして実行することで、所定の演算処理を行う。また、CPU101は、当該プログラムに基づいて、通信I/F105等の情報通信装置1の各部を制御する。これにより、CPU101は、音響特性取得部121、特徴量抽出部122及び判定部123の機能を実現する。各機能ブロックにより行われる具体的な処理の内容については後述する。
 なお、図4において、情報通信装置1内に記載されている機能ブロックの各機能の一部又は全部は、情報通信装置1ではなくイヤホン制御装置20に設けられていてもよい。すなわち、上述の各機能は、情報通信装置1によって実現されてもよく、イヤホン制御装置20によって実現されてもよく、情報通信装置1とイヤホン制御装置20とが協働することにより実現されてもよい。情報通信装置1及びイヤホン制御装置20は、より一般的に情報処理装置と呼ばれることもある。以下の説明では、特記されている場合を除き、図4に示されているとおり、音響情報の取得及び判定に関する各機能ブロックは情報通信装置1内に設けられているものとする。
 図5は、本実施形態に係る情報通信装置1により行われる生体認証処理の概略を示すフローチャートである。図5を参照して、情報通信装置1の動作を説明する。
 図5の生体認証処理は、例えば、ユーザ3がイヤホン2を操作することにより使用を開始したときに実行される。あるいは、図5の生体認証処理は、イヤホン2の電源がオンであるときに所定の時間が経過するごとに実行されてもよい。
 ステップS101において、音響特性取得部121は、イヤホン制御装置20に対し、検査音を発するための指示を行う。イヤホン制御装置20は、スピーカ26に検査用信号を送信し、スピーカ26は、検査用信号に基づいて生成された検査音をユーザ3の外耳道に発する。
 検査用信号には、チャープ信号、M系列(Maximum Length Sequence)信号、白色雑音、インパルス信号等の所定範囲の周波数成分を含む信号が用いられ得る。これにより、所定範囲内の周波数の情報を含む音響信号を取得することができる。なお、検査音は、周波数及び音圧レベルが可聴範囲内である可聴音であり得る。この場合、認証時に音波をユーザ3に知覚させることにより、認証を行っていることをユーザ3に知らせることができる。また、検査音は、周波数又は音圧レベルが可聴範囲外である非可聴音であってもよい。この場合、音波がユーザ3に知覚されにくくすることができ、利用時の快適性が向上する。
 ステップS102において、マイクロホン27は外耳道等における反響音(耳音響)を受信して時間ドメインの電気信号に変換する。この電気信号は、音響信号と呼ばれることもある。マイクロホン27は、音響信号をイヤホン制御装置20に送信し、イヤホン制御装置20は、音響信号を情報通信装置1に送信する。
 ステップS103において、音響特性取得部121は、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する。この音響特性は、例えば、時間ドメインの音響信号を高速フーリエ変換等のアルゴリズムを用いて周波数ドメインに変換することにより得られる周波数スペクトラムであり得る。取得された音響特性は、HDD104に記憶される。
 ステップS104において、特徴量抽出部122は、音響特性から特徴量を抽出する。この処理の具体的な内容は後述する。抽出された特徴量はHDD104に記憶され、生体認証に用いられる。
 ステップS105において、判定部123は、特徴量抽出部122により抽出された特徴量と、あらかじめHDD104に記録されている登録者の特徴量とを照合することにより、ユーザ3が登録者であるか否かを判定する。ユーザ3が登録者であると判定された場合(ステップS106におけるYES)、処理は、ステップS107に移行する。ユーザ3が登録者ではないと判定された場合(ステップS106におけるNO)、処理は、ステップS108に移行する。
 ステップS107において、情報通信装置1は、ユーザ3によるイヤホン2の使用を許可することを示す制御信号をイヤホン2に送信する。これにより、イヤホン2はユーザ3により使用可能な状態となる。
 ステップS108において、情報通信装置1は、ユーザ3によるイヤホン2の使用を許可しないことを示す制御信号をイヤホン2に送信する。これにより、イヤホン2はユーザ3により使用不可能な状態となる。使用不可能な状態とは、例えば、イヤホン2のスピーカ26から音声が発せられない状態等であり得る。なお、ステップS107、S108での制御は、イヤホン2側を制御するものではなく、情報通信装置1側を制御するものであってもよい。例えば、情報通信装置1とイヤホン2との通信接続の状態を異ならせることにより、使用許可状態と使用不許可状態を切り替えるものであってもよい。
 なお、ステップS105において、判定部123は、音響特性又は特徴量に基づいてイヤホン2がユーザ3の耳に装着されているか否かを更に判定してもよい。ユーザ3の耳に装着されていないと判定された場合には、ユーザ3が登録者ではないと判定された場合と同様に、イヤホン2の使用を不許可にする処理が行われ得る。
 図6は、本実施形態に係る情報通信装置1により行われる特徴量抽出処理を示すフローチャートである。図6を参照して、図5のステップS104における特徴量抽出処理をより詳細に説明する。
 ステップS111において、特徴量抽出部122は、音響特性取得部121により取得された音響特性に基づいて有理多項式モデルの周波数応答関数を算出する。音響特性及び有理多項式モデルの周波数応答関数について説明する。なお、有理多項式モデルの周波数応答関数は第1周波数応答関数と呼ばれることもある。
 図7は、音響特性取得部121により取得される音響特性の測定例を示すグラフである。図7の横軸は周波数を示しており、縦軸は、任意単位による信号の強度を示している。なお、縦軸は対数目盛で表示されている。この強度は、例えば、マイクロホン27で受けとられた音波の強度を示すものである。以下では、音響特性は、マイクロホン27で受けとられた音波の強度をスピーカ26から発せられた音波の強度で規格化することにより得られたものとする。
 図7に示されるように、取得される音響特性は、複数のピーク(極大点)P1、P2、P3と、複数のノッチ(極小点)N1、N2とを有する。ピークP1、P2、P3及びノッチN1、N2は、ユーザ3の外耳道、鼓膜及びイヤホン2により形成される気柱において生じる共鳴を示している。ピークP1、P2、P3及びノッチN1、N2が複数個観測されていることから複数の共鳴モードが存在することがわかる。例えば、ピークP1、P2、P3の各々は、イヤホン2のマイクロホン27の位置において音波の振幅が大きくなる共鳴モードを示している。なお、上述の気柱における共鳴の他に、イヤホン2内での共鳴モードも観測され得る。ピークP1、P2、P3及びノッチN1、N2の性質は、ユーザ3の外耳道の形状等に依存するため、個人を識別するための特徴量の抽出に有効である。
 このような音響特性は、以下の式(1)に示される有理多項式モデルによる周波数応答関数により表現することができる。
Figure JPOXMLDOC01-appb-M000001
 ここで、ωは角周波数である。Ω(ω)は多項式展開における基底関数であり、この基底関数は音響特性が取得された対象者に依存しない。なお、Ω(ω)は複素関数である。α、βは、多項式の実係数であり、この項は対象者によって異なる。すなわち、α、βは対象者の特徴を示す特徴量である。Nは有理多項式モデルにおいて仮定するモードの数であり、lは各モードを示す引数である。
 ピークが生じている周波数においては式(1)の分母がゼロになり、ノッチが生じている周波数においては式(1)の分子がゼロになる。このように、有理多項式モデルによる周波数応答関数では、ピークの特徴が分母で考慮されており、ノッチの特徴が分子で考慮されている。特徴量抽出部122は、取得された音響特性を式(1)で近似するように係数α、βを決定して周波数応答関数の推定を行う。この近似には、誤差関数の最小化等のアルゴリズムを含む、最小二乗法、最尤推定法等の近似解法が用いられ得る。
 ステップS112において、特徴量抽出部122は、ユーザ3を示す特徴量として、有理多項式モデルによる周波数応答関数の係数α、βを出力する。この特徴量の出力において、互いに異なる複数のNに対して係数α、βを抽出し、複数のNにおいて得られた係数α、βを結合して特徴量として抽出してもよい。これにより、複数のNにおいて安定的に得られるピーク及びノッチの性質を、特徴量に反映することができる。
 係数α、βは、導出時に対数を算出する処理を要しないため、装着状態の違いに対して頑健な特徴量である。これについての詳細は後述する。
 上述の特徴量抽出手法の効果を説明する。上述のように、音響特性には、ユーザ3の外耳道、鼓膜及びイヤホン2により形成される気柱において生じる共鳴によるピーク及びノッチが含まれている。これらのピーク及びノッチの周波数及び大きさは、上述の気柱の形状に依存するものであるため、イヤホン2の位置によって変化し得る。したがって、イヤホン2の装着状態の違いによって音響特性が変化することがある。
 図8は、イヤホン2の着脱を繰り返したときの音響特性の変化例を示すグラフである。図8は、着脱を繰り返すことにより装着状態を変化させて音響特性を5回取得し、それらの音響特性を重ねて表示したものである。図8のピークP4、P5及びノッチN3に着目すると、ノッチN3のばらつきがピークP4、P5のばらつきに比べて大きいことがわかる。
 ノッチN3のばらつきの方がピークP4、P5のばらつきよりも大きい理由について、簡単な例を挙げて説明する。外耳道内に存在する共鳴モードが2つのみであるものと仮定し、2つの共鳴モードに起因する音響特性がS(f)、S(f)の2つに分離できるものとする。そして、S(f)は固有周波数fにおいてピークが生じる特性を有し、S(f)は固有周波数fにおいてピークが生じる特性を有するものとする。このとき、fとfの間の周波数において、2つのモードの干渉を考慮した音響特性S(f)は、モード間の位相差をθとすると、以下の式(2)を満たす。
Figure JPOXMLDOC01-appb-M000002
 イヤホン2の装着状態が変化すると、|S(f)|、|S(f)|及びθの3つのパラメータが変化することにより、|S(f)|も変化する。ここで、固有周波数fにおいては、S(f)の影響は十分に小さいため、以下の式(3)のように近似できる。
Figure JPOXMLDOC01-appb-M000003
 また、固有周波数fにおいては、S(f)の影響は十分に小さいため、以下の式(4)のように近似できる。
Figure JPOXMLDOC01-appb-M000004
 式(3)及び式(4)より、固有周波数の近傍ではθを含む項が無視できる。そのため、固有周波数の近傍では、装着状態の変化による絶対値(パワー)の変化の影響は受けるものの、装着状態の変化による位相差の変化の影響は受けにくいことがわかる。これは、図8においてピークP4、P5の近傍で比較的変動が小さいことと対応する。これに対し、fとfの中間付近の周波数では上述の近似は成り立たないので、絶対値の変化と位相差の変化の両方が音響特性の変化要因となり得る。これは、図8においてノッチN3の近傍で比較的変動が大きいことと対応する。
 特許文献1に記載されているように、従来、メルケプストラム係数が認証用の特徴量として用いられることがあった。このメルスペクトラム係数の導出過程では、音響特性の対数を算出する処理が含まれる場合がある。音響特性を対数スケールに変換すると、強度が小さい領域が強調される。
 上述のように、ノッチ近傍では、隣接するモード間の位相差θの影響を受けやすいため、装着状態の変化による変動が顕著である。これに加えて、対数スケールへの変換により強度が極小であるノッチ近傍の変動の影響が強調される。この2つの影響が重畳されることにより、導出過程に対数を算出する処理を含むメルケプストラム係数を用いた特徴量抽出は、装着状態の変化による影響を受けやすいことがあった。
 これに対し、本実施形態の特徴量抽出手法は、導出時に対数を算出する処理を要しないため、装着状態の違いに対して頑健である。以上の理由により、本実施形態ではノッチ及びピークの特徴に着目しつつも、イヤホン2の装着状態の違いに対して頑健な特徴量を抽出することができる。
 本実施形態では、有理多項式モデルによる周波数応答関数から特徴量の抽出が行われる。この処理がノッチ、ピークの特徴に着目した特徴量の抽出手法であることを説明する。式(1)の有理多項式モデルによる周波数応答関数は、以下の式(5)に示される極/留数モデルによる周波数応答関数に変換することができる。この変換は、有理多項式モデルによる周波数応答関数の部分分数展開に相当する。なお、極/留数モデルの周波数応答関数は第2周波数応答関数と呼ばれることもある。
Figure JPOXMLDOC01-appb-M000005
 ここで、λは、音響特性の極を示す複素数であり、Rは、極の形状を示す複素数である。λ、Rは、それぞれ、極、留数と呼ばれることもある。なお、jは虚数単位であり、Cは剰余項であり、「※」は複素共役を示す記号である。
 λは、物理的には、極の固有周波数fと極の減衰比ζの情報を含んでいる。固有周波数fと極の減衰比ζは、以下の式(6)と式(7)によりそれぞれ表される。なお、Re(λ)は、λの実部であり、Im(λ)は、λの虚部である。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 固有周波数において、式(5)の括弧内のjω-λの項の虚部はゼロになり、jω-λの項の実部は減衰比ζにより定まる定数となる。したがって、式(5)の括弧内の項は、k個目のピークを表現する減衰振動の関数である。言い換えると、式(5)は、周波数応答関数をN個の減衰振動の和で表現したものである。
 このように、式(1)の有理多項式モデルによる周波数応答関数は、減衰振動の和により構成された極/留数モデルによる周波数応答関数に変換することができる。したがって、有理多項式モデルによる周波数応答関数には、共鳴モードの特徴が実質的に含まれており、共鳴モードが有するピーク及びノッチの特徴に着目した特徴量抽出に好適である。
 なお、有理多項式モデルではなく極/留数モデルの周波数応答関数に含まれる項から特徴量を抽出してもよい。しかしながら、極/留数モデルの各項は、対象者に依存して変化するため、特徴量の照合時に比較すべき項を判別するのが困難であるのに対し、有理多項式モデルの基底関数はユーザに依存しないため、特徴量の照合時に比較をしやすい利点がある。したがって、有理多項式モデルの周波数応答関数に含まれる項から特徴量を抽出することが望ましい。
 [第2実施形態]
 本実施形態の情報処理システムは、特徴量抽出処理の内容が第1実施形態と相違するが、それ以外の部分については第1実施形態と同様である。以下では主として第1実施形態との相違点について説明するものとし、共通部分については説明を省略又は簡略化する。
 図9は、本実施形態に係る情報通信装置1により行われる特徴量抽出処理を示すフローチャートである。本実施形態では、有理多項式モデルを極/留数モデルに変換して一部の項を除外する処理が追加されている点が第1実施形態と相違する。
 ステップS111において、特徴量抽出部122は、第1実施形態と同様に有理多項式モデルの周波数応答関数を算出する。
 ステップS121において、特徴量抽出部122は、有理多項式モデルの周波数応答関数を極/留数モデルの周波数応答関数に変換する。この処理の内容は式(1)、式(5)等を用いて第1実施形態で述べたとおりであるため説明を省略する。
 ステップS122において、特徴量抽出部122は、極/留数モデルの周波数応答関数の各項の中から有意でない項を判定する。有意でない項とは、外耳道内の共鳴という物理現象に基づく減衰振動を適切に表現していないことが明らかな項である。具体的には、減衰比ζが負である項、固有周波数fが共鳴し得る周波数範囲外である項等のように、明らかに外耳道内の共鳴という物理現象に反している項が挙げられる。
 ステップS123において、特徴量抽出部122は、極/留数モデルの周波数応答関数の中の各項の中から不安定な項を判定する。不安定な項とは、近似条件等の演算条件を変えて音響特性を周波数応答関数で近似する処理を何度か行ったときに安定して現れない項である。例えば、式(1)又は式(5)に示されているようなモデルで考慮するモードの数Nを変えたときに同じ固有周波数及び同じ減衰比にならない項は、不安定な項である。不安定な項の判定手法の具体例としては、考慮するモードの数がNである場合とN+1である場合とで固有周波数又は減衰比の変化量が所定の誤差範囲を超えているモードを不安定なモードであると判定する手法が挙げられる。このような不安定な項は、外耳道内の共鳴という物理現象を表現するものではなく、演算処理上の要因で生じた擬似的なものである可能性が高い。
 ステップS124において、特徴量抽出部122は、極/留数モデルの周波数応答関数から一部の項を除外して、有理多項式モデルの周波数応答関数に変換する。ここで、「一部の項」とは、ステップS122において抽出された有意でない項及びステップS123において抽出された不安定な項であり得る。これにより物理現象を適切に表現していない項が除外される。また、剰余項Cはユーザ3の特徴を示す特徴量として抽出する必要性に乏しいため、「一部の項」は、剰余項Cを含んでいてもよい。なお、この一部の項を除外する処理は、具体的には、対応する項の留数R又は剰余項Cの値をゼロに変更する処理であり得る。
 ステップS112において、特徴量抽出部122は、第1実施形態と同様の処理により、ステップS124により得られた有理多項式モデルの周波数応答関数の係数を特徴量として出力する。
 本実施形態の手法によれば、第1実施形態と同様に装着状態の違いに対して頑健な特徴量を抽出することができる。また、有意でない項、不安定な項等を除外してから特徴量の抽出が行われるため、ユーザ3の外耳道の形状等の生体上の特徴をより適切に反映した特徴量を抽出することができる。
 [第3実施形態]
 本実施形態の情報処理システムは、特徴量抽出処理の内容が第1及び第2実施形態と相違するが、それ以外の部分については第1及び第2実施形態と同様である。以下では主として第2実施形態との相違点について説明するものとし、共通部分については説明を省略又は簡略化する。
 図10は、本実施形態に係る情報通信装置1により行われる特徴量抽出処理を示すフローチャートである。本実施形態では、一部の項を除外して得られた有理多項式モデルの周波数応答関数からスペクトラムを再構築してメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient: MFCC)を算出する処理が追加されている点が第2実施形態と相違する。
 ステップS111からステップS124までの処理は第2実施形態と同様であるため説明を省略する。
 ステップS131において、特徴量抽出部122は、ステップS124において生成された有理多項式モデルの周波数応答関数から音響特性のスペクトラムを再構築する。
 ステップS132において、特徴量抽出部122は、再構築後のスペクトラムからメル周波数ケプストラム係数を算出する。以下、メル周波数ケプストラム係数の算出手法の一例を説明する。
 まず、特徴量抽出部122は、再構築後のスペクトラムに対してメルフィルタバンクを適用する。メルフィルタバンクとは、複数の三角窓関数を含むフィルタバンクである。この複数の三角窓関数は、人間の聴覚特性を考慮したメル尺度に基づいて、周波数が高いものほど広い周波数幅を有するように構成されている。メルフィルタバンクを適用して得られたスペクトラムをメルスペクトラムと呼ぶ。また、メルスペクトラムの強度(縦軸)を対数スケールに変換したものをメル対数スペクトラムと呼ぶ。対数スケールへの変換により、利得の小さな高次の共振現象をよく表現することができる。
 次に、特徴量抽出部122は、メル対数スペクトラムに対し、離散コサイン変換を行いケフレンシードメイン(quefrency domain)のケプストラム(Cepstrum)を算出する。ケプストラムのうちの所定範囲の次数の項の係数を取り出すことで、メル周波数ケプストラム係数が算出される。この手法では、人間の聴覚特性が考慮された重みづけにより効率的な圧縮が施された特徴量を得ることができる。
 ステップS133において、特徴量抽出部122は、ステップS132の処理により取得されたメル周波数ケプストラム係数を特徴量として出力する。
 本実施形態の手法によれば、第2実施形態と同様に、ユーザ3の外耳道の形状等の生体の特徴をより適切に表現した特徴量を抽出することができる。また、メル周波数ケプストラム係数の算出過程において人間の聴覚特性が考慮された重みづけがなされるため、効率的な圧縮が施された特徴量を抽出することができる。
 [第4実施形態]
 本実施形態の情報処理システムは、特徴量抽出処理の内容が第1乃至第3実施形態と相違するが、それ以外の部分については第1乃至第3実施形態と同様である。以下では主として第3実施形態との相違点について説明するものとし、共通部分については説明を省略又は簡略化する。
 図11は、本実施形態に係る情報通信装置1により行われる特徴量抽出処理を示すフローチャートである。本実施形態では、有理多項式モデルの周波数応答関数の係数と、メル周波数ケプストラム係数との両方を特徴量として抽出する点が第2又は第3実施形態と相違する。
 ステップS111からステップS124までの処理は第2実施形態と同様であるため説明を省略する。
 ステップS141において、特徴量抽出部122は、第1又は第2実施形態と同様の処理により、ステップS124により得られた有理多項式モデルの周波数応答関数の係数を第1特徴量として出力する。
 ステップS131及びステップS132の処理は第3実施形態と同様であるため説明を省略する。
 ステップS142において、特徴量抽出部122は、ステップS132の処理により取得されたメル周波数ケプストラム係数を第2特徴量として出力する。
 特徴量抽出後の判定処理(図5のステップS105)においては、第1特徴量と第2特徴量の両方に基づいてユーザ3が登録者であるか否かを判定する。具体的には、第1特徴量を用いた照合により得られた第1スコアと第2特徴量を用いた照合により得られた第2スコアとを所定の比率で重み付け加算して、加算後のスコアに基づいてユーザ3が登録者であるか否かを判定するという手法が用いられ得る。また、第1特徴量を用いた照合と第2特徴量を用いた照合とを別々に行って、2つの照合結果の論理和又は論理積を最終的な照合結果としてもよい。
 本実施形態の手法によれば、第2実施形態による特徴量抽出手法と第3実施形態による特徴量抽出手法が併用されているので両方の効果を得ることができる。更に、本実施形態では、ピーク及びノッチの特徴を抽出した第1特徴量と、主として音響特性の波形の特徴を抽出した第2特徴量を併用して判定を行うことができるため、より多面的な情報が考慮された高精度な生体認証が実現され得る。
 上述の実施形態において説明したシステムは以下の第5実施形態のようにも構成することができる。
 [第5実施形態]
 図12は、第5実施形態に係る情報処理装置4の機能ブロック図である。情報処理装置4は、取得部421及び抽出部422を備える。取得部421は、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する。抽出部422は、音響特性のピークの特徴を示す項が分母に含まれている有理多項式を有する第1周波数応答関数を生成し、第1周波数応答関数に基づいてユーザの生体認証に用いられる特徴量を抽出する。
 本実施形態によれば、装着状態の違いに対して頑健な特徴量を抽出することができる情報処理装置4が提供される。
 [変形実施形態]
 本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。例えば、いずれかの実施形態の一部の構成を他の実施形態に追加した例や、他の実施形態の一部の構成と置換した例も、本発明の実施形態である。
 上述の実施形態では、装着型機器の例としてイヤホン2を例示しているが、処理に必要な音響情報を取得可能であれば、外耳孔に装着されるイヤホンに限定されるものではない。例えば、装着型機器は、耳全体を覆うようなヘッドホンであってもよく、外耳孔以外の頭部から間接的に音波を伝達させる骨伝導型の音響装置であってもよい。また、装着型機器が両耳に装着される2つのイヤホンで構成されていてもよく、その場合、両耳に対して上述の実施形態の生体認証を行ってもよく、片耳のみに対して上述の実施形態の生体認証を行ってもよい。
 上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記憶媒体に記録させ、記憶媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記憶媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記憶媒体だけでなく、そのプログラム自体も各実施形態に含まれる。また、上述の実施形態に含まれる1又は2以上の構成要素は、各構成要素の機能を実現するように構成されたASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の回路であってもよい。
 該記憶媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disk)-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記憶媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 上述の各実施形態の機能により実現されるサービスは、SaaS(Software as a Service)の形態でユーザに対して提供することもできる。
 なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
 上述の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、
 前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、
 を備える、情報処理装置。
 (付記2)
 前記抽出部は、前記有理多項式の係数を前記特徴量として抽出する、
 付記1に記載の情報処理装置。
 (付記3)
 前記第1周波数応答関数の分母は、前記ピークに対応する周波数においてゼロである、
 付記1又は2に記載の情報処理装置。
 (付記4)
 前記音響特性は複数の前記ピークを有し、
 前記抽出部は、複数の分数の和を含む第2周波数応答関数を生成する、
 付記1乃至3のいずれか1項に記載の情報処理装置。
 (付記5)
 前記第2周波数応答関数に含まれる前記複数の分数の各々の分母の虚部は、前記複数の前記ピークのうちの1つに対応する周波数においてゼロである、
 付記4に記載の情報処理装置。
 (付記6)
 前記第1周波数応答関数と前記第2周波数応答関数とは、相互に変換可能である、
 付記4又は5に記載の情報処理装置。
 (付記7)
 前記第2周波数応答関数は、前記第1周波数応答関数の部分分数展開を含む、
 付記6に記載の情報処理装置。
 (付記8)
 前記抽出部は、前記第2周波数応答関数に含まれる前記複数の分数から一部の項を除外してから前記第1周波数応答関数に変換することにより、前記第1周波数応答関数を生成する、
 付記4乃至7のいずれか1項に記載の情報処理装置。
 (付記9)
 前記抽出部は、前記第2周波数応答関数に含まれる前記複数の分数から物理的に有意でない項を除外してから前記第1周波数応答関数に変換することにより、前記第1周波数応答関数を生成する、
 付記4乃至8のいずれか1項に記載の情報処理装置。
 (付記10)
 前記抽出部は、前記第2周波数応答関数に含まれる前記複数の分数から演算条件の変化に対して不安定な項を除外してから前記第1周波数応答関数に変換することにより、前記第1周波数応答関数を生成する、
 付記4乃至9のいずれか1項に記載の情報処理装置。
 (付記11)
 前記抽出部は、前記第2周波数応答関数から変換された前記第1周波数応答関数を用いて周波数ドメインのスペクトラムを生成する、
 付記8乃至10のいずれか1項に記載の情報処理装置。
 (付記12)
 前記抽出部は、前記スペクトラムに基づいて前記特徴量を抽出する、
 付記11に記載の情報処理装置。
 (付記13)
 前記抽出部は、前記第1周波数応答関数の係数に基づいて第1特徴量を抽出し、前記スペクトラムに基づいて第2特徴量を抽出する、
 付記11又は12に記載の情報処理装置。
 (付記14)
 前記音響特性は、前記ユーザの頭部に装着される装着型機器によって取得された前記ユーザの外耳道を伝搬する音波に基づく、
 付記1乃至13のいずれか1項に記載の情報処理装置。
 (付記15)
 ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
 前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
 を備える、情報処理方法。
 (付記16)
 コンピュータに、
 ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
 前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
 を備える情報処理方法を実行させるためのプログラムが記憶された記憶媒体。
 1         情報通信装置
 2         イヤホン
 3         ユーザ
 4         情報処理装置
 20        イヤホン制御装置
 26        スピーカ
 27        マイクロホン
 101、201   CPU
 102、202   RAM
 103、203   ROM
 104       HDD
 105、207   通信I/F
 106       入力装置
 107       出力装置
 121       音響特性取得部
 122       特徴量抽出部
 123       判定部
 204       フラッシュメモリ
 205       スピーカI/F
 206       マイクロホンI/F
 208       バッテリ
 421       取得部
 422       抽出部

Claims (16)

  1.  ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、
     前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、
     を備える、情報処理装置。
  2.  前記抽出部は、前記有理多項式の係数を前記特徴量として抽出する、
     請求項1に記載の情報処理装置。
  3.  前記第1周波数応答関数の分母は、前記ピークに対応する周波数においてゼロである、
     請求項1又は2に記載の情報処理装置。
  4.  前記音響特性は複数の前記ピークを有し、
     前記抽出部は、複数の分数の和を含む第2周波数応答関数を生成する、
     請求項1乃至3のいずれか1項に記載の情報処理装置。
  5.  前記第2周波数応答関数に含まれる前記複数の分数の各々の分母の虚部は、前記複数の前記ピークのうちの1つに対応する周波数においてゼロである、
     請求項4に記載の情報処理装置。
  6.  前記第1周波数応答関数と前記第2周波数応答関数とは、相互に変換可能である、
     請求項4又は5に記載の情報処理装置。
  7.  前記第2周波数応答関数は、前記第1周波数応答関数の部分分数展開を含む、
     請求項6に記載の情報処理装置。
  8.  前記抽出部は、前記第2周波数応答関数に含まれる前記複数の分数から一部の項を除外してから前記第1周波数応答関数に変換することにより、前記第1周波数応答関数を生成する、
     請求項4乃至7のいずれか1項に記載の情報処理装置。
  9.  前記抽出部は、前記第2周波数応答関数に含まれる前記複数の分数から物理的に有意でない項を除外してから前記第1周波数応答関数に変換することにより、前記第1周波数応答関数を生成する、
     請求項4乃至8のいずれか1項に記載の情報処理装置。
  10.  前記抽出部は、前記第2周波数応答関数に含まれる前記複数の分数から演算条件の変化に対して不安定な項を除外してから前記第1周波数応答関数に変換することにより、前記第1周波数応答関数を生成する、
     請求項4乃至9のいずれか1項に記載の情報処理装置。
  11.  前記抽出部は、前記第2周波数応答関数から変換された前記第1周波数応答関数を用いて周波数ドメインのスペクトラムを生成する、
     請求項8乃至10のいずれか1項に記載の情報処理装置。
  12.  前記抽出部は、前記スペクトラムに基づいて前記特徴量を抽出する、
     請求項11に記載の情報処理装置。
  13.  前記抽出部は、前記第1周波数応答関数の係数に基づいて第1特徴量を抽出し、前記スペクトラムに基づいて第2特徴量を抽出する、
     請求項11又は12に記載の情報処理装置。
  14.  前記音響特性は、前記ユーザの頭部に装着される装着型機器によって取得された前記ユーザの外耳道を伝搬する音波に基づく、
     請求項1乃至13のいずれか1項に記載の情報処理装置。
  15.  ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
     前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
     を備える、情報処理方法。
  16.  コンピュータに、
     ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
     前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第1周波数応答関数を生成し、前記第1周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
     を備える情報処理方法を実行させるためのプログラムが記憶された記憶媒体。
PCT/JP2019/035904 2019-09-12 2019-09-12 情報処理装置、情報処理方法及び記憶媒体 WO2021048974A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
PCT/JP2019/035904 WO2021048974A1 (ja) 2019-09-12 2019-09-12 情報処理装置、情報処理方法及び記憶媒体
US17/639,980 US11937040B2 (en) 2019-09-12 2019-09-12 Information processing device, information processing method, and storage medium
CN201980100182.0A CN114423339A (zh) 2019-09-12 2019-09-12 信息处理装置、信息处理方法及存储介质
EP19944898.6A EP4029442A4 (en) 2019-09-12 2019-09-12 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND STORAGE MEDIUM
BR112022002570A BR112022002570A2 (pt) 2019-09-12 2019-09-12 Dispositivo de processamento de informações, método de processamento de informações e meio de armazenamento
JP2021545051A JP7239007B2 (ja) 2019-09-12 2019-09-12 情報処理装置、情報処理方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/035904 WO2021048974A1 (ja) 2019-09-12 2019-09-12 情報処理装置、情報処理方法及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2021048974A1 true WO2021048974A1 (ja) 2021-03-18

Family

ID=74866307

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/035904 WO2021048974A1 (ja) 2019-09-12 2019-09-12 情報処理装置、情報処理方法及び記憶媒体

Country Status (6)

Country Link
US (1) US11937040B2 (ja)
EP (1) EP4029442A4 (ja)
JP (1) JP7239007B2 (ja)
CN (1) CN114423339A (ja)
BR (1) BR112022002570A2 (ja)
WO (1) WO2021048974A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023089822A1 (ja) * 2021-11-22 2023-05-25 日本電信電話株式会社 装着ユーザ識別装置、装着ユーザ識別システム、装着ユーザ識別方法及び装着ユーザ識別プログラム
GB2613425A (en) * 2021-08-13 2023-06-07 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for biometric processes

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11438683B2 (en) * 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339265A (ja) 2004-05-27 2005-12-08 Casio Comput Co Ltd 電子計算装置および計算表示処理プログラム
JP2009509575A (ja) * 2005-09-22 2009-03-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音響的外耳特徴付けのための方法及び装置
JP2013219731A (ja) * 2012-03-16 2013-10-24 Panasonic Corp 音像定位装置および音像定位処理プログラム
WO2014061578A1 (ja) * 2012-10-15 2014-04-24 Necカシオモバイルコミュニケーションズ株式会社 電子機器、及び音響再生方法
JP2017085362A (ja) * 2015-10-28 2017-05-18 国立研究開発法人情報通信研究機構 立体音再生装置およびプログラム
WO2018034178A1 (ja) 2016-08-19 2018-02-22 日本電気株式会社 個人認証システム、個人認証装置、個人認証方法および記録媒体
WO2018051950A1 (ja) * 2016-09-16 2018-03-22 日本電気株式会社 個人認証装置、個人認証方法および記録媒体
WO2018198310A1 (ja) 2017-04-28 2018-11-01 日本電気株式会社 個人認証装置、個人認証方法および記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529379B2 (en) * 2005-01-04 2009-05-05 Motorola, Inc. System and method for determining an in-ear acoustic response for confirming the identity of a user
JP4740889B2 (ja) 2007-03-06 2011-08-03 日本電信電話株式会社 パラメータ推定装置,パラメータ推定方法,その方法を実装したプログラム及びそのプログラムを記録した記録媒体
JP2010086328A (ja) * 2008-09-30 2010-04-15 Yamaha Corp 認証装置および携帯電話機
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP6446679B2 (ja) 2015-03-02 2019-01-09 カルソニックカンセイ株式会社 車両用計器装置
JP6855381B2 (ja) * 2015-10-21 2021-04-07 日本電気株式会社 個人認証装置、個人認証方法および個人認証プログラム
WO2018101317A1 (ja) 2016-12-02 2018-06-07 日本電気株式会社 認証システム、認証管理サーバ、方法およびプログラム
GB201801527D0 (en) * 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
CN108803859A (zh) 2018-05-28 2018-11-13 Oppo广东移动通信有限公司 信息处理方法、装置、终端、耳机及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339265A (ja) 2004-05-27 2005-12-08 Casio Comput Co Ltd 電子計算装置および計算表示処理プログラム
JP2009509575A (ja) * 2005-09-22 2009-03-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音響的外耳特徴付けのための方法及び装置
JP2013219731A (ja) * 2012-03-16 2013-10-24 Panasonic Corp 音像定位装置および音像定位処理プログラム
WO2014061578A1 (ja) * 2012-10-15 2014-04-24 Necカシオモバイルコミュニケーションズ株式会社 電子機器、及び音響再生方法
JP2017085362A (ja) * 2015-10-28 2017-05-18 国立研究開発法人情報通信研究機構 立体音再生装置およびプログラム
WO2018034178A1 (ja) 2016-08-19 2018-02-22 日本電気株式会社 個人認証システム、個人認証装置、個人認証方法および記録媒体
WO2018051950A1 (ja) * 2016-09-16 2018-03-22 日本電気株式会社 個人認証装置、個人認証方法および記録媒体
WO2018198310A1 (ja) 2017-04-28 2018-11-01 日本電気株式会社 個人認証装置、個人認証方法および記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4029442A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2613425A (en) * 2021-08-13 2023-06-07 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for biometric processes
GB2613425B (en) * 2021-08-13 2024-01-17 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for biometric processes
WO2023089822A1 (ja) * 2021-11-22 2023-05-25 日本電信電話株式会社 装着ユーザ識別装置、装着ユーザ識別システム、装着ユーザ識別方法及び装着ユーザ識別プログラム

Also Published As

Publication number Publication date
US11937040B2 (en) 2024-03-19
US20220295170A1 (en) 2022-09-15
EP4029442A1 (en) 2022-07-20
JP7239007B2 (ja) 2023-03-14
EP4029442A4 (en) 2022-09-07
BR112022002570A2 (pt) 2022-05-03
JPWO2021048974A1 (ja) 2021-03-18
CN114423339A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
WO2021048974A1 (ja) 情報処理装置、情報処理方法及び記憶媒体
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
US9553553B2 (en) Engine sound synthesis system
KR20150021508A (ko) 원신호 분리 시스템 및 방법
US20140337021A1 (en) Systems and methods for noise characteristic dependent speech enhancement
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
US11501758B2 (en) Environment aware voice-assistant devices, and related systems and methods
JP5580585B2 (ja) 信号分析装置、信号分析方法及び信号分析プログラム
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP7346552B2 (ja) 正規化を介して音響信号をフィンガープリンティングするための方法、記憶媒体及び装置
CN113455017A (zh) 信息处理设备、可佩戴设备、信息处理方法和存储介质
US11670298B2 (en) System and method for data augmentation for multi-microphone signal processing
Horner et al. Evaluation of mel-band and MFCC-based error metrics for correspondence to discrimination of spectrally altered musical instrument sounds
JP7131636B2 (ja) 情報処理装置、装着型機器、情報処理方法及び記憶媒体
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
WO2020039597A1 (ja) 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム
JP2015169901A (ja) 音響処理装置
JPWO2019021953A1 (ja) 音声操作装置及びその制御方法
JP5941009B2 (ja) ノイズ分析装置及び方法
JP2012252147A (ja) 信号補正装置、音響再現システムおよびプログラム
JP2017138380A (ja) インパルス応答合成方法およびプログラム
JP2006323265A (ja) 明瞭度評価装置、明瞭度評価方法、及び明瞭度評価プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19944898

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021545051

Country of ref document: JP

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112022002570

Country of ref document: BR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019944898

Country of ref document: EP

Effective date: 20220412

ENP Entry into the national phase

Ref document number: 112022002570

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20220210