WO2023037429A1 - 認証装置、認証方法、及び、記録媒体 - Google Patents

認証装置、認証方法、及び、記録媒体 Download PDF

Info

Publication number
WO2023037429A1
WO2023037429A1 PCT/JP2021/032947 JP2021032947W WO2023037429A1 WO 2023037429 A1 WO2023037429 A1 WO 2023037429A1 JP 2021032947 W JP2021032947 W JP 2021032947W WO 2023037429 A1 WO2023037429 A1 WO 2023037429A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
subject
air
authentication
bone
Prior art date
Application number
PCT/JP2021/032947
Other languages
English (en)
French (fr)
Inventor
レイ カク
仁 山本
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/032947 priority Critical patent/WO2023037429A1/ja
Priority to JP2023546610A priority patent/JPWO2023037429A1/ja
Publication of WO2023037429A1 publication Critical patent/WO2023037429A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Definitions

  • This disclosure for example, relates to the technical field of an authentication device, an authentication method, and a recording medium capable of authenticating a subject using the subject's voice.
  • Patent Document 1 describes an example of an authentication device that can authenticate a target using the target's voice.
  • Patent Documents 2 to 4 are cited as prior art documents related to this disclosure.
  • JP 2006-011591 A International Publication No. 2018/034178 pamphlet Japanese Patent Application Laid-Open No. 2007-017840 JP 2006-010809 A
  • the object of this disclosure is to provide an authentication device, an authentication method, and a recording medium aimed at improving the technology described in prior art documents.
  • the authentication device from an air-conducted audio signal indicating the air-conducted sound of the voice of the subject and a bone-conducted audio signal indicating the bone-conducted sound of the subject's voice, characteristics of the air-conducted voice signal and a bone conduction feature quantity that is a feature quantity of the bone conduction audio signal, and by combining the air conduction feature quantity and the bone conduction feature quantity, the voice of the subject is calculated. and an authentication means for authenticating the subject based on the target feature amount.
  • a calculation means for calculating an air conduction feature quantity that is a quantity and a difference feature quantity that is a feature quantity of a difference between the frequency spectrum of the air conduction sound signal and the frequency spectrum of the bone conduction sound signal; and the air conduction feature quantity. and authentication means for authenticating the subject based on the difference feature amount.
  • the feature of the air-conducted audio signal is and a bone conduction feature quantity that is a feature quantity of the bone conduction audio signal, and by combining the air conduction feature quantity and the bone conduction feature quantity, the voice of the subject is calculated. is calculated, and the subject is authenticated based on the target feature amount.
  • a second aspect of the authentication method from an air-conducted audio signal indicating the air-conducted sound of the subject's voice and a bone-conducted audio signal indicating the bone-conducted sound of the subject's voice, characteristics of the air-conducted audio signal and a difference feature quantity that is a feature quantity of the difference between the frequency spectrum of the air conduction sound signal and the frequency spectrum of the bone conduction sound signal, and the air conduction feature quantity and the difference are calculated.
  • the subject is authenticated based on the feature amount.
  • a computer In a first aspect of the recording medium, a computer generates the air-conducted sound from an air-conducted sound signal indicating the air-conducted sound of the subject's voice and a bone-conducted sound signal indicating the bone-conducted sound of the subject's voice.
  • an air conduction feature amount that is a signal feature amount and a bone conduction feature amount that is a feature amount of the bone conduction audio signal, and combining the air conduction feature amount and the bone conduction feature amount
  • the object A recording medium recording a computer program for calculating a target feature amount, which is a feature amount of a person's voice, and executing an authentication method for authenticating the target person based on the target feature amount.
  • a computer In a second aspect of the recording medium, a computer generates the air-conducted sound from an air-conducted sound signal indicating the air-conducted sound of the subject's voice and a bone-conducted sound signal indicating the bone-conducted sound of the subject's voice.
  • An air conduction feature quantity that is a signal feature quantity and a difference feature quantity that is a feature quantity of a difference between the frequency spectrum of the air conduction sound signal and the frequency spectrum of the bone conduction sound signal are calculated, and the air conduction feature quantity is calculated.
  • a recording medium recording a computer program for executing an authentication method for authenticating the subject based on the difference feature amount.
  • FIG. 1 is a block diagram showing the configuration of an authentication device according to the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of an authentication system according to the second embodiment.
  • FIG. 3 is a block diagram showing the configuration of an authentication device according to the second embodiment.
  • FIG. 4 is a flow chart showing the flow of the first authentication operation performed by the authentication device in the second embodiment.
  • FIG. 5 is a block diagram showing the configuration of a calculation unit that performs the first authentication operation.
  • FIG. 6 is a flow chart showing the flow of the second authentication operation performed by the authentication device in the second embodiment.
  • FIG. 7 is a block diagram showing configurations of a calculation unit and an authentication unit that perform the second authentication operation.
  • FIG. 8 is a block diagram showing the configuration of an authentication system according to the third embodiment.
  • FIG. 9 is a flow chart showing the flow of an authentication operation for authenticating a subject taking into consideration the difference in the positions of the bone conduction microphones.
  • FIG. 1 is a block diagram showing the configuration of the authentication device 1000 according to the first embodiment. As shown in FIG. 1, the authentication device 1000 includes a calculator 1001 and an authentication unit 1002 .
  • the calculation unit 1001 calculates, from an air-conducted sound signal indicating the air-conducted sound of the subject's voice (that is, the sound uttered by the subject; the same applies hereinafter), the air-conducted sound signal, which is the feature quantity of the air-conducted sound signal. Calculate the conduction feature quantity. Furthermore, the calculation unit 1001 calculates a bone conduction feature quantity, which is a feature quantity of the bone conduction sound signal, from the bone conduction sound signal representing the bone conduction sound of the subject's voice. Further, the calculation unit 1001 calculates a target feature amount, which is the feature amount of the subject, by combining the air-conducted sound signal and the bone-conduction feature amount. The authentication unit 1002 authenticates the target person based on the target feature amount calculated by the calculation unit 1001 .
  • the authentication device 1000 not only indicates the air conduction feature amount indicating the feature of the subject's voice itself, but also indicates the feature of the subject's voice superimposed with the influence of the subject's skeleton.
  • the subject is authenticated based on the bone conduction feature amount (that is, the bone conduction feature amount that also indicates the features of the subject's skeleton). Therefore, compared to an authentication device that authenticates a subject based on either one of the air conduction feature quantity and the bone conduction feature quantity, the authentication device 1000 uses the subject's voice to more accurately identify the subject. can be authenticated.
  • the authentication device 1000 does not separately perform the process of authenticating the subject based on the air conduction feature amount and the process of authenticating the subject based on the bone conduction feature amount different from the air conduction feature amount. get well. That is, the authentication device 1000 may perform processing for authenticating the subject based on the target feature amount calculated from the combined air conduction feature amount and bone conduction feature amount. Therefore, the authentication device 1000 can reduce the processing load for authenticating the subject.
  • the calculation unit 1001 calculates the air-conducted sound from the air-conducted sound signal indicating the air-conducted sound of the subject's voice and the bone-conducted sound signal indicating the bone-conducted sound of the subject's voice.
  • a difference feature amount which is a feature amount of the difference between the frequency spectrum of the signal and the frequency spectrum of the bone conduction audio signal, is calculated.
  • the calculation unit 1001 calculates an air conduction feature quantity, which is a feature quantity of the air conduction sound signal, from the air conduction sound signal.
  • the authentication unit 1002 authenticates the subject based on the air conduction feature amount and the difference feature amount.
  • the air conduction feature quantity indicates the characteristics of the subject's voice itself.
  • the difference feature amount corresponds to a feature amount obtained by substantially eliminating the feature of the subject's voice itself from the feature of the subject's voice superimposed with the influence of the subject's skeleton.
  • the difference feature amount corresponds to a feature amount that indicates the feature of the subject's skeleton (that is, the subject's unique skeleton) that indicates the individuality of the subject. Therefore, the authentication device 1000 authenticates the subject based on the air conduction feature amount indicating the feature of the subject's voice itself and the difference feature amount indicating the feature of the subject's skeleton itself. As a result, the authentication device 1000 uses the voice of the subject to authenticate the subject more accurately than the authentication device that authenticates the subject based on either one of the air conduction feature amount and the difference feature amount. can do.
  • FIG. 2 is a block diagram showing the configuration of the authentication system SYS in the second embodiment.
  • the authentication system SYS includes an air conduction microphone 1, a bone conduction microphone 2, and an authentication device 3.
  • the air conduction microphone 1 is a voice detection device capable of detecting the air conduction sound of the subject's voice. Specifically, the air-conducted sound of the subject's voice is detected by detecting the vibration of the air generated with the subject's voice. The air-conducting microphone 1 detects the air-conducting sound to generate an audio signal representing the air-conducting sound. In the following description, an audio signal indicating air-conducted sound is referred to as an "air-conducted audio signal". The air conduction microphone 1 outputs the generated air conduction audio signal to the authentication device 3 .
  • the bone conduction microphone 2 is a voice detection device capable of detecting the bone conduction sound of the subject's voice. Specifically, bone conduction sound of the subject's voice is detected by detecting vibrations of the subject's bones (skeleton) that occur along with the subject's voice. The bone conduction microphone 2 detects the bone conduction sound to generate an audio signal representing the bone conduction sound. In the following description, an audio signal representing bone-conducted sound is referred to as a "bone-conducted audio signal". The bone conduction microphone 2 outputs the generated bone conduction audio signal to the authentication device 3 .
  • the authentication device 3 performs an authentication operation to authenticate the target person using the target person's voice. That is, the authentication device 3 performs voice authentication. In order to perform the authentication operation, the authentication device 3 acquires an air-conducted voice signal from the air-conducted microphone 1 . Further, the authentication device 3 acquires bone conduction audio signals from the bone conduction microphone 2 . After that, the authentication device 3 authenticates the subject using the air-conducted voice signal and the bone-conducted voice signal.
  • a device comprising the air conduction microphone 1, the bone conduction microphone 2, and the authentication device 3 may be used as the authentication system SYS.
  • a mobile terminal for example, a smart phone
  • a wearable device including air conduction microphone 1, bone conduction microphone 2, and authentication device 3 may be used as authentication system SYS.
  • An example of a situation where the authentication system SYS that performs voice authentication is applied is a situation where it is not easy to accurately perform face authentication and iris authentication.
  • a scene where it is not easy to accurately perform face recognition and iris recognition there is a scene where a subject wearing a mask is authenticated.
  • an authentication system SYS may be used to control entry of workers wearing masks at construction sites and/or factories.
  • the authentication system SYS may be used to control entry and exit of medical personnel wearing masks in medical facilities.
  • Another example of a situation in which the authentication system SYS that performs voice authentication is applied is a situation in which accurate fingerprint authentication is not easy.
  • the authentication system SYS may be used to control entry and exit of gloved medical personnel in a medical facility.
  • Another example of a scene in which the authentication system SYS for voice authentication is applied is a scene in which a target person is authenticated via a telephone service.
  • the scene to which the authentication system SYS is applied is not limited to the scene described here.
  • FIG. 3 is a block diagram showing the configuration of the authentication device 3 in the second embodiment.
  • the authentication device 3 includes an arithmetic device 31 and a storage device 32. Furthermore, the authentication device 3 may comprise a communication device 33 , an input device 34 and an output device 35 . However, the authentication device 3 does not have to include at least one of the communication device 33 , the input device 34 and the output device 35 . Arithmetic device 31 , storage device 32 , communication device 33 , input device 34 , and output device 35 may be connected via data bus 36 .
  • the computing device 31 includes, for example, at least one of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field Programmable Gate Array). Arithmetic device 31 reads a computer program. For example, arithmetic device 31 may read a computer program stored in storage device 32 . For example, the computing device 31 reads a computer program stored in a computer-readable and non-temporary recording medium, and reads a recording medium reading device (for example, an input device 34 described later) provided in the authentication device 3. can be read using The arithmetic device 31 may acquire (that is, download) a computer program from a device (not shown) arranged outside the authentication device 3 via the communication device 33 (or other communication device). or read).
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA Field Programmable Gate Array
  • Arithmetic device 31 executes the read computer program. As a result, a logical functional block for executing the operation (for example, the authentication operation described above) that the authentication device 3 should perform is realized in the arithmetic device 31 .
  • the computing device 31 can function as a controller for realizing logical functional blocks for executing the operation (in other words, processing) that the authentication device 3 should perform.
  • FIG. 3 shows an example of logical functional blocks implemented within the computing device 31 to perform authentication operations.
  • a calculation unit 311 as a specific example of "calculation means”
  • an authentication unit 312 as a specific example of "authentication means” are realized.
  • the calculation unit 311 calculates a target feature amount, which is a feature amount of the target person used for the authentication operation, from the air-conducted audio signal and the bone-conducted audio signal. Note that the target feature amount calculated by the calculation unit 311 will be described in detail later.
  • the authentication unit 312 authenticates the target person based on the target feature amount calculated by the calculation unit 311. That is, the authentication unit 312 determines whether or not the target person matches the registered person based on the target feature amount calculated by the calculation unit 311 .
  • the registered feature amount which is the feature amount related to the voice of the registered person, is registered in advance in a collation DB (DataBase) 321 stored in the storage device 32 .
  • the collation DB 321 such registered feature amounts are registered by the number of registered persons.
  • the authentication unit 312 compares the target feature amount calculated by the calculation unit 311 and the registered feature amount registered in the collation DB 321 to determine whether or not the target person matches the registered person.
  • the storage device 32 can store desired data.
  • the storage device 32 may temporarily store computer programs executed by the arithmetic device 31 .
  • the storage device 32 may temporarily store data that is temporarily used by the arithmetic device 31 while the arithmetic device 31 is executing a computer program.
  • the storage device 32 may store data that the authentication device 3 saves for a long time.
  • the storage device 32 may include at least one of RAM (Random Access Memory), ROM (Read Only Memory), hard disk device, magneto-optical disk device, SSD (Solid State Drive), and disk array device. good. That is, the storage device 32 may include non-transitory recording media.
  • the communication device 33 can communicate with devices external to the authentication device 3 via a communication network (not shown).
  • the communication device 33 may be capable of communicating with at least one of the air conduction microphone 1 and the bone conduction microphone 2 .
  • the communication device 33 may receive (that is, acquire) the air conduction audio signal from the air conduction microphone 1 via a communication network (not shown).
  • the communication device 33 may receive (that is, acquire) the bone conduction audio signal from the bone conduction microphone 2 via a communication network (not shown).
  • the input device 34 is a device that accepts input of information to the authentication device 3 from the outside of the authentication device 3 .
  • the input device 34 may include an operating device (for example, at least one of a keyboard, a mouse and a touch panel) that can be operated by the operator of the authentication device 3 .
  • the input device 34 may include a reading device capable of reading information recorded as data on a recording medium that can be externally attached to the authentication device 3 .
  • the input device 34 may include an input interface into which at least one of the air conduction audio signal output from the air conduction microphone 1 and the bone conduction audio signal output from the bone conduction microphone 2 is inputted.
  • the output device 35 is a device that outputs information to the outside of the authentication device 3 .
  • the output device 35 may output information as an image. That is, the output device 35 may include a display device (so-called display) capable of displaying an image showing information to be output.
  • the output device 35 may output information as audio.
  • the output device 35 may include an audio device capable of outputting audio (so-called speaker).
  • the output device 35 may output information on paper.
  • the output device 35 may include a printing device (so-called printer) capable of printing desired information on paper.
  • FIG. 4 is a flow chart showing the flow of the first authentication operation performed by the authentication device 3 in the second embodiment.
  • the calculator 311 acquires an air-conducted sound signal representing the air-conducted sound of the subject's voice from the air-conducted microphone 1 (step S11). Further, the calculation unit 311 acquires a bone conduction sound signal representing the bone conduction sound of the subject's voice from the bone conduction microphone 2 (step S12).
  • the calculation unit 311 calculates an air conduction feature quantity, which is a feature quantity of the air conduction sound signal, from the air conduction sound signal acquired in step S11 (step S13). Further, the calculation unit 311 calculates a bone conduction feature amount, which is a feature amount of the bone conduction audio signal, from the bone conduction audio signal acquired in step S12 (step S13).
  • the calculation unit 311 may calculate any parameter that qualitatively and/or quantitatively indicates the characteristics of the air conduction sound signal as the air conduction feature quantity.
  • the calculation unit 311 may calculate an arbitrary parameter indicating the characteristics of the air-conducted sound signal as the air-conduction feature amount by performing desired sound analysis processing on the air-conducted sound signal.
  • An example of the desired speech analysis process is at least one of a frequency analysis process, a cepstrum analysis process and a pitch extraction process.
  • An example of an arbitrary parameter that characterizes an air-conducted sound signal is the Mel Frequency Cepstrum Coefficients (MFCC) that can be calculated from the result of frequency analysis processing performed on the air-conducted sound signal.
  • MFCC Mel Frequency Cepstrum Coefficients
  • the air conduction feature quantity is an N-dimensional vector (that is, a vector composed of N vector elements).
  • N is a constant representing an integer of 1 or more.
  • the number of dimensions of the vector is preferably set to an appropriate number that allows proper authentication operation.
  • the air conduction features may be vectors of 12 or more dimensions.
  • the calculation unit 311 may calculate any parameter that qualitatively and/or quantitatively indicates the feature of the bone conduction audio signal as the bone conduction feature amount.
  • the calculation unit 311 may calculate an arbitrary parameter indicating the feature of the bone conduction audio signal as the bone conduction feature amount by performing desired audio analysis processing on the bone conduction audio signal.
  • An example of an arbitrary parameter that characterizes a bone-conducted audio signal is the mel-frequency cepstrum coefficients that can be calculated from the results of frequency analysis processing performed on the bone-conducted audio signal.
  • a bone conduction feature amount is an M-dimensional vector (that is, a vector composed of M vector elements).
  • M is a constant representing an integer of 1 or more.
  • the number of dimensions of the vector is preferably set to an appropriate number that allows proper authentication operation.
  • bone conduction features may be vectors of 12 or more dimensions.
  • the calculation unit 311 combines (in other words, connects or synthesizes) the air conduction feature amount calculated in step S13 and the bone conduction feature amount calculated in step S13 (step S14). As a result, the calculation unit 311 calculates a combined feature amount, which is a feature amount composed of the combined air conduction feature amount and bone conduction feature amount (step S14).
  • the air conduction feature amount is an N-dimensional vector and the bone conduction feature amount is an M-dimensional vector, so the combined feature amount is typically an N+M-dimensional vector. That is, the number of dimensions of the combined features is N+M.
  • the calculation unit 311 calculates the combined feature amount so that the combined feature amount includes N vector elements included in the air conduction feature amount and M vector elements included in the bone conduction feature amount. may be calculated.
  • the combined feature amount may be a vector of less than N+M dimensions. That is, the number of dimensions of the combined features may be less than N+M. However, the number of dimensions of the combined features is greater than N and greater than M. That is, the combined feature amount may be a vector with less than N+M dimensions, greater than N dimensions and greater than M dimensions.
  • the calculation unit 311 calculates that the combined feature amount is N' vector elements (where N' is an integer equal to or greater than 1 and less than N) out of the N vector elements included in the air conduction feature amount. constant), and at least one of M' vector elements (where M' is a constant representing an integer equal to or greater than 1 and less than M) among the M vector elements included in the bone conduction feature amount.
  • a combined feature may be calculated so as to include That is, the operation of "calculating the combined feature amount by combining the air conduction feature amount and the bone conduction feature amount" in the second embodiment is equivalent to “calculating the combined feature amount by combining the air conduction feature amount and the bone conduction feature amount.” It may mean an operation of calculating a combined feature amount so as to include at least one of the elements and at least one of the M vector elements included in the bone conduction feature amount.
  • the calculation unit 311 calculates the target feature amount used by the authentication unit 312 to perform the authentication operation from the combined feature amount calculated in step S14 (step S15). For example, the calculation unit 311 may extract a feature amount indicating the feature of the subject from the combined feature amount calculated in step S14, thereby calculating a target feature amount corresponding to the extracted feature amount.
  • the calculation unit 311 may calculate the target feature amount from the combined feature amount using a neural network that can output the target feature amount when the combined feature amount is input and that can be constructed by machine learning.
  • the neural network may be constructed in advance by machine learning using teacher data including the air-conducted voice signal of the sample person, the bone-conducted voice signal of the sample person, and the correct label of the authentication result of the sample person.
  • the authentication unit 312 authenticates the target person based on the target feature amount calculated in step S15 (step S16). Specifically, the authentication unit 312 calculates the degree of similarity between the target feature amount calculated in step S ⁇ b>15 and the registered feature amount corresponding to the registered person registered in the collation DB 321 . The authentication unit 312 may determine that the target person matches the registered person when the calculated similarity exceeds a predetermined authentication threshold (that is, the target feature amount is similar to the registered feature amount). On the other hand, the authentication unit 312 determines that the target person does not match the registered person when the calculated similarity is below a predetermined authentication threshold (that is, the target feature amount does not resemble the registered feature amount). good too.
  • the authentication unit 312 may calculate the degree of similarity using any method for calculating the degree of similarity between two feature quantities.
  • a method using a probabilistic linear discriminant analysis (PLDA) model can be given as an arbitrary method for calculating the similarity between two feature quantities.
  • PLDA probabilistic linear discriminant analysis
  • the authentication unit 312 may authenticate the subject using a neural network.
  • the authenticator 312 may authenticate a subject using a neural network to which a probabilistic linear discriminant analysis model is applied.
  • the neural network may be constructed in advance by machine learning using teacher data including the air-conducted voice signal of the sample person, the bone-conducted voice signal of the sample person, and the correct label of the authentication result of the sample person.
  • the neural network used by the calculation unit 311 and the neural network used by the authentication unit 312 may be integrated. That is, the calculation unit 311 uses the first network part of the neural network to calculate the target feature quantity, and the authentication unit 312 uses the second network part of the neural network to which the output of the first network part is input to obtain the target feature amount. person may be authenticated.
  • the neural network used by the calculating unit 311 and the authenticating unit 312 may be a neural network conforming to the so-called x-vector method (in other words, deep speaker embedding). .
  • a plurality of registered feature amounts corresponding to a plurality of registered persons may be registered in the matching DB 321 .
  • the authentication unit 312 determines whether the target person matches the one registered person by calculating the degree of similarity between the one registered feature value corresponding to the one registered person and the target feature value from the matching DB 321. You may repeat the operation
  • the registered feature amount registered in the matching DB 321 may be generated in the same flow as the target feature amount used in the first authentication operation.
  • an air-conducted sound signal indicating the air-conducted sound of the registered person's voice and a bone-conducted sound signal indicating the bone-conducted sound of the registered person's voice are acquired.
  • an air conduction feature amount may be calculated from the air conduction audio signal
  • a bone conduction feature amount may be calculated from the bone conduction audio signal.
  • a combined feature amount may be calculated by combining the air conduction feature amount and the bone conduction feature amount.
  • a registered feature amount may be calculated from the combined feature amount.
  • the calculation unit 311 may include the functional blocks shown in FIG. Specifically, as shown in FIG. 5 , the calculator 311 may include a calculator 3111 , a calculator 3112 , a calculator 3113 , and a calculator 3114 .
  • the calculation unit 3111 may calculate the air conduction feature amount from the air conduction sound signal.
  • the calculation unit 3112 may calculate the bone conduction feature quantity from the bone conduction audio signal.
  • the calculation unit 3112 may calculate a combined feature amount by combining the air conduction feature amount calculated by the calculation unit 3111 and the bone conduction feature amount calculated by the calculation unit 3112 .
  • the calculation unit 3114 may calculate the target feature amount from the combined feature amount calculated by the calculation unit 3113 .
  • the authentication device 3 recognizes not only the air conduction feature quantity indicating the feature of the subject's voice itself, but also the feature of the subject's voice superimposed with the influence of the subject's skeleton.
  • the subject is authenticated based on the indicated bone conduction feature amount (that is, the bone conduction feature amount that also indicates the feature of the subject's skeleton). That is, the authentication device 3 uses both the air conduction audio signal and the bone conduction audio signal to authenticate the subject.
  • the subject is authenticated based on either one of the air conduction feature amount and the bone conduction feature amount (that is, the subject is authenticated based on either one of the air conduction audio signal and the bone conduction audio signal).
  • the authentication device 3 can authenticate the target person more accurately using the target person's voice. This is because when the authentication device of the first comparative example authenticates the subject based on the air conduction feature (that is, does not use the bone conduction feature to authenticate the subject), the air conduction audio signal If the environment for acquiring the ID is not appropriate, there is a possibility that a technical problem may arise in that authentication accuracy may deteriorate. For example, if the environment in which the air-conducted audio signal is acquired is an environment with a lot of noise or an environment in which the target person does not speak properly, the authentication accuracy may deteriorate.
  • the authentication device of the first comparative example authenticates the subject based on the bone conduction feature (that is, does not use the air conduction feature to authenticate the subject)
  • the bone conduction audio signal A technical problem may arise that authentication accuracy may be degraded because the accuracy is inherently lower than that of the air-conducted audio signal.
  • the authentication device 3 authenticates the subject based on both the air conduction feature amount and the bone conduction feature amount. Therefore, the authentication device 3 can appropriately solve technical problems that may occur in the authentication device of the first comparative example.
  • the authentication device 3 performs a process of authenticating the subject based on the air conduction feature amount and a process of authenticating the subject based on the bone conduction feature amount different from the air conduction feature amount. and do not have to be done separately. In other words, the authentication device 3 does not need to separately perform two types of processing for authenticating a subject based on two types of different feature amounts. In other words, the authentication device 3 may perform a process of authenticating the target person based on one type of feature quantity, which is the target feature quantity.
  • the authentication device 3 can reduce the number of times (for example, the number of times of calculating the above-described degree of similarity) of performing the process of authenticating the subject based on the feature amount.
  • the authentication device 3 determines the number of times the authentication device 3 performs the process of authenticating the subject based on the feature amount, and the number of times the authentication apparatus of the second comparative example performs the process of authenticating the subject based on the feature amount. can be reduced to about half. As a result, the authentication device 3 can reduce the processing load for authenticating the subject.
  • the authentication device 3 can use a neural network to calculate the target feature amount from the combined feature amount. Therefore, even when a combined feature amount having a larger number of elements than each of the air conduction feature amount and the bone conduction feature amount is used, the authentication device 3 can relatively easily calculate the target feature amount. can be done.
  • FIG. 6 is a flow chart showing the flow of the second authentication operation performed by the authentication device 3 in the second embodiment.
  • the calculator 311 acquires an air-conducted audio signal from the air-conducted microphone 1 (step S11). Furthermore, the calculator 311 acquires a bone conduction audio signal from the bone conduction microphone 2 (step S12).
  • the calculation unit 311 calculates the air conduction feature quantity from the air conduction sound signal acquired in step S11 (step S23).
  • the calculation unit 311 does not need to calculate the bone conduction feature amount from the bone conduction audio signal acquired in step S12.
  • the calculation unit 311 calculates a difference feature amount instead of the bone conduction feature amount (step S24).
  • the differential feature amount is a feature amount indicating the difference between the frequency spectrum of the air-conducted audio signal and the frequency spectrum of the bone-conducted audio signal (that is, the feature amount indicating the feature of the difference).
  • the difference itself between the frequency spectrum of the air-conducted audio signal and the frequency spectrum of the bone-conducted audio signal may be used as the difference feature amount.
  • a parameter calculated from the difference between the frequency spectrum of the air-conducted audio signal and the frequency spectrum of the bone-conducted audio signal may be used as the difference feature amount.
  • a parameter that quantitatively or qualitatively indicates the difference between the frequency spectrum of the air-conducted audio signal and the frequency spectrum of the bone-conducted audio signal may be used as the difference feature amount.
  • the authentication unit 312 authenticates the subject based on the air conduction feature amount calculated in step S23 (step S25). Further, the authentication unit 312 authenticates the subject based on the difference feature amount calculated in step S24 (step S26). Therefore, in the second embodiment, each of the air conduction feature amount and the difference feature amount is used as the target feature amount actually used for authenticating the subject.
  • the authentication unit 312 authenticates the target person by calculating the degree of similarity between the target feature amount and the registered feature amount registered in the matching DB 321, as in the first authentication operation.
  • each of the air conduction feature amount and the difference feature amount is used as the target feature amount. Therefore, in the second authentication operation, the first registered feature amount corresponding to the air conduction feature amount and the second registered feature amount corresponding to the difference feature amount are registered in the collation DB 321 as registered feature amounts.
  • the first registered feature amount is a feature amount of an air-conducted sound signal indicating the air-conducted sound of the registered person's voice.
  • the second registered feature quantity is a feature quantity indicating the difference between the frequency spectrum of the air-conducted sound signal indicating the air-conducted sound of the registered person's voice and the frequency spectrum of the bone-conducted sound signal indicating the bone-conducted sound of the registered person's voice.
  • the authenticating unit 312 calculates the degree of similarity between the air conduction feature amount calculated as the difference feature amount in step S23 and the first registered feature amount registered in the collation DB 321. to authenticate.
  • the authentication unit 312 authenticates the subject by calculating the degree of similarity between the difference feature amount calculated as the difference feature amount in step S24 and the second registered feature amount registered in the collation DB 321. do.
  • the authentication unit 312 authenticates the subject based on the subject's authentication result in step S25 and the subject's authentication result in step S26 (step S27). That is, in the second authentication operation, the authentication unit 312 provisionally authenticates the target person in each of steps S25 and S26, and determines the target person based on the provisional authentication result of the target person in step S27. Ultimately (in other words, finally) authenticate.
  • the authentication unit 312 determines that the target person matches one registered person. It may be determined that they match.
  • the authentication unit 312 determines that the target person does not match one registered person. may be determined that they match.
  • the calculation unit 311 and the authentication unit 312 may have the functional blocks shown in FIG. Specifically, as shown in FIG. 7, the calculator 311 may include the calculator 3111 and the calculator 3115 shown in FIG. Authentication unit 312 may include authentication unit 3121 , authentication unit 3122 , and authentication unit 3123 .
  • the calculation unit 3111 may calculate the air conduction feature quantity from the air conduction audio signal, as described above.
  • the calculator 3115 may calculate the difference feature amount from the air-conducted audio signal and the bone-conducted audio signal.
  • the authentication unit 3121 may provisionally authenticate the subject based on the air conduction feature amount calculated by the calculation unit 3111 .
  • the authentication unit 3122 may provisionally authenticate the subject based on the difference feature amount calculated by the calculation unit 3115 .
  • the authentication unit 3123 may definitively authenticate the subject based on the authentication result by the authentication unit 3121 and the authentication result by the authentication unit 3122 .
  • the authentication device 3 uses both the air conduction audio signal and the bone conduction audio signal to authenticate the subject, as in the first authentication operation.
  • the authentication device 3 uses the voice of the subject to authenticate the subject. A person can be authenticated with higher accuracy.
  • the authentication device 3 authenticates the subject based on the difference feature amount instead of the bone conduction feature amount.
  • the difference feature amount corresponds to a feature amount obtained by substantially eliminating the feature of the subject's voice itself from the feature of the subject's voice superimposed with the influence of the subject's skeleton.
  • the difference feature amount corresponds to a feature amount that indicates the feature of the subject's skeleton (that is, the subject's unique skeleton) that indicates the individuality of the subject. Therefore, the authentication device 3 authenticates the subject based on the air conduction feature amount indicating the feature of the subject's voice itself and the difference feature amount indicating the feature of the subject's skeleton itself.
  • the authentication device 3 uses the subject's voice to authenticate the subject can be authenticated with higher accuracy.
  • the authentication device 3 definitively authenticates the subject based on the provisional authentication result of the subject based on each of the air conduction feature amount and the difference feature amount. Therefore, the result of authentication of the subject based on the air conduction feature amount is used as it is as the definitive authentication result of the subject, or the result of authentication of the subject based on the difference feature amount is used as it is as the definitive authentication result of the subject.
  • the authentication device 3 can authenticate the target person with higher accuracy using the target person's voice compared to the case where the voice of the target person is used.
  • FIG. 8 is a block diagram showing the configuration of an authentication system SYSa according to the third embodiment.
  • the authentication system SYSa differs from the authentication system SYS in that it includes a plurality of bone conduction microphones 2 .
  • the authentication system SYSa includes two bone conduction microphones 2 (specifically, bone conduction microphones 2#1 and 2#2) will be explained.
  • Other features of the authentication system SYSa may be identical to other features of the authentication system SYS.
  • a plurality of bone conduction microphones 2 are arranged at a plurality of different positions with respect to the subject.
  • the bone conduction microphone 2 may be arranged so as to contact a plurality of different parts of the subject.
  • the bone conduction microphone 2#1 may be arranged so as to contact the subject's head, and the bone conduction microphone 2#2 may be arranged so as to contact the subject's ear or its vicinity.
  • An example of the bone conduction microphone 2#1 that contacts the subject's head is a bone conduction microphone that is incorporated in a spectacles-type wearable device (for example, a temple part of the spectacles).
  • An example of the bone conduction microphone 2#2 that contacts the subject's ear or a site near it is a bone conduction microphone incorporated in a headset-type wearable device that can be worn on the subject's ear.
  • the usage of one bone conduction microphone 2 out of the plurality of bone conduction microphones 2 is different from the usage of another bone conduction microphone 2 different from the one bone conduction microphone 2 out of the plurality of bone conduction microphones 2. good too. That is, the usage of the bone conduction microphone 2#1 and the usage of the bone conduction microphone 2#2 may be different.
  • either one of the bone conduction microphones 2#1 and 2#2p may be used to calculate registered feature amounts registered in the collation DB 321.
  • the registered feature amount may be calculated from the bone conduction sound detected by one of the bone conduction microphones 2#1 and 2#2p.
  • one of the bone conduction microphones 2#1 and 2#2p may be used to calculate the target feature amount for authenticating the target person.
  • the calculation unit 311 included in the authentication device 3 described above may calculate the target feature amount from the bone conduction sound detected by the other of the bone conduction microphones 2#1 and 2#2p.
  • the bone conduction sound detected by the bone conduction microphone 2 may change depending on the detection position of the bone conduction sound.
  • the bone conduction sound of one subject detected by the bone conduction microphone 2 arranged at one position is the bone conduction sound arranged at another position different from the one position. It may be different from the bone conduction sound of the same subject detected by the microphone 2 (in particular, its feature quantity).
  • the authentication accuracy of the authentication device 3 may deteriorate due to the difference between the bone conduction microphone 2 for calculating the registered feature amount and the bone conduction microphone 2 for calculating the target feature amount.
  • the authentication unit 312 included in the authentication device 3 described above may authenticate the subject by considering the difference in the position of the bone conduction microphone 2 .
  • FIG. 9 is a flow chart showing the flow of an authentication operation for authenticating a subject in consideration of the difference in the position of the bone conduction microphone 2. As shown in FIG.
  • the calculation unit 311 acquires the air conduction sound signal (step S11), the calculation unit 311 acquires the bone conduction sound signal (step S12), and the calculation unit 311 An air conduction feature amount and a bone conduction feature amount are calculated (step S13).
  • the authentication unit 312 determines whether or not the position of the bone conduction microphone 2 with respect to the subject has changed compared to when the registered feature amount was calculated (step S31a). That is, the authentication unit 312 determines the position of the bone conduction microphone 2 used to calculate the registered feature amount and the position of the bone conduction microphone 2 used to calculate the target feature amount (that is, the position shown in FIG. 9). It is determined whether or not the position of the bone conduction microphone 2 when the motion is performed is different from the position of the bone conduction microphone 2 currently worn by the subject. In order to make this determination, the registered feature amount may be associated with microphone position information regarding the position of the bone conduction microphone 2 used to calculate the registered feature amount in the collation DB 312 .
  • the authentication unit 312 can identify the position of the bone conduction microphone 2 used to calculate the registered feature amount by referring to the collation DB 312 . Furthermore, information about the position of the bone conduction microphone 2 used to calculate the target feature amount may be input to the authentication unit 312 by the subject, for example. Alternatively, the authentication unit 312 may determine the position of the bone conduction microphone 2 currently worn by the subject based on the device number or the like of the bone conduction microphone 2 currently worn by the subject (that is, position of the bone conduction microphone 2 used) may be estimated.
  • step S31a the position of the bone conduction microphone 2 has changed (that is, the position of the bone conduction microphone 2 used to calculate the registered feature amount and the position of the bone conduction microphone 2 used to calculate the target feature amount).
  • position of the conduction microphone 2 (Step S31a: Yes)
  • the authentication unit 312 corrects the bone conduction feature amount calculated in Step S13 (Step S32a). Specifically, the authenticating unit 312 detects the difference between the position of the bone conduction microphone 2 used for calculating the registered feature amount and the position of the bone conduction microphone 2 currently worn by the subject. The bone conduction feature amount is corrected so that the change in the feature amount is canceled.
  • the bone conduction feature quantity is corrected so that the corrected bone conduction feature quantity approaches (preferably matches) the calculated bone conduction feature quantity.
  • the bone conduction sound feature amount actually detected by the bone conduction microphone 2 placed at one position and the bone conduction sound placed at another position different from the one position are combined.
  • a correction parameter for correcting the bone conduction feature amount may be generated in advance from the difference from the bone conduction sound feature amount actually detected by the microphone 2 .
  • the bone conduction microphone 2#1 detects the difference between the feature amount of the bone conduction sound actually detected by the bone conduction microphone 2#1 and the feature amount of the bone conduction sound actually detected by the bone conduction microphone 2#2.
  • the authentication unit 312 may correct the bone conduction feature amount using the correction parameter.
  • step S31a the position of the bone conduction microphone 2 has not changed (that is, the position of the bone conduction microphone 2 used to calculate the registered feature quantity and the position of the bone conduction microphone 2 used to calculate the target feature quantity is the same as the position of the bone conduction microphone 2 used) (Step S31a: No), the authentication unit 312 does not need to correct the bone conduction feature amount calculated in Step S13. .
  • the calculation unit 311 combines the air conduction feature amount calculated in step S13 and the bone conduction feature amount calculated in step S13 or corrected in step S32a (step S14), the calculation unit 311 calculates the target feature amount from the combined feature amount (step S15), and the authentication unit 312 authenticates the subject based on the target feature amount (step S16).
  • the authentication device 3 can identify the position of the bone conduction microphone 2 used to calculate the registered feature amount and the position of the bone conduction microphone 2 used to calculate the target feature amount.
  • the target person can be properly authenticated even if the position of the target is different from that of the target.
  • FIG. 9 shows an authentication operation in consideration of the difference in the position of the bone conduction microphone 2 in the first authentication operation described using FIG.
  • the authentication device 3 may consider the difference in the position of the bone conduction microphone 2 even when performing the second authentication operation described using FIG.
  • the authentication device 3 may correct the bone conduction feature quantity in consideration of the difference in the position of the bone conduction microphone 2 even when performing the second authentication operation described with reference to FIG.
  • a fourth embodiment of the authentication device, authentication method, and recording medium will be described.
  • the fourth embodiment of the authentication device, the authentication method, and the recording medium will be described below using the authentication system SYS to which the authentication device, the authentication method, and the recording medium of the fourth embodiment are applied.
  • the authentication system SYS in the third embodiment is called an authentication system SYSb to distinguish it from the authentication system SYS in the second embodiment.
  • the authentication system SYSb differs from the authentication system SYS in that a part of the second authentication operation is different. Other features of the authentication system SYSb may be identical to other features of the authentication system SYS.
  • the authentication device 3 when performing the second authentication operation, the authentication device 3 authenticates the target person based on the air conduction feature amount (step S25 in FIG. 6), and based on the difference feature amount, authenticates the target person. The person is authenticated (step S26 in FIG. 6).
  • the authentication device 3 determines that the degree of similarity between the air conduction feature amount and the first registered feature amount exceeds the authentication threshold (that is, it is determined that the subject matches the registered person), while the difference feature If the degree of similarity between the quantity and the second registered feature is below the authentication threshold (that is, it is determined that the subject does not match the registered person), it is assumed that the bone conduction feature is affected. In this case, the authentication device 3 may correct the difference feature amount.
  • the osteoconductivity feature amount will fluctuate depending on the bone density.
  • the bone conduction feature of a person with normal bone density may differ from the bone conduction feature of a person suffering from osteoporosis.
  • the authentication device 3 compares the bone conduction feature amount of the person with normal bone density and the bone conduction feature amount of the person suffering from osteoporosis.
  • the difference feature amount may be corrected based on the information about the difference.
  • the authentication device 3 can appropriately authenticate the subject even if the bone conduction feature amount is affected in some way.
  • a fifth embodiment of the authentication device, authentication method, and recording medium will be described.
  • the fifth embodiment of the authentication device, the authentication method, and the recording medium will be described below using the authentication system SYS to which the fifth embodiment of the authentication device, the authentication method, and the recording medium is applied.
  • the authentication system SYS in the fifth embodiment is called an authentication system SYSc to distinguish it from the authentication system SYS in the second embodiment.
  • the authentication system SYSc differs from the authentication system SYS in that weighting processing of bone conduction feature quantities may be performed.
  • Other features of the authentication system SYSc may be identical to other features of the authentication system SYS.
  • the authentication device 3 may increase the weight of the bone conduction feature amount when calculating the target feature amount.
  • the authentication device 3 may increase the weight of the bone conduction feature amount (in this case, actually the weight of the bone conduction audio signal) when calculating the difference feature amount. As a result, the authentication device 3 can appropriately authenticate the target even when the ambient sound around the target is relatively loud.
  • the calculating means calculates the target feature amount using a neural network that outputs the target feature amount when the combined air conduction feature amount and bone conduction feature amount are input.
  • Authenticator [Appendix 3]
  • the calculating means calculates a difference feature quantity, which is a feature quantity of a difference between the frequency spectrum of the air-conducted sound signal and the frequency spectrum of the bone-conducted sound signal, The authentication device according to appendix 1 or 2, wherein the authentication means authenticates the subject based on the air conduction feature amount and the difference feature amount.
  • Appendix 4 an air-conducted sound signal representing the air-conducted sound of the subject's voice and a bone-conducted sound signal representing the bone-conducted sound of the subject's voice; a calculating means for calculating a differential feature quantity, which is a feature quantity of the difference between the frequency spectrum of the air-conducted sound signal and the frequency spectrum of the bone-conducted sound signal; An authentication device comprising authentication means for authenticating the subject based on the air conduction feature amount and the difference feature amount.
  • the authentication means performs a first process of provisionally authenticating the subject based on the air conduction feature amount and a second process of provisionally authenticating the subject based on the difference feature amount,
  • the authentication device according to appendix 4, wherein the subject is definitively authenticated based on the result of the first process and the result of the second process.
  • Appendix 7 an air-conducted sound signal representing the air-conducted sound of the subject's voice and a bone-conducted sound signal representing the bone-conducted sound of the subject's voice; calculating a difference feature quantity that is a feature quantity of the difference between the frequency spectrum of the air-conducted sound signal and the frequency spectrum of the bone-conducted sound signal; An authentication method for authenticating the subject based on the air conduction feature amount and the difference feature amount.
  • an air-conducted sound signal representing the air-conducted sound of the subject's voice and a bone-conducted sound signal representing the bone-conducted sound of the subject's voice calculating a bone conduction feature quantity that is a feature quantity of the bone conduction audio signal; calculating a target feature amount that is a feature amount of the subject's voice by combining the air conduction feature amount and the bone conduction feature amount;
  • a recording medium recording a computer program for executing an authentication method for authenticating the subject based on the target feature amount.
  • an air-conducted sound signal representing the air-conducted sound of the subject's voice and a bone-conducted sound signal representing the bone-conducted sound of the subject's voice calculating a difference feature quantity that is a feature quantity of the difference between the frequency spectrum of the air-conducted sound signal and the frequency spectrum of the bone-conducted sound signal;
  • a recording medium recording a computer program for executing an authentication method for authenticating the subject based on the air conduction feature amount and the difference feature amount.
  • SYS authentication system 1 air conduction microphone 2 bone conduction microphone 3, 1000 authentication device 31 arithmetic device 311, 1001 calculation unit 312, 1002 authentication unit 32 storage device 321 verification DB

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

認証装置1000は、対象者の音声の空気伝導音を示す空気伝導音声信号と、対象者の音声の骨伝導音を示す骨伝導音声信号とから、空気伝導音声信号の特徴量である空気伝導特徴量と、骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、空気伝導特徴量及び骨伝導特徴量を結合することで、対象者の特徴量である対象特徴量を算出する算出手段1001と、対象特徴量に基づいて対象者を認証する認証手段1002とを備える。

Description

認証装置、認証方法、及び、記録媒体
 この開示は、例えば、対象者の音声を用いて対象者を認証可能な認証装置、認証方法及び記録媒体の技術分野に関する。
 対象者の音声を用いて対象者を認証可能な認証装置の一例が、特許文献1に記載されている。
 その他、この開示に関連する先行技術文献として、特許文献2から特許文献4があげられる。
特開2006-011591号公報 国際公開第2018/034178号パンフレット 特開2007-017840号公報 特開2006-010809号公報
 この開示は、先行技術文献に記載された技術の改良を目的とする認証装置、認証方法、及び、記録媒体を提供することを課題とする。
 認証装置の第1の態様は、対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出する算出手段と、前記対象特徴量に基づいて前記対象者を認証する認証手段とを備える。
 認証装置の第2の態様は、対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出する算出手段と、前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する認証手段とを備える。
 認証方法の第1の態様は、対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出し、前記対象特徴量に基づいて前記対象者を認証する。
 認証方法の第2の態様は、対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出し、前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する。
 記録媒体の第1の態様は、コンピュータに、対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出し、前記対象特徴量に基づいて前記対象者を認証する認証方法を実行させるコンピュータプログラムが記録された記録媒体である。
 記録媒体の第2の態様は、コンピュータに、対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出し、前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する認証方法を実行させるコンピュータプログラムが記録された記録媒体である。
図1は、第1実施形態における認証装置の構成を示すブロック図である。 図2は、第2実施形態における認証システムの構成を示すブロック図である。 図3は、第2実施形態における認証装置の構成を示すブロック図である。 図4は、第2実施形態における認証装置が行う第1認証動作の流れを示すフローチャートである。 図5は、第1認証動作を行う算出部の構成を示すブロック図である。 図6は、第2実施形態における認証装置が行う第2認証動作の流れを示すフローチャートである。 図7は、第2認証動作を行う算出部及び認証部の構成を示すブロック図である。 図8は、第3実施形態における認証システムの構成を示すブロック図である。 図9は、骨伝導マイクの位置の違いを考慮して対象者を認証する認証動作の流れを示すフローチャートである。
 以下、図面を参照しながら、認証装置、認証方法、及び、記録媒体の実施形態について説明する。
 (1)第1実施形態
 はじめに、認証装置、認証方法、及び、記録媒体の第1実施形態について説明する。以下では、認証装置、認証方法、及び、記録媒体の第1実施形態が適用された認証装置1000を用いて、認証装置、認証方法、及び、記録媒体の第1実施形態について説明する。
 図1は、第1実施形態における認証装置1000の構成を示すブロック図である。図1に示すように、認証装置1000は、算出部1001と、認証部1002とを備えている。
 第1の例では、算出部1001は、対象者の音声(つまり、対象者が発話した音声、以下同じ)の空気伝導音を示す空気伝導音声信号から、空気伝導音声信号の特徴量である空気伝導特徴量を算出する。更に、算出部1001は、対象者の音声の骨伝導音を示す骨伝導音声信号から、骨伝導音声信号の特徴量である骨伝導特徴量を算出する。更に、算出部1001は、空気伝導音声信号及び骨伝導特徴量を結合することで、対象者の特徴量である対象特徴量を算出する。認証部1002は、算出部1001が算出した対象特徴量に基づいて、対象者を認証する。
 このように、第1の例では、認証装置1000は、対象者の音声そのものの特徴を示す空気伝導特徴量のみならず、対象者の骨格の影響が重畳された対象者の音声の特徴を示す骨伝導特徴量(つまり、対象者の骨格の特徴をも示す骨伝導特徴量)にも基づいて、対象者を認証する。このため、空気伝導特徴量及び骨伝導特徴量のいずれか一方に基づいて対象者を認証する認証装置と比較して、認証装置1000は、対象者の音声を用いて、対象者をより精度よく認証することができる。特に、認証装置1000は、空気伝導特徴量に基づいて対象者を認証する処理と、空気伝導特徴量とは異なる骨伝導特徴量に基づいて対象者を認証する処理とを別々に行わなくてもよくなる。つまり、認証装置1000は、結合された空気伝導特徴量及び骨伝導特徴量から算出される対象特徴量に基づいて対象者を認証する処理を行えばよい。このため、認証装置1000は、対象者を認証するための処理負荷を低減可能となる。
 一方で、第2の例では、算出部1001は、対象者の音声の空気伝導音を示す空気伝導音声信号と、対象者の音声の骨伝導音を示す骨伝導音声信号とから、空気伝導音声信号の周波数スペクトルと骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量を算出する。更に、算出部1001は、空気伝導音声信号から、空気伝導音声信号の特徴量である空気伝導特徴量を算出する。認証部1002は、空気伝導特徴量及び差分特徴量に基づいて、対象者を認証する。
 ここで、空気伝導特徴量が対象者の音声そのものの特徴を示すことは、上述したとおりである。更に、差分特徴量は、対象者の骨格の影響が重畳した対象者の音声の特徴から、対象者の音声そのものの特徴が実質的に排除された特徴量に相当する。つまり、差分特徴量は、対象者の個人性を示す対象者の骨格(つまり、対象者に固有の骨格)そのものの特徴を示す特徴量に相当する。このため、認証装置1000は、対象者の音声そのものの特徴を示す空気伝導特徴量及び対象者の骨格そのものの特徴を示す差分特徴量に基づいて、対象者を認証する。その結果、空気伝導特徴量及び差分特徴量のいずれか一方に基づいて対象者を認証する認証装置と比較して、認証装置1000は、対象者の音声を用いて、対象者をより精度よく認証することができる。
 (2)第2実施形態
 続いて、認証装置、認証方法、及び、記録媒体の第2実施形態について説明する。以下では、認証装置、認証方法、及び、記録媒体の第2実施形態が適用された認証システムSYSを用いて、認証装置、認証方法、及び、記録媒体の第2実施形態について説明する。
 (2-1)認証システムSYSの構成
 はじめに、図2を参照しながら、第2実施形態における認証システムSYSの構成について説明する。図2は、第2実施形態における認証システムSYSの構成を示すブロック図である。
 図2に示すように、認証システムSYSは、空気伝導マイク1と、骨伝導マイク2と、認証装置3とを備えている。
 空気伝導マイク1は、対象者の音声の空気伝導音を検出可能な音声検出装置である。具体的には、対象者の音声に伴って発生する空気の振動を検出することで、対象者の音声の空気伝導音を検出する。空気伝導マイク1は、空気伝導音を検出することで、空気伝導音を示す音声信号を生成する。尚、以下の説明では、空気伝導音を示す音声信号を、“空気伝導音声信号”と称する。空気伝導マイク1は、生成した空気伝導音声信号を、認証装置3に出力する。
 骨伝導マイク2は、対象者の音声の骨伝導音を検出可能な音声検出装置である。具体的には、対象者の音声に伴って発生する対象者の骨(骨格)の振動を検出することで、対象者の音声の骨伝導音を検出する。骨伝導マイク2は、骨伝導音を検出することで、骨伝導音を示す音声信号を生成する。尚、以下の説明では、骨伝導音を示す音声信号を、“骨伝導音声信号”と称する。骨伝導マイク2は、生成した骨伝導音声信号を、認証装置3に出力する。
 認証装置3は、対象者の音声を用いて対象者を認証する認証動作を行う。つまり、認証装置3は、声認証を行う。認証動作を行うために、認証装置3は、空気伝導マイク1から空気伝導音声信号を取得する。更に、認証装置3は、骨伝導マイク2から骨伝導音声信号を取得する。その後、認証装置3は、空気伝導音声信号と骨伝導音声信号とを用いて、対象者を認証する。
 空気伝導マイク1と骨伝導マイク2と認証装置3とを備える装置が、認証システムSYSとして用いられてもよい。例えば、空気伝導マイク1と骨伝導マイク2とを備え且つ認証装置3として機能可能な携帯端末(例えば、スマートフォン)が、認証システムSYSとして用いられてもよい。例えば、空気伝導マイク1と骨伝導マイク2と認証装置3とを備えるウェアラブルデバイスが、認証システムSYSとして用いられてもよい。
 声認証を行う認証システムSYSが適用される場面の一例として、顔認証及び虹彩認証を精度よく行うことが容易ではない場面があげられる。顔認証及び虹彩認証を精度よく行うことが容易ではない場面の一例として、マスクを装着した対象者を認証する場面があげられる。例えば、建設現場及び工場の少なくとも一方においてマスクを装着した作業員の入場を管理するために、認証システムSYSが用いられてもよい。例えば、医療施設においてマスクを装着した医療従事者の入退室を管理するために、認証システムSYSが用いられてもよい。声認証を行う認証システムSYSが適用される場面の他の一例として、指紋認証を精度よく行うことが容易ではない場面があげられる。指紋認証を精度よく行うことが容易ではない場面の一例として、手袋を装着した対象者を認証する場面があげられる。例えば、医療施設において手袋を装着した医療従事者の入退室を管理するために、認証システムSYSが用いられてもよい。声認証を行う認証システムSYSが適用される場面の他の一例として、電話サービスを介して対象者を認証する場面があげられる。但し、認証システムSYSが適用される場面が、ここで説明した場面に限定されることはない。
 (2-2)認証装置3の構成
 続いて、図3を参照しながら、第2実施形態における認証装置3の構成について説明する。図3は、第2実施形態における認証装置3の構成を示すブロック図である。
 図3に示すように、認証装置3は、演算装置31と、記憶装置32とを備えている。更に、認証装置3は、通信装置33と、入力装置34と、出力装置35とを備えていてもよい。但し、認証装置3は、通信装置33、入力装置34及び出力装置35のうちの少なくとも一つを備えていなくてもよい。演算装置31と、記憶装置32と、通信装置33と、入力装置34と、出力装置35とは、データバス36を介して接続されていてもよい。
 演算装置31は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも一つを含む。演算装置31は、コンピュータプログラムを読み込む。例えば、演算装置31は、記憶装置32が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置31は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、認証装置3が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置34)を用いて読み込んでもよい。演算装置31は、通信装置33(或いは、その他の通信装置)を介して、認証装置3の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置31は、読み込んだコンピュータプログラムを実行する。その結果、演算装置31内には、認証装置3が行うべき動作(例えば、上述した認証動作)を実行するための論理的な機能ブロックが実現される。つまり、演算装置31は、認証装置3が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
 図3には、認証動作を実行するために演算装置31内に実現される論理的な機能ブロックの一例が示されている。図3に示すように、演算装置31内には、「算出手段」の一具体例である算出部311と、「認証手段」の一具体例である認証部312とが実現される。
 算出部311は、空気伝導音声信号及び骨伝導音声信号から、認証動作に用いられる対象者の特徴量である対象特徴量を算出する。尚、算出部311が算出する対象特徴量については、後に詳述する。
 認証部312は、算出部311が算出した対象特徴量に基づいて、対象者を認証する。つまり、認証部312は、算出部311が算出した対象特徴量に基づいて、対象者が登録人物と一致するか否かを判定する。具体的には、登録人物の音声に関する特徴量である登録特徴量は、記憶装置32が記憶している照合DB(DataBase)321に予め登録されている。照合DB321には、このような登録特徴量が、登録人物の数だけ登録されている。認証部312は、算出部311が算出した対象特徴量と、照合DB321に登録された登録特徴量とを比較することで、対象者が登録人物に一致するか否かを判定する。
 記憶装置32は、所望のデータを記憶可能である。例えば、記憶装置32は、演算装置31が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置32は、演算装置31がコンピュータプログラムを実行している場合に演算装置31が一時的に使用するデータを一時的に記憶してもよい。記憶装置32は、認証装置3が長期的に保存するデータを記憶してもよい。尚、記憶装置32は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置32は、一時的でない記録媒体を含んでいてもよい。
 通信装置33は、不図示の通信ネットワークを介して、認証装置3の外部の装置と通信可能である。例えば、通信装置33は、空気伝導マイク1及び骨伝導マイク2の少なくとも一方と通信可能であってもよい。この場合、通信装置33は、不図示の通信ネットワークを介して、空気伝導マイク1から空気伝導音声信号を受信(つまり、取得)してもよい。通信装置33は、不図示の通信ネットワークを介して、骨伝導マイク2から骨伝導音声信号を受信(つまり、取得)してもよい。
 入力装置34は、認証装置3の外部からの認証装置3に対する情報の入力を受け付ける装置である。例えば、入力装置34は、認証装置3のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ)を含んでいてもよい。例えば、入力装置34は、認証装置3に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。例えば、入力装置34は、空気伝導マイク1から出力される空気伝導音声信号及び骨伝導マイク2から出力される骨伝導音声信号の少なくとも一方が入力される入力インタフェースを含んでいてもよい。
 出力装置35は、認証装置3の外部に対して情報を出力する装置である。例えば、出力装置35は、情報を画像として出力してもよい。つまり、出力装置35は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置35は、情報を音声として出力してもよい。つまり、出力装置35は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置35は、紙面に情報を出力してもよい。つまり、出力装置35は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
 (2-3)認証装置3の動作(認証動作)
 続いて、第2実施形態における認証装置3が行う認証動作の流れについて説明する。第2実施形態では、認証装置3は、第1認証動作と第2認証動作との少なくとも一方を行う。このため、以下では、第1認証動作及び第2認証動作について順に説明する。
 (2-3-1)第1認証動作
 初めに、図4を参照しながら、第2実施形態における認証装置3が行う第1認証動作の流れについて説明する。図4は、第2実施形態における認証装置3が行う第1認証動作の流れを示すフローチャートである。
 図4に示すように、算出部311は、空気伝導マイク1から、対象者の音声の空気伝導音を示す空気伝導音声信号を取得する(ステップS11)。更に、算出部311は、骨伝導マイク2から、対象者の音声の骨伝導音を示す骨伝導音声信号を取得する(ステップS12)。
 その後、算出部311は、ステップS11において取得された空気伝導音声信号から、空気伝導音声信号の特徴量である空気伝導特徴量を算出する(ステップS13)。更に、算出部311は、ステップS12において取得された骨伝導音声信号から、骨伝導音声信号の特徴量である骨伝導特徴量を算出する(ステップS13)。
 算出部311は、空気伝導音声信号の特徴を定性的に及び/又は定量的に示す任意のパラメータを、空気伝導特徴量として算出してもよい。例えば、算出部311は、空気伝導音声信号に対して所望の音声分析処理を施すことで、空気伝導音声信号の特徴を示す任意のパラメータを、空気伝導特徴量として算出してもよい。所望の音声分析処理の一例として、周波数分析処理、ケプストラム分析処理及びピッチ抽出処理のうちの少なくとも一つがあげられる。空気伝導音声信号の特徴を示す任意のパラメータの一例として、空気伝導音声信号に対して行われる周波数分析処理の結果から算出可能なメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficients)があげられる。
 空気伝導特徴量は、N次元のベクトル(つまり、N個のベクトル要素から構成されるベクトル)である。尚、「N」は、1以上の整数を示す定数である。この場合、ベクトルの次元の数は、認証動作を適切に行うことが可能な適切な数に設定されることが好ましい。一例として、メル周波数ケプストラム係数が空気伝導特徴量として用いられる場合には、空気伝導特徴量は、12次元以上のベクトルであってもよい。
 同様に、算出部311は、骨伝導音声信号の特徴を定性的に及び/又は定量的に示す任意のパラメータを、骨伝導特徴量として算出してもよい。例えば、算出部311は、骨伝導音声信号に対して所望の音声分析処理を施すことで、骨伝導音声信号の特徴を示す任意のパラメータを、骨伝導特徴量として算出してもよい。骨伝導音声信号の特徴を示す任意のパラメータの一例として、骨伝導音声信号に対して行われる周波数分析処理の結果から算出可能なメル周波数ケプストラム係数があげられる。
 骨伝導特徴量は、M次元のベクトル(つまり、M個のベクトル要素から構成されるベクトル)である。尚、「M」は、1以上の整数を示す定数である。この場合、ベクトルの次元の数は、認証動作を適切に行うことが可能な適切な数に設定されることが好ましい。一例として、メル周波数ケプストラム係数が空気伝導特徴量として用いられる場合には、骨伝導特徴量は、12次元以上のベクトルであってもよい。
 その後、算出部311は、ステップS13において算出された空気伝導特徴量と、ステップS13において算出された骨伝導特徴量とを結合(言い換えれば、連結又は合成)する(ステップS14)。その結果、算出部311は、結合された空気伝導特徴量及び骨伝導特徴量から構成される特徴量である結合特徴量を算出する(ステップS14)。
 上述したように、空気伝導特徴量がN次元のベクトルであり且つ骨伝導特徴量がM次元のベクトルであるため、結合特徴量は、典型的には、N+M次元のベクトルとなる。つまり、結合特徴量の次元の数は、N+Mとなる。逆に言えば、算出部311は、結合特徴量が、空気伝導特徴量に含まれるN個のベクトル要素と、骨伝導特徴量に含まれるM個のベクトル要素とを含むように、結合特徴量を算出してもよい。
 但し、結合特徴量は、N+M次元未満のベクトルであってもよい。つまり、結合特徴量の次元の数は、N+M未満であってもよい。但し、結合特徴量の次元の数は、Nよりも大きく且つMよりも大きい。つまり、結合特徴量は、N+M次元未満であって、N次元より大きく且つM次元よりも大きいベクトルであってもよい。一例として、算出部311は、結合特徴量が、空気伝導特徴量に含まれるN個のベクトル要素のうちのN’個のベクトル要素(但し、N’は、1以上且つN未満の整数を示す定数)の少なくとも一つと、骨伝導特徴量に含まれるM個のベクトル要素のうちのM’個のベクトル要素(但し、M’は、1以上且つM未満の整数を示す定数)少なくとも一つとを含むように、結合特徴量を算出してもよい。つまり、第2実施形態における「空気伝導特徴量と骨伝導特徴量とを結合することで結合特徴量を算出する」動作は、「結合特徴量が、空気伝導特徴量に含まれるN個のベクトル要素のうちの少なくとも一つと、骨伝導特徴量に含まれるM個のベクトル要素のうちの少なくとも一つとを含むように、結合特徴量を算出する」動作を意味していてもよい。
 その後、算出部311は、ステップS14において算出された結合特徴量から、認証動作を行うために認証部312が用いる対象特徴量を算出する(ステップS15)。例えば、算出部311は、ステップS14において算出された結合特徴量から、対象者の特徴を示す特徴量を抽出することで、抽出した特徴量に相当する対象特徴量を算出してもよい。
 算出部311は、結合特徴量が入力された場合に対象特徴量を出力可能であって且つ機械学習によって構築可能なニューラルネットワークを用いて、結合特徴量から対象特徴量を算出してもよい。ニューラルネットワークは、サンプル人物の空気伝導音声信号及びサンプル人物の骨伝導音声信号とサンプル人物の認証結果の正解ラベルとを含む教師データを用いた機械学習によって、予め構築されていてもよい。
 その後、認証部312は、ステップS15において算出された対象特徴量に基づいて、対象者を認証する(ステップS16)。具体的には、認証部312は、ステップS15において算出された対象特徴量と、照合DB321に登録された登録人物に対応する登録特徴量との類似度を算出する。認証部312は、算出した類似度が所定の認証閾値を上回る(つまり、対象特徴量が登録特徴量に似ている)場合には、対象者が登録人物と一致すると判定してもよい。一方で、認証部312は、算出した類似度が所定の認証閾値を下回る(つまり、対象特徴量が登録特徴量に似ていない)場合には、対象者が登録人物と一致しないと判定してもよい。
 認証部312は、二つの特徴量の類似度を算出するための任意の方法を用いて、類似度を算出してもよい。二つの特徴量の類似度を算出するための任意の方法として、確率的線形判別分析(PLDA:Probablistic Linera Discriminant Analysis)モデルを用いた方法があげられる。
 認証部312は、ニューラルネットワークを用いて、対象者を認証してもよい。例えば、認証部312は、確率的線形判別分析モデルが適用されたニューラルネットワークを用いて、対象者を認証してもよい。ニューラルネットワークは、サンプル人物の空気伝導音声信号及びサンプル人物の骨伝導音声信号とサンプル人物の認証結果の正解ラベルとを含む教師データを用いた機械学習によって、予め構築されていてもよい。
 上述したように算出部311がニューラルネットワークを用いる場合には、算出部311が用いるニューラルネットワークと認証部312が用いるニューラルネットワークとが統合されていてもよい。つまり、算出部311は、ニューラルネットワークの第1ネットワーク部分を用いて対象特徴量を算出し、認証部312は、第1ネットワーク部分の出力が入力されるニューラルネットワークの第2ネットワーク部分を用いて対象者を認証してもよい。この場合、算出部311及び認証部312が用いるニューラルネットワークは、いわゆるx-vectorと称される方式(言い換えれば、深層話者埋込(Deep Speaker Embedding))に準拠したニューラルネットワークであってもよい。
 照合DB321には、複数の登録人物に夫々対応する複数の登録特徴量が登録されていてもよい。この場合、認証部312は、照合DB321から、一の登録人物に対応する一の登録特徴量と対象特徴量との類似度を算出することで対象者が一の登録人物と一致するか否かを判定する動作を、複数の登録特徴量を用いて繰り返してもよい。
 第1認証動作が行われる場合には、照合DB321に登録されている登録特徴量は、第1認証動作で用いられる対象特徴量と同様の流れで生成されていてもよい。具体的には、登録特徴量を照合DB321に登録するために、まずは、登録人物の音声の空気伝導音を示す空気伝導音声信号及び登録人物の音声の骨伝導音を示す骨伝導音声信号が取得されてもよい。その後、空気伝導音声信号から空気伝導特徴量が算出され、且つ、骨伝導音声信号から骨伝導特徴量が算出されてもよい。その後、空気伝導特徴量と骨伝導特徴量とを結合することで結合特徴量が算出されてもよい。その後、結合特徴量から登録特徴量が算出されてもよい。
 このような図4に示す流れで第1認証動作が行われる場合には、算出部311は、図5に示す機能ブロックを備えていてもよい。具体的には、図5に示すように、算出部311は、算出部3111と、算出部3112と、算出部3113と、算出部3114とを備えていてもよい。算出部3111は、空気伝導音声信号から、空気伝導特徴量を算出してもよい。算出部3112は、骨伝導音声信号から、骨伝導特徴量を算出してもよい。算出部3112は、算出部3111が算出した空気伝導特徴量と算出部3112が算出した骨伝導特徴量とを結合することで、結合特徴量を算出してもよい。算出部3114は、算出部3113が算出した結合特徴量から、対象特徴量を算出してもよい。
 以上説明した第1認証動作によれば、認証装置3は、対象者の音声そのものの特徴を示す空気伝導特徴量のみならず、対象者の骨格の影響が重畳された対象者の音声の特徴を示す骨伝導特徴量(つまり、対象者の骨格の特徴をも示す骨伝導特徴量)にも基づいて、対象者を認証する。つまり、認証装置3は、空気伝導音声信号と骨伝導音声信号との双方を用いて、対象者を認証する。その結果、空気伝導特徴量及び骨伝導特徴量のいずれか一方に基づいて対象者を認証する(つまり、空気伝導音声信号と骨伝導音声信号のいずれか一方に基づいて対象者を認証する)第1比較例の認証装置と比較して、認証装置3は、対象者の音声を用いて、対象者をより精度よく認証することができる。というのも、第1比較例の認証装置が空気伝導特徴量に基づいて対象者を認証する(つまり、対象者を認証するために骨伝導特徴量を用いない)場合には、空気伝導音声信号の取得環境が適切でない場合において、認証精度が悪化する可能性があるという技術的問題が生ずる可能性がある。例えば、空気伝導音声信号の取得環境が、ノイズの多い環境又は対象者が音声を適切に発していない環境である場合において、認証精度が悪化する可能性がある。一方で、第1比較例の認証装置が骨伝導特徴量に基づいて対象者を認証する(つまり、対象者を認証するために空気伝導特徴量を用いない)場合には、骨伝導音声信号の精度がそもそも空気伝導音声信号の精度よりも低いがゆえに、認証精度が悪化する可能性があるという技術的問題が生ずる可能性がある。しかるに、第1認証動作では、認証装置3は、空気伝導特徴量及び骨伝導特徴量の双方に基づいて対象者を認証する。このため、認証装置3は、第1比較例の認証装置において発生する可能性がある技術的問題を適切に解決可能である。
 更に、第1認証動作によれば、認証装置3は、空気伝導特徴量に基づいて対象者を認証する処理と、空気伝導特徴量とは異なる骨伝導特徴量に基づいて対象者を認証する処理とを別々に行わなくてもよくなる。つまり、認証装置3は、2種類の異なる特徴量に基づいて対象者を夫々認証する2種類の処理を別々に行わなくてもよくなる。言い換えれば、認証装置3は、対象特徴量という1種類の特徴量に基づいて対象者を認証する処理を行えばよい。このため、空気伝導特徴量に基づいて対象者を認証する処理と骨伝導特徴量に基づいて対象者を認証する処理とを別々に行う必要がある第2比較例の認証装置と比較して、認証装置3は、特徴量に基づいて対象者を認証する処理を行う回数(例えば、上述した類似度を算出する回数)を減らすことができる。一例として、認証装置3は、認証装置3が特徴量に基づいて対象者を認証する処理を行う回数を、第2比較例の認証装置が特徴量に基づいて対象者を認証する処理を行う回数の半分程度にまで減らすことができる。その結果、認証装置3は、対象者を認証するための処理負荷を低減することができる。
 また、認証装置3は、ニューラルネットワークを用いて、結合特徴量から対象特徴量を算出可能である。このため、空気伝導特徴量及び骨伝導特徴量の夫々と比較して要素数が多い結合特徴量が用いられる場合であっても、認証装置3は、対象特徴量を比較的容易に算出することができる。
 (2-3-2)第2認証動作
 続いて、図6を参照しながら、第2実施形態における認証装置3が行う第2認証動作の流れについて説明する。図6は、第2実施形態における認証装置3が行う第2認証動作の流れを示すフローチャートである。
 図6に示すように、第2認証動作においても、第1認証動作と同様に、算出部311は、空気伝導マイク1から、空気伝導音声信号を取得する(ステップS11)。更に、算出部311は、骨伝導マイク2から、骨伝導音声信号を取得する(ステップS12)。
 その後、第2認証動作においても、第1認証動作と同様に、算出部311は、ステップS11において取得された空気伝導音声信号から、空気伝導特徴量を算出する(ステップS23)。
 一方で、第2認証動作においては、算出部311は、ステップS12において取得された骨伝導音声信号から、骨伝導特徴量を算出しなくてもよい。第2認証動作では、算出部311は、骨伝導特徴量に代えて、差分特徴量を算出する(ステップS24)。差分特徴量は、空気伝導音声信号の周波数スペクトルと骨伝導音声信号の周波数スペクトルとの差分を示す特徴量(つまり、差分の特徴を示す特徴量)である。例えば、空気伝導音声信号の周波数スペクトルと骨伝導音声信号の周波数スペクトルとの差分そのものが、差分特徴量として用いられてもよい。例えば、空気伝導音声信号の周波数スペクトルと骨伝導音声信号の周波数スペクトルとの差分から算出されるパラメータが、差分特徴量として用いられてもよい。例えば、空気伝導音声信号の周波数スペクトルと骨伝導音声信号の周波数スペクトルとの差分を定量的に又は定性的に示すパラメータが、差分特徴量として用いられてもよい。
 その後、認証部312は、ステップS23において算出された空気伝導特徴量に基づいて、対象者を認証する(ステップS25)。更に、認証部312は、ステップS24において算出された差分特徴量に基づいて、対象者を認証する(ステップS26)。このため、第2実施形態では、空気伝導特徴量及び差分特徴量の夫々が、対象者を認証するために実際に用いられる対象特徴量として用いられる。
 第2認証動作においても、第1認証動作と同様に、認証部312は、対象特徴量と照合DB321に登録された登録特徴量との類似度を算出することで、対象者を認証する。ここで、上述したように、第2実施形態では、空気伝導特徴量及び差分特徴量の夫々が、対象特徴量として用いられる。このため、第2認証動作では、照合DB321には、登録特徴量として、空気伝導特徴量に対応する第1登録特徴量と、差分特徴量に対応する第2登録特徴量とが登録されている。第1登録特徴量は、登録人物の音声の空気伝導音を示す空気伝導音声信号の特徴量である。第2登録特徴量は、登録人物の音声の空気伝導音を示す空気伝導音声信号の周波数スペクトルと、登録人物の音声の骨伝導音を示す骨伝導音声信号の周波数スペクトルとの差分を示す特徴量である。この場合、認証部312は、ステップS25において、ステップS23において差分特徴量として算出された空気伝導特徴量と照合DB321に登録された第1登録特徴量との類似度を算出することで、対象者を認証する。更に、認証部312は、ステップS26において、ステップS24において差分特徴量として算出された差分特徴量と照合DB321に登録された第2登録特徴量との類似度を算出することで、対象者を認証する。
 その後、認証部312は、ステップS25における対象者の認証結果と、ステップS26における対象者の認証結果とに基づいて、対象者を認証する(ステップS27)。つまり、第2認証動作では、認証部312は、ステップS25及びS26の夫々において、対象者を暫定的に認証し、ステップS27において、対象者の暫定的な認証結果に基づいて、対象者を確定的に(言い換えれば、最終的に)認証する。一例として、認証部312は、ステップS25において対象者が一の登録人物に一致し且つステップS26において対象者が同じ一の登録人物に一致すると判定された場合に、対象者が一の登録人物に一致すると判定してもよい。他方で、認証部312は、ステップS25及びS26の少なくとも一方において対象者が一の登録人物に一致していないと判定された場合に、対象者が一の登録人物に一致していないと判定してもよい。
 このような図6に示す流れで第2認証動作が行われる場合には、算出部311及び認証部312は、図7に示す機能ブロックを備えていてもよい。具体的には、図7に示すように、算出部311は、図5に示す算出部3111と、算出部3115とを備えていてもよい。認証部312は、認証部3121と、認証部3122と、認証部3123とを備えていてもよい。算出部3111は、上述したように、空気伝導音声信号から、空気伝導特徴量を算出してもよい。算出部3115は、空気伝導音声信号と骨伝導音声信号から、差分特徴量を算出してもよい。認証部3121は、算出部3111が算出した空気伝導特徴量に基づいて、対象者を暫定的に認証してもよい。認証部3122は、算出部3115が算出した差分特徴量に基づいて、対象者を暫定的に認証してもよい。認証部3123は、認証部3121による認証結果と、認証部3122による認証結果とに基づいて、対象者を確定的に認証してもよい。
 以上説明した第2認証動作によれば、第1認証動作と同様に、認証装置3は、空気伝導音声信号と骨伝導音声信号との双方を用いて、対象者を認証する。その結果、空気伝導音声信号と骨伝導音声信号のいずれか一方に基づいて対象者を認証する第1比較例の認証装置と比較して、認証装置3は、対象者の音声を用いて、対象者をより精度よく認証することができる。
 更に、第2認証動作によれば、認証装置3は、骨伝導特徴量に代えて差分特徴量に基づいて対象者を認証する。ここで、差分特徴量は、対象者の骨格の影響が重畳した対象者の音声の特徴から、対象者の音声そのものの特徴が実質的に排除された特徴量に相当する。つまり、差分特徴量は、対象者の個人性を示す対象者の骨格(つまり、対象者に固有の骨格)そのものの特徴を示す特徴量に相当する。このため、認証装置3は、対象者の音声そのものの特徴を示す空気伝導特徴量及び対象者の骨格そのものの特徴を示す差分特徴量に基づいて、対象者を認証する。その結果、空気伝導特徴量及び差分特徴量のいずれか一方に基づいて対象者を認証する第3比較例の認証装置と比較して、認証装置3は、対象者の音声を用いて、対象者をより精度よく認証することができる。
 更に、認証装置3は、空気伝導特徴量及び差分特徴量の夫々に基づく対象者の暫定的な認証結果に基づいて、対象者を確定的に認証する。このため、空気伝導特徴量の基づく対象者の認証結果が対象者の確定的な認証結果としてそのまま用いられる又は差分特徴量の基づく対象者の認証結果が対象者の確定的な認証結果としてそのまま用いられる場合と比較して、認証装置3は、対象者の音声を用いて、対象者をより精度よく認証することができる。
 (3)第3実施形態
 続いて、認証装置、認証方法、及び、記録媒体の第3実施形態について説明する。以下では、認証装置、認証方法、及び、記録媒体の第3実施形態が適用された認証システムSYSを用いて、認証装置、認証方法、及び、記録媒体の第3実施形態について説明する。尚、以下の説明では、第3実施形態における認証システムSYSを、認証システムSYSaと称することで、第2実施形態における認証システムSYSと区別する。
 以下、図8を参照しながら、第3実施形態における認証システムSYSaについて説明する。図8は、第3実施形態における認証システムSYSaの構成を示すブロック図である。
 図8に示すように、認証システムSYSaは、認証システムSYSと比較して、複数の骨伝導マイク2を備えているという点で異なる。以下の説明では、図8に示すように、認証システムSYSaが二つの骨伝導マイク2(具体的には、骨伝導マイク2#1及び2#2)を備える例について説明する。認証システムSYSaのその他の特徴は、認証システムSYSのその他の特徴と同一であってもよい。
 複数の骨伝導マイク2は、対象者に対して異なる複数の位置にそれぞれ配置される。例えば、骨伝導マイク2は、対象者の異なる複数の部位にそれぞれ接触するように配置されてもよい。一例として、骨伝導マイク2#1は、対象者の頭に接触するように配置され、骨伝導マイク2#2は、対象者の耳又はその近傍の部位に接触するように配置されてもよい。対象者の頭に接触する骨伝導マイク2#1の一例として、眼鏡型のウェアラブルデバイス(例えば、眼鏡のつるの部分)に組み込まれた骨伝導マイクがあげられる。対象者の耳又はその近傍の部位に接触する骨伝導マイク2#2の一例として、対象者の耳に装着可能なヘッドセット型のウェアラブルデバイスに組み込まれた骨伝導マイクがあげられる。
 複数の骨伝導マイク2のうちの一の骨伝導マイク2の用途と、複数の骨伝導マイク2のうちの一の骨伝導マイク2とは異なる他の骨伝導マイク2の用途とが異なっていてもよい。つまり、骨伝導マイク2#1の用途と、骨伝導マイク2#2の用途とが異なっていてもよい。一例として、骨伝導マイク2#1及び2#2pのいずれか一方は、照合DB321に登録されている登録特徴量を算出するために用いられてもよい。この場合、登録特徴量は、骨伝導マイク2#1及び2#2pのいずれか一方が検出した骨伝導音から算出されてもよい。一方で、骨伝導マイク2#1及び2#2pのいずれか他方は、対象者を認証するための対象特徴量を算出するために用いられてもよい。この場合、上述した認証装置3が備える算出部311は、骨伝導マイク2#1及び2#2pのいずれか他方が検出した骨伝導音から、対象特徴量を算出してもよい。
 ここで、骨伝導マイク2が検出する骨伝導音は、骨伝導音の検出位置によって変わる可能性がある。例えば、一の位置に配置されている骨伝導マイク2が検出した一の対象者の骨伝導音(特に、その特徴量)は、一の位置とは異なる他の位置に配置されている骨伝導マイク2が検出した同じ一の対象者の骨伝導音(特に、その特徴量)と異なる可能性がある。この場合、登録特徴量を算出するための骨伝導マイク2と対象特徴量を算出するための骨伝導マイク2とが異なることに起因して、認証装置3の認証精度が悪化してしまう可能性がある。そこで、上述した認証装置3が備える認証部312は、骨伝導マイク2の位置の違いを考慮して、対象者を認証してもよい。以下、骨伝導マイク2の位置の違いを考慮して対象者を認証する認証動作について、図9を参照しながら説明する。図9は、骨伝導マイク2の位置の違いを考慮して対象者を認証する認証動作の流れを示すフローチャートである。
 図9に示すように、第3実施形態においても、算出部311が空気伝導音声信号を取得し(ステップS11)、算出部311が骨伝導音声信号を取得し(ステップS12)、算出部311が空気伝導特徴量及び骨伝導特徴量を算出する(ステップS13)。
 その後、認証部312は、登録特徴量が算出された場合と比較して、対象者に対する骨伝導マイク2の位置が変わっているか否かを判定する(ステップS31a)。つまり、認証部312は、登録特徴量を算出するために用いられた骨伝導マイク2の位置と、対象特徴量を算出するために用いられた骨伝導マイク2の位置(つまり、図9に示す動作が行われている場合の骨伝導マイク2の位置であり、対象者が現在装着している骨伝導マイク2の位置)とが異なるか否かを判定する。この判定を行うために、照合DB312内において、登録特徴量は、登録特徴量を算出するために用いられた骨伝導マイク2の位置に関するマイク位置情報と関連付けられていてもよい。その結果、認証部312は、照合DB312を参照することで、登録特徴量を算出するために用いられた骨伝導マイク2の位置を特定することができる。更に、対象特徴量を算出するために用いられた骨伝導マイク2の位置に関する情報は、例えば、対象者によって認証部312に入力されてもよい。或いは、認証部312は、対象者が現在装着している骨伝導マイク2の機器番号等から、対象者が現在装着している骨伝導マイク2の位置(つまり、対象特徴量を算出するために用いられた骨伝導マイク2の位置)を推定してもよい。
 ステップS31aにおける判定の結果、骨伝導マイク2の位置が変わった(つまり、登録特徴量を算出するために用いられた骨伝導マイク2の位置と、対象特徴量を算出するために用いられた骨伝導マイク2の位置とが異なる)と判定された場合には(ステップS31a:Yes)、認証部312は、ステップS13で算出した骨伝導特徴量を補正する(ステップS32a)。具体的には、認証部312は、登録特徴量を算出するために用いられた骨伝導マイク2の位置と対象者が現在装着している骨伝導マイク2の位置との違いに起因した骨伝導特徴量の変化が相殺されるように、骨伝導特徴量を補正する。つまり、認証部312は、対象者が現在装着している骨伝導マイク2の位置が、登録特徴量を算出するために用いられた骨伝導マイク2の位置と同じ位置であると仮定した場合に算出される骨伝導特徴量に、補正後の骨伝導特徴量が近づく(好ましくは一致する)ように、骨伝導特徴量を補正する。
 骨伝導特徴量を補正するために、一の位置に配置されている骨伝導マイク2が実際に検出した骨伝導音の特徴量と一の位置とは異なる他の位置に配置されている骨伝導マイク2が実際に検出した骨伝導音の特徴量との差分から、骨伝導特徴量を補正するための補正パラメータが予め生成されていてもよい。例えば、骨伝導マイク2#1が実際に検出した骨伝導音の特徴量と骨伝導マイク2#2が実際に検出した骨伝導音の特徴量との差分から、骨伝導マイク2#1が検出した骨伝導音の特徴量を骨伝導マイク2#2が検出した骨伝導音の特徴量に補正するための補正パラメータ、及び、骨伝導マイク2#2が検出した骨伝導音の特徴量を骨伝導マイク2#1が検出した骨伝導音の特徴量に補正するための補正パラメータのうちの少なくとも一方が予め生成されていてもよい。この場合、認証部312は、補正パラメータを用いて、骨伝導特徴量を補正してもよい。
 他方で、ステップS31aにおける判定の結果、骨伝導マイク2の位置が変わっていない(つまり、登録特徴量を算出するために用いられた骨伝導マイク2の位置と、対象特徴量を算出するために用いられた骨伝導マイク2の位置とが同じである)と判定された場合には(ステップS31a:No)、認証部312は、ステップS13で算出した骨伝導特徴量を補正しなくてもよい。
 その後は、第3実施形態においても、算出部311は、ステップS13において算出された空気伝導特徴量と、ステップS13において算出された又はステップS32aにおいて補正された骨伝導特徴量とを結合し(ステップS14)、算出部311は、結合特徴量から、対象特徴量を算出し(ステップS15)、認証部312は、対象特徴量に基づいて、対象者を認証する(ステップS16)。
 このような第3実施形態によれば、認証装置3は、登録特徴量を算出するために用いられた骨伝導マイク2の位置と、対象特徴量を算出するために用いられた骨伝導マイク2の位置とが異なる場合であっても、対象者を適切に認証することができる。
 尚、図9は、図4を用いて説明した第1認証動作において骨伝導マイク2の位置の違いを考慮した認証動作を示している。しかしながら、認証装置3は、図6を用いて説明した第2認証動作を行う場合においても、骨伝導マイク2の位置の違いを考慮してもよい。つまり、認証装置3は、図6を用いて説明した第2認証動作を行う場合においても、骨伝導マイク2の位置の違いを考慮して骨伝導特徴量を補正してもよい。
 (4)第4実施形態
 続いて、認証装置、認証方法、及び、記録媒体の第4実施形態について説明する。以下では、認証装置、認証方法、及び、記録媒体の第4実施形態が適用された認証システムSYSを用いて、認証装置、認証方法、及び、記録媒体の第4実施形態について説明する。尚、以下の説明では、第3実施形態における認証システムSYSを、認証システムSYSbと称することで、第2実施形態における認証システムSYSと区別する。
 認証システムSYSbは、認証システムSYSと比較して、第2認証動作の一部が異なるという点で異なる。認証システムSYSbのその他の特徴は、認証システムSYSのその他の特徴と同一であってもよい。
 具体的には、認証装置3は、第2認証動作を行う場合に、空気伝導特徴量に基づいて、対象者を認証し(図6のステップS25)、且つ、差分特徴量に基づいて、対象者を認証する(図6のステップS26)。第4実施形態では、認証装置3は、空気伝導特徴量と第1登録特徴量との類似度が認証閾値を上回る(つまり、対象者が登録人物と一致すると判定された)一方で、差分特徴量と第2登録特徴量との類似度が認証閾値を下回る(つまり、対象者が登録人物と一致しないと判定された)場合に、骨伝導特徴量に何らかの影響が生じたと推定する。この場合、認証装置3は、差分特徴量を補正してもよい。例えば、骨密度に応じて骨伝導特徴量が変動する可能性がある。一例として、正常な骨密度の人物の骨伝導特徴量と骨粗しょう症をわずらっている人物の骨伝導特徴量とは異なる可能性がある。この場合、認証装置3は、対象者が骨粗しょう症であると判定された場合に、正常な骨密度の人物の骨伝導特徴量と骨粗しょう症をわずらっている人物の骨伝導特徴量との差分に関する情報に基づいて、差分特徴量を補正してもよい。その結果、骨伝導特徴量に何らかの影響が生じた場合であっても、認証装置3は、対象者を適切に認証することができる。
 (5)第5実施形態
 続いて、認証装置、認証方法、及び、記録媒体の第5実施形態について説明する。以下では、認証装置、認証方法、及び、記録媒体の第5実施形態が適用された認証システムSYSを用いて、認証装置、認証方法、及び、記録媒体の第5実施形態について説明する。尚、以下の説明では、第5実施形態における認証システムSYSを、認証システムSYScと称することで、第2実施形態における認証システムSYSと区別する。
 認証システムSYScは、認証システムSYSと比較して、骨伝導特徴量の重みづけ処理を行ってよいという点で異なる。認証システムSYScのその他の特徴は、認証システムSYSのその他の特徴と同一であってもよい。
 具体的には、空気伝導特徴量は、骨伝導特徴量と比較して、対象者の周囲の環境音の影響を受けやすい。そこで、対象者の周囲の環境音が相対的に大きい(例えば、環境音の大きさが閾値よりも大きい)場合には、そうでない場合と比較して、骨伝導特徴量の重みを大きくしてもよい。具体的には、第1認証動作において、認証装置3は、対象特徴量を算出する場合の骨伝導特徴量の重みを大きくしてもよい。第2認証動作において、認証装置3は、差分特徴量を算出する場合の骨伝導特徴量の重み(この場合、実際には、骨伝導音声信号の重み)を大きくしてもよい。その結果、対象者の周囲の環境音が相対的に大きい場合であっても、認証装置3は、対象者を適切に認証することができる。
 (6)付記
 以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
 対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出する算出手段と、
 前記対象特徴量に基づいて前記対象者を認証する認証手段と
 を備える認証装置。
[付記2]
 前記算出手段は、前記結合された空気伝導特徴量及び骨伝導特徴量が入力された場合に、前記対象特徴量を出力するニューラルネットワークを用いて、前記対象特徴量を算出する
 付記1に記載の認証装置。
[付記3]
 前記算出手段は、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量を算出し、
 前記認証手段は、前記空気伝導特徴量及び前記差分特徴量に基づいて前記対象者を認証する
 付記1又は2に記載の認証装置。
[付記4]
 対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出する算出手段と、
 前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する認証手段と
 を備える認証装置。
[付記5]
 前記認証手段は、前記空気伝導特徴量に基づいて前記対象者を暫定的に認証する第1処理と、前記差分特徴量に基づいて前記対象者を暫定的に認証する第2処理とを行い、前記第1処理の結果と前記第2処理との結果に基づいて前記対象者を確定的に認証する
 付記4に記載の認証装置。
[付記6]
 対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、
 前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出し、
 前記対象特徴量に基づいて前記対象者を認証する
 認証方法。
[付記7]
 対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出し、
 前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する
 認証方法。
[付記8]
 コンピュータに、
 対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、
 前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出し、
 前記対象特徴量に基づいて前記対象者を認証する
 認証方法を実行させるコンピュータプログラムが記録された記録媒体。
[付記9]
 コンピュータに、
 対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出し、
 前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する
 認証方法を実行させるコンピュータプログラムが記録された記録媒体。
 上述の各実施形態の構成要件の少なくとも一部は、上述の各実施形態の構成要件の少なくとも他の一部と適宜組み合わせることができる。上述の各実施形態の構成要件のうちの一部が用いられなくてもよい。また、法令で許容される限りにおいて、上述のこの開示で引用した全ての文献(例えば、公開公報)の開示を援用してこの開示の記載の一部とする。
 この開示は、請求の範囲及び明細書全体から読み取るこのできる技術的思想に反しない範囲で適宜変更可能である。そのような変更を伴う認証装置、認証方法、及び、記録媒体もまた、この開示の技術的思想に含まれる。
 SYS 認証システム
 1 空気伝導マイク
 2 骨伝導マイク
 3、1000 認証装置
 31 演算装置
 311、1001 算出部
 312、1002 認証部
 32 記憶装置
 321 照合DB

Claims (9)

  1.  対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出する算出手段と、
     前記対象特徴量に基づいて前記対象者を認証する認証手段と
     を備える認証装置。
  2.  前記算出手段は、前記結合された空気伝導特徴量及び骨伝導特徴量が入力された場合に、前記対象特徴量を出力するニューラルネットワークを用いて、前記対象特徴量を算出する
     請求項1に記載の認証装置。
  3.  前記算出手段は、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量を算出し、
     前記認証手段は、前記空気伝導特徴量及び前記差分特徴量に基づいて前記対象者を認証する
     請求項1又は2に記載の認証装置。
  4.  対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出する算出手段と、
     前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する認証手段と
     を備える認証装置。
  5.  前記認証手段は、前記空気伝導特徴量に基づいて前記対象者を暫定的に認証する第1処理と、前記差分特徴量に基づいて前記対象者を暫定的に認証する第2処理とを行い、前記第1処理の結果と前記第2処理との結果に基づいて前記対象者を確定的に認証する
     請求項4に記載の認証装置。
  6.  対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、
     前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出し、
     前記対象特徴量に基づいて前記対象者を認証する
     認証方法。
  7.  対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出し、
     前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する
     認証方法。
  8.  コンピュータに、
     対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記骨伝導音声信号の特徴量である骨伝導特徴量とを算出し、
     前記空気伝導特徴量及び前記骨伝導特徴量を結合することで、前記対象者の音声の特徴量である対象特徴量を算出し、
     前記対象特徴量に基づいて前記対象者を認証する
     認証方法を実行させるコンピュータプログラムが記録された記録媒体。
  9.  コンピュータに、
     対象者の音声の空気伝導音を示す空気伝導音声信号と、前記対象者の音声の骨伝導音を示す骨伝導音声信号とから、前記空気伝導音声信号の特徴量である空気伝導特徴量と、前記空気伝導音声信号の周波数スペクトルと前記骨伝導音声信号の周波数スペクトルとの差分の特徴量である差分特徴量とを算出し、
     前記空気伝導特徴量及び前記差分特徴量に基づいて、前記対象者を認証する
     認証方法を実行させるコンピュータプログラムが記録された記録媒体。
PCT/JP2021/032947 2021-09-08 2021-09-08 認証装置、認証方法、及び、記録媒体 WO2023037429A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/032947 WO2023037429A1 (ja) 2021-09-08 2021-09-08 認証装置、認証方法、及び、記録媒体
JP2023546610A JPWO2023037429A1 (ja) 2021-09-08 2021-09-08

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/032947 WO2023037429A1 (ja) 2021-09-08 2021-09-08 認証装置、認証方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2023037429A1 true WO2023037429A1 (ja) 2023-03-16

Family

ID=85507327

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/032947 WO2023037429A1 (ja) 2021-09-08 2021-09-08 認証装置、認証方法、及び、記録媒体

Country Status (2)

Country Link
JP (1) JPWO2023037429A1 (ja)
WO (1) WO2023037429A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004279768A (ja) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
JP2006011591A (ja) * 2004-06-23 2006-01-12 Denso Corp 個人認証システム
JP2006010809A (ja) * 2004-06-23 2006-01-12 Denso Corp 個人認証システム
JP2007017840A (ja) * 2005-07-11 2007-01-25 Nissan Motor Co Ltd 音声認証装置
US20190012448A1 (en) * 2017-07-07 2019-01-10 Cirrus Logic International Semiconductor Ltd. Methods, apparatus and systems for authentication
JP2020184032A (ja) * 2019-05-09 2020-11-12 国立大学法人千葉大学 音声認証システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004279768A (ja) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
JP2006011591A (ja) * 2004-06-23 2006-01-12 Denso Corp 個人認証システム
JP2006010809A (ja) * 2004-06-23 2006-01-12 Denso Corp 個人認証システム
JP2007017840A (ja) * 2005-07-11 2007-01-25 Nissan Motor Co Ltd 音声認証装置
US20190012448A1 (en) * 2017-07-07 2019-01-10 Cirrus Logic International Semiconductor Ltd. Methods, apparatus and systems for authentication
JP2020184032A (ja) * 2019-05-09 2020-11-12 国立大学法人千葉大学 音声認証システム

Also Published As

Publication number Publication date
JPWO2023037429A1 (ja) 2023-03-16

Similar Documents

Publication Publication Date Title
US11735191B2 (en) Speaker recognition with assessment of audio frame contribution
US8416998B2 (en) Information processing device, information processing method, and program
CN109166586B (zh) 一种识别说话人的方法及终端
US9646613B2 (en) Methods and systems for splitting a digital signal
US20100268537A1 (en) Speaker verification system
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
JP2007249179A (ja) バイオメトリック特徴の変化に基づいてバイオメトリックモデルを更新するためのシステム、方法、およびコンピュータプログラム
WO2006109515A1 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
US11900730B2 (en) Biometric identification
KR20210050884A (ko) 화자 인식을 위한 등록 방법 및 장치
JP2006235623A (ja) 短い発話登録を使用する話者認証のためのシステムおよび方法
EP3706117B1 (en) Method with speaker recognition registration and corresponding non-transitory computer-readable storage medium
WO2019228135A1 (zh) 匹配阈值的调整方法、装置、存储介质及电子设备
WO2023037429A1 (ja) 認証装置、認証方法、及び、記録媒体
JP2004279768A (ja) 気導音推定装置及び気導音推定方法
TWM622203U (zh) 用於金融交易系統之聲紋辨識裝置
WO2021024869A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Shang et al. Secure voice input on augmented reality headsets
KR20200107707A (ko) 화자 인식을 위한 등록 방법 및 장치
CN111462763A (zh) 由计算机实施的语音命令验证方法及电子装置
TWI817897B (zh) 用於金融交易系統之低雜訊聲紋辨識裝置與其方法
US11710475B2 (en) Methods and apparatus for obtaining biometric data
EP4083826A1 (en) Otoacoustic authentication device, otoacoustic authentication method, and recording medium
JP4049732B2 (ja) 音声認証装置、音声認証方法および音声認証プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21956726

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023546610

Country of ref document: JP