WO2006109515A1 - 操作者認識装置、操作者認識方法、および、操作者認識プログラム - Google Patents

操作者認識装置、操作者認識方法、および、操作者認識プログラム Download PDF

Info

Publication number
WO2006109515A1
WO2006109515A1 PCT/JP2006/305939 JP2006305939W WO2006109515A1 WO 2006109515 A1 WO2006109515 A1 WO 2006109515A1 JP 2006305939 W JP2006305939 W JP 2006305939W WO 2006109515 A1 WO2006109515 A1 WO 2006109515A1
Authority
WO
WIPO (PCT)
Prior art keywords
biometric information
operator
input
information
likelihood
Prior art date
Application number
PCT/JP2006/305939
Other languages
English (en)
French (fr)
Inventor
Soichi Toyama
Ikuo Fujita
Mitsuya Komamura
Original Assignee
Pioneer Corporation
Tech Experts Incorporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corporation, Tech Experts Incorporation filed Critical Pioneer Corporation
Priority to JP2007512487A priority Critical patent/JP4588069B2/ja
Priority to US11/910,415 priority patent/US7979718B2/en
Publication of WO2006109515A1 publication Critical patent/WO2006109515A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems

Definitions

  • a method for performing identity verification using the operator's biological information such as an utterance voice component or a fingerprint of the operator (hereinafter referred to as "operator recognition method" t ⁇ More specifically, the features of the biometric information input when the operator recognizes the feature amount of the biometric information such as the speech component or the fingerprint of the operator to be recognized in advance and recognizes the operator. The amount is extracted, and the extracted feature amount is compared with the pre-registered feature amount to recognize the operator.
  • HMM Hidden Markov Model
  • Patent Document 1 Japanese Patent Laid-Open No. 2004-294755
  • the present invention eliminates the registration of data such as HMM data having a feature quantity that easily causes erroneous recognition during operator recognition!
  • An object of the present invention is to provide an operator recognition device, an operator recognition method, and an operator recognition program that further reduce the possibility and have stable recognition performance.
  • a database in which biometric information for collation obtained by biometric information obtained from biometric information is registered in advance for each operator to be recognized is registered.
  • An operator recognition device that recognizes the operator by comparing the biometric information of the operator to be identified with the biometric information for verification, and stores the biometric information in the database as biometric information for verification.
  • Comparison target information generating means for generating the comparison target information; comparing the generated comparison target information with each of the biometric information for comparison; and A configuration comprising: calculation means for calculating likelihoods respectively; and update means for updating the database using the comparison target information only when the calculated likelihoods are equal to or less than a reference reference likelihood.
  • each operator to be recognized is registered in the database in advance.
  • the biometric information that can be registered and changed for each operator who is a recognition target registered in advance in the database should be specified by the computer and can be registered.
  • Comparison target information generating means for acquiring biometric information to be compared and generating comparison target information for comparison with each biometric information registered in the database based on the acquired biometric information; Calculating means for comparing the generated comparison object information with each of the biometric information for comparison, and calculating the likelihood between the generated comparison object information and each of the biometric information for comparison;
  • the comparison target information is used only when each likelihood is less than or equal to the standard reference likelihood.
  • V has a configuration that functions as an updating means for updating the database.
  • FIG. 1 is a block diagram showing a configuration of a speaker recognition device in a first embodiment of an operator recognition device according to the present application.
  • FIG. 2 is a flowchart showing an operation of a registration process in the system control unit of the first embodiment.
  • FIG. 3 is a block diagram showing a configuration of a fingerprint recognition device in a second embodiment of the operator recognition device according to the present application.
  • FIG. 5 is a block diagram showing a configuration of a speaker recognition device in a third exemplary embodiment of an operator recognition device according to the present application.
  • FIG. 6 is a flowchart showing an operation of registration processing in the system control unit of the third embodiment.
  • speaker recognition a text-dependent speaker recognition device (hereinafter simply referred to as “speaker recognition”). It is called “device”. Or an operator recognition device, an operator recognition method, and an operator recognition program of the present application are applied to a fingerprint recognition device. In the following embodiments, the likelihood and each threshold will be described on the assumption that they are normalized values.
  • FIG. 1 is a block diagram showing the configuration of the speaker recognition apparatus according to the present application.
  • the speaker recognition device 100 causes a password for specifying the operator to be uttered a plurality of times for each operator to be recognized, and the uttered speech uttered by the operator.
  • the HMM data generated based on this is registered in advance, and each registered HMM data and an arbitrary one when performing the process of identifying and recognizing the speaker (hereinafter referred to as “recognition process”)
  • the operator who issued the password, that is, the speaker is identified and recognized based on the voice component of the utterance voice in the password generated by the operator.
  • the speaker recognition apparatus 100 of the present embodiment registers the HMM data used when performing the recognition process, the speech speech component similar to the feature amount indicated by the already registered HMM data. Registration of HMM data for passwords with the above feature quantities is excluded, and registration of HMM data that is expected to cause misrecognition during the recognition process is not permitted.
  • the speaker recognition apparatus 100 when performing processing for registering HMM data (hereinafter referred to as “registration processing”), speaks a password desired to be registered by the operator. A feature amount is extracted from the speech component, and the likelihood between the extracted feature amount and each registered HMM data is calculated, and based on each calculated likelihood and a predetermined threshold value. Thus, it is determined whether or not a password desired to be registered can be registered. Then, the speaker recognition device 100 permits registration of a password desired to be registered by the operator when each calculated likelihood is equal to or less than a predetermined threshold. If registration is permitted, utterances of the password for which the registration is permitted are acquired multiple times, and HMM data is learned based on the features in the utterances of the acquired password for the multiple times. The HMM data is generated and registered.
  • the speaker recognition apparatus 100 performs predetermined processing on a microphone 110 to which the utterance voice in the password of the speaker is input and the voice signal of the utterance voice in the input password.
  • An input processing unit 120 that performs the processing
  • a feature amount extraction unit 130 that extracts a feature amount of a speech component (hereinafter referred to as “speech speech component”) in the speech speech based on the speech signal of the speech speech of the password,
  • speech speech component a feature amount of a speech component
  • a likelihood calculation unit 150 for calculating the likelihood based on the speech component input during the recognition process and the registration process and the HMM data registered as described later.
  • the speaker recognition device 100 allows registration of a password determined by the speaker as a password for performing speaker recognition based on the calculated likelihoods.
  • a registration determination unit 160 that determines whether or not, a display unit 170 that displays a determination result of the registration determination unit 160, a display control unit 180 that controls the display unit 170, and a speaker that notifies the determination result of the registration determination unit 160 190
  • a loudspeaker control unit 200 that controls the speaker 190
  • a data generation unit 210 that generates HMM data while learning HMM data when it is permitted to register a password determined by the speaker as a password as HMM data.
  • this speaker recognition apparatus 100 performs various operations with a recognition processing unit 220 that performs recognition processing based on the extracted feature quantity of the password and HMM data already registered in the database 140. Used to control the entire control unit 230 and the system, and to control each part when registering HMM data or when executing recognition processing, and to control each part ROMZRAM250.
  • the microphone 110 of the present embodiment constitutes the input means of the present invention
  • the input means constitutes the comparison target information generating means of the present invention
  • the feature quantity extraction unit 130 Constitutes the comparison object information generating means and extracting means of the present invention.
  • the database 140 of the present embodiment constitutes the database 140 of the present invention
  • the likelihood calculating unit 150 constitutes the calculating means of the present invention.
  • the display unit 170 and the speaker 190 of this embodiment constitute notification means of the present invention
  • the data generation unit 210 constitutes update means and second update means of the present invention.
  • the microphone 110 is configured to receive an utterance voice of a password that the operator, that is, the speaker desires to register, The microphone 110 converts the voice of the input password into an electrical voice signal and outputs it to the input processing unit 120.
  • the audio signal output from the microphone 110 is input to the input processing unit 120.
  • the input processing unit 120 has a predetermined signal level with respect to the input audio signal.
  • the signal is amplified and converted into a digital signal.
  • the input processing unit 120 cuts out a voice signal indicating a voice section of the utterance voice portion of the input voice signal, and at the time interval set in advance for the voice signal of the cut out voice section.
  • the audio signal of each divided frame is output to the feature quantity extraction unit 130.
  • the feature amount extraction unit 130 receives an audio signal divided into frames.
  • the feature amount extraction unit 130 Analyzes the audio signal for each input frame under the control of the system control unit 240, extracts the feature amount of the speech component based on the audio signal for each frame, and extracts each extracted frame
  • the feature amount is output as the feature amount data to the likelihood calculating unit 150 or the data generating unit 210 when registration of the password is permitted as will be described later.
  • the feature quantity extraction unit 130 based on the input audio signal of each frame, information on the spectral envelope indicating the power at each fixed time and for each frequency, or The cepstrum information obtained by inverse Fourier transform of the logarithm of this power spectrum is extracted as the feature amount of the speech component of each frame, and the feature amount data is generated by vectorizing each extracted feature amount.
  • the feature quantity extraction unit 130 of the present embodiment generates HMM data while learning it in the data generation unit 210, each time an audio signal divided for each frame is input.
  • the feature amount of the speech component is extracted based on the input speech signal and is output to the data generation unit 210.
  • the HMM data generated based on the speech component of the operator in the password for identifying the operator is associated with the name of each operator for each operator. Registered in advance.
  • this HMM shows a stochastic model having spectral envelope data indicating power at each frequency at fixed time intervals or cepstrum data obtained by inverse Fourier transform using the logarithm of this power spectrum. It is summer. Specifically, this HMM outputs a state transition probability that indicates the probability of state transition from a certain state to a certain state, and the probability of a vector (feature vector for each frame) that is observed when the state transitions. It is a statistical signal source model that has two parameters of probability and represents a set of states that change every arbitrary section of speech speech, and represents a nonstationary signal source by connection of stationary signals.
  • the likelihood calculation unit 150 is input with time series data of vector features of all frames for one password utterance as feature data, and the likelihood calculation unit 150 Under the control of the control unit 240, the likelihood is calculated based on the feature quantities arranged in the time series of all frames for one password utterance inputted and each HMM data stored in the database 140. .
  • likelihood calculation section 150 outputs a vector each time the HMM changes state from time to time as the time progresses from the initial state, and the password utterance input when the final state is reached. The probability of outputting feature data arranged in time series for all frames is calculated. The likelihood calculation unit 150 calculates the calculated probability as the likelihood.
  • this likelihood calculation section 150 searches for the highest likelihood (hereinafter referred to as “maximum likelihood”) in the likelihood for each HMM of each speaker calculated as described above.
  • the maximum likelihood is output as likelihood data to either the registration determination unit 160 or the recognition processing unit 220. ing.
  • the likelihood calculation unit 150 outputs the highest likelihood as likelihood data to the registration determination unit 160 during the registration process, and performs the recognition process. In this case, the highest likelihood among the calculated likelihoods is output to the recognition processing unit 220 as likelihood data.
  • the registration determination unit 160 when performing the registration process, the likelihood data of the password desired to be registered by the operator output from the likelihood calculation unit 150 is input.
  • the registration determination unit 160 determines whether or not the password, which is a basis for calculating the likelihood data, can be registered in the database 140 on the basis of the input likelihood data, and the system control unit 240 determines the determination result. I will notify you.
  • the registration determination unit 160 uses a preset threshold for registration determination (hereinafter referred to as “registration determination threshold”) and the likelihood indicated by the input likelihood data. If the likelihood is less than or equal to the threshold value, it is determined that a password similar to the database 140 is not registered, and the password that is the basis for calculating the likelihood data is registered in the database 140. (Hereinafter, simply referred to as “registration permission determination”).
  • the registration determination unit 160 compares a preset threshold value with the likelihood indicated by the input likelihood data, and if the likelihood is larger than the threshold value, the database 140 It is determined that a password similar to that of the password is registered, and it is determined that the registration of the password that is the basis for calculating the likelihood data is not permitted to be registered in the database 140 (hereinafter simply “registration not allowed”). This is called “judgment of permission”).
  • the system control unit 240 notifies the operator of the registration permission via the display unit 170 and the speaker 190. Then, the process to generate HMM data for the password that is subject to registration permission is executed. In addition, when notified that registration is not permitted, the system control unit 240 notifies the operator that the registration is permitted through the display unit 170 and the speaker 190, and re-enters the password. Notification is made to prompt the operator. [0040] When the registration of the password that the operator wishes to register is permitted during the registration process, the data generation unit 210 performs the feature amount extraction unit 130 before determining whether the password can be registered.
  • the feature value data of the password extracted in step 1 and the registration of the password are permitted, and then the password is input multiple times.
  • the feature amount extraction unit 130 extracts the password every time the password is input.
  • the feature data of the nosword is input.
  • the data generation unit 210 generates HMM data while learning the HMM data based on each input feature amount data, and registers the generated HMM data in the database 140 in association with the name of the operator. Become! /
  • the data generation unit 210 of the present embodiment based on a plurality of input feature quantity data, spectral envelope data indicating the power at each frequency for a predetermined time or the power spectrum
  • a probabilistic model having cepstrum data obtained by inverse Fourier transform using the logarithm of is generated while learning, and the generated probabilistic model is registered in the database 140 as HMM data! /.
  • the display unit 170 is composed of, for example, a CRT, a liquid crystal display element, or an EL (Electro Luminescence) element, and performs various displays according to the control of the display control unit 180.
  • the form display unit 170 displays various information such as whether or not a password that the operator desires to register can be registered!
  • the display control unit 180 performs display control of the display unit 170 under the control of the system control unit 240.
  • the display control unit 180 of the present embodiment is input by an operator.
  • Display data for notifying the operator of the registration of the password desired to be registered and for notifying the operator of the password change is generated, and the generated display data is displayed on the display unit 170! /
  • the speaker 190 is configured to amplify a predetermined sound when performing various notifications according to the control of the loudspeaker control unit 200.
  • the speaker 190 of the present embodiment is registered by the operator. This password is used to confirm whether or not to register a desired password.
  • the loudspeaker control unit 200 performs the loudspeaker control of the speaker 190 under the control of the system control unit 240.
  • the loudspeaker control unit 200 according to the present embodiment is the register that the operator inputs. Audio data is generated to notify whether the registration of the password to be recorded is possible and to notify the operator of the password change, and the generated audio data is output to the speaker.
  • the loudspeaker starts to output from 190.
  • the recognition processing unit 220 is input with likelihood data indicating the maximum likelihood calculated by the likelihood calculation unit 150 during the recognition processing.
  • the operator is recognized, that is, the speaker is recognized based on the inputted maximum likelihood.
  • the recognition processing unit 220 of the present embodiment has a maximum likelihood in the input likelihood data that is equal to or greater than a preset threshold for recognition processing (hereinafter referred to as “threshold for recognition processing”). If the maximum likelihood is equal to or greater than the threshold for recognition processing, the operator registered in association with the HMM data used for calculating the likelihood is In the recognition process, the operator who has spoken the password, that is, the speaker is recognized, and the recognition result is output to the system control unit 240.
  • threshold for recognition processing a preset threshold for recognition processing
  • the recognition processing unit 220 of the present embodiment registers the operator who uttered the password in the recognition processing in the database 140 when the maximum likelihood is smaller than the recognition processing threshold. Since no operator is applicable, a message to that effect is output to the system controller 240. In addition, the recognition processing threshold is larger than the registration determination threshold, and a value is used.
  • the operation unit 230 is configured by a keyboard including a large number of keys such as various confirmation buttons and numeric keys, or an input interface such as a touch panel. In this embodiment, in particular, when performing registration processing, Alternatively, a predetermined operation is performed when the recognition process is performed.
  • the system control unit 240 is mainly configured by a central processing unit (CPU) and includes various input / output ports such as a key input port and a display control port, and is used for registration processing and recognition processing. It is designed to control overall functions.
  • CPU central processing unit
  • the system control unit 240 When performing the registration process and the recognition process, the system control unit 240 reads the control program stored in the ROM / RAM 250, executes each process, and temporarily stores the data being processed in the ROMZRAM 250. It is supposed to hold on. Note that details of the operation of the registration process in the system control unit 240 of the present embodiment will be described later.
  • the ROMZRAM 250 stores a control program for performing a predetermined operation, and temporarily stores data used for controlling each unit.
  • FIG. 2 is a flowchart showing the operation of registration processing in the system control unit 240 of the present embodiment.
  • HMM data of a plurality of operators is registered in advance in the database 140 !.
  • step S 11 when an instruction to perform registration processing for registering password HMM data is input by the operator via the operation unit 230, and the system control unit 240 detects the execution instruction of the registration processing (step S). 11) The system control unit 240 controls the display control unit 180 and the loudspeaking control unit 200 to notify the password input by the display unit 170 and the speaker 190 (hereinafter referred to as “input instruction notification”). (Step S 12).
  • the system control unit 240 instructs the feature amount extraction unit 130 to extract a feature amount for the speech component of the password input via the microphone 110 and the input processing unit 120. (Step S13).
  • the feature quantity extraction unit 130 receives the voice of the operator's password in the microphone 110, and for each frame divided by the input processing unit 120.
  • the feature amount is extracted from the speech component of the speech, and the time-series data of the feature amount of all the frames for the extracted path-single-dollar utterance is output to the likelihood calculating unit 150 as the feature amount data.
  • the system control unit 240 compares the feature amount for each frame input to the likelihood calculation unit 150 with each HMM data stored in the database 140, and the spoken speech of the password input.
  • the likelihood of each of the feature amount of the entire component and the feature amount of each HMM data is calculated, and the maximum likelihood of the calculated likelihoods is output to the registration determination unit 160 as likelihood data (step S 14 ).
  • the system control unit 240 causes the registration determination unit 160 to compare the maximum likelihood with the threshold for determination of registration, and determines whether or not the input password can be registered (step S15).
  • step S16 If 160 determines that the maximum likelihood is larger than the threshold value for registration determination, the display control unit 180 and the loudspeaker control unit 200 are controlled, and the password to be registered in the display unit 170 and the speaker 190, that is, registration is performed.
  • Step S16 Make a notification to urge password change (hereinafter referred to as “notification of change instruction”) (step S16), and proceed to step S13.
  • the system control unit 240 controls the display control unit 180 and the loudness control unit 200 to display the display unit. 170 and speaker 190 are notified that registration is possible (step S 17).
  • the system control unit 240 causes the data generation unit 210 to acquire the feature amount of the nose word input from the feature amount extraction unit 130 and generate HMM data in the password (step S18), and also performs display control.
  • Section 180 and loudspeaker control section 200 are controlled to make notifications (hereinafter referred to as “notification of re-input instruction”) for prompting input of a password to be registered on display section 170 and speaker 190 (step S 19 ).
  • the system control unit 240 uses the feature amount for the speech component of the password input to the feature amount extraction unit 130 via the microphone 110 and the input processing unit 120. Instructions are extracted to extract (step S20).
  • the feature amount extraction unit 130 receives the voice of the operator's password to the microphone 110 as in the above-described processing, and uses the voice component for each frame divided by the input processing unit 120.
  • the feature amount is extracted as described above, and the time series data of the feature amount of all the frames of the extracted password utterance is output to the data generation unit 210 as the feature amount data.
  • the system control unit 240 determines that the password has not been input a predetermined number of times. the system control unit 240 proceeds to the process of step S20, and the system control unit 240 has not yet determined the password. If it is determined that the password has been input the specified number of times, the system control unit 240 instructs the data generation unit 210 to learn HMM data.
  • the system control unit 240 converts the feature amount data input to the data generation unit 210 into The generated HMM data is learned (step S21), the generated HMM data is registered in the database 140 in association with the operator who entered the password (step S23), and this operation is terminated. .
  • the HMM data that has been learned is registered in advance for the feature amount power of the speech component of the password that can be registered and changed for each operator to be recognized.
  • a speaker recognition device 100 having a database 140 and recognizing an operator by comparing the feature amount of the speech component of the password of the operator to be identified with the HMM data, and the feature of the password component of the password
  • the microphone 110 used to input the feature amount of the speech component of the password to be registered and the feature amount of the input password speech component
  • the feature quantity extraction unit 130 that extracts the feature value is compared with the HMM data learned from the feature quantity of the utterance voice component of the password of each operator for comparison and the extracted feature quantity.
  • a likelihood calculation unit 150 that calculates the likelihood of the HMM data learned from the feature quantity in the utterance voice component of the utterance voice component of each of the matching operator's password and the calculated likelihood
  • a data generation unit 210 that updates the database 140 using HMM data generated based on the feature amount of the speech component in the uttered speech of the extracted password when the threshold value is below the reference registration determination threshold value. It has a structure to provide.
  • the speaker recognition apparatus 100 of the present embodiment registers the HMM data based on the utterance voice of the password desired by the operator, the utterance voice component force of the input password is also extracted.
  • the feature amount and the likelihood of each HMM data registered in the database 140 are calculated, and when the calculated likelihood is less than or equal to the reference registration determination threshold, the feature amount of the speech speech component of the password that is desired to be registered
  • the database 140 is updated with the HMM data generated based on the above.
  • the speaker recognition device 100 of the present embodiment easily causes erroneous recognition at the time of operator recognition, eliminates registration of data such as HMM data based on feature amounts, and increases the possibility of erroneous recognition. It is possible to provide more stable and stable recognition performance.
  • the likelihood calculating unit 150 is input for the first time. Based on the feature value in the voice component of the password, each likelihood with the feature value in the voice component of each password for verification is calculated, and based on the feature value in the calculated voice component of the password input for the first time.
  • the data generation unit 210 generates one HMM data based on the extracted feature values of all registration password utterances, and uses the generated HMM data. It has a configuration for updating the database 140.
  • the data generation unit 210 learns the HMM based on the feature amount in the speech component of the password input a plurality of times. However, it may be determined whether or not registration is possible for any plurality of password utterances. In this case, the feature amount data in a plurality of input speech sounds that are not used for calculating the likelihood that the registration is impossible is temporarily stored in the ROMZRAM 250, for example.
  • the registration determination unit 160 determines that registration is not permitted, the password that is desired to be registered is input again, and the registration determination unit 160 Unless permission is given at 160, re-entry of the desired keyword will be instructed. However, a limit on the number of re-inputs of the relevant word may be set.
  • the system control unit 240 stores the calculated maximum likelihood in the ROMZRAM 250, and re-inputs a predetermined number of times. If registration of a password desired to be registered is not permitted, for example, the maximum likelihood password stored in the ROMZRAM 250 functioning as the storage means of the present invention is selected, and the password with the minimum maximum likelihood is selected, and the data generation unit In 210, the HMM data in the selected pass phrase is generated while learning based on the feature amount of the input speech voice, and the generated HMM data is registered in the database 140. In this case, as described above, the system control unit 240 desires registration.
  • the system control unit 240 calculates a recognition processing threshold value that is larger than the maximum likelihood by a predetermined value, and stores it in the recognition processing unit 220.
  • the calculated maximum likelihood is stored in the ROMZRAM 250, and the maximum likelihood in the previously input password is used. If the maximum likelihood for the password entered this time is large, the HMM data may be generated while learning based on the speech spoken in the password entered last time.
  • the burden on the operator during the registration process can be reduced as described above.
  • the maximum likelihood having a value that is larger than the threshold value for registration determination based on the likelihood calculated when performing the registration determination in the password that has been registered. Based on this, the threshold value for recognition processing is changed. For example, in this case, the system control unit 240 calculates a threshold value for recognition processing that is a predetermined value larger than the maximum likelihood, and stores it in the recognition processing unit 220.
  • the HMM data is used as the biometric information for matching and the signal generation probability is used as the likelihood.
  • the likelihood using the GMM Gaussian Mixture Model
  • signal generation probabilities when using dynamic programming, matching patterns are used as matching biological information, and the reciprocal of the distance between patterns is used as the likelihood.
  • Various methods can be implemented with this configuration, such as a method using a network using V and a network output as a likelihood.
  • the terminal has a computing unit such as a microphone and CPU, which converts speech to feature values and transmits them to the server via data communication.
  • the result of performing speech recognition processing on the volume is obtained, or data search is performed using the obtained result.
  • the obtained results, data search results, etc. are transmitted again to the terminal using data communication, and the terminal side notifies the user by voice or image and uses it.
  • the input processing unit 'feature quantity extraction unit ⁇ display unit' speaker is handled on the terminal side
  • the data generation ⁇ database ⁇ likelihood calculation unit ⁇ registration determination unit ⁇ recognition processing unit is handled on the server side. Is also possible.
  • the registration process is performed by the system control unit 240 V, but the speaker recognition apparatus 100 having the database 140 in which a plurality of HMM data for each operator is registered is provided.
  • a computer and a recording medium are provided, a control program for executing the above registration processing is stored in the recording medium, and the registration processing similar to the above is performed by reading a program for performing the registration processing on the computer.
  • the fingerprint recognition apparatus of this embodiment is the same as the speaker recognition apparatus of the first embodiment!
  • the feature is that the feature value of the fingerprint of the operator is used instead of performing the recognition process using the feature value in the speech of the password.
  • the fingerprint is captured as a fingerprint image (hereinafter referred to as a “fingerprint image”), and the fingerprint image is analyzed by analyzing feature points such as the positions of branch points and end points of the fingerprint ridges based on the fingerprint image.
  • the feature amount can be extracted. Therefore, the fingerprint recognition device of the present embodiment can acquire a fingerprint image, extract the feature amount by analyzing the acquired fingerprint image, and register the feature amount in the database 140 in advance. Like the first embodiment, the likelihood can be calculated and the recognition process can be performed.
  • the configuration other than the above-described configuration has the same configuration as that of the first embodiment, and the same members are denoted by the same reference numerals and description thereof is omitted. .
  • FIG. Figure 3 are block diagrams which show the structure of the fingerprint recognition apparatus 300 which concerns on this application.
  • the fingerprint recognition apparatus 300 of the present embodiment extracts a feature amount of the fingerprint based on the fingerprint detection unit 310 that detects the fingerprint of the operator as an image and the input fingerprint image.
  • Feature quantity extraction unit 320 database 330 in which fingerprint data indicating the feature quantity of the operator's fingerprint is registered in advance, and each fingerprint data registered in database 330 and the feature quantity in the extracted fingerprint image
  • a likelihood calculation unit 340 that calculates the likelihood of the above, a recognition processing unit 350 that performs a recognition process based on the extracted fingerprint image feature amount and fingerprint data already registered in the database 330, and the password as the password
  • a data generation unit 360 that generates fingerprint data when it is permitted to register a fingerprint determined by the operator as fingerprint data.
  • this fingerprint recognition unit includes a registration determination unit 160, a display unit 170, a display control unit 180, a speaker 190, a loudspeak control unit 200, and an operation unit 230.
  • the system control unit 370 and the ROMZRAM 250 are provided.
  • the fingerprint detection unit 310 of the present embodiment constitutes an input unit of the present invention
  • the feature amount extraction unit 320 constitutes a comparison target information generation unit and an extraction unit of the present invention
  • the database 330 of the present embodiment constitutes the database 330 of the present invention
  • the likelihood calculating unit 340 constitutes the calculating means of the present invention.
  • the display unit 170 and the speaker 190 of this embodiment constitute notification means of the present invention
  • the data generation unit 360 constitutes registration means and second registration means of the present invention.
  • Fingerprint detection unit 310 has a contact part that makes the operator's finger contact, and when the finger is brought into contact with the contact part during the registration process or the recognition process, an optical type or a capacitance type etc.
  • the fingerprint of the finger is picked up as a fingerprint image using the fingerprint sensor, and the fingerprint image is output to the feature amount extraction unit 320 as fingerprint image data.
  • Fingerprint image data on the input finger of the operator is input to the feature amount extraction unit 320.
  • the feature amount extraction unit 320 is based on the input fingerprint image data. As described above, feature quantities such as the positions of the branch points and end points of the fingerprint ridge are extracted.
  • the feature quantity extraction unit 320 outputs the extracted feature quantity to the likelihood calculation unit 340 or the data generation unit 360 as feature quantity data.
  • fingerprint data generated based on the fingerprint image of the operator as a password for specifying the operator is associated with the name of the operator for each operator. Registered in advance.
  • the feature amount data extracted by the feature amount extraction unit 320 is input to the likelihood calculation unit 340.
  • the likelihood calculation unit 340 is controlled by the system control unit 370.
  • the feature quantity of the feature quantity data is compared with the feature quantity indicated by each fingerprint data stored in the database 330, and the likelihood of the input feature quantity and the feature quantity of each fingerprint data is calculated. Then, the highest maximum likelihood in each calculated likelihood is output as likelihood data to either the recognition processing unit 350 or the registration determination unit 160.
  • this likelihood calculation unit 340 performs the recognition process using the highest likelihood among the calculated likelihoods as the likelihood data during the recognition process, as in the first embodiment.
  • the highest likelihood is output to the registration determination unit 160 as likelihood data.
  • the recognition processing unit 350 is input with likelihood data indicating the maximum likelihood calculated by the likelihood calculation unit 340 during the recognition processing. 350 is designed to recognize the operator, that is, the speaker based on the input maximum likelihood.
  • the data generation unit 210 extracts the data extracted by the feature amount extraction unit 320. Feature data of the fingerprint image is acquired, and fingerprint data is generated based on the acquired feature data. The generated fingerprint data is associated with the operator's name in the database 330. I started to register!
  • FIG. 4 is a flowchart showing the operation of registration processing in the system control unit 370 of the present embodiment.
  • fingerprint data of a plurality of operators are registered in advance in the database 330.
  • the fingerprint data as a word is registered by the operator via the operation unit 230.
  • the system control unit 370 detects an instruction to execute the registration process (step S31)
  • the system control unit 370 controls the display control unit 180 and the loudspeak control unit 200.
  • the display unit 170 and the speaker 190 input a password, that is, a notification for prompting detection of a fingerprint (hereinafter referred to as “detection of detection instruction”) (step S32).
  • step S33 the system control unit 370 causes the fingerprint detection unit 310 to capture an image of the fingerprint of the finger touching the contact unit.
  • the system control unit 370 causes the feature amount extraction unit 320 to extract feature amounts based on the captured fingerprint image data, and calculates the likelihood using the extracted feature amounts as feature amount data.
  • the output is made to the part 340 (step S34).
  • the system control unit 370 compares the feature amount data input to the likelihood calculation unit 340 with each feature amount of each fingerprint data stored in the database 330, and input fingerprint image data. The likelihoods of the feature amount and the feature amount of each fingerprint data are calculated, and the maximum likelihood of the calculated likelihoods is output as likelihood data to the registration determination unit 160 (step S35).
  • the system control unit 370 causes the registration determination unit 160 to compare the maximum likelihood with the threshold for determination of registration, and determines whether or not the input fingerprint can be registered (step S36). If the maximum likelihood is determined to be greater than the registration threshold, the display control unit 180 and the loudspeaker control unit 200 are controlled to notify the display unit 170 and the speaker 190 of the change of the registered fingerprint ( The process proceeds to step S37) and step S33.
  • the system control unit 370 controls the display control unit 180 and the loudspeaking control unit 200 to display the display unit. 170 and speaker 190 are notified that registration is possible (step S38).
  • the system control unit 370 causes the data generation unit 360 to acquire the feature amount of the fingerprint image data captured from the feature amount extraction unit 320 and generate fingerprint data (step S39), and the generation The registered fingerprint data is registered in the data base 330 in association with the input operator (step S40), and this operation is terminated.
  • the fingerprint recognition apparatus 300 has the database 330 in which the fingerprint feature quantities that can be registered and changed for each operator to be recognized are registered in advance as fingerprint data.
  • the fingerprint recognition device 300 recognizes the operator by comparing the fingerprint feature quantity of the operator to be compared with the fingerprint data, and registers the fingerprint fingerprint feature quantity of the operator finger as fingerprint data in the database 330
  • the fingerprint detection unit 310 that detects the fingerprint to be registered as image data, the feature amount extraction unit 320 that extracts the feature amount from the detected fingerprint image data, and the feature amount of the extracted fingerprint image data for collation
  • a likelihood calculation unit 340 that compares the feature amounts of the fingerprint data of each of the fingerprint data and calculates a likelihood indicating a ratio of the characteristics of the extracted feature amount and the feature amounts of the fingerprint data for matching to be similar to each other.
  • Calculated A data generation unit 360 that updates the database 330 using fingerprint data generated based on the feature amount of the extracted fingerprint image data when each likelihood is equal to or less than a reference registration determination threshold. It has a configuration.
  • the fingerprint recognition apparatus 300 of the present embodiment registers the feature data extracted from the detected fingerprint image data and the database 330 when registering fingerprint data based on the fingerprint desired by the operator.
  • the likelihood indicating the ratio of the characteristics of the registered fingerprint data with the characteristic amount is calculated, and if the calculated likelihood is less than or equal to the reference registration determination threshold value, the feature of the fingerprint desired to be registered
  • the database 330 is updated with fingerprint data generated based on the quantity.
  • the fingerprint recognition apparatus 300 eliminates the registration of data such as fingerprint data having feature quantities that are likely to cause erroneous recognition during operator recognition.
  • the possibility of misrecognition can be further reduced and stable recognition performance can be provided.
  • the fingerprint recognition apparatus 300 detects the detected fingerprint image data for the operator when at least one of the calculated likelihoods is larger than the registration determination threshold.
  • the display unit 170 and the speaker 190 for notifying the re-input of the feature amount of the fingerprint image data having a feature amount different from the feature amount are provided.
  • the fingerprint recognition device 300 of the present embodiment is detected for the operator when at least one of the calculated likelihoods is larger than the registration determination threshold. fingerprint Notification of re-entry of the feature quantity of the fingerprint image data having a feature quantity different from that of the image data.
  • the fingerprint recognition apparatus 300 of the present embodiment can notify the operator of re-input of fingerprint image data to be registered as the operator's password, as in the first embodiment. Seward can always be registered.
  • fingerprint image data as a password desired to be registered is detected again. Unless permission is given by the registration determination unit 160, re-detection of fingerprint image data desired to be registered may be instructed. However, a limit on the number of times of re-detection of the fingerprint image data should be provided. Moyo!
  • the system control unit 370 stores the calculated maximum likelihood in the ROMZRAM 250 each time a fingerprint change instruction is issued, and the re-input is repeated even after a predetermined number of times.
  • the fingerprint image data having the smallest maximum likelihood among the maximum likelihoods stored in the ROMZRAM 250 functioning as the storage means of the present invention is selected, and data generation is performed.
  • the unit 360 causes the fingerprint data to be generated based on the selected fingerprint image data, and the database 330 is updated using the generated fingerprint data.
  • registration processing is performed by the system control unit 370.
  • a computer and a fingerprint recognition apparatus 300 having a database 330 in which a plurality of fingerprint data for each operator are registered are included.
  • a recording medium may be provided, and a control program for executing the registration process described above may be stored in the recording medium, and the registration process similar to the above may be performed by reading a program for performing the registration process on the computer. .
  • the speaker recognition device of the present embodiment extracts the feature amount from the speech component of the password that the operator wants to register when the speaker recognition device of the first embodiment performs the HMM data registration process.
  • the extracted feature values and each HMM data already registered And determine whether or not the password desired to be registered can be registered based on each of the calculated likelihoods and a predetermined threshold, while the HMM data
  • the feature quantity is extracted from the speech component of the password that the operator wants to register, and the HMM data generated from the extracted feature quantity and each previously registered HMM data
  • This method is characterized in that the likelihood of each password is calculated and whether or not a password desired to be registered is registered is determined based on each calculated likelihood and a predetermined threshold.
  • FIG. 5 is a block diagram showing the configuration of the speaker recognition apparatus 500 according to the present application.
  • the speaker recognition device of the present embodiment has the same configuration as the speaker recognition device of the first embodiment except for the above-described configuration, and the same members and operations are the same. Reference numerals are assigned and explanations thereof are omitted.
  • the speaker recognition apparatus 500 acquires the utterance voice of the password desired to be registered by the operator a plurality of times, particularly when performing the registration process, and the plurality of password passwords that have been acquired.
  • the likelihood of the HMM data generated while learning based on the feature amount in the uttered speech and each HMM data already registered is calculated, and based on each calculated likelihood and a predetermined threshold value Thus, it is determined whether or not a password desired to be registered can be registered.
  • the speaker recognition device 500 permits registration of a password that the operator desires to register when each calculated likelihood is equal to or less than a predetermined threshold. If permitted, the generated HMM data will be registered! / Speak.
  • the speaker recognition apparatus 500 includes a data generation unit 510 that generates and learns the feature quantity power HMM data of the speech component in the speaker password extracted by the feature extraction unit 130. And a likelihood calculation unit 520 that calculates the likelihood of the HMM data generated while learning by the data generation unit 510 and each HMM data registered in the database 140.
  • the speaker recognition device 500 includes a microphone 110, an input processing unit 120, a feature amount extraction unit 130, a database 140, a registration determination unit 160, and a display, as in the first embodiment.
  • the likelihood calculating unit 520 constitutes the calculating means of the present invention.
  • the display unit 170 and the speaker 190 of the present embodiment constitute notification means of the present invention, and the data generation unit 510 includes the comparison target information generation unit, update unit, and second update unit of the present invention.
  • the data generation unit 510 receives the feature value data of the relevant word extracted by the feature extraction unit 130, and the data generation unit 510 receives each of the input data.
  • the HMM data is generated while learning based on the feature amount data, and the generated HMM data is output to the likelihood calculating unit 520.
  • the likelihood calculation unit 520 stores the HMM data input from the data generation unit 510 and the database 140 during the registration process based on the respective HMM data! /, The likelihood is calculated, the maximum likelihood in the calculated likelihood for each HMM of each speaker is searched, and this maximum likelihood is output to the registration determination unit 160 as likelihood data.
  • distance measure a measure based on the amount of information of Kullback can be used (Literature (Science Technique SP94-16, Clustering). (See page 15-20).
  • the HMM data generated by the data generation unit 510 during the registration process is selected as
  • 0 ⁇ is the feature amount sequence of the speech used when calculating, and is registered in the database 140.
  • the distance value between the heel data based on the utterance voice of the password desired by the operator and each heel data registered in the database 140 can be obtained.
  • the distance scale calculated from the following formulas (5), (6), and (7) listed in the above document is also used. It can also be used.
  • the distance value between distributions can be calculated for each state that transitions with time, and the distance value between all data can be obtained by averaging the distance values of all states.
  • the mean and variance of the i-th state ⁇ D Gaussian distribution are expressed by the following equations (3) and (4), respectively, and the i-th HMM data generated by the data generation unit 510 during the registration process Let the state of m be m and the i-th state of the HMM data registered in the database 140 be m.
  • the distribution with the largest mixing ratio in each state is represented by the state.
  • the distance value can be calculated from the above formulas (5), (6), and (7) as in the case of the single distribution. For example, assuming that the number of mixtures is ⁇ , the average of the distribution of mixture k in the state of ⁇ data 1 to be compared is the following equation (8), and the variance of the distribution of mixture k is The formula (9) and the mixing ratio are the following formula (10).
  • the state of the other HMM data 2 to be compared is i
  • the average of the distribution of mixture k is the following equation (11)
  • the variance of the distribution of mixture k is the following equation (12)
  • the mixture ratio is the following equation (13).
  • the distance value can be calculated from the following expressions (16), (17), and (18).
  • HMM is used by performing matching using one of the two standard patterns to be compared as a template and the other as a matching parameter.
  • the distance between the standard patterns corresponding to the distance between the HMM data can be calculated.
  • various other methods for calculating the likelihood between HMM data can be applied to the present invention.
  • the likelihood calculation unit 520 is registered in the database 140 with the HMM data generated by the data generation unit 510 during the registration process as described above. Then, the likelihood with each HMM data is calculated and the highest likelihood is output to the registration determination unit 160 as the likelihood data, and the recognition process is performed as shown in Example 1.
  • the maximum likelihood of the likelihoods calculated based on the time series feature values of all frames for one password utterance entered in this way and each HMM data stored in the database 140 is the maximum likelihood. It is output to the recognition processing unit 220 as degree data.
  • the system control unit 530 When the registration permission determination is notified from the registration determination unit 160, the system control unit 530 notifies the operator of the registration permission via the display unit 170 and the speaker 190. Then, the database 140 registers the HMM data for the password that is subject to registration permission. In addition, when the registration determination unit 160 notifies the registration non-permission determination, the system control unit 530 notifies the operator of the registration permission via the display unit 170 and the speech power 190. At the same time, a notification is made to prompt the operator to re-enter the password.
  • FIG. 6 is a flowchart showing the operation of registration processing in the system control unit 530 of the present embodiment.
  • HMM data of a plurality of operators is registered in advance in the database 140 !.
  • step S 11 when an instruction to execute registration processing for registering password HMM data is input by the operator via the operation unit 230 and the system control unit 530 detects execution instructions for the registration processing (step S 11)
  • the system control unit 530 controls the display control unit 180 and the loudspeaker control unit 200 to notify the password input instruction through the display unit 170 and the speaker 190 (step S12).
  • the system control unit 530 instructs the feature amount extraction unit 130 to extract a feature amount for the speech component of the password input via the microphone 110 and the input processing unit 120. (Step S13).
  • the feature quantity extraction unit 130 receives the microphone.
  • the voice of the operator's password is input to the screen 110, the feature value is extracted from the voice component of each frame divided by the input processing unit 120, and the feature value of all the frames for the extracted password utterance is extracted.
  • the time series data is output to the data generation unit 510 as feature data.
  • the system control unit 530 causes the data generation unit 510 to acquire the feature value data of the password input from the feature value extraction unit 130 and generate HMM data in the password (step S51). .
  • system control unit 530 controls display control unit 180 and loudspeaking control unit 200 to cause display unit 170 and speaker 190 to issue a password re-input instruction (step S52).
  • step S53 the system control unit 530 uses the feature amount with respect to the speech component of the password input to the feature amount extraction unit 130 via the microphone 110 and the input processing unit 120.
  • An instruction for extracting is performed (step S53).
  • the feature amount extraction unit 130 receives the voice of the operator's pass-code to the microphone 110, and uses the voice component for each frame divided by the input processing unit 120.
  • the feature amount is extracted, and the time series data of the feature amount of all the extracted frames for one utterance is output to the data generation unit 510 as feature amount data.
  • the system control unit 530 causes the data generation unit 510 to acquire the feature value data of the password input from the feature value extraction unit 130, and instructs learning of the HMM data (step S54).
  • system control unit 530 determines whether or not a predetermined number of passwords have been input (step S55). At this time, if the system control unit 530 determines that a predetermined number of passwords have not been input, the system control unit 530 proceeds to the process of step S52 and thereafter inputs a predetermined number of passwords. Repeat step S52 to step S54.
  • system control unit 530 causes HMM data learned by data generation unit 510 to be output to likelihood calculation unit 520, and is then input to likelihood calculation unit 520 to likelihood calculation unit 520.
  • HMM data and each HMM data stored in database 140 Each likelihood is calculated, and the maximum likelihood among the calculated likelihoods is output to the registration determination unit 160 as likelihood data (step S56).
  • the system control unit 530 causes the registration determination unit 160 to compare the maximum likelihood with the registration determination threshold value to determine whether or not the input nosword can be registered (step S57). ). At this time, if the registration determination unit 160 determines that the maximum likelihood is larger than the registration determination threshold, the system control unit 530 causes the data generation unit 510 to learn and discard the generated HMM data. (Step S58), the display control unit 180 and the loudspeaking control unit 200 are controlled to notify the instruction to change the registered nosword on the display unit 170 and the speaker 190 (Step S59), and the processing of Step S13 Transition.
  • the system control unit 530 controls the display control unit 180 and the loudspeaking control unit 200 to display the display unit. 170 and speaker 190 are notified that registration is possible (step S60).
  • the system control unit 530 registers the HMM data in the password generated while learning the data generation unit 510 in the database 140 in association with the operator who entered the password (Ste S61), this operation is terminated.
  • the speaker recognition device 500 of the present embodiment has pre-registered the learned HMM data of the feature amount power of the speech component of the password that can be registered and changed for each operator to be recognized.
  • a speaker recognition device 500 having a database 140 and recognizing the operator by comparing the feature amount of the speech component of the password of the operator to be identified with the HMM data, and the feature of the voice component of the password
  • the microphone 110 used to input the feature amount of the speech component of the password to be registered and the feature amount of the input password speech component
  • the feature quantity extraction unit 130 that extracts the feature value in the HMM data generated by learning from the extracted feature quantity and the feature quantity in each HMM data for matching
  • a likelihood calculation unit 520 that calculates the likelihood between the HMM data to be registered generated by learning from the extracted feature quantity and the respective HMM data for matching, and each calculated likelihood is
  • a data generation unit 510 that updates the database 140 using the generated HMM data when the threshold value is not more than a reference registration
  • the speaker recognition apparatus 500 of the present embodiment extracts the speech component of the input password.
  • the likelihood between the HMM data generated by learning from the feature quantity and each HMM data registered in the database 140 is calculated, and the calculated likelihood is equal to or less than the reference registration determination threshold,
  • the database 140 is updated using the HMM data generated from the features of the spoken speech component of the password desired to be registered.
  • the speaker recognition apparatus 500 of the present embodiment eliminates the registration of data such as HMM data based on feature quantities that are likely to cause erroneous recognition during operator recognition. Therefore, the possibility of erroneous recognition can be further reduced and stable recognition performance can be provided.
  • the registration determination unit 160 determines that registration is not permitted, the password that is desired to be registered is input again, and the registration determination unit 160 Unless permission is given at 160, re-entry of the desired keyword will be instructed. However, a limit on the number of re-inputs of the relevant word may be set.
  • the system control unit 530 stores the calculated maximum likelihood in the ROMZRAM 250, and re-inputs a predetermined number of times. If registration of a password desired to be registered is not permitted, for example, the maximum likelihood password stored in the ROMZRAM 250 functioning as the storage means of the present invention is selected, and the password with the minimum maximum likelihood is selected, and the data generation unit In 510, the database 140 is updated using the HMM data in the selected password generated based on the feature amount of the input speech voice. In this case, the system control unit 530 instructs the operator via the display unit 170 and the speaker 190 to input a plurality of uttered voices each time a password desired to be registered is input.
  • the recognition processing threshold is changed based on the maximum likelihood having a value larger than the registration determination threshold.
  • the system control unit 530 calculates a threshold value for recognition processing that is larger than the maximum likelihood by a predetermined value and stores it in the recognition processing unit 220.
  • the calculated maximum likelihood is stored in the ROMZRAM 250, and the maximum likelihood in the previously input password is used.
  • the database 140 may be updated using the HMM data generated based on the utterance voice in the password input last time. In this way, by restricting re-input of the pass field according to a predetermined standard, it is possible to reduce the burden on the operator during the registration process.
  • the recognition process is performed based on the likelihood calculated when performing the registration determination in the password subject to registration, that is, based on the maximum likelihood having a value larger than the registration determination threshold.
  • the threshold value for use is changed.
  • the system control unit 530 calculates a threshold value for recognition processing that is larger than the maximum likelihood by a predetermined value, and stores it in the recognition processing unit 220.
  • biometric information has been described as voice component information and fingerprint information, but biometric information refers to face images, palm images, finger images, iris information, vein information. It contains information used to identify individuals that can be acquired from living bodies.
  • the present invention is not limited to the above embodiment.
  • the above embodiment is merely an example, and has any configuration that is substantially the same as the technical idea described in the claims of the present invention and that exhibits the same operational effects. Are also included in the technical scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Storage Device Security (AREA)

Abstract

 操作者の認識時に誤認識を生じさせやすい特徴量を有するHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置を提供することにある。  話者認識装置100は、認識処理を行うときに用いるHMMデータを登録する際に、既に登録されたHMMデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードのHMMデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想されるHMMデータの登録を許可しないようになっている。

Description

明 細 書
操作者認識装置、操作者認識方法、および、操作者認識プログラム 技術分野
[0001] 本発明は、 HMM (Hidden Markov Models)法を用いて話者認識を行う技術分野に 属する。
背景技術
[0002] 現在、インターネットなどのネットワークの発達およびコンピュータの発達に伴!、、ネ ットワークを用いたサービスの提供、他のコンピュータへのアクセス、または、物理的 な鍵の代替え品として、様々な場面で本人確認を行う種々の方法やシステムが研究 •開発されている。
[0003] このような本人確認を行う代表的なものとして、操作者の発話音声成分または指紋 など操作者の生体情報を用いて本人確認を行う方法 (以下、「操作者認識方法」 t ヽ う。)があり、具体的には、認識すべき操作者の発話音声成分または指紋などの生体 情報の特徴量を予め登録し、当該操作者の認識を行う際に、入力された生体情報の 特徴量を抽出し、当該抽出された特徴量と予め登録された特徴量とを比較して操作 者の認識を行うようになって!/、る。
[0004] 例えば、操作者 (以下、「話者」とも ヽぅ。)の発話音声成分を用いて本人確認を行う ものとしては、 HMM (隠れマルコフモデル)と呼ばれる確率モデル(以下、「HMM」 という。)を用いるものが知られており、特に、最近では、予め登録する HMMのデー タ(以下、「HMMデータ」という。)を少なくして認識処理の負荷を低減し、かつ、認 識力の高 、テキスト依存型と呼ばれる HMMデータを用いる認識方法が知られて ヽ る。
[0005] 具体的には、このようなテキスト依存型の操作者の認識システム(以下、「テキスト依 存型話者認識システム」という。)は、予め操作者毎に、すなわち、話者毎に任意に決 めた語句(以下、「パスワード」という。)の複数回の発話力 抽出した特徴量力 算出 された各話者の HMMを HMMデータとしてデータベースに登録するようになってお り、当該話者の認識を行う際に、パスワードを話者に発話させ、当該発話された発話 音声成分の特徴量と HMMデータによって示される特徴量とを比較することによって 話者認識を行うようになって!ヽる(例えば、特許文献 1) o
特許文献 1:特開 2004— 294755号公報
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、従来の生体情報を用いた操作者認識方法にあっては、テキスト依存 型認識システムに代表されるように、予め登録される HMMデータ自体が他の登録さ れる HMMデータと類似する場合には、誤認識が生じてしまう場合が多い。例えば、 テキスト依存型話者認識システムでは、話者毎に任意に決めたパスワードの文字列 が類似し、話者の発話の特徴が類似する場合には、誤認識が生じてしまう。
[0007] 本発明は、上記の課題の一例を解決するものとして、操作者の認識時に誤認識を 生じさせやす!/ヽ特徴量を有する HMMデータなどのデータの登録を排除し、誤認識 の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置、操 作者認識方法および操作者認識プログラムを提供することにある。
課題を解決するための手段
[0008] 上記の課題を解決するために、本発明の 1つの観点では、認識の対象となる操作 者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデ ータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較す ることによって操作者を認識する操作者認識装置であって、前記生体情報を照合用 生体情報として前記データベースに登録する際に、登録すべき生体情報を入力する ために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前 記データベースに登録されている各照合用生体情報と比較するための比較対象情 報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照 合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報 との尤度をそれぞれ算出する算出手段と、前記算出された各尤度が基準となる基準 尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する 更新手段と、を備える構成を有している。
[0009] また、本願の他の観点では、認識の対象となる操作者毎に予めデータベースに登 録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき 操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法で あって、前記生体情報を照合用生体情報として前記データベースに登録する際に、 入力された登録すべき生体情報を取得して、当該取得された生体情報に基づ 、て 前記データベースに登録されている各照合用生体情報と比較するための比較対象 情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記 照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情 報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度が基準となる基 準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新す る更新工程と、を備える構成を有している。
[0010] また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録 された認識の対象となる操作者毎に生体情報力 求めた登録変更可能な照合用生 体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認 識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として 前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当 該取得された生体情報に基づいて前記データベースに登録されている各照合用生 体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生 成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較 対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算 出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用
Vヽて前記データベースを更新する更新手段、として機能させる構成を有して 、る。 図面の簡単な説明
[0011] [図 1]本願に係る操作者認識装置の第 1実施形態における話者認識装置の構成を示 すブロック図である。
[図 2]第 1実施形態のシステム制御部における登録処理の動作を示すフローチャート である。
[図 3]本願に係る操作者認識装置の第 2実施形態における指紋認識装置の構成を示 すブロック図である。 O
[図 4]第 2実施形態のシステム制御部における登録処理の動作を示すフローチャート で1—あ〇る。
[図 5]本願に係る操作者認識装置の第 3実施形態における話者認識装置の構成を示 すブロック図である。
[図 6]第 3実施形態のシステム制御部における登録処理の動作を示すフローチャート である。
符号の説明
500 … 話者認識装置
110 … マイクロホン
120 … 入力処理部
130、 320 … 特徴量抽出部
140、 330 … データベース
150、 340、 520 … 尤度算出部
160 … 登録判定部
170 … 表示部
180 … 表示制御部
190 … スピーカ
200 … 拡声制御部
210、 360、 510 … データ生成部
220、 350 … 認識処理部
230 … 操作部
240、 370、 530 … システム制御部
250 … ROM/RAM
300 … 指紋認識装置
310 … 指紋検出部
発明を実施するための最良の形態
[0013] 次に、本発明に好適な実施の形態について、図面に基づいて説明する。
[0014] 以下に説明する実施形態は、テキスト依存型話者認識装置 (以下、単に「話者認識 装置」という。)または指紋認識装置に対して本願の操作者認識装置、操作者認識方 法および操作者認識プログラムを適用した場合の実施形態である。また、以下の各 実施形態では、尤度および各閾値については、正規ィ匕された値であることを前提に 説明する。
[0015] 〔第 1実施形態〕
始めに、図 1〜図 2を用いて本願の操作者認識装置の第 1実施形態を、話者認識 装置を用いて説明する。
[0016] まず、図 1を用いて本願の話者認識装置の構成について説明する。なお、図 1は、 本願に係る話者認識装置の構成を示すブロック図である。
[0017] 本実施形態の話者認識装置 100は、認識の対象となる各操作者毎に、当該操作 者を特定するためのパスワードを複数回発話させ、当該操作者によって発話された 発話音声に基づいて生成された HMMデータを予め登録するようになっており、話 者を特定して認識する処理 (以下、「認識処理」という。)を行うときに当該登録されて いる各 HMMデータと任意の操作者力 発せされたパスワードにおける発話音声の 音声成分とに基づいてパスワードを発した操作者、すなわち、話者を特定して認識 するようになっている。
[0018] 特に、本実施形態の話者認識装置 100は、認識処理を行うときに用いる HMMデ ータを登録する際に、既に登録された HMMデータによって示される特徴量と類似 する発話音声成分の特徴量を有するパスワードの HMMデータの登録を排除し、認 識処理時に、誤認識を生じさせることが予想される HMMデータの登録を許可しな ヽ ようになっている。
[0019] 具体的には、本実施形態の話者認識装置 100は、 HMMデータを登録する処理( 以下、「登録処理」という。)を行う際に、操作者の登録を希望するパスワードの発話 音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されてい る各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められ た閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するように なっている。そして、この話者認識装置 100は、算出された各尤度が予め定められた 閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するよう になっており、登録が許可されると、当該登録が許可されたパスワードの発話音声を 複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基 づいて HMMデータを学習させつつ、生成し、当該生成された HMMデータの登録 を行うようになっている。
[0020] この話者認識装置 100は、図 1に示すように、話者のパスワードにおける発話音声 が入力されるマイクロホン 110と、入力されたパスワードの発話音声の音声信号に対 して所定の処理を行う入力処理部 120と、パスワードの発話音声の音声信号に基づ いて当該発話音声における音声成分 (以下、「発話音声成分」という。)の特徴量を抽 出する特徴量抽出部 130と、話者が予め定めたパスワードの HMMデータが予め複 数登録されて ヽるデータベース 140と、データベース 140に登録された各 HMMデ ータと抽出された発話音声成分の特徴量との後述する尤度を算出する尤度算出部 1 50と、を備え、認識処理時および登録処理時に入力された発話音声成分と登録され て 、る各 HMMデータとに基づ 、て後述するように、尤度を算出するようになって ヽ る。
[0021] また、この話者認識装置 100は、登録処理を行う際に、算出された各尤度に基づい て話者の認識を行うためのパスワードとして当該話者が定めたパスワードの登録の可 否を判定する登録判定部 160と、当該登録判定部 160の判定結果を表示する表示 部 170と、表示部 170を制御する表示制御部 180と、登録判定部 160の判定結果を 告知するスピーカ 190と、当該スピーカ 190を制御する拡声制御部 200と、パスヮー ドとして当該話者が定めたパスワードを HMMデータとして登録することが許可された 場合に、 HMMデータを学習させつつ生成するデータ生成部 210と、を備えている。
[0022] さらに、この話者認識装置 100は、抽出されたパスワードの特徴量とデータベース 1 40に既に登録された HMMデータに基づいて認識処理を行う認識処理部 220と、各 種操作を行うために用いられる操作部 230と、装置全体を制御するとともに、 HMM データを登録する際に、または、認識処理を実行する際に各部を制御するシステム 制御部 240と、各部を制御する際に用いられる ROMZRAM250と、を備えている。
[0023] なお、例えば、本実施形態のマイクロホン 110は、本発明の入力手段を構成すると ともに、入力手段は、本発明の比較対象情報生成手段を構成し、特徴量抽出部 130 は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本 実施形態のデータベース 140は、本発明のデータベース 140を構成し、尤度算出部 150は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部 170 およびスピーカ 190は、本発明の告知手段を構成し、データ生成部 210は、本発明 の更新手段および第 2更新手段を構成する。
[0024] マイクロホン 110には、認識処理を行う際に、または、登録処理を行う際に、操作者 、すなわち、話者が登録を希望するパスワードの発話音声が入力されるようになって おり、このマイクロホン 110は、入力されたパスワードの発話音声を電気的な音声信 号に変換し、入力処理部 120に出力するようになっている。
[0025] 入力処理部 120には、マイクロホン 110から出力された音声信号が入力されるよう になっており、この入力処理部 120は、入力された音声信号に対して、所定の信号レ ベルに増幅させるとともに、デジタル信号に変換するようになっている。
[0026] また、この入力処理部 120は、入力された音声信号の発話音声部分の音声区間を 示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設 定された時間間隔毎のフレームに分割し、分割された各フレームの音声信号を特徴 量抽出部 130に出力するようになっている。
[0027] 特徴量抽出部 130には、パスワードの発話音声がマイクロホン 110に入力される毎 に、各フレームに分割された音声信号が入力されるようになっており、この特徴量抽 出部 130は、システム制御部 240の制御の下、入力された各フレーム毎に音声信号 を分析するとともに、当該フレーム毎の音声信号に基づいて発話音声成分の特徴量 を抽出し、当該抽出された各フレームの特徴量を特徴量データとして尤度算出部 15 0または後述するように当該パスワードの登録が許可された場合にデータ生成部 210 に出力するようになっている。
[0028] 具体的には、特徴量抽出部 130は、入力された各フレームの音声信号に基づいて 、一定時間毎に、かつ、各周波数毎におけるパワーを示すスペクトル包絡の情報、ま たは、このパワースペクトルの対数をとつて逆フーリエ変換したものケプストラムの情 報を各フレームの発話音声成分の特徴量として抽出するとともに、当該抽出した各特 徴量をベクトル化して特徴量データを生成し、当該生成された尤度算出部 150また はデータ生成部 210に出力するようになって 、る。
[0029] なお、本実施形態の特徴量抽出部 130は、データ生成部 210において HMMデ ータを学習させつつ生成する場合に、各フレーム毎に分割された音声信号が入力さ れる毎に、当該入力された音声信号に基づいて発話音声成分の特徴量を抽出し、 データ生成部 210に出力するようになって 、る。
[0030] データベース 140には、操作者を特定するためのパスワードの当該操作者におけ る発話音声成分に基づいて生成された HMMデータが各操作者毎に、当該各操作 者の名称に対応付けて予め登録されている。
[0031] なお、この HMMは、一定時間毎の各周波数毎におけるパワーを示すスペクトル包 絡のデータまたはこのパワースペクトルの対数をとつて逆フーリエ変換したケプストラ ムのデータを有する確率モデルを示すようになつている。具体的には、この HMMは 、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移する ときに観測されるベクトル (フレーム毎の特徴量ベクトル)の確率を出力する出力確率 の 2つのパラメータを有するとともに、発話音声の任意の区間毎に遷移する状態の集 まりを表し、非定常信号源を定常信号の連結で表わす統計的信号源モデルである。
[0032] 尤度算出部 150には、パスワード一発話分の全フレームのベクトル特徴量の時系 列データが特徴量データとして入力されるようになっており、この尤度算出部 150は、 システム制御部 240の制御の下、入力されたパスワード一発話分の全フレームの時 系列に並んだ特徴量とデータベース 140に格納されている各 HMMデータに基づき 尤度を算出するようになって 、る。
[0033] 具体的には、尤度算出部 150は、 HMMが初期状態から時間の進行と共に状態を 遷移する毎にベクトルを出力し、最終状態に達したときに入力されたパスワード一発 話分の全フレームの時系列に並んだ特徴量データが出力される確率を計算するよう になっている。そして、この尤度算出部 150は、当該算出された確率を尤度として算 出するようになっている。
[0034] 一方、この尤度算出部 150は、上述のように算出された各話者の HMM毎の尤度 において最も高い尤度(以下、「最大尤度」という。)を検索し、この最大尤度を尤度 データとして登録判定部 160または認識処理部 220の何れかに出力するようになつ ている。
[0035] なお、この尤度算出部 150は、登録処理を行っている際には、当該最も高い尤度を 尤度データとして登録判定部 160に出力するとともに、認識処理を行っている際には 、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部 220に出力 するようになっている。
[0036] 登録判定部 160には、登録処理を行っている際に、尤度算出部 150から出力され た操作者が登録を希望するパスワードの尤度データが入力されるようになっており、 この登録判定部 160は、入力された尤度データに基づいて、当該尤度データの算出 の基になったパスワードのデータベース 140への登録の可否を判定し、当該判定結 果をシステム制御部 240に通知するようになって 、る。
[0037] 具体的には、この登録判定部 160は、予め設定された登録判定用の閾値 (以下、「 登録判定用閾値」という。)と入力された尤度データによって示される尤度とを比較し 、当該尤度が閾値以下の場合には、データベース 140に類似するパスワードが登録 されていないものと判断して、当該尤度データの算出の基になったパスワードのデー タベース 140への登録を許可する判定(以下、単に、「登録許可の判定」という。)を 行うようになっている。
[0038] 一方、この登録判定部 160は、予め設定された閾値と入力された尤度データによつ て示される尤度とを比較し、当該尤度が閾値より大きい場合には、データベース 140 に類似するパスワードが登録されているものと判断して、当該尤度データの算出の基 になったパスワードのデータベース 140への登録を許可しない不許可の旨の判定( 以下、単に、「登録不許可の判定」という。)を行うようになっている。
[0039] なお、システム制御部 240は、後述するように、登録許可の判定が通知された場合 には、当該登録許可の旨を表示部 170およびスピーカ 190を介して操作者に告知す るとともに、登録許可の対象となったパスワードにおける HMMデータを生成する処 理を実行するようになっている。また、このシステム制御部 240は、登録不許可の判 定が通知された場合には、当該登録許可の旨を表示部 170およびスピーカ 190を介 して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うよう になっている。 [0040] データ生成部 210には、登録処理を行っている際に操作者が登録を希望するパス ワードの登録が許可された場合に、パスワードの登録の可否の判断前に特徴量抽出 部 130にて抽出された当該パスワードの特徴量データと、当該パスワードの登録が 許可された後に、複数回パスワードが入力され、特徴量抽出部 130にて当該パスヮ ードが入力される毎に抽出されたノ スワードの特徴量データが入力されるようになつ ている。また、このデータ生成部 210は、入力された各特徴量データに基づいて、 H MMデータを学習させつつ生成し、当該生成された HMMデータを操作者の名称に 関連づけてデータベース 140に登録するようになって!/、る。
[0041] 具体的には、本実施形態のデータ生成部 210は、入力された複数の特徴量データ に基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデー タまたはこのパワースペクトルの対数をとつて逆フーリエ変換したケプストラムのデー タを有する確率モデルを学習させつつ生成し、当該生成された確率モデルを HMM データとしてデータベース 140に登録するようになって!/、る。
[0042] 表示部 170は、例えば、 CRT、液晶表示素子または EL (Electro Luminescence)素 子によって構成され、表示制御部 180の制御にしたがって種々の表示を行うようにな つており、特に、本実施形態の表示部 170は、操作者が入力した登録を希望するパ スワードの登録の可否などの種々の表示を行うようになって!/、る。
[0043] 表示制御部 180は、システム制御部 240の制御の下、表示部 170の表示制御を行 うようになっており、特に、本実施形態の表示制御部 180は、操作者が入力した登録 を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作 者に告知するための表示データを生成し、当該生成された表示データを表示部 170 に表示出力するようになって!/、る。
[0044] スピーカ 190は、拡声制御部 200の制御にしたがって種々の告知を行う際に所定 の音声が拡声させるようになっており、特に、本実施形態のスピーカ 190は、操作者 が入力した登録を希望するパスワードの登録の可否を行う際に用いられるようになつ ている。
[0045] 拡声制御部 200は、システム制御部 240の制御の下、スピーカ 190の拡声制御を 行うようになっており、特に、本実施形態の拡声制御部 200は、操作者が入力した登 録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操 作者に告知するための音声データを生成し、当該生成された音声データをスピーカ
190から拡声出力するようになって 、る。
[0046] 認識処理部 220には、認識処理を行っている際に、尤度算出部 150において算出 された最大尤度を示す尤度データが入力されるようになっており、この認識処理部 2 20は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行 うようになっている。
[0047] 例えば、本実施形態の認識処理部 220は、入力された尤度データにおける最大尤 度が予め設定された認識処理用の閾値 (以下、「認識処理用閾値」という。)以上であ る力否かを判定し、当該最大尤度が認識処理用閾値以上の場合には、当該尤度を 算出する際に用 、た HMMデータに対応付けて登録されて 、る操作者を、当該認識 処理においてパスワードを発話した操作者、すなわち、話者であると認識し、当該認 識結果をシステム制御部 240に出力するようになって 、る。
[0048] なお、本実施形態の認識処理部 220は、当該最大尤度が認識処理用閾値より小さ い場合には、当該認識処理においてパスワードを発話した操作者がデータベース 1 40に登録されている何れの操作者にも該当しないとしてその旨をシステム制御部 24 0に出力するようになっている。また、この認識処理用閾値は、登録判定用閾値より大 き 、値が用いられるようになって 、る。
[0049] 操作部 230は、各種確認ボタン及び数字キー等の多数のキーを含むキーボード、 または、タツチパネル等の入力インターフェースにより構成されており、特に、本実施 形態では、登録処理を行う際に、または、認識処理を行う際に、所定の操作を行うよう になっている。
[0050] システム制御部 240は、主に中央演算処理装置 (CPU)によって構成されるととも に、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、登録処理および 認識処理のための全般的な機能を総括的に制御するようになっている。
[0051] このシステム制御部 240は、登録処理および認識処理を行う際に、 ROM/RAM2 50に格納される制御プログラムを読み出して各処理を実行し、当該 ROMZRAM2 50に処理中のデータを一時的に保持するようになっている。 [0052] なお、本実施形態のシステム制御部 240における登録処理の動作の詳細について は後述する。
[0053] ROMZRAM250には、所定の動作を行う際の制御プログラムが記憶されていると ともに、各部を制御する際に用いられるデータが一時的に記憶されるようになってい る。
[0054] 次に、図 2を用いて本実施形態のシステム制御部 240における登録処理の動作に ついて説明する。
[0055] なお、図 2は、本実施形態のシステム制御部 240における登録処理の動作を示す フローチャートである。また、以下の動作において、データベース 140には、複数の 操作者の HMMデータが予め登録されて!、るものとする。
[0056] まず、操作部 230を介して操作者によってパスワードの HMMデータを登録する登 録処理を実行する指示が入力され、システム制御部 240が当該登録処理の実行指 示を検出すると (ステップ S 11)、当該システム制御部 240は、表示制御部 180およ び拡声制御部 200を制御して、表示部 170およびスピーカ 190によってパスワードの 入力を促すための告知(以下、「入力指示の告知」という。)をさせる (ステップ S 12)。
[0057] 次いで、システム制御部 240は、特徴量抽出部 130に、マイクロホン 110および入 力処理部 120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出 するための指示を行う(ステップ S 13)。
[0058] このとき、特徴量抽出部 130は、当該ステップ S13の指示が為されると、マイクロホ ン 110に操作者のパスワードの音声が入力され、入力処理部 120にて分割された各 フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスヮ 一ドー発話分の全フレームの特徴量の時系列データを特徴量データとして尤度算出 部 150に出力する。
[0059] 次いで、システム制御部 240は、尤度算出部 150に入力された各フレーム毎の特 徴量とデータベース 140に格納されている各 HMMデータを比較して入力されたパ スワードの発話音声成分全体の特徴量と各 HMMデータの特徴量とのそれぞれの 尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定 部 160に出力させる (ステップ S 14)。 [0060] 次 、で、システム制御部 240は、登録判定部 160に最大尤度と登録判定用閾値と を比較させ、入力されたパスワードの登録の可否を判定し (ステップ S15)、登録判定 部 160によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示 制御部 180およぎ拡声制御部 200を制御して、表示部 170およびスピーカ 190にて 登録するパスワード、すなわち、登録するパスワードの変更を促すための告知(以下 、「変更指示の告知」という。)をさせ (ステップ S16)、ステップ S13の処理に移行する
[0061] 一方、登録判定部 160によって最大尤度が登録判定用閾値以下と判断された場 合には、システム制御部 240は、表示制御部 180および拡声制御部 200を制御して 、表示部 170およびスピーカ 190にて登録可能の告知を行わせる(ステップ S 17)。
[0062] 次いで、システム制御部 240は、データ生成部 210に特徴量抽出部 130から入力 されたノ スワードの特徴量を取得させて当該パスワードにおける HMMデータを生成 させるとともに (ステップ S18)、表示制御部 180および拡声制御部 200を制御して、 表示部 170およびスピーカ 190にて登録するパスワードの入力を促すための告知( 以下、「再入力指示の告知」という。)を行わせる (ステップ S 19)。
[0063] 次いで、システム制御部 240は、ステップ S13の処理と同様に、特徴量抽出部 130 に、マイクロホン 110および入力処理部 120を介して入力されたパスワードの発話音 声成分に対して特徴量を抽出するための指示を行う (ステップ S 20)。
[0064] このとき、特徴量抽出部 130は、上述の処理と同様に、マイクロホン 110に操作者 のパスワードの音声が入力され、入力処理部 120にて分割された各フレーム毎の音 声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分 の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部 210に出 力する。
[0065] このとき、システム制御部 240が未だ予め定められた回数のパスワードの入力がな いと判断すると、当該システム制御部 240は、ステップ S20の処理に移行し、システム 制御部 240が未だ予め定められた回数のパスワードの入力があつたと判断すると、 当該システム制御部 240は、データ生成部 210に HMMデータの学習を指示する。
[0066] 次いで、システム制御部 240は、データ生成部 210に入力された特徴量データに 基づいて生成された HMMデータを学習させ (ステップ S21)、生成された HMMデ ータを、パスワードを入力した操作者に対応付けてデータベース 140に登録させ (ス テツプ S23)、本動作を終了させる。
[0067] 以上のように本実施形態の話者認識装置 100は、認識の対象となる操作者毎に登 録変更可能なパスワードの発話音声成分の特徴量力 学習した HMMデータが予 め登録されたデータベース 140を有し、特定すべき操作者のパスワードの発話音声 成分の特徴量と当該 HMMデータとを比較することによって操作者を認識する話者 認識装置 100であって、パスワードの音声成分における特徴量から学習する HMM データをデータベース 140に登録する際に、登録すべきパスワードの音声成分にお ける特徴量を入力するために用いられるマイクロホン 110と、入力されたパスワードの 音声成分カゝら特徴量を抽出する特徴量抽出部 130と、抽出された特徴量と照合用の 各操作者のパスワードの発話音声成分の特徴量から学習された HMMデータとを比 較し、当該抽出された特徴量と当該照合用の各操作者のパスワードの発話音声成分 における特徴量から学習された HMMデータとの尤度をそれぞれ算出する尤度算出 部 150と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出され たパスワードの発話音声における音声成分の特徴量に基づいて生成される HMMデ ータを用いてデータベース 140を更新するデータ生成部 210と、を備える構成を有し ている。
[0068] この構成により、本実施形態の話者認識装置 100は、操作者が希望するパスワード の発話音声に基づく HMMデータを登録する際に、入力されたパスワードの発話音 声成分力も抽出された特徴量とデータベース 140に登録された各 HMMデータの尤 度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録 を希望するパスワードの発話音声成分の特徴量に基づいて生成される HMMデータ を用いてデータベース 140を更新する。
[0069] したがって、本実施形態の話者認識装置 100は、操作者の認識時に誤認識を生じ させやす 、特徴量に基づく HMMデータなどのデータの登録を排除し、誤認識の可 能性をより軽減させて、かつ、安定した認識性能を提供することができる。
[0070] また、本実施形態の話者認識装置 100は、尤度算出部 150が、初回に入力された パスワードの音声成分における特徴量に基づいて照合用の各パスワードの音声成分 における特徴量との各尤度を算出するとともに、算出された初回に入力されたパスヮ ードの音声成分における特徴量に基づく各尤度が登録判定用閾値以下の場合に、 データ生成部 210が、抽出された全登録用パスワード発話の特徴量に基づいて一 つの HMMデータを生成し、当該生成された HMMデータを用いてデータベース 14 0を更新する構成を有して 、る。
[0071] この構成により、複数回行わなければならない登録発話のうち初回の発話のみで 登録可否の判定がなされるので、パスワードの再入力が生じた場合であっても、操作 者における負荷を軽減させることができる。
[0072] なお、本実施形態では、データ生成部 210は、パスワードの登録が許可された後に 、複数回入力されたパスワードの発話音声成分における特徴量に基づいて、 HMM を学習させるようになっているが、複数回のパスワード発話の任意の複数の発話に対 して登録可否の判定を行うようにしても良い。この場合には、登録不可の判定が尤度 の算出に用いない入力された複数回の発話音声における特徴量データは、例えば、 ROMZRAM250に一時的に記憶されるようになって!/、る。
[0073] また、本実施形態では、登録判定部 160において、登録が不許可と判断された場 合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判 定部 160において許可が為されない限り、登録を希望するノ スワードの再入力が指 示されるようになって 、るが、当該ノ スワードの再入力に回数の制限を設けるようにし てもよい。
[0074] この場合には、システム制御部 240は、パスワードの変更指示を行う毎に、算出さ れた最大尤度を ROMZRAM250に記憶し、予め定められた回数の再入力を行つ ても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の 記憶手段として機能する当該 ROMZRAM250に記憶された最大尤度のうち、最小 となる最大尤度のパスワードを選択し、データ生成部 210に、当該選択されたパスヮ ードにおける HMMデータを、入力された発話音声の特徴量に基づいて、学習させ つつ生成させ、生成させた HMMデータをデータベース 140に登録させるようになつ ている。また、この場合には、上述と同様に、システム制御部 240は、登録を希望する パスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部 170 およびスピーカ 190を介して操作者に指示するようになっている。したがって、このよ うに、パスワードの再入力を制限することによって、登録処理時における操作者の負 担を軽減させることができる。そして、この場合に、登録の対象となったパスワードに おいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値 より大き 、値を有する最大尤度に基づ 、て、認識処理用閾値を変更するようになって いる。例えば、この場合は、システム制御部 240は、最大尤度より所定の値大きい認 識処理用閾値を算出し、認識処理部 220に格納するようになって 、る。
[0075] また、上述のように、ノ スワードの発話音声における入力を制限する点に変えて、 算出された最大尤度を ROMZRAM250に記憶するとともに、前回に入力されたパ スワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大き い場合に、前回に入力されたパスワードにおける発話音声に基づいて HMMデータ を学習させつつ生成するようにしてよい。このように、パスワードの再入力を所定の基 準にて制限することによって、上述と同様に、登録処理時における操作者の負担を 軽減させることができる。そして、この場合に、上述と同様に、登録の対象となったパ スワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録 判定用閾値より大き 、値を有する最大尤度に基づ 、て、認識処理用閾値を変更する ようになつている。例えば、この場合は、システム制御部 240は、最大尤度より所定の 値大き 、認識処理用閾値を算出し、認識処理部 220に格納するようになって 、る。
[0076] なお、ここでは照合用生体情報として HMMデータを用いて尤度として信号生成確 率を用いた例を示したが、照合用生体情報として GMM (Gaussian Mixture Model)を 用いて尤度として信号生成確率を用いる方法、動的計画法を用いる場合照合用生 体情報として照合用パターンを用い尤度としてパターン間距離の逆数を用いる方法 や、ニューラルネットを用いる場合照合用生体情報として-ユーラルネットワークを用 V、尤度としてネットワーク出力を用いる方法など様々な方法も本構成で実現できる。
[0077] また近年、携帯電話やインターネット等のデータ通信を応用した分散型音声認識が 開発研究されている。これは、端末側でマイクと CPUなどの演算器を持ち、発話音声 を特徴量に変換してデータ通信によりサーバに伝送する。サーバでは受信した特徴 量に対し音声認識処理を行う結果を求めたり、求めた結果でデータ検索を行うなど する。そして求めた結果やデータ検索結果等を再度データ通信を利用して端末に伝 送し、端末側でユーザに音声や画像で通知するなど利用する、というものである。こ のような構成を本発明にも用いることができる。この場合、入力処理部'特徴量抽出 部 ·表示部'スピーカを端末側で受け持ち、データ生成 ·データベース ·尤度算出部 · 登録判定部 ·認識処理部をサーバ側で受け持つような構成とすることも可能である。
[0078] また、本実施形態では、システム制御部 240によって、登録処理を行うようになって V、るが、操作者毎の HMMデータが複数登録されるデータベース 140を有する話者 認識装置 100にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処 理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプロ グラムを読み込むことによって上述と同様の登録処理を行うようにしてもょ 、。
[0079] 〔第 2実施形態〕
次に、図 3および図 4を用いて本願の操作者認識装置の第 2実施形態を、指紋認 識装置を用いて説明する。
[0080] 本実施形態の指紋認識装置は、第 1実施形態の話者認識装置にお!ヽてパスワード の発話音声における特徴量を用いて認識処理を行う点に代えて、操作者の指紋の 特徴量を用いる点に特徴がある。
[0081] すなわち、各操作者にお!、て指紋は、指の数だけ存在するため、各操作者にぉ ヽ て変更可能な生体情報の一つである。また、この指紋は、指紋の画像 (以下、「指紋 画像」という。)として取り込み、当該指紋画像に基づいて指紋隆線の分岐点および 端点の位置などの特徴点を解析することによって当該指紋画像の特徴量を抽出する ことができる。したがって、本実施形態の指紋認識装置は、指紋画像を取得し、当該 取得された指紋画像を解析することによって特徴量を抽出することができるとともに、 当該特徴量をデータベース 140に予め登録すれば、第 1実施形態と同様に、尤度を 算出することができ、かつ、認識処理を行うことができるようになつている。
[0082] なお、本実施形態においては、上述の構成以外の構成は第 1実施形態と同様の構 成を有しており、同一の部材には同一の符号を付してその説明を省略する。
[0083] まず、図 3を用いて本願の指紋認識装置 300の構成について説明する。なお、図 3 は、本願に係る指紋認識装置 300の構成を示すブロック図である。
[0084] 本実施形態の指紋認識装置 300は、図 3に示すように、操作者の指紋を画像として 検出する指紋検出部 310と、入力された指紋画像に基づいて当該指紋の特徴量を 抽出する特徴量抽出部 320と、操作者の指紋の特徴量を示す指紋データが予め複 数登録されているデータベース 330と、データベース 330に登録された各指紋デー タと抽出された指紋画像における特徴量との尤度を算出する尤度算出部 340と、抽 出された指紋画像の特徴量とデータベース 330に既に登録された指紋データに基 づいて認識処理を行う認識処理部 350と、パスワードとして当該操作者が定めた指 紋を指紋データとして登録することが許可された場合に、指紋データを生成するデー タ生成部 360と、を備えている。
[0085] また、この指紋認識部は、第 1実施形態と同様に、登録判定部 160と、表示部 170 と、表示制御部 180と、スピーカ 190と、拡声制御部 200と、操作部 230と、システム 制御部 370と、 ROMZRAM250と、を備えている。
[0086] なお、例えば、本実施形態の指紋検出部 310は、本発明の入力手段を構成すると ともに、特徴量抽出部 320は、本発明の比較対象情報生成手段および抽出手段を 構成する。また、例えば、本実施形態のデータベース 330は、本発明のデータべ一 ス 330を構成し、尤度算出部 340は、本発明の算出手段を構成する。さらに、例えば 、本実施形態の表示部 170およびスピーカ 190は、本発明の告知手段を構成し、デ ータ生成部 360は、本発明の登録手段および第 2登録手段を構成する。
[0087] 指紋検出部 310は、操作者の指を接触させる接触部を有し、登録処理時または認 識処理時に、指が接触部に接触された際に、光学式または静電容量式などの指紋 センサーを用いて当該指の指紋を指紋画像として撮像し、指紋画像を指紋画像デー タとして特徴量抽出部 320に出力するようになって 、る。
[0088] 特徴量抽出部 320には、入力された操作者の指における指紋画像データが入力さ れるようになっており、この特徴量抽出部 320は、入力された指紋画像データに基づ いて、上述のように、指紋隆線の分岐点および端点の位置など特徴量を抽出するよう になっている。そして、この特徴量抽出部 320は、抽出された特徴量を特徴量データ として尤度算出部 340またはデータ生成部 360に出力するようになっている。 [0089] データベース 330には、操作者を特定するためのパスワードとして当該操作者の指 紋画像に基づいて生成された指紋データが、各操作者毎に、当該各操作者の名称 に対応付けて予め登録されて 、る。
[0090] 尤度算出部 340には、特徴量抽出部 320にて抽出された特徴量データが入力され るようになっており、この尤度算出部 340は、システム制御部 370の制御の下、特徴 量データの各特徴量とデータベース 330に格納されている各指紋データによって示 される特徴量とを比較し、入力された特徴量と各指紋データの特徴量とのそれぞれ の尤度を算出し、この算出された各尤度において最も高い最大尤度を尤度データと して認識処理部 350または登録判定部 160の何れかに出力するようになっている。
[0091] なお、この尤度算出部 340は、第 1実施形態と同様に、認識処理を行っている際に は、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部 350に出 力するとともに、登録処理を行っている際には、当該最も高い尤度を尤度データとし て登録判定部 160に出力するようになっている。
[0092] 認識処理部 350には、認識処理を行っている際に、尤度算出部 340において算出 された最大尤度を示す尤度データが入力されるようになっており、この認識処理部 3 50は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行 うようになっている。
[0093] データ生成部 210は、登録処理を行っている際に操作者が登録を希望するパスヮ ードとしての指紋の登録が許可された場合に、特徴量抽出部 320にて抽出された当 該指紋画像の特徴量データを取得し、取得された特徴量データに基づいて、指紋デ ータを生成するようになっており、生成された指紋データを操作者の名称に関連づけ てデータベース 330に登録するようになって!/、る。
[0094] 次に、図 4を用いて本実施形態のシステム制御部 370における登録処理の動作に ついて説明する。
[0095] なお、図 4は、本実施形態のシステム制御部 370における登録処理の動作を示す フローチャートである。また、以下の動作において、データベース 330には、複数の 操作者の指紋データが予め登録されて ヽるものとする。
[0096] まず、操作部 230を介して操作者によってノ スワードとしての指紋データを登録す る登録処理を実行する指示が入力され、システム制御部 370が当該登録処理の実 行指示を検出すると (ステップ S31)、当該システム制御部 370は、表示制御部 180 および拡声制御部 200を制御して、表示部 170およびスピーカ 190によってパスヮ ードを入力する旨、すなわち、指紋の検出を促すための告知(以下、「検出指示の告 知」と 、う。 )をさせる(ステップ S32)。
[0097] 次 、で、システム制御部 370は、指紋検出部 310に接触部に接触された指の指紋 の画像を撮像させる (ステップ S33)。
[0098] 次 、で、システム制御部 370は、特徴量抽出部 320に、撮像された指紋画像デー タに基づいて特徴量を抽出させ、当該抽出された特徴量を特徴量データとして尤度 算出部 340に出力させる (ステップ S34)。
[0099] 次いで、システム制御部 370は、尤度算出部 340に入力された特徴量データとデ ータベース 330に格納されている各指紋データの各特徴量とを比較して入力された 指紋画像データにおける特徴量と各指紋データの特徴量とのそれぞれの尤度を算 出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部 160に 出力させる (ステップ S35)。
[0100] 次いで、システム制御部 370は、登録判定部 160に最大尤度と登録判定用閾値と を比較させ、入力された指紋の登録の可否を判定し (ステップ S36)、登録判定部 16 0によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御 部 180およぎ拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録 する指紋の変更を告知させ (ステップ S37)、ステップ S33の処理に移行する。
[0101] 一方、登録判定部 160によって最大尤度が登録判定用閾値以下と判断された場 合には、システム制御部 370は、表示制御部 180および拡声制御部 200を制御して 、表示部 170およびスピーカ 190にて登録可能である旨の告知を行わせる (ステップ S38)。
[0102] 次いで、システム制御部 370は、データ生成部 360に特徴量抽出部 320から撮像 された指紋画像データの特徴量を取得させて指紋データを生成させるとともに (ステ ップ S39)、当該生成された指紋データを入力した操作者に対応付けてデータべ一 ス 330に登録させ (ステップ S40)、本動作を終了させる。 [0103] 以上のように本実施形態の指紋認識装置 300は、認識の対象となる操作者毎に登 録変更可能な指紋の特徴量が指紋データとして予め登録されたデータベース 330を 有し、特定すべき操作者の指紋の特徴量と当該指紋データとを比較することによって 操作者を認識する指紋認識装置 300であって、操作者の指の指紋の特徴量を指紋 データとしてデータベース 330に登録する際に、登録すべき指紋を画像データとして 検出する指紋検出部 310と、検出された指紋画像データから特徴量を抽出する特徴 量抽出部 320と、抽出された指紋画像データの特徴量と照合用の各指紋データの 特徴量とを比較し、当該抽出された特徴量と当該照合用の各指紋データの特徴量と の特性が類似する割合を示す尤度をそれぞれ算出する尤度算出部 340と、算出さ れた各尤度が基準となる登録判定用閾値以下の場合に、抽出された指紋画像デー タの特徴量に基づいて生成される指紋データを用いてデータベース 330を更新する データ生成部 360と、を備える構成を有している。
[0104] この構成により、本実施形態の指紋認識装置 300は、操作者が希望する指紋に基 づく指紋データを登録する際に、検出された指紋画像データから抽出された特徴量 とデータベース 330に登録された各指紋データにおける特徴量との特性が類似する 割合を示す尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下 の場合に、登録を希望する指紋の特徴量に基づいて生成される指紋データを用い てデータベース 330を更新する。
[0105] したがって、本実施形態の指紋認識装置 300は、第 1実施形態と同様に、操作者 の認識時に誤認識を生じさせやすい特徴量を有する指紋データなどのデータの登 録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供する ことができる。
[0106] また、本実施形態の指紋認識装置 300は、算出された各尤度の少なくとも一の尤 度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像デー タの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知 する表示部 170およびスピーカ 190を更に備える構成を有して 、る。
[0107] この構成により、本実施形態の指紋認識装置 300は、算出された各尤度の少なくと も一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋 画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入 力を告知する。
[0108] したがって、本実施形態の指紋認識装置 300は、第 1実施形態と同様に、操作者 のパスワードとして登録すべき指紋画像データの再入力を操作者に告知することが できるので、当該ノ スワードを必ず登録させることができる。
[0109] また、本実施形態では、登録判定部 160において、登録が不許可と判断された場 合に、再度、登録を希望するパスワードとしての指紋画像データが検出されるように なっており、当該登録判定部 160において許可が為されない限り、登録を希望する 指紋画像データの再検出が指示されるようになって ヽるが、当該指紋画像データの 再検出に回数の制限を設けるようにしてもよ!、。
[0110] この場合には、システム制御部 370は、指紋の変更指示を行う毎に、算出された最 大尤度を ROMZRAM250に記憶し、予め定められた回数の再入力を行っても、登 録を希望する指紋の登録が許可されない場合には、例えば本発明の記憶手段として 機能する当該 ROMZRAM250に記憶された最大尤度うち、最小となる最大尤度の 指紋画像データを選択し、データ生成部 360に、当該選択された指紋画像データに 基づ 、て指紋データ生成させ、生成させた指紋データを用いてデータベース 330を 更新させるようになつている。
[0111] また、本実施形態では、システム制御部 370によって、登録処理を行うようになって いるが、操作者毎の指紋データが複数登録されるデータベース 330を有する指紋認 識装置 300にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理 を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプロダラ ムを読み込むことによって上述と同様の登録処理を行うようにしてもょ 、。
[0112] 〔第 3実施形態〕
次に、図 5及び図 6を用いて本願の操作者認識装置の第 3実施形態を、話者認識 装置を用いて説明する。
[0113] 本実施形態の話者認識装置は、第 1実施形態の話者認識装置が HMMデータの 登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴 量を抽出するとともに、この抽出された特徴量と既に登録されている各 HMMデータ との尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づ いて、当該登録を希望するパスワードの登録の可否を判断するのに対し、 HMMデ ータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分か ら特徴量を抽出するとともに、この抽出された特徴量から生成する HMMデータと既 に登録されている各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤 度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可 否を判断する点に特徴がある。
[0114] まず、図 5を用いて本願の話者認識装置 500の構成について説明する。図 5は、本 願に係る話者認識装置 500の構成を示すブロック図である。
[0115] なお、本実施形態の話者認識装置は、上述の構成以外の構成は第 1実施形態の 話者認識装置と同様の構成を有しており、同一の部材及び動作については同一の 符号を付してその説明を省略する。
[0116] 本実施形態の話者認識装置 500は、特に、登録処理を行う際に、操作者の登録を 希望するパスワードの発話音声を複数回取得し、当該取得された複数回のパスヮー ドの発話音声における特徴量に基づいて学習しつつ生成した HMMデータと、既に 登録されている各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と 予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を 判断するようになっている。そして、この話者認識装置 500は、算出された各尤度が 予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登 録を許可するようになっており、登録が許可されると、当該生成された HMMデータ の登録を行うようになって!/ヽる。
[0117] この話者認識装置 500は、図 5に示すように、特徴抽出部 130によって抽出された 話者のパスワードにおける発話音声成分の特徴量力 HMMデータを学習しつつ生 成するデータ生成部 510と、データ生成部 510によって学習しつつ生成された HM Mデータとデータベース 140に登録された各 HMMデータとの尤度を算出する尤度 算出部 520と、を備えている。
[0118] また、この話者認識装置 500は、第 1実施形態と同様に、マイクロホン 110と、入力 処理部 120と、特徴量抽出部 130と、データベース 140と、登録判定部 160と、表示 部 170と、表示制御部 180と、スピーカ 190と、拡声制御部 200と、認識処理部 220 と、操作部 230と、システム制御部 530と、 ROMZRAM250と、を備えている。
[0119] なお、例えば、尤度算出部 520は、本発明の算出手段を構成する。さらに、例えば 、本実施形態の表示部 170およびスピーカ 190は、本発明の告知手段を構成し、デ ータ生成部 510は、本発明の比較対象情報生成手段、更新手段および第 2更新手 段を構成する。
[0120] データ生成部 510には、登録処理を行っている際に、特徴量抽出部 130にて抽出 された当該ノ スワードの特徴量データが入力され、データ生成部 510は、入力された 各特徴量データに基づいて、 HMMデータを学習させつつ生成して、当該生成され た HMMデータを尤度算出部 520に出力するようになって 、る。
[0121] 尤度算出部 520は、登録処理を行っている際に、データ生成部 510より入力された HMMデータとデータベース 140に格納されて!、る各 HMMデータに基づ!/、て、尤 度を算出して、算出した各話者の HMM毎の尤度における最大尤度を検索し、この 最大尤度を尤度データとして登録判定部 160に出力するようになっている。
[0122] HMMデータ間の尤度として、例えば HMMデータ間の距離の逆数を用いることが できる。 HMMデータ間の距離を比較する尺度 (以下、「距離尺度」と称することがあ る)としては、例えば、 Kullbackの情報量によるものを用いることができる(文献 (信学 技法 SP94-16『クラスタリングによる HMM間の距離尺度の研究』(15頁〜 20頁)参 照)。以下、当該文献を参考に説明を行う。
[0123] 例えば、登録処理の際にデータ生成部 510で生成された HMMデータをえ とし、
0 λ 算出時に用いた発話音声の特徴量系列を Xとし、データベース 140に登録され
0 Τ
ている ΗΜΜデータをえとすると、下記(1)式、(2)式を用いることにより発話音声毎 のえ とえの距離値 Dを算出することができる。さらに、当該算出した発話音声毎の距
0
離値 Dの平均を算出することにより、操作者が希望するパスワードの発話音声に基づ く ΗΜΜデータとデータベース 140に登録された各 ΗΜΜデータとの距離値を求める ことができる。
[0124] [数 1] θ(λ0, λ) = Η(Χτ, λ0)- Η(Χτ, λ)
[0125] [数 2]
1
Τ , λ) - lim一 log Ρ\ΧΤ λ) 2
τ→∞ τ
[0126] また、比較する ΗΜΜデータが共に同じ状態数である場合には、同じく上記文献に 挙げられている下記(5)式、(6)式、(7)式より算出される距離尺度を用いることもで きる。この場合には、時間の進行と共に遷移する状態毎に分布間の距離値を算出し て、全状態の距離値を平均することにより ΗΜΜデータ間の距離値を求めることがで きる。このとき、第 i番目の状態の Ν次元ガウス分布の平均、分散をそれぞれ下記(3) 式、(4)式とし、登録処理の際にデータ生成部 510で生成された HMMデータの i番 目の状態を m、データベース 140に登録されている HMMデータの i番目の状態を mとする。
[0127] [数 3]
Figure imgf000027_0001
[0128] [数 4] f ヽ
び び- 二 (4)
σ.
V
Vび Nノ
[0129] [数 5] m, —mつ (5)
Figure imgf000028_0001
[0130] [数 6] 2ΣΣ
Figure imgf000028_0002
6
び び
丄 i ム
[0131] [数 7]
,び 2 22 12,
丄 y び 1, + Δ12,
d3 7)
2 z 》 2 L + ·
2 2 (
i J びつ
[0132] さらに、上記 (5)式、(6)式、(7)式を用いて混合分布における距離値を算出する 場合には、例えば、各状態において最も混合比の大きい分布をその状態を代表とす る分布として選択することにより、単一分布と同様に上記(5)式、(6)式、(7)式から 距離値を算出することができる。例えば、混合数を Μとして、比較する一方の ΗΜΜ データ 1の状態お、混合 kの分布の平均を下記 (8)式、混合 kの分布の分散を下記( 9)式、混合比を下記(10)式とする。また、比較する他方の HMMデータ 2の状態を i 、混合 kの分布の平均を下記(11)式、混合 kの分布の分散を下記(12)式、混合比 を下記(13)式とする。この場合において、下記(14)式、(15)式とすると、下記(16) 式、(17)式、(18)式より距離値を算出することができる。
[0133] [数 8] 二 い m …, )
[0134] [数 9] び ={« …,び (9)
[0135] [数 10] ak (10)
[0136] [数 11] 二 mk ,m …, J "
[0137] [数 12]
び 二 1び び 2 ,'■ ',び 2z'"f (1 2 )
[0138] [数 13]
O2 k i ( 1 3) [0139] [数 14]
Figure imgf000030_0001
4)
[0140] [数 15]
^-argmax,=lto a2 k i (l 5
[0141] [数 16]
Figure imgf000030_0002
[0142] [数 17]
Figure imgf000030_0003
[0143] [数 18] k\i kli k2i
-- m - 777.
+ つ- ij
-2 (1 8: k\i kli
σ,
、び 1(
[0144] なお、認識処理の方式として DPマッチングを用レ、る場合には、比較する 2つの標 準パターンの内一方をテンプレートとし、他方を照合パラメータとしてマッチングを行 うことにより、 HMMを用いた場合の HMMデータ間の距離に相当する標準パターン 間の距離を算出することができる。また、他の様々な HMMデータ間の尤度を算出す る方法を本発明に適用することができる。 [0145] 一方、この尤度算出部 520は、登録処理を行っている際には、上記のように登録処 理の際にデータ生成部 510で生成された HMMデータとデータベース 140に登録さ れて 、る各 HMMデータとの尤度を計算し当該最も高 、尤度を尤度データとして登 録判定部 160に出力するとともに、認識処理を行っている際には、実施例 1で示した ように入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデー タベース 140に格納されている各 HMMデータに基づき算出された各尤度のうち最 も高 、尤度を尤度データとして認識処理部 220に出力するようになって 、る。
[0146] なお、システム制御部 530は、登録判定部 160より登録許可の判定が通知された 場合には、当該登録許可の旨を表示部 170およびスピーカ 190を介して操作者に告 知するとともに、登録許可の対象となったパスワードにおける HMMデータをデータ ベース 140に登録させる。また、このシステム制御部 530は、登録判定部 160より登 録不許可の判定が通知された場合には、当該登録許可の旨を表示部 170およびス ピー力 190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す 告知を行うようになっている。
[0147] 次に、図 6を用いて本実施形態のシステム制御部 530における登録処理の動作に ついて説明する。
[0148] なお、図 6は、本実施形態のシステム制御部 530における登録処理の動作を示す フローチャートである。また、以下の動作において、データベース 140には、複数の 操作者の HMMデータが予め登録されて!、るものとする。
[0149] まず、操作部 230を介して操作者によってパスワードの HMMデータを登録する登 録処理を実行する指示が入力され、システム制御部 530が当該登録処理の実行指 示を検出すると (ステップ S 11)、当該システム制御部 530は、表示制御部 180およ び拡声制御部 200を制御して、表示部 170およびスピーカ 190によってパスワードの 入力指示の告知をさせる (ステップ S 12)。
[0150] 次いで、システム制御部 530は、特徴量抽出部 130に、マイクロホン 110および入 力処理部 120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出 するための指示を行う(ステップ S 13)。
[0151] このとき、特徴量抽出部 130は、当該ステップ S13の指示が為されると、マイクロホ ン 110に操作者のパスワードの音声が入力され、入力処理部 120にて分割された各 フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の 全フレームの特徴量の時系列データを特徴量データとしてデータ生成部 510に出力 する。
[0152] 次いで、システム制御部 530は、データ生成部 510に、特徴量抽出部 130から入 力されたパスワードの特徴量データを取得させて当該パスワードにおける HMMデ ータを生成させる(ステップ S51)。
[0153] 次いで、システム制御部 530は、表示制御部 180および拡声制御部 200を制御し て、表示部 170およびスピーカ 190にてパスワードの再入力指示の告知を行わせる( ステップ S 52)。
[0154] 次いで、システム制御部 530は、ステップ S13の処理と同様に、特徴量抽出部 130 に、マイクロホン 110および入力処理部 120を介して入力されたパスワードの発話音 声成分に対して特徴量を抽出するための指示を行う (ステップ S53)。特徴量抽出部 130は、当該ステップ S53の指示が為されると、マイクロホン 110に操作者のパスヮ ードの音声が入力され、入力処理部 120にて分割された各フレーム毎の音声成分よ り特徴量を抽出し、当該抽出されたノ スワード一発話分の全フレームの特徴量の時 系列データを特徴量データとしてデータ生成部 510に出力する。
[0155] 次いで、システム制御部 530は、データ生成部 510に特徴量抽出部 130から入力 されたパスワードの特徴量データを取得させて HMMデータの学習を指示する(ステ ップ S54)。
[0156] 次いで、システム制御部 530は、予め定められた回数のパスワードの入力がされた か否かを判断する (ステップ S55)。このとき、システム制御部 530は、予め定められた 回数のパスワードの入力がされていないと判断すると、ステップ S52の処理に移行し て、以降、予め定められた回数のノ スワードの入力がされるまでステップ S52〜ステ ップ S 54の処理を繰り返す。
[0157] 一方、システム制御部 530は、データ生成部 510に学習させた HMMデータを尤 度算出部 520に出力させ、次いで、尤度算出部 520に対して尤度算出部 520に入 力された HMMデータとデータベース 140に格納されている各 HMMデータとのそ れぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして 登録判定部 160に出力させる (ステップ S56)。
[0158] 次いで、システム制御部 530は、登録判定部 160に対して当該最大尤度と登録判 定用閾値とを比較させて、入力されたノ スワードの登録の可否を判定させる (ステツ プ S57)。このとき、システム制御部 530は、登録判定部 160によって最大尤度が登 録判定用閾値より大きいと判断された場合には、データ生成部 510に学習させつつ 生成させた HMMデータを破棄させて (ステップ S 58)、表示制御部 180および拡声 制御部 200を制御して、表示部 170およびスピーカ 190にて登録するノ スワードの 変更指示の告知をさせ (ステップ S59)、ステップ S 13の処理に移行する。
[0159] 一方、システム制御部 530は、登録判定部 160によって最大尤度が登録判定用閾 値以下と判断された場合には、表示制御部 180および拡声制御部 200を制御して、 表示部 170およびスピーカ 190にて登録可能の告知を行わせる(ステップ S60)。
[0160] 次いで、システム制御部 530は、データ生成部 510に対して学習させつつ生成さ せた当該パスワードにおける HMMデータを、パスワードを入力した操作者に対応付 けてデータベース 140に登録させて (ステップ S61)、本動作を終了させる。
[0161] 以上のように本実施形態の話者認識装置 500は、認識の対象となる操作者毎に登 録変更可能なパスワードの発話音声成分の特徴量力 学習した HMMデータが予 め登録されたデータベース 140を有し、特定すべき操作者のパスワードの発話音声 成分の特徴量と当該 HMMデータとを比較することによって操作者を認識する話者 認識装置 500であって、パスワードの音声成分における特徴量から学習した HMM データをデータベース 140に登録する際に、登録すべきパスワードの音声成分にお ける特徴量を入力するために用いられるマイクロホン 110と、入力されたパスワードの 音声成分カゝら特徴量を抽出する特徴量抽出部 130と、抽出された特徴量より学習し て生成された HMMデータにおける特徴量と照合用の各 HMMデータにおける特徴 量とを比較し、当該抽出された特徴量より学習して生成された登録すべき HMMデ ータと当該照合用の各 HMMデータとの尤度をそれぞれ算出する尤度算出部 520と 、算出された各尤度が基準となる登録判定用閾値以下の場合に、生成された HMM データを用いてデータベース 140を更新するデータ生成部 510と、を備える構成を 有している。
[0162] この構成により、本実施形態の話者認識装置 500は、操作者が希望するパスワード の発話音声に基づく HMMデータを登録する際に、入力されたパスワードの発話音 声成分力 抽出された特徴量より学習して生成された HMMデータとデータベース 1 40に登録されている各 HMMデータとの尤度を算出し、当該算出された尤度が基準 となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の 特徴量より生成された HMMデータを用 、てデータベース 140を更新する。
[0163] したがって、本実施形態の話者認識装置 500は、第 1実施形態と同様に、操作者 の認識時に誤認識を生じさせやすい特徴量に基づく HMMデータなどのデータの登 録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供する ことができる。
[0164] また、本実施形態では、登録判定部 160において、登録が不許可と判断された場 合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判 定部 160において許可が為されない限り、登録を希望するノ スワードの再入力が指 示されるようになって 、るが、当該ノ スワードの再入力に回数の制限を設けるようにし てもよい。
[0165] この場合には、システム制御部 530は、パスワードの変更指示を行う毎に、算出さ れた最大尤度を ROMZRAM250に記憶し、予め定められた回数の再入力を行つ ても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の 記憶手段として機能する当該 ROMZRAM250に記憶された最大尤度のうち、最小 となる最大尤度のパスワードを選択し、データ生成部 510に、入力された発話音声の 特徴量に基づいて生成させた当該選択されたパスワードにおける HMMデータを用 いてデータベース 140を更新させるようになつている。また、この場合には、システム 制御部 530は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入 力を行わせるように表示部 170およびスピーカ 190を介して操作者に指示するように なっている。したがって、このように、パスワードの再入力を制限することによって、登 録処理時における操作者の負担を軽減させることができる。そして、この場合に、登 録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づい て、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処 理用閾値を変更するようになっている。例えば、この場合は、システム制御部 530は、 最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部 220に格納す るようになっている。
[0166] また、上述のように、ノ スワードの発話音声における入力を制限する点に代えて、 算出された最大尤度を ROMZRAM250に記憶するとともに、前回に入力されたパ スワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大き い場合に、前回に入力されたパスワードにおける発話音声に基づいて生成した HM Mデータを用いてデータベース 140を更新させるようにしてもよい。このように、パスヮ 一ドの再入力を所定の基準にて制限することによって、登録処理時における操作者 の負担を軽減させることができる。そして、この場合に、登録の対象となったパスヮー ドにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用 閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するように なっている。例えば、この場合は、システム制御部 530は、最大尤度より所定の値大 き 、認識処理用閾値を算出し、認識処理部 220に格納するようになって 、る。
[0167] なお、上記実施形態にお!、ては、生体情報を音声成分情報及び指紋情報として説 明したが、生体情報とは、顔画像、掌形画像、指画像、虹彩情報、静脈情報などの 生体から取得可能な個人を特定するために用いられる情報を含むものである。
[0168] なお、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例 示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構 成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的 範囲に包含される。
[0169] また、 2005年 3月 31日に出願された明細書、特許請求の範囲、図面、要約を含む 日本の特許出願(No.2005-101369)の全ての開示は、その全てを参照することよって 、ここに組み込まれる。

Claims

請求の範囲
[1] 認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情 報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合 用生体情報とを比較することによって操作者を認識する操作者認識装置であって、 前記生体情報を照合用生体情報として前記データベースに登録する際に、登録す べき生体情報を入力するために用いられる入力手段と、
前記入力手段に入力された生体情報に基づいて前記データベースに登録されて いる各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生 成手段と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成され た比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と 前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象 情報を用いて前記データベースを更新する更新手段と、
を備えることを特徴とする操作者認識装置。
[2] 請求項 1に記載の操作者認識装置にぉ 、て、
前記比較対象情報生成手段が、前記入力手段に入力された生体情報から前記比 較対象情報である特徴量を抽出して、
前記算出手段が、前記抽出された特徴量と各前記照合用生体情報における特徴 量とを比較し、当該抽出された特徴量と各前記照合用生体情報における特徴量との 尤度をそれぞれ算出して、
前記更新手段が、前記比較対象情報に基づいて前記照合用生体情報を生成し、 当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とす る操作者認識装置。
[3] 請求項 2に記載の操作者認識装置にぉ 、て、
前記算出された各尤度の少なくとも一の尤度が前記基準尤度より大きい場合に、前 記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情 報の再入力を告知する告知手段を更に備えることを特徴とする操作者認識装置。
[4] 請求項 3に記載の操作者認識装置にお 、て、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情 報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を 記憶する記憶手段と、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入 力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶 された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報 の特徴量力 生成された前記照合用生体情報を用いて前記データベースを更新す る第 2更新手段と、を更に備えることを特徴とする操作者認識装置。
[5] 請求項 3に記載の操作者認識装置にぉ 、て、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情 報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を 記憶する記憶手段と、
前記生体情報の再入力が行われた場合であって、前回に入力された生体情報に おける最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、 当該前回に入力された生体情報の特徴量から生成された前記照合用生体情報を用 いて前記データベースを更新する第 2更新手段と、を更に備えることを特徴とする操 作者認識装置。
[6] 請求項 2乃至 5の何れか一項に記載の操作者認識装置にぉ 、て、
前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該 入力された複数の同一の生体情報に基づいて生成される前記照合用生体情報が用
V、られて前記データベースが更新される場合に、
前記更新手段及び前記第 2更新手段が、前記入力された複数の同一の生体情報 力 抽出される各特徴量に基づいて一の前記照合用生体情報を生成し、当該生成 した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者 認識装置。
[7] 請求項 6に記載の操作者認識装置にぉ 、て、
前記比較対象情報生成手段が、前記入力手段に初回に入力された生体情報から 前記比較対象情報である特徴量を抽出して、
前記算出手段が、前記初回に入力された生体情報から抽出された特徴量と各前記 照合用生体情報における特徴量との各尤度をそれぞれ算出するとともに、
前記算出された初回に入力された生体情報に基づく各尤度が基準尤度以下の場 合に、
前記更新手段及び前記第 2更新手段が、前記初回に入力された生体情報と同一 の生体情報力 抽出される各特徴量に基づいて一の前記照合用生体情報を生成し て、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴 とする操作者認識装置。
[8] 請求項 1に記載の操作者認識装置にぉ 、て、
前記入力手段に入力された生体情報から特徴量を抽出する抽出手段を更に備え 前記比較対象情報生成手段が、前記抽出された特徴量に基づいて、前記比較対 象情報として前記照合用生体情報を生成して、
前記算出手段が、前記生成された照合用生体情報における特徴量と各前記照合 用生体情報における特徴量とを比較し、当該生成された照合用生体情報における特 徴量と各当該照合用生体情報における特徴量との尤度をそれぞれ算出して、 前記更新手段が、前記算出された各尤度が基準となる基準尤度以下の場合にの み、前記生成された照合用生体情報を用いて前記データベースを更新することを特 徴とする操作者認識装置。
[9] 請求項 8に記載の操作者認識装置にぉ 、て、
前記算出された各尤度の少なくとも一の尤度が前記基準尤度より大きい場合に、前 記操作者に対して、前記照合用生体情報を生成するために入力された生体情報と 異なる特徴量を有する当該生体情報の再入力を告知する告知手段を更に備えること を特徴とする操作者認識装置。
[10] 請求項 9に記載の操作者認識装置にぉ 、て、
前記入力された各生体情報に基づいて生成された各前記照合用生体情報を一時 的に記憶するとともに、当該照合用生体情報毎に前記基準尤度より大きい尤度のう ち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入 力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶 された各前記照合用生体情報における最大尤度のうち、最小となる最大尤度を有す る前記照合用生体情報を用いて前記データベースを更新する第 2更新手段と、を更 に備えることを特徴とする操作者認識装置。
[11] 請求項 9に記載の操作者認識装置において、
前記入力された各生体情報に基づいて生成された各前記照合用生体情報を一時 的に記憶するとともに、当該照合用生体情報毎に前記基準尤度より大きい尤度のう ち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
前記生体情報の再入力が行われた場合であって、前回に生成した前記照合用生 体情報における最大尤度より今回に生成した前記照合用生体情報における最大尤 度が大きい場合に、当該前回に生成した前記照合用生体情報を用いて前記データ ベースを更新する第 2更新手段と、を更に備えることを特徴とする操作者認識装置。
[12] 請求項 8乃至 11の何れか一項に記載の操作者認識装置において、
前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該 入力された複数の同一の生体情報に基づいて生成される前記照合用生体情報が用 V、られて前記データベースが更新される場合に、
前記抽出手段が、前記入力された複数の同一の生体情報における各特徴量を抽 出するとともに、
前記比較対象情報生成手段が、前記抽出された各特徴量に基づいて、一の前記 照合用生体情報を生成することを特徴とする操作者認識装置。
[13] 請求項 1乃至 12の何れか一項に記載の操作者認識装置において、
前記データベースには、前記操作者毎に所定のパスワードにおける音声成分の情 報を示す音声成分情報が前記照合用生体情報として登録されているとともに、 前記入力手段には、前記操作者が特定のパスワードを発話した際の音声成分情報 が前記生体情報として入力されることを特徴とする操作者認識装置。
[14] 請求項 1乃至 13の何れか一項に記載の操作者認識装置において、 前記データベースには、前記操作者毎に前記操作者の特定の指紋の情報を示す 指紋情報が前記照合用生体情報として複数登録されているとともに、
前記入力手段には、前記操作者の指紋情報が前記生体情報として入力されること を特徴とする操作者認識装置。
[15] 認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得 られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較 することによって操作者を認識する操作者認識方法であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力さ れた登録すべき生体情報を取得して、当該取得された生体情報に基づ!、て前記デ ータベースに登録されている各照合用生体情報と比較するための比較対象情報を 生成する比較対象情報生成工程と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成され た比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と 前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象 情報を用いて前記データベースを更新する更新工程と、
を備えることを特徴とする操作者認識方法。
[16] コンピュータによって、データベースに予め登録された認識の対象となる操作者毎 に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生 体情報とを比較して操作者を認識する操作者認識プログラムであって、
前記コンピュータを、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力さ れた登録すべき生体情報を取得して、当該取得された生体情報に基づ!、て前記デ ータベースに登録されている各照合用生体情報と比較するための比較対象情報を 生成する比較対象情報生成手段、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成され た比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、 前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象 情報を用いて前記データベースを更新する更新手段、 として機能させることを特徴とする操作者認識プログラム。
PCT/JP2006/305939 2005-03-31 2006-03-24 操作者認識装置、操作者認識方法、および、操作者認識プログラム WO2006109515A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007512487A JP4588069B2 (ja) 2005-03-31 2006-03-24 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US11/910,415 US7979718B2 (en) 2005-03-31 2006-03-24 Operator recognition device, operator recognition method and operator recognition program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005101369 2005-03-31
JP2005-101369 2005-03-31

Publications (1)

Publication Number Publication Date
WO2006109515A1 true WO2006109515A1 (ja) 2006-10-19

Family

ID=37086801

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/305939 WO2006109515A1 (ja) 2005-03-31 2006-03-24 操作者認識装置、操作者認識方法、および、操作者認識プログラム

Country Status (3)

Country Link
US (1) US7979718B2 (ja)
JP (1) JP4588069B2 (ja)
WO (1) WO2006109515A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286702A (ja) * 2009-06-12 2010-12-24 Nec Corp 話者照合装置、話者照合方法およびプログラム
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN103400376A (zh) * 2013-07-19 2013-11-20 南方医科大学 一种乳腺动态增强磁共振图像序列的配准方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8259923B2 (en) * 2007-02-28 2012-09-04 International Business Machines Corporation Implementing a contact center using open standards and non-proprietary components
US10332071B2 (en) 2005-12-08 2019-06-25 International Business Machines Corporation Solution for adding context to a text exchange modality during interactions with a composite services application
US11093898B2 (en) 2005-12-08 2021-08-17 International Business Machines Corporation Solution for adding context to a text exchange modality during interactions with a composite services application
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US8594305B2 (en) 2006-12-22 2013-11-26 International Business Machines Corporation Enhancing contact centers with dialog contracts
US9055150B2 (en) 2007-02-28 2015-06-09 International Business Machines Corporation Skills based routing in a standards based contact center using a presence server and expertise specific watchers
US20080205625A1 (en) * 2007-02-28 2008-08-28 International Business Machines Corporation Extending a standardized presence document to include contact center specific elements
US9247056B2 (en) * 2007-02-28 2016-01-26 International Business Machines Corporation Identifying contact center agents based upon biometric characteristics of an agent's speech
JP5185205B2 (ja) 2009-02-24 2013-04-17 浜松ホトニクス株式会社 半導体光検出素子
JP5185208B2 (ja) 2009-02-24 2013-04-17 浜松ホトニクス株式会社 フォトダイオード及びフォトダイオードアレイ
JP5185207B2 (ja) 2009-02-24 2013-04-17 浜松ホトニクス株式会社 フォトダイオードアレイ
WO2010116470A1 (ja) * 2009-03-30 2010-10-14 富士通株式会社 生体認証装置、生体認証方法、および記憶媒体
JP5474407B2 (ja) * 2009-05-27 2014-04-16 京セラ株式会社 通信装置、通信システムおよび通信プログラム
CN103680495B (zh) * 2012-09-26 2017-05-03 中国移动通信集团公司 语音识别模型训练方法和装置及语音识别终端
US9380077B2 (en) * 2013-08-08 2016-06-28 Iboss, Inc. Switching between networks
CN104468522B (zh) * 2014-11-07 2017-10-03 百度在线网络技术(北京)有限公司 一种声纹验证方法和装置
US9418296B1 (en) * 2015-03-17 2016-08-16 Netflix, Inc. Detecting segments of a video program
KR102365412B1 (ko) * 2015-10-13 2022-02-21 삼성전자주식회사 전자 장치 및 전자 장치에서의 지문 인증을 위한 방법
CN108632318B (zh) * 2017-03-21 2022-02-22 腾讯科技(深圳)有限公司 一种数据校验方法、数据发送方法、相关装置及系统
CN106960492B (zh) * 2017-04-28 2023-01-13 浙江维尔科技有限公司 一种电子控制开锁的系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57141700A (en) * 1981-02-26 1982-09-02 Mitsubishi Electric Corp Voice recognizer
JPH0310298A (ja) * 1989-06-08 1991-01-17 Oki Electric Ind Co Ltd 音声認識装置
JPH096387A (ja) * 1995-06-19 1997-01-10 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001195574A (ja) * 2000-01-14 2001-07-19 Ricoh Co Ltd 筆記者同定装置
JP2002297181A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63106798A (ja) * 1986-10-24 1988-05-11 株式会社東芝 個人認証装置
JPS63213897A (ja) * 1987-03-02 1988-09-06 株式会社リコー 話者認識装置における辞書更新方式
JP2510301B2 (ja) * 1989-11-16 1996-06-26 積水化学工業株式会社 話者認識システム
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
US6393139B1 (en) * 1999-02-23 2002-05-21 Xirlink, Inc. Sequence-encoded multiple biometric template security system
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP4280505B2 (ja) * 2003-01-20 2009-06-17 キヤノン株式会社 情報処理装置及び情報処理方法
JP4318475B2 (ja) 2003-03-27 2009-08-26 セコム株式会社 話者認証装置及び話者認証プログラム
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57141700A (en) * 1981-02-26 1982-09-02 Mitsubishi Electric Corp Voice recognizer
JPH0310298A (ja) * 1989-06-08 1991-01-17 Oki Electric Ind Co Ltd 音声認識装置
JPH096387A (ja) * 1995-06-19 1997-01-10 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001195574A (ja) * 2000-01-14 2001-07-19 Ricoh Co Ltd 筆記者同定装置
JP2002297181A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286702A (ja) * 2009-06-12 2010-12-24 Nec Corp 話者照合装置、話者照合方法およびプログラム
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102129860B (zh) * 2011-04-07 2012-07-04 南京邮电大学 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN103400376A (zh) * 2013-07-19 2013-11-20 南方医科大学 一种乳腺动态增强磁共振图像序列的配准方法
CN103400376B (zh) * 2013-07-19 2016-04-06 南方医科大学 一种乳腺动态增强磁共振图像序列的配准方法

Also Published As

Publication number Publication date
JP4588069B2 (ja) 2010-11-24
JPWO2006109515A1 (ja) 2008-10-23
US20090254757A1 (en) 2009-10-08
US7979718B2 (en) 2011-07-12

Similar Documents

Publication Publication Date Title
JP4588069B2 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
CN111566729B (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
US10476872B2 (en) Joint speaker authentication and key phrase identification
CA2549092C (en) System and method for providing improved claimant authentication
US8209174B2 (en) Speaker verification system
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
US20120143608A1 (en) Audio signal source verification system
CN109564759A (zh) 说话人识别
US9646613B2 (en) Methods and systems for splitting a digital signal
KR20190016536A (ko) 보이스 사용자 인터페이스
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
WO2005013263A1 (ja) 音声認証システム
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
TW202213326A (zh) 用於說話者驗證的廣義化負對數似然損失
WO2019228135A1 (zh) 匹配阈值的调整方法、装置、存储介质及电子设备
CN110544468A (zh) 应用唤醒方法、装置、存储介质及电子设备
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP2005512246A (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
US20230153815A1 (en) Methods and systems for training a machine learning model and authenticating a user with the model
EP4184355A1 (en) Methods and systems for training a machine learning model and authenticating a user with the model
JP2001350494A (ja) 照合装置及び照合方法
US11074329B2 (en) Authentication device and authentication method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2007512487

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11910415

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

122 Ep: pct application non-entry in european phase

Ref document number: 06729887

Country of ref document: EP

Kind code of ref document: A1