WO2007111169A1 - 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム - Google Patents

話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム Download PDF

Info

Publication number
WO2007111169A1
WO2007111169A1 PCT/JP2007/055433 JP2007055433W WO2007111169A1 WO 2007111169 A1 WO2007111169 A1 WO 2007111169A1 JP 2007055433 W JP2007055433 W JP 2007055433W WO 2007111169 A1 WO2007111169 A1 WO 2007111169A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
speaker model
registration
utterances
model
Prior art date
Application number
PCT/JP2007/055433
Other languages
English (en)
French (fr)
Inventor
Soichi Toyama
Original Assignee
Pioneer Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corporation filed Critical Pioneer Corporation
Priority to US12/293,943 priority Critical patent/US20090106025A1/en
Priority to JP2008507435A priority patent/JP4854732B2/ja
Publication of WO2007111169A1 publication Critical patent/WO2007111169A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Definitions

  • the present invention is provided in various computer devices such as a car navigation device, a net banking device, an auto-lock device, and a computer recognition device, and various electronic electric devices.
  • the present invention relates to a technical field of a speaker recognition system that performs speaker recognition, and in particular, a speaker model registration device and method in the system, and a computer program that causes a computer to function as such a speaker model registration device In the field of technology.
  • a text-fixed type or a text-dependent type in which uttered text used for recognition is registered in advance, and such registration is not necessary, and any text is recognized.
  • the text-dependent type has come into practical use, and various proposals have been made (see Patent Document 1).
  • Patent Document 1 Japanese Unexamined Patent Application Publication No. 2004-294755
  • the present invention has been made in view of the above-described problems, for example, and a speaker on which processing on a computer and operation by a user are relatively simple when registering text relating to speaker recognition.
  • a speaker model registration device and method in a recognition system a speaker recognition system provided with such a speaker model registration device, and a computer program for causing a computer to function as such a speaker model registration device Means to solve the problem
  • the speaker model registration apparatus in the speaker recognition system is a speaker model registration apparatus that registers a speaker model for speaker recognition in the speaker recognition system in order to solve the above-described problems.
  • a calculation unit that performs the verification of the speaker model for which the calculation has been performed, a verification unit that performs the acquired a utterance as a verification utterance, and the speaker model for which the verification has been performed, Registration means for registering a speaker model that satisfies a predetermined criterion as a speaker model for speaker recognition.
  • the registration is performed as follows in the speaker model registration stage in the speaker recognition system.
  • utterance means voice or speech information related to text uttered by a speaker as a user, which is used at any stage throughout the speaker recognition process.
  • the speaker model is calculated after the obtained n utterances are selected as registration utterances by a calculation means having, for example, a processor and a memory.
  • registration utterance means an utterance used for registration.
  • the utterance for registration need only be used for registration, and is not limited to the one used when valid registration is performed as a result.
  • the collation unit having a processor, a memory, and the like, for example, selects the utterance a times acquired by the acquisition unit as the collation utterance, and thus performs the calculation in this way. Speaker model matching is performed.
  • “verification utterance” means an utterance used as a reference for collation, that is, as a comparison target or comparison reference.
  • the collation utterance need only be used at least for collation, and is not limited to the one used when effective collation is performed as a result.
  • the collation utterance here which is not used for actual speaker recognition, is used at the registration stage.
  • the calculation means passively or actively selects the acquired n utterances as registration utterances
  • the verification means passively selects the acquired ⁇ utterances as verification utterances. Choose automatically or actively.
  • the "passive”, in accordance with a predetermined rule, for example, from the beginning to the ⁇ -th (e.g., the first three times) to select the utterance as registration utterance, for example ⁇ subsequent to the end of the ⁇ times This means that when the utterance (for example, only for the fourth time) is selected as the utterance for verification, there is no particular effect on which calculation means or verification means to select.
  • active means, for example, a calculation means when an utterance such as ⁇ times or oc times when a relatively good matching result is obtained is selected as a utterance for registration or an utterance for verification. In other words, it means that a selection is made with some selection action including systematic or trial-and-error action.
  • a speaker model whose collation result by the collation unit satisfies a predetermined standard is Registered as a model.
  • a speaker model whose matching result does not satisfy a predetermined standard is not registered as a speaker model for speaker recognition.
  • the registration means includes ⁇ (where ⁇ is 1 or more and OC or less) as the predetermined reference in the OC times. If it can be accepted as the speaker himself more than (integer) times, it is registered as a speaker model for speaker recognition.
  • the registration unit when it is possible to accept as the speaker himself j8 times or more in a times, the registration unit registers as a speaker model for speaker recognition. Conversely, if it is impossible to accept as the speaker himself more than ⁇ 8 times in a times, it will not be registered as a speaker model for speaker recognition by the registration means.
  • the determination of whether or not the result of the collation satisfies the predetermined standard may be performed by the registration unit or the collation unit. Therefore, the registration means can reliably register a speaker model with high reliability.
  • the registration means when the registration means does not register as a speaker model for speaker recognition, or the result of the comparison is If the predetermined standard is not satisfied! / ⁇ , the prompting means for discarding the speaker model for which the matching has been performed and prompting the acquisition means to acquire the utterance is further provided.
  • the registration unit when the registration unit does not register as a speaker model for speaker recognition, or when the result of collation does not satisfy a predetermined criterion, for example, a display device, a voice output device, a controller or a processor,
  • the prompting means having a memory or the like discards the verified speaker model, and then prompts the acquisition means to acquire the utterance.
  • the speaker who is the user is prompted to speak again through the display output on the display screen and the voice output in the sound field in front of the speaker model registration device. Therefore, it is possible to reliably register a speaker model with high reliability by the registration means while avoiding registration of a speaker model with low reliability.
  • the calculation means changes the selection method when selecting the registration utterance from the utterances acquired n + a times, and performs the calculation again.
  • the calculation unit acquires n + a times, that is, The speaker model is calculated again after changing the combination of ⁇ + ⁇ utterances selected as registration utterances. Then, even if noise is mixed in several times of utterances, it is possible to calculate and verify the speaker model based on the noise, etc. by changing the selection of the utterance for registration and starting over from the calculation of the speaker model. It is possible to reduce or eliminate adverse effects on the results.
  • the speaker model can be registered with high reliability.
  • the collation means performs the collation again by changing the selection method for selecting the middle utterance of the utterance acquired ⁇ + a times.
  • the registration unit when the registration unit does not register as a speaker model for speaker recognition or when the result of the verification does not satisfy the predetermined criterion, it is acquired n + a times by the verification unit, that is, Of the ⁇ + ⁇ utterances, the one selected as the utterance for verification is changed, and then verification is performed again. Then, suppose that noise etc. are mixed in the utterance of the number of times. However, by changing the way of selecting the verification utterance and re-examining the verification capability of the utterance, it is possible to reduce or eliminate the adverse effect of the noise on the verification result.
  • the calculation means selects the registration utterance from the utterances acquired n + a times.
  • the registration means calculates a plurality of corresponding speaker models having the best matching results among the plurality of speaker models calculated above. To do.
  • registration is performed from the utterances acquired n + a times, that is, ⁇ + ⁇ , by the calculation means.
  • Multiple combinations of speaker models are calculated after changing the combination of the utterances selected for use. Then, even if noise etc. are mixed in several times of utterances, by adopting the case where the calculation of the speaker model is executed without any problem by changing the method of selecting the registration utterance, It is possible to reduce or eliminate adverse effects on the results of calculation and verification of the person model. In this way, by excluding the utterance by the speaker at the time when noise was mixed or the utterance at the time when the utterance itself failed, the registration means A highly reliable speaker model can be registered.
  • the verification unit selects the verification utterance from the utterances acquired n + a times.
  • the registration unit performs the verification in a plurality of ways, and the registering unit determines whether the statistical value or at least one of the results of the verification performed in the plurality of ways satisfies a predetermined criterion.
  • a user model A user model.
  • collation is performed by the collating means from the utterances acquired n + a times, that is, from ⁇ + ⁇ existing utterances.
  • collation is performed after changing what is selected as the utterance. Then, even if there are noises etc. in the utterance several times, the matching can be performed without any problem by changing the way to select the utterance for verification. By adopting the case where it is performed, it is possible to reduce or eliminate the adverse effect on the result of matching due to the noise or the like.
  • the registration means can effectively avoid the repetition of processing and operation related to acquisition of the utterance.
  • a highly reliable speaker model can be registered.
  • a speaker recognition system is based on the above-described speaker model registration device (including various aspects thereof) and the registered speaker model. Recognizing means for recognizing all utterances by an arbitrary speaker.
  • the speaker model registration device according to the present invention described above is provided, it is extremely reliable through a relatively simple registration operation or registration operation. High speaker recognition is possible.
  • another speaker recognition system includes the above-described speaker model registration device (including various aspects thereof), and the verification unit includes the registration unit. Based on the speaker model, it also functions as a recognition means for recognizing all utterances by any speaker.
  • the speaker model registration device according to the present invention since the speaker model registration device according to the present invention described above is provided, it is extremely reliable through a relatively simple registration operation or registration operation. High speaker recognition is possible. Moreover, since the collation means used for registration also serves as the recognition means used for recognition, the system configuration can be simplified, which is extremely advantageous.
  • the recognition means has a similarity based on the registered speaker model with respect to the utterance by the arbitrary speaker. Based on this, the recognition is performed.
  • the speaker model registration method in the speaker recognition system solves the above problem. Therefore, a speaker model registration method for registering a speaker model for speaker recognition in the speaker recognition system, where utterance is n + a (where n is an integer of 2 or more, ⁇ is 1 or more)
  • a matching step in which the a-uttered utterance is used as a matching utterance and a speaker model for which the matching result satisfies a predetermined criterion among the speaker models for which the matching is performed. As a registration process.
  • speaker model registration method of the present invention can adopt various aspects similar to the various aspects of the speaker model registration apparatus of the present invention described above.
  • a computer program provides a computer provided in a speaker model registration apparatus for registering a speaker model for speaker recognition in a speaker recognition system.
  • a (where n is an integer equal to or greater than 2 and ⁇ is an integer equal to or greater than 1) acquisition means; and a calculation means for calculating a speaker model using the acquired ⁇ utterances as registration utterances;
  • a collation means for collating the calculated speaker model with the obtained ⁇ utterances as a collation utterance, and a result of the collation among the speaker models subjected to the collation. That satisfy the predetermined criteria function as registration means for registering as a speaker model for speaker recognition.
  • the computer program of the present invention is read from a recording medium such as a CD-ROM or DVD-ROM storing the computer program into a computer provided in the speaker model registration device and executed. Or if the computer program is executed after being downloaded via communication means,
  • the speaker model registration apparatus of the present invention described above can be constructed relatively easily. As a result, as in the case of the speaker model registration device of the present invention described above, repeated acquisition of utterances due to noise mixed in the utterances by the speakers or failure of the utterances themselves by the speakers is possible. Even if it works well all the time, the situation where repeated registration operations are performed can be avoided very efficiently, or registration of an unreliable speaker model can be avoided very reliably.
  • a computer program product in a computer-readable medium for registering a speaker model for speaker recognition in a speaker recognition system.
  • the acquisition means for acquiring the utterance n + a (where n is an integer of 2 or more and ⁇ is an integer of 1 or more);
  • the calculation means for calculating the speaker model and the verification of the speaker model in which the calculation was performed are performed as described above (the X utterances are used for verification).
  • the collation means performed as an utterance and the speaker models subjected to the collation those that satisfy the predetermined criteria are made to function as registration means for registering as the speaker model for speaker recognition.
  • the computer program product of the present invention if the computer program product is read into a computer from a recording medium such as a ROM, CD-ROM, DVD-ROM, or hard disk storing the computer program product, or
  • a recording medium such as a ROM, CD-ROM, DVD-ROM, or hard disk storing the computer program product
  • the computer program product which is a transmission wave
  • the computer program product which is a transmission wave
  • the computer program product may be configured by a computer readable code (or computer readable instruction) that functions as the above-described speaker model registration device of the present invention.
  • the speaker model registration apparatus includes a calculation unit, a verification unit, and a registration unit.
  • a calculation step Since it has a process and a registration process, the situation where the registration operation is repeated is extremely effective. It is possible to avoid it very efficiently or to register a speaker model with low reliability.
  • the speaker recognition system of the present invention since the speaker model registration device of the present invention is provided, it is possible to perform speaker recognition with extremely high reliability through a relatively simple registration operation or registration operation.
  • the computer program of the present invention the computer functions as a calculation means, a collation means, and a registration means, so that the above-described speaker model registration apparatus of the present invention can be constructed relatively easily.
  • FIG. 1 is a block diagram conceptually showing the basic structure of a speaker model registration device in a speaker recognition system according to a first example of the present invention.
  • FIG. 2 is a block diagram conceptually showing the basic structure of a speaker model registration device in the speaker recognition system in the second example.
  • FIG. 3 is a flowchart showing an operation process of the speaker model registration device in the speaker recognition system according to the second embodiment.
  • FIG. 4 is a flowchart showing an operation process of the speaker model registration device in the speaker recognition system according to the third embodiment.
  • FIG. 5 is a flowchart showing an operation process of the speaker model registration device in the speaker recognition system according to the fourth embodiment.
  • FIG. 6 is a flowchart showing an operation process of the speaker model registration device in the speaker recognition system according to the fifth embodiment.
  • FIG. 7 is a flowchart showing an operation process at the time of speaker recognition in the speaker recognition system according to the sixth embodiment. Explanation of symbols
  • FIG. 1 relates to the first embodiment of the present invention.
  • FIG. 3 is a block diagram conceptually showing the basic structure of a speaker model registration device in the speaker recognition system.
  • the speaker model registration device 10 in the speaker recognition system 1 includes an acquisition unit 13 as an example of an “acquisition unit” according to the present invention and a “calculation” according to the present invention.
  • a calculation unit 20 as an example of a “means”, a verification unit 30 as an example of a “collation unit” and a “recognition unit” according to the present invention, and a registration unit as an example of a “registration unit” according to the present invention.
  • 40 and a reminder 50 as an example of the “reminder” according to the present invention.
  • the acquisition unit 13 includes a voice input device such as a microphone, for example.
  • a voice input device such as a microphone
  • the user 12 for example, Mr. Suzuki
  • a keyword for example, " Hiratake sesame ”
  • n is the number of utterances for registration, that is, the number of utterances required to calculate and register the speaker model 25
  • is the number of utterances for verification, that is, the calculated utterances. This is the number of utterances required to check whether the person model 25 is appropriate or not.
  • n 3 that is, a speaker model 25 (for example, Suzuki model) is calculated based on three utterances
  • 1, that is, the speaker model 25 is based on one matching utterance. Matched.
  • the calculation unit 20 is logically constructed according to a program in a computer having a processor, a memory, and the like, for example, and is based on ⁇ utterances of the utterances acquired by the acquisition unit 13. Then, the speaker model 25 that captures the characteristics when the user 12 (Mr. Suzuki) utters the keyword is calculated.
  • the collation unit 30 is logically constructed according to a program in a computer having a processor, a memory, and the like, for example, and collates ⁇ utterances uttered by user 12 (Mr. Suzuki).
  • the matching utterance is compared with the calculated speaker model 25.
  • the user 12 (Mr. Suzuki) collates a single utterance for collation with the speaker model 25 calculated.
  • the collation unit 30 may function as a recognition unit.
  • the registration unit 40 is logically constructed according to a program in a computer having a processor, a memory, and the like, for example.
  • the verification unit 30 As a result of the collation by means of the above, a speaker model 25 for speaker recognition, which satisfies the predetermined criteria, is used as a speaker model database 45 built in a large-scale storage device such as a hard disk device or an optical disk device provided in a computer.
  • a speaker model database 45 built in a large-scale storage device such as a hard disk device or an optical disk device provided in a computer.
  • the user 12 Mr. Suzuki
  • the speaker model 25 is verified to be appropriate or function properly, and is registered in the speaker model database 45.
  • the other person for example, Sato's utterance instead of Suzuki, is used as a collation utterance as negative control, and it is recognized that he is not the person! Can be registered.
  • the reminder unit 50 determines the speaker calculated by the calculation unit 20.
  • the model 25 or the user 12 prompts the user 12 for the registration utterance again because there is a problem or inappropriateness in the utterance that is the basis of the speaker model 25. For example, a prompt message such as “Please speak again” is displayed on the display, or a voice is output. And Until it is no longer prompted by the prompting unit 50, in other words, until the speaker model 25 for speaker recognition is registered, processing based on the above configuration is performed.
  • the following recognition unit 30 may be further included.
  • the recognition unit 30 is logically constructed according to a program in a computer having a processor, a memory, and the like, for example.
  • an arbitrary speaker here Speaker or user 12 is not limited to the person who registered speaker model 25. (For example, a third party who attempts to impersonate Mr. Suzuki) and registered speaker model 25
  • collating it is recognized whether or not an arbitrary speaker seeking recognition is the speaker of the registered speaker model 25. Specifically, as a result of collation, if the degree of similarity meets a predetermined standard, it recognizes that any speaker seeking recognition is a speaker of the registered speaker model 25 and does not satisfy it. Recognizes that he is not a speaker.
  • the speaker model 25 for speaker recognition is preferably registered.
  • FIG. 2 is a block diagram conceptually showing the basic structure of the speaker model registration apparatus in the speaker recognition system according to the second embodiment. 2 and 3, the same reference numerals are given to the same components as those of the first embodiment shown in FIG. 1, and the description thereof will be omitted as appropriate.
  • the microphone 132 is used when the user 2 utters a keyword n times. It is a device that converts each story into an electrical signal and inputs it to the speaker recognition system 1.
  • the voice partial extraction unit 142 is logically constructed in accordance with a program in a computer having a processor, a memory, and the like, for example, and is a general that uses a power difference between background noise and a voice utterance section. This is a computing device that cuts out the utterance voice portion when the keyword is also uttered by the electric signal power of the converted utterance by the voice segment detection method or the like.
  • the feature amount calculation unit 201 is logically constructed according to a program in a computer having a processor, a memory, and the like, for example, and converts an inputted speech voice portion into a feature amount.
  • a feature amount is an arithmetic device that is converted by MFCC (Mel Frequency Cepstrum Coefficient: MFCC), LPC (Linear Predictive Coding: LPC) cepstrum, or the like. If there are a plurality of feature quantities, a part (for example, n times) is transmitted to the speaker model calculation unit 202, and another part (for example, ex times) is transmitted to the verification / registration unit 41.
  • MFCC Mobile Frequency Cepstrum Coefficient
  • LPC Linear Predictive Coding
  • the speaker model calculation unit 202 is logically constructed according to a program in a computer including a processor, a memory, and the like.
  • n of the feature amounts calculated by the feature amount calculation unit 201 is n.
  • It is an arithmetic unit that uses a batch to calculate and learn a speaker model used for matching.
  • the speaker model is represented as a speaker template in various speech recognition algorithms such as speaker HMM (Hidden Markov Model: HMM) and DP (Dynamic Programming: DP) matching.
  • the matching unit 30 is an arithmetic device that compares the speaker model calculated by the speaker model calculating unit 202 with the feature quantity for matching and calculates the similarity. is there. Note that the likelihood or the reciprocal of the distance scale is used as the similarity. When the reciprocal of the distance scale is used as the similarity, since it is the reciprocal, it is necessary to appropriately change the control method. Specifically, the direction of the inequality sign when comparing with the predetermined threshold value in the verification and registration unit 41 is reversed.
  • the verification / registration unit 41 is logically constructed according to a program in a computer having a processor, a memory, and the like, for example, and compares the similarity calculated by the collation unit 30 with a predetermined threshold value.
  • the calculated speaker model (regarding whether or not the feature quantity for each of the X matches is recognized as the principal, in other words, the calculated speaker model is registered in the speaker model database 45.
  • the verification unit 41 verifies the speaker model verified to be registered, and the registration unit 41 stores the speaker model data. Register with Base 45.
  • the display screen 52 is, for example, a liquid crystal display or the like, and is a display device that displays a verification result or a prompt notification message.
  • FIG. 3 relates to the second embodiment.
  • FIG. 5 is a flowchart showing an operation process of the speaker model registration device in the speaker recognition system.
  • n + a utterances are input to the speaker model registration device 10 via the microphone 132 (step S101).
  • utterances other than keywords such as “Eidodo” should be avoided by teaching them by displaying text on the screen or using guidance voices.
  • the speech part of the input n + a utterances is extracted by the speech part extraction unit 142 (step S102).
  • a user's speaker model is calculated and learned using the speech portion related to the n + a utterances (step S103). Specifically, the utterance voice part related to the transmitted n + a utterances is converted into each feature quantity by the feature quantity calculation unit 201, and among the feature quantities related to the n + a utterances, n times The feature amount related to the utterance (registration utterance) is transmitted to the speaker model calculation unit 202, and the user's utterance model is calculated. The feature quantities related to the remaining oc utterances (synchronization utterances) are transmitted to the verification unit 30 for verification.
  • the calculated speaker model power matching unit 30 of the user collates with the feature amount related to the a-time collation utterance (step S104). For example, the degree of similarity between the calculated user's speaker model and the feature quantity related to the ⁇ collation utterances is calculated.
  • the verification result of the similarity between the user's speaker model calculated in this way and each verification utterance is aggregated by the verification 'registration unit 41 (step S105), and this aggregated result is the registration judgment criterion.
  • it is determined whether or not the calculated speaker model of the user can be registered (step S106). For example, it is calculated from ⁇ matching utterances. It is determined whether or not the user's speaker model has been accepted as the person himself / herself is 1/3 or less if the number is 3 or more. Specifically, it is determined whether or not the number of times the similarity with the calculated speaker model of the user exceeds a predetermined similarity threshold among ⁇ utterances for comparison is ⁇ or more.
  • the “predetermined similarity threshold” is a similarity corresponding to each registration determination criterion, and the value may have a margin. However, if the margin width is too large, humans other than the user will recognize that they are the users themselves. Conversely, if the margin width is too small, even the users themselves will be recognized depending on their physical condition. Can happen. Therefore, the “predetermined similarity threshold” should be determined by experimentation or simulation as a similarity that allows the user's utterance and the non-user's utterance to be practically sufficiently distinguished, taking into account the above matters!
  • step S106 when it is determined that the total result satisfies the registration determination criteria (step S106: Yes), the verification 'registration unit 41 sets the calculated speaker model of the user based on the speaker model data. (Step S1071), the user is notified via the display screen 52 (step S1081), and the registration is completed.
  • step S 106 determines whether the above-mentioned total result satisfies the registration criterion. If it is not determined that the above-mentioned total result satisfies the registration criterion (step S 106: No), the user's speaker model calculated by the reminder 50 is discarded (step S 1072). A notification for prompting the user to re-register is given via the display screen 52 (step S1082). The above process is repeated until the speaker model is registered.
  • the speaker model registration device 10 in the speaker recognition system 1 operates as shown in FIG. 3, the speaker model is appropriately registered.
  • the utterance for registration 'verification utterance is acquired first, and the speaker recognition performance of the speaker model learned by the verification utterance is verified after learning the model with the registration utterance. If the keyword text is entered in, the user will not be forced to perform any extra operations, and even if noise is mixed in the first utterance, the user or administrator will not have to go through human tasks such as confirmation. This is very convenient in practice.
  • Fig. 4 12 is a flowchart showing an operation process of the speaker model registration device in the speaker recognition system according to the third embodiment.
  • FIG. 4 the same reference numerals are given to the same components or processes as those according to the above drawings, and the description thereof will be omitted as appropriate.
  • the flowchart in FIG. 4 differs from the flowchart in FIG. 3 mainly in the power processing in which the speaker model is discarded (step S1072).
  • step S1072 when the speaker model is discarded (step S1072), it is not immediately prompted to re-utter, and it is confirmed whether or not the choice of n utterance / ⁇ utterance is exhausted (step S3073). For example, you can decide multiple ways to select in advance, and check whether you have already tried all of the ways to choose all of them.
  • step S3073 Yes
  • the user is notified of re-registration via the display screen 52 (step S1082).
  • step S1082 the user is notified of re-registration via the display screen 52 (step S1082).
  • step S3073 the speaker model is changed again by changing the way of selecting n registration utterances or changing the way of selecting OC utterances.
  • the speaker model registration device 10 in the speaker recognition system 1 As described above with reference to FIG. 4 in addition to FIGS. 2 and 3, according to the speaker model registration device 10 in the speaker recognition system 1 according to the present embodiment, the speaker model is appropriate. Of course, since the utterances already entered are reused, the burden on the user is reduced, which is very advantageous in practice.
  • FIG. 5 is a flowchart showing the operation process of the speaker model registration device in the speaker recognition system according to the fourth embodiment.
  • the same reference numerals are given to the same components or processes as those according to the above drawings, and the description thereof will be omitted as appropriate.
  • the flowchart in FIG. 5 is different from the flowchart in FIG. 3 mainly because the utterance voice portion of the input utterance is extracted (step S102) and whether the force also clears the registration criterion. This is the process up to (step SI 06).
  • a plurality of user speaker models are calculated and learned using the speech portion related to the n + a utterances (step S403).
  • the calculated user's plural speaker model power matching units 30 collate with the feature quantities related to the a-time collation utterances (step S404).
  • the verification results of the similarity between the user's multiple speaker models calculated in this way and the respective verification utterances are tabulated by the verification and registration unit 41 (step S405), and the multiple types of stories are recorded. Is selected from among the person models (step S406). For example, the speaker model having the highest average similarity degree with each of the matching utterances that can be recognized as the person in question is selected as the best matching result. At this time, instead of the average value, another scale such as the maximum value, the minimum value, or the median value may be determined in advance and adopted.
  • step S106 it is determined whether or not the aggregation result relating to the speaker model with the best matching result satisfies the registration determination criteria.
  • a plurality of speaker models can be stored. Since the best one is selected, for example, the utterance by the speaker at the time when noise is mixed or the utterance at the time when the utterance itself fails is excluded, and the process and operation related to the acquisition of the utterance are efficiently repeated.
  • the verification and registration unit 41 can select and register a speaker model with high reliability.
  • FIG. 6 is a flowchart showing the operation process of the speaker model registration device in the speaker recognition system according to the fifth embodiment.
  • FIG. 6 the same components or processes as those in the above drawings are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the flowchart of FIG. 6 differs from the flowchart of FIG. 3 mainly by verifying the speaker model, and when the speaker model satisfies the registration criteria, it is recognized as the person based on the speaker model. Instead of the ⁇ utterances made, the speaker mode is again based on ⁇ + ⁇ registration utterances. It is a point to learn and register Dell.
  • step S105 the verification results of the similarity between the calculated user's speaker model and each verification utterance are aggregated by the verification 'registration unit 41 (step S105). Assume that the decision is made (step S 106: Yes).
  • the speaker model is re-calculated by the speaker model calculation unit 202 by further adding the y utterances recognized as the person's own to the n registration utterances (step S5071), Finally, a speaker model based on these ⁇ + ⁇ utterances is registered.
  • adaptive processing may be performed on ⁇ utterances.
  • the speaker model calculation unit 202 is highly reliable and can perform speaker model calculation or adaptive processing.
  • FIG. 7 is a flowchart showing an operation process at the time of speaker recognition in the speaker recognition system according to the sixth embodiment.
  • the user that is, the speaker
  • the utterance voice at this time is recorded by the microphone 132 (step S601).
  • a voice utterance section is extracted by the extraction unit 142 (step S602).
  • the extracted speech utterance section is converted into a feature value by the feature value calculation unit 201 and sent to the matching unit (step S603).
  • the collation unit 30 collates the sent feature quantity with each speaker model registered by the speaker model registration device 10 according to the above-described embodiment, and each speaker model is checked. Correspondingly, the similarity is calculated (step S604). Among them, the highest similarity (hereinafter, The speaker corresponding to the speaker model with the high similarity is also selected as a recognition result candidate (step S605).
  • step S606 the maximum similarity is compared with a threshold set in advance so that the speech of another person can be rejected with sufficient accuracy. If this maximum similarity is higher than the threshold (step S606: Yes) It is determined that the speaker is the corresponding speaker (step S6071), and the result is output to the display screen 52 (step S6081).
  • step S606 if the maximum similarity is lower than the threshold (step S606: No), the recognition result candidate is not recognized as a speaker, and the speaker is rejected (step S6072), and the recognition failure screen is displayed. Is displayed (step S6082).
  • the speaker model to be verified is narrowed down to one by declaring who he is in advance by speaking or by keyboard input.
  • the similarity may be obtained by comparing the above, and it may be determined whether the speaker is recognized or rejected by comparing with a threshold value.
  • the speaker recognition system 1 includes the speaker model registration device 10 according to the above-described embodiment. Therefore, a relatively simple registration operation or! ⁇ is highly reliable through the registration operation! Speaker recognition is possible.
  • the operation process shown in the above embodiment is to operate the speaker recognition system based on the speaker model registration method in the speaker recognition system 1 including an acquisition process, a calculation process, a collation process, and a registration process. It may be realized by. Alternatively, it may be realized by causing a computer provided in the speaker recognition system 1 having an acquisition means, a calculation means, a verification means, and a registration means to read the computer program.
  • Speaker model registration apparatus and method in speaker recognition system are installed in various computer devices and various electronic and electrical devices such as car navigation devices, net banking devices, auto-lock devices, computer recognition devices, etc., and speaker recognition is performed based on the utterances of the speaker who is the user. It can be used for a speaker model registration device in a speaker recognition system that performs the above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

 話者認識システム(1)における話者モデル登録装置(10)は、話者認識システムにおいて話者認識用の話者モデルを登録する。話者モデル登録装置は、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段(13)と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段(20)と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段(30)と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段(40)とを備える。

Description

明 細 書
話者認識システムにおける話者モデル登録装置及び方法、並びにコンビ ユータプログラム 技術分野
[0001] 本発明は、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンビュ ータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのュ 一ザである話者の発話に基!ヽて、話者認識を行う話者認識システムの技術分野に関 し、特に該システムにおける話者モデル登録装置及び方法、並びにコンピュータをそ のような話者モデル登録装置として機能させるコンピュータプログラムの技術分野に 関する。
背景技術
[0002] この種の話者認識システムには、認識に用いられる発話されたテキストが予め登録 されているテキスト固定型或いはテキスト依存型と、このような登録が不要であり任意 のテキストについて認識を行うテキスト独立型或いは非テキスト依存型と、認識の際 或いは都度に認識にテキストが指定されるテキスト指定型の三種類がある。これらの うちテキスト依存型については実用化の域に達しており、各種の提案がなされている (特許文献 1参照)。
[0003] 特許文献 1:特開 2004— 294755号公報
発明の開示
発明が解決しょうとする課題
[0004] し力しながら、例えば前述の特許文献 1に開示されている技術によれば、登録の際 に、登録用の発話に係るテキストをキーボード等により入力しなければならず、使い 勝手が良いとはいえない。更に、登録の都度に、新たに登録しょうとする発話情報と 、何らかの照合情報とを照合して、それら両者間の類似性の高低に応じて、再度発 話させるか、その発話を登録するかを選択的に実行することを要する。このため、そ の処理は複雑化し、ユーザによる操作も煩雑ィ匕してしまうという技術的問題点がある [0005] 力!]えて、いずれの従来技術においても、登録の段階で、発話に外部の雑音が混入 したり、話者が意図に反して再現性なく発話 (例えば声が裏返ったり震えたり)してし まった際に、登録された発話モデルが信頼性のないものとなり、最終的な話者認識 の精度も無視し得ない程に落ちてしまう。或いは、これを回避するために登録動作に おいて多数回のやり直しが求められたることで、登録自体が実践的に困難となるとい う問題点もある。
[0006] 本発明は、例えば上述した問題点に鑑みてなされたものであり、話者認識に係るテ キストを登録する際における、コンピュータ上の処理及びユーザによる操作が比較的 簡単である話者認識システムにおける話者モデル登録装置及び方法、このような話 者モデル登録装置を備えた話者認識システム、並びにコンピュータをこのような話者 モデル登録装置として機能させるコンピュータプログラムを提供することを課題とする 課題を解決するための手段
[0007] (話者認識システムにおける話者モデル登録装置)
本発明に係る、話者認識システムにおける話者モデル登録装置は上記課題を解決 するために、話者認識システムにお ヽて話者認識用の話者モデルを登録する話者 モデル登録装置であって、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数 )回取得する取得手段と、該取得された η回の発話を登録用発話として、話者モデル の算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得された a回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのう ち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして 登録する登録手段とを備える。
[0008] 本発明に係る、話者認識システムにおける話者モデル登録装置によれば、話者認 識システムにおける話者モデルの登録段階で、次のように登録がなされる。
[0009] 即ちその動作時には、先ず、例えばマイクロホン、プロセッサ、メモリ等を有してなる 取得手段によって、例えばマイクロホンからの音声信号のうち話者に係る音声部分を 抽出する音声抽出や更にその中からの特徴量の算出など、発話の取得が行われる。 ここで特に、典型的には話者に同一テキストを繰り返し発話させるなどによって、この ような発話の取得が n+ a回行われる。ここに「発話」とは、話者認識の全過程を通じ ていずれかの段階で用いられる、ユーザたる話者により発話されたテキストに係る音 声或いは音声情報を意味する。
[0010] すると、例えばプロセッサ、メモリ等を有してなる算出手段によって、該取得された n 回の発話が登録用発話として選ばれた上で、話者モデルの算出が行われる。ここ〖こ「 登録用発話」とは、発話のうち登録に用いられるものを意味する。登録用発話は、少 なくとも登録用に用いられていれば足り、結果的に有効な登録が行われた際に用い られたものには限られない。
[0011] 続いて、例えばプロセッサ、メモリ等を有してなる照合手段によって、取得手段によ り取得された a回の発話が照合用発話として選ばれた上で、このように算出が行わ れた話者モデルの照合が行われる。ここに「照合用発話」とは、発話のうち照合に基 準として、即ち比較対象或いは比較基準として、用いられるものを意味する。照合用 発話は、少なくとも照合用に用いられていれば足り、結果的に有効な照合が行われ た際に用いられたものには限られない。特に本発明では、従来、実際の話者認識の 際に用いられるのではなぐここでの照合用発話は登録の段階で用いられている。
[0012] 尚、算出手段は、取得された n回の発話を、登録用発話として、受動的又は能動的 に選び、照合手段は、取得された α回の発話を、照合用発話として、受動的又は能 動的に選ぶ。ここに「受動的」とは、予め決められた規則に従って、例えば最初から η 回目までの (例えば、最初の 3回の)発話を登録用発話として選択し、例えば η回目 以降最後までを α回として、その (例えば、 4回目のみの)発話を照合用発話として選 択するといつた、特に、算出手段や照合手段がどれを選ぶかについて何ら能動的に 作用しない場合を意味する。逆に「能動的」とは、例えば結果として相対的に良い照 合の結果が得られる際の η回や oc回などの発話を登録用発話や照合用発話として選 択するといつた、算出手段や照合手段がどれを選ぶかについて能動的に作用する 場合、言い換えれば、系統立った或いは試行錯誤的な動作を含む何らかの選択動 作を伴って選択を行う場合を意味する。
[0013] その後、例えばプロセッサ、メモリ、データベース等を有してなる登録手段によって 、照合手段による照合の結果が所定基準を満たす話者モデルが、話者認識用の話 者モデルとして登録される。言い換えれば、該照合の結果が所定基準を満たさない 話者モデルにっ 、ては、話者認識用の話者モデルとして登録されることはな 、。
[0014] 以上の結果、本発明によれば、実践的にはよくあるように、話者による発話に混入し た雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取 得が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極 めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて 確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザ たる話者による発話に基づいた比較的簡単な操作によって、最終的には、当該話者 認識システムにお ヽて極めて信頼性の高 、話者認識が可能となる。
[0015] 本発明に係る、話者認識システムにおける話者モデル登録装置の一態様では、前 記登録手段は、前記所定基準として、前記 OC回のうちに β (但し、 βは 1以上 OC以下 の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用 の話者モデルとして登録する。
[0016] この態様によれば、 a回のうちに j8回以上、話者本人として受け入れることが可能 な場合に、登録手段によって、話者認識用の話者モデルとして登録される。逆に、 a 回のうちに ι8回以上、話者本人として受け入れることが不可能な場合に、登録手段 によって、話者認識用の話者モデルとして登録されることはない。ここでの照合の結 果が所定基準を満たす力否かの判断は、登録手段が行ってもよいし、照合手段が行 つてもよい。従って、登録手段によって、信頼性の高い話者モデルの登録を確実に 行える。
[0017] 本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、 前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照 合の結果が前記所定基準を満たさな!/ヽ場合に、前記照合が行われた話者モデルを 破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備える。
[0018] この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に 又は照合の結果が所定基準を満たさない場合に、例えば表示装置、音声出力装置 、コントローラ或いはプロセッサ、メモリ等を有してなる催促手段によって、照合が行わ れた話者モデルが破棄された上で、取得手段による発話の取得が催促される。例え ば、表示画面上における表示出力や話者モデル登録装置前の音場における音声出 力を通じて、ユーザである話者に対して、再度の発話が促される。従って、信頼性の 低い話者モデルの登録を回避しつつ、登録手段によって、信頼性の高い話者モデ ルの登録を確実に行える。
[0019] 或 ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様 では、前記登録手段が前記話者認識用の話者モデルとして登録しな ヽ場合に又は 前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算 出を再度行う。
[0020] この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に 又は照合の結果が所定基準を満たさない場合に、算出手段によって、 n+ a回取得 された、即ち η+ α個存在する発話の中から、登録用発話として選ばれるものの組み 合わせが変えられた上で、再度話者モデルの算出が行われる。すると、仮に、何回 目かの発話に雑音等が混入して 、ても、登録用発話の選び方を変えて話者モデル の算出からやり直すことで、該雑音等による話者モデルの算出や照合の結果に対す る悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回に おける話者による発話や、発話自体が失敗した回における発話を除外して、発話の 取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性 の高 、話者モデルの登録を行える。
[0021] 或 ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様 では、前記登録手段が前記話者認識用の話者モデルとして登録しな ヽ場合に又は 前記照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記 η+ a回取得された発話の中力 前記照合用発話を選ぶ際の選び方を変えて、前記照 合を再度行う。
[0022] この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に 又は照合の結果が所定基準を満たさない場合に、照合手段によって、 n+ a回取得 された、即ち η+ α個存在する発話の中から、照合用発話として選ばれるものが変え られた上で、再度照合が行われる。すると、仮に、何回目かの発話に雑音等が混入し ていても、照合用発話の選び方を変えて発話の照合力 やり直すことで、該雑音等 による照合の結果に対する悪影響を低下或いは除外することが可能となる。このよう に、雑音が混入した回における話者による発話や、発話自体が失敗した回における 発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登 録手段によって、信頼性の高!、話者モデルの登録を行える。
[0023] 或 ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様 では、前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を 選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、前記登録手段は、前 記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最 もよいものを登録する。
[0024] この態様によれば、登録の成否や照合の結果の如何を問わずに、算出手段によつ て、 n+ a回取得された、即ち η+ α個存在する発話の中から、登録用発話として選 ばれるものの組み合わせが変えられた上で、複数通りの話者モデルの算出が行われ る。すると、仮に、何回目かの発話に雑音等が混入していても、登録用発話の選び方 を変えて話者モデルの算出が問題なく実行された場合を採用することで、該雑音等 による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外すること が可能となる。このように、雑音が混入した回における話者による発話や、発話自体 が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを 効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。
[0025] 或 ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様 では、前記照合手段は、前記 n+ a回取得された発話の中から前記照合用発話を 選ぶ際の選び方を変えて、前記照合を複数通り行い、前記登録手段は、前記複数 通り行われた前記照合の結果の統計値又は少なくとも一つが所定基準を満たす場 合に、前記照合が行われた話者モデルを登録する。
[0026] この態様によれば、登録の成否や照合の結果の如何を問わずに、照合手段によつ て、 n+ a回取得された、即ち η+ α個存在する発話の中から、照合用発話として選 ばれるものが変えられた上で、複数通りの照合が行われる。すると、仮に、何回目か の発話に雑音等が混入していても、照合用発話の選び方を変えて照合が問題なく実 行された場合を採用することで、該雑音等による照合の結果に対する悪影響を低下 或いは除外することが可能となる。このように、雑音が混入した回における話者による 発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や 操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデル の登録を行える。
[0027] (話者認識システム)
本発明に係る、一の話者認識システムは上記課題を解決するために、上述した話 者モデル登録装置 (但し、その各種態様を含む)と、前記登録された話者モデルに 基 、て、任意の話者による発話にっ 、ての認識を行う認識手段とを備える。
[0028] 本発明に係る、一の話者認識システムによれば、上述した本発明に係る話者モデ ル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて 信頼性の高 、話者認識が可能となる。
[0029] 本発明に係る、他の話者認識システムは上記課題を解決するために、上述した話 者モデル登録装置 (但し、その各種態様を含む)を備え、前記照合手段は、前記登 録された話者モデルに基 、て、任意の話者による発話にっ 、ての認識を行う認識手 段としても機能する。
[0030] 本発明に係る、他の話者認識システムによれば、上述した本発明に係る話者モデ ル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて 信頼性の高い話者認識が可能となる。しかも、登録の際に用いられる照合手段は、 認識の際に用いられる認識手段を兼ねるので、システム構成の単純ィ匕を図ることが でき極めて有利である。
[0031] 本発明に係る、一又は他の話者認識システムの一態様では、前記認識手段は、前 記任意の話者による発話についての前記登録された話者モデルを基準とする類似 度に基いて、前記認識を行う。
[0032] この態様によれば、類似度に基いての各種認識技術を利用しての認識を行うことに よって、信頼性の高い話者認識が可能となる。
[0033] (話者認識システムにおける話者モデル登録方法)
本発明に係る、話者認識システムにおける話者モデル登録方法は上記課題を解決 するために、話者認識システムにお ヽて話者認識用の話者モデルを登録する話者 モデル登録方法であって、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数 )回取得する取得工程と、該取得された η回の発話を登録用発話として、話者モデル の算出を行う算出工程と、該算出が行われた話者モデルの照合を、前記取得された a回の発話を照合用発話として行う照合工程と、該照合が行われた話者モデルのう ち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして 登録する登録工程とを備える。
[0034] 本発明に係る、話者認識システムにおける話者モデル登録方法によれば、上述し た本発明に係る話者モデル登録装置の場合と同様に、話者による発話に混入した 雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得 が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて 効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実 に回避できる。
[0035] 尚、本発明の話者モデル登録方法にお!、ても、上述した本発明の話者モデル登 録装置における各種態様と同様の各種態様を採ることが可能である。
[0036] (コンピュータプログラム)
上記課題を解決するために、本発明のコンピュータプログラムは、話者認識システ ムにお 、て話者認識用の話者モデルを登録する話者モデル登録装置に備えられた コンピュータを、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数)回取得す る取得手段と、該取得された η回の発話を登録用発話として、話者モデルの算出を 行う算出手段と、該算出が行われた話者モデルの照合を、前記取得された α回の発 話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照 合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する 登録手段として機能させる。
[0037] 本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納する CD-ROM, DVD—ROM等の記録媒体から、当該コンピュータプログラムを、話者 モデル登録装置に備えられたコンピュータに読み込んで実行させれば、或いは、当 該コンピュータプログラムを通信手段を介してダウンロードさせた後に実行させれば、 上述した本発明の話者モデル登録装置を比較的簡単に構築できる。これにより、上 述した本発明の話者モデル登録装置の場合と同様に、話者による発話に混入した 雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得 が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて 効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実 に回避できる。
[0038] 尚、本発明のコンピュータプログラムにおいても、上述した本発明の話者モデル登 録装置における各種態様と同様の各種態様を採ることが可能である。
[0039] 上記課題を解決するために、コンピュータ読取可能な媒体内のコンピュータプログ ラム製品は、話者認識システムにお!ヽて話者認識用の話者モデルを登録する話者 モデル登録装置に備えられたコンピュータにより実行可能なプログラム命令を明白に 具現化し、該コンピュータを、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整 数)回取得する取得手段と、該取得された η回の発話を登録用発話として、話者モデ ルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得され た (X回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルの うち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとし て登録する登録手段として機能させる。
[0040] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を 格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当 該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波 である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口 ードすれば、上述した本発明の話者モデル登録装置を比較的容易に実施可能とな る。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の話者モ デル登録装置として機能させるコンピュータ読取可能なコード (或いはコンピュータ読 取可能な命令)カゝら構成されてよ ヽ。
[0041] 以上詳細に説明したように、本発明の話者モデル登録装置によれば、算出手段、 照合手段及び登録手段を備え、本発明の話者モデル登録方法によれば、算出工程 、照合工程及び登録工程を備えるので、登録動作を繰り返して行う事態を極めて効 率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に 回避できる。本発明の話者認識システムによれば、本発明の話者モデル登録装置を 備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い 話者認識が可能となる。更に、本発明のコンピュータプログラムによれば、コンビユー タを算出手段、照合手段及び登録手段として機能させるので、上述した本発明の話 者モデル登録装置を、比較的容易に構築できる。
[0042] 本発明の作用及び他の利得は次に説明する実施例力 明らかにされよう。
図面の簡単な説明
[0043] [図 1]本発明の第 1実施例に係る、話者認識システムにおける話者モデル登録装置 の基本構成を概念的に示すブロック図である。
[図 2]第 2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構 成を概念的に示すブロック図である。
[図 3]第 2実施例に係る、話者認識システムにおける話者モデル登録装置の動作処 理を示すフローチャートである。
[図 4]第 3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処 理を示すフローチャートである。
[図 5]第 4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処 理を示すフローチャートである。
[図 6]第 5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処 理を示すフローチャートである。
[図 7]第 6実施例に係る、話者認識システムにおける話者認識の際の動作処理を示 すフローチャートである。 符号の説明
[0044] 1 話者認識システム
10 話者モデル登録装置
13 取得部
20 算出部
30 照合部 40 登録部
50 催促部
132 マイクロホン
142 音声部分抽出部
201 特徴量算出部
202 話者モデル算出部
30 照合部
41 検証 ·登録部
45 話者モデルデータベース
52 表示画面
発明を実施するための最良の形態
[0045] 以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づ いて説明する。
[0046] (1)第 1実施例
第 1実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基 本的な動作を、図 1を参照して説明する。ここに、図 1は、本発明の第 1実施例に係る
、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロッ ク図である。
[0047] 図 1において、本実施例に係る話者認識システム 1における話者モデル登録装置 1 0は、本発明に係る「取得手段」の一例としての取得部 13と、本発明に係る「算出手 段」の一例としての算出部 20と、本発明に係る「照合手段」及び「認識手段」の一例と しての照合部 30と、本発明に係る「登録手段」の一例としての登録部 40と、本発明に 係る「催促手段」の一例としての催促部 50とを備える。
[0048] 取得部 13は、例えばマイクロホンのような音声入力機器を含んで成り、話者の登録 を行う際、話者であるユーザ 12 (例えば鈴木さん)が任意に定めたキーワード (例え ば「ひらけごま」)の発話 (実際には、発話の波形データ 14)を n+ a回取得してメモリ 等に保存する。ここに nは、登録用発話の数、即ち話者モデル 25を算出して登録す るにあたり必要とされる発話回数であり、 αは、照合用発話の数、即ち算出された話 者モデル 25が適切力否かを照合するために必要とされる発話の回数である。例えば 図 1においては n= 3、即ち 3回の発話に基いて話者モデル 25 (例えば、鈴木モデル )が算出され、 α = 1、即ち 1回の照合用発話に基いて話者モデル 25が照合される。
[0049] 算出部 20は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従 つて論理的に構築されるものであり、取得部 13によって取得された発話のうち η回の 発話に基いて、ユーザ 12 (鈴木さん)がキーワードを発話したときの特徴をとらえた話 者モデル 25を算出する。
[0050] 照合部 30は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従 つて論理的に構築されるものであり、ユーザ 12 (鈴木さん)が余分に発話した α回の 発話を照合用発話とし、該照合用発話と算出された話者モデル 25との照合を行う。 例えば、ユーザ 12 (鈴木さん)本人の 1回の照合用発話と算出された話者モデル 25 との照合を行う。カロえて、当該照合部 30は、認識手段として機能してもよい。
[0051] 登録部 40は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従 つて論理的に構築されるものであり、算出部 20によって算出された話者モデル 25の うち、照合部 30による照合の結果、所定基準を満たすものを、話者認識用の話者モ デル 25として、例えばコンピュータが備えるハードディスク装置、光ディスク装置等の 大規模記憶装置内に構築された話者モデルデータベース 45に正式に登録する。例 えば、予めユーザ 12 (鈴木さん)本人の発話と分力つている 1回の照合用発話と、算 出された話者モデル 25との照合を行 ヽ、鈴木さん本人であることが正しく認識されれ ば、この話者モデル 25は適切である或いは正常に機能するという検証がなされ、話 者モデルデータベース 45に登録される。この照合の際、ネガティブコントロールとし て、本人以外の人間、例えば鈴木さんに代えて佐藤さんの発話を照合用発話とし、 本人でな!、ことも認識されれば、一層適切な話者モデル 25を登録できる。
[0052] 催促部 50は、算出部 20によって算出された話者モデル 25のうち、照合部 30によ る照合の結果、所定基準を満たすものがない場合、算出部 20によって算出された話 者モデル 25或 、は該話者モデル 25の元となる発話に問題がある或いは不適切であ るとして、ユーザ 12に再度登録用の発話を催促する。例えば、ディスプレイに「再度 発話をして下さい」等の催促用メッセージを表示したり、音声出力したりする。そして、 この催促部 50により催促されることがなくなるまで、換言すれば、話者認識用の話者 モデル 25が登録されるまで、上記構成に基づく処理が行われる。
[0053] カロえて、上記話者モデル登録装置 10を備える話者認識システム 1が話者認識を行 う際は、以下の認識部 30を更に備えるとよい。
[0054] 認識部 30は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従 つて論理的に構築されるものであり、話者認識時には、認識を求める任意の話者 (こ こでの話者つまりユーザ 12は、話者モデル 25を登録した本人に限られない。例えば 、鈴木さんに成りすまそうとする第三者が含まれる)の発話と、登録された話者モデル 25とを照合することで、認識を求める任意の話者が、登録された話者モデル 25の話 者本人であるか否かを認識する。具体的には、照合の結果、類似度等が所定基準を 満たす場合には、認識を求める任意の話者は登録された話者モデル 25の話者であ ると認識し、満たさない場合には、話者でないと認識する。
[0055] 以上、図 1に示すように構成された話者認識システム 1における話者モデル登録装 置 10〖こよると、話者認識用の話者モデル 25が好適に登録されることとなる。この際特 に、実践的にはよくあるように、ユーザ 12による発話に混入した雑音や、ユーザ 12に よる発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて 上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて効率的に回避 でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。 従って、装置側における比較的簡単な処理を通じて且つユーザ 12による発話に基 づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおいて極 めて信頼性の高 、話者認識が可能となる。
[0056] (2)第 2実施例
続ヽて、第 2実施例に係る話者認識システム 1における話者モデル登録装置 10の 構成及び基本的な動作を、図 2及び図 3を参照して説明する。ここに、図 2は、第 2実 施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的 に示すブロック図である。尚、図 2及び図 3において、上記図 1に示した第 1実施例に 係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。
[0057] 図 2において、マイクロホン 132は、ユーザ 2がキーワードの発話を n回行う際、該発 話を夫々電気信号に変換して話者認識システム 1に入力する機器である。
[0058] 音声部分抽出部 142は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプロ グラムに従って論理的に構築されるものであり、背景雑音と音声発話区間とのパワー 差を利用する一般的な音声区間検出方法等により、変換された発話の電気信号力も キーワードが発話されて 、る発話音声部分を切り出す演算装置である。
[0059] 特徴量算出部 201は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログ ラムに従って論理的に構築されるものであり、入力された発話音声部分を特徴量に 変換する。かかる特徴量は、 MFCC (Mel Frequency Cepstrum Coefficient: MFCC) 、 LPC (Linear Predictive Coding :LPC)ケプストラム等によって変換される演算装置 である。そして、特徴量が複数ある場合には、その一部(例えば、 n回分)を話者モデ ル算出部 202へ、他の一部(例えば、 ex回分)を検証'登録部 41へ送信する。
[0060] 話者モデル算出部 202は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプ ログラムに従って論理的に構築されるものであり、特徴量算出部 201で算出された特 徴量のうち n回分を用いて、照合に用いる話者モデルを算出し学習する演算装置で ある。ここに、話者モデルは、話者 HMM (Hidden Markov Model:HMM)や DP (Dy namic Programming: DP)マッチング等の各種音声認識アルゴリズムにおける話者テ ンプレートとして表される。
[0061] 照合部 30は、第 1実施例の場合と同様に、話者モデル算出部 202で算出された話 者モデルと照合用の特徴量との照合を行い類似度を算出する演算装置である。尚、 類似度としては、尤度又は距離尺度の逆数が用いられる。類似度として距離尺度の 逆数が用いられる場合、逆数であるが故に制御方法を適宜変更する必要がある。具 体的には、検証'登録部 41で所定閾値と比較する際の不等号の向きを逆にする。
[0062] 検証'登録部 41は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプロダラ ムに従って論理的に構築されるものであり、照合部 30で算出された類似度と所定の 閾値と比較することで、算出された話者モデルを用いて (X回分の各照合用の特徴量 が本人と認識されるカゝ否か、言い換えれば算出された話者モデルを話者モデルデー タベース 45に登録してもよいか否かを検証する演算装置及び記録装置である。そし て、登録してもよいと検証された話者モデルを検証'登録部 41は、話者モデルデータ ベース 45に登録する。
[0063] 表示画面 52は、例えば液晶ディスプレイ等であり、検証結果或いは催促通知のメッ セージを表示する表示機器である。
[0064] 以上、図 2のように構成される話者モデル登録装置 10により、話者認識用の話者モ デルを登録する際の処理を図 3を用いて説明する。ここに、図 3は、第 2実施例に係る
、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャート である。
[0065] 図 3において先ず、例えばユーザが開始ボタンを押す等して登録が開始されると、 このユーザに対し、マイクロホン 132に向力つてキーワードを n+ a回発話することを 促す旨の通知力 表示画面 102上等で行われる。これに応じて、 n+ a回の発話が 、マイクロホン 132を介して話者モデル登録装置 10に入力される (ステップ S 101)。 尚、登録開始に先立ち、 "え一ど'などのキーワード以外の発話は、画面への文字表 示やガイダンス音声等によって教示することで回避するとよい。
[0066] 入力された n+ a回の発話の発話音声部分が音声部分抽出部 142によって夫々 抽出される (ステップ S102)。
[0067] この n+ a回の発話に係る発話音声部分を用いて、ユーザの話者モデルが算出さ れ、学習される (ステップ S103)。具体的には、送信された n+ a回の発話に係る発 話音声部分が特徴量算出部 201によって各々の特徴量に変換され、この n+ a回の 発話に係る特徴量のうち、 n回の発話 (登録用発話)に係る特徴量が話者モデル算 出部 202へ送信されてユーザの発話モデルが算出される。残りの oc回の発話 (照合 用発話)に係る特徴量は照合部 30へ照合用として送信される。
[0068] そして、算出されたユーザの話者モデル力 照合部 30によって、 a回の照合用発 話に係る特徴量と夫々照合される (ステップ S 104)。例えば、算出されたユーザの話 者モデルと α回の照合用発話に係る特徴量との類似度が夫々算出される。
[0069] このようにして算出されたユーザの話者モデルと各照合用発話との類似度の照合 結果が、検証'登録部 41によって集計され (ステップ S105)、この集計結果が登録判 断基準を満たすか否か、換言すれば算出されたユーザの話者モデルを登録してもよ いか否かが判断される (ステップ S 106)。例えば α回の照合用発話のうち、算出され たユーザの話者モデルによって本人として受理されたものの回数が /3回以上 は 1 以上 α以下)である力否かが判断される。具体的には、 α回の照合用発話のうち、算 出されたユーザの話者モデルとの類似度が所定類似度閾値を超えるものの回数が β回以上であるか否かが判断される。ここで「所定類似度閾値」は、夫々登録判断基 準に相当する類似度であり、その値にはマージンを持たせてもよい。但し、マージン の幅が大きすぎるとユーザ以外の人間もユーザ本人であると認識してしまうことになり 、逆にマージンの幅が小さすぎるとユーザ本人であっても体調如何によつては認識さ れない事態を生じ得る。従って、「所定類似度閾値」は、上記事項に留意し、実践上 ユーザの発話とユーザ以外の発話とを実践上十分に区別可能な類似度として、実験 或いはシミュレーションによって求めるとよ!/、。
[0070] ここで、上記集計結果が登録判断基を満たすと判断される場合 (ステップ S106 :Y es)、検証'登録部 41は、算出されたユーザの話者モデルを話者モデルデータべ一 ス 45に登録し (ステップ S1071)、その旨が表示画面 52を介してユーザに通知され( ステップ S1081)、登録が終了する。
[0071] 他方、上記集計結果が登録判断基を満たすと判断されな ヽ場合 (ステップ S 106: No)、催促部 50が算出されたユーザの話者モデルを破棄し (ステップ S 1072)、表 示画面 52を介してユーザに再登録を促す通知を行う(ステップ S1082)。そして、話 者モデルが登録されるまで以上の処理が繰り返される。
[0072] 以上、図 3に示したように話者認識システム 1における話者モデル登録装置 10が動 作するので、話者モデルが適切に登録されることになる。特に、登録用発話'照合用 発話が最初に取得され、登録用発話でモデルを学習した後に照合用発話で学習し た話者モデルの話者認識性能が検証されるので、音声を発話する以外にキーワード テキストを入力すると 、つた余計な操作をユーザに強 、ることもなく、加えて一発話目 に雑音が混在したとしても、ユーザや管理者が確認する等の人的な作業を介さずに 検出可能であるため、実践上大変便利である。
[0073] (3)第 3実施例
続ヽて、第 3実施例に係る話者認識システム 1における話者モデル登録装置 10の 基本的な動作を、図 2及び図 3に加えて図 4を参照して説明する。ここに、図 4は、第 3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示す フローチャートである。尚、図 4において、上記図面に係る構成或いは処理と同一の 構成或いは処理には同一の符号を付し、その説明は適宜省略する。
[0074] 図 4のフローチャートが図 3のフローチャートと異なるのは主に、話者モデルが破棄 されて (ステップ S 1072)力もの処理である。
[0075] 具体的には、話者モデルが破棄されると (ステップ S1072)、すぐ再発話を催促せ ず、 n発話 · α発話の選び方は尽きた力否かを確認する (ステップ S3073)。例えば、 予め選び方を複数通り決めておき、総当りで全ての選び方について既に試行したか 否かをチェックしておくとよ 、。
[0076] ここで、選び方が尽きた場合 (ステップ S3073 : Yes)、表示画面 52を介してユーザ に再登録を促す通知を行う(ステップ S1082)。但し、全ての選び方を試さずとも、あ る段階で登録判断の基準をクリアするものが全くなければ、そもそもの入力された発 話が適当でないとして、発話を催促してもよい。
[0077] 他方で、選び方が尽きて 、な 、場合 (ステップ S3073: No)、 n回の登録用発話の 選び方を変えて、或いは OC回の照合用発話の選び方を変えて、再度話者モデルを 学習する(ステップ S3074)。
[0078] 以上、図 2及び図 3に加えて図 4を用いて説明したように、本実施例に係る、話者認 識システム 1における話者モデル登録装置 10によると、話者モデルが適切に登録さ れることは勿論、既に入力された発話を再利用するので、ユーザの負担が軽減され、 実践上大変有利である。
[0079] (4)第 4実施例
続ヽて、第 4実施例に係る話者認識システム 1における話者モデル登録装置 10の 基本的な動作を、図 2及び図 3に加えて図 5を参照して説明する。ここに、図 5は、第 4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示す フローチャートである。尚、図 5において、上記図面に係る構成或いは処理と同一の 構成或いは処理には同一の符号を付し、その説明は適宜省略する。
[0080] 図 5のフローチャートが図 3のフローチャートと異なるのは主に、入力された発話の 発話音声部分が抽出されて (ステップ S102)力も登録判断基準をクリアして 、るか判 断される(ステップ SI 06)までの処理である。
[0081] 具体的には、先ずこの n+ a回の発話に係る発話音声部分を用いて、ユーザの話 者モデルが複数通り算出され、学習される (ステップ S403)。
[0082] そして、算出されたユーザの複数通りの話者モデル力 照合部 30によって、 a回の 照合用発話に係る特徴量と夫々照合される (ステップ S404)。
[0083] このようにして算出されたユーザの複数通りの話者モデルと各照合用発話との類似 度の照合結果が、検証'登録部 41によって夫々集計され (ステップ S405)、複数通り の話者モデルのうち照合結果が最も良いものが選択される (ステップ S406)。例えば 、本人であると認識できた照合用発話の各々との類似度の平均値が最も大き力つた 話者モデルを照合結果が最も良いものとして選択する。この際、平均値に代えて、最 大値、最小値或いは中央値のような別の尺度を予め決めておき、採用してもよい。
[0084] そして、照合結果が最も良い話者モデルに係る集計結果が登録判断基準を満たす か否かが判断される(ステップ S106)。
[0085] 以上、図 2及び図 3に加えて図 5を用いて説明したように、本実施例に係る、話者認 識システムにおける話者モデル登録装置によると、複数通りの話者モデルの中から 最良のものを選択するので、例えば、雑音が混入した回における話者による発話や、 発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の 繰り返しを効率的に避けつつ、検証'登録部 41によって、信頼性の高い話者モデル の選択及び登録を行える。
[0086] (5)第 5実施例
続ヽて、第 5実施例に係る話者認識システム 1における話者モデル登録装置 10の 基本的な動作を、図 2及び図 3に加えて図 6を参照して説明する。ここに、図 6は、第 5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示す フローチャートである。尚、図 6において、上記図面に係る構成或いは処理と同一の 構成或いは処理には同一の符号を付し、その説明は適宜省略する。
[0087] 図 6のフローチャートが図 3のフローチャートと異なるのは主に、話者モデルの検証 を行い、該話者モデルが登録判断基準を満たしたとき、話者モデルに基づき本人と して認識された γ回の発話に代えて、 η+ γ回の登録用発話に基いて再度話者モ デルを学習して力 登録する点である。
[0088] 具体的には、 n回の登録用発話に基づき話者モデルが算出された後、該話者モデ ルを oc回の照合用発話と照合し、そのうち γ回の発話が本人のものであると認識され るとする(ステップ S 504)。
[0089] 更に、算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、 検証'登録部 41によって集計され (ステップ S105)、この集計結果が登録判断基準 を満たすと判断されるとする (ステップ S 106 : Yes)。
[0090] この際、本人のものであると認識された y回の発話を n回の登録用発話に更に加え て、話者モデルが話者モデル算出部 202で再度算出され (ステップ S5071)、最終 的にこの η+ γ回の発話に基づく話者モデルが登録されることとなる。
[0091] 尚、 η+ γ回の発話に基づき話者モデル算出部 202を再度算出することに代えて γ回の発話で適応処理を行ってもよい。
[0092] 以上、図 2及び図 3に加えて図 6を用いて説明したように、本実施例に係る、話者認 識システム 1における話者モデル登録装置 10によると、照合用発話でも本人のもの であると認識されるものにっ ヽては登録用話者モデルとされるので、話者モデル算出 部 202は信頼性の高 、話者モデルの算出或 、は適応処理を行える。
[0093] (6)第 6実施例
続いて、第 6実施例に係る話者認識システム 1における話者認識の際の基本的な 動作を、図 2に加えて図 7を参照して説明する。ここに、図 7は、第 6実施例に係る、話 者認識システムにおける話者認識の際の動作処理を示すフローチャートである。図 7 において、先ず話者認識の際、ユーザ即ち話者が、キーワードをマイクロホン 132に 向力つて少なくとも 1回発すると、この際の発話音声がマイクロホン 132で収録され (ス テツプ S601)、音声部分抽出部 142で音声発話区間が抽出される (ステップ S602) 。抽出された音声発話区間が特徴量算出部 201によって特徴量に変換され照合部 に送られる(ステップ S603)。
[0094] 照合部 30では、送られてきた特徴量と、上述した実施例に係る話者モデル登録装 置 10によって登録されている各話者モデルとの照合が行われ、各話者モデルに対 応して類似度が算出される (ステップ S604)。その中でも最も高い類似度 (以下、最 高類似度とも言う)となった話者モデルに対応する話者が認識結果候補者として選択 される(ステップ S605)。
[0095] そして、その最高類似度と他人の発話を十分な精度で棄却できるよう予め設定され た閾値とが比較され (ステップ S606)、この最高類似度が閾値よりも高ければ (ステツ プ S606 :Yes)対応する話者本人であると判断され (ステップ S6071)、その結果が 表示画面 52に出力される(ステップ S6081)。
[0096] 他方、最高類似度が閾値よりも低ければ (ステップ S606 :No)、認識結果候補者が 話者であると認識されず、この話者を棄却し (ステップ S6072)、認識失敗画面が表 示される(ステップ S6082)。
[0097] 尚、上述のように認識結果候補者を選択せずとも、予め自分が誰であるかを発話に より、或いはキーボード入力により宣言して、照合する話者モデルを 1つに絞った上 で照合して類似度を求め、閾値と比較して話者を認識するか棄却するかを判別する ようにしてもよい。
[0098] 以上、図 2にカ卩えて図 7を用いて説明したように、本実施例に係る、話者認識システ ム 1によると、上述した実施例に係る話者モデル登録装置 10を備えるので、比較的 簡単な登録動作或!ヽは登録操作を経て、極めて信頼性の高!、話者認識が可能とな る。
[0099] 上記実施例に示す動作処理は、取得工程、算出工程、照合工程、及び登録工程 を備える話者認識システム 1における話者モデル登録方法に基 ヽて話者認識システ ムを動作させることによって実現してもよい。或いは、取得手段、算出手段、照合手 段、及び登録手段を備えた話者認識システム 1に設けられるコンピュータにコンビュ ータプログラムを読み込ませることで実現してもよ 、。
[0100] 尚、本発明は、上述した実施例に限られるものではなぐ請求の範囲及び明細書全 体力も読み取れる発明の要旨、或いは思想に反しない範囲で適宜変更可能であり、 そのような変更を伴う話者認識システムにおける話者モデル登録装置及び方法、並 びにコンピュータプログラムもまた、本発明の技術的範囲に含まれるものである。 産業上の利用可能性
[0101] 本発明に係る話者認識システムにおける話者モデル登録装置及び方法、並びにコ ンピュータプログラムは、例えばカーナビ装置、ネットバンキング装置、オートロック装 置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設け られ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムに おける話者モデル登録装置に利用可能である。

Claims

請求の範囲
[1] 話者認識システムにお ヽて話者認識用の話者モデルを登録する話者モデル登録 装置であって、
発話を n+ a (但し、 nは 2以上の整数、 aは 1以上の整数)回取得する取得手段と 該取得された n回の発話を登録用発話として、話者モデルの算出を行う算出手段と 該算出が行われた話者モデルの照合を、前記取得された α回の発話を照合用発 話として行う照合手段と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、 前記話者認識用の話者モデルとして登録する登録手段と
を備えることを特徴とする話者認識システムにおける話者モデル登録装置。
[2] 前記登録手段は、前記所定基準として、前記 ex回のうちに β (但し、 βは 1以上 ex 以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認 識用の話者モデルとして登録する
ことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデ ル登録装置。
[3] 前記登録手段が前記話者認識用の話者モデルとして登録しな!ヽ場合に又は前記 照合の結果が前記所定基準を満たさな!/ヽ場合に、前記照合が行われた話者モデル を破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備える ことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル 登録装置。
[4] 前記登録手段が前記話者認識用の話者モデルとして登録しな!ヽ場合に又は前記 照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記 n+ a回 取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を 再度行うことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話 者モデル登録装置。
[5] 前記登録手段が前記話者認識用の話者モデルとして登録しな!ヽ場合に又は前記 照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記 n+ a回 取得された発話の中力 前記照合用発話を選ぶ際の選び方を変えて、前記照合を 再度行うことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話 者モデル登録装置。
[6] 前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を選ぶ 際の選び方を変えて、前記話者モデルを複数通り算出し、
前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通り の前記照合の結果が最もよいものを登録することを特徴とする請求の範囲第 1項に 記載の話者認識システムにおける話者モデル登録装置。
[7] 前記照合手段は、前記 n+ a回取得された発話の中から前記照合用発話を選ぶ 際の選び方を変えて、前記照合を複数通り行い、
前記登録手段は、前記複数通り行われた前記照合の結果の統計値又は少なくとも 一つが所定基準を満たす場合に、前記照合が行われた話者モデルを登録すること を特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録 装置。
[8] 請求の範囲第 1項に記載の話者モデル登録装置と、
前記登録された話者モデルに基 、て、任意の話者による発話にっ 、ての認識を行 う認識手段と
を備えたことを特徴とする話者認識システム。
[9] 請求の範囲第 1項に記載の話者モデル登録装置を備え、
前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話に ついての認識を行う認識手段としても機能することを特徴とする話者認識システム。
[10] 前記認識手段は、前記任意の話者による発話についての前記登録された話者モ デルを基準とする類似度に基 ヽて、前記認識を行うことを特徴とする請求の範囲第 8 項に記載の話者認識システム。
[11] 話者認識システムにお ヽて話者認識用の話者モデルを登録する話者モデル登録 方法であって、
発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数)回取得する取得工程と 該取得された n回の発話を登録用発話として、話者モデルの算出を行う算出工程と 該算出が行われた話者モデルの照合を、前記取得された α回の発話を照合用発 話として行う照合工程と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、 前記話者認識用の話者モデルとして登録する登録工程と
を備えることを特徴とする話者認識システムにおける話者モデル登録方法。
話者認識システムにお ヽて話者認識用の話者モデルを登録する話者モデル登録 装置に備えられたコンピュータを、
発話を n+ a (但し、 nは 2以上の整数、 aは 1以上の整数)回取得する取得手段と 該取得された n回の発話を登録用発話として、話者モデルの算出を行う算出手段と 該算出が行われた話者モデルの照合を、前記取得された α回の発話を照合用発 話として行う照合手段と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、 前記話者認識用の話者モデルとして登録する登録手段と
として機能させることを特徴とするコンピュータプログラム。
PCT/JP2007/055433 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム WO2007111169A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/293,943 US20090106025A1 (en) 2006-03-24 2007-03-16 Speaker model registering apparatus and method, and computer program
JP2008507435A JP4854732B2 (ja) 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-084275 2006-03-24
JP2006084275 2006-03-24

Publications (1)

Publication Number Publication Date
WO2007111169A1 true WO2007111169A1 (ja) 2007-10-04

Family

ID=38541089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/055433 WO2007111169A1 (ja) 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Country Status (3)

Country Link
US (1) US20090106025A1 (ja)
JP (1) JP4854732B2 (ja)
WO (1) WO2007111169A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180010923A (ko) * 2015-07-22 2018-01-31 구글 엘엘씨 개별화된 핫워드 검출 모델들
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
GB201802309D0 (en) * 2017-11-14 2018-03-28 Cirrus Logic Int Semiconductor Ltd Enrolment in speaker recognition system
US20230215422A1 (en) * 2022-01-05 2023-07-06 Google Llc Multimodal intent understanding for automated assistant

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS584198A (ja) * 1981-06-30 1983-01-11 株式会社日立製作所 音声認識装置における標準パタ−ン登録方式
JPS62245295A (ja) * 1986-04-18 1987-10-26 株式会社リコー 特定話者音声認識装置
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
JPH02298996A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 単語音声認識装置
JPH09218696A (ja) * 1996-02-14 1997-08-19 Ricoh Co Ltd 音声認識装置
JPH1020882A (ja) * 1996-07-01 1998-01-23 Ricoh Co Ltd 音声認識装置および標準パターン登録方法
JP2000155595A (ja) * 1998-11-19 2000-06-06 Canon Inc 撮像装置
JP2004279770A (ja) * 2003-03-17 2004-10-07 Kddi Corp 話者認証装置及び判別関数設定方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5681781A (en) * 1979-12-05 1981-07-04 Nippon Electric Co Sound lock system
JPH10133680A (ja) * 1996-09-06 1998-05-22 Amtex Kk 音声データ記憶者判定装置
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
JP2004309779A (ja) * 2003-04-07 2004-11-04 Casio Comput Co Ltd 音声認証装置
JP2005241215A (ja) * 2004-02-27 2005-09-08 Mitsubishi Electric Corp 電気機器、冷蔵庫、冷蔵庫の操作方法
JP4254753B2 (ja) * 2005-06-30 2009-04-15 ヤマハ株式会社 話者認識方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS584198A (ja) * 1981-06-30 1983-01-11 株式会社日立製作所 音声認識装置における標準パタ−ン登録方式
JPS62245295A (ja) * 1986-04-18 1987-10-26 株式会社リコー 特定話者音声認識装置
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
JPH02298996A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 単語音声認識装置
JPH09218696A (ja) * 1996-02-14 1997-08-19 Ricoh Co Ltd 音声認識装置
JPH1020882A (ja) * 1996-07-01 1998-01-23 Ricoh Co Ltd 音声認識装置および標準パターン登録方法
JP2000155595A (ja) * 1998-11-19 2000-06-06 Canon Inc 撮像装置
JP2004279770A (ja) * 2003-03-17 2004-10-07 Kddi Corp 話者認証装置及び判別関数設定方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180010923A (ko) * 2015-07-22 2018-01-31 구글 엘엘씨 개별화된 핫워드 검출 모델들
US10438593B2 (en) 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
US10535354B2 (en) 2015-07-22 2020-01-14 Google Llc Individualized hotword detection models
KR102205371B1 (ko) 2015-07-22 2021-01-20 구글 엘엘씨 개별화된 핫워드 검출 모델들
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product

Also Published As

Publication number Publication date
US20090106025A1 (en) 2009-04-23
JP4854732B2 (ja) 2012-01-18
JPWO2007111169A1 (ja) 2009-08-13

Similar Documents

Publication Publication Date Title
CN111566729B (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
US9424837B2 (en) Voice authentication and speech recognition system and method
US8010367B2 (en) Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines
JP4588069B2 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
AU2013203139A1 (en) Voice authentication and speech recognition system and method
JP5172973B2 (ja) 音声認識装置
Li et al. Verbal information verification
JP4897040B2 (ja) 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2013232017A (ja) 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
JP4854732B2 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP2008233305A (ja) 音声対話装置、音声対話方法及びプログラム
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP2017161581A (ja) 音声認識装置、音声認識プログラム
WO2007111197A1 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
JP2005092310A (ja) 音声キーワード認識装置
WO2006027844A1 (ja) 話者照合装置
CN109559759B (zh) 具备增量注册单元的电子设备及其方法
JP5088314B2 (ja) 音声応答装置、及びプログラム
WO2008018136A1 (fr) dispositif de reconnaissance d'un individu en fonction de sa voix, procédé de reconnaissance d'un individu en fonction de sa voix, etc.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07738878

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2008507435

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12293943

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 07738878

Country of ref document: EP

Kind code of ref document: A1