WO2023100960A1 - 認証装置および認証方法 - Google Patents

認証装置および認証方法 Download PDF

Info

Publication number
WO2023100960A1
WO2023100960A1 PCT/JP2022/044301 JP2022044301W WO2023100960A1 WO 2023100960 A1 WO2023100960 A1 WO 2023100960A1 JP 2022044301 W JP2022044301 W JP 2022044301W WO 2023100960 A1 WO2023100960 A1 WO 2023100960A1
Authority
WO
WIPO (PCT)
Prior art keywords
authentication
question
speech
unit
speaker
Prior art date
Application number
PCT/JP2022/044301
Other languages
English (en)
French (fr)
Inventor
鉄平 福田
正成 宮本
慎太郎 岡田
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to EP22901391.7A priority Critical patent/EP4443431A1/en
Priority to JP2023565071A priority patent/JPWO2023100960A1/ja
Publication of WO2023100960A1 publication Critical patent/WO2023100960A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Definitions

  • This disclosure relates to an authentication device and an authentication method.
  • Patent Literature 1 discloses an operator identity verification system that streamlines the operator's customer identity verification work and other verification work in a call center.
  • a speech recognition server recognizes the speech of the customer and the operator, outputs the text, and stores the text of the speech recognition result together with date and time information of the speech of the customer and the operator.
  • the keyword extraction unit of the analysis server reads the text of the speech recognition result and extracts the keywords of the confirmation items included in the set of utterances of the customer and the operator from a predetermined confirmation item keyword list.
  • the keyword matching unit of the analysis server matches the keyword of the extracted confirmation item with the customer's basic member information stored in the member master DB, and when both match, the confirmation of the confirmation item is completed. to decide.
  • the operator terminal is caused to display the personal identification completion notification.
  • the personal identification completion notice is also sent to the customer's terminal.
  • Patent Document 1 the completion of identity verification is not displayed on the operator's terminal until all the identity verification items prepared in advance for the identity verification work are completed. For this reason, the progress of the authentication process for verifying whether or not the other party of the operator's call is a legitimate customer (that is, the person himself/herself) is not displayed in real time until confirmation of all personal identification items has been determined. There was no way to know how far the process was currently progressing. Therefore, there is a problem that the timing of the operator's conversation about the content of the subject that starts after the customer's identification is completed is delayed, and the operator's work efficiency is poor.
  • the present disclosure has been devised in view of the conventional situation described above, and provides an authentication apparatus and an authentication method that enable an operator to check the authentication status of customer identity verification in real time and support improvement in the operator's work efficiency. for the purpose.
  • the present disclosure is based on an acquisition unit that acquires and detects an audio signal of a speaker's uttered voice, and the audio signal detected by the acquisition unit and collation with a database. and a display interface for displaying, on a terminal device, an authentication status indicating whether the speaker is the person himself/herself based on the authentication result of the authentication unit, wherein the display interface is the above-mentioned display interface.
  • an authentication device that updates display contents of authentication status every time the authentication status of the speaker by an authentication unit changes.
  • the present disclosure is an authentication method performed by one or more computers, which acquires and detects an audio signal of a speaker's uttered voice, and based on matching the detected audio signal with a database, the authenticating whether or not the speaker is the person in question, displaying the authentication status indicating whether or not the speaker is the person in question based on the authentication result, and updating the authentication status each time the authentication status of the speaker changes; Provide an authentication method to update the display content.
  • the operator can check the authentication status of the customer's identity verification in real time, and it is possible to support the improvement of the operator's work efficiency.
  • FIG. 4 is a diagram showing a first relationship between an audio signal and reliability according to Embodiment 1;
  • FIG. 10 is a diagram showing a second relationship between an audio signal and reliability according to Embodiment 1;
  • FIG. 4 is a diagram showing presence/absence of emotion in an audio signal according to Embodiment 1.
  • FIG. 4 is a diagram showing processing of an audio signal based on the presence or absence of emotion according to the first embodiment;
  • FIG. 4 is a diagram showing processing for deleting repeated sections of an audio signal according to Embodiment 1; A diagram showing a first screen example representing an authentication status according to the first embodiment A diagram showing a second screen example representing an authentication status according to the first embodiment Flowchart showing an example of the operation procedure of the authentication analysis device according to Embodiment 1 Block diagram showing an internal configuration example of an authentication analysis device according to Embodiment 2 A diagram showing a question example according to the second embodiment A diagram showing an example question displayed on the information terminal device according to the second embodiment A diagram showing the relationship between the number of phonemes and the threshold according to the second embodiment Flowchart showing an example of the operation procedure of the authentication analysis device when displaying a question example immediately after the start of authentication according to the second embodiment A diagram showing an example of a screen when the question example sentence display function according to the second embodiment is off A diagram showing a screen example when the question example sentence display function according to the second embodiment is on Flowchart showing an example of the operation procedure of the authentication analysis device when displaying a question example in the middle
  • Patent Literature 1 discloses an operator identity verification system that streamlines the operator's customer identity verification work and other verification work in a call center.
  • a speech recognition server recognizes the speech of the customer and the operator, outputs the text, and stores the text of the speech recognition result together with date and time information of the speech of the customer and the operator.
  • the keyword extraction unit of the analysis server reads the text of the speech recognition result and extracts the keywords of the confirmation items included in the set of utterances of the customer and the operator from a predetermined confirmation item keyword list.
  • the keyword matching unit of the analysis server matches the keyword of the extracted confirmation item with the customer's basic member information stored in the member master DB, and when both match, the confirmation of the confirmation item is completed. to decide. Then, when the confirmation of all the predetermined personal identification items is completed, the operator terminal is caused to display the personal identification completion notification. The personal identification completion notice is also sent to the customer's terminal.
  • Patent Document 1 the completion of identity verification is not displayed on the operator's terminal until all the identity verification items prepared in advance for the identity verification work are completed. For this reason, the progress of the authentication process for verifying whether or not the other party of the operator's call is a legitimate customer (that is, the person himself/herself) is not displayed in real time until confirmation of all personal identification items has been determined. There was no way to know how far the process was currently progressing. Therefore, there is a problem that the timing of the operator's conversation about the content of the subject that starts after the customer's identification is completed is delayed, and the operator's work efficiency is poor.
  • Embodiment 1 an example of an authentication device and an authentication method that enables the operator to check the authentication status of the customer's identity verification in real time and supports the improvement of the operator's work efficiency will be described.
  • FIG. 1 is a diagram showing an example of a use case of a voice authentication system according to Embodiments 1 and 2.
  • FIG. The voice authentication system 100 acquires a voice signal or voice data of a person (user US in the example shown in FIG. 1) to be authenticated using voice, and stores the acquired voice signal or voice data in advance in storage. A plurality of voice signals or voice data registered (stored) in the registered speaker database DB (in the example shown in FIG. 1) are collated.
  • the voice authentication system 100 evaluates the degree of similarity between the voice signal or voice data collected from the user US who is the subject of voice authentication and the voice signal or voice data registered in the storage, based on the verification result.
  • the user US is authenticated based on the obtained similarity.
  • the voice authentication system 100 includes an operator side call terminal OP1 as an example of a sound collecting device, an authentication analysis device P1, a registered speaker database DB, an information display terminal DP as an example of an output device, at least.
  • the authentication analysis device P1 and the information display terminal DP may be configured integrally.
  • the voice authentication system 100 shown in FIG. 1 shows an example of being used for authentication of a speaker (user US) in a call center as an example. Authenticate user US.
  • the voice authentication system 100 shown in FIG. 1 further includes a user-side call terminal UP1 and a network NW. Needless to say, the overall configuration of the voice authentication system 100 is not limited to the example shown in FIG.
  • the user-side call terminal UP1 is connected to the operator-side call terminal OP1 via the network NW so as to be capable of wireless communication.
  • the wireless communication here is network communication via a wireless LAN (Local Area Network) such as Wi-Fi (registered trademark).
  • the user-side call terminal UP1 is composed of, for example, a notebook PC, a tablet terminal, a smartphone, a telephone, and the like.
  • the user-side call terminal UP1 is a sound collecting device equipped with a microphone (not shown). Send to the call terminal OP1.
  • the user-side telephone terminal UP1 acquires an audio signal of the operator's OP's uttered voice transmitted from the operator-side telephone terminal OP1, and outputs it from a speaker (not shown).
  • the network NW is, for example, an IP (Internet Protocol) network or a telephone network, and connects the user-side call terminal UP1 and the operator-side call terminal OP1 so that voice signals can be transmitted and received. Data transmission/reception is performed by wired communication or wireless communication.
  • IP Internet Protocol
  • the operator-side call terminal OP1 is connected to the user-side call terminal UP1 and the authentication analysis device P1 so as to be able to transmit and receive data through wired communication or wireless communication, respectively, and transmits and receives audio signals.
  • the operator-side call terminal OP1 is composed of, for example, a notebook PC, a tablet terminal, a smartphone, a telephone, and the like.
  • the operator-side call terminal OP1 acquires a voice signal based on the user US's uttered voice transmitted from the user-side call terminal UP1 via the network NW, and transmits the voice signal to the authentication analysis device P1. Note that when the operator-side call terminal OP1 acquires an audio signal including the acquired speech voice of the user US and the acquired speech voice of the operator OP, the sound pressure level, frequency band, etc.
  • a speech signal based on the user US's uttered voice and a speech signal based on the operator OP's uttered voice may be separated based on the voice parameters. After the separation, the operator-side call terminal OP1 extracts only the voice signal based on the voice uttered by the user US and transmits it to the authentication analysis device P1.
  • the operator-side call terminal OP1 may be connected to each of a plurality of user-side call terminals so as to be able to communicate with each other, and simultaneously acquire voice signals from each of the plurality of user-side call terminals.
  • the operator-side call terminal OP1 transmits the acquired voice signal to the authentication analysis device P1.
  • the voice authentication system 100 can simultaneously execute voice authentication processing and voice analysis processing for each of a plurality of users.
  • the operator-side call terminal OP1 may simultaneously acquire voice signals including speech voices of a plurality of users.
  • the operator-side call terminal OP1 extracts a voice signal for each user from each of the voice signals of a plurality of users acquired via the network NW, and transmits the voice signal for each user to the authentication analysis device P1.
  • the operator-side call terminal OP1 may analyze the voice signals of a plurality of users, and separate and extract the voice signals for each user based on voice parameters such as sound pressure level and frequency band. .
  • the voice signal is picked up by an array microphone or the like, the operator-side call terminal OP1 may separate and extract the voice signal for each user based on the direction of arrival of the uttered voice.
  • the voice authentication system 100 can perform voice authentication processing and voice analysis processing for each of a plurality of users, even for voice signals collected in an environment where multiple users speak at the same time, such as a Web conference. can.
  • An authentication device and an authentication analysis device P1 as an example of a computer are connected to the operator side call terminal OP1, the registered speaker database DB and the information display terminal DP so that data can be sent and received respectively. Note that even if the authentication analysis device P1 is connected to the operator-side call terminal OP1, the registered speaker database DB, and the information display terminal DP via a network (not shown) so as to be capable of wired communication or wireless communication, good.
  • the authentication analysis device P1 acquires the voice signal of the user US transmitted from the operator-side telephone terminal OP1, analyzes the acquired voice signal for each frequency, for example, and extracts the speech feature of the user US. .
  • the authentication analysis device P1 refers to the registered-speaker database DB, compares each of the plurality of users registered in advance in the registered-speaker database DB with the extracted utterance feature amount, and Perform voice authentication of user US. Note that the authentication analysis device P1 uses the utterance feature amount of a specific user registered in advance in the registered speaker database DB instead of the utterance feature amount of each of a plurality of users registered in advance in the registered speaker database DB. may be compared to perform voice authentication of the user US.
  • the authentication analysis device P1 generates an authentication result screen SC including the user authentication result, and transmits it to the information display terminal DP for output. It goes without saying that the authentication result screen SC shown in FIG. 1 is an example and is not limited to this.
  • the authentication result screen SC shown in FIG. 1 includes, for example, a message "Mr. Taro Yamada's voice matches.”, which is the user authentication result.
  • the authentication analysis device P1 may perform voice authentication of the user US by comparing the voice signals of each of the plurality of users registered in advance in the registered speaker database DB with the voice signal of the user US. good.
  • the authentication analysis device P1 compares the voice signals of a plurality of users pre-registered in the registered-speaker database DB with the voice signals of a specific user pre-registered in the registered-speaker database DB. to perform voice authentication of the user US.
  • a registered speaker database DB as an example of a database is a so-called storage, and is configured using a storage medium such as a flash memory, HDD (Hard Disk Drive), or SSD (Solid State Drive).
  • the registered speaker database DB associates and stores (registers) user information of each of a plurality of users and utterance feature amounts.
  • the user information here is information about the user, and is, for example, a user name, a user ID (Identification), or identification information assigned to each user.
  • the registered speaker database DB may be configured integrally with the authentication analysis device P1.
  • the information display terminal DP is configured using, for example, an LCD (Liquid Crystal Display) or an organic EL (Electroluminescence) display.
  • the information display terminal DP displays the authentication result screen SC transmitted from the authentication analysis device P1.
  • the information display terminal DP may be configured integrally with the authentication analysis device P1.
  • the user-side call terminal UP1 picks up the speech voice COM12 "I'm Taro Yamada" and the speech voice COM14 "I'm 123245678" of the user US, converts them into voice signals, and converts them into voice signals.
  • the operator-side call terminal OP1 transmits to the authentication analysis device P1 voice signals based on the user US's uttered voices COM12 and COM14 transmitted from the user-side call terminal UP1.
  • the operator-side call terminal OP1 picks up the operator OP's speech COM11 "Please tell me your name", the speech speech COM13 "Please tell me your membership number”, and the speech speech COM12 and COM14 of the user US.
  • the voice signals obtained by the operator OP are obtained, the voice signals based on the uttered voices COM11 and COM13 of the operator OP are separated and removed, and only the voice signals based on the uttered voices COM12 and COM14 of the user US are extracted, It is transmitted to the authentication analysis device P1.
  • the authentication analysis device P1 can improve the accuracy of user authentication by using only the voice signal of the person who is the target of voice authentication.
  • FIG. 2 is a block diagram showing an example internal configuration of the authentication analysis device according to the first embodiment.
  • the authentication analysis device P1 includes at least a communication unit 20, a processor 21, and a memory 22.
  • FIG. 20 is a block diagram showing an example internal configuration of the authentication analysis device according to the first embodiment.
  • the authentication analysis device P1 includes at least a communication unit 20, a processor 21, and a memory 22.
  • the communication unit 20 is connected to enable data communication with each of the operator side call terminal OP1 and the registered speaker database DB.
  • the communication unit 20 outputs to the processor 21 the voice signal transmitted from the operator side telephone terminal OP1.
  • the acquisition unit is not limited to the communication unit 20, and may be, for example, the microphone of the operator side call terminal OP1 integrated with the authentication analysis device P1.
  • the processor 21 uses a semiconductor chip on which at least one of electronic devices such as a CPU (Central Processing Unit), a DSP (Digital Signal Processor), a GPU (Graphical Processing Unit), and an FPGA (Field Programmable Gate Array) is mounted. Configured.
  • the processor 21 functions as a controller that controls the overall operation of the authentication analysis device P1, performs control processing for supervising the operation of each part of the authentication analysis device P1, and inputs and outputs data to and from each part of the authentication analysis device P1. processing, arithmetic processing of data and storage processing of data.
  • the processor 21 uses programs and data stored in a ROM (Read Only Memory) 22A of the memory 22 to perform an utterance segment detection unit 21A, an utterance linking unit 21B, a feature amount extraction unit 21C, a similarity calculation unit 21D, a reliability It implements the functions of the degree calculation unit 21E and the sound analysis unit 21J.
  • the processor 21 uses a RAM (random access memory) 22B of the memory 22 during operation, and temporarily stores data or information generated or acquired by the processor 21 and each unit in the RAM 22B of the memory 22 .
  • the speech period detection unit 21A which is an example of an acquisition unit, acquires an audio signal of an uttered voice, analyzes the acquired audio signal, and detects an utterance period during which the user US is speaking.
  • the speech period detection unit 21A outputs a speech signal corresponding to each speech period detected from the speech signal (hereinafter referred to as "speech audio signal") to the speech connection unit 21B or the feature quantity extraction unit 21C.
  • speech audio signal a speech signal corresponding to each speech period detected from the speech signal
  • the speech period detection unit 21A may temporarily store the speech audio signal of each speech period in the RAM 22B of the memory 22.
  • the speech linking unit 21B which is an example of the authentication unit, connects the speech audio signals of these speech periods. do.
  • the speech linking unit 21B may calculate the total number of seconds of the linked voice signals.
  • the speech connection unit 21B outputs the speech audio signal after connection (hereinafter referred to as “connected audio signal”) to the feature quantity extraction unit 21C. A user authentication method will be described later.
  • the feature extraction unit 21C which is an example of the authentication unit, uses one or more utterance voice signals extracted by the utterance period detection unit 21A to analyze the features of an individual's voice, for example, for each frequency, and extract the utterance feature. Extract.
  • the feature amount extraction unit 21C may extract the speech feature amount of the connected speech signal output from the speech connection unit 21B.
  • the feature amount extraction unit 21C associates the extracted utterance feature amount with the utterance voice signal or the concatenated voice signal from which the utterance feature amount is extracted, and outputs the same to the similarity calculation unit 21D or to the RAM 22B of the memory 22. Save it temporarily.
  • a similarity calculation unit 21D as an example of an authentication unit acquires the utterance feature amount of the utterance voice signal or the concatenated voice signal output from the feature amount extraction unit 21C.
  • the similarity calculation unit 21D refers to the registered-speaker database DB, and calculates the similarity between the utterance feature amount of each of the plurality of users registered in the registered-speaker database DB and the acquired utterance feature amount after connection. Calculate Based on the calculated similarity, the similarity calculation unit 21D identifies the user corresponding to the speech voice signal or the concatenated voice signal (that is, the voice signal transmitted from the user-side communication terminal UP1) and executes user authentication. do.
  • the similarity calculation unit 21D When it is determined that a user has been specified as a result of user authentication, the similarity calculation unit 21D generates an authentication result screen SC including information (that is, authentication result) about the specified user, and displays the display I/F (inter 23 to the information display terminal DP.
  • the similarity calculation unit 21D determines that the calculated similarity is less than the predetermined value, the similarity calculation unit 21D determines that the user cannot be authenticated, and issues a control command requesting the speech connection unit 21B to connect the speech signal. Generate and output. Further, the similarity calculation unit 21D determines that an upper limit is set for the number of times of user authentication in user authentication for the same person (user US), and that the number of times that user authentication is not possible is equal to or greater than the upper limit. In this case, an authentication result screen (not shown) notifying that user authentication is not possible may be generated and output to the information display terminal DP.
  • the sound analysis unit 21J as an example of the authentication unit acquires one or more speech audio signals or concatenated audio signals extracted by the speech period detection unit 21A.
  • the sound analysis unit 21J analyzes the sound of the acquired speech sound signal or concatenated sound signal (hereinafter referred to as “speech sound”). For example, if the utterance voice signal is "Yamada Tarodesu”, the corresponding sound is "yamada data ro u de su”.
  • the sound analysis unit 21J may calculate the number of analyzed speech sounds, generate a calculation result screen (not shown), and output it to the information display terminal DP.
  • the number of types of uttered sounds is defined as one sound, such as "ya", which includes one consonant and one vowel.
  • the reliability calculation unit 21E which is an example of an authentication unit, acquires the concatenated speech signal concatenated by the speech concatenation unit 21B.
  • the reliability calculation unit 21E analyzes the reliability of the acquired concatenated audio signal.
  • the reliability calculation unit 21E may acquire the speech audio signal extracted by the speech period detection unit 21A and analyze the reliability.
  • the reliability is, for example, the reliability of the total number of seconds calculated by the speech linking unit 21B and the reliability of the number of types of uttered sounds calculated by the sound analysis unit 21J, but is not limited to these.
  • the reliability calculation unit 21E may calculate the reliability based on criteria predetermined by the user.
  • the processor 21 checks the speech signal detected by the speech period detection unit 21A against the registered speaker database DB in which the speech signals of each of a plurality of speakers are registered. Authenticate whether or not In addition, the processor 21 calculates the total time of the speech sound signal and the number of speech types included in the speech sound signal, and calculates the total time based on the calculation result of the total time and the number of speech sound types and a predetermined criterion. A first reliability based on the number of types of speech sounds and a second reliability based on the number of speech sound types are determined.
  • the memory 22 includes, for example, a ROM 22A that stores a program defining various processes performed by the processor 21 and data used during execution of the program, and a work memory that is used when executing the various processes performed by the processor 21. and a RAM 22B.
  • the ROM 22A stores a program defining various processes to be performed by the processor 21 and data used during execution of the program.
  • data or information generated or acquired by the processor 21 for example, utterance speech signals before concatenation, concatenated speech signals after concatenation, utterance feature amounts corresponding to each utterance interval before or after concatenation, etc. are stored. Temporarily saved.
  • the display I/F 23 connects the processor 21 and the information display terminal DP for data communication, and outputs the authentication result screen SC generated by the similarity calculation unit 21D of the processor 21 to the information display terminal DP.
  • the display I/F 23 causes the information display terminal DP to display the authentication status indicating whether or not the speaker is the person himself/herself based on the authentication result of the processor 21 .
  • the emotion identifier 24 is connected to the processor 21 for data communication, and can be realized using artificial intelligence (AI), for example.
  • the emotion classifier 24 is configured using a processor such as a GPU (Graphical Processing Unit) capable of executing various types of processing using artificial intelligence, for example.
  • the emotion discriminator 24 detects the strength of the speaker's emotion during conversation based on the speech signal detected by the speech period detection unit 21A.
  • the emotion classifier 24 may acquire the connected voice signal connected by the utterance connecting unit 21B and detect the strength of the speaker's emotion during conversation, or may detect the voice signal extracted by the feature amount extracting unit 21C. may be used to detect the strength of the speaker's emotion during conversation.
  • Emotion classifier 24 analyzes, but is not limited to, the loudness, pitch (frequency), and accent of the audio signal to detect the intensity of emotion.
  • FIG. 3 is a diagram showing a first relationship between an audio signal and reliability according to Embodiment 1.
  • FIG. 4 It goes without saying that the content of the user's utterance shown in FIGS. 3 and 4 is an example and is not limited to this.
  • the first reliability determination table TBL1 shown in FIG. 3 is temporarily stored in the memory 22, for example, and represents the relationship between the user's utterance contents, the total number of seconds, the number of types of utterance sounds, and the reliability. It should be noted that the elements of the reliability of the user's utterance content are not limited to the total number of seconds and the number of types of utterances, and the number of reliability elements is not limited to two.
  • the one with the higher reliability is determined as the final determination of the reliability of the content of the user's utterance. That is, the reliability calculation unit 21E determines the higher one of the first reliability based on the total time and the second reliability based on the number of speech sound types as the reliability corresponding to the speech signal. .
  • the criterion for the reliability of the total number of seconds is "low” when less than 10 seconds, “medium” when between 10 seconds and less than 15 seconds, and "high” when 15 seconds or more.
  • the criteria for determining the reliability of the number of types of uttered sounds are "low” for less than 10 sounds, “medium” for 10 to 15 sounds, and “high” for 15 or more sounds. It goes without saying that the criteria for determining the reliability are only examples, and the criteria are not limited to these. Reliability may be represented by characters such as “low”, “middle”, “high”, percentages, gauges, bar graphs, and the like.
  • the utterance sound of the first utterance content C1 "Yamada Taro desu” is "yama data roudesu”.
  • the total number of seconds of the first utterance content C1 is 5 seconds, and the number of types of utterance sounds is 8 sounds.
  • the reliability of the total number of seconds is "low”
  • the reliability of the number of types of speech sounds is "low”.
  • both the reliability of the total number of seconds and the reliability of the number of utterance types are "low", so the reliability of the first utterance content C1 is "low".
  • Second utterance content C2 ⁇ Yamada ro de yamada ro to shiro desu'' utterance sound ⁇ yama data rou de su yama daji ro u to shi rou de su”.
  • the total number of seconds of the second utterance content C2 is 10 seconds, and the number of utterance sound types is 11 sounds.
  • the reliability of the total number of seconds is "middle”
  • the reliability of the number of types of speech sounds is "middle”.
  • both the reliability of the total number of seconds and the reliability of the number of types of uttered sounds are "middle", so the reliability of the second utterance content C2 is "middle".
  • the utterance sound of the third utterance content C3 ⁇ Yamada Taro desu Ichi ni san shi goro ku na desu'' is ku na na de su'.
  • the total number of seconds of the third utterance content C3 is 10 seconds, and the number of types of utterance sounds is 18 sounds.
  • the reliability of the total number of seconds is "medium”, and the reliability of the number of types of speech sounds is "high”.
  • the higher one of the reliability of the total number of seconds and the reliability of the number of types of uttered sounds is determined as the reliability corresponding to the content of the user's utterance. Therefore, the reliability "high" of the number of types of utterance sounds with higher reliability is determined as the reliability of the third utterance content C3.
  • the reliability of the user's utterance content is determined to be equal to or higher than the threshold. It is possible to shorten the time until the completion of personal identification authentication.
  • FIG. 4 is a diagram showing a second relationship between an audio signal and reliability according to the first embodiment.
  • the second reliability determination table TBL2 shown in FIG. 4 is temporarily stored in the memory 22, for example, and represents the relationship between the user's utterance contents, the total number of seconds, the number of types of utterance sounds, and the reliability. It should be noted that the elements of the degree of reliability of the user's utterance content are not limited to the total number of seconds and the number of types of uttered sounds, and the number of elements of the degree of reliability is not limited to two.
  • the lower reliability determination is determined as the final determination of the reliability of the user's utterance content. That is, the reliability calculation unit 21E selects the lower reliability of the first reliability based on the total time and the second reliability based on the number of speech sound types as the reliability corresponding to the speech signal. Determined as For example, the criterion for the reliability of the total number of seconds is "low” when less than 8 seconds, “medium” when between 8 seconds and less than 10 seconds, and "high” when 10 seconds or more.
  • the criteria for determining the reliability of the number of types of uttered sounds are "low” for less than 9 sounds, “medium” for 10 to 15 sounds, and "high” for 15 or more sounds. It goes without saying that the criteria for determining the reliability are only examples, and the criteria are not limited to these.
  • the example shown in FIG. 4 differs from the example shown in FIG. 3 only in the final determination method of the reliability, so the explanation of the parts overlapping with the example shown in FIG. 3 will be omitted.
  • the reliability Ba1 of the first total number of seconds will be described as an example.
  • the reliability Ba1 is a bar graph of a rectangle that is elongated in the left and right direction, and as the reliability increases with respect to a predetermined reference value, the meter continuously increases from left to right. At a predetermined reference value, the meter reaches the right end when the reliability is "high". Note that this is just an example, and a vertically long rectangular bar graph may be used as an expression of reliability. This allows us to treat confidence as a continuous parameter.
  • the total number of seconds of the first utterance content C1 is 5 seconds, and the number of types of utterance sounds is 8. In this case, the reliability of the total number of seconds is "low", and the reliability of the number of types of speech sounds is "low”. The reliability of the total number of seconds is lower than the reliability Ba1 and the reliability Ba2. Therefore, the reliability of the first utterance content C1 is "low", which is the reliability Ba1.
  • the total number of seconds of the second utterance content C2 is 10 seconds, and the number of types of utterance sounds is 11. In this case, the reliability of the total number of seconds is "high", and the reliability of the number of types of speech sounds is "medium”.
  • the reliability Ba3 reaches the right end of the meter because the reliability of the total number of seconds has become "high”. Since the number of utterance sound types of the second utterance content C2 is three more than the number of utterance sound types of the first utterance content C1, the reliability Ba4 is higher than the reliability Ba2. Looking at the reliability Ba3 and the reliability Ba4, it can be seen that the reliability Ba4 is lower in reliability, and the reliability of the second utterance content C2 is "medium” in the reliability Ba4.
  • the total number of seconds of the third utterance content C3 is 10 seconds, and the number of types of utterance sounds is 18. In this case, the reliability of the total number of seconds is "high", and the reliability of the number of types of speech sounds is "high".
  • the reliability Ba5 reaches the right end of the meter because the reliability of the total number of seconds has become “high”.
  • the reliability Ba6 reaches the right end of the meter because the reliability of the number of types of utterances has become “high”. Based on the reliability Ba5 and the reliability Ba6, the reliability of the third utterance content C3 is "high", which is the reliability Ba5 or the reliability Ba6.
  • FIG. 5 is a diagram showing an example of starting authentication after pressing an authentication start button according to the first embodiment.
  • the operator OP's speech COM 15 "This is a call center"
  • the user US's speech COM 16 "I want to do XX”
  • the operator's speech COM 17 “First of all, I will authenticate myself. ” and the utterance content of the utterance voice COM 18 of the user US “yes” are spoken by the user US and the operator OP.
  • the operator OP presses the authentication start button UI displayed on the information display terminal DP, and the authentication analysis device P1 starts collecting sound from the uttered voice signal after pressing the authentication start button UI.
  • the operator OP's speech COM 11 "Please tell me your name"
  • the user's US speech COM 12 "I'm Taro Yamada”
  • the operator OP's speech COM 13 "Please tell me your membership number”
  • the user US's speech COM 13 "Please tell me your membership number.”
  • the user US and the operator OP talk about the utterance contents of the utterance voice COM14 "12345678”.
  • voice signals based on the uttered voices COM12 and COM14 of the user US are transmitted to the authentication analysis device P1. That is, when the processor 21 acquires a signal indicating that the authentication start button UI displayed on the information display terminal DP has been pressed, the processor 21 starts authentication from the speech signal input after acquiring the signal.
  • the authentication analysis device P1 performs authentication based on the acquired speech signal and displays the authentication result on the authentication result screen SC on the information display terminal DP.
  • the authentication result screen SC displays "Mr. Taro Yamada's voice matches.”
  • the authentication analysis device P1 can intentionally exclude unnecessary voice signals spoken by the user US from authentication for identity verification based on the operation of the operator OP. As a result, the authentication analysis device P1 can use only the required speech voice signal of the user US for authentication of identity verification, so that the accuracy of authentication can be improved.
  • FIG. 6A is a diagram showing presence/absence of emotion in an audio signal according to Embodiment 1.
  • FIG. 6A may be a speech audio signal.
  • the horizontal axis represents time and the vertical axis represents the intensity of emotion.
  • time progresses as it goes to the right, and on the vertical axis, the intensity of emotion increases as it goes up.
  • the emotion waveform Wa1 is a waveform that represents the intensity of the emotion identified by the emotion identifier 24.
  • the emotion waveform Wa1 is judged by the processor 21 to be emotional when it is equal to or greater than a predetermined threshold, and to be non-emotional when it is less than the threshold. That is, in the example shown in FIG. 6A, the emotion waveform Wa1 has an emotion in the section S1 and the other sections do not have the emotion.
  • FIG. 6B is a diagram showing processing of an audio signal depending on the presence or absence of emotion according to Embodiment 1.
  • FIG. 6B may be a speech audio signal or a concatenated audio signal.
  • the audio signal waveforms Sig2, Sig3, and Sig4 are connected audio signals, and are waveforms representing the strength of the audio signal.
  • the processor 21 determines the presence or absence of emotion. As a result, it is determined that the sections S2 and S3 of the audio signal waveform Sig2 have no emotion, and that the section S4 has emotion.
  • the processor 21 uses only the sections S2 and S3 of the audio signal waveform Sig2 determined to have no emotion for authentication, and does not use the section S4 determined to have emotion for authentication.
  • the authentication analysis device P1 deletes the audio signal in the section S4 and connects the audio signal waveform Sig3 in the section S2 and the audio signal waveform Sig4 in the section S3 to generate one connected audio signal. That is, the processor 21 determines whether or not the detection result of the intensity of emotion is equal to or greater than a predetermined threshold, and deletes the audio signal in the voice section in which the intensity of emotion is equal to or greater than the predetermined threshold. do.
  • the authentication analysis device P1 can delete voice signal sections that are not suitable for personal identification authentication due to heightened emotions, and can improve the accuracy of authentication.
  • FIG. 7A and 7B are diagrams showing processing for deleting repeated sections of an audio signal according to Embodiment 1.
  • FIG. 7A and 7B are diagrams showing processing for deleting repeated sections of an audio signal according to Embodiment 1.
  • the audio signal waveform Sig5 is the concatenated audio signal "Yes, I'm still here. It's Yamada Taro. Yes, please.”
  • the processor 21 decides to use the section S5 “yes not yet”, the section S6 “taro” and the section S7 “yoroshiku onegaishimasu” for authentication.
  • the processor 21 determines that the section S8 "Yamada” and the section S9 “desu yes", which have overlapping contents, are not used for authentication.
  • the processor 21 deletes the sections S8 and S9 and connects the audio signal waveform Sig6 of the section S5, the audio signal waveform Sig7 of the section S6, and the audio signal waveform Sig8 of the section S7 to generate one connected audio signal. That is, the processor 21 performs speech recognition on the speech signal, detects speech sections in which the utterance content overlaps among the speech recognition results of the speech signal, and deletes the speech signal in the detected overlapping speech section. .
  • the authentication analysis device P1 can delete the voice signal in the section where the utterance content overlaps in the voice signal, and can improve the accuracy of authentication.
  • FIG. 8 is a diagram showing a first screen example showing the authentication status according to the first embodiment
  • FIG. 9 is a diagram showing a second screen example showing the authentication status according to the first embodiment.
  • the display DP1 is an example of a screen displayed on the information display terminal DP by the display I/F 23.
  • the content displayed on the display DP1 includes at least the authentication result candidate of the speaker and the authentication result reliability of the authentication for personal identification.
  • the message Msg1 displays the information of the person closest to the user US among the user information stored in the registered speaker database DB in the authentication of identity verification.
  • the contents displayed in the message Msg1 are the portrait, name, gender, address, or telephone number of the candidate information column MN1.
  • the content displayed in the message Msg1 is an example and is not limited to these.
  • the authentication result candidate field MN2 displays the authentication result candidates for identity verification.
  • the authentication result candidate column MN2 may display the name of the candidate and the probability of being the user US for each candidate side by side.
  • the probability of being the user US may be a bar meter shown in the authentication result candidate field MN2 in FIG. 8, or may be a percentage.
  • Candidates with the highest probability of being the user US may be displayed in order from the top, in kana order, alphabetical order, or the order may be arbitrarily set by the operator OP.
  • the audio signal display field MN3 displays the waveform of the connected audio signal.
  • the audio signal waveform Sig9 is a concatenated speech audio signal, and is a waveform representing the strength of the audio signal.
  • the audio signal display field MN3 displays the section used for authentication of the audio signal waveform Sig9 and the section not used for authentication so that it can be understood. For example, in the example shown in FIG. 8, the background colors of sections S10, S11, S12, and S13 used for authentication of the audio signal waveform Sig9 are displayed in different colors. This makes it possible to visualize the emotional section and the repetition section of the utterance content in the speech signal waveform Sig9.
  • the display I/F 23 causes the information display terminal DP to display the determination result of the presence or absence of emotion by the processor 21 .
  • the operator OP may select an unnecessary voice section based on the determination result displayed by the display I/F 23 and delete the voice signal of the selected voice section.
  • the authentication result reliability meter MN4 is a meter display of the reliability of each of the number of speech phonemes and the total number of seconds of the speech signal waveform Sig9.
  • the button BT1 is an authentication start/stop button. As a result, the authentication can be started from the speech signal after the operator OP presses the button BT1.
  • FIG. 9 shows an example of a screen when authentication has progressed beyond the authentication status shown in FIG.
  • the authentication result candidate column MN2 displays the real-time candidate and the probability of being the user US of each candidate as the authentication of identity confirmation progresses.
  • the probability that the user US is "Taro Yamada” is increased compared to the authentication result candidate field MN2 shown in FIG. This allows the operator OP to know the authentication result candidates for real-time identity verification.
  • the audio signal waveform Sig10 displayed in the audio signal display field MN3 is a connected audio signal when the dialogue between the operator OP and the user US progresses more than the audio signal waveform Sig9.
  • the audio signal waveform Sig10 is added to the audio signal waveform Sig9 as the audio signal used for authentication in the section S14.
  • the authentication result reliability meter MN4 is a meter display of the reliability of each of the number of types of speech sounds and the total number of seconds of the voice signal waveform Sig10.
  • the reliability of the number of types of utterance sounds and the total number of seconds is the example shown in FIG. increase compared to This allows the operator OP to know the real-time reliability of the number of uttered phoneme types and the total number of seconds in authentication for identity verification.
  • the display I/F 23 updates the display content of the authentication status each time the speaker's authentication status by the processor 21 changes.
  • the authentication analysis device P1 causes the information display terminal DP to display the authentication result of the identity verification of the processor 21 in real time.
  • the operator OP can confirm the authentication status of the identity verification in real time, and the work efficiency of the operator OP can be improved.
  • FIG. 10 is a flowchart illustrating an example of an operation procedure of the authentication analysis device according to Embodiment 1.
  • FIG. 10 is a flowchart illustrating an example of an operation procedure of the authentication analysis device according to Embodiment 1.
  • the communication unit 20 in the authentication analysis device P1 acquires the voice signal (or voice data) transmitted from the operator side telephone terminal OP1 (St11).
  • the display I/F 23 in the authentication analysis device P1 acquires a signal indicating whether or not the authentication start button displayed on the information display terminal DP has been pressed (St12).
  • the process returns to step St11.
  • the display I/F 23 acquires the signal indicating that the authentication start button has been pressed (St12, YES)
  • the display I/F 23 outputs the audio signal acquired by the communication unit 20 to the processor 21 in the process of step St11.
  • the processor 21 starts authentication of the user US who is the target of voice authentication of the acquired voice signal (St13).
  • the speech period detection unit 21A in the processor 21 detects the speech period from the acquired audio signal (St14).
  • the speech segment detection unit 21A detects information on the detected speech segment (for example, the start time and end time of the speech segment, the number of characters, the number of speech sound types, the signal length (speech voice length, the number of seconds of speech, etc.), or speech speed after speech speed conversion) is stored in the memory 22 (St15).
  • information on the detected speech segment for example, the start time and end time of the speech segment, the number of characters, the number of speech sound types, the signal length (speech voice length, the number of seconds of speech, etc.), or speech speed after speech speed conversion
  • the speech period detection unit 21A selects one or more speech audio signals used for user authentication based on the currently set user authentication processing method (St16). Although not shown in FIG. 10, when the authentication analysis device P1 determines that there is no speech signal used for user authentication based on the currently set user authentication processing method, step St14 A new speech segment may be detected by returning to the processing of . The speech period detection unit 21A outputs the selected speech audio signal to the speech linking unit 21B.
  • the speech connection unit 21B executes speech connection processing to connect each of the selected one or more speech audio signals to generate a connection audio signal (St17).
  • the speech connecting unit 21B outputs the generated connected speech signal to the reliability calculation unit 21E.
  • the reliability calculation unit 21E calculates the reliability using the connected speech signal generated in the process of step St17 (St18).
  • the reliability calculated in the process of step St18 is the reliability of the total number of seconds of the connected voice signal and the number of types of speech sounds.
  • the reliability calculated by the process of step St18 is not limited to these.
  • the display I/F 23 displays or updates the reliability calculated in the process of step St18 on the information display terminal DP (St19).
  • the reliability calculation unit 21E determines whether or not the reliability calculated in the process of step St18 is equal to or greater than a predetermined threshold (St20). In the process of step St20, when the reliability is less than the threshold (St20, NO), the authentication analysis device P1 determines whether or not to continue authentication for identity verification (St21). If the reliability calculation unit 21E determines whether or not to continue authentication for personal identification, for example, if it determines that the current number of authentications is less than the predetermined upper limit of the number of authentications (St21, YES), the processor 21 returns to the process of step St14. The reliability calculation unit 21E determines whether or not to continue authentication for identity verification. Based on the received voice signal, it is determined that the user authentication has failed (St22). The display I/F 23 generates an authentication result screen notifying that the user authentication has failed, and outputs it to the information display terminal DP. The information display terminal DP outputs (displays) the authentication result screen transmitted from the authentication analysis device P1.
  • step St20 if the reliability is equal to or greater than the threshold (St20, YES), the reliability calculation unit 21E outputs the connected speech signal to the feature quantity extraction unit 21C.
  • the feature quantity extraction unit 21C extracts an utterance feature quantity of the individual user US from the connected speech signal output from the reliability calculation unit 21E (St23).
  • the feature amount extraction unit 21C outputs the extracted speech feature amount of the individual user US to the similarity calculation unit 21D.
  • the similarity calculation unit 21D refers to the utterance feature amount of each of the plurality of users registered in the registered speaker database DB, and extracts the utterance feature amount of the individual user US output from the feature amount extraction unit 21C and the registered speaker A degree of similarity with each of the utterance feature amounts of a plurality of users registered in the database DB is calculated (St24).
  • the similarity calculation unit 21D determines whether or not there is a user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St25).
  • the similarity calculation unit 21D determines in the process of step St25 that there is a user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St25, YES), This user is determined to be the user US of the voice signal (St26).
  • the similarity calculator 21D may determine that the user with the highest similarity is the user US of the audio signal.
  • the similarity calculation unit 21D When determining that the user is specified, the similarity calculation unit 21D outputs information about the specified user (that is, the authentication result) to the display I/F 23, and the display I/F 23 is output by the similarity calculation unit 21D. Based on the received information, an authentication result screen SC is generated and output to the information display terminal DP (St27).
  • the similarity calculation unit 21D determines in the process of step St25 that there is no user whose similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St25, NO ), to determine whether or not to continue authentication for identity verification, for example, it is determined whether or not the current number of times of user authentication processing is equal to or greater than the set upper limit number of times (St21).
  • step St21 the similarity calculation unit 21D determines whether or not to continue authentication for identity verification. St21, NO), it is determined that user authentication has failed based on the acquired voice signal (St22).
  • the display I/F 23 generates an authentication result screen notifying that the user authentication has failed, and outputs it to the information display terminal DP.
  • the information display terminal DP outputs (displays) the authentication result screen transmitted from the authentication analysis device P1.
  • the authentication analysis device P1 according to Embodiment 1 can execute user authentication processing using a speech voice signal more suitable for user authentication processing by a predetermined user authentication processing method. As a result, the authentication analysis device P1 according to Embodiment 1 can improve the accuracy of user authentication.
  • the authentication analysis device P1 detects the speaker's speech based on the comparison between the speech period detection unit 21A that acquires and detects the speech signal of the speech speech of the speaker and the registered speaker database DB. and a display I/F 23 for displaying on the information display terminal DP the authentication status indicating whether or not the speaker is the person based on the authentication result of the processor 21. , the display I/F 23 updates the display contents of the authentication status each time the speaker authentication status by the processor 21 changes.
  • the authentication analysis device P1 causes the information display terminal DP to display the authentication result of the identity verification of the processor 21 in real time.
  • the operator OP can confirm the authentication status of the identity verification in real time, and the work efficiency of the operator OP can be improved.
  • the processor 21 according to Embodiment 1 calculates the total time of the audio signal and the number of sounds included in the audio signal, and calculates the total time based on the calculation result of the total time and the number of types of sounds and a predetermined criterion. A first reliability based on time and a second reliability based on the number of sound types are determined. As a result, the reliability of the authentication result of the identity verification of the speaker is calculated, and the reliability is notified to the operator OP in real time. OP's work efficiency can be improved.
  • the processor 21 according to Embodiment 1 determines the higher one of the first reliability and the second reliability as the reliability corresponding to the audio signal. As a result, if either one of the first reliability and the second reliability satisfies a predetermined criterion, the reliability determination can be completed. can be shortened.
  • the processor 21 according to Embodiment 1 determines whichever of the first reliability and the second reliability is lower as the reliability corresponding to the audio signal. As a result, the reliability determination is completed when both the first reliability and the second reliability meet the predetermined determination criteria, so that the authentication accuracy can be improved.
  • the processor 21 when the processor 21 according to the first embodiment acquires a signal indicating that the authentication start button displayed on the information display terminal DP has been pressed, it starts authentication from the voice signal input after acquiring the signal. As a result, since the operator OP can start the authentication of the identity verification of the speaker, the operator OP can inform the user US that the authentication will be started before starting the authentication. Further, if the operator OP determines that the authentication is unnecessary, the authentication can be disabled.
  • the authentication analysis device P1 further includes an emotion identifier 24 that detects the strength of emotion during conversation of the speaker based on the voice signal. is greater than or equal to a predetermined threshold value, and deletes voice signals in voice sections in which the intensity of emotion is greater than or equal to the predetermined threshold value. As a result, the authentication analysis device P1 detects and deletes voice segments that are not suitable for identity verification, thereby improving authentication accuracy.
  • the authentication analysis device P1 further includes an emotion identifier 24 that detects the strength of emotion during conversation of the speaker based on the voice signal.
  • the display I/F 23 displays the determination result on the information display terminal DP, and displays the determination result displayed by the display I/F 23. Deletes the audio signal of the audio section selected by the user's operation. As a result, the operator OP can arbitrarily delete the detected voice section that is not suitable for personal identification, thereby improving authentication accuracy.
  • the processor 21 performs speech recognition on the speech signal, detects a speech section in which the utterance content overlaps among the speech recognition results of the speech signal, and detects the overlapped speech section to remove the audio signal of As a result, the authentication analysis device P1 deletes the voice section of the utterance content that overlaps in the utterance voice signal and the concatenated voice signal, thereby making it possible to improve the efficiency of identity verification.
  • the display content of the authentication status according to Embodiment 1 has at least the authentication result candidate of the speaker and the authentication result reliability of the authentication.
  • the operator OP can confirm the authentication status of personal identification in real time, and the work efficiency of the operator OP can be improved.
  • FIG. 11 is a block diagram showing an internal configuration example of an authentication analysis device according to Embodiment 2.
  • Authentication analysis device P2 includes at least a communication unit 20, a processor 21H, and a memory 22H.
  • the memory 22H further has a question example sentence data holding section 22C compared to the first embodiment.
  • the processor 21H uses programs and data stored in the ROM 22A of the memory 22H to perform an utterance segment detection unit 21A, an utterance linking unit 21B, a feature amount extraction unit 21C, a similarity calculation unit 21D, a phoneme analysis unit 21F, and an example sentence selection unit. Each function of the part 21G is realized.
  • the processor 21H uses the RAM 22B of the memory 22H during operation, and temporarily stores data or information generated or acquired by the processor 21H and each unit in the RAM 22B of the memory 22H.
  • the example sentence selection unit 21G which is an example of an authentication unit, selects a question example sentence to be displayed on the information display terminal DP from among a plurality of question example sentences held in the question example sentence data holding unit 22C.
  • the example sentence selection unit 21G selects an appropriate question example sentence and displays it on the information display terminal DP in order to improve the accuracy of identity verification.
  • the example sentence selection unit 21G may select a question example sentence immediately after the start of authentication and display it on the information display terminal DP.
  • the example sentence selection unit 21G selects a question example sentence and displays it on the information display terminal DP at the timing when the similarity calculation unit 21D determines that the similarity of the speech signal or the concatenated speech signal is equal to or less than the threshold value after the authentication has progressed. may Further, the example sentence selection unit 21G may select a question example sentence and display it on the information display terminal DP based on the analysis result of the phoneme analysis unit 21F after the authentication has progressed.
  • the question example sentence data holding unit 22C which is an example of an authentication unit, holds data of question example sentences selected by the example sentence selection unit 21G and displayed on the information display terminal DP.
  • the question example data holding unit 22C holds a plurality of questions as question examples for obtaining voice signals used for speaker authentication by the processor 21H.
  • the question example data holding unit 22C may be provided in the memory 22H, or may be located outside the authentication analysis device P2 and connected to the authentication analysis device P2 so as to be capable of data communication.
  • the phoneme analysis unit 21F which is an example of the authentication unit, extracts phonemes included in the speech signal of the speaker detected by the speech period detection unit 21A.
  • definitions of phonemes calculated by the phoneme analysis unit 21F according to the second embodiment will be described. For example, if the utterance voice signal is "Yamada Taro desu", the corresponding phoneme is "yamada taro u de su”. That is, in the second embodiment, the number of utterance phonemes is defined as one phoneme each of consonants and vowels, such as "y" and "a".
  • FIG. 12 is a diagram showing a question example according to the second embodiment.
  • the table TBL3 is an example of question example items other than "name” and "membership number”. Items of the question example shown in the table TBL3 include "address”, “telephone number”, “date of birth”, “password for telephone procedure” and "kana character”. It should be noted that these are examples of question example items, and needless to say, the items are not limited to these.
  • Password for telephone procedures in table TBL3 is a password containing phonemes that are not included in personal information such as "name”, “membership number”, “address”, “telephone number” and "date of birth”. This is an example of the issued question.
  • “Kana character” in the table TBL3 is an example question of kana character that extracts additional phonemes that could not be obtained from the speech signal of the user US for the question examples of "address”, "telephone number” and "date of birth”. be.
  • the speech phoneme is analyzed by the phoneme analysis unit 21F. For example, if the utterance phoneme of the line ka cannot be obtained, it will be asked, "For identity verification, could you say 'Kaki ku keko'?” ”, If the utterance phoneme of the T line is not obtained, “For identity verification, could you say ⁇ Tachitetsuto''? ” is an example question.
  • the example question is a question that asks the speaker to answer at least one of the address, telephone number, date of birth, password containing phonemes not included in the speaker's personal information, or kana characters.
  • FIG. 13 is a diagram showing an example question displayed on the information terminal device according to the second embodiment.
  • the question screen Msg2 is an example of a question example screen displayed on the information display terminal DP.
  • a question example sentence related to the question screen Msg2 is selected by the example sentence selection unit 21G. Note that the question screen Msg2 is not limited to this.
  • the question screen Msg2 displays "Could you tell me your registered address?” as an example question with priority 1.
  • the question screen Msg2 displays "Could you tell me your registered phone number?” as an example question with the second priority.
  • the question screen Msg2 displays "Could you tell us your date of birth?" as an example question with priority 3.
  • the question screen Msg2 displays "Could you tell me your password for telephone procedures for personal authentication?” as an example question with priority 4.
  • an example question with a priority of 5 is "For identity verification, could you say 'Kakikukeko'?" (or line)” is displayed.
  • the question screen Msg2 may display multiple question examples at once, or may display only the question example with the highest priority.
  • the display I/F 23 causes the information display terminal DP to display the question example sentences selected by the example sentence selection unit 21G.
  • FIG. 14 is a diagram showing the relationship between each number of phonemes and thresholds according to the second embodiment.
  • Graph Gr1 is a bar graph showing the number of utterance phonemes of each utterance phoneme calculated by the phoneme analysis unit 21F.
  • the graph Gr1 shows a predetermined threshold and speech phonemes below the threshold.
  • speech phoneme L1 “k”, speech phoneme L2 “t”, speech phoneme L3 “r”, and speech phoneme L4 “j” are speech phonemes whose number of speech phonemes is equal to or less than the threshold.
  • the example sentence selection unit 21G may select the question example sentence.
  • the example sentence selection unit 21G may select from the question example sentence data holding unit 22C a question example sentence from which at least one of the utterance phonemes L1, L2, L3, and L4 can be collected from the speech signal when the user speaks. good.
  • Graph Gr1 may be arranged in alphabetical order of the number of utterance phonemes of each utterance phoneme calculated by the phoneme analysis unit 21F, or may be arranged in order of the number of utterance phonemes. Also, the graph Gr1 displays only the speech phonemes included in the speech signal or the concatenated speech signal, but the speech phonemes that are not included may also be displayed.
  • the example sentence selection unit 21G selects a question example sentence that prompts an utterance that includes an utterance phoneme that is not included in the utterance voice signal or the concatenated voice signal, based on the utterance phonemes extracted by the phoneme analysis unit 21F. Further, the example sentence selection unit 21G selects a question example sentence including an utterance phoneme whose number of utterance phonemes is less than a predetermined threshold based on the number of utterance phonemes of each utterance phoneme extracted by the phoneme analysis unit 21F.
  • FIG. 15 is a flow chart showing an example of an operation procedure of the authentication analysis device when displaying an example question immediately after starting authentication according to the second embodiment.
  • the communication unit 20 in the authentication analysis device P2 acquires the voice signal (or voice data) transmitted from the operator side telephone terminal OP1 (St31).
  • the display I/F 23 in the authentication analysis device P2 acquires a signal indicating whether or not the authentication start button displayed on the information display terminal DP has been pressed (St32).
  • the process returns to step St31.
  • the display I/F 23 acquires the signal indicating that the authentication start button has been pressed (St32, YES)
  • the display I/F 23 outputs the audio signal acquired by the communication unit 20 to the processor 21H in the process of step St31.
  • the processor 21H starts authentication of the user US who is the subject of voice authentication of the acquired voice signal (St33).
  • the example sentence selection unit 21G acquires a question example sentence from the question example sentence data storage unit 22C and selects a question example sentence to be displayed on the information display terminal DP.
  • Example sentence selection unit 21G transmits a signal including the content of the selected question example sentence to display I/F 23 .
  • the display I/F 23 acquires the signal including the content of the selected example question, the display I/F 23 displays the example question selected by the example sentence selection unit 21G immediately after the start of authentication (St34).
  • the speech period detection unit 21A in the processor 21H detects the speech period from the acquired audio signal (St14).
  • the speech segment detection unit 21A detects information on the detected speech segment (for example, the start time and end time of the speech segment, the number of characters, the number of speech phonemes, the signal length (speech voice length, the number of seconds of speech, etc.), before speech speed conversion or speech speed after speech speed conversion) is stored in the memory 22H (St36).
  • information on the detected speech segment for example, the start time and end time of the speech segment, the number of characters, the number of speech phonemes, the signal length (speech voice length, the number of seconds of speech, etc.), before speech speed conversion or speech speed after speech speed conversion
  • the speech period detection unit 21A selects one or more speech audio signals used for user authentication based on the currently set user authentication processing method (St37). Although not shown in FIG. 10, when the authentication analysis device P2 determines that there is no utterance voice signal used for user authentication based on the currently set user authentication processing method, step St35 A new speech segment may be detected by returning to the processing of .
  • the speech segment detection unit 21A outputs the selected speech audio signal to the phoneme analysis unit 21F.
  • the phoneme analysis unit 21F executes a process of analyzing the utterance phonemes of the utterance audio signal selected in the process of step St37 (St38).
  • the phoneme analysis unit 21F outputs the analyzed speech audio signal to the speech connection unit 21B.
  • the speech linking unit 21B executes voice linking processing to link each of the selected one or more speech audio signals to generate a linked audio signal (St39).
  • the utterance connecting unit 21B outputs the generated connected speech signal to the similarity calculating unit 21D.
  • the similarity calculation unit 21D calculates the degree of similarity between the utterance voice signal of the speaker's reply to the question example and the utterance voice signal registered in the registered speaker database DB (St40).
  • the utterance connecting unit 21B may output the connected speech signal generated in the process of step St39 to the feature quantity extracting unit 21C. That is, the similarity calculation unit 21D refers to the utterance feature amount of each of the plurality of users, and the utterance feature amount of the individual user US output from the feature amount extraction unit 21C and the plurality of registered speaker database DB may calculate the similarity with each user's utterance feature amount.
  • the similarity calculation unit 21D calculates the similarity with the utterance feature amount of a specific user registered in the registered speaker database DB instead of the utterance feature amount of each of the plurality of users registered in the registered speaker database DB. degrees can be calculated.
  • the similarity calculation unit 21D transmits a signal including the calculated similarity to the display I/F 23.
  • the display I/F 23 receives the signal including the degree of similarity, it causes the information display terminal DP to display the result of the degree of similarity calculated (St41).
  • the similarity calculation unit 21D determines whether or not there is a user whose calculated similarity is equal to or higher than a predetermined threshold among the plurality of users registered in the registered speaker database DB (St42).
  • the similarity calculation unit 21D determines in the process of step St42 that there is a user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St42, YES), This user is determined to be the user US of the voice signal (St45).
  • the similarity calculator 21D may determine that the user with the highest similarity is the user US of the audio signal.
  • the similarity calculation unit 21D When determining that the user is specified, the similarity calculation unit 21D outputs information about the specified user (that is, the authentication result) to the display I/F 23, and the display I/F 23 is output by the similarity calculation unit 21D. Based on the received information, an authentication result screen SC is generated and output to the information display terminal DP (St46).
  • the similarity calculation unit 21D determines in the process of step St42 that there is no user whose similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St42, NO ), the similarity calculation unit 21D determines whether or not to continue authentication for identity verification (St43).
  • step St43 the similarity calculation unit 21D determines whether or not to continue authentication for identity verification. St43, NO), it is determined that user authentication has failed based on the acquired voice signal (St44).
  • the display I/F 23 generates an authentication result screen notifying that the user authentication has failed, and outputs it to the information display terminal DP.
  • the information display terminal DP outputs (displays) the authentication result screen transmitted from the authentication analysis device P2 (St46).
  • step Return to the processing of St34.
  • FIG. 16 is a diagram showing a screen example when the question example sentence display function according to the second embodiment is turned off.
  • the display DP2 is an example of a screen showing the authentication status displayed to the operator OP.
  • Information IF1 displays the candidate's personal information as a result of authentication.
  • Personal information is name, phone number, address or membership number. In addition, personal information is not limited to these.
  • the information IF1 may display the first candidate of the authentication result, or may display a plurality of candidates.
  • Information IF2 displays the facial photograph of the candidate of the authentication result.
  • the authentication result candidate field MN5 displays the authentication result candidates for identity verification.
  • the authentication result candidate column MN5 may display together the name of the candidate and the probability of being the user US for each candidate.
  • the probability of being the user US may be a bar meter shown in the authentication result candidate field MN5 in FIG. 8, or may be a percentage.
  • the authentication result candidate column MN5 may display the candidates with the highest probability of being the user US in order from the top, or may display the candidates in kana or alphabetical order. may be set.
  • the question example sentence display field MN6 displays the question example sentence selected by the example sentence selection unit 21G. In the example of FIG. 16, since the question example display function is turned off, the question example is not displayed in the question example display field MN6.
  • the audio signal display field MN7 displays the waveform of the real-time connected audio signal.
  • "under phoneme analysis” may be displayed in the speech signal display field MN7.
  • the button BT2 is an authentication start/stop button. By pressing the button BT2, the operator OP can operate to start and stop authentication of identity verification.
  • the button BT3 is a button for turning on/off the question example display function. By pressing the button BT3, the operator OP can operate whether or not to display the question example sentences in the question example sentence display field MN6.
  • Information IF3 displays the number of speech phonemes, the speech length (that is, the total time), and the number of speech segments in real time.
  • FIG. 17 is a diagram showing a screen example when the question example sentence display function according to the second embodiment is on. Note that the description of the parts that overlap with FIG. 16 will be omitted.
  • the question example sentence selected by the example sentence selection unit 21G is displayed in the question example sentence display field MN6.
  • the question example display field MN6 for example, "Question example: For identity verification, could you speak 'Kakikukeko'?" (or line)" is displayed.
  • FIGS. 16 and 17 are only examples, and are not limited to these.
  • FIG. 18 is a flow chart showing an operation procedure example of the authentication analysis apparatus according to the second embodiment when an example question is displayed during authentication for personal identification.
  • the communication unit 20 in the authentication analysis device P2 acquires the voice signal (or voice data) transmitted from the operator side telephone terminal OP1 (St51).
  • the display I/F 23 in the authentication analysis device P2 acquires a signal indicating whether or not the authentication start button displayed on the information display terminal DP has been pressed (St52).
  • the process returns to step St51.
  • the display I/F 23 acquires the signal indicating that the authentication start button has been pressed (St52, YES)
  • the display I/F 23 outputs the audio signal acquired by the communication unit 20 to the processor 21 in the process of step St51.
  • the processor 21H starts authentication of the user US who is the subject of voice authentication of the acquired voice signal (St53).
  • the speech period detection unit 21A in the processor 21H detects the speech period from the acquired audio signal (St54).
  • the speech segment detection unit 21A detects information on the detected speech segment (for example, the start time and end time of the speech segment, the number of characters, the number of speech phonemes, the signal length (speech voice length, the number of seconds of speech, etc.), before speech speed conversion or speech speed after speech speed conversion) is stored in the memory 22H (St55).
  • information on the detected speech segment for example, the start time and end time of the speech segment, the number of characters, the number of speech phonemes, the signal length (speech voice length, the number of seconds of speech, etc.), before speech speed conversion or speech speed after speech speed conversion
  • the speech period detection unit 21A selects one or more speech audio signals used for user authentication based on the currently set user authentication processing method (St56). Although not shown in FIG. 10, when the authentication analysis device P2 determines that there is no speech signal used for user authentication based on the currently set user authentication processing method, step St54 A new speech segment may be detected by returning to the processing of .
  • the speech segment detection unit 21A outputs the selected speech audio signal to the phoneme analysis unit 21F.
  • the phoneme analysis unit 21F executes a process of analyzing the utterance phonemes of the utterance audio signal selected in the process of step St56 (St57).
  • the phoneme analysis unit 21F outputs the analyzed speech audio signal to the speech connection unit 21B.
  • the speech connection unit 21B executes speech connection processing to connect each of the selected one or more speech audio signals to generate a connection audio signal (St58).
  • the utterance connecting unit 21B outputs the generated connected speech signal to the similarity calculating unit 21D.
  • the similarity calculation unit 21D calculates the degree of similarity between the utterance voice signal of the speaker's reply to the question example and the utterance voice signal registered in the registered speaker database DB (St59).
  • the utterance connecting unit 21B may output the connected speech signal generated by the process of step St39 to the feature quantity extracting unit 21C. That is, the similarity calculation unit 21D refers to the utterance feature amount of each of the plurality of users, and the utterance feature amount of the individual user US output from the feature amount extraction unit 21C and the plurality of registered speaker database DB may calculate the similarity with each user's utterance feature amount.
  • the similarity calculation unit 21D transmits a signal including the calculated similarity to the display I/F 23.
  • the display I/F 23 acquires the signal including the degree of similarity
  • the display I/F 23 displays the result of the degree of similarity calculated on the information display terminal DP (St60).
  • the similarity calculation unit 21D determines whether or not there is a user whose calculated similarity is equal to or higher than a predetermined threshold among the plurality of users registered in the registered speaker database DB (St61).
  • the similarity calculation unit 21D determines in the process of step St61 that there is a user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St61, YES), this It is determined that the user is the user US of the voice signal (St62).
  • the similarity calculator 21D may determine that the user with the highest similarity is the user US of the audio signal.
  • the similarity calculation unit 21D determines that the user has been specified, it outputs information about the specified user (that is, the authentication result) to the display I/F 23, and the display I/F 23 outputs the An authentication result screen SC is generated based on the output information and output to the information display terminal DP (St63).
  • the similarity calculation unit 21D determines in the process of step St61 that there is no user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St61, NO ), the similarity calculation unit 21D continues authentication for identity verification (St64).
  • the similarity calculation unit 21D determines whether or not to continue authentication for identity verification. St64, NO), it is determined that the user authentication has failed based on the acquired voice signal (St65).
  • the display I/F 23 generates an authentication result screen notifying that the user authentication has failed, and outputs it to the information display terminal DP.
  • the information display terminal DP outputs (displays) the authentication result screen transmitted from the authentication analysis device P2 (St63).
  • the similarity calculation unit 21D determines whether or not to continue authentication for identity verification, for example, when determining that the current number of authentications is less than the predetermined upper limit of the number of authentications (St64, YES), the similarity calculation unit 21D The degree calculation unit 21D outputs the determination result to the example sentence selection unit 21G.
  • the example sentence selection unit 21G determines whether to display the question example sentence (St66). The determination of whether to display the question example sentence may be made by the similarity calculation unit 21D, or may be made by the example sentence selection unit 21G with respect to the number of uttered phonemes or a predetermined threshold related to similarity. Alternatively, it may be performed depending on whether or not the operator OP presses a button for displaying or not displaying the question example displayed on the information display terminal DP.
  • the process returns to step St54.
  • the example sentence selection unit 21G determines that display of the question example sentence is necessary (St66, required)
  • the example sentence selection unit 21G outputs the determination result to the display I/F 23 .
  • the display I/F 23 causes the information display terminal DP to display the question example sentence (St67), and returns to the process of step St54.
  • the processor 21H calculates the degree of similarity between the utterance voice signal acquired after the start of authentication and the voice signal registered in the registered speaker database DB.
  • the processor 21H determines whether or not the question example sentence needs to be displayed when the degree of similarity is equal to or less than a predetermined threshold.
  • the display I/F 23 causes the information display terminal DP to display the question example sentence selected by the example sentence selection unit 21G.
  • the authentication analysis device P2 detects the speaker's speech based on the comparison between the speech period detection unit 21A that acquires and detects the speech signal of the speech speech of the speaker and the registered speaker database DB.
  • a processor 21H for authenticating whether or not the speaker is the person in question;
  • a question example data storage unit 22C that holds a plurality of question examples as question examples for obtaining voice signals used for speaker authentication by the processor 21H;
  • a display interface 23 for displaying example sentences on the information display terminal DP; Prepare.
  • the authentication analysis device P2 can select an example question and display it on the information display terminal DP in order to acquire the voice signal necessary for authenticating the identity of the speaker.
  • the operator OP can authenticate the customer's identity with high accuracy.
  • the authentication analysis device P2 further includes a phoneme analysis unit 21F that extracts utterance phonemes included in the speaker's voice signal detected by the utterance period detection unit 21A. Based on the utterance phonemes extracted by the phoneme analysis unit 21F, the example sentence selection unit 21G selects a question example sentence that prompts an utterance including a utterance phoneme that is not included in the speech signal. As a result, the authentication analysis device P2 can select a question example sentence for eliciting an uncollected utterance phoneme. This allows the operator OP to efficiently authenticate the identity of the speaker.
  • the display I/F 23 displays the question example sentences selected by the example sentence selection unit 21G on the information display terminal DP.
  • the operator OP can ask the customer a question sentence for eliciting the uncollected utterance phoneme, and the customer's identity can be authenticated with high accuracy.
  • the display I/F 23 displays the question example sentence selected by the example sentence selection unit 21G on the information display terminal DP immediately after the start of authentication.
  • the processor 21H calculates the degree of similarity between the speech signal of the utterance speech that the speaker answers to the question example sentence and the speech signal registered in the registered speaker database DB, and if the degree of similarity is equal to or greater than a predetermined threshold value. If so, authenticate the speaker.
  • the operator OP can smoothly ask the speaker an example sentence that draws out the utterance phonemes necessary for authenticating the identity of the speaker. This allows the operator OP to efficiently authenticate the identity of the speaker.
  • the processor 21H calculates the degree of similarity between the speech signal acquired after the start of authentication and the speech signal registered in the registered speaker database DB, and if the similarity is equal to or less than a predetermined threshold, If there is, it is determined whether or not the question example sentence needs to be displayed.
  • the display I/F 23 causes the information display terminal DP to display the question example sentence selected by the example sentence selection unit 21G.
  • the authentication analysis device P2 causes the information display terminal DP to display a question example sentence for eliciting the utterance phoneme necessary for authentication of identity verification.
  • the operator OP can perform the authentication of the customer's identity with high accuracy.
  • the phoneme analysis unit 21F calculates the number of each of the extracted phonemes.
  • the example sentence selection unit 21G selects a question example sentence including an utterance phoneme whose number of utterance phonemes is less than a predetermined threshold.
  • the authentication analysis device P2 can display, on the information display terminal DP, an example question for eliciting speech phonemes whose number of speech phonemes is less than the threshold among the collected speech phonemes.
  • the operator OP can perform the authentication of the customer's identity with high accuracy.
  • the processor 21H when the processor 21H according to the second embodiment acquires a signal indicating that the authentication start button displayed on the information display terminal DP has been pressed, it starts authentication from the voice signal input after acquiring the signal. As a result, since the operator OP can start the authentication of the identity verification of the speaker, the operator OP can inform the user US that the authentication will be started before starting the authentication. Further, if the operator OP determines that the authentication is unnecessary, the authentication can be disabled.
  • the example question according to the second embodiment is a question sentence in which the speaker is asked to answer at least one of an address, a telephone number, a date of birth, a password including a phoneme not included in the speaker's personal information, or kana characters. is.
  • the authentication analysis device P2 can efficiently acquire the utterance voice signal used for authentication of identity verification.
  • the operator OP can perform authentication for personal identification with high accuracy, and can perform authentication in a short time and with high efficiency.
  • the technology of the present disclosure enables the operator to check the authentication status of customer identity verification in real time, supports the improvement of the operator's work efficiency, and provides an authentication device and authentication method that can perform identity verification with high accuracy. Useful as an offer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

認証装置は、話者の発話音声の音声信号を取得して検出する取得部と、前記取得部により検出された音声信号と、データベースとの照合とに基づいて、話者が本人であるか否かを認証する認証部と、認証部による話者の認証に用いる音声信号を取得するための質問を質問例文として複数保持する保持部と、話者に対する質問例文を端末装置に表示させる表示インターフェースと、保持部に保持された複数の質問例文の中から端末装置に表示する質問例文を選択する例文選択部と、を備える。

Description

認証装置および認証方法
 本開示は、認証装置および認証方法に関する。
 特許文献1には、コールセンタにおいて、オペレータの顧客の本人確認作業およびその他の確認作業を効率化するオペレータ本人確認システムが開示されている。このオペレータ本人確認システムでは、音声認識サーバは、顧客およびオペレータの発話を音声認識しテキスト出力して、音声認識結果のテキストを日時情報と共に、顧客とオペレータの発話を記憶する。次に、解析サーバのキーワード抽出部が、音声認識結果のテキストを読み出し、顧客およびオペレータの発話の組に含まれる確認項目のキーワードを予め定められた確認項目キーワードリストから抽出する。次に、解析サーバのキーワード突合部が、抽出された確認項目のキーワードと、会員マスタDBに格納された顧客の会員基本情報とを突合し、両者が合致した場合に、当該確認項目の確認完了と判断する。そして、予め定められた本人確認項目すべての確認が完了した際に、本人確認完了通知をオペレータ端末に表示させる。本人確認完了通知は、顧客の端末にも送信される。
日本国特開2014-197140号公報
 特許文献1では、本人確認作業のために予め用意された全ての本人確認項目の確認の判定が終了するまではオペレータの端末に本人確認が完了した旨の表示がなされない。このため、全ての本人確認項目の確認が判定されるまでは、オペレータの通話相手が正当な顧客(つまり本人)であるか否かを検証する認証処理の進行状況がリアルタイムに表示されず、認証処理が現在どの程度進んでいるかを把握する術がなかった。そのため、顧客の本人確認完了後に開始される本題内容をオペレータが会話するタイミングが遅くなり、オペレータの作業効率が悪いという問題があった。
 本開示は、上述した従来の状況に鑑みて案出され、オペレータがリアルタイムに顧客の本人確認の認証状況を確認できるようにし、オペレータの作業効率の向上を支援する認証装置および認証方法を提供することを目的とする。
 本開示は、話者の発話音声の音声信号を取得して検出する取得部と、前記取得部により検出された前記音声信号と、データベースとの照合とに基づいて、前記話者が本人であるか否かを認証する認証部と、前記認証部の認証結果に基づき前記話者が本人であるか否かを示す認証状況を端末装置に表示させる表示インターフェースと、を備え、前記表示インターフェースは前記認証部による前記話者の認証状況が変化するたびに認証状況の表示内容を更新する認証装置を提供する。
 また、本開示は、1以上のコンピュータが行う認証方法であって、話者の発話音声の音声信号を取得して検出し、検出された前記音声信号と、データベースとの照合に基づいて、前記話者が本人であるか否かを認証し、認証結果に基づき前記話者が本人であるか否かを示す認証状況を表示し、前記話者の認証状況が変化するたびに前記認証状況の表示内容を更新する認証方法を提供する。
 なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、オペレータがリアルタイムに顧客の本人確認の認証状況を確認できるようし、オペレータの作業効率の向上を支援することができる。
実施の形態1および2に係る音声認証システムのユースケースの一例を示す図 実施の形態1に係る認証解析装置の内部構成例を示すブロック図 実施の形態1に係る音声信号と信頼度との第1の関係を示す図 実施の形態1に係る音声信号と信頼度との第2の関係を示す図 実施の形態1に係る認証開始ボタン押下後に認証を開始する例を示す図 実施の形態1に係る音声信号の感情の有無を示す図 実施の形態1に係る感情の有無による音声信号の処理を示す図 実施の形態1に係る音声信号の繰り返し区間を削除する処理を示す図 実施の形態1に係る認証状況を表す第1の画面例を示す図 実施の形態1に係る認証状況を表す第2の画面例を示す図 実施の形態1に係る認証解析装置の動作手順例を示すフローチャート 実施の形態2に係る認証解析装置の内部構成例を示すブロック図 実施の形態2に係る質問例を示す図 実施の形態2に係る情報端末装置に表示される質問例文を示す図 実施の形態2に係る各音素数と閾値との関係を示す図 実施の形態2に係る認証開始直後に質問例文を表示する場合の認証解析装置の動作手順例を示すフローチャート 実施の形態2に係る質問例文表示機能がオフの場合の画面例を示す図 実施の形態2に係る質問例文表示機能がオンの場合の画面例を示す図 実施の形態2に係る本人確認の認証の途中で質問例文を表示する場合の認証解析装置の動作手順例を示すフローチャート
 以下、図面を適宜参照して、本開示に認証装置および認証方法を具体的に開示した実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。
 (実施の形態1に至る経緯)
 特許文献1には、コールセンタにおいて、オペレータの顧客の本人確認作業およびその他の確認作業を効率化するオペレータ本人確認システムが開示されている。このオペレータ本人確認システムでは、音声認識サーバは、顧客およびオペレータの発話を音声認識しテキスト出力して、音声認識結果のテキストを日時情報と共に、顧客とオペレータの発話を記憶する。次に、解析サーバのキーワード抽出部が、音声認識結果のテキストを読み出し、顧客およびオペレータの発話の組に含まれる確認項目のキーワードを予め定められた確認項目キーワードリストから抽出する。次に、解析サーバのキーワード突合部が、抽出された確認項目のキーワードと、会員マスタDBに格納された顧客の会員基本情報とを突合し、両者が合致した場合に、当該確認項目の確認完了と判断する。そして、予め定められた本人確認項目すべての確認が完了した際に、本人確認完了通知をオペレータ端末に表示させる。本人確認完了通知は、顧客の端末にも送信される。
 特許文献1では、本人確認作業のために予め用意された全ての本人確認項目の確認の判定が終了するまではオペレータの端末に本人確認が完了した旨の表示がなされない。このため、全ての本人確認項目の確認が判定されるまでは、オペレータの通話相手が正当な顧客(つまり本人)であるか否かを検証する認証処理の進行状況がリアルタイムに表示されず、認証処理が現在どの程度進んでいるかを把握する術がなかった。そのため、顧客の本人確認完了後に開始される本題内容をオペレータが会話するタイミングが遅くなり、オペレータの作業効率が悪いという問題があった。
 そこで、以下の実施の形態1では、オペレータがリアルタイムに顧客の本人確認の認証状況を確認できるようにし、オペレータの作業効率の向上を支援する認証装置および認証方法の例を説明する。
 (実施の形態1)
 まず、図1を参照して、実施の形態1および実施の形態2(後述参照)に係る音声認証システムのユースケースについて説明する。図1は、実施の形態1および実施の形態2に係る音声認証システムのユースケースの一例を示す図である。音声認証システム100は、音声を用いた認証の対象となる人物(図1に示す例では、ユーザUS)の音声信号または音声データを取得し、取得された音声信号または音声データと、事前にストレージ(図1に示す例では、登録話者データベースDB)に登録(格納)された複数の音声信号または音声データとを照合する。音声認証システム100は、照合結果に基づいて、音声認証対象であるユーザUSから収音された音声信号または音声データとストレージに登録された音声信号または音声データとの類似度を評価し、評価された類似度に基づいて、ユーザUSを認証する。
 実施の形態1に係る音声認証システム100は、収音装置の一例としてオペレータ側通話端末OP1と、認証解析装置P1と、登録話者データベースDBと、出力装置の一例としての情報表示端末DPと、を少なくとも含んで構成される。なお、認証解析装置P1および情報表示端末DPは、一体的に構成されてよい。
 なお、図1に示す音声認証システム100は、一例としてコールセンタにおいて話者(ユーザUS)の認証に用いられる例を示し、オペレータOPと通話するユーザUSの発話音声を収音した音声データを用いてユーザUSの認証を行う。図1に示す音声認証システム100は、さらにユーザ側通話端末UP1と、ネットワークNWとを含んで構成される。なお、音声認証システム100の全体構成は、図1に示す例に限定されないことは言うまでもない。
 ユーザ側通話端末UP1は、オペレータ側通話端末OP1との間で、ネットワークNWを介して無線通信可能に接続される。なお、ここでいう無線通信は、例えばWi-Fi(登録商標)などの無線LAN(Local Area Network)を介したネットワーク通信である。
 ユーザ側通話端末UP1は、例えば、ノートPC,タブレット端末,スマートフォン,電話機等により構成される。ユーザ側通話端末UP1は、マイク(不図示)を備える収音装置であり、ユーザUSの発話音声を収音して音声信号に変換し、この変換された音声信号をネットワークNWを介してオペレータ側通話端末OP1に送信する。また、ユーザ側通話端末UP1は、オペレータ側通話端末OP1から送信されたオペレータOPの発話音声の音声信号を取得して、スピーカ(不図示)から出力する。
 ネットワークNWは、例えばIP(Internet Protocol)網または電話網であって、ユーザ側通話端末UP1とオペレータ側通話端末OP1との間で、音声信号の送受信を可能に接続する。なお、データの送受信は、有線通信または無線通信により実行される。
 オペレータ側通話端末OP1は、ユーザ側通話端末UP1および認証解析装置P1との間でそれぞれ有線通信または無線通信でデータ送受信可能に接続され、音声信号の送受信を行う。
 オペレータ側通話端末OP1は、例えば、ノートPC,タブレット端末,スマートフォン,電話機等により構成される。オペレータ側通話端末OP1は、ネットワークNWを介してユーザ側通話端末UP1から送信されたユーザUSの発話音声に基づく音声信号を取得し、認証解析装置P1に送信する。なお、オペレータ側通話端末OP1は、取得されたユーザUSの発話音声とオペレータOPの発話音声とを含む音声信号を取得した場合、オペレータ側通話端末OP1の音声信号の音圧レベルまたは周波数帯域等の音声パラメータに基づいて、ユーザUSの発話音声に基づく音声信号と、オペレータOPの発話音声に基づく音声信号とを分離してよい。オペレータ側通話端末OP1は、分離後にユーザUSの発話音声に基づく音声信号のみを抽出して認証解析装置P1に送信する。
 また、オペレータ側通話端末OP1は、複数のユーザ側通話端末のそれぞれとの間で通信可能に接続され、同時に複数のユーザ側通話端末のそれぞれから音声信号を取得してもよい。オペレータ側通話端末OP1は、取得された音声信号を認証解析装置P1に送信する。これにより、音声認証システム100は、同時に複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。
 また、オペレータ側通話端末OP1は、同時に複数のユーザのそれぞれの発話音声を含む音声信号を取得してもよい。オペレータ側通話端末OP1は、ネットワークNWを介して取得された複数のユーザの音声信号のそれぞれからユーザごとの音声信号を抽出し、ユーザごとの音声信号をそれぞれ認証解析装置P1に送信する。このような場合、オペレータ側通話端末OP1は、複数のユーザの音声信号を解析し、音圧レベル、周波数帯域等の音声パラメータに基づいて、音声信号をユーザごとに分離して抽出してもよい。音声信号がアレイマイク等により収音された場合には、オペレータ側通話端末OP1は、発話音声の到来方向に基づいて、音声信号をユーザごとに分離して抽出してもよい。これにより、音声認証システム100は、例えば、Web会議等の同時に複数のユーザが発話する環境で収音された音声信号であっても、複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。
 認証装置およびコンピュータの一例としての認証解析装置P1は、オペレータ側通話端末OP1、登録話者データベースDBおよび情報表示端末DPとの間でそれぞれデータ送受信可能に接続される。なお、認証解析装置P1は、オペレータ側通話端末OP1、登録話者データベースDBおよび情報表示端末DPとの間でネットワーク(不図示)を介して、有線通信または無線通信が可能に接続されていてもよい。
 認証解析装置P1は、オペレータ側通話端末OP1から送信されたユーザUSの音声信号を取得し、取得された音声信号を、例えば周波数ごとに音声解析して、ユーザUS個人の発話特徴量を抽出する。認証解析装置P1は、登録話者データベースDBを参照して、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの発話特徴量と、抽出された発話特徴量とを照合して、ユーザUSの音声認証を実行する。なお、認証解析装置P1は、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの発話特徴量に代えて、登録話者データベースDBに事前に登録された特定のユーザの発話特徴量と照合して、ユーザUSの音声認証を実行してもよい。認証解析装置P1は、ユーザ認証結果を含む認証結果画面SCを生成して、情報表示端末DPに送信して出力させる。なお、図1に示す認証結果画面SCは、一例であってこれに限定されないことは言うまでもない。図1に示す認証結果画面SCは、例えばユーザ認証結果であるメッセージ「山田太郎さんの声と一致しました。」を含む。また、認証解析装置P1は、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの音声信号と、ユーザUSの音声信号とを照合して、ユーザUSの音声認証を実行してもよい。なお、認証解析装置P1は、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの音声信号に代えて、登録話者データベースDBに事前に登録された特定のユーザの音声信号と照合して、ユーザUSの音声認証を実行してもよい。
 データベースの一例としての登録話者データベースDBは、所謂ストレージであって、例えばフラッシュメモリ、HDD(Hard Disk Drive)あるいはSSD(Solid State Drive)等の記憶媒体を用いて構成される。登録話者データベースDBは、複数のユーザのそれぞれのユーザ情報と、発話特徴量とを対応付けて格納(登録)する。ここでいうユーザ情報は、ユーザに関する情報であって、例えば、ユーザ名、ユーザID(Identification)またはユーザごとに割り当てられた識別情報等である。なお、登録話者データベースDBは、認証解析装置P1と一体的に構成されてもよい。
 情報表示端末DPは、例えばLCD(Liquid Crystal Display)あるいは有機EL(Electroluminescence)ディスプレイを用いて構成される。情報表示端末DPは、認証解析装置P1から送信された認証結果画面SCを表示する。なお、情報表示端末DPは、認証解析装置P1と一体的に構成されてもよい。
 図1に示す例において、ユーザ側通話端末UP1は、ユーザUSの発話音声COM12「山田太郎です」と、発話音声COM14「123245678です」とを収音し、音声信号に変換して、オペレータ側通話端末OP1に送信する。オペレータ側通話端末OP1は、ユーザ側通話端末UP1から送信されたユーザUSの発話音声COM12,COM14のそれぞれに基づく音声信号を認証解析装置P1に送信する。
 なお、オペレータ側通話端末OP1は、オペレータOPの発話音声COM11「お名前を教えてください」と、発話音声COM13「会員番号を教えてください」と、ユーザUSの発話音声COM12,COM14とを収音した音声信号を取得した場合には、オペレータOPの発話音声COM11,COM13のそれぞれに基づく音声信号を分離および除去し、ユーザUSの発話音声COM12,COM14のそれぞれに基づく音声信号のみを抽出して、認証解析装置P1に送信する。これにより、認証解析装置P1は、音声認証の対象である人物の音声信号のみを用いることで、ユーザ認証精度を向上できる。
 次に、図2を参照して、認証解析装置の内部構成例について説明する。図2は、実施の形態1に係る認証解析装置の内部構成例を示すブロック図である。認証解析装置P1は、通信部20と、プロセッサ21と、メモリ22と、を少なくとも含んで構成される。
 通信部20は、オペレータ側通話端末OP1および登録話者データベースDBのそれぞれとの間でデータ通信可能に接続する。通信部20は、オペレータ側通話端末OP1から送信された音声信号をプロセッサ21に出力する。なお、取得部は通信部20に限らず、例えば認証解析装置P1と一体に構成されたオペレータ側通話端末OP1のマイクであってもよい。
 プロセッサ21は、例えばCPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphical Processing Unit)、FPGA(Field Programmable Gate Array)等の電子デバイスのうち少なくとも1つが実装された半導体チップを用いて構成される。プロセッサ21は、認証解析装置P1の全体的な動作を司るコントローラとして機能し、認証解析装置P1の各部の動作を統括するための制御処理、認証解析装置P1の各部との間のデータの入出力処理、データの演算処理およびデータの記憶処理を行う。
 プロセッサ21は、メモリ22のROM(Read Only Memory)22Aに記憶されたプログラムおよびデータを用いることで、発話区間検出部21A、発話連結部21B、特徴量抽出部21C、類似度計算部21D、信頼度算出部21Eおよび音解析部21Jのそれぞれの機能を実現する。プロセッサ21は、動作中にメモリ22のRAM(Random Access Memory)22Bを使用し、プロセッサ21および各部が生成あるいは取得したデータもしくは情報をメモリ22のRAM22Bに一時的に保存する。
 取得部の一例としての発話区間検出部21Aは、発話音声の音声信号を取得し、取得された音声信号を解析し、ユーザUSが発話している発話区間を検出する。発話区間検出部21Aは、音声信号から検出された各発話区間に対応する音声信号(以降、「発話音声信号」と表記)を発話連結部21Bまたは特徴量抽出部21Cに出力する。また、発話区間検出部21Aは、各発話区間の発話音声信号をメモリ22のRAM22Bに一時的に保存してもよい。
 認証部の一例としての発話連結部21Bは、発話区間検出部21Aにより音声信号から同一人物(ユーザUS)の2以上の発話区間が検出された場合、これらの発話区間の発話音声信号同士を連結する。発話連結部21Bは、連結された音声信号の合計秒数を算出してもよい。発話連結部21Bは、連結後の発話音声信号(以降、「連結音声信号」と表記)を特徴量抽出部21Cに出力する。なお、ユーザ認証方法については後述する。
 認証部の一例としての特徴量抽出部21Cは、発話区間検出部21Aにより抽出された1以上の発話音声信号を用いて個人の音声の特徴を、例えば周波数ごとに解析して、発話特徴量を抽出する。なお、特徴量抽出部21Cは、発話連結部21Bから出力された連結音声信号の発話特徴量を抽出してもよい。特徴量抽出部21Cは、抽出された発話特徴量と、この発話特徴量が抽出された発話音声信号または連結音声信号とを対応付けて類似度計算部21Dに出力したり、メモリ22のRAM22Bに一時的に保存したりする。
 認証部の一例としての類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部21Dは、登録話者データベースDBを参照して、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部21Dは、算出された類似度に基づいて、発話音声信号または連結音声信号(つまり、ユーザ側通話端末UP1から送信された音声信号)に対応するユーザを特定してユーザ認証を実行する。
 類似度計算部21Dは、ユーザ認証の結果、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を含む認証結果画面SCを生成して、表示I/F(Inter Face)23を介して、情報表示端末DPに出力する。
 なお、類似度計算部21Dは、算出された類似度が所定値未満であると判定した場合、ユーザ認証不可であると判定し、発話連結部21Bに発話音声信号の連結を要求する制御指令を生成して出力してもよい。また、類似度計算部21Dは、同一人物(ユーザUS)に対するユーザ認証において、ユーザ認証回数に上限回数が設定されており、ユーザ認証不可であると判定した回数が上限回数以上であると判定した場合には、ユーザ認証不可である旨を通知する認証結果画面(不図示)を生成して、情報表示端末DPに出力してもよい。
 認証部の一例としての音解析部21Jは、発話区間検出部21Aにより抽出された1以上の発話音声信号または連結音声信号を取得する。音解析部21Jは、取得された発話音声信号または連結音声信号の音(以降、「発話音」と表記)を解析する。例えば、発話音声信号が「やまだたろうです」である場合、これに対応する音は「ya ma da ta ro u de su」となる。音解析部21Jは、解析された発話音の数を算出し、算出結果画面(不図示)を生成して、情報表示端末DPに出力してもよい。実施の形態1では発話音種類数を、「ya」のように1つの子音と1つの母音とを合わせて1音と定義する。
 認証部の一例としての信頼度算出部21Eは、発話連結部21Bにより連結された連結音声信号を取得する。信頼度算出部21Eは、取得された連結音声信号の信頼度を解析する。信頼度算出部21Eは、発話区間検出部21Aにより抽出された発話音声信号を取得し、信頼度を解析してもよい。信頼度は、例えば、発話連結部21Bによって算出された合計秒数の信頼度、音解析部21Jによって算出された発話音種類数の信頼度であるが、これらに限定されない。信頼度算出部21Eは、ユーザによって予め定められた判定基準を基に信頼度を算出してよい。
 これらによって、プロセッサ21は、発話区間検出部21Aにより検出された発話音声信号と、複数の話者のそれぞれの音声信号が登録された登録話者データベースDBとの照合に基づいて、話者が本人であるか否かを認証する。また、プロセッサ21は、発話音声信号の合計時間および発話音声信号に含まれる発話種類数を算出し、合計時間および発話音種類数の算出結果と予め定められた判定基準とに基づいて合計時間に基づく第1の信頼度および発話音種類数に基づく第2の信頼度を判定する。
 メモリ22は、例えばプロセッサ21が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとを格納するROM22Aと、プロセッサ21が行う各種の処理を実行する際に用いるワークメモリとしてのRAM22Bと、を少なくとも有する。ROM22Aには、プロセッサ21が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとが書き込まれている。RAM22Bには、プロセッサ21により生成あるいは取得されたデータもしくは情報(例えば、連結前の発話音声信号、連結後の連結音声信号、連結前あるいは連結後の各発話区間に対応する発話特徴量等)が一時的に保存される。
 表示I/F23は、プロセッサ21と情報表示端末DPとの間をデータ通信可能に接続し、プロセッサ21の類似度計算部21Dにより生成された認証結果画面SCを情報表示端末DPに出力する。表示I/F23は、プロセッサ21の認証結果に基づき話者が本人であるか否かを示す認証状況を情報表示端末DPに表示させる。
 感情識別器24は、プロセッサ21とデータ通信可能に接続され、例えば人工知能(AI:Artificial Intellegents)を用いて実現可能である。感情識別器24は、例えば人工知能を用いた各種処理を実行可能なGPU(Graphical Processing Unit)等のプロセッサを用いて構成される。感情識別器24は、発話区間検出部21Aにより検出された発話音声信号に基づいて、話者の会話時の感情の強さを検出する。感情識別器24は、発話連結部21Bにより連結された連結音声信号を取得し、話者の会話時の感情の強さを検出してもよいし、特徴量抽出部21Cによって抽出された音声信号の特徴を用いて話者の会話時の感情の強さを検出してもよい。感情識別器24は、感情の強さを検出するのに、例えば、音声信号の大きさ、高さ(周波数)、アクセントを解析するが、これらに限定されない。
 次に、図3を参照して、音声信号と信頼度との第1の関係について説明する。図3は、実施の形態1に係る音声信号と信頼度との第1の関係を示す図である。なお、図3および図4に示すユーザの発話内容は、一例であってこれに限定されないことは言うまでもない。
 図3に示す第1の信頼度判定テーブルTBL1は、例えばメモリ22に一時的に保存され、ユーザの発話内容に対する発話音、合計秒数、発話音種類数および信頼度の関係を表す。なお、ユーザの発話内容に対する信頼度の要素として合計秒数、発話種類数に限定されず、また信頼度の要素の数は2つに限定されない。
 図3に示す例では、合計秒数の信頼度と発話音種類数の信頼度のうち、信頼度の判定が高い方を、ユーザの発話内容に対する信頼度の最終判定として決定する。つまり、信頼度算出部21Eは、合計時間に基づく第1の信頼度と発話音種類数に基づく第2の信頼度とのうち、いずれか高い方を発話音声信号に対応する信頼度として決定する。例えば、合計秒数の信頼度の判定基準を、10秒未満が「低」、10秒以上15秒未満が「中」、15秒以上が「高」とする。また、発話音種類数の信頼度の判定基準を、10音未満が「低」、10音以上15音未満が「中」、15音以上が「高」とする。なお、信頼度の判定基準は一例でありこれらに限定されないことは言うまでもない。また、信頼度の表現として、「低」、「中」、「高」のような文字、百分率、ゲージ、棒グラフなどがある。
 第1の発話内容C1「や ま だ た ろ う で す」の発話音は「ya ma da ta ro u de su」である。第1の発話内容C1の合計秒数は5秒、発話音種類数は8音である。この場合、合計秒数の信頼度は「低」となり、発話音種類数の信頼度は「低」となる。この結果、合計秒数の信頼度も発話種類数の信頼度もどちらも「低」であるので、第1の発話内容C1の信頼度は「低」となる。
 第2の発話内容C2「や ま だ た ろ う で す や ま だ じ ろ う と し ろ う で す」の発話音「ya ma da ta ro u de su ya ma da ji ro u to shi ro u de su」である。第2の発話内容C2の合計秒数は10秒、発話音種類数は11音である。この場合、合計秒数の信頼度は「中」となり、発話音種類数の信頼度は「中」となる。この結果、合計秒数の信頼度も発話音種類数の信頼度もどちらも「中」であるので、第2の発話内容C2の信頼度は「中」となる。
 第3の発話内容C3「や ま だ た ろ う で す い ち に さ ん し ご ろ く な な で す」の発話音は「ya ma da ta ro u de su i chi ni sa N shi go ro ku na na de su」である。第3の発話内容C3の合計秒数は10秒、発話音種類数は18音である。この場合、合計秒数の信頼度は「中」となり、発話音種類数の信頼度は「高」となる。図3に示す例では、合計秒数の信頼度と発話音種類数の信頼度とのいずれか高い方をユーザの発話内容に対応する信頼度として決定する。そのため、より信頼度の高い発話音種類数の信頼度「高」を第3の発話内容C3の信頼度として決定する。
 これによって、合計秒数または発話音種類数の信頼度のうち、いずれか一方が信頼度の閾値に達した場合に、ユーザの発話内容の信頼度が閾値以上と判定されるため、話者の本人確認の認証完了までの時間を短縮することができる。
 次に、図4を参照して、音声信号と信頼度との第2の関係について説明する。図4は、実施の形態1に係る音声信号と信頼度との第2の関係を示す図である。
 図4に示す第2の信頼度判定テーブルTBL2は、例えばメモリ22に一時的に保存され、ユーザの発話内容に対する発話音、合計秒数、発話音種類数および信頼度の関係を表す。なお、ユーザの発話内容に対する信頼度の要素として合計秒数、発話音種類数に限定されず、また信頼度の要素の数として2つに限定されない。
 図4に示す例では、合計秒数の信頼度と発話音種類数の信頼度とのうち、信頼度の判定が低い方をユーザの発話内容に対する信頼度の最終判定として決定する。つまり、信頼度算出部21Eは、合計時間に基づく第1の信頼度と発話音種類数に基づく第2の信頼度とのうち、いずれか信頼度が低い方を発話音声信号に対応する信頼度として決定する。例えば、合計秒数の信頼度の判定基準を、8秒未満が「低」、8秒以上10秒未満が「中」、10秒以上が「高」とする。また、発話音種類数の信頼度の判定基準を、9音未満が「低」、10音以上15音未満が「中」、15音以上が「高」とする。なお、信頼度の判定基準は一例でありこれらに限定されないことは言うまでもない。また、図4に示す例では、図3に示す例と比べて信頼度の最終判定方法が異なるのみであるため、図3に示す例と重複する部分の説明は省略する。
 図4に示す例では、信頼度の表現として棒グラフを用いる。第1の合計秒数の信頼度Ba1を例に説明する。信頼度Ba1は、左右に長い長方形の棒グラフであり、予め定められている基準値に対し信頼度が高くなると連続的に左から右に向かってメータが増えていく。予め定められた基準値で、信頼度が「高」となるとメータは右端に達する。なお、これは一例であり、信頼度の表現として縦に長い長方形の棒グラフを用いてもよい。これによって、信頼度を連続的なパラメータとして扱うことができる。
 第1の発話内容C1の合計秒数は5秒、発話音種類数は8音である。この場合、合計秒数の信頼度は「低」となり、発話音種類数の信頼度は「低」なる。信頼度Ba1および信頼度Ba2より、より信頼度が低いのが合計秒数の信頼度である。そのため、第1の発話内容C1の信頼度は、信頼度Ba1の「低」となる。
 第2の発話内容C2の合計秒数は10秒、発話音種類数は11音である。この場合、合計秒数の信頼度は「高」となり、発話音種類数の信頼度は「中」となる。信頼度Ba3は、合計秒数の信頼度が「高」となったことでメータが右端に達する。第1の発話内容C1の発話音種類数よりも第2の発話内容C2の発話音種類数の方が3音増加したため、信頼度Ba4は、信頼度Ba2に比べメータが増加する。信頼度Ba3および信頼度Ba4をみると信頼度Ba4の方が信頼度が低いことがわかり、第2の発話内容C2の信頼度は、信頼度Ba4の「中」となる。
 第3の発話内容C3の合計秒数は10秒、発話音種類数は18音である。この場合、合計秒数の信頼度は「高」となり、発話音種類数の信頼度は「高」となる。信頼度Ba5は、合計秒数の信頼度が「高」となったことでメータが右端に達する。信頼度Ba6は、発話種類数の信頼度が「高」となったことでメータが右端に達する。信頼度Ba5および信頼度Ba6より、第3の発話内容C3の信頼度は信頼度Ba5もしくは信頼度Ba6の「高」となる。
 これによって、信頼度のより低い方も信頼度の閾値に達した場合に、ユーザの発話内容の信頼度が閾値以上と判定されるため、話者の本人確認の認証の信頼度を高めることができる。
 次に、図5を参照して、認証開始のタイミングについて説明する。図5は、実施の形態1に係る認証開始ボタン押下後に認証を開始する例を示す図である。
 図5に示す例において、まず、オペレータOPの発話音声COM15「〇〇コールセンタです」と、ユーザUSの発話音声COM16「××をしたいです」と、オペレータの発話音声COM17「まず本人認証を行います」と、ユーザUSの発話音声COM18「はい」との発話内容を、ユーザUSとオペレータOPが会話する。その後、オペレータOPは情報表示端末DPに表示された認証開始ボタンUIを押下し、認証解析装置P1は、認証開始ボタンUIを押下後の発話音声信号から収音を開始する。その後、オペレータOPの発話音声COM11「お名前を教えてください」と、ユーザUSの発話音声COM12「山田太郎です」と、オペレータOPの発話音声COM13「会員番号を教えてください」と、ユーザUSの発話音声COM14「12345678です」との発話内容を、ユーザUSとオペレータOPが会話する。この場合、オペレータOPが情報表示端末DPに表示された認証開始ボタンUIを押した後の、ユーザUSの発話音声COM12、COM14のそれぞれに基づく音声信号が認証解析装置P1に送信される。つまり、プロセッサ21は、情報表示端末DPに表示された認証開始ボタンUIが押された旨の信号を取得した場合、信号の取得後に入力された発話音声信号から認証を開始する。
 認証解析装置P1は取得した発話音声信号を基に、認証を行い認証結果を情報表示端末DP上の認証結果画面SCに表示する。図5に示す例では、本人確認の認証が完了した場合、認証結果画面SCに「山田太郎さんの声と一致しました。」と表示される。
 認証解析装置P1は、オペレータOPの操作に基づき、必要ないユーザUSの発話音声信号を本人確認の認証から意図的に除外できる。これによって、認証解析装置P1は、必要なユーザUSの発話音声信号のみを本人確認の認証に用いることができるため、認証精度を上げることができる。
 次に図6Aを参照して、連結音声信号の感情について説明する。図6Aは、実施の形態1に係る音声信号の感情の有無を示す図である。なお、図6Aに係る音声信号は発話音声信号でもよい。
 図6Aに示すグラフは、横軸が時間、縦軸が感情の強さを表している。横軸は、右に行くほど時間が進み、縦軸は、上に行くほど感情の強さが大きくなる。
 感情波形Wa1は、感情識別器24によって識別された感情の強さを表す波形である。感情波形Wa1は、予め定められた閾値以上となると感情有り、閾値未満となると感情無しであるとプロセッサ21によって判定される。つまり、図6Aに示す例では、感情波形Wa1の区間S1が感情有り、それ以外の区間が感情無しとなる。
 次に図6Bを参照して、感情の有無による音声信号の処理を説明する。図6Bは、実施の形態1に係る感情の有無による音声信号の処理を示す図である。なお、図6Bに係る音声信号は、発話音声信号であってもよいし、連結音声信号であってもよい。
 音声信号波形Sig2、Sig3およびSig4は、連結音声信号であり、音声信号の強さを表す波形である。
 感情識別器24によって検出された音声信号波形Sig2の感情の強さを基に、プロセッサ21が感情の有無を判定する。その結果、音声信号波形Sig2の区間S2、S3は感情無し、区間S4は感情有りと判定する。プロセッサ21は、音声信号波形Sig2の感情無しであると判定された区間S2、S3のみ認証に使用し、感情有りと判定された区間S4は認証に使用しない。認証解析装置P1は、区間S4の音声信号を削除し、区間S2の音声信号波形Sig3と区間S3の音声信号波形Sig4を連結して1つの連結音声信号を生成する。つまり、プロセッサ21は、感情の強さの検出結果が予め定められた閾値以上であるか否かを判定し、感情の強さが予め定められた閾値以上となった音声区間の音声信号を削除する。
 これによって、認証解析装置P1は、感情の高まりによって本人確認の認証に適さない音声信号区間を削除でき、認証の精度を向上することができる。
 次に、図7を参照して音声信号の繰り返し区間を削除する処理を説明する。図7は、実施の形態1に係る音声信号の繰り返し区間を削除する処理を示す図である。
 音声信号波形Sig5は、連結音声信号「はい やまだ です やまだ たろう です はい おねがいします」である。プロセッサ21によって音声信号波形Sig5を解析すると「やまだ」、「です」、「はい」が、音声信号波形Sig5の中で繰り返し登場する。プロセッサ21は、区間S5「はい やまだ です」、区間S6「たろう」および区間S7「よろしくおねがいします」を認証に使用することを決定する。一方、プロセッサ21は、重複内容となる区間S8「やまだ」および区間S9「です はい」は認証に不使用とすることを決定する。プロセッサ21は、区間S8、S9は削除し、区間S5の音声信号波形Sig6と区間S6の音声信号波形Sig7と区間S7の音声信号波形Sig8とを連結して1つの連結音声信号を生成する。つまり、プロセッサ21は、音声信号を音声認識して、音声信号の音声認識結果のうち発話内容が重複している音声区間を検出し、検出された重複している音声区間の音声信号を削除する。
 これによって、認証解析装置P1は、音声信号の中で発話内容が重複している区間の音声信号を削除でき、認証の精度を向上することができる。
 次に、図8および図9を参照して、認証状況を表す画面例を説明する。図8は、実施の形態1に係る認証状況を表す第1の画面例を示す図であり、図9は、実施の形態1に係る認証状況を表す第2の画面例を示す図である。なお、これらの画面例は一例であり、これらに限定されないことは言うまでもない。
 ディスプレイDP1は、表示I/F23によって情報表示端末DPに表示される画面例である。ディスプレイDP1に表示される内容は、話者の認証結果候補と本人確認の認証の認証結果信頼度とを少なくとも有する。
 メッセージMsg1は、本人確認の認証において、登録話者データベースDBの中に格納されたユーザ情報の中で今一番ユーザUSに近い人物の情報を表示する。例えば、メッセージMsg1に表示される内容は、候補者情報欄MN1の人物写真、名前、性別、住所または電話番号である。なお、メッセージMsg1に表示される内容は一例でありこれらに限定されない。
 認証結果候補欄MN2は、本人確認の認証結果の候補を表示する。認証結果候補欄MN2は、候補者の名前と各候補者に対するユーザUSである確率を一緒に並べて表示してよい。ユーザUSである確率は、図8の認証結果候補欄MN2に示す棒メータでもよいし、百分率でもよい。最もユーザUSである確率の高い候補者を上から順に表示してもよいし、かな文字順、アルファベット順でもよいし、オペレータOPによって任意に順番を設定できてもよい。
 音声信号表示欄MN3は、連結音声信号の波形を表示する。音声信号波形Sig9は連結された発話音声信号であり、音声信号の強さを表す波形である。音声信号表示欄MN3は、音声信号波形Sig9の認証に使用する区間と使用しない区間がわかるように表示する。例えば、図8に示す例では、音声信号波形Sig9の認証に使用する区間S10、S11、S12、S13の背景の色を変えて表示する。これによって、音声信号波形Sig9で感情有りの区間および発話内容の繰り返し区間を可視化できる。つまり、表示I/F23は、プロセッサ21による感情の有無の判定結果を情報表示端末DPに表示させる。オペレータOPは、表示I/F23によって表示された判定結果を基に不要な音声区間を選択し、選択した音声区間の音声信号を削除してもよい。
 認証結果信頼度メータMN4は、音声信号波形Sig9の発話音素数および合計秒数のそれぞれの信頼度をメータ表示したものである。
 ボタンBT1は、認証開始/停止ボタンである。これによって、オペレータOPがボタンBT1を押下後の発話音声信号から認証を開始することができる。
 図9は、図8に示す認証状況よりも認証が進んだ場合の画面例を表す。
 認証結果候補欄MN2は、本人確認の認証が進み、リアルタイムの候補者と各候補者のユーザUSである確率を表示する。図9に示す認証結果候補欄MN2は、図8に示す認証結果候補欄MN2に比べ、ユーザUSが「やまだ たろう」である確率が増加している。これによって、オペレータOPはリアルタイムの本人確認の認証結果の候補を知ることができる。
 音声信号表示欄MN3に表示される音声信号波形Sig10は、音声信号波形Sig9よりもオペレータOPとユーザUSの対話が進んだ場合の連結音声信号である。音声信号波形Sig9に対し、音声信号波形Sig10は区間S14の区間の音声信号が認証に使用する音声として追加される。
 認証結果信頼度メータMN4は、音声信号波形Sig10の発話音種類数および合計秒数のそれぞれの信頼度のメータ表示したものである。音声信号波形Sig10は、音声信号波形Sig9に対し区間S14の区間の音声信号が認証に使用する音声として追加されたことにより、発話音種類数および合計秒数の信頼度が、図8に示す例に比べ増加する。これによってオペレータOPは、本人確認の認証においてリアルタイムの発話音素種類数および合計秒数の信頼度を知ることができる。
 図8および図9に係る例のように、表示I/F23は、プロセッサ21による話者の認証状況が変化するたびに認証状況の表示内容を更新する。
 これによって、認証解析装置P1は、プロセッサ21の本人確認の認証結果をリアルタイムで情報表示端末DPに表示させる。これにより、オペレータOPは、リアルタイムで本人確認の認証状況を確認でき、オペレータOPの作業効率を向上することができる。
 次に、図10を参照して、認証解析装置の動作手順例を説明する。図10は、実施の形態1に係る認証解析装置の動作手順例を示すフローチャートである。
 認証解析装置P1における通信部20は、オペレータ側通話端末OP1から送信された音声信号(または音声データ)を取得する(St11)。
 認証解析装置P1における表示I/F23は、情報表示端末DPに表示された認証開始ボタンが押下されたか否かの信号を取得する(St12)。表示I/F23は、認証開始ボタンが押下された旨の信号を取得しなかった場合(St12、NO)、ステップSt11の処理に戻る。表示I/F23は、認証開始ボタンが押下された旨の信号を取得した場合(St12、YES)、ステップSt11の処理で、通信部20が取得した音声信号をプロセッサ21に出力する。
 プロセッサ21は、ステップSt12の処理で認証開始ボタンが押下された信号を表示I/F23が取得したタイミングで、取得された音声信号の音声認証対象であるユーザUSの認証を開始する(St13)。
 プロセッサ21における発話区間検出部21Aは、取得された音声信号から発話区間を検出する(St14)。
 発話区間検出部21Aは、検出された発話区間の情報(例えば、発話区間の開始時刻と終了時刻、文字数、発話音種類数、信号長(発話音声長、発話秒数等)、話速変換前または話速変換後の話速等)の情報をメモリ22に保存する(St15)。
 発話区間検出部21Aは、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される1以上の発話音声信号を選択する(St16)。なお、図10では図示を省略しているが、認証解析装置P1は、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される発話音声信号がないと判定した場合、ステップSt14の処理に戻って、新たな発話区間を検出してもよい。発話区間検出部21Aは、選択した発話音声信号を発話連結部21Bに出力する。
 発話連結部21Bは、選択された1以上の発話音声信号のそれぞれを連結する音声連結処理を実行し、連結音声信号を生成する(St17)。発話連結部21Bは、生成された連結音声信号を信頼度算出部21Eに出力する。
 信頼度算出部21Eは、ステップSt17の処理で生成された連結音声信号を用いて信頼度を算出する(St18)。例えば、ステップSt18の処理で算出される信頼度は、連結音声信号の合計秒数、発話音種類数の信頼度である。なお、ステップSt18の処理で算出される信頼度は、これらに限定されない。
 表示I/F23は、ステップSt18の処理で算出された信頼度を、情報表示端末DPへ表示あるいは表示更新させる(St19)。
 信頼度算出部21Eは、ステップSt18の処理で算出された信頼度が、予め定められた閾値以上であるか否かを判定する(St20)。ステップSt20の処理で、信頼度が閾値未満であった場合(St20、NO)、認証解析装置P1は、本人確認の認証を継続するか否かを判定する(St21)。信頼度算出部21Eは、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値未満であると判定した場合(St21、YES)、プロセッサ21の処理はステップSt14の処理に戻る。信頼度算出部21Eは、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値以上であると判定した場合(St21、NO)、取得された音声信号に基づいて、ユーザ認証失敗と判定する(St22)。表示I/F23は、ユーザ認証失敗の旨を通知する認証結果画面を生成し情報表示端末DPへ出力する。情報表示端末DPは、認証解析装置P1から送信された認証結果画面を出力(表示)する。
 一方、ステップSt20の処理で、信頼度が閾値以上であった場合(St20、YES)、信頼度算出部21Eは連結音声信号を特徴量抽出部21Cに出力する。特徴量抽出部21Cは、信頼度算出部21Eから出力された連結音声信号からユーザUS個人の発話特徴量を抽出する(St23)。特徴量抽出部21Cは、抽出されたユーザUS個人の発話特徴量を類似度計算部21Dに出力する。
 類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量を参照し、特徴量抽出部21Cから出力されたユーザUS個人の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量との類似度を算出する(St24)。
 類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいるか否かを判定する(St25)。
 類似度計算部21Dは、ステップSt25の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいると判定した場合(St25,YES)、このユーザが音声信号のユーザUSであると判定する(St26)。なお、類似度計算部21Dは、類似度が閾値以上であるユーザが複数いると判定した場合、類似度が最も高いユーザを音声信号のユーザUSであると判定してよい。
 類似度計算部21Dは、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を表示I/F23に出力して、表示I/F23は類似度計算部21Dによって出力された情報を基に認証結果画面SCを生成して、情報表示端末DPに出力する(St27)。
 一方、類似度計算部21Dは、ステップSt25の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいないと判定した場合(St25,NO)、本人確認の認証を継続するか否かの判定として、例えば現在のユーザ認証処理回数が設定された上限回数以上であるか否かを判定する(St21)。
 類似度計算部21Dは、ステップSt21の処理において、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値以上であると判定した場合(St21、NO)、取得された音声信号に基づいて、ユーザ認証失敗と判定する(St22)。表示I/F23はユーザ認証失敗の旨を通知する認証結果画面を生成し情報表示端末DPへ出力する。情報表示端末DPは、認証解析装置P1から送信された認証結果画面を出力(表示)する。
 類似度計算部21Dは、現在の認証回数が予め定められた認証回数の上限値未満であると判定した場合(St21、YES)、ステップSt14の処理に戻る。
 以上により、実施の形態1に係る認証解析装置P1は、所定のユーザ認証処理方法によって、ユーザ認証処理により適した発話音声信号を用いてユーザ認証処理を実行できる。これにより、実施の形態1に係る認証解析装置P1は、ユーザ認証精度を向上させることができる。
 以上により、実施の形態1に係る認証解析装置P1は、話者の発話音声の音声信号を取得して検出する発話区間検出部21Aと、登録話者データベースDBとの照合に基づいて、話者が本人であるか否かを認証するプロセッサ21と、プロセッサ21の認証結果に基づき話者が本人であるか否かを示す認証状況を情報表示端末DPに表示させる表示I/F23と、を備え、表示I/F23は、プロセッサ21による話者の認証状況が変化するたびに認証状況の表示内容を更新する。
 これにより、認証解析装置P1は、プロセッサ21の本人確認の認証結果をリアルタイムで情報表示端末DPに表示させる。これにより、オペレータOPは、リアルタイムで本人確認の認証状況を確認でき、オペレータOPの作業効率を向上することができる。
 また、実施の形態1に係るプロセッサ21は、音声信号の合計時間および音声信号に含まれる音数を算出し、合計時間および音種類数の算出結果と予め定められた判定基準とに基づいて合計時間に基づく第1の信頼度および音種類数に基づく第2の信頼度を判定する。これにより、話者の本人確認の認証結果の信頼度を算出し、その信頼度をリアルタイムでオペレータOPに通知するため、オペレータOPは、話者の認証完了のタイミングを予測することができ、オペレータOPの作業効率を向上することができる。
 また、実施の形態1に係るプロセッサ21は、第1の信頼度と第2の信頼度とのうち、いずれか高い方を音声信号に対応する信頼度として決定する。これにより、第1の信頼度と第2の信頼度とのうち、いずれか一方の信頼度が予め定められた判定基準を満たせば信頼度判定完了とできるため、話者の認証完了までの時間を短縮できる。
 また、実施の形態1に係るプロセッサ21は、第1の信頼度と第2の信頼度とのうち、いずれか信頼度が低い方を音声信号に対応する信頼度として決定する。これにより、第1の信頼度と第2の信頼度との両方の信頼度が予め定められた判定基準を満たすことで信頼度判定完了となるため、認証精度を向上することができる。
 また、実施の形態1に係るプロセッサ21は、情報表示端末DPに表示された認証開始ボタンが押された旨の信号を取得した場合、信号の取得後に入力された音声信号から認証を開始する。これにより、話者の本人確認の認証開始をオペレータOPの操作でできるため、オペレータOPがユーザUSへの認証を開始する前に開始する旨を伝えることができる。また、オペレータOPの判断で認証が必要ない場合に認証をしないようにできる。
 また、実施の形態1に係る認証解析装置P1は、音声信号に基づいて、話者の会話時の感情の強さを検出する感情識別器24、をさらに備え、プロセッサ21は、感情の強さの検出結果が予め定められた閾値以上であるか否かを判定し、感情の強さが予め定められた閾値以上となった音声区間の音声信号を削除する。これにより、認証解析装置P1は、本人確認の認証に適さない音声区間を検出し、削除することで認証精度を向上することができる。
 また、実施の形態1に係る認証解析装置P1は、音声信号に基づいて、話者の会話時の感情の強さを検出する感情識別器24、をさらに備え、プロセッサ21は、感情の強さの検出結果が予め定められた閾値以上であるか否かを判定し、表示I/F23は、判定の結果を情報表示端末DPに表示させ、表示I/F23によって表示された判定の結果へのユーザ操作により選択された音声区間の音声信号を削除する。これによって、オペレータOPは、検出された本人確認の認証に適さない音声区間を任意に削除することができ、認証精度を向上することができる。
 また、実施の形態1に係るプロセッサ21は、音声信号を音声認識して、音声信号の音声認識結果のうち発話内容が重複している音声区間を検出し、検出された重複している音声区間の音声信号を削除する。これによって、認証解析装置P1は、発話音声信号および連結音声信号の中で重複している発話内容の音声区間を削除することで、本人確認の認証を効率化することができる。
 また、実施の形態1に係る認証状況の表示内容は、話者の認証結果候補と認証の認証結果信頼度とを少なくとも有する。これによって、オペレータOPはリアルタイムで本人確認の認証状況を確認でき、オペレータOPの作業効率を向上することができる。
 (実施の形態2に至る経緯)
 特許文献1では、オペレータの顧客の本人確認作業で、予め決められた確認項目をオペレータ端末に表示するだけの作業である。この本人確認作業では、得られた音声信号の合計時間が短くなってしまう、得られた音声信号の音素に偏りが生じる、といったことがあった。そのため、本人確認の認証精度が悪いという問題があった。
 そこで、以下の実施の形態2では、オペレータが顧客の本人確認の認証を高精度に行うことができる認証装置および認証方法の例を説明する。なお、以下の説明において、実施の形態1と同一の構成要素については同一の符合を用いることで、その説明を省略する。
 (実施の形態2)
 図11を参照して、認証解析装置の内部構成例について説明する。図11は、実施の形態2に係る認証解析装置の内部構成例を示すブロック図である。認証解析装置P2は、通信部20と、プロセッサ21Hと、メモリ22Hと、を少なくとも含んで構成される。実施の形態2では、メモリ22Hは、実施の形態1と比べて質問例文データ保持部22Cをさらに有する。
 プロセッサ21Hは、メモリ22HのROM22Aに記憶されたプログラムおよびデータを用いることで、発話区間検出部21A、発話連結部21B、特徴量抽出部21C、類似度計算部21D、音素解析部21Fおよび例文選択部21Gのそれぞれの機能を実現する。プロセッサ21Hは、動作中にメモリ22HのRAM22Bを使用し、プロセッサ21Hおよび各部が生成あるいは取得したデータもしくは情報をメモリ22HのRAM22Bに一時的に保存する。
 認証部の一例としての例文選択部21Gは、質問例文データ保持部22Cに保持された複数の質問例文の中から、情報表示端末DPに表示する質問例文を選択する。例文選択部21Gは、本人確認の認証の精度を向上させるために、適切な質問例文を選択して情報表示端末DPに表示する。例文選択部21Gは、認証開始直後に質問例文を選択して情報表示端末DPに表示してもよい。また、例文選択部21Gは、認証が進み、類似度計算部21Dによって発話音声信号または連結音声信号の類似度が閾値以下と判定されたタイミングで質問例文を選択して情報表示端末DPに表示してもよい。また、例文選択部21Gは、認証が進み、音素解析部21Fの解析結果を基に、質問例文を選択して情報表示端末DPに表示してもよい。
 認証部の一例としての質問例文データ保持部22Cは、例文選択部21Gが選択し情報表示端末DPに表示する質問例文のデータを保持する。質問例文データ保持部22Cは、プロセッサ21Hによる話者の認証に用いる音声信号を取得するための質問を質問例文として複数保持する。質問例文データ保持部22Cは、メモリ22Hの中に設けられてもよいし、認証解析装置P2の外部にあり認証解析装置P2とデータ通信可能に接続してもよい。
 認証部の一例としての音素解析部21Fは、発話区間検出部21Aにより検出された話者の音声信号に含まれる音素を抽出する。ここで、実施の形態2に係る音素解析部21Fで算出される音素の定義について説明する。例えば、発話音声信号が「やまだたろうです」である場合、これに対応する音素は「y a m a d a t a r o u d e s u」となる。つまり、実施の形態2では発話音素数を、「y」、「a」のように子音と母音とをそれぞれ1音素として定義する。
 次に、図12を参照して、質問例を説明する。図12は、実施の形態2に係る質問例を示す図である。
 テーブルTBL3は、「名前」および「会員番号」以外の質問例文の項目の一例である。テーブルTBL3に示した質問例文の項目として、「住所」、「電話番号」、「生年月日」、「電話手続用パスワード」および「かな文字」がある。なお、これらは質問例文の項目の一例であり、これらに限定されないことは言うまでもない。
 テーブルTBL3の「住所」は、「名前」および「会員番号」よりも発話音素を多く取得できるため、優先順位1の質問例である。
 テーブルTBL3の「電話番号」は、「住所」より発話音素が少ないが「生年月日」よい発話音素が多いため、優先順位2の質問例である。
 テーブルTBL3の「生年月日」は、「電話番号」より発話音素が少ないため、優先順位3の質問例である。
 テーブルTBL3の「電話手続用パスワード」は、「名前」、「会員番号」、「住所」、「電話番号」および「生年月日」の個人情報に含まれない音素を含むパスワードを企業側が事前に発行した質問例である。
 テーブルTBL3の「かな文字」は、「住所」、「電話番号」および「生年月日」の質問例に対するユーザUSの発話音声信号では得られなかった発話音素を追加で引き出すかな文字の質問例である。上記発話音素は、音素解析部21Fによって解析される。例えばか行の発話音素が得られなかった場合、「本人認証のため、「かきくけこ」と発話していただけますか?」、た行の発話音素が得られなかった場合、「本人認証のため、「たちつてと」と発話していただけますか?」という質問例文となる。
 このように、質問例文は、住所、電話番号、生年月日および話者の個人情報に含まれない音素を含むパスワードまたはかな文字のうち少なくとも1つを話者に回答させる質問文である。
 次に、図13を参照して、情報端末装置に表示される質問例文を説明する。図13は、実施の形態2に係る情報端末装置に表示される質問例文を示す図である。
 質問画面Msg2は、情報表示端末DPに表示される質問例文の画面の一例である。質問画面Msg2に係る質問例文は、例文選択部21Gによって選択される。なお、質問画面Msg2は、これに限定されない。
 質問画面Msg2は、優先順位1の質問例文として「ご登録のご住所をお聞かせいただけますでしょうか?」と表示する。質問画面Msg2は、優先順位2の質問例文として「ご登録のお電話番号はお聞かせいただけますでしょうか?」と表示する。質問画面Msg2は、優先順位3の質問例文として「お客様のご生年月日をお聞かせいただけますでしょうか?」と表示する。質問画面Msg2は、優先順位4の質問例文として「本人認証のため、電話手続用パスワードをお聞かせいただけますでしょうか?」と表示する。質問画面Msg2は、優先順位5の質問例文として「本人認証のため、「かきくけこ」と発話していただけますか?(か行)」と表示する。
 質問画面Msg2は、複数の質問例文を一度に表示してもよいし、最も優先順位の高い質問例文のみを表示してもよい。
 このように、表示I/F23は例文選択部21Gによって選択された質問例文を情報表示端末DPに表示させる。
 次に、図14を参照して、音素解析部によって算出された各発話音素数と閾値の関係を説明する。図14は、実施の形態2に係る各音素数と閾値との関係を示す図である。
 グラフGr1は、音素解析部21Fによって算出された各発話音素の発話音素数を棒グラフで表した図である。グラフGr1では、予め定められた閾値と、閾値を下回る発話音素とを示している。グラフGr1では、発話音素L1「k」、発話音素L2「t」、発話音素L3「r」、発話音素L4「j」が、閾値以下の発話音素数となる発話音素である。発話音素L1、L2、L3、L4に基づき、例文選択部21Gは、質問例文を選択してもよい。例えば、例文選択部21Gは、ユーザが発話した際の発話音声信号から発話音素L1、L2、L3、L4のうち少なくとも1つが収集可能となる質問例文を質問例文データ保持部22Cから選択してもよい。また、グラフGr1は、音素解析部21Fによって算出された各発話音素の発話音素数をアルファベット順に並べてもよいし、発話音素数順に並べてもよい。また、グラフGr1は発話音声信号もしくは連結音声信号に含まれる発話音素のみを表示しているが、含まれない発話音素も表示してもよい。
 これにより、例文選択部21Gは、音素解析部21Fにより抽出された発話音素に基づき、発話音声信号もしくは連結音声信号に含まれない発話音素を含む発話を促す質問例文を選択する。また、例文選択部21Gは、音素解析部21Fにより抽出された発話音素それぞれの発話音素数に基づき、発話音素数が予め定められた閾値よりも少ない発話音素を含む質問例文を選択する。
 次に、図15を参照して、認証開始直後に質問例文を表示する場合の認証解析装置の動作手順を説明する。図15は実施の形態2に係る認証開始直後に質問例を表示する場合の認証解析装置の動作手順例を示すフローチャートである。
 認証解析装置P2における通信部20は、オペレータ側通話端末OP1から送信された音声信号(または音声データ)を取得する(St31)。
 認証解析装置P2における表示I/F23は、情報表示端末DPに表示された認証開始ボタンが押下されたか否かの信号を取得する(St32)。表示I/F23は、認証開始ボタンが押下された旨の信号を取得しなかった場合(St32、NO)、ステップSt31の処理に戻る。表示I/F23は、認証開始ボタンが押下された旨の信号を取得した場合(St32、YES)、ステップSt31の処理で、通信部20が取得した音声信号をプロセッサ21Hに出力する。
 プロセッサ21Hは、ステップSt32の処理で認証開始ボタンが押下された信号を表示I/F23が取得したタイミングで、取得された音声信号の音声認証対象であるユーザUSの認証を開始する(St33)。
 例文選択部21Gは、質問例文を質問例文データ保持部22Cから取得し、情報表示端末DPに表示させる質問例文を選択する。例文選択部21Gは、選択した質問例文の内容を含む信号を表示I/F23に送信する。表示I/F23は、選択された質問例文の内容を含む信号を取得した場合、例文選択部21Gによって選択された質問例文を認証開始直後に表示させる(St34)。
 プロセッサ21Hにおける発話区間検出部21Aは、取得された音声信号から発話区間を検出する(St14)。
 発話区間検出部21Aは、検出された発話区間の情報(例えば、発話区間の開始時刻と終了時刻、文字数、発話音素数、信号長(発話音声長、発話秒数等)、話速変換前または話速変換後の話速等)の情報をメモリ22Hに保存する(St36)。
 発話区間検出部21Aは、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される1以上の発話音声信号を選択する(St37)。なお、図10では図示を省略しているが、認証解析装置P2は、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される発話音声信号がないと判定した場合、ステップSt35の処理に戻って、新たな発話区間を検出してもよい。発話区間検出部21Aは、選択した発話音声信号を音素解析部21Fに出力する。
 音素解析部21Fは、ステップSt37の処理で選択された発話音声信号の発話音素を解析する処理を実行する(St38)。音素解析部21Fは、解析した発話音声信号を、発話連結部21Bに出力する。
 発話連結部21Bは、選択された1以上の発話音声信号のそれぞれを連結する音声連結処理を実行し、連結音声信号を生成する(St39)。発話連結部21Bは、生成された連結音声信号を類似度計算部21Dに出力する。
 類似度計算部21Dは、質問例文に対して話者が回答した発話音声信号と登録話者データベースDBに登録された発話音声信号との類似度を算出する(St40)。なお、図15では図示を省略しているが、発話連結部21BはステップSt39の処理で生成された連結音声信号を特徴量抽出部21Cに出力してもよい。つまり、類似度計算部21Dは、複数のユーザのそれぞれの発話特徴量を参照し、特徴量抽出部21Cから出力されたユーザUS個人の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量との類似度を算出してもよい。なお、類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量に代えて、登録話者データベースDBに登録された特定のユーザの発話特徴量との類似度を算出してもよい。
 類似度計算部21Dは、算出された類似度を含む信号を表示I/F23に送信する。表示I/F23は、類似度を含む信号を受信した場合、情報表示端末DPに算出された類似度の結果を表示させる(St41)。
 類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が予め定められた閾値以上であるユーザがいるか否かを判定する(St42)。
 類似度計算部21Dは、ステップSt42の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいると判定した場合(St42,YES)、このユーザが音声信号のユーザUSであると判定する(St45)。なお、類似度計算部21Dは、類似度が閾値以上であるユーザが複数いると判定した場合、類似度が最も高いユーザを音声信号のユーザUSであると判定してよい。
 類似度計算部21Dは、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を表示I/F23に出力して、表示I/F23は類似度計算部21Dによって出力された情報を基に認証結果画面SCを生成して、情報表示端末DPに出力する(St46)。
 一方、類似度計算部21Dは、ステップSt42の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいないと判定した場合(St42,NO)、類似度計算部21Dは、本人確認の認証を継続するか否かを判定する(St43)。
 類似度計算部21Dは、ステップSt43の処理において、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値以上であると判定した場合(St43、NO)、取得された音声信号に基づいて、ユーザ認証失敗と判定する(St44)。表示I/F23はユーザ認証失敗の旨を通知する認証結果画面を生成し情報表示端末DPへ出力する。情報表示端末DPは、認証解析装置P2から送信された認証結果画面を出力(表示)する(St46)。
 類似度計算部21Dは、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値未満であると判定した場合(St43、YES)、ステップSt34の処理に戻る。
 次に、図16を参照して、質問例文表示機能がオフの場合の画面例を説明する。図16は、実施の形態2に係る質問例文表示機能がオフの場合の画面例を示す図である。
 ディスプレイDP2は、オペレータOPに表示される認証状況を表す画面の一例である。
 情報IF1は、認証結果の候補者の個人情報を表示する。個人情報は、名前、電話番号、住所または会員番号である。なお、個人情報はこれらに限定されない。また、情報IF1は、認証結果の第一候補者を表示してもよいし、複数の候補者を表示してもよい。情報IF2は、認証結果の候補者の顔写真を表示する。
 認証結果候補欄MN5は、本人確認の認証結果の候補を表示する。認証結果候補欄MN5は、候補者の名前と各候補者に対するユーザUSである確率を一緒に表示してよい。ユーザUSである確率は、図8の認証結果候補欄MN5に示す棒メータでもよいし、百分率でもよい。認証結果候補欄MN5は、最もユーザUSである確率の高い候補者を上から順に表示してもよいし、候補者をかな文字順、アルファベット順でもよいし、オペレータOPによって任意に候補者の順番を設定されてもよい。
 質問例文表示欄MN6は、例文選択部21Gによって選択された質問例文を表示する。図16に係る例では、質問例文表示機能がオフであるため質問例文は質問例文表示欄MN6に表示されない。
 音声信号表示欄MN7は、リアルタイムの連結音声信号の波形を表示する。音素解析部21Fが連結音声信号の発話音素を解析している場合、音声信号表示欄MN7に「音素解析中」と表示してもよい。
 ボタンBT2は、認証開始/停止ボタンである。オペレータOPは、ボタンBT2を押下することで、本人確認の認証開始と停止を操作することができる。
 ボタンBT3は、質問例文表示機能のオン/オフを指示するボタンである。オペレータOPは、ボタンBT3を押下することで、質問例文表示欄MN6に質問例文を表示させるか否かを操作することができる。
 情報IF3は、リアルタイムの発話音素数、発話長(つまり、合計時間)および発話区間数を表示する。
 次に、図17を参照して、質問例文表示機能がオンの場合の画面例を説明する。図17は、実施の形態2に係る質問例文表示機能がオンの場合の画面例を示す図である。なお、図16と重複する部分については説明を省略する。
 オペレータOPが、ボタンBT3を押下し質問例文表示機能がオンになっている場合、質問例文表示欄MN6に例文選択部21Gによって選択された質問例文が表示される。質問例文表示欄MN6には、例えば「質問例:本人認証のため、「かきくけこ」と発話していただけますか?(か行)」と表示される。
 なお、図16および図17に係る画面例は一例であり、これらに限定されない。
 次に、図18を参照して、本人確認の認証の途中で質問例文を表示する場合の認証解析装置の動作手順を説明する。図18は、実施の形態2に係る本人確認の認証の途中で質問例文を表示する場合の認証解析装置の動作手順例を示すフローチャートである。
 認証解析装置P2における通信部20は、オペレータ側通話端末OP1から送信された音声信号(または音声データ)を取得する(St51)。
 認証解析装置P2における表示I/F23は、情報表示端末DPに表示された認証開始ボタンが押下されたか否かの信号を取得する(St52)。表示I/F23は、認証開始ボタンが押下された旨の信号を取得しなかった場合(St52、NO)、ステップSt51の処理に戻る。表示I/F23は、認証開始ボタンが押下された旨の信号を取得した場合(St52、YES)、ステップSt51の処理で、通信部20が取得した音声信号をプロセッサ21に出力する。
 プロセッサ21Hは、ステップSt32の処理で認証開始ボタンが押下された信号を表示I/F23が取得したタイミングで、取得された音声信号の音声認証対象であるユーザUSの認証を開始する(St53)。
 プロセッサ21Hにおける発話区間検出部21Aは、取得された音声信号から発話区間を検出する(St54)。
 発話区間検出部21Aは、検出された発話区間の情報(例えば、発話区間の開始時刻と終了時刻、文字数、発話音素数、信号長(発話音声長、発話秒数等)、話速変換前または話速変換後の話速等)の情報をメモリ22Hに保存する(St55)。
 発話区間検出部21Aは、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される1以上の発話音声信号を選択する(St56)。なお、図10では図示を省略しているが、認証解析装置P2は、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される発話音声信号がないと判定した場合、ステップSt54の処理に戻って、新たな発話区間を検出してもよい。発話区間検出部21Aは、選択した発話音声信号を音素解析部21Fに出力する。
 音素解析部21Fは、ステップSt56の処理で選択された発話音声信号の発話音素を解析する処理を実行する(St57)。音素解析部21Fは、解析した発話音声信号を、発話連結部21Bに出力する。
 発話連結部21Bは、選択された1以上の発話音声信号のそれぞれを連結する音声連結処理を実行し、連結音声信号を生成する(St58)。発話連結部21Bは、生成された連結音声信号を類似度計算部21Dに出力する。
 類似度計算部21Dは、質問例文に対して話者が回答した発話音声信号と登録話者データベースDBに登録された発話音声信号との類似度を算出する(St59)。なお、図16では図示を省略しているが、発話連結部21BはステップSt39の処理で生成された連結音声信号を特徴量抽出部21Cに出力してもよい。つまり、類似度計算部21Dは、複数のユーザのそれぞれの発話特徴量を参照し、特徴量抽出部21Cから出力されたユーザUS個人の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量との類似度を算出してもよい。
 類似度計算部21Dは、算出された類似度を含む信号を表示I/F23に送信する。表示I/F23は、類似度を含む信号を取得した場合、情報表示端末DPに算出された類似度の結果を表示させる(St60)。
 類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が予め定められた閾値以上であるユーザがいるか否かを判定する(St61)。
 類似度計算部21Dは、ステップSt61の処理において、登録話者データベースDB登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいると判定した場合(St61,YES)、このユーザが音声信号のユーザUSであると判定する(St62)。なお、類似度計算部21Dは、類似度が閾値以上であるユーザが複数いると判定した場合、類似度が最も高いユーザを音声信号のユーザUSであると判定してよい。
 類似度計算部21Dは、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を表示I/F23に出力して、表示I/F23は、類似度計算部21Dによって出力された情報を基に認証結果画面SCを生成して、情報表示端末DPに出力する(St63)。
 一方、類似度計算部21Dは、ステップSt61の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいないと判定した場合(St61,NO)、類似度計算部21Dは、本人確認の認証を継続する(St64)。
 類似度計算部21Dは、ステップSt21の処理において、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値以上であると判定した場合(St64、NO)、取得された音声信号に基づいて、ユーザ認証失敗と判定する(St65)。表示I/F23はユーザ認証失敗の旨を通知する認証結果画面を生成し情報表示端末DPへ出力する。情報表示端末DPは、認証解析装置P2から送信された認証結果画面を出力(表示)する(St63)。
 類似度計算部21Dは、本人確認の認証を継続するか否かの判定として、例えば現在の認証回数が予め定められた認証回数の上限値未満であると判定した場合(St64、YES)、類似度計算部21Dは、判定結果を例文選択部21Gに出力する。例文選択部21Gは、質問例文を表示させるか否かの判定を行う(St66)。質問例文を表示させるか否かの判定は、類似度計算部21Dによって行われてもよいし、例文選択部21Gによって、発話音素数もしくは類似度に関する予め定められた閾値に対して行われてもよいし、オペレータOPが情報表示端末DPに表示された質問例文を表示させるか否かのボタンを押下されたか否かによって行われてもよい。
 例文選択部21Gは、質問例文表示が不要と判定した場合(St66、不要)、ステップSt54の処理に戻る。例文選択部21Gは、質問例文表示が必要と判定した場合(St66、要)、判定結果を表示I/F23に出力する。表示I/F23は、情報表示端末DPに質問例文を表示させ(St67)、ステップSt54の処理に戻る。
 これにより、図18に係る認証解析装置P2の動作手順例では、プロセッサ21Hは、認証開始後に取得された発話音声信号と登録話者データベースDBに登録された音声信号との類似度を算出する。プロセッサ21Hは、類似度が予め定められた閾値以下であった場合、質問例文の表示が必要か否かの判定を行う。表示I/F23は、プロセッサ21Hによって質問例文の表示が必要であるとの判定結果を取得した場合、例文選択部21Gによって選択された質問例文を情報表示端末DPに表示させる。
 以上により、実施の形態2に係る認証解析装置P2は、話者の発話音声の音声信号を取得して検出する発話区間検出部21Aと、登録話者データベースDBとの照合に基づいて、話者が本人であるか否かを認証するプロセッサ21Hと、プロセッサ21Hによる話者の認証に用いる音声信号を取得するための質問を質問例文として複数保持する質問例文データ保持部22Cと、話者に対する質問例文を情報表示端末DPに表示させる表示インターフェース23と、質問例文データ保持部22Cに保持された複数の質問例文の中から情報表示端末DPに表示する質問例文を選択する例文選択部21Gと、を備える。
 これにより、認証解析装置P2は、話者の本人確認の認証に必要な音声信号を取得するために質問例文を選択し情報表示端末DPに表示させることができる。これによって、オペレータOPが顧客の本人確認の認証を高精度に行うことができる。
 また、実施の形態2に係る認証解析装置P2は、発話区間検出部21Aにより検出された話者の音声信号に含まれる発話音素を抽出する音素解析部21F、をさらに備える。例文選択部21Gは、音素解析部21Fにより抽出された発話音素に基づき、音声信号に含まれない発話音素を含む発話を促す質問例文を選択する。これにより、認証解析装置P2は、未収音の発話音素を引き出すための質問例文を選択することができる。これにより、オペレータOPは、効率的に話者の本人確認の認証を行うことができる。
 また、実施の形態2に係る表示I/F23は、例文選択部21Gによって選択された質問例文を情報表示端末DPに表示させる。これにより、オペレータOPが未収音の発話音素を引き出すための質問例文を顧客に質問することができ、顧客の本人確認の認証を高精度に行うことができる。
 また、実施の形態2に係る表示I/F23は、例文選択部21Gによって選択された質問例文を認証開始直後に情報表示端末DPに表示させる。プロセッサ21Hは、質問例文に対して話者が回答した発話音声の音声信号と登録話者データベースDBに登録された音声信号との類似度を算出し、類似度が予め定められた閾値以上であった場合、話者を認証する。これにより、オペレータOPは、スムーズに話者の本人確認の認証に必要な発話音素を引き出す質問例文を話者に質問することができる。これにより、オペレータOPは、効率的に話者の本人確認の認証を行うことができる。
 また、実施の形態2に係るプロセッサ21Hは、認証開始後に取得された音声信号と登録話者データベースDBに登録された音声信号との類似度を算出し、類似度が予め定められた閾値以下であった場合、質問例文の表示が必要か否かの判定を行う。表示I/F23は、プロセッサ21Hによって質問例文の表示が必要であるとの判定結果を取得した場合、例文選択部21Gによって選択された質問例文を情報表示端末DPに表示させる。これにより、認証解析装置P2は、本人確認の認証に必要な発話音素を引き出すための質問例文を情報表示端末DPに表示させる。これにより、オペレータOPは、顧客の本人確認の認証を高精度に行うことができる。
 また、実施の形態2に係る音素解析部21Fは、抽出された音素それぞれの数を算出する。例文選択部21Gは、発話音素数が予め定められた閾値よりも少ない発話音素を含む質問例文を選択する。これにより、認証解析装置P2は、収音された発話音素のうち発話音素数が閾値を下回る発話音素を引き出すための質問例文を情報表示端末DPに表示させることができる。これによりオペレータOPは、顧客の本人確認の認証を高精度に行うことができる。
 また、実施の形態2に係るプロセッサ21Hは、情報表示端末DPに表示された認証開始ボタンが押された旨の信号を取得した場合、信号の取得後に入力された音声信号から認証を開始する。これにより、話者の本人確認の認証開始をオペレータOPの操作でできるため、オペレータOPがユーザUSへの認証を開始する前に開始する旨を伝えることができる。また、オペレータOPの判断で認証が必要ない場合に認証をしないようにできる。
 また、実施の形態2に係る質問例文は、住所、電話番号、生年月日、話者の個人情報に含まれない音素を含むパスワードまたはかな文字のうち少なくとも1つを話者に回答させる質問文である。これにより、認証解析装置P2は、本人確認の認証に使用する発話音声信号を効率的に取得することができる。これにより、オペレータOPは、本人確認の認証を高精度に行うことができ、また、短い時間で高効率に認証を行うことができる。
 以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。
 なお、本出願は、2021年12月3日出願の日本特許出願(特願2021-197225)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示の技術は、オペレータがリアルタイムに顧客の本人確認の認証状況を確認できるようにしオペレータの作業効率の向上を支援し、本人確認の認証を高精度に行うことができる認証装置および認証方法の提供として有用である。
 NW ネットワーク
 UP1 ユーザ側通話端末
 OP1 オペレータ側通話端末
 US ユーザ
 OP オペレータ
 COM11,COM12,COM13,COM14,COM15,COM16,COM17,COM18 発話音声
 P1,P2 認証解析装置
 DB 登録話者データベース
 DP 情報表示端末
 SC 認証結果画面
 20 通信部
 21,21H プロセッサ
 21A 発話区間検出部
 21B 発話連結部
 21C 特徴量抽出部
 21D 類似度計算部
 21E 信頼度算出部
 21F 音素解析部
 21G 例文選択部
 22,22H メモリ
 21J 音解析部
 22A ROM
 22B RAM
 22C 質問例文データ保持部
 23 表示I/F
 24 感情識別器
 TBL1,TBL2,TBL3 テーブル
 C1,C2,C3 発話内容
 Ba1,Ba2,Ba3,Ba4,Ba5,Ba6 信頼度
 UI 認証開始ボタン
 Wa1 感情波形
 S1,S2,S3,S4,S5,S6,S7,S8,S9,S10,S11,S12,S13,S14 区間
 Sig2,Sig3,Sig4,Sig5,Sig6,Sig7,Sig8,Sig9,Sig10 音声信号波形
 DP1,DP2 ディスプレイ
 MN1 候補者情報欄
 MN2,MN5 認証結果候補欄
 MN3,MN7 音声信号表示欄
 MN4 認証結果信頼度メータ
 MN6 質問例文表示欄
 Msg1 メッセージ
 Msg2 質問画面
 BT1,BT2,BT3
 Gr1 グラフ
 L1,L2,L3,L4 音素
 IF1,IF2,IF3 情報

Claims (9)

  1.  話者の発話音声の音声信号を取得して検出する取得部と、
     前記取得部により検出された前記音声信号と、データベースとの照合とに基づいて、前記話者が本人であるか否かを認証する認証部と、
     前記認証部による前記話者の認証に用いる音声信号を取得するための質問を質問例文として複数保持する保持部と、
     前記話者に対する前記質問例文を端末装置に表示させる表示インターフェースと、
     前記保持部に保持された複数の前記質問例文の中から前記端末装置に表示する質問例文を選択する例文選択部と、を備える、
     認証装置。
  2.  前記取得部により検出された前記話者の前記音声信号に含まれる音素を抽出する音素解析部、をさらに備え、
     前記例文選択部は、前記音素解析部により抽出された前記音素に基づき、前記音声信号に含まれない音素を含む発話を促す質問例文を選択する、
     請求項1に記載の認証装置。
  3.  前記表示インターフェースは、前記例文選択部によって選択された前記質問例文を前記端末装置に表示させる、
     請求項2に記載の認証装置。
  4.  前記表示インターフェースは、前記例文選択部によって選択された前記質問例文を認証開始直後に前記端末装置に表示させ、
     前記認証部は、前記質問例文に対して前記話者が回答した発話音声の音声信号と前記データベースに登録された音声信号との類似度を算出し、前記類似度が予め定められた閾値以上であった場合、前記話者を認証する、
     請求項3に記載の認証装置。
  5.  前記認証部は、認証開始後に取得された前記音声信号と前記データベースに登録された音声信号との類似度を算出し、前記類似度が予め定められた閾値以下であった場合、前記質問例文の表示が必要か否かの判定を行い、
     前記表示インターフェースは、前記認証部によって前記質問例文の表示が必要であるとの判定結果を取得した場合、前記例文選択部によって選択された前記質問例文を前記端末装置に表示させる、
     請求項3に記載の認証装置。
  6.  前記音素解析部は、抽出された前記音素それぞれの数を算出し、
     前記例文選択部は、前記数が予め定められた閾値よりも少ない音素を含む質問例文を選択する、
     請求項2に記載の認証装置。
  7.  前記認証部は、前記端末装置に表示された認証開始ボタンが押された旨の信号を取得した場合、前記信号の取得後に入力された前記音声信号から認証を開始する、
     請求項1に記載の認証装置。
  8.  前記質問例文は、住所、電話番号、生年月日、前記話者の個人情報に含まれない音素を含むパスワードまたはかな文字のうち少なくとも1つを前記話者に回答させる質問文である、
     請求項1に記載の認証装置。
  9.  1以上のコンピュータが行う認証方法であって、
     話者の発話音声の音声信号を取得して検出し、
     検出された前記音声信号と、データベースとの照合とに基づいて、前記話者が本人であるか否かを認証し、
     前記話者の認証に用いる音声信号を取得するための質問を質問例文として複数保持し、
     前記話者に対する前記質問例文を端末装置に表示させ、
     保持された複数の質問例文の中から表示する質問例文を選択する、
     認証方法。
PCT/JP2022/044301 2021-12-03 2022-11-30 認証装置および認証方法 WO2023100960A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP22901391.7A EP4443431A1 (en) 2021-12-03 2022-11-30 Verification device and verification method
JP2023565071A JPWO2023100960A1 (ja) 2021-12-03 2022-11-30

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-197225 2021-12-03
JP2021197225 2021-12-03

Publications (1)

Publication Number Publication Date
WO2023100960A1 true WO2023100960A1 (ja) 2023-06-08

Family

ID=86612262

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/044301 WO2023100960A1 (ja) 2021-12-03 2022-11-30 認証装置および認証方法

Country Status (3)

Country Link
EP (1) EP4443431A1 (ja)
JP (1) JPWO2023100960A1 (ja)
WO (1) WO2023100960A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133414A (ja) * 2005-11-11 2007-05-31 Toshiba Corp 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
JP2008170505A (ja) * 2007-01-09 2008-07-24 Yamaha Corp 音声処理装置およびプログラム
JP2014197140A (ja) 2013-03-29 2014-10-16 株式会社日本総合研究所 オペレータ本人確認支援システム及びその方法
JP2016511475A (ja) * 2013-03-05 2016-04-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 人間を機械から区別するための方法及びシステム
JP2017054356A (ja) * 2015-09-10 2017-03-16 フォースタイル株式会社 コンタクト履歴管理システム
WO2017130497A1 (ja) * 2016-01-28 2017-08-03 ソニー株式会社 通信システムおよび通信制御方法
WO2020171040A1 (ja) * 2019-02-18 2020-08-27 日本電気株式会社 声認証装置、声認証方法、及び、記録媒体
JP2021197225A (ja) 2020-06-10 2021-12-27 Tasmit株式会社 画像生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133414A (ja) * 2005-11-11 2007-05-31 Toshiba Corp 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
JP2008170505A (ja) * 2007-01-09 2008-07-24 Yamaha Corp 音声処理装置およびプログラム
JP2016511475A (ja) * 2013-03-05 2016-04-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 人間を機械から区別するための方法及びシステム
JP2014197140A (ja) 2013-03-29 2014-10-16 株式会社日本総合研究所 オペレータ本人確認支援システム及びその方法
JP2017054356A (ja) * 2015-09-10 2017-03-16 フォースタイル株式会社 コンタクト履歴管理システム
WO2017130497A1 (ja) * 2016-01-28 2017-08-03 ソニー株式会社 通信システムおよび通信制御方法
WO2020171040A1 (ja) * 2019-02-18 2020-08-27 日本電気株式会社 声認証装置、声認証方法、及び、記録媒体
JP2021197225A (ja) 2020-06-10 2021-12-27 Tasmit株式会社 画像生成方法

Also Published As

Publication number Publication date
JPWO2023100960A1 (ja) 2023-06-08
EP4443431A1 (en) 2024-10-09

Similar Documents

Publication Publication Date Title
KR101757990B1 (ko) 성문 인증 방법 및 장치
EP3327720B1 (en) User voiceprint model construction method and apparatus
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
US20160372116A1 (en) Voice authentication and speech recognition system and method
WO2016092807A1 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP2007052496A (ja) ユーザ認証システム及びユーザ認証方法
JP5311348B2 (ja) 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム
WO2016194740A1 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
WO2006087799A1 (ja) 音声認証システム
WO2013110125A1 (en) Voice authentication and speech recognition system and method
AU2013203139A1 (en) Voice authentication and speech recognition system and method
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
JP6915637B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
CN113160821A (zh) 一种基于语音识别的控制方法及装置
WO2023100960A1 (ja) 認証装置および認証方法
WO2023100905A1 (ja) 認証装置および認証方法
CN109273012A (zh) 一种基于说话人识别和数字语音识别的身份认证方法
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
CN113593580A (zh) 一种声纹识别方法及装置
JP5596869B2 (ja) 音声認識装置
WO2023101000A1 (ja) 音声登録装置および音声登録方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22901391

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023565071

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022901391

Country of ref document: EP

Effective date: 20240703