WO2023047893A1 - 認証装置および認証方法 - Google Patents

認証装置および認証方法 Download PDF

Info

Publication number
WO2023047893A1
WO2023047893A1 PCT/JP2022/032468 JP2022032468W WO2023047893A1 WO 2023047893 A1 WO2023047893 A1 WO 2023047893A1 JP 2022032468 W JP2022032468 W JP 2022032468W WO 2023047893 A1 WO2023047893 A1 WO 2023047893A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
utterance
period
authentication
signal
Prior art date
Application number
PCT/JP2022/032468
Other languages
English (en)
French (fr)
Inventor
鉄平 福田
正成 宮本
直也 田中
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN202280065297.2A priority Critical patent/CN118043886A/zh
Publication of WO2023047893A1 publication Critical patent/WO2023047893A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Definitions

  • This disclosure relates to an authentication device and an authentication method.
  • Patent Literature 1 discloses an authentication device for verifying the identity of a speaker who makes a call using a telephone terminal connected to a telephone network.
  • An authentication device is disclosed for making determinations.
  • the authentication device stores predetermined voiceprint information, a first keyword, and a second keyword, acquires the voiceprint information from the voice received by the receiving means, and compares the voiceprint information with the predetermined stored voiceprint information.
  • Voiceprint authentication is performed by The authentication device transmits a voice message prompting the speaker to utter the first keyword to the telephone terminal, and then the contents of the speaker's voice received by the receiving means are stored in the first storage means. Determine whether or not it corresponds to the keyword.
  • the authentication device transmits to the telephone terminal a voice message prompting the speaker to utter the second keyword when the authentication result using the voiceprint information and the voice recognition authentication result using the first keyword are different. After that, it is determined whether or not the content of the voice of the speaker received by the receiving means corresponds to the second keyword stored in the storage means, and the identity of the speaker is confirmed.
  • voiceprint authentication if the data length of the voice data is short, the authentication accuracy may decrease and the identity may be denied. Therefore, in Patent Document 1, voiceprint authentication and voice recognition authentication are performed to confirm the identity of the speaker. Therefore, the authentication device assists identity verification by comparing the speech recognition result obtained by recognizing the speaker's speech with the first keyword or the second keyword stored in the storage means, It was not intended to improve the accuracy of voiceprint authentication using voiceprint information.
  • the present disclosure has been devised in view of the conventional situation described above, and aims to provide an authentication device and an authentication method that improve the accuracy of voice authentication of a speaker using uttered voice.
  • the present disclosure includes an acquisition unit that acquires an audio signal of an uttered voice of a speaker, a detection unit that detects a first utterance period in which the speaker is speaking from the acquired audio signal, and the detection unit. an authentication unit that authenticates the speaker based on the detected speech signal of the first speech period and collation with a database, wherein the detection unit prevents the speaker from being authenticated by the authentication unit. is detected, a second utterance period different from the first utterance period is detected, and the authenticating unit receives the audio signals of the first utterance period and the second utterance period, and the database to provide an authentication device for authenticating the speaker based on matching with
  • the present disclosure is an authentication method performed by one or more computers, which acquires an audio signal of an uttered voice of a speaker, and from the acquired audio signal, a first utterance segment in which the speaker is speaking. is detected, the speaker is authenticated based on the detected speech signal of the first speech period and collation with a database, and the speaker is authenticated based on the speech signal of the first speech period When it is determined that the authentication is not possible, detecting a second speech period different from the first speech period, and comparing the audio signals of the first speech period and the second speech period with the database An authentication method is provided for authenticating the speaker based on.
  • a diagram showing an example of a use case of the voice authentication system according to Embodiment 1 1 is a block diagram showing an internal configuration example of a recognition analysis device according to Embodiment 1.
  • FIG. FIG. 4 is a diagram for explaining a first example of user authentication processing according to Embodiment 1;
  • FIG. 5 is a diagram for explaining a second example of user authentication processing according to the first embodiment;
  • FIG. 11 is a diagram for explaining a third example of user authentication processing according to the first embodiment;
  • FIG. 5 is a diagram for explaining a fourth example of user authentication processing according to the first embodiment;
  • FIG. 11 is a diagram for explaining a fifth example of user authentication processing according to the first embodiment;
  • FIG. 11 is a diagram for explaining a sixth example of user authentication processing according to the first embodiment;
  • FIG. 11 is a diagram for explaining a sixth example of user authentication processing according to the first embodiment;
  • 4 is a flow chart showing an example of the operation procedure of the recognition analysis device according to Embodiment 1
  • FIG. 1 is a diagram showing an example of a use case of voice authentication system 100 according to Embodiment 1.
  • the voice authentication system 100 acquires a voice signal or voice data of a person (user US in the example shown in FIG. 1) to be voice-authenticated, and stores the acquired voice signal or voice data in a storage (see FIG. 1) in advance. In the example shown, it is collated with a plurality of speech signals or speech data registered (stored) in the registered speaker database (DB).
  • the voice authentication system 100 evaluates the degree of similarity between the user to be voice-authenticated and the voice signal or voice data registered in the storage based on the matching result, and authenticates the user US based on the evaluated similarity. do.
  • the voice authentication system 100 includes an operator-side call terminal OP1 as an example of a sound collecting device, an authentication analysis device P1, a registered speaker database DB, and an information display unit DP as an example of an output device. , at least.
  • the authentication analysis device P1 and the registered speaker database DB may be configured integrally.
  • the authentication analysis device P1 and the information display section DP may be configured integrally.
  • the voice authentication system 100 shown in FIG. 1 shows an example of being used for authentication of a speaker (user US) in a call center as an example. Authenticate user US.
  • the voice authentication system 100 shown in FIG. 1 further includes a user-side call terminal UP1 and a network NW. Needless to say, the overall configuration of the voice authentication system 100 is not limited to the example shown in FIG.
  • the user-side call terminal UP1 is connected to the operator-side call terminal OP1 via the network NW so as to be capable of wireless communication.
  • the wireless communication here is communication via a wireless LAN (Local Area Network) such as Wi-Fi (registered trademark).
  • the user-side call terminal UP1 is realized by, for example, a notebook PC, tablet terminal, smartphone, telephone, or the like.
  • the user-side call terminal UP1 is a sound collecting device equipped with a microphone (not shown). Send to the call terminal OP1.
  • the user-side telephone terminal UP1 acquires an audio signal of the operator's OP's uttered voice transmitted from the operator-side telephone terminal OP1, and outputs it from a speaker (not shown).
  • the network NW is an IP network or a telephone network, and connects the user-side telephone terminal UP1 and the operator-side telephone terminal OP1 so that voice signals can be transmitted and received. Data transmission/reception is performed by wired communication or wireless communication.
  • the wireless communication here is communication via a wireless LAN such as Wi-Fi (registered trademark).
  • the operator-side call terminal OP1 is connected to the user-side call terminal UP1 and the authentication analysis device P1 so as to be able to transmit and receive data through wired communication or wireless communication, respectively, and transmits and receives audio signals.
  • the operator-side call terminal OP1 is realized by, for example, a notebook PC, tablet terminal, smartphone, telephone, or the like.
  • the operator side call terminal OP1 acquires a voice signal based on the user US's uttered voice transmitted from the user side call terminal UP1 via the network NW, and transmits the voice signal to the authentication analysis device P1.
  • the operator-side call terminal OP1 acquires a voice signal including the acquired speech voice of the user US and the voice of the operator OP
  • the sound pressure level and frequency band of the voice signal of the operator-side call terminal OP1 A speech signal based on the uttered voice of the user US and a speech signal based on the uttered voice of the operator OP may be separated based on voice parameters such as .
  • the operator-side call terminal OP1 extracts only the voice signal based on the voice uttered by the user US and transmits it to the authentication analysis device P1.
  • the operator-side call terminal OP1 may be connected to each of a plurality of user-side call terminals so as to be able to communicate with each other, and simultaneously acquire voice signals from each of the plurality of user-side call terminals.
  • the operator-side call terminal OP1 transmits the acquired voice signal to the authentication analysis device P1.
  • the voice authentication system 100 can simultaneously execute voice authentication processing and voice analysis processing for each of a plurality of users.
  • the operator-side call terminal OP1 may simultaneously acquire voice signals including speech voices of a plurality of users.
  • the operator-side call terminal OP1 extracts a voice signal for each user from voice signals of a plurality of users acquired via the network NW, and transmits the voice signal for each user to the authentication analysis device P1.
  • the operator-side call terminal OP1 may analyze the voice signals of a plurality of users, and separate and extract the voice signals for each user based on voice parameters such as sound pressure level and frequency band. .
  • the voice signal is picked up by an array microphone or the like, the operator-side call terminal OP1 may separate and extract the voice signal for each user based on the direction of arrival of the uttered voice.
  • the voice authentication system 100 can perform voice authentication processing and voice analysis processing for each of a plurality of users, even for voice signals collected in an environment where multiple users speak at the same time, such as a Web conference. can.
  • An authentication device and an authentication analysis device P1 which is an example of a computer, are connected to the operator side call terminal OP1, the registered speaker database DB, and the information display unit DP so that data can be transmitted and received.
  • the authentication analysis device P1 may be connected to the operator-side call terminal OP1, the registered speaker database DB, and the information display unit DP via a network (not shown) so as to be capable of wired communication or wireless communication. .
  • the authentication analysis device P1 acquires the voice signal of the user US transmitted from the operator-side telephone terminal OP1, analyzes the acquired voice signal for each frequency, for example, and extracts the speech feature of the user US. .
  • the authentication analysis device P1 refers to the registered-speaker database DB, compares each of the plurality of users registered in advance in the registered-speaker database DB with the extracted utterance feature amount, and Perform voice authentication of user US. Note that the authentication analysis device P1 uses the utterance feature amount of a specific user registered in advance in the registered speaker database DB instead of the utterance feature amount of each of a plurality of users registered in advance in the registered speaker database DB. , and the extracted utterance feature amount to perform voice authentication of the user US.
  • the authentication analysis device P1 generates an authentication result screen SC including the user authentication result, and transmits it to the information display unit DP for output. It goes without saying that the authentication result screen SC shown in FIG. 1 is an example and is not limited to this.
  • the authentication result screen SC shown in FIG. 1 includes a message “Mr.
  • the authentication analysis device P1 may perform voice authentication of the user US by comparing the voice signals of each of the plurality of users registered in advance in the registered speaker database DB with the voice signal of the user US. good. Note that the authentication analysis device P1 uses the voice signal of a specific user registered in advance in the registered-speaker database DB instead of the voice signals of each of a plurality of users registered in advance in the registered-speaker database DB, Voice authentication of the user US may be performed by matching with the voice signal of the user US.
  • a registered speaker database DB as an example of a database is a so-called storage, and is configured using a storage medium such as a flash memory, HDD (Hard Disk Drive), or SSD (Solid State Drive).
  • the registered speaker database DB stores (registers) user information of a plurality of users and utterance feature amounts in association with each other.
  • the user information here is information about the user, and includes, for example, a user name, a user ID (Identification), identification information assigned to each user, and the like.
  • the registered speaker database DB may be configured integrally with the authentication analysis device P1.
  • the information display unit DP is configured using, for example, an LCD (Liquid Crystal Display) or an organic EL (Electroluminescence) display, and displays the authentication result screen SC transmitted from the authentication analysis device P1.
  • LCD Liquid Crystal Display
  • organic EL Electrode
  • the user-side call terminal UP1 picks up the speech voice COM12 of the user US "It's XXOO" and the speech voice COM14 "It's 123245678", converts them into voice signals, and converts them into voice signals. It is transmitted to the side call terminal OP1.
  • the operator-side call terminal OP1 transmits to the authentication analysis device P1 voice signals based on the user US's uttered voices COM12 and COM14 transmitted from the user-side call terminal UP1.
  • the operator side call terminal OP1 picks up the operator OP's speech COM11 "Please tell me your name", the speech speech COM13 "Please tell me your membership number”, and the speech speech COM12 and COM14 of the user US.
  • the voice signals are obtained, the voice signals based on the uttered voices COM11 and COM13 of the operator OP are separated and removed, and only the voice signals based on the uttered voices COM12 and COM14 of the user US are extracted, It is transmitted to the authentication analysis device P1.
  • the authentication analysis device P1 can improve the accuracy of user authentication by using only the voice signal of the person who is the target of voice authentication.
  • FIG. 2 is a block diagram showing an example internal configuration of the authentication analysis device P1 according to the first embodiment.
  • the authentication analysis device P1 includes at least a communication unit 20, a processor 21, and a memory 22.
  • FIG. 20 is a block diagram showing an example internal configuration of the authentication analysis device P1 according to the first embodiment.
  • the authentication analysis device P1 includes at least a communication unit 20, a processor 21, and a memory 22.
  • the communication unit 20 which is an example of an acquisition unit, connects each of the operator side call terminal OP1 and the registered speaker database DB so that data communication is possible.
  • the communication unit 20 outputs to the processor 21 the voice signal transmitted from the operator side telephone terminal OP1.
  • the acquisition unit is not limited to the communication unit 20, and may be, for example, the microphone of the operator side call terminal OP1 integrated with the authentication analysis device P1.
  • the processor 21 uses a semiconductor chip on which at least one of electronic devices such as a CPU (Central Processing Unit), a DSP (Digital Signal Processor), a GPU (Graphical Processing Unit), and an FPGA (Field Programmable Gate Array) is mounted. Configured.
  • the processor 21 functions as a controller that controls the overall operation of the authentication analysis device P1, performs control processing for supervising the operation of each part of the authentication analysis device P1, and inputs and outputs data to and from each part of the authentication analysis device P1. processing, arithmetic processing of data and storage processing of data.
  • the processor 21 uses programs and data stored in a ROM (Read Only Memory) 22A of the memory 22 to perform each of an utterance segment detection unit 21A, an utterance linking unit 21B, a feature amount extraction unit 21C, and a similarity calculation unit 21D. to realize the function of The processor 21 uses a RAM (random access memory) 22B of the memory 22 during operation, and temporarily stores data or information generated or acquired by the processor 21 and each unit in the RAM 22B of the memory 22 .
  • ROM Read Only Memory
  • a speech period detection unit 21A which is an example of a detection unit, a recognition unit, a conversion unit, and a noise detection unit, analyzes the acquired audio signal and detects the speech period in which the user US is speaking.
  • the speech period detection unit 21A outputs a speech signal corresponding to each speech period detected from the speech signal (hereinafter referred to as "speech audio signal") to the speech connection unit 21B or the feature quantity extraction unit 21C.
  • the speech period detection unit 21A may temporarily store the speech audio signal of each speech period in the RAM 22B of the memory 22.
  • the utterance linking unit 21B as an example of the processing unit joins the utterance audio signals of these utterance intervals. do.
  • the speech connection unit 21B outputs the speech audio signal after connection (hereinafter referred to as “connected audio signal”) to the feature quantity extraction unit 21C. A user authentication method will be described later.
  • the feature extraction unit 21C which is an example of the processing unit, uses one or more utterance voice signals extracted by the utterance period detection unit 21A to analyze the features of an individual's voice, for example, for each frequency, and extract the utterance feature. Extract.
  • the feature amount extraction unit 21C may extract the speech feature amount of the connected speech signal output from the speech connection unit 21B.
  • the feature amount extraction unit 21C associates the extracted utterance feature amount with the utterance voice signal or the concatenated voice signal from which the utterance feature amount was extracted, and outputs them to the similarity calculation unit 21D, or stores them in the RAM 22B of the memory 22. Save it temporarily.
  • a similarity calculation unit 21D as an example of an authentication unit acquires the utterance feature amount of the utterance voice signal or the concatenated voice signal output from the feature amount extraction unit 21C.
  • the similarity calculation unit 21D refers to the registered-speaker database DB, and calculates the similarity between the utterance feature amount of each of the plurality of users registered in the registered-speaker database DB and the acquired utterance feature amount after connection. Calculate Based on the calculated similarity, the similarity calculation unit 21D identifies the user corresponding to the speech voice signal or the concatenated voice signal (that is, the voice signal transmitted from the user-side communication terminal UP1) and executes user authentication. do.
  • the similarity calculation unit 21D When it is determined that a user has been specified as a result of user authentication, the similarity calculation unit 21D generates an authentication result screen SC including information (that is, authentication result) about the specified user, and displays the display I/F (inter 23 to the information display unit DP.
  • the similarity calculation unit 21D determines that the calculated similarity is less than the predetermined value, the similarity calculation unit 21D determines that the user cannot be authenticated, and issues a control command requesting the speech connection unit 21B to connect the speech signal. Generate and output. Further, the similarity calculation unit 21D determines that an upper limit is set for the number of times of user authentication in user authentication for the same person (user US), and that the number of times that user authentication is not possible is equal to or greater than the upper limit. In this case, an authentication result screen (not shown) for notifying that user authentication is not possible may be generated and output to the information display section DP.
  • the memory 22 includes, for example, a ROM 22A that stores a program defining various processes performed by the processor 21 and data used during execution of the program, and a work memory that is used when executing the various processes performed by the processor 21. and a RAM 22B.
  • the ROM 22A stores a program defining various processes to be performed by the processor 21 and data used during execution of the program.
  • data or information generated or acquired by the processor 21 for example, utterance speech signals before concatenation, concatenated speech signals after concatenation, utterance feature amounts corresponding to each utterance interval before or after concatenation, etc. are stored. Temporarily saved.
  • the display I/F 23 connects the processor 21 and the information display section DP for data communication, and outputs the authentication result screen SC generated by the similarity calculation section 21D of the processor 21 to the information display section DP.
  • FIG. 3 is a diagram illustrating a first example of user authentication processing according to the first embodiment.
  • FIGS. 3 to 8 show, as an example, an example in which the operator OP and the user US who is the subject of user authentication are having a conversation.
  • the user-side call terminal UP1 receives the user US's speech Us11 "Hello”, speech Us12 “I don't know the password”, speech Us13 "My ID is 12345678", and speech Us14 "My name is XXOO". is picked up, converted into a voice signal, and transmitted to the operator side communication terminal OP1.
  • the operator-side call terminal OP1 picks up the operator OP's speech Op11 "How are you?", speech Op12 "Yes, please tell me your ID", and speech Op13 "Please tell me your name.” , is converted into an audio signal and transmitted to the user side telephone terminal UP1. Also, the operator-side telephone terminal OP1 acquires the voice signal transmitted from the user-side telephone terminal UP1 and transmits it to the authentication analysis device P1.
  • the speech period detection unit 21A in the authentication analysis device P1 detects the speech period of each of the user US's speech voices Us11 to Us14 from the audio signal transmitted from the operator side telephone terminal OP1.
  • the speech period detection unit 21A extracts a speech audio signal corresponding to each detected speech period. 3 to 8, the speech signal corresponding to the speech sound Us11 is "speech 1", the speech signal corresponding to the speech sound Us12 is “speech 2", and the speech signal corresponding to the speech sound Us13 is “speech 2".
  • the speech signal is denoted as "utterance 3", and the speech signal corresponding to the speech voice Us14 is denoted as "utterance 4".
  • the examples of conversation between the operator OP and the user US shown in FIGS. 3 to 8 and the audio signals used for user authentication are only examples, and are not limited to these examples.
  • Acquisition of the voice signal used for user authentication is performed by using the voice signal corresponding to the utterance voice picked up after the timing of voice recognition of a predetermined word (for example, "start") included in the voice signal for user authentication. may be obtained as an audio signal of Also, the uttered voice may be a voice containing a plurality of sentences such as "Hello. I do not know my password.”
  • the first user authentication process will be described below.
  • the authentication analysis device P1 determines that the user cannot be authenticated, it concatenates the utterance voice signals corresponding to each detected utterance period in chronological order, and executes user authentication again. .
  • the feature amount extraction unit 21C extracts the utterance feature amount of the utterance audio signal "utterance 1" corresponding to each extracted utterance period, and outputs it to the similarity calculation unit 21D.
  • the similarity calculation unit 21D compares the utterance feature amount of the utterance voice signal "utterance 1" output from the feature amount extraction unit 21C with the utterance feature amounts of each of the plurality of users registered in the registered speaker database DB. to perform user authentication (first user authentication process).
  • the similarity calculation unit 21D determines that the user cannot be authenticated based on the calculated similarity, it causes the speech connection unit 21B to connect the speech signal "speech 1" and the speech signal "speech 2". .
  • the utterance linking unit 21B outputs the linked voice signal “utterance 1”+“utterance 2” to the feature quantity extracting unit 21C.
  • the feature quantity extraction unit 21C extracts the utterance feature quantity of the concatenated speech signal “utterance 1”+“utterance 2” and outputs it to the similarity degree calculation unit 21D.
  • the similarity calculation unit 21D calculates the utterance feature amount of the combined speech signal “utterance 1”+“utterance 2” output from the feature amount extraction unit 21C, and the utterances of each of a plurality of users registered in the registered speaker database DB. User authentication is executed by comparing with the feature amount (second user authentication process).
  • the speech linker 21B sends the speech signal "speech 1", the speech signal “speech 2", and the speech signal "Utterance 3" is connected.
  • the utterance linking unit 21B outputs the linked voice signal “utterance 1”+“utterance 2”+“utterance 3” to the feature amount extracting unit 21C.
  • the feature extraction unit 21C extracts the utterance feature of the concatenated speech signal "utterance 1"+"utterance 2"+”utterance 3", and outputs it to the similarity calculation unit 21D.
  • the similarity calculation unit 21D calculates the utterance feature amounts of the concatenated speech signal “utterance 1”+“utterance 2”+“utterance 3” output from the feature amount extraction unit 21C, and a plurality of registered speaker database DB. User authentication is executed by comparing the utterance feature amount of each user (third user authentication process).
  • the speech linker 21B sends the speech signal "speech 1", the speech signal “speech 2", and the speech signal "Utterance 3" and the speech audio signal “Utterance 4" are connected.
  • the utterance linking unit 21B outputs the linked voice signal “utterance 1”+“utterance 2”+“utterance 3”+“utterance 4” to the feature quantity extracting unit 21C.
  • the feature quantity extraction unit 21C extracts the utterance feature quantity of the concatenated concatenated voice signal “utterance 1”+“utterance 2”+“utterance 3”+“utterance 4”, and outputs it to the similarity calculation unit 21D.
  • the similarity calculation unit 21D stores the utterance feature amounts of the combined speech signal "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4" output from the feature amount extraction unit 21C and the registered speaker database DB.
  • User authentication is performed by comparing the utterance feature values of each of the registered users (fourth user authentication processing).
  • the authentication analysis device P1 performs user authentication using the utterance voice signals corresponding to each utterance voice, and when it determines that the user authentication is not possible, sequentially concatenates the utterance voice signals in chronological order.
  • the signal length (utterance voice length) of the concatenated voice signal used in the user authentication process the individuality of the utterance feature amount of the individual user US appears more strongly.
  • the individuality of the utterance feature amount used for user authentication appears more strongly in the authentication analysis apparatus P1 according to the first embodiment. , the user authentication accuracy can be improved.
  • this allows the authentication analysis device P1 according to Embodiment 1 to repeatedly perform user authentication using the utterance voice signal of each utterance interval detected from the acquired voice signal. Therefore, if the user US is authenticated during a call (conversation) between the user US and the operator OP, the operator OP can terminate the call (conversation) with the user US more quickly.
  • the authentication analysis device P1 may end the user authentication process at the timing when it is determined that the user has been authenticated. Further, the authentication analysis device P1 may set an upper limit number of times for the user authentication process, and when it determines that the number of times of the user authentication process is the upper limit number of times, an authentication result screen (not shown) notifying that the user authentication is not possible. ) and output to the information display section DP.
  • FIG. 4 is a diagram for explaining a second example of user authentication processing according to the first embodiment.
  • the authentication analysis device P1 concatenates a plurality of utterance voice signals used for user authentication so that the signal length is equal to or longer than a predetermined time (for example, 5 seconds, 10 seconds, etc.). User authentication is performed using the concatenated voice signal. Note that, in the example shown in FIG. 4, an example in which the predetermined time is 10 seconds will be described as an example, but it goes without saying that the predetermined time is not limited to this.
  • the utterance segment detection unit 21A detects each of the utterance audio signals "utterance 1" to "utterance 4" corresponding to each utterance segment, and outputs them to the utterance linking unit 21B.
  • the signal length of the speech signal "utterance 1" is 0.8 seconds
  • the signal length of the speech signal "utterance 2" is 2.9 seconds
  • the signal length of the speech signal “utterance 3” is 0.8 seconds.
  • the signal length is 4.0 seconds
  • the signal length of the speech audio signal "utterance 4" is 3.5 seconds.
  • the speech linking unit 21B combines and links the speech audio signals "utterance 1" to "utterance 4" so that the signal length of the speech audio signal used for user authentication is equal to or longer than a predetermined time. If the signal length of one speech signal is equal to or longer than a predetermined time, the speech signal connection processing by the speech connection unit 21B may be omitted.
  • the speech connecting unit 21B outputs the connected speech signal to the feature quantity extracting unit 21C.
  • the feature amount extraction unit 21C acquires a speech audio signal or a concatenated speech signal having a signal length equal to or longer than a predetermined time output from the speech period detection unit 21A or the speech linking unit 21B.
  • the feature amount extraction unit 21C extracts the user US's utterance feature amount included in the acquired utterance voice signal or concatenated voice signal.
  • the feature amount extraction unit 21C outputs the extracted speech feature amount of the user US to the similarity calculation unit 21D.
  • the similarity calculation unit 21D acquires the utterance feature amount of the utterance voice signal or the concatenated voice signal output from the feature amount extraction unit 21C.
  • the similarity calculation unit 21D refers to the registered speaker database DB and calculates the similarity between the obtained utterance feature amount and the utterance feature amount of each of the plurality of users registered in the registered speaker database DB. . Based on the calculated similarity, the similarity calculation unit 21D identifies a user corresponding to the acquired speech voice signal or concatenated voice signal and performs user authentication.
  • the signal length of the concatenated audio signal "utterance 1"+”utterance 2" obtained by connecting the speech audio signal “utterance 1" and the speech audio signal “utterance 2” is 3.7 seconds. (that is, less than the predetermined time (10 seconds)).
  • the user authentication process using the speech signal whose signal length after concatenation is less than the predetermined time is not executed.
  • the signal length of the concatenated audio signal “Utterance 1" + “Utterance 2" + “Utterance 3” + “Utterance 4" obtained by connecting the speech audio signals “Utterance 1” to “Utterance 4" is 11.2 seconds ( That is, it is longer than the predetermined time (10 seconds).
  • the signal length of the concatenated audio signal “utterance 3”+“utterance 4”+“utterance 2” obtained by connecting the speech audio signals “utterance 2” to “utterance 4” is 10.4 seconds (that is, the predetermined time (10 seconds) or more).
  • the authentication analysis device P1 generates the concatenated voice signal "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4" or the concatenated voice signal “utterance 3" + “utterance 4" + “utterance 2” is used to perform user authentication processing.
  • the authentication analysis device P1 determines that the user cannot be authenticated, it generates a new concatenated voice signal using a combination of voice signals different from the combination of voice signals already used for user authentication. again. For example, the authentication analysis device P1 executes the first user authentication process using the concatenated voice signals "utterance 3" + “utterance 4" + “utterance 2". A second user authentication process is executed using the signals "utterance 1"+"utterance 2"+"utterance 3"+”utterance 4".
  • the concatenation order of the speech audio signals may be chronological order such as concatenated speech signals "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4".
  • the signal lengths of the speech audio signals may be arranged in descending order such as "utterance 3"+"utterance 4"+"utterance 2".
  • the speech linking unit 21B may select speech audio signals to be linked.
  • a lower limit time for example, 2 seconds
  • the speech connection unit 21B selects the speech sound corresponding to each speech period output from the speech period detection unit 21A. It may be determined whether the signal length of the signal is greater than or equal to the lower limit time.
  • the speech linking unit 21B performs the speech signal linking process using the speech signal whose signal length is determined to be equal to or longer than the lower limit time.
  • the authentication analysis device P1 removes, for example, short utterances such as "Yes” and "Yeah” from the utterance voice signals used for user authentication, which have a small utterance feature amount of the user US. be able to. Therefore, the authentication analysis device P1 can perform user authentication using the connected voice signal including the utterance feature amount that more strongly expresses the individuality, so that the user authentication accuracy can be improved.
  • the authentication analysis apparatus P1 uses a concatenated speech signal having a signal length equal to or longer than a predetermined time and having an utterance feature amount more suitable for user authentication processing. User authentication accuracy can be improved even if there is variation in the user's utterance feature amount.
  • FIG. 5 is a diagram for explaining a third example of user authentication processing according to the first embodiment.
  • the authentication analysis device P1 recognizes the number of characters included in the speech signal used for user authentication, and the number of recognized characters is equal to or greater than a predetermined number of characters (eg, 20 characters, 25 characters, etc.).
  • a predetermined number of characters eg, 20 characters, 25 characters, etc.
  • a plurality of speech signals are concatenated in the manner described above, and user authentication is performed using the concatenated concatenated speech signal.
  • the number of characters referred to here may be the number of mora, the number of syllables, the number of phonemes, or the like.
  • the utterance period detection unit 21A detects each of the utterance audio signals "utterance 1" to "utterance 4" corresponding to each utterance period, recognizes the number of characters included in each utterance audio signal, The recognition result and the utterance voice signal are output to the utterance linking section 21B.
  • the number of characters of the speech signal "utterance 1" is 5
  • the number of characters of each of the speech signal "utterance 2" and the speech signal “utterance 3" is 16
  • the number of characters of the speech signal "utterance 3" is 16.
  • Utterance 4” has 12 characters.
  • the utterance linking unit 21B combines and links each of the utterance audio signals "utterance 1" to "utterance 4" so that the number of characters of the utterance audio signal used for user authentication is equal to or greater than a predetermined number of characters. Note that if the number of characters in one speech signal is equal to or greater than the predetermined number of characters, the process of connecting the speech signal by the speech connection unit 21B may be omitted.
  • the speech connecting unit 21B outputs the connected speech signal to the feature quantity extracting unit 21C.
  • the feature quantity extraction unit 21C acquires a speech audio signal or a concatenated speech signal including a predetermined number of characters or more, which are output from the speech period detection unit 21A or the speech linking unit 21B.
  • the feature amount extraction unit 21C extracts the user US's utterance feature amount included in the acquired utterance voice signal or concatenated voice signal.
  • the feature amount extraction unit 21C outputs the extracted speech feature amount of the user US to the similarity calculation unit 21D.
  • the similarity calculation unit 21D acquires the utterance feature amount of the utterance voice signal or the concatenated voice signal output from the feature amount extraction unit 21C.
  • the similarity calculation unit 21D refers to the registered-speaker database DB, and calculates the similarity between the utterance feature amount of each of the plurality of users registered in the registered-speaker database DB and the acquired utterance feature amount after connection. Calculate The similarity calculator 21D performs user authentication based on the calculated similarity.
  • the number of characters of the connected audio signal "utterance 1"+”utterance 2" obtained by connecting the spoken audio signal "utterance 1" and the spoken audio signal “utterance 2” is 21 characters (that is, less than a predetermined number of characters (less than 25 characters)).
  • the user authentication process using the concatenated voice signal whose number of characters after concatenation is less than the predetermined number of characters is not executed.
  • the number of characters of the connected audio signal "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4" in which the speech audio signals “utterance 1" to “utterance 4" are connected is 49 characters (that is, the predetermined number of characters (25 characters or more).
  • the number of characters of the connected audio signal "utterance 3" + “utterance 4" + “utterance 2" obtained by connecting the speech audio signals "utterance 2" to “utterance 4" is 44 characters (that is, the predetermined number of characters (25 characters) ) and above).
  • the authentication analysis device P1 uses the concatenated voice signal "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4" or the concatenated voice signal “utterance 3" + “utterance 4" + “utterance 2". Execute user authentication processing.
  • the authentication analysis device P1 determines that the user cannot be authenticated, the user authentication is performed again using a new concatenated voice signal that is different from the combination of the speech voice signals already used for user authentication. do. For example, the authentication analysis device P1 executes the first user authentication process using the concatenated voice signals "utterance 3" + “utterance 4" + “utterance 2". A second user authentication process is executed using the signals "utterance 1"+"utterance 2"+"utterance 3"+”utterance 4".
  • the order of concatenation of the speech audio signals may be chronological order such as concatenated speech signals "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4". Alternatively, it may be arranged in descending order of the number of characters of the speech signal, such as "utterance 3"+"utterance 4"+"utterance 2".
  • the speech linking unit 21B may select a speech audio signal to be linked.
  • a lower limit number of characters for example, 5 characters
  • the utterance linking unit 21B connects the utterance corresponding to each utterance interval output from the utterance interval detection unit 21A. It may be determined whether or not the number of characters of the audio signal is equal to or greater than the lower limit number of characters.
  • the speech linking unit 21B performs the speech signal linking process using the speech signal whose signal length is determined to be equal to or greater than the lower limit number of characters.
  • the authentication analysis device P1 removes, from the speech signal used for user authentication, an utterance with a small number of characters, such as "yes” or "yes”, and with a small utterance feature amount of the user US. can do. Therefore, the authentication analysis device P1 can perform user authentication using a speech voice signal or a concatenated voice signal that includes a speech feature amount that more strongly expresses individuality, so that user authentication accuracy can be improved.
  • the authentication analysis device P1 uses a speech signal or a concatenated speech signal that includes a predetermined number of characters or more and has a speech feature amount that is more suitable for user authentication processing. Can perform authentication processing.
  • the authentication analysis device P1 can improve the user authentication accuracy even if there are variations in the user's utterance feature amount included in each utterance voice signal.
  • FIG. 6 is a diagram explaining a fourth example of user authentication processing according to the first embodiment.
  • the authentication analysis device P1 weights each speech signal based on the number of characters in the speech signal.
  • the authentication analysis device P1 executes user authentication processing using the utterance feature amount after the weighting processing.
  • the utterance period detection unit 21A detects each of the utterance audio signals "utterance 1" to "utterance 4" corresponding to each utterance period, and recognizes the number of characters included in each utterance audio signal. , outputs the speech recognition result and the speech signal to the speech linking unit 21B.
  • the number of characters of the speech signal "utterance 1" is 5
  • the number of characters of each of the speech signal "utterance 2" and the speech signal “utterance 3" is 16
  • the number of characters of the speech signal "utterance 3" is 16.
  • Utterance 4” has 12 characters.
  • the speech linking unit 21B determines a weighting factor for each speech signal based on the speech signal recognized by the speech period detection unit 21A and the number of characters in each speech signal.
  • the utterance connecting unit 21B connects the utterance sound signals to generate a connected sound signal, and outputs the connected sound signal to the feature amount extraction unit 21C.
  • the speech connecting unit 21B calculates the total number of characters of the two or more speech signals to be connected, calculates the ratio of the number of characters of each speech signal to the calculated total number of characters, and corresponds to the calculated ratio. Determine the weighting factor to Also, the weighting coefficient corresponding to each speech period may be output to and stored in the RAM 22B.
  • the feature amount extraction unit 21C extracts each utterance segment based on each of the utterance voice signals of two or more utterance segments included in the connected voice signal output from the utterance linking unit 21B and the weighting coefficient corresponding to each utterance segment.
  • a weighting process is performed on the utterance feature quantity extracted from . Note that when the user authentication process is the first time and the connected voice signal is not generated, the calculation of the weighting factor and the weighting process may be performed by the utterance period detection unit 21A, or the process itself may be omitted. may
  • the speech linking unit 21B obtains the total number of characters (5 characters) of the speech-recognized speech signal "speech 1" and the speech signal used for the first user authentication process (that is, the speech signal "speech 1"). A weighting factor of 1.0 is determined based on the number of characters.
  • the utterance connecting unit 21B outputs the utterance voice signal and the weighting coefficient to the feature amount extracting unit 21C.
  • the feature amount extraction unit 21C extracts the utterance feature amount of the utterance audio signal "utterance 1" output from the utterance connection unit 21B, and weights the utterance feature amount of the extracted utterance audio signal "utterance 1" with a weighting factor. and output to the similarity calculation unit 21D.
  • the similarity calculation unit 21D compares the utterance feature amount of the utterance voice signal "utterance 1" output from the feature amount extraction unit 21C with the utterance feature amounts of each of the plurality of users registered in the registered speaker database DB. to perform user authentication (first user authentication process).
  • the similarity calculation unit 21D determines that the user cannot be authenticated based on the calculated similarity, it causes the speech connection unit 21B to connect the speech signal "speech 1" and the speech signal "speech 2". .
  • the utterance linking unit 21B converts the number of characters (5 characters) of the utterance audio signal "utterance 1” and the number of characters (16 characters) of the utterance audio signal "utterance 2" to the total value (5+16) of the number of characters of these utterance audio signals. , the weighting coefficients of the speech audio signals "speech 1" and “speech 2" are determined. In the example shown in FIG.
  • the utterance linking unit 21B determines the weighting factor of the speech signal "utterance 1" to be 0.24 and the weighting factor of the speech signal "utterance 2" to be 0.76.
  • the utterance connecting unit 21B outputs the connected speech signal and each weighting factor to the feature amount extracting unit 21C.
  • the feature amount extraction unit 21C extracts the speech feature amounts of the speech audio signal “utterance 1" and the speech audio signal “utterance 2" output from the speech connection unit 21B.
  • the feature quantity extraction unit 21C weights a weighting coefficient corresponding to each of the speech feature quantities of the extracted speech audio signals “utterance 1” and “utterance 2”, and outputs the weighted coefficients to the similarity calculation unit 21D.
  • the similarity calculation unit 21D calculates the utterance feature amount of the combined speech signal “utterance 1”+“utterance 2” output from the feature amount extraction unit 21C, and the utterances of each of a plurality of users registered in the registered speaker database DB.
  • User authentication is executed by comparing with the feature amount (second user authentication process).
  • the speech linker 21B sends the speech signal "speech 1", the speech signal “speech 2", and the speech signal "Utterance 3" is connected.
  • the utterance linking unit 21B converts the number of characters (5 characters) of the utterance audio signal "utterance 1", the number of characters (16 characters) of the utterance audio signal "utterance 2", and the number of characters (16 characters) of the utterance audio signal "utterance 3" into Based on the total number of characters (5+16+16) of these speech signals, the weighting coefficients of the speech signals "utterance 1", “utterance 2", and “utterance 3" are determined. In the example shown in FIG.
  • the utterance linking unit 21B sets the weighting factor of the speech signal "utterance 1" to 0.14, and the weighting factor of the speech signals "utterance 2" and “utterance 3" to 0.43. Determine each.
  • the utterance connecting unit 21B outputs the connected speech signal and each weighting factor to the feature amount extracting unit 21C.
  • the feature amount extraction unit 21C extracts the speech feature amounts of the speech audio signal “utterance 1", the speech audio signal “utterance 2", and the speech audio signal “utterance 3" output from the speech connection unit 21B.
  • the feature quantity extraction unit 21C weights a weighting coefficient corresponding to each of the speech feature quantities of the extracted speech audio signals “utterance 1” to “utterance 3”, and outputs the weighted coefficients to the similarity calculation unit 21D.
  • the similarity calculation unit 21D calculates the utterance feature amounts of the concatenated speech signal “utterance 1”+“utterance 2”+“utterance 3” output from the feature amount extraction unit 21C, and a plurality of registered speaker database DB.
  • User authentication is executed by comparing the utterance feature amount of each user (third user authentication process).
  • the speech linker 21B sends the speech signal "speech 1", the speech signal “speech 2", and the speech signal "Utterance 3" and the speech audio signal “Utterance 4" are connected.
  • the utterance linking unit 21B combines the number of characters (5 characters) of the utterance audio signal "utterance 1", the number of characters (16 characters) of the utterance audio signal "utterance 2", the number of characters (16 characters) of the utterance audio signal "utterance 3", and the utterance voice.
  • the weighting factors of the speech signals "utterance 1" and “utterance 2" are calculated. decide.
  • the utterance linking unit 21B sets the weighting factor of the speech signal “utterance 1” to 0.10, the weighting factors of the speech signals “utterance 2" and “utterance 3" to 0.33, The weighting factor of the speech signal "utterance 4" is determined to be 0.24.
  • the utterance connecting unit 21B outputs the connected speech signal and each weighting factor to the feature amount extracting unit 21C.
  • the feature extraction unit 21C extracts the utterance features of the utterance audio signal “utterance 1", the utterance audio signal “utterance 2", the utterance audio signal “utterance 3", and the utterance audio signal “utterance 4" output from the utterance connecting unit 21B. Extract quantity.
  • the feature quantity extraction unit 21C weights a weighting coefficient corresponding to each of the speech feature quantities of the extracted speech audio signals “utterance 1” to “utterance 4”, and outputs the weighted coefficients to the similarity calculation unit 21D.
  • the similarity calculation unit 21D stores the utterance feature amounts of the combined speech signal "utterance 1" + “utterance 2" + “utterance 3" + “utterance 4" output from the feature amount extraction unit 21C and the registered speaker database DB.
  • User authentication is performed by comparing the utterance feature values of each of the registered users (fourth user authentication processing).
  • weighting coefficient is determined based on the number of characters
  • weighting factors may be determined based on the number of moras, the number of syllables, and the number of phonemes.
  • the example of calculating the weighting factor described above is merely an example, and needless to say, the present invention is not limited to this.
  • the authentication analysis device P1 weights the utterance feature amount of the utterance voice signal, thereby performing the user authentication process using the utterance voice signal having the utterance feature amount more suitable for the user authentication process. can run.
  • the authentication analysis device P1 can improve the user authentication accuracy even if there are variations in the user's utterance feature amount included in each utterance voice signal.
  • FIG. 7 is a diagram for explaining a fifth example of user authentication processing according to the first embodiment.
  • the utterance period detection unit 21A of the authentication analysis device P1 performs voice analysis on the utterance voice signal, and detects noise contained in the utterance voice signal (for example, voice other than the user US, noise, environmental sound, etc.). (hereinafter referred to as “noise interval”) is detected.
  • the speech segment detection unit 21A deletes the noise segment detected from the speech signal, or deletes the speech segment itself corresponding to the speech segment including the noise segment from the concatenated speech signal.
  • the authentication analysis device P1 executes user authentication processing using the utterance voice signal or the concatenated voice signal after deletion processing.
  • the utterance voice Us12 shown in FIG. 7 includes the noise Nz11 "ping-pong", which is the environmental sound of the user US.
  • the utterance period detection unit 21A detects each of the utterance audio signals "utterance 1" to "utterance 4" corresponding to each utterance period, and detects the detected utterance audio signals "utterance 1" to "utterance 4". , is detected from the concatenated speech signal obtained by concatenating each of .
  • the utterance period detection unit 21A deletes the noise period Nz detected from the utterance audio signal "utterance 2", and generates the utterance audio signal "utterance 2" after deleting the noise period Nz and the utterance sound corresponding to each utterance period.
  • a concatenated speech signal is generated by concatenating each of the signals "utterance 1", “utterance 3", and "utterance 4".
  • the utterance period detection unit 21A deletes the utterance audio signal "utterance 2" including the noise period Nz, and removes the utterance audio signals “utterance 1", “utterance 3", and “utterance 4" that do not include the noise period Nz. to generate a concatenated audio signal.
  • the speech segment detection unit 21A detects and removes the noise segment Nz from the concatenated speech signal, but the same applies to the case of detecting and removing the noise segment Nz from the speech speech signal.
  • the authentication analysis apparatus P1 according to the first embodiment can remove noise contained in the speech signal, thereby executing the user authentication process using the speech signal having the speech feature amount more suitable for the user authentication process. .
  • the authentication analysis device P1 according to Embodiment 1 can improve the accuracy of user authentication.
  • FIG. 8 is a diagram illustrating an example of a sixth user authentication method according to the first embodiment.
  • FIG. 9 is a diagram illustrating an example of a sixth user authentication method according to the first embodiment.
  • the speech period detection unit 21A of the authentication analysis device P1 analyzes the speech signal, recognizes the number of characters, and determines the speed of speech of the speech signal (that is, the number of characters per second). calculate.
  • the speech segment detection unit 21A executes a process (hereinafter referred to as "speech speed conversion process") for reducing or expanding the speech signal so that the speech speed of the speech signal reaches a predetermined speech speed.
  • speech speed conversion process a process for reducing or expanding the speech signal so that the speech speed of the speech signal reaches a predetermined speech speed.
  • the speech signal Dt1 is converted into the speech signal Dt2 by speech speed conversion processing.
  • the authentication analysis device P1 performs user authentication using the speech-speed-converted speech signal or a concatenated speech signal obtained by concatenating the speech-speed-converted speech signals.
  • Speech rate of extraction source data i.e., utterance voice signal
  • Speech rate 5.0 in FIG. 8
  • the speech period detection unit 21A sets this same speech speed as the predetermined speech speed, and executes speech speed conversion processing.
  • the authentication analysis device P1 can more accurately determine the degree of similarity between the utterance feature amount of the utterance voice signal or the concatenated voice signal used for user authentication and the utterance feature amount of each user registered in the registered speaker database DB. Since it can be calculated, the accuracy of user authentication can be further improved.
  • the spoken voice signal of the user US at a speech rate of 4.72 characters/second is converted into a speech voice signal with a predetermined speech rate of 5.0 characters/second, and then converted into a registered speech. registered (stored) in the person database DB.
  • the speech rate conversion process at the time of registration (storage) in the registered speaker database DB may be executed by the authentication analysis device P1.
  • the speech audio signal “speech 2" has a character count of 16 characters, speech seconds of 2.9 seconds, speech content of "I don't know the password", and speech speed of 5.51 characters/second.
  • Each of the speech audio signals “utterance 1” to “utterance 4” is registered (stored) after being converted to a predetermined speech speed of 5.0 characters/second when registered (stored) in the registered speaker database DB. .
  • the speech speed of the speech signal may be calculated based on the number of characters and the number of seconds of speech obtained from the speech recognition result of the speech signal, or the number of mora, the number of syllables, or the number of phonemes and the number of seconds of speech may be calculated. and may be estimated based on Alternatively, the speech speed of the speech signal may be estimated by direct arithmetic processing from the time component and frequency component of the speech signal.
  • the authentication analysis apparatus P1 can execute the user authentication process using the speech signal converted to the predetermined speech speed even if the speech speed of the user US varies. Since the similarity between the utterance feature amount of the utterance voice signal or the concatenated voice signal used for user authentication and the utterance feature amount of each user registered in the registered speaker database DB can be calculated with higher accuracy, the user authentication accuracy can be improved. can be improved.
  • FIG. 10 is a flowchart showing an example of the operation procedure of the authentication analysis device P1 according to the first embodiment.
  • the communication unit 20 in the authentication analysis device P1 acquires the voice signal (or voice data) transmitted from the operator side telephone terminal OP1 (St11).
  • the communication unit 20 outputs the acquired audio signal to the processor 21 .
  • the processor 21 starts authentication of the user US who is subject to voice authentication of the acquired voice signal (St12).
  • the speech period detection unit 21A in the processor 21 detects the speech period from the acquired audio signal (St13).
  • the speech segment detection unit 21A recognizes the number of characters included in the speech signal corresponding to the speech segment.
  • the speech segment detection unit 21A calculates the speed of speech of the speech signal based on the number of characters whose speech has been recognized and the signal length of the speech signal (speech length, number of seconds of speech, etc.).
  • the speech period detection unit 21A performs speech speed conversion processing on the speech signal, and converts the speech speed of the speech signal to a predetermined speech speed (St14). Note that the process of step St14 is not essential and may be omitted.
  • the speech segment detection unit 21A detects information on the detected speech segment (for example, the start time and end time of the speech segment, the number of characters, the signal length (speech voice length, the number of seconds of speech, etc.), before or after speech speed conversion. speech speed, etc.) is stored in the memory 22 (St15).
  • information on the detected speech segment for example, the start time and end time of the speech segment, the number of characters, the signal length (speech voice length, the number of seconds of speech, etc.), before or after speech speed conversion. speech speed, etc.
  • the speech period detection unit 21A selects one or more speech audio signals used for user authentication based on the currently set user authentication processing method (St16). Although not shown in FIG. 10, when the authentication analysis device P1 determines that there is no speech signal used for user authentication based on the currently set user authentication processing method, step St13 A new speech segment may be detected by returning to the processing of .
  • the speech segment detection unit 21A performs speech connection processing to connect each of the selected one or more speech audio signals to generate a connection audio signal (St17). Note that the process of step St17 is omitted when the first user authentication processing method is set and before the execution of the first user authentication.
  • the speech period detection unit 21A outputs the generated connected speech signal to the feature quantity extraction unit 21C.
  • the feature quantity extraction unit 21C extracts the speech feature quantity of the individual user US from the concatenated speech signal output from the speech period detection unit 21A (St18).
  • the feature amount extraction unit 21C outputs the extracted speech feature amount of the individual user US to the similarity calculation unit 21D.
  • the similarity calculation unit 21D refers to the utterance feature amount of each of the plurality of users registered in the registered speaker database DB, and extracts the utterance feature amount of the individual user US output from the feature amount extraction unit 21C and the registered speaker A degree of similarity with each utterance feature amount of a plurality of users registered in the database DB is calculated (St19).
  • the similarity calculation unit 21D determines whether or not there is a user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St20).
  • the similarity calculation unit 21D determines in the process of step St19 that there is a user whose calculated similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St20, YES), This user is determined to be the user US of the voice signal (St21).
  • the similarity calculator 21D may determine that the user with the highest similarity is the user US of the audio signal.
  • the similarity calculation unit 21D When determining that the user has been specified, the similarity calculation unit 21D generates an authentication result screen SC including information about the specified user (that is, the authentication result), and displays the information display unit via the display I/F 23. Output to DP (St23).
  • step St19 determines in the process of step St19 that there is no user whose similarity is equal to or higher than the threshold among the plurality of users registered in the registered speaker database DB (St20, NO ), it is determined whether or not the current number of times of user authentication processing is equal to or greater than the set upper limit number of times (St22).
  • the similarity calculation unit 21D determines in the process of step St22 that the current number of times of user authentication processing is equal to or greater than the set upper limit number of times (St22, YES), user authentication is disabled based on the acquired voice signal. (that is, user authentication failure) (St24).
  • the similarity calculation unit 21D generates an authentication result screen (not shown) notifying that user authentication is not possible, and transmits it to the information display unit DP via the display I/F 23.
  • the information display unit DP outputs (displays) the authentication result screen transmitted from the authentication analysis device P1.
  • step St22 determines in the process of step St22 that the current number of times of user authentication processing is not equal to or greater than the set upper limit number of times (St22, NO), the process returns to step St13.
  • the authentication analysis device P1 according to Embodiment 1 can execute user authentication processing using a speech voice signal more suitable for user authentication processing by a predetermined user authentication processing method. As a result, the authentication analysis device P1 according to Embodiment 1 can improve the accuracy of user authentication.
  • the authentication analysis device P1 includes the communication unit 20 (an example of an acquisition unit) that acquires an audio signal of an uttered voice of a speaker (for example, a user US), and from the acquired audio signal:
  • An utterance period detection unit 21A (an example of a detection unit) that detects a first utterance period in which a speaker is uttering, and an utterance voice signal of the first utterance period detected by the utterance period detection unit 21A. example) and a similarity calculation unit 21D (an example of an authentication unit) that authenticates a speaker (that is, authenticates a user) based on matching with a registered speaker database DB (an example of a database).
  • the speech period detection unit 21A detects a second speech period different from the first speech period.
  • the similarity calculator 21D authenticates the speaker based on matching between the speech signals of the first speech period and the second speech period and the registered speaker database DB.
  • the one or more computers are configured to include at least the authentication analysis device P1.
  • the authentication analysis apparatus P1 according to Embodiment 1 determines that the user cannot be authenticated using the utterance voice signal of one utterance period (first utterance period), the utterance voice signals are sequentially connected in chronological order.
  • the signal length (utterance voice length) of the concatenated voice signal used in the user authentication process it is possible to extract the utterance feature amount in which individuality is more strongly expressed. Therefore, the authentication analysis apparatus P1 according to the first embodiment can extract a speech feature amount that strongly expresses the individuality used for user authentication even if the user's speech feature amount included in each speech signal varies. Therefore, user authentication accuracy can be improved.
  • the speech period detection unit 21A in the authentication analysis device P1 according to Embodiment 1 detects the first speech period and the second speech period along the time series of the acquired audio signal.
  • the authentication analysis apparatus P1 according to Embodiment 1 can re-execute the user authentication process using the utterance voice signals of a plurality of utterance intervals sequentially detected along the time series of the voice signal.
  • each of the first speech segment and the second speech segment is two consecutive speech segments detected by the speech segment detection unit 21A.
  • the speech signals are sequentially concatenated in chronological order, and the concatenated speech used in the user authentication process is obtained.
  • the signal length utterance voice length
  • the authentication analysis apparatus P1 extracts an utterance feature amount that strongly expresses the individuality used for user authentication, even if the user's utterance feature amount included in each utterance voice signal varies. Therefore, user authentication accuracy can be improved.
  • the total length of the first speech segment and the second speech segment is equal to or longer than the first predetermined time (eg, 5 seconds or longer).
  • the authentication analysis apparatus P1 according to the first embodiment uses the concatenated voice signal having a signal length equal to or longer than the first predetermined time, so that the user's utterance feature amount included in each utterance voice signal has variations.
  • user authentication accuracy can be improved.
  • the length of each of the first utterance period and the second utterance period is equal to or longer than the second predetermined time (eg, 10 seconds or longer).
  • the authentication analysis device P1 according to the first embodiment can use, for user authentication, an utterance voice signal, which is a short utterance such as "Yes” or "Yeah” and has a small utterance feature amount of the individual user US. can be removed from the speech signal. Therefore, the authentication analysis device P1 can perform user authentication using a connected speech signal including speech feature quantities that more strongly express individuality, and thus can improve the accuracy of user authentication.
  • the authentication analysis apparatus P1 uses a concatenated speech signal having a signal length of a predetermined time or more and having an utterance feature amount more suitable for user authentication processing, thereby enabling the user included in each utterance speech signal to User authentication accuracy can be improved even if there is a variation in the utterance feature amount of .
  • the authentication analysis device P1 uses the speech segment detection unit 21A for voice recognition of the first number of characters included in the first speech segment and the second number of characters included in the second speech segment. (an example of a recognition unit).
  • the total number of characters included in the first speech segment and the second speech segment is equal to or greater than a first predetermined number of characters (eg, 25 characters, etc.).
  • the authentication analysis device P1 according to the first embodiment uses a speech signal or a concatenated speech signal that includes a predetermined number of characters or more and has an utterance feature amount more suitable for user authentication processing. User authentication processing can be executed. Therefore, the authentication analysis device P1 can perform user authentication using a speech voice signal or a concatenated voice signal containing a speech feature amount that more strongly expresses individuality, so that user authentication accuracy can be improved.
  • the number of characters included in the first utterance period and the second utterance period is equal to or greater than a second predetermined number of characters (eg, 5 characters, etc.).
  • a second predetermined number of characters eg, 5 characters, etc.
  • the authentication analysis apparatus P1 according to the first embodiment uses, for user authentication, an utterance voice signal with a small number of characters, such as "yes” or "yes”, which has a small utterance feature amount of the individual user US. can be removed from the received speech signal. Therefore, the authentication analysis device P1 can perform user authentication using a speech voice signal or a concatenated voice signal containing a speech feature amount that more strongly expresses individuality, so that user authentication accuracy can be improved.
  • the authentication analysis device P1 according to Embodiment 1 uses the speech segment detection unit 21A for voice recognition of the first number of characters included in the first speech segment and the second number of characters included in the second speech segment. , is further provided.
  • the similarity calculation unit 21D weights the speech signal in the first speech period based on the first number of characters, and weights the speech signal in the second speech period based on the second number of characters.
  • the speaker is authenticated based on matching between the speech signal of the first speech period and the second speech period and the registered speaker database DB.
  • the authentication analysis device P1 according to the first embodiment weights each speech signal based on the ratio of the number of characters included in each speech signal to the total number of characters in the concatenated speech signal used in the user authentication process.
  • the user authentication process can be executed using the speech signal having the speech feature amount more suitable for the user authentication process. Therefore, the authentication analysis apparatus P1 according to Embodiment 1 can improve the accuracy of user authentication even if there are variations in the user's utterance feature amount included in each utterance voice signal.
  • the authentication analysis device P1 detects the first utterance segment and the second utterance segment based on the first number of characters and the second number of characters voice-recognized by the utterance segment detection unit 21A. It further includes an utterance connecting unit 21B and a feature amount extracting unit 21C (an example of a processing unit) that weights .
  • the utterance connecting unit 21B calculates the total number of characters based on the first number of characters and the second number of characters, and weights the first utterance section based on the ratio of the first number of characters to the total number of characters, and weights the second number of characters. and weighting the speech segment based on the ratio of the second number of characters to the total number of characters.
  • the similarity calculator 21D authenticates the speaker based on matching between the weighted speech signals of the first and second speech segments and the registered speaker database DB.
  • the authentication analysis device P1 can perform user authentication processing using the speech signal converted to the predetermined speech speed even when the speech speed of the user US varies.
  • the similarity between the utterance feature amount of the utterance voice signal or the concatenated voice signal used for user authentication and the utterance feature amount of each user registered in the registered speaker database DB can be calculated with higher accuracy. can be further improved.
  • the authentication analysis device P1 according to Embodiment 1 includes an utterance period detection unit 21A (an example of a noise detection unit) that detects a noise period Nz included in the utterance audio signal of the first utterance period and the second utterance period. , is further provided.
  • the similarity calculation unit 21D removes the noise section Nz detected from the first speech section and the second speech section, and removes the noise section Nz from the removed first speech section and the second speech section.
  • the speaker is authenticated based on matching of the signal with the registered speaker database DB.
  • the authentication analysis device P1 according to the first embodiment removes noise contained in the speech signal, thereby executing the user authentication process using the speech signal having the speech feature amount more suitable for the user authentication process. It is possible to improve the accuracy of user authentication.
  • the similarity calculation unit 21D in Embodiment 1 deletes the first speech segment or the second speech segment including the noise segment Nz.
  • the speech segment detection unit 21A detects a third speech segment different from the first speech segment and the second speech segment. If the speech period detection unit 21A does not detect the noise period Nz from the speech signal of the third speech period, the similarity calculator 21D compares the speech signal of the third speech period with the registered speaker database DB. to authenticate the speaker based on As a result, the authentication analysis apparatus P1 according to the first embodiment removes the noise section Nz included in the speech signal, thereby performing the user authentication process using the speech signal having the speech feature amount more suitable for the user authentication process. can be executed, the accuracy of user authentication can be improved.
  • the similarity calculation unit 21D in Embodiment 1 deletes the first speech segment or the second speech segment including the noise segment Nz.
  • the speech period detection unit 21A detects a third speech period different from the first speech period and the second speech period. If the noise detection unit does not detect a noise section from the speech signal of the third speech section, the similarity calculation unit 21D determines whether the noise section Nz is not included in the first speech section or the second speech section. The speaker is authenticated based on matching between the speech signal of the third speech period and the registered speaker database DB.
  • the authentication analysis apparatus P1 according to Embodiment 1 can execute the user authentication process using the utterance voice signal having the utterance feature amount more suitable for the user authentication process by removing the utterance period containing noise. , the user authentication accuracy can be improved.
  • the number of characters in Embodiment 1 is the number of moras, the number of syllables, or the number of phonemes.
  • the authentication analysis apparatus P1 can determine a speech signal or a concatenated speech signal having speech features more suitable for user authentication processing, based on the number of moras, the number of syllables, the number of phonemes, or the like. . Therefore, the authentication analysis device P1 can improve the accuracy of user authentication even if there are variations in the user's utterance feature amount included in each utterance voice signal.
  • the present disclosure is useful as an authentication device and an authentication method that improve accuracy of voice authentication of a speaker using uttered voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

認証装置は、話者の音声信号を取得する取得部と、話者が発話している第1の発話区間を検出する検出部と、第1の発話区間の音声信号と、データベースとの照合に基づいて、話者を認証する認証部と、を備え、検出部は、話者が認証不可であると判定された場合、第1の発話区間と異なる第2の発話区間を検出し、認証部は、第1の発話区間および第2の発話区間の音声信号と、データベースとの照合に基づいて、話者を認証する。

Description

認証装置および認証方法
 本開示は、認証装置および認証方法に関する。
 特許文献1には、電話網に接続された電話端末を利用して通話を行う話者の本人性確認を行うための認証装置であって、音声認識認証結果に基づき、話者の本人性の判定を行う認証装置が開示されている。認証装置は、所定の声紋情報、第1のキーワード、および第2のキーワードを格納し、受信手段により受信した音声から声紋情報を取得して、声紋情報と格納された所定の声紋情報とを照合することにより声紋認証を行う。認証装置は、第1のキーワードを話者に発話させることを促す音声メッセージを電話端末に送信し、その後、受信手段により受信した話者の音声の内容が、格納手段に格納された第1のキーワードに該当するかどうかを判定する。認証装置は、声紋情報を用いた認証結果と、第1のキーワードを用いた音声認識認証結果とが異なる場合に、第2のキーワードを話者に発話させることを促す音声メッセージを電話端末に送信し、その後に受信手段により受信した話者の音声の内容が、格納手段に格納された第2のキーワードに該当するかどうかを判定して、話者の本人性確認を行う。
日本国特開2010-109618号公報
 声紋認証は、音声データのデータ長が短い場合、認証精度が低下して本人性を否定する可能性がある。そこで、特許文献1では、声紋認証と音声認識認証とを実行して、話者の本人性確認を行う。したがって、認証装置は、話者の音声を音声認識した音声認識結果と格納手段に格納された第1のキーワードまたは第2のキーワードとを照合して本人性確認の補助を行うものであって、声紋情報を用いた声紋認証の認証精度を向上させることを目的するものではなかった。
 本開示は、上述した従来の状況に鑑みて案出され、発話音声を用いた話者の音声認証精度を向上させる認証装置および認証方法を提供することを目的とする。
 本開示は、話者の発話音声の音声信号を取得する取得部と、取得された前記音声信号から前記話者が発話している第1の発話区間を検出する検出部と、前記検出部より検出された前記第1の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証する認証部と、を備え、前記検出部は、前記認証部により前記話者が認証不可であると判定された場合、前記第1の発話区間と異なる第2の発話区間を検出し、前記認証部は、前記第1の発話区間および前記第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、認証装置を提供する。
 また、本開示は、1以上のコンピュータが行う認証方法であって、話者の発話音声の音声信号を取得し、取得された前記音声信号から前記話者が発話している第1の発話区間を検出し、検出された前記第1の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証し、前記第1の発話区間の音声信号に基づいて、前記話者が認証不可であると判定した場合、前記第1の発話区間と異なる第2の発話区間を検出し、前記第1の発話区間および前記第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、認証方法を提供する。
 本開示によれば、発話音声を用いた話者の音声認証精度を向上できる。
実施の形態1に係る音声認証システムのユースケースの一例を示す図 実施の形態1における認識解析装置の内部構成例を示すブロック図 実施の形態1における第1のユーザ認証処理例を説明する図 実施の形態1における第2のユーザ認証処理例を説明する図 実施の形態1における第3のユーザ認証処理例を説明する図 実施の形態1における第4のユーザ認証処理例を説明する図 実施の形態1における第5のユーザ認証処理例を説明する図 実施の形態1における第6のユーザ認証処理例を説明する図 実施の形態1における第6のユーザ認証処理例を説明する図 実施の形態1における認識解析装置の動作手順例を示すフローチャート
 以下、適宜図面を参照しながら、本開示に係る認証装置および認証方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
 まず、図1を参照して、実施の形態1に係る音声認証システム100のユースケースについて説明する。図1は、実施の形態1に係る音声認証システム100のユースケースの一例を示す図である。音声認証システム100は、音声認証対象である人物(図1に示す例では、ユーザUS)の音声信号または音声データを取得し、取得された音声信号または音声データと、事前にストレージ(図1に示す例では、登録話者データベースDB)に登録(格納)された複数の音声信号または音声データとを照合する。音声認証システム100は、照合結果に基づいて、音声認証対象であるユーザとストレージに登録された音声信号または音声データとの類似度を評価し、評価された類似度に基づいて、ユーザUSを認証する。
 実施の形態1に係る音声認証システム100は、収音装置の一例としてのオペレータ側通話端末OP1と、認証解析装置P1と、登録話者データベースDBと、出力装置の一例としての情報表示部DPと、を少なくとも含んで構成される。なお、認証解析装置P1および登録話者データベースDBは、一体的に構成されてよい。同様に、認証解析装置P1および情報表示部DPは、一体的に構成されてよい。
 なお、図1に示す音声認証システム100は、一例としてコールセンターにおいて話者(ユーザUS)の認証に用いられる例を示し、オペレータOPと通話するユーザUSの発話音声を収音した音声データを用いてユーザUSの認証を行う。図1に示す音声認証システム100は、さらにユーザ側通話端末UP1と、ネットワークNWとを含んで構成される。なお、音声認証システム100の全体構成は、図1に示す例に限定されないことは言うまでもない。
 ユーザ側通話端末UP1は、オペレータ側通話端末OP1との間で、ネットワークNWを介して無線通信可能に接続される。なお、ここでいう無線通信は、例えばWi-Fi(登録商標)などの無線LAN(Local Area Network)を介した通信である。
 ユーザ側通話端末UP1は、例えば、ノートPC,タブレット端末,スマートフォン,電話機等により実現される。ユーザ側通話端末UP1は、マイク(不図示)を備える収音装置であり、ユーザUSの発話音声を収音して、音声信号に変換し、ネットワークNWを介して変換された音声信号をオペレータ側通話端末OP1に送信する。また、ユーザ側通話端末UP1は、オペレータ側通話端末OP1から送信されたオペレータOPの発話音声の音声信号を取得して、スピーカ(不図示)から出力する。
 ネットワークNWは、IP網または電話網であって、ユーザ側通話端末UP1とオペレータ側通話端末OP1との間で、音声信号の送受信を可能に接続する。なお、データの送受信は、有線通信または無線通信により実行される。ここでいう無線通信は、例えばWi-Fi(登録商標)などの無線LANを介した通信である。
 オペレータ側通話端末OP1は、ユーザ側通話端末UP1および認証解析装置P1との間でそれぞれ有線通信または無線通信でデータ送受信可能に接続され、音声信号の送受信を行う。
 オペレータ側通話端末OP1は、例えば、ノートPC,タブレット端末,スマートフォン,電話機等により実現される。オペレータ側通話端末OP1は、ネットワークNWを介してユーザ側通話端末UP1から送信されたユーザUSの発話音声に基づく音声信号を取得し、認証解析装置P1に送信する。なお、オペレータ側通話端末OP1は、取得されたユーザUSの発話音声とオペレータOPの発話音声とを含む音声信号を取得した場合には、オペレータ側通話端末OP1の音声信号の音圧レベル、周波数帯域等の音声パラメータに基づいて、ユーザUSの発話音声に基づく音声信号と、オペレータOPの発話音声に基づく音声信号とを分離してよい。オペレータ側通話端末OP1は、分離後にユーザUSの発話音声に基づく音声信号のみを抽出して認証解析装置P1に送信する。
 また、オペレータ側通話端末OP1は、複数のユーザ側通話端末のそれぞれとの間で通信可能に接続され、同時に複数のユーザ側通話端末のそれぞれから音声信号を取得してもよい。オペレータ側通話端末OP1は、取得された音声信号を認証解析装置P1に送信する。これにより、音声認証システム100は、同時に複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。
 また、オペレータ側通話端末OP1は、同時に複数のユーザのそれぞれの発話音声を含む音声信号を取得してもよい。オペレータ側通話端末OP1は、ネットワークNWを介して取得された複数のユーザの音声信号からユーザごとの音声信号を抽出し、ユーザごとの音声信号をそれぞれ認証解析装置P1に送信する。このような場合、オペレータ側通話端末OP1は、複数のユーザの音声信号を解析し、音圧レベル、周波数帯域等の音声パラメータに基づいて、音声信号をユーザごとに分離して抽出してもよい。音声信号がアレイマイク等により収音された場合には、オペレータ側通話端末OP1は、発話音声の到来方向に基づいて、音声信号をユーザごとに分離して抽出してもよい。これにより、音声認証システム100は、例えば、Web会議等の同時に複数のユーザが発話する環境で収音された音声信号であっても、複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。
 認証装置およびコンピュータの一例としての認証解析装置P1は、オペレータ側通話端末OP1、登録話者データベースDBおよび情報表示部DPとの間でそれぞれデータ送受信可能に接続される。なお、認証解析装置P1は、オペレータ側通話端末OP1、登録話者データベースDBおよび情報表示部DPとの間でネットワーク(不図示)を介して、有線通信または無線通信可能に接続されていてもよい。
 認証解析装置P1は、オペレータ側通話端末OP1から送信されたユーザUSの音声信号を取得し、取得された音声信号を、例えば周波数ごとに音声解析して、ユーザUS個人の発話特徴量を抽出する。認証解析装置P1は、登録話者データベースDBを参照して、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの発話特徴量と、抽出された発話特徴量とを照合して、ユーザUSの音声認証を実行する。なお、認証解析装置P1は、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの発話特徴量の代わりに、登録話者データベースDBに事前に登録された特定のユーザの発話特徴量と、抽出された発話特徴量とを照合して、ユーザUSの音声認証を実行してもよい。
 認証解析装置P1は、ユーザ認証結果を含む認証結果画面SCを生成して、情報表示部DPに送信して出力させる。なお、図1に示す認証結果画面SCは、一例であってこれに限定されないことは言うまでもない。図1に示す認証結果画面SCは、ユーザ認証結果であるメッセージ「××〇〇さんの声と一致しました。」を含む。
 また、認証解析装置P1は、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの音声信号と、ユーザUSの音声信号とを照合して、ユーザUSの音声認証を実行してもよい。なお、認証解析装置P1は、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの音声信号の代わりに、登録話者データベースDBに事前に登録された特定のユーザの音声信号と、ユーザUSの音声信号とを照合して、ユーザUSの音声認証を実行してもよい。
 データベースの一例としての登録話者データベースDBは、所謂ストレージであって、例えばフラッシュメモリ、HDD(Hard Disk Drive)あるいはSSD(Solid State Drive)等の記憶媒体を用いて構成される。登録話者データベースDBは、複数のユーザのユーザ情報と、発話特徴量とを対応付けて格納(登録)する。ここでいうユーザ情報は、ユーザに関する情報であって、例えば、ユーザ名、ユーザID(Identification)、ユーザごとに割り当てられた識別情報等である。なお、登録話者データベースDBは、認証解析装置P1と一体的に構成されてもよい。
 情報表示部DPは、例えばLCD(Liquid Crystal Display)あるいは有機EL(Electroluminescence)ディスプレイを用いて構成され、認証解析装置P1から送信された認証結果画面SCを表示する。
 図1に示す例において、ユーザ側通話端末UP1は、ユーザUSの発話音声COM12「××〇〇です」と、発話音声COM14「123245678です」とを収音し、音声信号に変換して、オペレータ側通話端末OP1に送信する。オペレータ側通話端末OP1は、ユーザ側通話端末UP1から送信されたユーザUSの発話音声COM12,COM14のそれぞれに基づく音声信号を認証解析装置P1に送信する。
 なお、オペレータ側通話端末OP1は、オペレータOPの発話音声COM11「お名前を教えてください」と、発話音声COM13「会員番号を教えてください」と、ユーザUSの発話音声COM12,COM14とを収音した音声信号を取得した場合には、オペレータOPの発話音声COM11,COM13のそれぞれに基づく音声信号を分離、除去し、ユーザUSの発話音声COM12,COM14のそれぞれに基づく音声信号のみを抽出して、認証解析装置P1に送信する。これにより、認証解析装置P1は、音声認証の対象である人物の音声信号のみを用いることで、ユーザ認証精度を向上できる。
 図2を参照して、認証解析装置P1の内部構成例について説明する。図2は、実施の形態1における認証解析装置P1の内部構成例を示すブロック図である。認証解析装置P1は、通信部20と、プロセッサ21と、メモリ22と、を少なくとも含んで構成される。
 取得部の一例としての通信部20は、オペレータ側通話端末OP1および登録話者データベースDBのそれぞれとの間でデータ通信可能に接続する。通信部20は、オペレータ側通話端末OP1から送信された音声信号をプロセッサ21に出力する。なお、取得部は通信部20に限らず、例えば認証解析装置P1と一体に構成されたオペレータ側通話端末OP1のマイクであっても良い。
 プロセッサ21は、例えばCPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphical Processing Unit)、FPGA(Field Programmable Gate Array)等の電子デバイスのうち少なくとも1つが実装された半導体チップを用いて構成される。プロセッサ21は、認証解析装置P1の全体的な動作を司るコントローラとして機能し、認証解析装置P1の各部の動作を統括するための制御処理、認証解析装置P1の各部との間のデータの入出力処理、データの演算処理およびデータの記憶処理を行う。
 プロセッサ21は、メモリ22のROM(Read Only Memory)22Aに記憶されたプログラムおよびデータを用いることで、発話区間検出部21A、発話連結部21B、特徴量抽出部21Cおよび類似度計算部21Dのそれぞれの機能を実現する。プロセッサ21は、動作中にメモリ22のRAM(Random Access Memory)22Bを使用し、プロセッサ21および各部が生成あるいは取得したデータもしくは情報をメモリ22のRAM22Bに一時的に保存する。
 検出部、認識部、変換部、およびノイズ検出部の一例としての発話区間検出部21Aは、取得された音声信号を解析し、ユーザUSが発話している発話区間を検出する。発話区間検出部21Aは、音声信号から検出された各発話区間に対応する音声信号(以降、「発話音声信号」と表記)を発話連結部21Bまたは特徴量抽出部21Cに出力する。また、発話区間検出部21Aは、各発話区間の発話音声信号をメモリ22のRAM22Bに一時的に保存してもよい。
 処理部の一例としての発話連結部21Bは、発話区間検出部21Aにより音声信号から同一人物(ユーザUS)の2以上の発話区間が検出された場合、これらの発話区間の発話音声信号同士を連結する。発話連結部21Bは、連結後の発話音声信号(以降、「連結音声信号」と表記)を特徴量抽出部21Cに出力する。なお、ユーザ認証方法については後述する。
 処理部の一例としての特徴量抽出部21Cは、発話区間検出部21Aにより抽出された1以上の発話音声信号を用いて個人の音声の特徴を、例えば周波数ごとに解析して、発話特徴量を抽出する。なお、特徴量抽出部21Cは、発話連結部21Bから出力された連結音声信号の発話特徴量を抽出してもよい。特徴量抽出部21Cは、抽出された発話特徴量と、この発話特徴量が抽出された発話音声信号または連結音声信号とを対応付けて類似度計算部21Dに出力したり、メモリ22のRAM22Bに一時的に保存したりする。
 認証部の一例としての類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部21Dは、登録話者データベースDBを参照して、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部21Dは、算出された類似度に基づいて、発話音声信号または連結音声信号(つまり、ユーザ側通話端末UP1から送信された音声信号)に対応するユーザを特定してユーザ認証を実行する。
 類似度計算部21Dは、ユーザ認証の結果、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を含む認証結果画面SCを生成して、表示I/F(Inter Face)23を介して、情報表示部DPに出力する。
 なお、類似度計算部21Dは、算出された類似度が所定値未満であると判定した場合、ユーザ認証不可であると判定し、発話連結部21Bに発話音声信号の連結を要求する制御指令を生成して出力してもよい。また、類似度計算部21Dは、同一人物(ユーザUS)に対するユーザ認証において、ユーザ認証回数に上限回数が設定されており、ユーザ認証不可であると判定した回数が上限回数以上であると判定した場合には、ユーザ認証不可である旨を通知する認証結果画面(不図示)を生成して、情報表示部DPに出力してもよい。
 メモリ22は、例えばプロセッサ21が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとを格納するROM22Aと、プロセッサ21が行う各種の処理を実行する際に用いるワークメモリとしてのRAM22Bと、を少なくとも有する。ROM22Aには、プロセッサ21が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとが書き込まれている。RAM22Bには、プロセッサ21により生成あるいは取得されたデータもしくは情報(例えば、連結前の発話音声信号、連結後の連結音声信号、連結前あるいは連結後の各発話区間に対応する発話特徴量等)が一時的に保存される。
 表示I/F23は、プロセッサ21と情報表示部DPとの間をデータ通信可能に接続し、プロセッサ21の類似度計算部21Dにより生成された認証結果画面SCを情報表示部DPに出力する。
 次に、図3を参照して、認証解析装置P1により実行される第1のユーザ認証処理について説明する。図3は、実施の形態1における第1のユーザ認証処理例を説明する図である。なお、図3~図8では、一例としてオペレータOPと、ユーザ認証対象であるユーザUSとが会話している例を示す。
 ユーザ側通話端末UP1は、ユーザUSの発話音声Us11「こんにちは」、発話音声Us12「暗証番号が分かりません」、発話音声Us13「IDは12345678です」、および発話音声Us14「名前は××〇〇です」を収音し、音声信号に変換してオペレータ側通話端末OP1に送信する。
 オペレータ側通話端末OP1は、オペレータOPの発話音声Op11「いかがなさいましたか」、発話音声Op12「はい、それではIDを教えてください」、および発話音声Op13「お名前を教えてください」を収音し、音声信号に変換してユーザ側通話端末UP1に送信する。また、オペレータ側通話端末OP1は、ユーザ側通話端末UP1から送信された音声信号を取得して、認証解析装置P1に送信する。
 認証解析装置P1における発話区間検出部21Aは、オペレータ側通話端末OP1から送信された音声信号からユーザUSの各発話音声Us11~Us14のそれぞれの発話区間を検出する。発話区間検出部21Aは、検出された各発話区間に対応する発話音声信号を抽出する。なお、以降の説明および図3~図8では、発話音声Us11に対応する発話音声信号を「発話1」、発話音声Us12に対応する発話音声信号を「発話2」、発話音声Us13に対応する発話音声信号を「発話3」、発話音声Us14に対応する発話音声信号を「発話4」とそれぞれ表記する。
 なお、図3~図8に示すオペレータOPとユーザUSとの間の会話例、およびユーザ認証に用いられる音声信号は一例であってこれに限定されないことは言うまでもない。ユーザ認証に用いられる音声信号の取得は、音声信号に含まれる所定のワード(例えば、「開始」等)を音声認識したタイミング以降に収音された発話音声に対応する音声信号を、ユーザ認証用の音声信号として取得してもよい。また、発話音声は、例えば、「こんにちは。暗証番号がわかりません」等の複数の文章を含む音声であってよい。
 以下、第1のユーザ認証処理について説明する。第1のユーザ認証処理において、認証解析装置P1は、ユーザ認証不可であると判定した場合、検出された各発話区間に対応する発話音声信号を時系列順に連結して、ユーザ認証を再度実行する。
 特徴量抽出部21Cは、抽出された各発話区間に対応する発話音声信号「発話1」の発話特徴量を抽出して、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号「発話1」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理1回目)。
 類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部21Bに発話音声信号「発話1」と発話音声信号「発話2」とを連結させる。発話連結部21Bは、連結後の連結音声信号「発話1」+「発話2」を特徴量抽出部21Cに出力する。特徴量抽出部21Cは、連結後の連結音声信号「発話1」+「発話2」の発話特徴量を抽出して、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された連結音声信号「発話1」+「発話2」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理2回目)。
 類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部21Bに発話音声信号「発話1」と発話音声信号「発話2」と発話音声信号「発話3」とを連結させる。発話連結部21Bは、連結後の連結音声信号「発話1」+「発話2」+「発話3」を特徴量抽出部21Cに出力する。特徴量抽出部21Cは、連結後の連結音声信号「発話1」+「発話2」+「発話3」の発話特徴量を抽出して、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された連結音声信号「発話1」+「発話2」+「発話3」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理3回目)。
 類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部21Bに発話音声信号「発話1」と発話音声信号「発話2」と発話音声信号「発話3」と発話音声信号「発話4」を連結させる。発話連結部21Bは、連結後の連結音声信号「発話1」+「発話2」+「発話3」+「発話4」を特徴量抽出部21Cに出力する。特徴量抽出部21Cは、連結後の連結音声信号「発話1」+「発話2」+「発話3」+「発話4」の発話特徴量を抽出して、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された連結音声信号「発話1」+「発話2」+「発話3」+「発話4」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理4回目)。
 以上のように、認証解析装置P1は、各発話音声に対応する発話音声信号を用いてユーザ認証を実行してユーザ認証不可であると判定した場合には、時系列順に発話音声信号を順次連結し、ユーザ認証処理に用いられる連結音声信号の信号長(発話音声長)を長くすることでユーザUS個人の発話特徴量の個人性がより強くあらわれる。
 これにより、実施の形態1に係る認証解析装置P1は、各発話音声信号に含まれるユーザUSの発話特徴量にばらつきがあっても、ユーザ認証に用いる発話特徴量の個人性がより強くあらわれるため、ユーザ認証精度を向上させることができる。
 また、これにより、実施の形態1に係る認証解析装置P1は、取得された音声信号から検出された各発話区間の発話音声信号を用いて、繰り返しユーザ認証を実行できる。よって、オペレータOPは、ユーザUSとオペレータOPとの通話(会話)途中にユーザUSが認証された場合には、ユーザUSとの通話(会話)をより早く切り上げることができる。
 なお、図3に示す例ではユーザ認証処理を4回実行する例について説明したが、認証解析装置P1は、ユーザ認証したと判定したタイミングで、ユーザ認証処理を終了してよい。また、認証解析装置P1は、ユーザ認証処理に上限回数が設定されていてよく、ユーザ認証処理回数が上限回数であると判定した場合、ユーザ認証不可である旨を通知する認証結果画面(不図示)を生成して、情報表示部DPに出力してもよい。
 次に、図4を参照して、認証解析装置P1により実行される第2のユーザ認証処理について説明する。図4は、実施の形態1における第2のユーザ認証処理例を説明する図である。
 第2のユーザ認証処理において、認証解析装置P1は、ユーザ認証に用いられる発話音声信号の信号長が所定時間(例えば、5秒、10秒等)以上になるように複数連結し、連結後の連結音声信号を用いてユーザ認証を実行する。なお、図4に示す例では一例として、所定時間=10秒である例について説明するが、所定時間はこれに限定されないことは言うまでもない。
 図4に示す例において、発話区間検出部21Aは、各発話区間に対応する発話音声信号「発話1」~「発話4」のそれぞれを検出し、発話連結部21Bに出力する。なお、図4では、発話音声信号「発話1」の信号長が0.8秒であり、発話音声信号「発話2」の信号長が2.9秒であり、発話音声信号「発話3」の信号長が4.0秒であり、発話音声信号「発話4」の信号長が3.5秒である。
 発話連結部21Bは、ユーザ認証に用いられる発話音声信号の信号長が所定時間以上となるように、発話音声信号「発話1」~「発話4」のそれぞれを組み合わせて連結する。なお、1つの発話音声信号の信号長が所定時間以上の長さである場合、発話連結部21Bによる発話音声信号の連結処理を省略してよい。発話連結部21Bは、連結後の連結音声信号を特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話区間検出部21Aまたは発話連結部21Bから出力された所定時間以上の信号長を有する発話音声信号または連結音声信号を取得する。特徴量抽出部21Cは、取得された発話音声信号または連結音声信号に含まれるユーザUSの発話特徴量を抽出する。特徴量抽出部21Cは、抽出されたユーザUSの発話特徴量を類似度計算部21Dに出力する。
 類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部21Dは、登録話者データベースDBを参照して、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量と、取得された発話特徴量との類似度を算出する。類似度計算部21Dは、算出された類似度に基づいて、取得された発話音声信号または連結音声信号に対応するユーザを特定してユーザ認証を実行する。
 例えば、図4に示す例において、発話音声信号「発話1」と発話音声信号「発話2」とが連結された連結音声信号「発話1」+「発話2」の信号長は、3.7秒(つまり、所定時間(10秒)未満)となる。第2のユーザ認証処理では、このように連結後の信号長が所定時間未満である発話音声信号を用いたユーザ認証処理を実行しない。
 また、発話音声信号「発話1」~「発話4」が連結された連結音声信号「発話1」+「発話2」+「発話3」+「発話4」の信号長は、11.2秒(つまり、所定時間(10秒)以上)となる。同様に、発話音声信号「発話2」~「発話4」が連結された連結音声信号「発話3」+「発話4」+「発話2」の信号長は、10.4秒(つまり、所定時間(10秒)以上)となる。このような場合、認証解析装置P1は、連結音声信号「発話1」+「発話2」+「発話3」+「発話4」、あるいは連結音声信号「発話3」+「発話4」+「発話2」を用いてユーザ認証処理を実行する。
 なお、認証解析装置P1は、ユーザ認証不可であると判定した場合、既にユーザ認証に用いられた発話音声信号の組み合わせと異なる発話音声信号の組み合わせで新たな連結音声信号を生成して、ユーザ認証を再度実行する。例えば、認証解析装置P1は、連結音声信号「発話3」+「発話4」+「発話2」を用いて1回目のユーザ認証処理を実行し、ユーザ認証不可であると判定した場合、連結音声信号「発話1」+「発話2」+「発話3」+「発話4」を用いて2回目のユーザ認証処理を実行する。
 なお、第2のユーザ認証処理において、発話音声信号の連結順は、連結音声信号「発話1」+「発話2」+「発話3」+「発話4」のように時系列順であってもよいし、連結音声信号「発話3」+「発話4」+「発話2」のように発話音声信号の信号長が長い順であってもよい。
 また、第2のユーザ認証処理において、発話連結部21Bは、連結される発話音声信号を選定してもよい。連結される発話音声信号を選定する基準として下限時間(例えば、2秒等)が設定されている場合、発話連結部21Bは、発話区間検出部21Aから出力された各発話区間に対応する発話音声信号の信号長が下限時間以上であるか否かを判定してよい。発話連結部21Bは、信号長が下限時間以上であると判定された発話音声信号を用いて、発話音声信号の連結処理を実行する。
 これにより、認証解析装置P1は、例えば「はい」、「うん」等の短い発話であって、ユーザUS個人の発話特徴量が小さい発話音声信号を、ユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置P1は、個人性がより強くあらわれた発話特徴量を含む連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。
 以上により、実施の形態1における認証解析装置P1は、所定時間以上の信号長を有し、ユーザ認証処理により適した発話特徴量を有する連結音声信号を用いることで、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 次に、図5を参照して、認証解析装置P1により実行される第3のユーザ認証処理について説明する。図5は、実施の形態1における第3のユーザ認証処理例を説明する図である。
 第3のユーザ認証処理において、認証解析装置P1は、ユーザ認証に用いられる発話音声信号に含まれる文字数を認識し、認識された文字数が所定文字数(例えば、20文字、25文字等)以上になるように複数の発話音声信号を連結し、連結後の連結音声信号を用いてユーザ認証を実行する。なお、図5に示す例では一例として、所定文字数=25文字である例について説明するが、所定時間はこれに限定されないことは言うまでもない。なお、ここでいう文字数は、モーラ数、音節数、音素数等であってもよい。
 図5に示す例において、発話区間検出部21Aは、各発話区間に対応する発話音声信号「発話1」~「発話4」のそれぞれを検出し、各発話音声信号に含まれる文字数を認識し、認識結果と発話音声信号とを発話連結部21Bに出力する。なお、図5では、発話音声信号「発話1」の文字数が5文字であり、発話音声信号「発話2」と発話音声信号「発話3」との文字数がそれぞれ16文字であり、発話音声信号「発話4」の文字数が12文字である。
 発話連結部21Bは、ユーザ認証に用いられる発話音声信号の文字数が所定文字数以上となるように、発話音声信号「発話1」~「発話4」のそれぞれを組み合わせて連結する。なお、1つの発話音声信号の文字数が所定文字数以上である場合、発話連結部21Bによる発話音声信号の連結処理を省略してよい。発話連結部21Bは、連結後の連結音声信号を特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話区間検出部21Aまたは発話連結部21Bから出力された所定文字数以上の文字数を含む発話音声信号または連結音声信号を取得する。特徴量抽出部21Cは、取得された発話音声信号または連結音声信号に含まれるユーザUSの発話特徴量を抽出する。特徴量抽出部21Cは、抽出されたユーザUSの発話特徴量を類似度計算部21Dに出力する。
 類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部21Dは、登録話者データベースDBを参照して、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証を実行する。
 例えば、図5に示す例において、発話音声信号「発話1」と発話音声信号「発話2」とが連結された連結音声信号「発話1」+「発話2」の文字数は、21文字(つまり、所定文字数(25文字)未満)となる。第3のユーザ認証処理では、このように連結後の文字数が所定文字数未満である連結音声信号を用いたユーザ認証処理を実行しない。
 また、発話音声信号「発話1」~「発話4」が連結された連結音声信号「発話1」+「発話2」+「発話3」+「発話4」の文字数は、49文字(つまり、所定文字数(25文字)以上)となる。同様に、発話音声信号「発話2」~「発話4」が連結された連結音声信号「発話3」+「発話4」+「発話2」の文字数は、44文字(つまり、所定文字数(25文字)以上)となる。認証解析装置P1は、連結音声信号「発話1」+「発話2」+「発話3」+「発話4」、あるいは連結音声信号「発話3」+「発話4」+「発話2」を用いてユーザ認証処理を実行する。
 なお、認証解析装置P1は、ユーザ認証不可であると判定した場合、既にユーザ認証に用いられた発話音声信号の組み合わせと異なる組み合わせで連結された新たな連結音声信号を用いてユーザ認証を再度実行する。例えば、認証解析装置P1は、連結音声信号「発話3」+「発話4」+「発話2」を用いて1回目のユーザ認証処理を実行し、ユーザ認証不可であると判定した場合、連結音声信号「発話1」+「発話2」+「発話3」+「発話4」を用いて2回目のユーザ認証処理を実行する。
 なお、第3のユーザ認証処理において、発話音声信号の連結順は、連結音声信号「発話1」+「発話2」+「発話3」+「発話4」のように時系列順であってもよいし、連結音声信号「発話3」+「発話4」+「発話2」のように発話音声信号の文字数が多い順であってもよい。
 また、第3のユーザ認証処理において、発話連結部21Bは、連結対象となる発話音声信号を選定してもよい。連結対象となる発話音声信号を選定する基準として下限文字数(例えば、5文字等)が設定されている場合、発話連結部21Bは、発話区間検出部21Aから出力された各発話区間に対応する発話音声信号の文字数が下限文字数以上であるか否かを判定してよい。発話連結部21Bは、信号長が下限文字数以上であると判定された発話音声信号を用いて、発話音声信号の連結処理を実行する。
 これにより、認証解析装置P1は、例えば「はい」、「うん」等の文字数が少ない発話であって、ユーザUS個人の発話特徴量が小さい発話音声信号をユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置P1は、個人性がより強く表れた発話特徴量を含む発話音声信号または連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。
 以上により、実施の形態1における認証解析装置P1は、所定文字数以上の文字数を含み、ユーザ認証処理により適した発話特徴量を有する発話音声信号または連結音声信号を用いて発話音声信号を用いてユーザ認証処理を実行できる。
 これにより、実施の形態1に係る認証解析装置P1は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 次に、図6を参照して、認証解析装置P1により実行される第4のユーザ認証処理について説明する。図6は、実施の形態1における第4のユーザ認証処理例を説明する図である。
 第4のユーザ認証処理において、認証解析装置P1は、発話音声信号の文字数に基づいて、各発話音声信号に重み付け処理を実行する。認証解析装置P1は、重み付け処理後の発話特徴量を用いてユーザ認証処理を実行する。
 図6に示す例において、発話区間検出部21Aは、各発話区間に対応する発話音声信号「発話1」~「発話4」のそれぞれを検出し、各発話音声信号に含まれる文字数を音声認識し、音声認識結果と発話音声信号とを発話連結部21Bに出力する。なお、図6では、発話音声信号「発話1」の文字数が5文字であり、発話音声信号「発話2」と発話音声信号「発話3」との文字数がそれぞれ16文字であり、発話音声信号「発話4」の文字数が12文字である。
 発話連結部21Bは、発話区間検出部21Aにより音声認識された発話音声信号と各発話音声信号の文字数とに基づいて、各発話音声信号に重み係数を決定する。発話連結部21Bは、発話音声信号を連結して連結音声信号を生成して、特徴量抽出部21Cに出力する。
 具体的に、発話連結部21Bは、連結される2以上の発話音声信号の合計文字数を算出し、算出された合計文字数に対する各発話音声信号の文字数の割合を算出し、算出された割合に対応する重み係数を決定する。また、各発話区間に対応する重み係数は、RAM22Bに出力され、記憶されてよい。
 特徴量抽出部21Cは、発話連結部21Bから出力された連結音声信号に含まれる2以上の発話区間の発話音声信号のそれぞれと、各発話区間に対応する重み係数とに基づいて、各発話区間から抽出された発話特徴量に重み付け処理を実行する。なお、ユーザ認証処理が1回目であって、連結音声信号の生成が行われない場合、重み係数の算出および重み付け処理は、発話区間検出部21Aにより実行されてもよいし、処理そのものが省略されてもよい。
 以下、図6を参照して、第4のユーザ認証処理の具体例について説明する。
 発話連結部21Bは、音声認識された発話音声信号「発話1」の文字数(5文字)と、1回目のユーザ認証処理に用いられる発話音声信号(つまり、発話音声信号「発話1」)の合計文字数とに基づいて、重み係数を1.0に決定する。発話連結部21Bは、発話音声信号と、重み係数とを特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話連結部21Bから出力された発話音声信号「発話1」の発話特徴量を抽出して、抽出された発話音声信号「発話1」の発話特徴量に重み係数を重み付けて、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号「発話1」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理1回目)。
 類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部21Bに発話音声信号「発話1」と発話音声信号「発話2」とを連結させる。発話連結部21Bは、発話音声信号「発話1」の文字数(5文字)と発話音声信号「発話2」の文字数(16文字)とを、これらの発話音声信号の文字数の合計値(5+16)とに基づいて、発話音声信号「発話1」、「発話2」のそれぞれの重み係数を決定する。なお、図6に示す例において、発話連結部21Bは、発話音声信号「発話1」の重み係数を0.24、発話音声信号「発話2」の重み係数を0.76にそれぞれ決定する。発話連結部21Bは、連結音声信号と、各重み係数とを特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話連結部21Bから出力された発話音声信号「発話1」および発話音声信号「発話2」のそれぞれの発話特徴量を抽出する。特徴量抽出部21Cは、抽出された各発話音声信号「発話1」、「発話2」の発話特徴量のそれぞれに対応する重み係数を重み付けて、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された連結音声信号「発話1」+「発話2」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理2回目)。
 類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部21Bに発話音声信号「発話1」と発話音声信号「発話2」と発話音声信号「発話3」とを連結させる。発話連結部21Bは、発話音声信号「発話1」の文字数(5文字)と発話音声信号「発話2」の文字数(16文字)と発話音声信号「発話3」の文字数(16文字)とを、これらの発話音声信号の文字数の合計値(5+16+16)とに基づいて、発話音声信号「発話1」、「発話2」、「発話3」のそれぞれの重み係数を決定する。なお、図6に示す例において、発話連結部21Bは、発話音声信号「発話1」の重み係数を0.14、発話音声信号「発話2」、「発話3」の重み係数を0.43にそれぞれ決定する。発話連結部21Bは、連結音声信号と、各重み係数とを特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話連結部21Bから出力された発話音声信号「発話1」、発話音声信号「発話2」、および発話音声信号「発話3」の発話特徴量を抽出する。特徴量抽出部21Cは、抽出された各発話音声信号「発話1」~「発話3」の発話特徴量のそれぞれに対応する重み係数を重み付けて、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された連結音声信号「発話1」+「発話2」+「発話3」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理3回目)。
 類似度計算部21Dは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部21Bに発話音声信号「発話1」と発話音声信号「発話2」と発話音声信号「発話3」と発話音声信号「発話4」とを連結させる。発話連結部21Bは、発話音声信号「発話1」の文字数(5文字)と発話音声信号「発話2」の文字数(16文字)と発話音声信号「発話3」の文字数(16文字)と発話音声信号「発話4」の文字数(12文字)とを、これらの発話音声信号の文字数の合計値(5+16+16+12)とに基づいて、発話音声信号「発話1」、「発話2」のそれぞれの重み係数を決定する。なお、図6に示す例において、発話連結部21Bは、発話音声信号「発話1」の重み係数を0.10、発話音声信号「発話2」、「発話3」の重み係数を0.33、発話音声信号「発話4」の重み係数を0.24にそれぞれ決定する。発話連結部21Bは、連結音声信号と、各重み係数とを特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話連結部21Bから出力された発話音声信号「発話1」、発話音声信号「発話2」、発話音声信号「発話3」、および発話音声信号「発話4」の発話特徴量を抽出する。特徴量抽出部21Cは、抽出された各発話音声信号「発話1」~「発話4」の発話特徴量のそれぞれに対応する重み係数を重み付けて、類似度計算部21Dに出力する。類似度計算部21Dは、特徴量抽出部21Cから出力された連結音声信号「発話1」+「発話2」+「発話3」+「発話4」の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する(ユーザ認証処理4回目)。
 なお、上述した第4のユーザ認証処理例では、文字数に基づいて重み付け係数を決定する例について説明したが、これに限定されなくてもよい。例えば、重み付け係数は、モーラ数、音節数、音素数に基づいて決定されてもよい。また、上述した重み付け係数の算出例は、一例であって、これに限定されなくてもよいことは言うまでもない。
 以上により、実施の形態1における認証解析装置P1は、発話音声信号の発話特徴量に重み付け処理をすることで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できる。
 これにより、実施の形態1に係る認証解析装置P1は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 次に、図7を参照して、認証解析装置P1により実行される第5のユーザ認証処理について説明する。図7は、実施の形態1における第5のユーザ認証処理例を説明する図である。
 第5のユーザ認証処理において、認証解析装置P1の発話区間検出部21Aは、発話音声信号を音声解析し、発話音声信号に含まれるノイズ(例えば、ユーザUS以外の音声、雑音、環境音等)を含む区間(以降、「ノイズ区間」と表記)を検出する。発話区間検出部21Aは、発話音声信号から検出されたノイズ区間を削除したり、連結音声信号からノイズ区間を含む発話区間に対応する発話音声信号そのものを削除したりする。認証解析装置P1は、削除処理後の発話音声信号または連結音声信号を用いてユーザ認証処理を実行する。
 図7に示す発話音声Us12は、ユーザUSの環境音であるノイズNz11「ピンポーン」を含む。このような場合、発話区間検出部21Aは、各発話区間に対応する発話音声信号「発話1」~「発話4」のそれぞれを検出し、検出された発話音声信号「発話1」~「発話4」のそれぞれを連結した連結音声信号からノイズNz11を検出し、このノイズNz11が含まれるノイズ区間Nzを検出する。
 発話区間検出部21Aは、発話音声信号「発話2」から検出されたノイズ区間Nzを削除し、ノイズ区間Nzを削除した後の発話音声信号「発話2」と、各発話区間に対応する発話音声信号「発話1」、「発話3」、「発話4」のそれぞれとを連結した連結音声信号を生成する。
 また、発話区間検出部21Aは、ノイズ区間Nzを含む発話音声信号「発話2」を削除し、ノイズ区間Nzを含まない発話音声信号「発話1」、「発話3」、「発話4」のそれぞれを連結した連結音声信号を生成する。
 なお、ここでは、発話区間検出部21Aが連結音声信号からノイズ区間Nzを検出し、除去する例について説明するが、発話音声信号からノイズ区間Nzを検出し、除去する場合も同様である。
 以上により、実施の形態1における認証解析装置P1は、発話音声信号に含まれるノイズを除去することで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できる。これにより、実施の形態1に係る認証解析装置P1は、ユーザ認証精度を向上させることができる。
 次に、図8および図9を参照して、認証解析装置P1により実行される第6のユーザ認証処理について説明する。図8は、実施の形態1における第6のユーザ認証方法例を説明する図である。図9は、実施の形態1における第6のユーザ認証方法例を説明する図である。
 第6のユーザ認証処理において、認証解析装置P1の発話区間検出部21Aは、発話音声信号を音声解析して文字数を認識し、この発話音声信号の話速(つまり、1秒あたりの文字数)を算出する。発話区間検出部21Aは、発話音声信号の話速を所定話速になるように発話音声信号を縮小あるいは伸長する処理(以降、「話速変換処理」と表記)を実行する。例えば、図9に示す例において発話音声信号Dt1は、話速変換処理により発話音声信号Dt2に変換される。認証解析装置P1は、話速変換処理後の発話音声信号、あるいは話速変換処理後の発話音声信号を連結した連結音声信号を用いてユーザ認証を実行する。
 登録話者データベースDBに登録(格納)された複数のユーザの発話特徴量の抽出元データ(つまり、発話音声信号)の話速が同一話速(例えば、図8に示す話速=5.0文字/秒)である場合、発話区間検出部21Aは、この同一話速を所定話速として設定し、話速変換処理を実行する。これにより、認証解析装置P1は、ユーザ認証に用いる発話音声信号または連結音声信号の発話特徴量と、登録話者データベースDBに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。
 以下、図8を参照してユーザUSの発話音声信号「発話1」~「発話4」のそれぞれの話速変換処理例について具体的に説明する。
 例えば、ユーザUSの音声(発話特徴量)の登録時において、登録話者データベースDBへの登録(格納)に用いられるユーザUSの発話音声信号は、文字数=17文字、発話秒数(つまり発話区間)=3.6秒、発話内容が「私の声を登録してください」、および話速=4.72文字/秒である。このような場合、ユーザUSの話速=4.72文字/秒の発話音声信号は、所定話速5.0文字/秒の発話音声信号に拡張する話速変換処理された状態で、登録話者データベースDBに登録(格納)される。なお、登録話者データベースDBへの登録(格納)時の話速変換処理は、認証解析装置P1により実行されてよい。
 ユーザ認証時において、ユーザUSの発話音声信号「発話1」は、文字数=5文字、発話秒数=0.8秒、発話内容が「こんにちは」、および話速=6.25文字/秒である。発話音声信号「発話2」は、文字数=16文字、発話秒数=2.9秒、発話内容が「暗証番号が分かりません」、および話速=5.51文字/秒である。発話音声信号「発話3」は、文字数=16文字、発話秒数=4.0秒、発話内容が「IDは12345678です」、および話速=4.0文字/秒である。発話音声信号「発話4」は、文字数=12文字、発話秒数=3.5秒、発話内容が「名前は××〇〇です」、および話速=3.42文字/秒である。
 発話音声信号「発話1」~「発話4」のそれぞれは、登録話者データベースDBへの登録(格納)時に所定話速=5.0文字/秒に話速変換されて登録(格納)される。これにより、発話音声信号「発話1」は、発話秒数=1.0秒の発話音声信号に変換される。同様に、発話音声信号「発話2」、「発話3」のそれぞれは、発話秒数=3.2秒の発話音声信号に変換される。発話音声信号「発話4」は、発話秒数=2.4秒の発話音声信号に変換される。
 なお、発話音声信号の話速は、発話音声信号の音声認識結果により取得された文字数と発話秒数とに基づいて算出されてもよいし、モーラ数、音節数、あるいは音素数と発話秒数とに基づいて推定されてもよい。その他、発話音声信号の話速は、音声信号の時間成分、周波数成分から直接演算処理により推定されてもよい。
 以上により、実施の形態1における認証解析装置P1は、ユーザUSの発話速度にばらつきが生じる場合であっても、所定話速に変換された発話音声信号を用いてユーザ認証処理を実行することで、ユーザ認証に用いる発話音声信号または連結音声信号の発話特徴量と、登録話者データベースDBに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。
 次に、図10を参照して、認証解析装置P1の動作手順例について説明する、図10は、実施の形態1における認証解析装置P1の動作手順例を示すフローチャートである。
 認証解析装置P1における通信部20は、オペレータ側通話端末OP1から送信された音声信号(または音声データ)を取得する(St11)。通信部20は、取得された音声信号をプロセッサ21に出力する。
 プロセッサ21は、通信部20から出力された音声信号を取得したタイミングで、取得された音声信号の音声認証対象であるユーザUSの認証を開始する(St12)。
 プロセッサ21における発話区間検出部21Aは、取得された音声信号から発話区間を検出する(St13)。
 発話区間検出部21Aは、発話区間に対応する発話音声信号に含まれる文字数を音声認識する。発話区間検出部21Aは、音声認識された文字数と、発話音声信号の信号長(発話音声長、発話秒数等)とに基づいて、この発話音声信号の話速を算出する。発話区間検出部21Aは、発話音声信号に話速変換処理を実行し、この発話音声信号の話速を所定話速に変換する(St14)。なお、ステップSt14の処理は、必須でなく省略されてもよい。
 発話区間検出部21Aは、検出された発話区間の情報(例えば、発話区間の開始時刻と終了時刻、文字数、信号長(発話音声長、発話秒数等)、話速変換前または話速変換後の話速等)の情報をメモリ22に記憶する(St15)。
 発話区間検出部21Aは、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される1以上の発話音声信号を選択する(St16)。なお、図10では図示を省略しているが、認証解析装置P1は、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される発話音声信号がないと判定した場合、ステップSt13の処理に戻って、新たな発話区間を検出してもよい。
 発話区間検出部21Aは、選択された1以上の発話音声信号のそれぞれを連結する音声連結処理を実行し、連結音声信号を生成する(St17)。なお、ステップSt17の処理は、第1のユーザ認証処理方法が設定されている場合、かつ、1回目のユーザ認証の実行前である場合には、省略される。発話区間検出部21Aは、生成された連結音声信号を特徴量抽出部21Cに出力する。
 特徴量抽出部21Cは、発話区間検出部21Aから出力された連結音声信号からユーザUS個人の発話特徴量を抽出する(St18)。特徴量抽出部21Cは、抽出されたユーザUS個人の発話特徴量を類似度計算部21Dに出力する。
 類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量を参照し、特徴量抽出部21Cから出力されたユーザUS個人の発話特徴量と、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量との類似度を算出する(St19)。
 類似度計算部21Dは、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいるか否かを判定する(St20)。
 類似度計算部21Dは、ステップSt19の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいると判定した場合(St20,YES)、このユーザが音声信号のユーザUSであると判定する(St21)。なお、類似度計算部21Dは、類似度が閾値以上であるユーザが複数いると判定した場合、類似度が最もユーザを音声信号のユーザUSであると判定してよい。
 類似度計算部21Dは、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を含む認証結果画面SCを生成して、表示I/F23を介して、情報表示部DPに出力する(St23)。
 一方、類似度計算部21Dは、ステップSt19の処理において、登録話者データベースDBに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいないと判定した場合(St20,NO)、現在のユーザ認証処理回数が設定された上限回数以上であるか否かを判定する(St22)。
 類似度計算部21Dは、ステップSt22の処理において、現在のユーザ認証処理回数が設定された上限回数以上であると判定した場合(St22,YES)、取得された音声信号に基づいて、ユーザ認証不可である(つまり、ユーザ認証失敗である)と判定する(St24)。類似度計算部21Dは、ユーザ認証不可である旨を通知する認証結果画面(不図示)を生成して、表示I/F23を介して、情報表示部DPに送信する。情報表示部DPは、認証解析装置P1から送信された認証結果画面を出力(表示)する。
 類似度計算部21Dは、ステップSt22の処理において、現在のユーザ認証処理回数が設定された上限回数以上でないと判定した場合(St22,NO)、ステップSt13の処理に戻る。
 以上により、実施の形態1に係る認証解析装置P1は、所定のユーザ認証処理方法によって、ユーザ認証処理により適した発話音声信号を用いてユーザ認証処理を実行できる。これにより、実施の形態1に係る認証解析装置P1は、ユーザ認証精度を向上させることができる。
 以上により、実施の形態1に係る認証解析装置P1は、話者(例えば、ユーザUS等)の発話音声の音声信号を取得する通信部20(取得部の一例)と、取得された音声信号から話者が発話している第1の発話区間を検出する発話区間検出部21A(検出部の一例)と、発話区間検出部21Aより検出された第1の発話区間の発話音声信号(音声信号の一例)と、登録話者データベースDB(データベースの一例)との照合に基づいて、話者を認証する(つまり、ユーザ認証する)類似度計算部21D(認証部の一例)と、を備える。発話区間検出部21Aは、類似度計算部21Dにより話者が認証不可であると判定された場合、第1の発話区間と異なる第2の発話区間を検出する。類似度計算部21Dは、第1の発話区間および第2の発話区間の発話音声信号と、登録話者データベースDBとの照合に基づいて、話者を認証する。なお、1以上のコンピュータは、認証解析装置P1を少なくとも含んで構成される。
 これにより、実施の形態1に係る認証解析装置P1は、1つの発話区間(第1の発話区間)の発話音声信号を用いてユーザ認証できないと判定した場合、時系列順に発話音声信号を順次連結し、ユーザ認証処理に用いられる連結音声信号の信号長(発話音声長)を長くすることで個人性がより強くあらわれた発話特徴量を抽出できる。したがって、実施の形態1に係る認証解析装置P1は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証に用いる個人性がより強くあらわれた発話特徴量を抽出できるため、ユーザ認証精度を向上させることができる。
 また、実施の形態1に係る認証解析装置P1における発話区間検出部21Aは、取得された音声信号の時系列に沿って、第1の発話区間および第2の発話区間のそれぞれを検出する。これにより、実施の形態1に係る認証解析装置P1は、音声信号の時系列に沿って順次検出された複数の発話区間の発話音声信号を用いて、ユーザ認証処理を再度実行できる。
 また、実施の形態1において、第1の発話区間および第2の発話区間のそれぞれは、発話区間検出部21Aにより検出された連続する2つの発話区間である。これにより、1つの発話区間(つまり、第1の発話区間)の発話音声信号を用いてユーザ認証できないと判定した場合、時系列順に発話音声信号を順次連結し、ユーザ認証処理に用いられる連結音声信号の信号長(発話音声長)を長くすることで個人性がより強くあらわれた発話特徴量を抽出できる。これにより、実施の形態1に係る認証解析装置P1は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証に用いる個人性がより強くあらわれた発話特徴量を抽出できるため、ユーザ認証精度を向上させることができる。
 また、実施の形態1において、第1の発話区間と第2の発話区間との合計長さは、第1の所定時間(例えば、5秒以上等)以上である。これにより、実施の形態1に係る認証解析装置P1は、第1の所定時間以上の信号長を有する連結音声信号を用いることで、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 また、実施の形態1に係る認証解析装置P1は、第1の発話区間および第2の発話区間のそれぞれの長さは、第2の所定時間(例えば、10秒以上等)以上である。これにより、実施の形態1に係る認証解析装置P1は、例えば「はい」、「うん」等の短い発話であって、ユーザUS個人の発話特徴量が小さい発話音声信号を、ユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置P1は、個人性がより強くあらわれた発話特徴量を含む連結音声信号を用いたユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。また、実施の形態1における認証解析装置P1は、所定時間以上の信号長を有し、ユーザ認証処理により適した発話特徴量を有する連結音声信号を用いることで、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 また、実施の形態1に係る認証解析装置P1は、第1の発話区間に含まれる第1の文字数と、第2の発話区間に含まれる第2の文字数とを音声認識する発話区間検出部21A(認識部の一例)、をさらに備える。第1の発話区間と第2の発話区間とに含まれる合計文字数は、第1の所定文字数(例えば、25文字等)以上である。これにより、実施の形態1に係る認証解析装置P1は、所定文字数以上の文字数を含み、ユーザ認証処理により適した発話特徴量を有する発話音声信号または連結音声信号を用いて発話音声信号を用いてユーザ認証処理を実行できる。したがって、認証解析装置P1は、個人性がより強くあらわれた発話特徴量を含む発話音声信号または連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。
 また、実施の形態1に係る認証解析装置P1は、第1の発話区間および第2の発話区間に含まれる文字数は、それぞれ第2の所定文字数(例えば、5文字等)以上である。これにより、実施の形態1に係る認証解析装置P1は、例えば「はい」、「うん」等の文字数が少ない発話であって、ユーザUS個人の発話特徴量が小さい発話音声信号をユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置P1は、個人性がより強くあらわれた発話特徴量を含む発話音声信号または連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。
 また、実施の形態1に係る認証解析装置P1は、第1の発話区間に含まれる第1の文字数と、第2の発話区間に含まれる第2の文字数とを音声認識する発話区間検出部21A、をさらに備える。類似度計算部21Dは、第1の発話区間の発話音声信号に第1の文字数に基づく重み付けと、第2の発話区間の発話音声信号に第2の文字数に基づく重み付けとを実行し、重み付けされた第1の発話区間および第2の発話区間の発話音声信号と、登録話者データベースDBとの照合に基づいて、話者を認証する。これにより、実施の形態1に係る認証解析装置P1は、ユーザ認証処理に用いる連結音声信号の合計文字数のうち各発話音声信号に含まれる文字数が占める割合に基づいて、各発話音声信号に重み付け処理をすることで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できる。したがって、実施の形態1に係る認証解析装置P1は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 また、実施の形態1に係る認証解析装置P1は、発話区間検出部21Aにより音声認識された第1の文字数および第2の文字数に基づいて、第1の発話区間および第2の発話区間のそれぞれに重み付けする発話連結部21Bおよび特徴量抽出部21C(処理部の一例)、をさらに備える。発話連結部21Bは、第1の文字数と第2の文字数とに基づいて、合計文字数を算出し、第1の発話区間に、合計文字数に対する第1の文字数の割合に基づく重み付けと、第2の発話区間に、合計文字数に対する第2の文字数の割合に基づく重み付けとを実行する。類似度計算部21Dは、重み付け後の第1の発話区間および第2の発話区間の発話音声信号と、登録話者データベースDBとの照合に基づいて、話者を認証する。これにより、実施の形態1に係る認証解析装置P1は、ユーザUSの発話速度にばらつきが生じる場合であっても、所定話速に変換された発話音声信号を用いてユーザ認証処理を実行することで、ユーザ認証に用いる発話音声信号または連結音声信号の発話特徴量と、登録話者データベースDBに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。
 また、実施の形態1に係る認証解析装置P1は、第1の発話区間および第2の発話区間の発話音声信号に含まれるノイズ区間Nzを検出する発話区間検出部21A(ノイズ検出部の一例)、をさらに備える。類似度計算部21Dは、第1の発話区間および第2の発話区間から検出されたノイズ区間Nzを削除し、ノイズ区間Nzが削除された第1の発話区間および第2の発話区間の発話音声信号と、登録話者データベースDBとの照合に基づいて、話者を認証する。これにより、実施の形態1に係る認証解析装置P1は、発話音声信号に含まれるノイズを除去することで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行でき、ユーザ認証精度を向上させることができる。
 また、実施の形態1における類似度計算部21Dは、ノイズ区間Nzを含む第1の発話区間あるいは第2の発話区間を削除する。発話区間検出部21Aは、第1の発話区間および第2の発話区間がともに削除された場合、第1の発話区間および第2の発話区間と異なる第3の発話区間を検出する。類似度計算部21Dは、発話区間検出部21Aにより第3の発話区間の発話音声信号からノイズ区間Nzが検出されない場合、第3の発話区間の発話音声信号と、登録話者データベースDBとの照合に基づいて、話者を認証する。これにより、実施の形態1に係る認証解析装置P1は、発話音声信号に含まれるノイズ区間Nzを除去することにより、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できるため、ユーザ認証精度を向上させることができる。
 また、実施の形態1における類似度計算部21Dは、ノイズ区間Nzを含む第1の発話区間あるいは第2の発話区間を削除する。発話区間検出部21Aは、第1の発話区間または第2の発話区間のいずれか一方が削除された場合、第1の発話区間および第2の発話区間と異なる第3の発話区間を検出する。類似度計算部21Dは、ノイズ検出部により第3の発話区間の発話音声信号からノイズ区間が検出されない場合、ノイズ区間Nzを含まない第1の発話区間または第2の発話区間のいずれか他方と第3の発話区間との発話音声信号と、登録話者データベースDBとの照合に基づいて、話者を認証する。これにより、実施の形態1に係る認証解析装置P1は、ノイズを含む発話区間を除去することにより、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できるため、ユーザ認証精度を向上させることができる。
 また、実施の形態1における文字数は、モーラ数、音節数、または音素数である。これにより、実施の形態1に係る認証解析装置P1は、モーラ数、音節数、または音素数等に基づいて、ユーザ認証処理により適した発話特徴量を有する発話音声信号または連結音声信号を判定できる。したがって、認証解析装置P1は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。
 以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
 なお、本出願は、2021年9月27日出願の日本特許出願(特願2021-157045)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示は、発話音声を用いた話者の音声認証精度を向上させる認証装置および認証方法として有用である。
20 通信部
21 プロセッサ
21A 発話区間検出部
21B 発話連結部
21C 特徴量抽出部
21D 類似度計算部
22 メモリ
22A ROM
22B RAM
23 表示I/F
100 音声認証システム
DB 登録話者データベース
DP 情報表示部
Nz ノイズ区間
OP1 オペレータ側通話端末
P1 認証解析装置
SC 認証結果画面
US ユーザ
UP1 ユーザ側通話端末
 

Claims (14)

  1.  話者の発話音声の音声信号を取得する取得部と、
     取得された前記音声信号から前記話者が発話している第1の発話区間を検出する検出部と、
     前記検出部より検出された前記第1の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証する認証部と、を備え、
     前記検出部は、前記認証部により前記話者が認証不可であると判定された場合、前記第1の発話区間と異なる第2の発話区間を検出し、
     前記認証部は、前記第1の発話区間および前記第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     認証装置。
  2.  前記検出部は、取得された前記音声信号の時系列に沿って、前記第1の発話区間および前記第2の発話区間のそれぞれを検出する、
     請求項1に記載の認証装置。
  3.  前記第1の発話区間および前記第2の発話区間のそれぞれは、前記検出部により検出された連続する2つの発話区間である、
     請求項1に記載の認証装置。
  4.  前記第1の発話区間と前記第2の発話区間との合計長さは、第1の所定時間以上である、
     請求項1に記載の認証装置。
  5.  前記第1の発話区間および前記第2の発話区間のそれぞれの長さは、第2の所定時間以上である、
     請求項1に記載の認証装置。
  6.  前記第1の発話区間に含まれる第1の文字数と、前記第2の発話区間に含まれる第2の文字数とを音声認識する認識部、をさらに備え、
     前記第1の発話区間と前記第2の発話区間とに含まれる合計文字数は、第1の所定文字数以上である、
     請求項1に記載の認証装置。
  7.  前記第1の発話区間および前記第2の発話区間に含まれる文字数は、それぞれ第2の所定文字数以上である、
     請求項6に記載の認証装置。
  8.  前記認識部により音声認識された前記第1の文字数および前記第2の文字数に基づいて、前記第1の発話区間および前記第2の発話区間のそれぞれに重み付けする処理部、をさらに備え、
     前記処理部は、前記第1の文字数と前記第2の文字数とに基づいて、前記合計文字数を算出し、前記第1の発話区間に、前記合計文字数に対する前記第1の文字数の割合に基づく重み付けと、前記第2の発話区間に、前記合計文字数に対する前記第2の文字数の割合に基づく重み付けとを実行し、
     前記認証部は、重み付け後の第1の発話区間および第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     請求項6に記載の認証装置。
  9.  前記第1の発話区間の話速と前記第2の発話区間の話速とを所定話速に変換する変換部、をさらに備え、
     前記認証部は、前記所定話速に変換された第1の発話区間および第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     請求項7に記載の認証装置。
  10.  前記第1の発話区間および前記第2の発話区間の音声信号に含まれるノイズ区間を検出するノイズ検出部、をさらに備え、
     前記認証部は、前記第1の発話区間および前記第2の発話区間から検出された前記ノイズ区間を削除し、前記ノイズ区間が削除された第1の発話区間および第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     請求項1に記載の認証装置。
  11.  前記認証部は、前記ノイズ区間を含む前記第1の発話区間あるいは前記第2の発話区間を削除し、
     前記検出部は、前記第1の発話区間および前記第2の発話区間がともに削除された場合、前記第1の発話区間および前記第2の発話区間と異なる第3の発話区間を検出し、
     前記認証部は、前記ノイズ検出部により前記第3の発話区間の音声信号から前記ノイズ区間が検出されない場合、前記第3の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     請求項10に記載の認証装置。
  12.  前記認証部は、前記ノイズ区間を含む前記第1の発話区間あるいは前記第2の発話区間を削除し、
     前記検出部は、前記第1の発話区間または前記第2の発話区間のいずれか一方が削除された場合、前記第1の発話区間および前記第2の発話区間と異なる第3の発話区間を検出し、
     前記認証部は、前記ノイズ検出部により前記第3の発話区間の音声信号から前記ノイズ区間が検出されない場合、前記ノイズ区間を含まない前記第1の発話区間または前記第2の発話区間のいずれか他方と前記第3の発話区間との音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     請求項10に記載の認証装置。
  13.  前記文字数は、モーラ数、音節数、または音素数である、
     請求項6~8のいずれか1項に記載の認証装置。
  14.  1以上のコンピュータが行う認証方法であって、
     話者の発話音声の音声信号を取得し、
     取得された前記音声信号から前記話者が発話している第1の発話区間を検出し、
     検出された前記第1の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証し、
     前記第1の発話区間の音声信号に基づいて、前記話者が認証不可であると判定した場合、前記第1の発話区間と異なる第2の発話区間を検出し、
     前記第1の発話区間および前記第2の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
     認証方法。
     
PCT/JP2022/032468 2021-09-27 2022-08-29 認証装置および認証方法 WO2023047893A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280065297.2A CN118043886A (zh) 2021-09-27 2022-08-29 认证装置和认证方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-157045 2021-09-27
JP2021157045 2021-09-27

Publications (1)

Publication Number Publication Date
WO2023047893A1 true WO2023047893A1 (ja) 2023-03-30

Family

ID=85720540

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032468 WO2023047893A1 (ja) 2021-09-27 2022-08-29 認証装置および認証方法

Country Status (2)

Country Link
CN (1) CN118043886A (ja)
WO (1) WO2023047893A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム
WO2020246041A1 (ja) * 2019-06-07 2020-12-10 日本電気株式会社 音声処理装置、音声処理方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム
WO2020246041A1 (ja) * 2019-06-07 2020-12-10 日本電気株式会社 音声処理装置、音声処理方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO, XU ET AL.: "2-Q-15 Speaker Verification Based on Score Integration in Environments with Mixed Speakers", PROCEEDINGS OF THE 2018 AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; OITA, JAPAN; SEPTEMBER 12-14, 2018, vol. 2018, 29 August 2018 (2018-08-29) - 14 September 2018 (2018-09-14), pages 1077 - 1080, XP009545078 *
SONG, YUJIN; SHIOTA, SAYAKA; TAKAMICHI, SHINNOSUKE; MURAKAMI, DAISUKE; MATSUI, TOMOKO; SARUWATARI, HIROSHI: "A study on the effects of voice processing for speaker verification using short utterances", INFORMATION PROCESSING SOCIETY OF JAPAN RESEARCH REPORT, vol. 2021-SLP-136, no. 29, 24 February 2021 (2021-02-24), pages 1 - 6, XP009545085 *

Also Published As

Publication number Publication date
CN118043886A (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
JP7384877B2 (ja) コロケーション情報を使用した話者照合
CN111566729B (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
US11735191B2 (en) Speaker recognition with assessment of audio frame contribution
Reynolds An overview of automatic speaker recognition technology
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
KR20200012963A (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
JP5311348B2 (ja) 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム
US9911411B2 (en) Rapid speech recognition adaptation using acoustic input
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
KR20170007107A (ko) 음성인식 시스템 및 방법
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
WO2018216180A1 (ja) 音声認識装置および音声認識方法
WO2017113370A1 (zh) 声纹检测的方法和装置
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
WO2023047893A1 (ja) 認証装置および認証方法
Ismail Emirati speaker verification based on HMMls, HMM2s, and HMM3s
JP2000250593A (ja) 話者認識装置及び方法
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
WO2023228542A1 (ja) 認証システムおよび認証方法
KR20060064493A (ko) 음성 인터페이스 시스템 및 방법
WO2023100905A1 (ja) 認証装置および認証方法
Phyu et al. Text Independent Speaker Identification for Myanmar Speech
WO2023100960A1 (ja) 認証装置および認証方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22872649

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023549434

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE