WO2023101000A1 - 音声登録装置および音声登録方法 - Google Patents

音声登録装置および音声登録方法 Download PDF

Info

Publication number
WO2023101000A1
WO2023101000A1 PCT/JP2022/044488 JP2022044488W WO2023101000A1 WO 2023101000 A1 WO2023101000 A1 WO 2023101000A1 JP 2022044488 W JP2022044488 W JP 2022044488W WO 2023101000 A1 WO2023101000 A1 WO 2023101000A1
Authority
WO
WIPO (PCT)
Prior art keywords
registered
registration
speech
signal
progress
Prior art date
Application number
PCT/JP2022/044488
Other languages
English (en)
French (fr)
Inventor
慎太郎 岡田
鉄平 福田
正成 宮本
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2023101000A1 publication Critical patent/WO2023101000A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Definitions

  • the present disclosure relates to a voice registration device and a voice registration method.
  • Patent Document 1 discloses that the total acquisition time length of a telephone number in a telephone directory and at least one or more pieces of voiceprint data corresponding to the same telephone number as the acquired telephone number is longer than the time required for voiceprint collation. Also disclosed is a communication device that associates and stores the acquired telephone number and voiceprint data when it is determined that the number is too long. The communication device acquires the received voice, extracts voiceprint data from the acquired received voice, measures the acquisition time of the received voice, and if the acquired phone number is in the phone book, stores the acquired phone number and the extracted voiceprint. Data are stored in association with each other.
  • Patent Document 1 discloses that the total acquisition time length of a telephone number in a telephone directory and at least one or more pieces of voiceprint data corresponding to the same telephone number as the acquired telephone number is longer than the time required for voiceprint collation. Also disclosed is a communication device that associates and stores the acquired telephone number and voiceprint data when it is determined that the number is too long. However, the communication device described above picks up the uttered voice (voiceprint data) based on the operation of the speaker himself/herself. When it is determined that the time is longer than the necessary time, the speaker is requested to select whether or not to register the voiceprint data. Therefore, if the total acquisition time length of the voiceprint data is shorter than the time required for voiceprint collation, or if the speaker selects not to register the voiceprint data, the communication device stores new voiceprint data. I had a problem that I could't do it.
  • a method of registering voiceprint data there is a method of extracting only the voice of the speaker from the voice of the call between the speaker and the operator and storing the extracted voice of the speaker as voiceprint data.
  • the operator does not know in real time the registration status of the currently acquired and stored voiceprint data of the speaker. There was a possibility that sufficient voiceprint data could not be acquired and registered.
  • the present disclosure has been devised in view of the conventional situation described above, and provides an utterance voice registration device and utterance voice registration that notifies the current registration status of a utterance voice signal in real time and supports the registration work of the utterance voice signal performed by an operator.
  • the purpose is to provide a method.
  • the present disclosure includes an acquisition unit that acquires an audio signal of an uttered voice of a speaker and speaker information that can identify the speaker, and a database in which the acquired audio signal and the speaker information are associated with each other.
  • a registration unit for registration a progress determination unit for repeatedly determining a registration progress of an audio signal to be registered in the database with respect to a registration target amount of the audio signal to be registered in the database, and the determined registration progress and a notification unit that notifies of the voice registration device.
  • the present disclosure is a voice registration method performed by one or more computers, which acquires a voice signal of an uttered voice of a speaker and speaker information capable of identifying the speaker, and acquires the acquired voice signal and the speaker information are associated with each other and registered in a database, and the registration progress of the speech signal registered in the database is repeatedly determined with respect to the registration target amount of the speech signal registered in the database, and the determined Provided is a voice registration method for notifying the registration progress.
  • the current registration status of speech audio signals is notified in real time to support the registration work of speech audio signals performed by the operator.
  • FIG. 5 is a diagram for explaining an example of emotion identification processing according to the first embodiment; Diagram for explaining an example of registration of an utterance audio signal Diagram showing an example of a call between an operator and a user Diagram for explaining an example of speech rate conversion processing Flowchart for explaining an example of voice registration processing according to Embodiment 1 Flowchart for explaining an example of voice registration processing according to Embodiment 1 A diagram explaining an example of a progress notification screen for a new user Diagram explaining an example of the progress notification screen for registered users Diagram explaining an example of the progress notification screen for registered users Block diagram showing an internal configuration example of an authentication analysis device according to Embodiment 2 Diagram for explaining an example of speaker switching identification processing FIG.
  • FIG. 5 is a diagram for explaining an example of emotion identification processing according to the second embodiment; Flowchart for explaining an example of voice registration processing in the second embodiment Flowchart for explaining an example of voice registration processing in the second embodiment Block diagram showing an internal configuration example of an authentication analysis device according to Embodiment 3
  • FIG. 11 is a diagram for explaining an example of progress determination processing according to the third embodiment; Flowchart showing an example of the operation procedure of the authentication analysis device according to Embodiment 3 Diagram explaining an example of the question example screen A diagram explaining an example of a user progress notification screen A diagram explaining an example of a user progress notification screen
  • Patent Document 1 discloses that the total acquisition time length of a telephone number in a telephone directory and at least one or more pieces of voiceprint data corresponding to the same telephone number as the acquired telephone number is longer than the time required for voiceprint collation. Also disclosed is a communication device that associates and stores the acquired telephone number and voiceprint data when it is determined that the number is too long. However, since the communication device described above collectively stores one or more voiceprint data used for voiceprint verification for each speaker, voiceprint verification is performed using the received voice when the speaker is emotionally agitated. In such a case, there is a possibility that the individuality of the speaker included in the voiceprint data may vary due to emotions, and the accuracy of matching the voiceprint of the speaker may decrease.
  • FIG. 1 is a diagram showing an example of a use case of voice authentication system 100 according to Embodiment 1. As shown in FIG.
  • the voice authentication system 100 acquires a voice signal or voice data of a person (user US in the example shown in FIG. 1) who is a voice authentication target, and stores the acquired voice signal or voice data for each user US (see FIG. 1). 1, it is registered (stored) in the registered speaker database (DB).
  • DB registered speaker database
  • the voice authentication system 100 acquires a voice signal or voice data of a person (user US in the example shown in FIG. 1) who is a voice authentication target, and stores the acquired voice signal or voice data in advance (see FIG. 1). 1, a plurality of speech signals or speech data registered (stored) in the registered speaker database (DB) are collated.
  • the voice authentication system 100 evaluates the degree of similarity between the user to be voice-authenticated and the voice signal or voice data registered in the storage based on the matching result, and authenticates the user US based on the evaluated similarity. do.
  • the voice authentication system 100 includes at least an operator-side call terminal OP1, an authentication analysis device P1, a registered speaker database DB, and an information display section DP.
  • the authentication analysis device P1 and the registered speaker database DB may be configured integrally.
  • the authentication analysis device P1 and the information display section DP may be configured integrally.
  • the voice authentication system 100 shown in FIG. 1 shows an example of being used for authentication of a speaker (user US) in a call center as an example. Authenticate user US.
  • the voice authentication system 100 shown in FIG. 1 further includes a user-side call terminal UP1 and a network NW. Needless to say, the overall configuration of the voice authentication system 100 is not limited to the example shown in FIG.
  • the user-side call terminal UP1 is connected to the operator-side call terminal OP1 via the network NW so as to be capable of wireless communication.
  • the wireless communication here is communication via a wireless LAN (Local Area Network) such as Wi-Fi (registered trademark).
  • the user-side call terminal UP1 is realized by, for example, a notebook PC, tablet terminal, smartphone, telephone, or the like.
  • the user-side call terminal UP1 is a sound collecting device equipped with a microphone (not shown). Send to the call terminal OP1.
  • the user-side telephone terminal UP1 acquires an audio signal of the operator's OP's uttered voice transmitted from the operator-side telephone terminal OP1, and outputs it from a speaker (not shown).
  • the network NW is an IP network or a telephone network, and connects the user-side telephone terminal UP1 and the operator-side telephone terminal OP1 so that voice signals can be transmitted and received. Data transmission/reception is performed by wired communication or wireless communication.
  • the wireless communication here is communication via a wireless LAN such as Wi-Fi (registered trademark).
  • the operator-side call terminal OP1 is connected to the user-side call terminal UP1 and the authentication analysis device P1 so as to be able to transmit and receive data through wired communication or wireless communication, respectively, and transmits and receives audio signals.
  • the operator-side call terminal OP1 is realized by, for example, a notebook PC, tablet terminal, smartphone, telephone, or the like.
  • the operator-side call terminal OP1 acquires a voice signal based on the user US's uttered voice transmitted from the user-side call terminal UP1 via the network NW, and transmits the voice signal to the authentication analysis device P1.
  • the operator-side call terminal OP1 acquires a voice signal including the acquired speech voice of the user US and the voice of the operator OP
  • the sound pressure level and frequency band of the voice signal of the operator-side call terminal OP1 A speech signal based on the uttered voice of the user US and a speech signal based on the uttered voice of the operator OP may be separated based on voice parameters such as . After the separation, the operator-side call terminal OP1 extracts only the voice signal based on the voice uttered by the user US and transmits it to the authentication analysis device P1.
  • the operator-side call terminal OP1 may be connected to each of a plurality of user-side call terminals so as to be able to communicate with each other, and simultaneously acquire voice signals from each of the plurality of user-side call terminals.
  • the operator-side call terminal OP1 transmits the acquired voice signal to the authentication analysis device P1.
  • the voice authentication system 100 can simultaneously execute voice authentication processing and voice analysis processing for each of a plurality of users.
  • the operator-side call terminal OP1 may simultaneously acquire voice signals including speech voices of a plurality of users.
  • the operator-side call terminal OP1 extracts a voice signal for each user from voice signals of a plurality of users acquired via the network NW, and transmits the voice signal for each user to the authentication analysis device P1.
  • the operator-side call terminal OP1 may analyze the voice signals of a plurality of users, and separate and extract the voice signals for each user based on voice parameters such as sound pressure level and frequency band. .
  • the voice signal is picked up by an array microphone or the like, the operator-side call terminal OP1 may separate and extract the voice signal for each user based on the direction of arrival of the uttered voice.
  • the voice authentication system 100 can perform voice authentication processing and voice analysis processing for each of a plurality of users, even for voice signals collected in an environment where multiple users speak at the same time, such as a Web conference. can.
  • the authentication analysis device P1 which is an example of a computer, is connected to the operator side call terminal OP1, the registered speaker database DB, and the information display section DP so that data can be exchanged. Note that the authentication analysis device P1 may be connected to the operator-side call terminal OP1, the registered speaker database DB, and the information display unit DP via a network (not shown) so as to be capable of wired communication or wireless communication. .
  • the authentication analysis device P1 acquires the voice signal of the user US transmitted from the operator-side call terminal OP1, and detects the speech period during which the user US speaks from the acquired voice signal.
  • the authentication analysis device P1 identifies the emotion of the user US included in the detected speech signal of each speech period (hereinafter referred to as "speech speech signal"), and extracts the speech speech signal for each identified emotion.
  • the authentication analysis device P1 registers (stores) in the registered speaker database DB an extracted utterance voice signal for each emotion in association with the telephone number of the user side telephone terminal UP1.
  • the authentication analysis device P1 determines that the telephone number of the user-side call terminal UP1 is already registered in the registered speaker database DB, the authentication analysis device P1 acquires the speech signal associated with this telephone number. updated to the new speech signal. Further, when the authentication analysis device P1 determines that the telephone number of the user side call terminal UP1 is not a telephone number already registered in the registered speaker database DB, this telephone number and the acquired utterance voice for each emotion Register in association with the signal.
  • a phone number is used for identification processing of the user-side call terminal UP1 (that is, the user US). or when the user US and the operator OP make a call using the web conference system, the IP (Internet Protocol) address or the like of the user side call terminal UP1 may be used instead of the telephone number. .
  • IP Internet Protocol
  • the authentication analysis device P1 acquires the user US's utterance voice signal transmitted from the operator-side telephone terminal OP1, analyzes the voice for each frequency, for example, and extracts the user US's individual utterance feature quantity.
  • the authentication analysis device P1 refers to the registered-speaker database DB, compares each of the plurality of users registered in advance in the registered-speaker database DB with the extracted utterance feature amount, and Perform voice authentication of user US.
  • the authentication analysis device P1 generates an authentication result screen SC including the user authentication result, and transmits it to the information display section DP for output. It goes without saying that the authentication result screen SC shown in FIG. 1 is an example and is not limited to this.
  • the authentication result screen SC shown in FIG. 1 includes a message “Mr.
  • a registered speaker database DB as an example of a database is a so-called storage, and is configured using a storage medium such as a flash memory, HDD (Hard Disk Drive), or SSD (Solid State Drive).
  • the registered speaker database DB stores (registers) user information of a plurality of users and utterance feature amounts in association with each other.
  • the user information here is information about the user, and includes, for example, a user name, a user ID (Identification), identification information assigned to each user, and the like.
  • the registered speaker database DB may be configured integrally with the authentication analysis device P1.
  • the registered speaker database DB associates an utterance voice signal for each emotion of the user US with the telephone number of the user US, and creates a first emotion database DB1 and a second emotion database DB2 corresponding to the emotion of the utterance voice signal. , .
  • the number of emotion databases in the registered speaker database DB may be one or more.
  • the information display unit DP is configured using, for example, an LCD (Liquid Crystal Display) or an organic EL (Electroluminescence) display, and displays the authentication result screen SC transmitted from the authentication analysis device P1.
  • LCD Liquid Crystal Display
  • organic EL Electrode
  • the user-side call terminal UP1 picks up the speech voice COM 12 of the user US "It's XXOO" and the speech voice COM 14 "It's 123245678", converts it into a speech voice signal, It is transmitted to the operator side communication terminal OP1.
  • the operator-side telephone terminal OP1 transmits, to the authentication analysis device P1, utterance voice signals based on the utterance voices COM12 and COM14 of the user US transmitted from the user-side telephone terminal UP1.
  • the operator-side call terminal OP1 picks up the operator OP's speech COM11 "Please tell me your name", the speech speech COM13 "Please tell me your membership number”, and the speech speech COM12 and COM14 of the user US.
  • the voice signals are obtained, the voice signals based on the uttered voices COM11 and COM13 of the operator OP are separated and removed, and only the voice signals based on the uttered voices COM12 and COM14 of the user US are extracted, It is transmitted to the authentication analysis device P1.
  • the authentication analysis device P1 can improve the accuracy of user authentication by using only the voice signal of the person who is the target of voice authentication.
  • FIG. 2 is a block diagram showing an example internal configuration of the authentication analysis device P1 according to the first embodiment.
  • the authentication analysis device P1 includes at least a communication unit 20, a processor 210, and a memory 22. As shown in FIG.
  • the communication unit 20 which is an example of an acquisition unit, connects each of the operator side call terminal OP1 and the registered speaker database DB so that data communication is possible.
  • the communication unit 20 outputs to the processor 210 the voice signal transmitted from the operator side telephone terminal OP1.
  • the processor 210 uses a semiconductor chip on which at least one of electronic devices such as a CPU (Central Processing Unit), a DSP (Digital Signal Processor), a GPU (Graphical Processing Unit), and an FPGA (Field Programmable Gate Array) is mounted. Configured.
  • the processor 210 functions as a controller that governs the overall operation of the authentication analysis device P1, performs control processing for supervising the operation of each section of the authentication analysis device P1, and inputs and outputs data to and from each section of the authentication analysis device P1. processing, arithmetic processing of data and storage processing of data.
  • the processor 210 uses programs and data stored in a ROM (Read Only Memory) 22A of the memory 22 to perform an utterance segment detection unit 21A, an utterance linking unit 21B, a feature amount extraction unit 21C, a similarity calculation unit 21D, an emotion It implements the functions of the identification unit 21E, the database registration unit 21F, and the progress determination unit 21G.
  • the processor 210 uses a RAM (random access memory) 22B of the memory 22 during operation, and temporarily stores data or information generated or obtained by the processor 210 and each unit in the RAM 22B of the memory 22 .
  • the processor 210 acquires the telephone number (caller number) of the user-side call terminal UP1, and compares the acquired telephone number with the telephone numbers of a plurality of user-side call terminals registered in the registered speaker database DB. to identify the user-side call terminal UP1 (that is, the user US).
  • the processor 210 performs update processing ( In other words, registration processing of a new utterance voice signal) is executed, and if the user US cannot be specified, new registration processing of the phone number of the user US and the utterance voice signal used for user authentication is executed. .
  • the processor 210 generates progress notification screens DP11, DP12A, and DP12B (see FIGS. 9 to 11) for notifying the operator OP of the progress of the registration processing of the speech signal, and outputs them to the information display section DP.
  • the speech period detection unit 21A analyzes the acquired audio signal and detects the speech period in which the user US is speaking.
  • the speech period detection unit 21A outputs a speech audio signal corresponding to each speech period detected from the audio signal to the speech connection unit 21B or the feature quantity extraction unit 21C.
  • the speech period detection unit 21A may temporarily store the speech audio signal of each speech period in the RAM 22B of the memory 22.
  • the utterance connection unit 21B connects the utterance audio signals of these utterance periods.
  • the speech connection unit 21B outputs the speech audio signal after connection to the feature quantity extraction unit 21C. A user authentication method will be described later.
  • the feature quantity extraction unit 21C analyzes the features of the individual's speech, for example, for each frequency, using one or more speech audio signals extracted by the speech period detection unit 21A, and extracts the speech feature quantity. Note that the feature amount extraction unit 21C may extract the speech feature amount of the speech signal output from the speech connection unit 21B. The feature amount extraction unit 21C associates the extracted utterance feature amount with the utterance audio signal from which the utterance feature amount is extracted, and outputs the result to the similarity calculation unit 21D or temporarily stores it in the RAM 22B of the memory 22. or
  • the similarity calculation unit 21D acquires the utterance feature amount of the utterance audio signal output from the feature amount extraction unit 21C.
  • the similarity calculation unit 21D refers to the registered-speaker database DB, and calculates the similarity between the utterance feature amount of each of the plurality of users registered in the registered-speaker database DB and the acquired utterance feature amount after connection. Calculate Based on the calculated similarity, the similarity calculator 21D identifies the user corresponding to the speech signal and performs user authentication.
  • the similarity calculation unit 21D When it is determined that a user has been specified as a result of user authentication, the similarity calculation unit 21D generates an authentication result screen SC including information (that is, authentication result) about the specified user, and displays the display I/F (inter 23 to the information display unit DP.
  • the similarity calculation unit 21D determines that the calculated similarity is less than the predetermined value, the similarity calculation unit 21D determines that the user cannot be authenticated, and issues a control command requesting the speech connection unit 21B to connect the speech signal. Generate and output. Further, the similarity calculation unit 21D determines that an upper limit is set for the number of times of user authentication in user authentication for the same person (user US), and that the number of times that user authentication is not possible is equal to or greater than the upper limit. In this case, an authentication result screen (not shown) for notifying that user authentication is not possible may be generated and output to the information display section DP.
  • the emotion identification unit 21E analyzes the speech signal detected by the speech period detection unit 21A using the emotion model stored in the memory 22, and determines the emotion of the user US corresponding to the speech signal (for example, normal, angry, (excitement, tension, depression, etc.).
  • the emotion identification unit 21E combines voice utterance signals for each identified emotion, and outputs them to the database registration unit 21F.
  • the emotion identification unit 21E may be configured separately from the authentication analysis device P1.
  • the database registration unit 21F associates the telephone number of the user-side call terminal UP1 with the speech utterance signal for each emotion output from the emotion identification unit 21E, and registers the first registered speaker database DB corresponding to each emotion. , second emotion database DB2, . . . , Nth emotion database DBN.
  • the progress determination unit 21G determines the progress of the registration processing of the utterance voice signal registered in the registered speaker database DB by the database registration unit 21F.
  • the degree of progress of the registration process here means the number of types of sounds required for user authentication using the spoken voice signal, the speech length (in other words, the length of the spoken voice signal), and other registration target data amounts. This is the ratio (progress) of the current registration processing, such as the type of sound of the user US's utterance voice signal registered in the DB, the length of the utterance, and the like.
  • the memory 22 includes, for example, a ROM 22A that stores a program defining various processes performed by the processor 210 and data used during execution of the program, and a work memory that is used when executing the various processes performed by the processor 210. and a RAM 22B.
  • the ROM 22A stores a program defining various processes to be performed by the processor 210 and data used during execution of the program.
  • the RAM 22B stores data or information generated or acquired by the processor 210 (for example, speech audio signals before connection, speech audio signals after connection, utterance feature amounts corresponding to each utterance interval before or after connection, etc.). Temporarily saved.
  • the display I/F 23 connects the processor 210 and the information display unit DP for data communication, and outputs the authentication result screen SC generated by the similarity calculation unit 21D of the processor 210 to the information display unit DP.
  • FIG. 3 is a diagram for explaining an example of emotion identification processing according to the first embodiment.
  • FIG. 4 is a diagram for explaining an example of registration of an utterance voice signal. It should be noted that the emotion identification processing method described with reference to FIGS. 3 and 4 may also be similarly executed by emotion identification section 21E in the second embodiment.
  • Emotion 1 corresponds to the emotion of the speech signal registered (stored) in the first emotion database DB1.
  • Emotion 2 corresponds to the emotion of the speech voice signal registered (stored) in the second emotion database DB2.
  • the emotion identification unit 21E extracts the sections (time zones) of the utterance voice signal containing the respective emotions of "emotion 1" and "emotion 2" corresponding to each emotion database of the registered speaker database DB.
  • the emotion identification unit 21E analyzes the emotion of the user US included in the speech signal, and the emotion of the speech signal that is equal to or greater than the threshold Th1 is "emotion 2". Each emotion in the signal is identified as "Emotion 1". Emotion identification unit 21E classifies the speech signal of time period PR11 from time t11 to time t12 and the speech audio signal of time period PR13 from time t13 to time t14 as “emotion 1" and from time t12 to The utterance voice signals of time zone PR12 up to time t13 are identified as "Emotion 2". The emotion identification unit 21E combines the speech signal of the time period PR11 and the speech signal of the time period PR13.
  • the database registration unit 21F registers (stores) the telephone number of the user US in the first emotion database DB1 in association with the utterance voice signals of the time period PR11 and the time period PR13 identified as "emotion 1". , and "emotion 2" in the time zone PR12 and the telephone number of the user US are associated with each other and registered (stored) in the second emotion database DB2.
  • the database registration unit 21F determines that there is a registered speech voice signal in the first emotion database DB1 or the second emotion database DB2, respectively, the registered speech voice signal is used for emotion identification. It overwrites (updates) the new speech signal output from the unit 21E.
  • the authentication analysis device P1 in Embodiment 1 can classify the user US's speech voice signal by emotion and register (store) it in the registered speaker database DB. Therefore, even if the personality of the speaker included in the speech signal varies due to the emotion of the user US during the call, the authentication analysis device P1 performs user authentication processing using the registered speech signal. In the above, it is possible to more effectively suppress a decrease in user authentication accuracy by using a speech signal identified as having an emotion similar to or the same as the emotion included in the acquired speech signal.
  • the authentication analysis device P1 overwrites (updates) the utterance voice signal registered (stored) in each emotion database with the newly acquired utterance voice signal, thereby including the latest individuality.
  • the user authentication process using the speech signal can improve the accuracy of user authentication and more efficiently suppress the occurrence of insufficient free space in the registered speaker database DB.
  • FIG. 5 is a diagram showing an example of a call between an operator OP and a user US.
  • FIG. 6 is a diagram for explaining an example of speech rate conversion processing. Note that the speech rate conversion processing example shown in FIG. 6 is merely an example, and the present invention is not limited to this.
  • the user-side call terminal UP1 receives the user US's speech Us11 "Hello”, speech Us12 “I don't know the password”, speech Us13 "My ID is 12345678", and speech Us14 "My name is XXOO". is picked up, converted into a voice signal, and transmitted to the operator side communication terminal OP1.
  • the operator-side call terminal OP1 picks up the operator OP's speech Op11 "How have you been?", speech Op12 "Yes, please tell me your ID,” and speech Op13 "Please tell me your name.” , is converted into an audio signal and transmitted to the user side telephone terminal UP1. Also, the operator-side telephone terminal OP1 acquires the voice signal transmitted from the user-side telephone terminal UP1 and transmits it to the authentication analysis device P1.
  • the speech period detection unit 21A in the authentication analysis device P1 detects the speech period of each of the user US's speech voices Us11 to Us14 from the audio signal transmitted from the operator side telephone terminal OP1.
  • the speech period detection unit 21A extracts a speech audio signal corresponding to each detected speech period.
  • the speech signal corresponding to the speech voice Us11 shown in FIG. "Utterance 3" and the speech audio signal corresponding to the speech audio Us14 are indicated as "Utterance 4", respectively.
  • the utterance period detection unit 21A performs voice analysis on the utterance voice signal of the user US used for registration (storage) in the registered speaker database DB, and determines the number of characters included in the utterance voice signal and the signal length of the utterance voice signal. (the number of seconds of speech) and the speed of speech of the speech signal are calculated.
  • speech rate 5.0 characters/second
  • speech rate 5
  • Speech speed conversion is performed to 0 character/second
  • speech speed conversion is performed for the speech audio signal of "Utterance 4" so that the number of seconds of speech is 2.4 seconds and the speech speed is 5.0 characters/second.
  • the speech speed of the speech signal may be calculated based on the number of characters and the number of seconds of speech obtained from the speech recognition result of the speech signal, or the number of moras, the number of syllables, or the number of types of sounds and the number of speech seconds It may be estimated based on the number of Alternatively, the speech speed of the speech signal may be estimated by direct arithmetic processing from the time component and frequency component of the speech signal.
  • the authentication analysis device P1 in the first embodiment uses the speech signal converted to the predetermined speech speed to perform the emotion identification processing of the user US included in the speech speech signal, and the speech speech to the registered speaker database DB.
  • the signal registration process and the like it is possible to realize the registration of the utterance voice signal that sufficiently includes the individuality necessary for the user authentication process for each emotion. Therefore, the authentication analysis device P1 can improve user authentication accuracy in user authentication processing.
  • FIG. 7 is a flowchart showing an example operation procedure of the authentication analysis device P1 according to the first embodiment.
  • FIG. 8 is a flow chart showing an example of the operation procedure of the authentication analysis device P1 according to the first embodiment.
  • the communication unit 20 in the authentication analysis device P1 acquires the voice signal (or voice data) of the call with the user side phone terminal UP1 transmitted from the operator side phone terminal OP1 (St11).
  • the communication unit 20 outputs the acquired audio signal to the processor 210 .
  • the communication unit 20 acquires the telephone number of the user-side telephone terminal UP1 transmitted from the operator-side telephone terminal OP1, and outputs it to the processor 210 (St12).
  • the telephone number referred to here may be the IP address of the user-side telephone terminal UP1 or the like.
  • the processor 210 collates the telephone number of the user-side telephone terminal UP1 output from the communication unit 20 with each of the telephone numbers of a plurality of user-side telephone terminals registered (stored) in the registered speaker database DB. It is determined whether or not the telephone number of the side call terminal UP1 has been registered in the registered speaker database DB, and a progress notification screen including the determination result is generated and output to the information display section DP for display (St12).
  • step St12 the processor 210 determined that the telephone number of the user-side telephone terminal UP1 has been registered in the registered speaker database DB (that is, has been registered in the registered speaker database DB).
  • a progress notification screen DP12A (see FIG. 10) containing information about the user US associated with the telephone number (for example, user US's name, address, age, etc.) is generated and output to the information display unit DP ( St12).
  • the processor 210 determines in the processing of step St12 that the telephone number of the user-side telephone terminal UP1 has not been registered in the registered speaker database DB (that is, is not registered in the registered speaker database DB)
  • a progress notification screen DP11 (see FIG. 9) for notifying that the number has not been registered is generated and output to the information display section DP (St12).
  • the processor 210 determines whether or not the operator OP has accepted an operation requesting the start of registration of the speech signal of the user US (that is, a registration start operation) (St13).
  • step St13 determines in the process of step St13 that the operator OP has received an operation requesting the start of registration of the uttered voice signal of the user US (that is, a registration start operation) (St13, YES), the registered speaker database DB Registration of the user US's speech voice signal to is started (St14).
  • step St13 determines in the process of step St13 that the operator OP has not received an operation requesting the start of registration of the uttered voice signal of the user US (that is, a registration start operation) (St13, NO), , returning to the process of step St13, it is determined whether or not the operator OP has received an operation requesting the start of registration of the speech signal of the user US (that is, a registration start operation).
  • the processor 210 receives a control command from the operator side telephone terminal OP1 to end the call between the user side telephone terminal UP1 and the operator side telephone terminal OP1, the processor 210 ends the operation procedure shown in FIG.
  • the speech period detection unit 21A in the processor 210 detects the speech period in which the user US is speaking from the voice signal of the user US transmitted from the operator-side telephone terminal OP1 (St15).
  • the processor 210 recognizes the number of characters included in the speech signal corresponding to the speech period.
  • the speech segment detection unit 21A calculates the speed of speech of the speech signal based on the number of characters whose speech has been recognized and the signal length of the speech signal (speech length, number of seconds of speech, etc.).
  • the processor 210 executes speech speed conversion processing on the speech signal and converts the speech speed of the speech signal to a predetermined speech speed (St16). Note that the processing of step St16 is not essential and may be omitted.
  • the processor 210 receives information on the detected speech period (for example, the start time and end time of the speech period, the number of characters, the signal length (speech voice length, the number of seconds of speech, etc.), the speech speed before or after the speech speed conversion. etc.) is recorded in the memory 22 (St17).
  • information on the detected speech period for example, the start time and end time of the speech period, the number of characters, the signal length (speech voice length, the number of seconds of speech, etc.), the speech speed before or after the speech speed conversion. etc.
  • the processor 210 analyzes and identifies the emotion of the user US included in the speech signal (St18). The processor 210 connects the identified speech audio signals for each emotion (St19).
  • the processor 210 determines (calculates) the degree of progress of the registration processing of the current speech signal with respect to the registration target data amount registered in the registered speaker database DB (St20).
  • the processor 210 generates registration progress information IN13 indicating the progress of registration processing of the current speech signal.
  • the processor 210 generates progress notification screens DP11 and DP12A (see FIGS. 9 and 10) including the registration progress information IN13, outputs them to the information display unit DP for display, and informs the operator OP of the progress determination result. is notified in real time (St21).
  • the processor 210 determines whether or not the current degree of progress is greater than or equal to the threshold (St22).
  • processor 210 determines in the process of step St22 that the current progress is equal to or greater than the threshold (St22, YES), it determines whether the user-side call terminal UP1 has a telephone number registered in the registered speaker database DB. (St23).
  • the processor 210 determines in the process of step St22 that the current progress is not equal to or greater than the threshold (St22, NO), it determines whether or not a control command requesting continuation of the registration process has been received ( St24).
  • step St24 determines in the process of step St24 that it has received a control command requesting continuation of the registration process based on the control command based on the operator OP operation transmitted from the operator-side telephone terminal OP1 (St24, YES), the process proceeds to step St15.
  • step St24 the processor 210 does not accept a control command requesting continuation of the registration process based on the control command based on the operator OP operation transmitted from the operator side telephone terminal OP1 (that is, If it is determined that a control command requesting cancellation or termination of the registration process has been received (St24, NO), the process proceeds to step St30, and the process of registering the acquired utterance voice signal in the registered speaker database DB is performed. Abort (that is, registration failure) (St30).
  • step St23 if the progress determination unit 21G determines that the telephone number is the user-side call terminal UP1 whose telephone number has been registered in the registered speaker database DB (St23, YES), the processor 210 proceeds to the registered speaker database.
  • the degree of similarity between the spoken voice signal registered in the DB and associated with the collated telephone number and the spoken voice signal obtained by the call is calculated (St25).
  • the processor 210 includes the utterance voice signal linked for each emotion by the emotion identification unit 21E and the emotion similar or identical to the emotion included in the utterance voice signal registered in the registered speaker database DB. Calculate the degree of similarity with the speech signal.
  • the processor 210 connects for each emotion.
  • the obtained speech voice signal is associated with the obtained telephone number of the user-side communication terminal UP1, and registered (stored) in each emotion database of the registered speaker database DB (St26), and registration processing of the speech voice signal is performed. Complete (St27).
  • the processor 210 determines whether or not the calculated similarity is greater than or equal to the threshold (St28).
  • the processor 210 determines in the process of step St28 that the calculated similarity is equal to or greater than the threshold (St28, YES)
  • the user-side call terminal UP1 currently registered (stored) in the registered speaker database DB It is determined whether or not to update (overwrite) the speech signal associated with the telephone number with the newly obtained speech signal by receiving the operator OP operation (St29).
  • the processor 210 determines in the process of step St28 that the calculated similarity is not equal to or greater than the threshold (St28, NO)
  • the speech signal registered in the registered speaker database DB and the acquired speech signal is the voice of a different user, and the process of registering the acquired utterance voice signal in the registered speaker database DB is stopped (that is, registration failure) (St30).
  • step St27 or step St30 the processor 210 generates a registration result screen (not shown) including the registration processing result of the utterance voice signal in the registered speaker database DB, and outputs and displays it on the information display unit DP. (St31).
  • the authentication analysis device P1 can classify the speech signal of the user US by emotion and register (store) it in the registered speaker database DB. Therefore, even if the individuality of the speaker included in the speech signal varies due to the emotion of the user US during the call, the authentication analysis device P1 performs user authentication processing using the registered speech signal. , user authentication accuracy can be further improved by using a speech signal identified as having an emotion similar to or identical to the emotion contained in the acquired speech signal.
  • FIG. 9 is a diagram illustrating an example of the new user's progress notification screen DP11.
  • the progress notification screen DP11 shown in FIG. 9 is an example, and needless to say, the present invention is not limited to this.
  • the progress notification screen DP11 is a screen for notifying the operator OP of the progress of the process of registering the utterance voice signal of the unregistered user-side telephone terminal UP1 (that is, the user US). It is displayed by the display unit DP.
  • the progress notification screen DP11 includes a user information field IN11, a registration name input field IF11, a voice signal graph IN12, registration progress information IN13, and a speaker registration button BT11.
  • the user information column IN11 includes information about the user US registered (stored) in association with the telephone number, IP address, etc. of the user-side call terminal UP1.
  • the user information column IN11 shown in FIG. 9 includes, for example, the telephone number of the user-side telephone terminal UP1, the caller number such as the IP address “ ⁇ - ⁇ - ⁇ ”, the telephone number of the user-side telephone terminal UP1.
  • Registration presence/absence information indicating whether or not the number has been registered “Not registered (new)”, User US name “None”, User US address “None”, User US age “None”, Speaker registration presence/absence It is generated including information such as the information "none".
  • the registered name input field IF11 is an input field that can accept an operator's operation for the user name registered in the registered speaker database DB.
  • the registered name input field IF11 may be able to input information about the user US included in the user information field IN11.
  • the speech signal graph IN12 displays the speech speech signal SG12 in the detected speech period, superimposed on the emotion identification result of the user US included in the speech speech signal SG12.
  • the registration progress information IN13 includes the progress IN131 of the registration processing of the current speech signal with respect to the registration target data amount registered in the registered speaker database DB, the number of types of sounds included in the speech signal "X", and the speech length. (signal length) each of "X";
  • the speaker registration button BT11 accepts an operation by the operator OP to start or stop the process of registering the speech signal in the registered speaker database DB.
  • the speaker registration button BT11 is operated by the operator OP to start the process of registering the speech signal in the registered speaker database DB. (that is, the registration processing of the utterance voice signal acquired from the user US) is executed.
  • the speaker registration button BT11 is operated by the operator OP to stop the process of registering the speech signal in the registered speaker database DB. Stop the registration processing of the speech voice signal acquired from the terminal UP1.
  • FIG. 10 is a diagram illustrating an example of the progress notification screen DP12A for registered users.
  • FIG. 11 is a diagram illustrating an example of the progress notification screen DP12B for registered users.
  • the progress notification screen DP12A shown in FIG. 10 and the progress notification screen DP12B shown in FIG. 11 are examples, and needless to say, the present invention is not limited to these.
  • the progress notification screen DP12A is a screen for notifying the operator OP of the progress of the registration processing of the utterance voice signal acquired from the user-side telephone terminal UP1 (that is, the user US) registered in the registered speaker database DB, It is generated by the processor 210 and displayed by the information display section DP.
  • the progress notification screen DP12A includes a user information field IN14, a registration name input field IF11, a voice signal graph IN15, registration progress information IN13, and a speaker registration button BT12.
  • the user information field IN14 includes information about the user US registered (stored) in association with the telephone number, IP address, etc. of the user-side telephone terminal UP1.
  • the user information column IN14 shown in FIG. Registration presence/absence information indicating whether or not the number has been registered "Registered”, user US name “ ⁇ ⁇ ", user US address " ⁇ ”, user US age “ ⁇ ” ”, speaker registration presence/absence information “yes”, and the like.
  • the speech signal graph IN15 displays the speech speech signal SG13 in the detected utterance period, superimposed on the emotion identification result of the user US included in the speech speech signal SG13.
  • the speaker registration button BT12 accepts an operation by the operator OP to start or stop the process of registering the speech signal in the registered speaker database DB.
  • the speaker registration button BT12 is operated by the operator OP to register the speech signal currently registered in the registered-speaker database DB when an operation to start the process of registering the speech signal in the registered-speaker database DB is accepted. is updated (overwritten) with the acquired speech signal.
  • the speaker registration button BT12 is used to register the speech signal in the registered speaker database DB when an operation to stop the registration process of the speech signal in the registered speaker database DB is received by the operator's OP operation. cancel.
  • the progress notification screen DP12B is generated by the processor 210 when it is determined that the speech signal acquired by the progress determination unit 21G has reached the registration target amount (the progress is equal to or greater than the threshold value), and the information display unit It is a screen displayed by DP.
  • the progress notification screen DP12B is generated to newly include update notification information IN16 in addition to various information included in the progress notification screen DP12A.
  • the update notification information IN16 may be generated when it is determined that the speech signal acquired by the progress determination unit 21G has reached the registration target amount (the progress is equal to or greater than the threshold),
  • the speaker registration button BT11 may be generated when an operation to start registration processing of the speech signal in the registered speaker database DB is accepted by the operator OP operation.
  • the update notification information IN16 consists of a message MSG11 ⁇ Mr. and a cancel button BT14.
  • the processor 210 updates the speech signal already registered in the registered speaker database DB to the acquired speech signal.
  • the authentication analysis device P1 includes the communication unit 20 (an example of an acquisition unit) that acquires an audio signal of an uttered voice of a speaker (that is, a user), and at least the speaker included in the audio signal.
  • An emotion identification unit 21E for identifying one emotion, and a database for registering voice signals (i.e., utterance voice signals) for each emotion in a registered speaker database DB (an example of a database) based on the identification result of the emotion identification unit 21E.
  • a registration unit 21F an example of a registration unit).
  • the authentication analysis device P1 in Embodiment 1 can classify the user US's speech voice signal by emotion and register (store) it in the registered speaker database DB. Therefore, even if the personality of the speaker included in the speech signal varies due to the emotion of the user US during the call, the authentication analysis device P1 performs user authentication processing using the registered speech signal. In the above, it is possible to more effectively suppress a decrease in user authentication accuracy by using a speech signal identified as having an emotion similar to or the same as the emotion included in the acquired speech signal.
  • the registered speaker database DB in the authentication analysis device P1 in the first embodiment includes a plurality of emotion databases corresponding to respective emotions (for example, the first emotion database DB1 and the second emotion database DB1 shown in FIG. 2).
  • the database registration unit 21F registers the voice signal for each emotion in the emotion database corresponding to the emotion.
  • the authentication analysis device P1 according to the first embodiment can manage voice signals for each emotion. Audio signals can be used. Therefore, the authentication analysis device P1 can improve user authentication accuracy.
  • the communication unit 20 in the authentication analysis device P1 according to Embodiment 1 acquires the uttered voice and the speaker information that enables identification of the speaker of the uttered voice.
  • the database registration unit 21F associates and registers the speech signal for each emotion with the speaker information in the emotion database corresponding to the emotion.
  • the authentication analysis device P1 in Embodiment 1 can manage the speech signal of the same speaker even when the speech signal of each emotion is registered in each emotion database.
  • the database registration unit 21F in the authentication analysis device P1 according to Embodiment 1 determines that there is speaker information identical to the acquired speaker information among the speaker information registered in the emotion database, , updates the voice signal of the same speaker information registered in the emotion database to the voice signal identified for each emotion.
  • the authentication analysis device P1 according to Embodiment 1 overwrites (updates) the newly acquired speech signal with the speech signal registered (stored) in each emotion database, thereby making the registered speaker database It is possible to more efficiently suppress the occurrence of insufficient free space in the DB.
  • the authentication analysis device P1 in Embodiment 1 determines that there is speaker information identical to the acquired speaker information among the speaker information registered in the emotion database by the database registration unit 21F, and a similarity calculator 21D for calculating the similarity between the speech signal of the same speaker information and the acquired speech signal.
  • the database registration unit 21F determines that the determined similarity is equal to or greater than the threshold, the database registration unit 21F updates the voice signal registered in the emotion database to the identified voice signal.
  • the authentication analysis device P1 in the first embodiment associates speaker information determined to be the same speaker based on the degree of similarity, and registered (stored) in each emotion database. can be overwritten (updated) with the newly acquired speech signal.
  • the database registration unit 21F in the authentication analysis device P1 according to Embodiment 1 determines that the calculated similarity is not equal to or greater than the threshold value, it omits the update of the voice signal registered in the emotion database.
  • the authentication analysis device P1 according to the first embodiment overwrites (updates) the utterance voice signal registered (stored) in each emotion database. Can be omitted.
  • the database registration unit 21F in the authentication analysis device P1 according to Embodiment 1 determines that there is no speaker information identical to the acquired speaker information among the speaker information registered in the emotion database, , registering the speech signals identified for each emotion in the corresponding emotion database.
  • the authentication analysis apparatus P1 according to the first embodiment determines that the utterance voice signal of the same speaker is not registered based on the degree of similarity, the acquired utterance voice signal for each emotion is It can be registered (stored) in each emotion database as a new utterance voice signal of the speaker.
  • the authentication analysis device P1 in Embodiment 1 further includes the speech period detection unit 21A (an example of a conversion unit) that converts the voice signal acquired by the communication unit 20 into a predetermined speech speed.
  • the speech period detection unit 21A identifies an emotion using the speech signal converted to the predetermined speech speed.
  • the authentication analysis apparatus P1 according to Embodiment 1 can improve the accuracy of user authentication by converting the speech speed to a predetermined speech speed even when the speech speed of the speaker varies.
  • the speaker information is the telephone number of the user-side call terminal UP1 (an example of a sound collection device) that collects the uttered voice.
  • the authentication analysis device P1 in Embodiment 1 can more effectively suppress spoofing by other speakers.
  • Patent Document 1 discloses that the total acquisition time length of a telephone number in a telephone directory and at least one or more pieces of voiceprint data corresponding to the same telephone number as the acquired telephone number is longer than the time required for voiceprint collation. Also disclosed is a communication device that associates and stores the acquired telephone number and voiceprint data when it is determined that the number is too long. However, even with the same telephone number, for example, the speaker corresponding to the telephone number and the voiceprint data of the speaker other than the speaker may alternately speak. In such a case, since the telephone device stores voiceprint data of a plurality of different speakers in association with the obtained telephone numbers, there is a possibility that voiceprint verification accuracy will decrease during voiceprint verification.
  • FIG. 12 is a block diagram showing an example internal configuration of the authentication analysis device P1A according to the second embodiment.
  • the authentication analysis device P1A is an example of a computer, detects a change of the speaker during a call, and detects the speech voice of the user US who is to be registered in the registered speaker database DB from the speech voice signal. Extract the signal.
  • the authentication analysis device P1A analyzes and identifies emotions included in the extracted speech signal of the user US, and registers (stores) the speech signal for each identified emotion in the corresponding emotion database.
  • the processor 211 of the authentication analysis device P1A according to Embodiment 2 includes an utterance segment detection unit 21A, an utterance linking unit 21B, a feature amount extraction unit 21C, a similarity calculation unit 21D, an emotion identification unit 21E, a database registration unit 21F, and a progress determination unit. It implements the functions of the section 21G and the speaker switching identifying section 21H.
  • the speaker switching identification unit 21H is a most recent concatenated signal obtained by concatenating each of a plurality of recently detected speech audio signals transmitted from the operator-side telephone terminal OP1 and detected by the speech period detection unit 21A. to generate The speaker switching identification unit 21H determines the degree of similarity between the generated most recent connection signal and the uttered voice signal of the user US registered in the registered speaker database DB. The speaker switching identification unit 21H repeats the process of generating the most recent connection signal and the process of determining the degree of similarity, and determines the switching of the speaker based on the determined degree of similarity or the change in the degree of similarity. do.
  • the speaker switching identification unit 21H extracts the speech signal of the user US whose speech signal is to be registered in the registered speaker database DB, based on the timing at which the speaker switching is determined, and extracts the extracted speech signal.
  • a long-time concatenated signal is generated by concatenating all the utterance voice signals, and is output to the database registration unit 21F.
  • the database registration unit 21F is based on the long-time concatenated signal output from the speaker switching identification unit 21H and the emotion identification result of the speech audio signal corresponding to each utterance interval output from the emotion identification unit 21E. , register (store) the speech signal in each emotion database of the registered speaker database DB.
  • FIG. 13 is a diagram for explaining an example of speaker switching identification processing. Note that the speaker switching identification process described in FIG. 13 is an example and is not limited to this. For example, the number of speech audio signals included in the nearest connected signal is not limited to three.
  • the user A is the owner of the user-side telephone terminal UP1.
  • user A who owns user-side telephone terminal UP1, hands user-side telephone terminal UP1 to user B during a call with operator OP.
  • the voice signal transmitted from the operator-side telephone terminal OP1 is switched from user A's utterance voice to user B's utterance voice.
  • Each of the speech audio signals Us21, Us22, Us23, Us24, and Us25 is the speech audio signal of user A.
  • Each of “utterance A1” to “utterance A5” corresponding to each of the utterance audio signals Us21 to Us25 indicates the utterance audio signal of each utterance period detected by the utterance period detecting section 21A.
  • Each of the speech audio signals Us31, Us32, Us33, and Us34 is the speech audio signal of User B.
  • “Utterance B1” to “Utterance B4” corresponding to each of the utterance audio signals Us31 to Us34 respectively indicate the utterance audio signal detected by the utterance period detection section 21A.
  • the speech segment detection unit 21A in the authentication analysis device P1 detects the speech segments "utterance A1" to "utterance A5" of the user A and the user B and the speech segments "utterance B1" to " Utterance B4” is detected respectively.
  • the processor 211 registers the user A's speech signal in the registered speaker database DB at the timing when it determines that an operation requesting start of registration of the user A's speech signal (that is, a registration start operation) has been received by the operator OP. to start.
  • the processor 211 collates the telephone number of the user-side telephone terminal UP1 transmitted from the operator-side telephone terminal OP1 with the respective telephone numbers of the plurality of user-side telephone terminals registered in the registered speaker database DB, The user A who owns the telephone terminal UP1 is specified.
  • the speaker switching identifying unit 21H stores the most recently connected signal ML11, which is obtained by connecting each of the three utterance segments "utterance A2" to "utterance A4" detected most recently by the utterance segment detection unit 21A, and the registered speaker database DB. The degree of similarity with the registered utterance voice signal of user A is determined. At this time, the most recent concatenated signal ML11 is composed entirely of user A's uttered voice, and the degree of similarity is equal to or greater than the predetermined threshold. ” is determined.
  • the speaker change identification unit 21H records in the memory 22 the most recent concatenated signal ML11 used for the first similarity determination and the first similarity determination in association with each other.
  • the speaker switching identification unit 21H generates a latest connection signal ML12 obtained by connecting each of the three utterance segments "utterance A3" to "utterance A5" detected most recently by the utterance segment detection unit 21A, and a registered speaker database DB. The degree of similarity with the registered utterance voice signal of user A is determined. At this time, the most recent concatenated signal ML12 is composed entirely of user A's uttered voice, and the degree of similarity of the most recent concatenated signal ML12 is equal to or greater than the predetermined threshold. ” is determined.
  • the speaker change identification unit 21H records in the memory 22 the most recent concatenated signal ML12 used for the second similarity determination and the second similarity determination in association with each other.
  • the speaker switching identification unit 21H identifies the user-side call terminal UP1 based on the change in the similarity determined by the first similarity determination process and the similarity determined by the second similarity determination process. Determine whether or not the speaker has switched. Since the degree of similarity of the most recent concatenated signal ML11 is "high” and the degree of similarity of the most recent concatenated signal ML12 is also "high", the speaker switching identification unit 21H in FIG. It is determined that the speaker of the concatenated signal ML12 has not been switched.
  • the speaker switching identification unit 21H stores the most recently connected signal ML13, which is obtained by connecting each of the three utterance segments "utterance A4" to "utterance B1" detected most recently by the utterance segment detection unit 21A, and the registered speaker database DB. The degree of similarity with the registered utterance voice signal of user A is determined. At this time, the most recent concatenated signal ML13 is composed of the voices uttered by User A and User B, and the degree of similarity is less than the predetermined threshold. is determined as "low”.
  • the speaker change identification unit 21H records in the memory 22 the most recent concatenated signal ML13 used for the third similarity determination and the similarity determined for the third time in association with each other.
  • the speaker switching identification unit 21H identifies the user-side call terminal UP1 based on the change in the similarity determined by the second similarity determination process and the similarity determined by the third similarity determination process. Determine whether or not the speaker has switched. Since the similarity of the most recent concatenated signal ML12 is "high” and the reliability of the most recent concatenated signal ML13 is "low", the speaker switching identification unit 21H in FIG. It is determined that the speaker of the concatenated signal ML13 has been switched.
  • the speaker switching identification unit 21H generates a latest connection signal ML14 obtained by connecting each of the three utterance segments "utterance A5" to "utterance B2" detected most recently by the utterance segment detection unit 21A, and a registered speaker database DB. The degree of similarity with the registered utterance voice signal of user A is determined. At this time, the most recent connected signal ML14 is composed of the voices uttered by User A and User B, and the degree of similarity is less than the predetermined threshold. is determined as "low”.
  • the speaker change identification unit 21H records in the memory 22 the most recent concatenated signal ML14 used for the fourth similarity determination and the fourth similarity determination in association with each other.
  • the speaker switching identification unit 21H identifies the user-side call terminal UP1 based on the change in the similarity determined by the third similarity determination process and the similarity determined by the fourth similarity determination process. Determine whether or not the speaker has switched. Since the similarity of the most recent concatenated signal ML13 is "low” and the reliability of the most recent concatenated signal ML14 is also "low", the speaker switching identification unit 21H in FIG. It is determined that the speaker of the concatenated signal ML14 has not been switched.
  • the speaker switching identification unit 21H stores the most recently connected signal ML15 obtained by connecting each of the three utterance segments "utterance B1" to "utterance B3" detected most recently by the utterance segment detection unit 21A, and the registered speaker database DB. The degree of similarity with the registered utterance voice signal of user A is determined. At this time, since the most recent concatenated signal ML15 is composed entirely of user B's uttered voice and the degree of similarity is less than the predetermined threshold, the speaker switching identification unit 21H determines the similarity of the most recent concatenated signal ML15 to be "low.” ” is determined. The speaker change identification unit 21H records in the memory 22 the most recent connected signal ML15 used for the fifth similarity determination and the fifth similarity determination in association with each other.
  • the speaker switching identification unit 21H identifies the user-side call terminal UP1 based on the change in the similarity determined by the fourth similarity determination process and the similarity determined by the fifth similarity determination process. Determine whether or not the speaker has switched. Since the degree of similarity of the most recent concatenated signal ML14 is "low” and the degree of similarity of the most recent concatenated signal ML15 is "low", the speaker switching identification unit 21H in FIG. It is determined that the speaker of the concatenated signal ML15 is not switched.
  • the speaker switching identification unit 21H generates the most recently connected signal ML16 obtained by connecting each of the three utterance segments "utterance B2" to "utterance B4" detected most recently by the utterance segment detection unit 21A, and the registered speaker database DB. The degree of similarity with the registered utterance voice signal of user A is determined. At this time, since the most recent concatenated signal ML16 is composed entirely of user B's uttered voice and has a degree of similarity less than the predetermined threshold, the speaker switching identification unit 21H determines that the degree of similarity of the most recent concatenated signal ML16 is "low.” ” is determined. The speaker change identification unit 21H records in the memory 22 the most recent connected signal ML16 used for the sixth similarity determination and the similarity determined for the sixth time in association with each other.
  • the speaker switching identification unit 21H identifies the user-side call terminal UP1 based on the change in the similarity determined by the fifth similarity determination process and the similarity determined by the sixth similarity determination process. Determine whether or not the speaker has switched. Since the degree of similarity of the most recent concatenated signal ML15 is "low” and the degree of similarity of the most recent concatenated signal ML16 is also "low", the speaker switching identification unit 21H in FIG. It is determined that the speaker of the concatenated signal ML16 is not switched.
  • the speaker switching identification unit 21H Based on the determined similarity, the speaker switching identification unit 21H generates a long-time connected signal LT12 by connecting each of the utterance voice signals Us21 to Us25 up to the most recent connected signal ML12 determined to be user A. and output to the database registration unit 21F.
  • the database registration unit 21F stores the long-time connection signal LT12 output from the speaker switching identification unit 21H and the user-side call terminal UP1. It is registered (stored) in each emotion database of the registered speaker database DB in association with the telephone number.
  • the speaker switching identification unit 21H in Embodiment 2 performs Long-term concatenated signals LT11, LT12, LT13, LT14, LT15, LT16 may be generated by concatenating all speech signals up to the interval.
  • a long-term A connection signal may be generated and output to the database registration unit 21F.
  • FIG. 14 is a diagram for explaining an example of emotion identification processing according to the second embodiment.
  • the emotion identification processing method described with reference to FIG. 14 may be similarly executed by emotion identification section 21E in the first embodiment.
  • the emotion identification processing described in FIG. 14 is an example of distinguishing between an utterance voice signal containing emotion (that is, abnormal) and a utterance voice signal that does not contain emotion (that is, normal). is described, but is not limited to this.
  • the emotion identification unit 21E may identify a speech signal that includes a predetermined emotion (eg, anger) and a speech signal that does not include a predetermined emotion, or may identify two or more predetermined emotions. Speech signals that contain emotions (eg, anger, excitement) and speech signals that do not contain these two or more predetermined emotions may be identified.
  • the emotion identification section 21E may identify the emotion corresponding to each emotion database by further performing emotion identification processing on the speech signal that does not contain these two or more predetermined emotions.
  • the emotion identification unit 21E identifies the emotion of the user US from the acquired speech signal SG21, and determines the time zone PR22 of the speech signal containing emotion and the time zones PR21 and PR23 of the speech signal not containing emotion. Extract each and .
  • the emotion identification unit 21E analyzes the emotion of the user US included in the speech signal SG21, determines that the speech signal equal to or greater than the threshold Th2 contains emotion, and It is determined that an utterance voice signal that is less than does not contain emotion.
  • the emotion identification unit 21E classifies the speech signal of the time period PR21 from the time t41 to the time t42 and the speech signal of the time period PR23 from the time t43 to the time t44 as "no emotion",
  • the utterance voice signals of time period PR22 up to time t43 are each identified as "with emotion”.
  • Emotion identification unit 21E combines the speech signal of time period PR21 and the speech signal of time period PR23, and outputs the result to database registration unit 21F.
  • the database registration unit 21F associates the speech voice signal output from the emotion identification unit 21E with the telephone number of the user-side call terminal UP1, and registers (stores) them in the registered speaker database DB.
  • the authentication analysis device P1 can extract only an utterance voice signal (in FIG. 14, a utterance voice signal that does not contain emotion) more suitable for user authentication processing based on the emotion included in the utterance voice signal of the user US. can be extracted and registered (stored) in the registered speaker database DB. Therefore, even if the personality of the speaker included in the speech signal varies due to the emotion of the user US during the call, the authentication analysis device P1 performs user authentication processing using the registered speech signal. In this case, by using a speech voice signal that does not contain emotion, it is possible to more effectively suppress a decrease in user authentication accuracy.
  • the authentication analysis device P1 overwrites (updates) the utterance voice signal registered (stored) in the registered speaker database DB with the newly acquired utterance voice signal, thereby providing a more up-to-date individuality.
  • FIG. 15 is a flowchart for explaining an example of voice registration processing according to the second embodiment.
  • FIG. 16 is a flowchart for explaining an example of voice registration processing according to the second embodiment. 15 and 16, the description of the same processing as the operation procedure of the authentication analysis device P1 according to the first embodiment shown in FIGS. 7 and 8 will be omitted.
  • the processor 211 of the authentication analysis device P1A extracts the utterance feature quantity included in the utterance voice signal of each utterance section (St32).
  • the processor 211 generates a most recent concatenated signal by concatenating the respective utterance audio signals of several utterance periods detected most recently by the utterance period detection unit 21A.
  • the processor 211 collates the telephone number of the user-side telephone terminal UP1 with the respective telephone numbers of the plurality of user-side telephone terminals registered in the registered speaker database DB.
  • the processor 211 calculates the degree of similarity between the generated most recently connected signal and the utterance voice signal of each emotion associated with the same telephone number as the telephone number of the user-side telephone terminal UP1 in the registered speaker database DB as a result of collation. judge.
  • the processor 211 determines whether or not the speaker is switched (speaker switching identification) based on the determined similarity change (St33).
  • the processor 211 may omit the speaker switching identification process when the similarity determination process is performed for the first time.
  • the processor 211 associates an utterance voice signal whose degree of similarity is equal to or higher than the threshold with the telephone number of the user-side telephone terminal UP1, and registers (stores) it in each emotion database of the registered speaker database DB (St34). If the processor 211 determines in the process of step St34 that the determined similarity is not equal to or greater than the threshold, it omits the process of registering (storing) the utterance voice signal in each emotion database of the registered speaker database DB.
  • the processor 211 determines whether or not the registration of the speech signal of the registration target data amount has been completed in the registration speaker database DB (St35).
  • step St35 When the processor 211 determines in the process of step St35 that registration of the speech signal of the registration target data amount has been completed in the registered speaker database DB (St35, YES), the processor 211 completes the registration process of the speech signal (St36). .
  • step St35 determines in the process of step St35 that the registration of the target data amount of the speech signal to be registered in the registered speaker database DB has not been completed (St35, NO)
  • the processor 211 controls to request continuation of the registration process. It is determined whether or not the command has been received (St37).
  • step St37 determines in the process of step St37 that it has received a control command requesting continuation of the registration process based on the control command based on the operator OP operation transmitted from the operator-side telephone terminal OP1 (St37, YES), the process proceeds to step St15.
  • step St37 the processor 211 does not accept the control command requesting continuation of the registration process based on the control command based on the operator OP operation transmitted from the operator side telephone terminal OP1 (that is, If it is determined that a control command requesting cancellation or termination of the registration process has been received (St37, NO), the registration process of the acquired speech voice signal in the registered speaker database DB is stopped (i.e., registration failure). (St39).
  • step St36 or step St39 the processor 210 generates a registration result screen (not shown) including the registration processing result of the utterance voice signal in the registered speaker database DB, and outputs and displays it on the information display unit DP. (St38).
  • the authentication analysis device P1 in Embodiment 2 can register only speech signals more suitable for user authentication processing in the registered speaker database DB based on the presence or absence of emotion included in the user US's speech signals. Therefore, even if the personality of the speaker included in the speech signal varies due to the emotion of the user US during the call, the authentication analysis device P1 performs user authentication processing using the registered speech signal. can further improve user authentication accuracy.
  • the authentication analysis device P1A in Embodiment 2 includes the communication unit 20 (an example of an acquisition unit) that acquires the audio signal of the speaker's uttered voice, the speaker's first utterance period from the audio signal, the An utterance segment detection unit 21A (an example of a detection unit) that detects a second utterance segment different from the first utterance segment compares an audio signal in the first utterance segment with an audio signal in the second utterance segment. , a speaker switching identification unit 21H (an example of a detection unit) that detects switching from a speaker to another speaker (for example, switching from user A to user B shown in FIG. 13); and a database registration unit 21F (an example of a registration unit) that registers the voice signal of a speaker in a registered speaker database DB (an example of a database) based on detection of switching by the speaker switching identification unit 21H. .
  • the communication unit 20 an example of an acquisition unit
  • the An utterance segment detection unit 21A that detects a
  • the authentication analysis device P1A in the second embodiment can Based on the signal, speaker switching can be detected. Therefore, the authentication analysis device P1A can more effectively suppress erroneous registration in which speech signals of other speakers are mixed and overwritten with speech signals registered in the registered speaker database DB.
  • the authentication analysis device P1A in Embodiment 2 further includes a similarity calculation unit 21D that calculates the similarity between two different audio signals.
  • the communication unit 20 further acquires speaker information with which the speaker can be identified.
  • the similarity calculation unit 21D calculates an utterance voice signal (registered an example of a speech signal) is obtained, and a first degree of similarity between the registered speech signal and the first speech period and a second degree of similarity between the registered speech signal and the second speech period are calculated.
  • the speaker switching identification unit 21H detects switching from one speaker to another based on the change between the first similarity and the second similarity.
  • the authentication analysis device P1A based on the degree of similarity with the speech signal registered in the registered speaker database DB, and the speech signals of other speakers. Therefore, the authentication analysis device P1A can more effectively suppress erroneous registration in which the registered speech signal is mixed with the speech signal of another speaker or overwritten.
  • the speaker switching identification unit 21H in the authentication analysis device P1A according to the second embodiment detects switching from a speaker to another speaker when it determines that the degree of similarity is not equal to or greater than the threshold. As a result, the authentication analysis device P1A according to the second embodiment, based on the degree of similarity with the speech signal registered in the registered speaker database DB, and the speech signals of other speakers.
  • the authentication analysis device P1A in the second embodiment includes the emotion identification unit 21E that identifies at least one emotion included in the voice signal, and the utterance segment including the emotion based on the identification result of the emotion identification unit.
  • 21 A of utterance period detection parts (an example of a deletion part) to delete are further provided.
  • the speech segment detection unit 21A detects the first speech segment and the second speech segment of the speaker from the speech signal from which the speech segment containing emotion has been deleted.
  • the authentication analysis device P1A according to the second embodiment selects only the utterance voice signal (in FIG. 14, the utterance voice signal containing no emotion) more suitable for the user authentication process based on the emotion included in the utterance voice signal of the user US. can be extracted and registered (stored) in the registered speaker database DB.
  • the authentication analysis device P1A in the second embodiment includes the emotion identification unit 21E that identifies at least one emotion included in the voice signal, and based on the identification result of the emotion identification unit 21E, the utterance segment including the emotion. and a communication unit 20 (an example of an input unit) that receives an operation as to whether or not to delete the .
  • the communication unit 20 receives an operation to delete an utterance period
  • the utterance period detection unit 21A deletes the utterance period including the emotion, and extracts the first utterance of the speaker from the audio signal from which the utterance period including the emotion has been deleted.
  • a segment and a second speech segment are detected.
  • the authentication analysis device P1A in the second embodiment can select whether or not to register (store) the utterance voice signal containing the emotion of the user US in the registered speaker database DB based on the operation of the operator OP. do.
  • the authentication analysis device P1A in Embodiment 2 further includes a speech period detection unit 21A (an example of a conversion unit) that converts the voice signal acquired by the communication unit 20 into a predetermined speech speed.
  • the emotion identification unit 21E identifies an emotion using the speech signal converted to the predetermined speech speed.
  • each of the first utterance period and the second utterance period includes at least the same utterance period.
  • the authentication analysis device P1A according to Embodiment 2 can detect the timing of speaker switching with higher accuracy.
  • the speaker information is the telephone number of the user-side call terminal UP1 (an example of a sound collection device) that collects the uttered voice.
  • the authentication analysis device P1A in Embodiment 2 can more effectively suppress spoofing by other speakers.
  • Patent Document 1 discloses that the total acquisition time length of a telephone number in a telephone directory and at least one or more pieces of voiceprint data corresponding to the same telephone number as the acquired telephone number is longer than the time required for voiceprint collation. Also disclosed is a communication device that associates and stores the acquired telephone number and voiceprint data when it is determined that the number is too long. However, the communication device described above picks up the uttered voice (voiceprint data) based on the operation of the speaker himself/herself. When it is determined that the time is longer than the necessary time, the speaker is requested to select whether or not to register the voiceprint data. Therefore, if the total acquisition time length of the voiceprint data is shorter than the time required for voiceprint collation, or if the speaker selects not to register the voiceprint data, the communication device stores new voiceprint data. I had a problem that I could't do it.
  • a method of registering voiceprint data there is a method of extracting only the voice of the speaker from the voice of the call between the speaker and the operator and storing the extracted voice of the speaker as voiceprint data.
  • the operator does not know in real time the registration status of the currently acquired and stored voiceprint data of the speaker. There was a possibility that sufficient voiceprint data could not be acquired and registered.
  • FIG. 17 is a block diagram showing an example internal configuration of authentication analysis device P1B according to Embodiment 3. As shown in FIG.
  • the authentication analysis device P1B is an example of a computer, and based on the missing number of sound types, speech length, etc. in the speech uttered by the user US, Generate an example question for the user US to obtain, etc.
  • the authentication analysis device P1B generates the generated question example screen DP21 (see FIG. 20), progress notification screens DP22A and DP22B, etc., and outputs them to the information display unit DP for display.
  • the processor 212 in Embodiment 3 includes an utterance segment detection unit 21A, an utterance connection unit 21B, a feature amount extraction unit 21C, a similarity calculation unit 21D, an emotion identification unit 21E, a database registration unit 21F, and a progress determination unit 21I. to realize the function of
  • the progress determination unit 21I determines the current progress based on the number of sound types lacking in the utterance uttered by the user US, the utterance length, and the like. When the progress determination unit 21I determines that the progress of the registration processing of the current speech signal (that is, the registration target data amount) is not equal to or greater than the threshold, the plurality of speech signals uttered by the user US are insufficient. Based on the number of sound types, speech length, etc., a question example is generated for the user US for obtaining the missing number of sound types, speech length, and the like.
  • the progress determination unit 21I generates progress notification screens DP22A and DP22B (see FIGS. 21 and 22) for notifying the operator OP of the determined progress (in other words, the current registration status of the speech signal) in real time. is output to the information display section DP for display.
  • the authentication analysis device P1B determines that the progress of the registration processing of the current speech signal (i.e., the registration target data amount) is not equal to or greater than the threshold, the number of sound types lacking in the speech uttered by the user US , utterance length (signal length), etc., a question example is generated for the user US for obtaining the missing number of sound types, utterance length, and the like.
  • the authentication analysis device P1B generates the generated question example screen DP21 (see FIG. 20), progress notification screens DP22A and DP22B, etc., and outputs them to the information display unit DP for display.
  • the memory 221 in Embodiment 3 stores each of a plurality of question examples selected according to the lack of number of sound types, utterance length, and the like.
  • FIG. 18 is a diagram illustrating an example of progress determination processing according to the third embodiment.
  • each of the speech audio signals Us41, Us42, and Us43 is the speech audio signal of the user US and indicates the speech audio signal to be registered in the registered speaker database DB.
  • the processor 212 may notify the operator OP of the progress by voice output based on the progress determined by the progress determining unit 21I. For example, the processor 212 outputs a predetermined notification sound only once when the degree of progress is "low", and outputs a predetermined notification sound twice when the degree of progress is "medium”. When the degree is "high”, a predetermined notification sound is output three times. Thereby, the operator OP can know the current degree of progress based on the number of times the predetermined notification sound is sounded.
  • the predetermined notification sound may be a voice message.
  • FIG. 19 is a flow chart showing an example of operation procedure of the authentication analysis device P1B according to the third embodiment.
  • the processor 212 determines whether the current degree of progress is equal to or greater than the threshold (St40).
  • step St40 determines in the process of step St40 that the current degree of progress is equal to or greater than the threshold (St40, YES)
  • the registration processing of the uttered voice signal is completed (St42).
  • the processor 212 determines in the process of step St40 that the current degree of progress is not equal to or greater than the threshold (St40, NO), it determines whether or not a control command requesting continuation of the registration process has been received ( St43).
  • step St43 determines in the process of step St43 that it has received a control command requesting continuation of the registration process based on the control command based on the operator OP operation transmitted from the operator-side telephone terminal OP1 (St43, YES)
  • at least one question example is selected based on the currently lacking number of types of sounds of speech audio signals, speech length, and the like.
  • the processor 212 generates a question example screen DP21 (see FIG. 20) including the selected question example, or progress notification screens DP22A and DP22B (see FIGS. 21 and 22), etc., and outputs them to the information display unit DP. It is displayed (St44).
  • the processor 212 shifts to the process of step St15.
  • step St43 the processor 212 does not accept the control command requesting continuation of the registration process based on the control command based on the operator OP operation transmitted from the operator side telephone terminal OP1 (that is, (St43, NO), the process of registering the acquired utterance voice signal in the registered speaker database DB is stopped (i.e. registration failure). (St45).
  • step St42 After the processing of step St42 or step St45, the processor 212 generates a registration result screen (not shown) including the registration processing result of the utterance voice signal in the registered speaker database DB, and outputs and displays it on the information display unit DP. (St46).
  • the authentication analysis device P1B in Embodiment 3 can identify the speech voice signal of the user US for each emotion and register (store) it in the registered speaker database DB. Therefore, even if the number of types of sounds and the length of speech included in the speech voice signal vary due to the emotion of the user US during a call, the authentication analysis device P1B can set the amount of sound necessary for user authentication as the registration target data amount.
  • the operator OP can be assisted by presenting the operator OP with a question example for acquiring the speech signal including the number of types and speech length.
  • the authentication analysis device P1B visualizes the determined degree of progress for the operator OP in real time. Therefore, the operator OP can know the registration status of the speech signal in real time based on the answer to the question by the user US, and can determine the end timing of the call with the user US and whether or not to ask the next question. etc. can be determined more easily.
  • FIG. 20 is a diagram illustrating an example of the question example screen DP21.
  • the question example screen DP21 shown in FIG. 20 is merely an example, and the present invention is not limited to this.
  • the tone type number graph IN212 shown in FIG. 20 is not essential and may be omitted.
  • the question example screen DP21 is generated and displayed on the information display unit DP when the progress determination unit 21I determines that the progress of the registration processing of the current speech signal (that is, the registration target data amount) is not equal to or greater than the threshold. be.
  • the degree-of-progress determination unit 21I analyzes the number of types of sounds, the length of speech (signal length), and the like that are lacking in the speech uttered by the user US, and based on the analysis results, the speech speech signal used in the user authentication process is lacking. At least one question example is selected to obtain the number of types of sounds that the speaker uses, the length of the utterance, and the like.
  • the progress determination unit 21I sets a priority order for each of the selected at least one example question, generates an example question screen DP21 including at least one example question and a priority order corresponding to the example question, Output to the information display section DP for display. Note that the priority information is not essential and may be omitted.
  • the question example screen DP21 in the example shown in FIG. 20 is generated including four question examples and a sound type number graph IN212 indicating the number of sound types for each sound in the utterance uttered by the user US.
  • a sound type number graph IN212 indicating the number of sound types for each sound in the utterance uttered by the user US.
  • an example question with priority 1 "Could you tell me your address that you want to register?” Is it possible?”
  • the example question with priority 3 “Could you tell us your date of birth?” mosquito? ”.
  • the operator OP can select any one question from each of the four question examples on the question example screen DP21 and ask the user US the question.
  • the authentication analysis device P1B in Embodiment 3 can more efficiently acquire the missing number of sound types, utterance length, etc., and acquire an utterance voice signal more suitable for user authentication.
  • the authentication analysis device P1B can assist the operator OP so that the call between the user US and the operator OP does not prolong.
  • FIG. 21 is a diagram illustrating an example of the progress notification screen DP22A for the user US.
  • FIG. 22 is a diagram illustrating an example of a progress notification screen DP22B for the user US. Note that each of the progress notification screen DP22A shown in FIG. 21 and the progress notification screen DP22B shown in FIG. 22 is an example and is not limited to this.
  • the progress notification screen DP22A is a screen for notifying the operator OP of the progress of the process of registering the speech signal acquired from the user-side telephone terminal UP1, and is generated by the processor 212 and displayed by the information display unit DP. .
  • the progress notification screen DP22A is generated further including the missing number of sound types and the question example IN221 for acquiring the utterance length. be done.
  • the progress notification screen DP22A shown in FIG. 21 includes an example question IN221, a registration name input field IF21, registration progress information IN23, a voice signal graph IN24, and a speaker registration button BT21.
  • Question example IN221 consists of, from top to bottom, an example question with priority 1, "Could you tell me the address you want to register?” and an example question with priority 2, "Can you tell me the phone number you want to register? Do you want it?"
  • the processor 212 may store this example question as an already asked example question.
  • the processor 212 again determines that the degree of progress is less than the threshold, the processor 212 presents questions to the operator OP from other question examples other than the already asked question examples among the plurality of question examples stored in the memory 22. An example may be selected.
  • the registered name input field IF21 is an input field that can accept an operator's operation for the user name registered in the registered speaker database DB. It should be noted that the registered name input field IF21 may be capable of inputting information regarding the user US.
  • the registration progress information IN23 includes a progress IN231 indicating the currently registered number of sound types of the speech signal with respect to the number of sound types of the registration target data amount, and the currently registered speech length of the registration target data amount. and progress IN 232 indicating the length of speech of the registered speech audio signal. Further, the registration progress information IN23 may display the number of types of sounds of the currently registered utterance voice signal as "Number of types of sounds: XX" and the length of speech as "Length of speech: XX” using numerical values. good.
  • the audio signal graph IN24 displays the speech audio signal of the detected speech period.
  • the speaker registration button BT21 accepts an operation by the operator OP to start or stop the process of registering the speech signal in the registered speaker database DB.
  • the speaker registration button BT21 registers the acquired speech signal in the registered speaker database DB when an operation for starting the process of registering the speech signal in the registered speaker database DB is received by the operator's OP operation.
  • the speaker registration button BT21 is used to perform registration processing of the speech signal in the registered speaker database DB when an operation to stop the registration process of the speech signal in the registered speaker database DB is received by the operator's OP operation. cancel.
  • the progress notification screen DP22B is generated by the processor 212 and displayed by the information display unit DP when the processor 212 determines that the degree of progress is less than the threshold after the progress notification screen DP22A is displayed.
  • Question example IN222 is a newly generated question example. Including "Could you tell me your date of birth?"
  • the registration progress information IN25 includes a progress IN251 indicating the currently registered number of sound types of the speech audio signal with respect to the registration target data amount of the number of sound types, and a current and a progress IN 252 indicating the length of speech of the registered speech audio signal. Further, the registration progress information IN25 may display the number of types of sounds of the currently registered utterance voice signal as "Number of types of sounds: ZZ" and the length of speech as "Length of speech: ZZ". good.
  • the audio signal graph IN26 displays the speech audio signal of the detected speech period.
  • authentication analysis device P1B in Embodiment 3 includes communication unit 20 (an example of an acquisition unit) that acquires an audio signal of an uttered voice of a speaker and speaker information that can identify the speaker;
  • a database registration unit 21F (an example of a registration unit) that associates voice signals and speaker information and registers them in a registered speaker database DB (an example of a database), and registration targets for voice signals that are registered in the registered speaker database DB.
  • a progress determination unit 21I that repeatedly determines the progress of the voice signal registered in the registered speaker database DB (an example of the registration progress) with respect to the data amount (an example of the registration target amount), and the determined progress and a processor 212 (an example of a notification unit) that notifies.
  • the authentication analysis device P1B in Embodiment 3 visualizes the determined degree of progress in real time for the operator OP. Therefore, the operator OP can know the registration status of the speech signal in real time based on the answer to the question by the user US, and can determine the end timing of the call with the user US and whether or not to ask the next question. etc. can be determined more easily.
  • the progress determination unit 21I in the authentication analysis device P1B according to Embodiment 3 determines the progress of the speech signal registered in the registered speaker database DB, the number of sound types included in the registered speech signal, repeatedly determined.
  • the processor 212 notifies the degree of progress and the number of sound types.
  • the authentication analysis device P1B according to the third embodiment visualizes the determined degree of progress for the operator OP in real time. Therefore, the operator OP can know the registration status (progress and number of sound types) of the utterance voice signal in real time based on the answer to the question by the user US, the end timing of the call with the user US, It is possible to more easily determine whether or not to ask the next question.
  • the progress determination unit 21I in the authentication analysis device P1B determines the number of sound types for each sound included in the sound signal registered in the registered speaker database DB (for example, the sound shown in FIG. 20 Determine the type number graph IN212).
  • Processor 212 reports the number of sound types for each sound.
  • the authentication analysis device P1B in Embodiment 3 can visualize the number of sound types for each sound, which is the registration status of the speech signal, and notify the operator OP.
  • the progress determination unit 21I in the authentication analysis device P1B according to Embodiment 3 repeatedly determines the progress of the voice signal registered in the registered speaker database DB and the signal length of the voice signal registered. do.
  • Processor 212 reports progress and signal length.
  • the authentication analysis device P1B according to the third embodiment visualizes the determined degree of progress for the operator OP in real time. Therefore, the operator OP can know the registration status (progress and speech length (signal length)) of the speech voice signal in real time based on the answer to the question by the user US. It is possible to more easily determine the end timing, whether or not to ask the next question, and the like.
  • authentication analysis device P1B in Embodiment 3 further includes processor 212 (an example of a selection unit) that selects at least one question for user US based on the degree of progress.
  • the processor 212 generates and outputs progress notification screens DP22A and DP22B (see FIGS. 21 and 22) including the selected question and the degree of progress.
  • the authentication analysis device P1B according to the third embodiment can acquire an utterance voice signal more suitable for user authentication based on the degree of progress.
  • the progress determination unit 21I in the authentication analysis device P1B according to Embodiment 3 determines the progress of the speech signal registered in the registered speaker database DB, the number of sound types included in the registered speech signal, repeatedly determined.
  • the processor 212 selects questions based on the number of sound types in the registration target data amount and the number of sound types included in the voice signal to be registered. As a result, the authentication analysis device P1B according to Embodiment 3 can more efficiently acquire the missing number of sound types, and can acquire an utterance voice signal more suitable for user authentication.
  • the processor 212 in the authentication analysis device P1B in the third embodiment selects a plurality of questions based on the number of sound types in the registration target data amount and the number of sound types included in the voice signal to be registered. and determine the priority of each of the selected questions.
  • the processor 212 generates and outputs progress notification screens DP22A and DP22B (see FIGS. 21 and 22) including each of the selected questions, the priority of the questions, and the degree of progress.
  • the authentication analysis device P1B in the third embodiment acquires the missing number of sound types more efficiently, and obtains a speech signal more suitable for user authentication. to visualize.
  • the progress determination unit 21I in the authentication analysis device P1B according to the third embodiment determines the progress of the speech signal registered in the registered speaker database DB and the signal length included in the registered speech signal. judge repeatedly.
  • the processor 212 selects questions based on the signal length of the registration target data amount and the signal length included in the voice signal to be registered.
  • the authentication analysis device P1B in Embodiment 3 selects a question based on the signal length (utterance length) of the registration target data amount and the signal length (utterance length) included in the voice signal to be registered. .
  • the authentication analysis device P1B according to Embodiment 3 can more efficiently acquire the missing utterance length and acquire a utterance voice signal more suitable for user authentication.
  • the processor 212 in the authentication analysis apparatus P1B according to Embodiment 3 generates and outputs progress notification screens DP22A and DP22B (see FIGS. 21 and 22) including the degree of progress.
  • the authentication analysis device P1B according to the third embodiment visualizes the determined degree of progress for the operator OP in real time. Therefore, the operator OP can know the registration status of the speech signal in real time based on the answer to the question by the user US, and can determine the end timing of the call with the user US and whether or not to ask the next question. etc. can be determined more easily.
  • the processor 212 in the authentication analysis device P1B according to Embodiment 3 generates and outputs a voice notification signal that notifies the degree of progress by voice.
  • the authentication analysis device P1B in Embodiment 3 can notify the operator OP of the determined degree of progress in real time. Therefore, the operator OP can know the registration status of the speech signal in real time based on the answer to the question by the user US, and can determine the end timing of the call with the user US and whether or not to ask the next question. etc. can be determined more easily.
  • the present disclosure is useful as a voice registration device and a voice registration method that notifies the current registration status of a speech voice signal in real time and supports the registration work of the voice signal performed by an operator.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声登録装置は、話者の発話音声の音声信号と、話者を識別可能な話者情報とを取得する取得部と、取得された音声信号と話者情報とを対応付けてデータベースに登録する登録部と、データベースに登録する音声信号の登録目標量に対して、データベースに登録される音声信号の登録進捗度を繰り返し判定する進捗度判定部と、判定された登録進捗度を通知する通知部と、を備える。

Description

音声登録装置および音声登録方法
 本開示は、音声登録装置および音声登録方法に関する。
 特許文献1には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも1つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。通話装置は、受話音声を取得し、取得した受話音声から声紋データを抽出し、受話音声の取得時間を計測し、取得した電話番号が電話帳にある場合に、取得した電話番号と抽出した声紋データとを対応付けて格納する。
日本国特開2016-53598号公報
 特許文献1には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも1つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかし、上述した通話装置は、発話者自身の操作に基づいて、発話音声(声紋データ)の収音を行い、収音が終わったタイミングで、声紋データの合算取得時間長が声紋照合のために必要な時間よりも長いと判定した場合に発話者に声紋データを登録するか否かの選択を要求する。よって、通話装置は、声紋データの合算取得時間長が声紋照合のために必要な時間よりも短い場合、発話者が声紋データを登録しないと選択した場合には、新たな声紋データの格納を行うことができないという課題があった。
 また、声紋データの登録方法として、発話者とオペレータとの通話音声のうち発話者の音声のみを抽出し、抽出された発話者の音声を声紋データとして格納する方法がある。このような声紋データの登録方法において、オペレータは、現在取得され、格納されている発話者の声紋データの登録状況がリアルタイムで分からないため、通話中の顧客に対する応答が遅れてしまったり、通話中に十分な声紋データの取得および登録ができなかったりする可能性があった。
 本開示は、上述した従来の状況に鑑みて案出され、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する発話音声登録装置および発話音声登録方法を提供することを目的とする。
 本開示は、話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得する取得部と、取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録する登録部と、前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定する進捗度判定部と、判定された前記登録進捗度を通知する通知部と、を備える、音声登録装置を提供する。
 また、本開示は、1以上のコンピュータが行う音声登録方法であって、話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得し、取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録し、前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定し、判定された前記登録進捗度を通知する、音声登録方法を提供する。
 本開示によれば、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する。
実施の形態1に係る音声認証システムのユースケースの一例を示す図 実施の形態1における認証解析装置の内部構成例を示すブロック図 実施の形態1における感情識別処理例を説明する図 発話音声信号の登録例を説明する図 オペレータとユーザとの通話例を示す図 話速変換処理例を説明する図 実施の形態1における音声登録処理例を説明するフローチャート 実施の形態1における音声登録処理例を説明するフローチャート 新規ユーザの進捗通知画面の一例を説明する図 登録済みユーザの進捗通知画面の一例を説明する図 登録済みユーザの進捗通知画面の一例を説明する図 実施の形態2における認証解析装置の内部構成例を示すブロック図 話者の切替わり識別処理例を説明する図 実施の形態2における感情識別処理例を説明する図 実施の形態2における音声登録処理例を説明するフローチャート 実施の形態2における音声登録処理例を説明するフローチャート 実施の形態3における認証解析装置の内部構成例を示すブロック図 実施の形態3における進捗度判定処理例を説明する図 実施の形態3における認証解析装置の動作手順例を示すフローチャート 質問例画面の一例を説明する図 ユーザの進捗通知画面の一例を説明する図 ユーザの進捗通知画面の一例を説明する図
(実施の形態1に至る経緯)
 特許文献1には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも1つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかしながら、上述した通話装置は、声紋照合に用いられる1以上の声紋データを発話者ごとにまとめて格納するため、発話者の感情の昂り等がある場合の受話音声を用いて声紋照合を実行した場合には、感情により声紋データに含まれる発話者の個人性にばらつきが生じて発話者の声紋照合精度が低下する可能性があった。
 以下、適宜図面を参照しながら、本開示に係る音声登録装置および音声登録方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(実施の形態1)
 まず、図1を参照して、実施の形態1に係る音声認証システム100のユースケースについて説明する。図1は、実施の形態1に係る音声認証システム100のユースケースの一例を示す図である。
 音声認証システム100は、音声認証対象である人物(図1に示す例では、ユーザUS)の音声信号または音声データを取得し、取得された音声信号または音声データを、ユーザUSごとにストレージ(図1に示す例では、登録話者データベースDB)に登録(格納)する。
 また、音声認証システム100は、音声認証対象である人物(図1に示す例では、ユーザUS)の音声信号または音声データを取得し、取得された音声信号または音声データと、事前にストレージ(図1に示す例では、登録話者データベースDB)に登録(格納)された複数の音声信号または音声データとを照合する。音声認証システム100は、照合結果に基づいて、音声認証対象であるユーザとストレージに登録された音声信号または音声データとの類似度を評価し、評価された類似度に基づいて、ユーザUSを認証する。
 実施の形態1に係る音声認証システム100は、オペレータ側通話端末OP1と、認証解析装置P1と、登録話者データベースDBと、情報表示部DPと、を少なくとも含んで構成される。なお、認証解析装置P1および登録話者データベースDBは、一体的に構成されてよい。同様に、認証解析装置P1および情報表示部DPは、一体的に構成されてよい。
 なお、図1に示す音声認証システム100は、一例としてコールセンターにおいて話者(ユーザUS)の認証に用いられる例を示し、オペレータOPと通話するユーザUSの発話音声を収音した音声データを用いてユーザUSの認証を行う。図1に示す音声認証システム100は、さらにユーザ側通話端末UP1と、ネットワークNWとを含んで構成される。なお、音声認証システム100の全体構成は、図1に示す例に限定されないことは言うまでもない。
 ユーザ側通話端末UP1は、オペレータ側通話端末OP1との間で、ネットワークNWを介して無線通信可能に接続される。なお、ここでいう無線通信は、例えばWi-Fi(登録商標)などの無線LAN(Local Area Network)を介した通信である。
 ユーザ側通話端末UP1は、例えば、ノートPC,タブレット端末,スマートフォン,電話機等により実現される。ユーザ側通話端末UP1は、マイク(不図示)を備える収音装置であり、ユーザUSの発話音声を収音して、音声信号に変換し、ネットワークNWを介して変換された音声信号をオペレータ側通話端末OP1に送信する。また、ユーザ側通話端末UP1は、オペレータ側通話端末OP1から送信されたオペレータOPの発話音声の音声信号を取得して、スピーカ(不図示)から出力する。
 ネットワークNWは、IP網または電話網であって、ユーザ側通話端末UP1とオペレータ側通話端末OP1との間で、音声信号の送受信を可能に接続する。なお、データの送受信は、有線通信または無線通信により実行される。ここでいう無線通信は、例えばWi-Fi(登録商標)などの無線LANを介した通信である。
 オペレータ側通話端末OP1は、ユーザ側通話端末UP1および認証解析装置P1との間でそれぞれ有線通信または無線通信でデータ送受信可能に接続され、音声信号の送受信を行う。
 オペレータ側通話端末OP1は、例えば、ノートPC,タブレット端末,スマートフォン,電話機等により実現される。オペレータ側通話端末OP1は、ネットワークNWを介してユーザ側通話端末UP1から送信されたユーザUSの発話音声に基づく音声信号を取得し、認証解析装置P1に送信する。なお、オペレータ側通話端末OP1は、取得されたユーザUSの発話音声とオペレータOPの発話音声とを含む音声信号を取得した場合には、オペレータ側通話端末OP1の音声信号の音圧レベル、周波数帯域等の音声パラメータに基づいて、ユーザUSの発話音声に基づく音声信号と、オペレータOPの発話音声に基づく音声信号とを分離してよい。オペレータ側通話端末OP1は、分離後にユーザUSの発話音声に基づく音声信号のみを抽出して認証解析装置P1に送信する。
 また、オペレータ側通話端末OP1は、複数のユーザ側通話端末のそれぞれとの間で通信可能に接続され、同時に複数のユーザ側通話端末のそれぞれから音声信号を取得してもよい。オペレータ側通話端末OP1は、取得された音声信号を認証解析装置P1に送信する。これにより、音声認証システム100は、同時に複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。
 また、オペレータ側通話端末OP1は、同時に複数のユーザのそれぞれの発話音声を含む音声信号を取得してもよい。オペレータ側通話端末OP1は、ネットワークNWを介して取得された複数のユーザの音声信号からユーザごとの音声信号を抽出し、ユーザごとの音声信号をそれぞれ認証解析装置P1に送信する。このような場合、オペレータ側通話端末OP1は、複数のユーザの音声信号を解析し、音圧レベル、周波数帯域等の音声パラメータに基づいて、音声信号をユーザごとに分離して抽出してもよい。音声信号がアレイマイク等により収音された場合には、オペレータ側通話端末OP1は、発話音声の到来方向に基づいて、音声信号をユーザごとに分離して抽出してもよい。これにより、音声認証システム100は、例えば、Web会議等の同時に複数のユーザが発話する環境で収音された音声信号であっても、複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。
 コンピュータの一例としての認証解析装置P1は、オペレータ側通話端末OP1、登録話者データベースDBおよび情報表示部DPとの間でそれぞれデータ送受信可能に接続される。なお、認証解析装置P1は、オペレータ側通話端末OP1、登録話者データベースDBおよび情報表示部DPとの間でネットワーク(不図示)を介して、有線通信または無線通信可能に接続されていてもよい。
 認証解析装置P1は、オペレータ側通話端末OP1から送信されたユーザUSの音声信号を取得し、取得された音声信号からユーザUSが発話している発話区間を検出する。認証解析装置P1は、検出された各発話区間の音声信号(以降、「発話音声信号」と表記)含まれるユーザUSの感情を識別し、識別された感情ごとに発話音声信号を抽出する。認証解析装置P1は、抽出された感情ごとの発話音声信号と、ユーザ側通話端末UP1の電話番号と対応付けて、登録話者データベースDBに登録(格納)する。
 認証解析装置P1は、ユーザ側通話端末UP1の電話番号が登録話者データベースDBに既に登録済みの電話番号であると判定した場合には、この電話番号が対応付けられた発話音声信号を、取得された新たな発話音声信号に更新する。また、認証解析装置P1は、ユーザ側通話端末UP1の電話番号が登録話者データベースDBに既に登録済みの電話番号でないと判定した場合には、この電話番号と、取得された感情ごとの発話音声信号とを対応付けて登録する。
 なお、本実施の形態1では、一例としてユーザ側通話端末UP1(つまり、ユーザUS)の識別処理に電話番号を用いる例を示すが、例えばユーザ側通話端末UP1がPC,ノートPC,タブレット端末等により実現されたり、ユーザUSとオペレータOPとがウェブ会議システムを利用して通話したりする場合には、電話番号の代わりにユーザ側通話端末UP1のIP(Internet Protocol)アドレス等が使用されてよい。
 また、認証解析装置P1は、オペレータ側通話端末OP1から送信されたユーザUSの発話音声信号を取得し、例えば周波数ごとに音声解析して、ユーザUS個人の発話特徴量を抽出する。認証解析装置P1は、登録話者データベースDBを参照して、登録話者データベースDBに事前に登録された複数のユーザのそれぞれの発話特徴量と、抽出された発話特徴量とを照合して、ユーザUSの音声認証を実行する。認証解析装置P1は、ユーザ認証結果を含む認証結果画面SCを生成して、情報表示部DPに送信して出力させる。なお、図1に示す認証結果画面SCは、一例であってこれに限定されないことは言うまでもない。図1に示す認証結果画面SCは、ユーザ認証結果であるメッセージ「××〇〇さんの声と一致しました。」を含む。
 データベースの一例としての登録話者データベースDBは、所謂ストレージであって、例えばフラッシュメモリ、HDD(Hard Disk Drive)あるいはSSD(Solid State Drive)等の記憶媒体を用いて構成される。登録話者データベースDBは、複数のユーザのユーザ情報と、発話特徴量とを対応付けて格納(登録)する。ここでいうユーザ情報は、ユーザに関する情報であって、例えば、ユーザ名、ユーザID(Identification)、ユーザごとに割り当てられた識別情報等である。なお、登録話者データベースDBは、認証解析装置P1と一体的に構成されてもよい。登録話者データベースDBは、ユーザUSの感情ごとの発話音声信号と、ユーザUSの電話番号とを対応づけて、発話音声信号の感情に対応する第1の感情データベースDB1,第2の感情データベースDB2,…,第N(N:1以上の整数)の感情データベースDBNのそれぞれに登録(格納)する。なお、登録話者データベースDBにおける感情データベースの数は、1つ以上であればよい。
 情報表示部DPは、例えばLCD(Liquid Crystal Display)あるいは有機EL(Electroluminescence)ディスプレイを用いて構成され、認証解析装置P1から送信された認証結果画面SCを表示する。
 図1に示す例において、ユーザ側通話端末UP1は、ユーザUSの発話音声COM12「××〇〇です」と、発話音声COM14「123245678です」とを収音し、発話音声信号に変換して、オペレータ側通話端末OP1に送信する。オペレータ側通話端末OP1は、ユーザ側通話端末UP1から送信されたユーザUSの発話音声COM12,COM14のそれぞれに基づく発話音声信号を認証解析装置P1に送信する。
 なお、オペレータ側通話端末OP1は、オペレータOPの発話音声COM11「お名前を教えてください」と、発話音声COM13「会員番号を教えてください」と、ユーザUSの発話音声COM12,COM14とを収音した音声信号を取得した場合には、オペレータOPの発話音声COM11,COM13のそれぞれに基づく音声信号を分離、除去し、ユーザUSの発話音声COM12,COM14のそれぞれに基づく音声信号のみを抽出して、認証解析装置P1に送信する。これにより、認証解析装置P1は、音声認証の対象である人物の音声信号のみを用いることで、ユーザ認証精度を向上できる。
 図2を参照して、認証解析装置P1の内部構成例について説明する。図2は、実施の形態1における認証解析装置P1の内部構成例を示すブロック図である。認証解析装置P1は、通信部20と、プロセッサ210と、メモリ22と、を少なくとも含んで構成される。
 取得部の一例としての通信部20は、オペレータ側通話端末OP1および登録話者データベースDBのそれぞれとの間でデータ通信可能に接続する。通信部20は、オペレータ側通話端末OP1から送信された音声信号をプロセッサ210に出力する。
 プロセッサ210は、例えばCPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphical Processing Unit)、FPGA(Field Programmable Gate Array)等の電子デバイスのうち少なくとも1つが実装された半導体チップを用いて構成される。プロセッサ210は、認証解析装置P1の全体的な動作を司るコントローラとして機能し、認証解析装置P1の各部の動作を統括するための制御処理、認証解析装置P1の各部との間のデータの入出力処理、データの演算処理およびデータの記憶処理を行う。
 プロセッサ210は、メモリ22のROM(Read Only Memory)22Aに記憶されたプログラムおよびデータを用いることで、発話区間検出部21A、発話連結部21B、特徴量抽出部21C、類似度計算部21D、感情識別部21E、データベース登録部21F、および進捗度判定部21Gのそれぞれの機能を実現する。プロセッサ210は、動作中にメモリ22のRAM(Random Access Memory)22Bを使用し、プロセッサ210および各部が生成あるいは取得したデータもしくは情報をメモリ22のRAM22Bに一時的に保存する。
 プロセッサ210は、ユーザ側通話端末UP1の電話番号(発信元番号)を取得し、取得された電話番号と、登録話者データベースDBに登録された複数のユーザ側通話端末の電話番号とを照合して、ユーザ側通話端末UP1(つまり、ユーザUS)を特定する。プロセッサ210は、ユーザ側通話端末UP1を特定した場合には、登録話者データベースDBに登録され、ユーザ側通話端末UP1の所持者であるユーザUSのユーザ認証に用いられる発話音声信号の更新処理(言い換えると、新たな発話音声信号の登録処理)を実行し、ユーザUSを特定できなかった場合には、ユーザUSの電話番号とユーザ認証に用いられる発話音声信号との新規登録処理とを実行する。プロセッサ210は、発話音声信号の登録処理の進捗状態をオペレータOPに通知する進捗通知画面DP11,DP12A,DP12B(図9~図11参照)を生成し、情報表示部DPに出力する。
 発話区間検出部21Aは、取得された音声信号を解析し、ユーザUSが発話している発話区間を検出する。発話区間検出部21Aは、音声信号から検出された各発話区間に対応する発話音声信号を発話連結部21Bまたは特徴量抽出部21Cに出力する。また、発話区間検出部21Aは、各発話区間の発話音声信号をメモリ22のRAM22Bに一時的に保存してもよい。
 発話連結部21Bは、発話区間検出部21Aにより発話音声信号から同一人物(ユーザUS)の2以上の発話区間が検出された場合、これらの発話区間の発話音声信号同士を連結する。発話連結部21Bは、連結後の発話音声信号を特徴量抽出部21Cに出力する。なお、ユーザ認証方法については後述する。
 特徴量抽出部21Cは、発話区間検出部21Aにより抽出された1以上の発話音声信号を用いて個人の音声の特徴を、例えば周波数ごとに解析して、発話特徴量を抽出する。なお、特徴量抽出部21Cは、発話連結部21Bから出力された発話音声信号の発話特徴量を抽出してもよい。特徴量抽出部21Cは、抽出された発話特徴量と、この発話特徴量が抽出された発話音声信号とを対応付けて類似度計算部21Dに出力したり、メモリ22のRAM22Bに一時的に保存したりする。
 類似度計算部21Dは、特徴量抽出部21Cから出力された発話音声信号の発話特徴量を取得する。類似度計算部21Dは、登録話者データベースDBを参照して、登録話者データベースDBに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部21Dは、算出された類似度に基づいて、発話音声信号に対応するユーザを特定してユーザ認証を実行する。
 類似度計算部21Dは、ユーザ認証の結果、ユーザが特定されたと判定した場合、特定されたユーザに関する情報(つまり、認証結果)を含む認証結果画面SCを生成して、表示I/F(Inter Face)23を介して、情報表示部DPに出力する。
 なお、類似度計算部21Dは、算出された類似度が所定値未満であると判定した場合、ユーザ認証不可であると判定し、発話連結部21Bに発話音声信号の連結を要求する制御指令を生成して出力してもよい。また、類似度計算部21Dは、同一人物(ユーザUS)に対するユーザ認証において、ユーザ認証回数に上限回数が設定されており、ユーザ認証不可であると判定した回数が上限回数以上であると判定した場合には、ユーザ認証不可である旨を通知する認証結果画面(不図示)を生成して、情報表示部DPに出力してもよい。
 感情識別部21Eは、メモリ22に記憶された感情モデルを用いて発話区間検出部21Aにより検出された発話音声信号を解析し、発話音声信号に対応するユーザUSの感情(例えば、平常,怒り,興奮,緊張,落ち込み等)を識別する。感情識別部21Eは、識別された感情ごとに音声発話信号を結合し、データベース登録部21Fに出力する。なお、感情識別部21Eは、認証解析装置P1と別体で構成されてよい。
 データベース登録部21Fは、ユーザ側通話端末UP1の電話番号と、感情識別部21Eから出力された感情ごとの音声発話信号とを対応付けて、登録話者データベースDBのうち各感情に対応する第1の感情データベースDB1,第2の感情データベースDB2,…,第Nの感情データベースDBNのそれぞれに登録(格納)する。
 進捗度判定部21Gは、データベース登録部21Fにより登録話者データベースDBに登録された発話音声信号の登録処理の進捗度を判定する。ここでいう登録処理の進捗度は、発話音声信号を用いたユーザ認証に必要な音種類数,発話長(言い換えると、発話音声信号の長さ)等の登録目標データ量に対する、登録話者データベースDBに登録されたユーザUSの発話音声信号の音種類,発話長等の現在の登録処理の割合(進捗度)である。
 メモリ22は、例えばプロセッサ210が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとを格納するROM22Aと、プロセッサ210が行う各種の処理を実行する際に用いるワークメモリとしてのRAM22Bと、を少なくとも有する。ROM22Aには、プロセッサ210が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとが書き込まれている。RAM22Bには、プロセッサ210により生成あるいは取得されたデータもしくは情報(例えば、連結前の発話音声信号、連結後の発話音声信号、連結前あるいは連結後の各発話区間に対応する発話特徴量等)が一時的に保存される。
 表示I/F23は、プロセッサ210と情報表示部DPとの間をデータ通信可能に接続し、プロセッサ210の類似度計算部21Dにより生成された認証結果画面SCを情報表示部DPに出力する。
 次に、図3および図4を参照して、認証解析装置P1により実行される感情識別処理および発話音声信号の登録処置について説明する。図3は、実施の形態1における感情識別処理例を説明する図である。図4は、発話音声信号の登録例を説明する図である。なお、図3および図4で説明する感情識別処理方法は、実施の形態2における感情識別部21Eでも同様に実行されてよい。
 なお、図3および図4で説明する感情識別処理では、一例として発話音声信号から2つの感情「感情1」,「感情2」のそれぞれを識別する例について説明するが、識別可能な感情数は1つ以上であればよい。また、「感情1」は、第1の感情データベースDB1に登録(格納)される発話音声信号の感情に対応する。「感情2」は、第2の感情データベースDB2に登録(格納)される発話音声信号の感情に対応する。
 感情識別部21Eは、登録話者データベースDBが有する各感情データベースに対応する「感情1」,「感情2」のそれぞれの感情が含まれる発話音声信号の区間(時間帯)を抽出する。
 図3に示す例において、感情識別部21Eは、発話音声信号に含まれるユーザUSの感情を解析し、閾値Th1以上である発話音声信号の感情を「感情2」、閾値Th1未満である発話音声信号の感情を「感情1」にそれぞれ識別する。感情識別部21Eは、時間t11から時間t12までの間の時間帯PR11の発話音声信号と、時間t13から時間t14までの間の時間帯PR13の発話音声信号とを「感情1」,時間t12から時間t13までの間の時間帯PR12の発話音声信号を「感情2」のそれぞれに識別する。感情識別部21Eは、時間帯PR11の発話音声信号と、時間帯PR13の発話音声信号とを結合する。
 データベース登録部21Fは、「感情1」に識別された時間帯PR11と時間帯PR13との発話音声信号と、ユーザUSの電話番号とを対応付けて第1の感情データベースDB1に登録(格納)し、「感情2」に識別された時間帯PR12の発話音声信号と、ユーザUSの電話番号とを対応付けて第2の感情データベースDB2に登録(格納)する。ここで、データベース登録部21Fは、第1の感情データベースDB1あるいは第2の感情データベースDB2に、それぞれ登録済みの発話音声信号があると判定した場合には、登録済みの発話音声信号を、感情識別部21Eから出力された新たな発話音声信号に上書き(更新)する。
 これにより、実施の形態1における認証解析装置P1は、ユーザUSの発話音声信号を感情ごとに分類して登録話者データベースDBに登録(格納)することができる。したがって、認証解析装置P1は、通話時のユーザUSの感情により発話音声信号に含まれる発話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、取得された発話音声信号に含まれる感情に類似あるいは同一の感情に識別された発話音声信号を用いることでユーザ認証精度の低下をより効果的に抑制できる。
 また、これにより、認証解析装置P1は、各感情データベースに登録(格納)された発話音声信号を、新たに取得された発話音声信号に上書き(更新)することで、より最新の個人性を含む発話音声信号を用いたユーザ認証処理によってユーザ認証精度を向上させたり、登録話者データベースDBの空き容量不足の発生をより効率的に抑制したりできる。
 次に、図5および図6を参照して、認証解析装置P1により実行される話速変換処理について説明する。図5は、オペレータOPとユーザUSとの通話例を示す図である。図6は、話速変換処理例を説明する図である。なお、図6に示す話速変換処理例は一例であって、これに限定されない。
 ユーザ側通話端末UP1は、ユーザUSの発話音声Us11「こんにちは」、発話音声Us12「暗証番号が分かりません」、発話音声Us13「IDは12345678です」、および発話音声Us14「名前は××〇〇です」を収音し、音声信号に変換してオペレータ側通話端末OP1に送信する。
 オペレータ側通話端末OP1は、オペレータOPの発話音声Op11「いかがなさいましたか」、発話音声Op12「はい、それではIDを教えてください」、および発話音声Op13「お名前を教えてください」を収音し、音声信号に変換してユーザ側通話端末UP1に送信する。また、オペレータ側通話端末OP1は、ユーザ側通話端末UP1から送信された音声信号を取得して、認証解析装置P1に送信する。
 認証解析装置P1における発話区間検出部21Aは、オペレータ側通話端末OP1から送信された音声信号からユーザUSの各発話音声Us11~Us14のそれぞれの発話区間を検出する。発話区間検出部21Aは、検出された各発話区間に対応する発話音声信号を抽出する。なお、図6では、図5に示す発話音声Us11に対応する発話音声信号を「発話1」、発話音声Us12に対応する発話音声信号を「発話2」、発話音声Us13に対応する発話音声信号を「発話3」、発話音声Us14に対応する発話音声信号を「発話4」とそれぞれ表記する。
 発話区間検出部21Aは、検出された発話区間の発話音声信号の話速を、所定の話速(例えば、図6に示す話速=5.0文字/秒)になるように発話音声信号を縮小あるいは伸長し、発話音声信号の話速を変換する。これにより、認証解析装置P1は、ユーザ認証に用いる発話音声信号の発話特徴量と、登録話者データベースDBに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。
 以下、図6を参照してユーザUSの発話音声信号「発話1」~「発話4」のそれぞれの話速変換処理例について具体的に説明する。
 例えば、発話区間検出部21Aは、登録話者データベースDBへの登録(格納)に用いられるユーザUSの発話音声信号に音声解析を実行し、発話音声信号に含まれる文字数、発話音声信号の信号長(発話秒数)、および発話音声信号の話速のそれぞれを算出する。
 発話音声信号「発話1」は、文字数=5文字、発話秒数(つまり発話区間)=0.8秒、および話速=6.25文字/秒である。同様に、発話音声信号「発話2」は、文字数=16文字、発話秒数=2.9秒、および話速=5.51文字/秒である。発話音声信号「発話3」は、文字数=16文字、発話秒数=4.0秒、および話速=4.0文字/秒である。また、発話音声信号「発話4」は、文字数=12文字、発話秒数=3.5秒、および話速=3.42文字/秒である。
 このような場合、発話区間検出部21Aは、「発話1」の発話音声信号を発話秒数=1.0秒、話速=5.0文字/秒に話速変換し、「発話2」の発話音声信号を発話秒数=3.2秒、話速=5.0文字/秒に話速変換し、「発話3」の発話音声信号を発話秒数=3.2秒、話速=5.0文字/秒に話速変換し、「発話4」の発話音声信号を発話秒数=2.4秒、話速=5.0文字/秒に話速変換する。
 なお、発話音声信号の話速は、発話音声信号の音声認識結果により取得された文字数と発話秒数とに基づいて算出されてもよいし、モーラ数、音節数、あるいは音種類数と発話秒数とに基づいて推定されてもよい。その他、発話音声信号の話速は、音声信号の時間成分、周波数成分から直接演算処理により推定されてもよい。
 以上により、実施の形態1における認証解析装置P1は、所定話速に変換された発話音声信号を用いて、発話音声信号に含まれるユーザUSの感情識別処理,登録話者データベースDBへの発話音声信号の登録処理等を実行することにより、感情ごとにユーザ認証処理に必要な個人性を十分に含む発話音声信号の登録を実現できる。したがって、認証解析装置P1は、ユーザ認証処置においてユーザ認証精度を向上させることができる。
 次に、図7および図8を参照して、認証解析装置P1の動作手順例について説明する、図7は、実施の形態1における認証解析装置P1の動作手順例を示すフローチャートである。図8は、実施の形態1における認証解析装置P1の動作手順例を示すフローチャートである。
 認証解析装置P1における通信部20は、オペレータ側通話端末OP1から送信されたユーザ側通話端末UP1との通話の音声信号(または音声データ)を取得する(St11)。通信部20は、取得された音声信号をプロセッサ210に出力する。また、通信部20は、オペレータ側通話端末OP1から送信されたユーザ側通話端末UP1の電話番号を取得し、プロセッサ210に出力する(St12)。なお、ここでいう電話番号は、ユーザ側通話端末UP1のIPアドレス等であってもよい。
 プロセッサ210は、通信部20から出力されたユーザ側通話端末UP1の電話番号と、登録話者データベースDBに登録(格納)された複数のユーザ側通話端末の電話番号のそれぞれとを照合し、ユーザ側通話端末UP1の電話番号が登録話者データベースDBに登録済みであるか否かを判定し、判定結果を含む進捗通知画面を生成して情報表示部DPに出力して表示させる(St12)。
 具体的に、プロセッサ210は、ステップSt12の処理において、ユーザ側通話端末UP1の電話番号が登録話者データベースDBに登録済みである(つまり、登録話者データベースDBへの登録がある)と判定した場合、電話番号に対応付けられたユーザUSに関する情報(例えば、ユーザUSの名前,住所,年齢等)を含む進捗通知画面DP12A(図10参照)を生成して、情報表示部DPに出力する(St12)。一方、プロセッサ210は、ステップSt12の処理において、ユーザ側通話端末UP1の電話番号が登録話者データベースDBに登録済みでない(つまり、登録話者データベースDBへの登録がない)と判定した場合、電話番号が登録済みでないことを通知する進捗通知画面DP11(図9参照)を生成して、情報表示部DPに出力する(St12)。
 プロセッサ210は、オペレータOPによりユーザUSの発話音声信号の登録開始を要求する操作(つまり、登録開始操作)を受け付けたか否かを判定する(St13)。
 プロセッサ210は、ステップSt13の処理において、オペレータOPによりユーザUSの発話音声信号の登録開始を要求する操作(つまり、登録開始操作)を受け付けたと判定した場合(St13,YES)、登録話者データベースDBへのユーザUSの発話音声信号の登録開始する(St14)。
 一方、プロセッサ210は、ステップSt13の処理において、オペレータOPによりユーザUSの発話音声信号の登録開始を要求する操作(つまり、登録開始操作)を受け付けていないと判定した場合(St13,NO)、再度、ステップSt13の処理に戻り、オペレータOPによりユーザUSの発話音声信号の登録開始を要求する操作(つまり、登録開始操作)を受け付けたか否かを判定する。プロセッサ210は、オペレータ側通話端末OP1からユーザ側通話端末UP1とオペレータ側通話端末OP1との間の通話が終了した制御指令を取得した場合、図7に示す動作手順を終了する。
 プロセッサ210における発話区間検出部21Aは、オペレータ側通話端末OP1から送信されたユーザUSの音声信号からユーザUSが発話している発話区間を検出する(St15)。
 プロセッサ210は、発話区間に対応する発話音声信号に含まれる文字数を音声認識する。発話区間検出部21Aは、音声認識された文字数と、発話音声信号の信号長(発話音声長、発話秒数等)とに基づいて、この発話音声信号の話速を算出する。プロセッサ210は、発話音声信号に話速変換処理を実行し、この発話音声信号の話速を所定話速に変換する(St16)。なお、ステップSt16の処理は、必須でなく省略されてもよい。
 プロセッサ210は、検出された発話区間の情報(例えば、発話区間の開始時刻と終了時刻、文字数、信号長(発話音声長、発話秒数等)、話速変換前または話速変換後の話速等)をメモリ22に記録する(St17)。
 プロセッサ210は、発話音声信号に含まれるユーザUSの感情を解析して識別する(St18)。プロセッサ210は、識別された発話音声信号を、感情ごとに連結する(St19)。
 プロセッサ210は、登録話者データベースDBに登録される登録目標データ量に対して、現在の発話音声信号の登録処理の進捗度を判定(算出)する(St20)。
 プロセッサ210は、現在の発話音声信号の登録処理の進捗度を示す登録進捗度情報IN13を生成する。プロセッサ210は、登録進捗度情報IN13を含む進捗通知画面DP11,DP12A(図9,図10参照)を生成して、情報表示部DPに出力して表示させて、進捗度の判定結果をオペレータOPにリアルタイムで通知する(St21)。
 プロセッサ210は、現在の進捗度が閾値以上であるか否かを判定する(St22)。
 プロセッサ210は、ステップSt22の処理において、現在の進捗度が閾値以上であると判定した場合(St22,YES)、登録話者データベースDBに電話番号が登録済みのユーザ側通話端末UP1であるか否かを判定する(St23)。
 一方、プロセッサ210は、ステップSt22の処理において、現在の進捗度が閾値以上でないと判定した場合(St22,NO)、登録処理を継続することを要求する制御指令を受け付けたか否かを判定する(St24)。
 プロセッサ210は、ステップSt24の処理において、オペレータ側通話端末OP1から送信されたオペレータOP操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けたと判定した場合(St24,YES)、ステップSt15の処理に移行する。
 一方、プロセッサ210は、ステップSt24の処理において、オペレータ側通話端末OP1から送信されたオペレータOP操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けていない(つまり、登録処理の中止あるいは終了を要求する制御指令を受け付けた)と判定した場合(St24,NO)、ステップSt30の処理に移行し、取得された発話音声信号の登録話者データベースDBへの登録処理を中止する(つまり、登録失敗)(St30)。
 プロセッサ210は、ステップSt23の処理において、進捗度判定部21Gにより登録話者データベースDBに電話番号が登録済みのユーザ側通話端末UP1であると判定された場合(St23,YES)、登録話者データベースDBに登録され、照合された電話番号が対応付けられた発話音声信号と、通話により取得された発話音声信号との類似度を算出する(St25)。ここで、プロセッサ210は、感情識別部21Eにより感情ごとに連結された発話音声信号と、登録話者データベースDBに登録され、かつ、この発話音声信号に含まれる感情と類似あるいは同一の感情を含む発話音声信号との類似度を算出する。
 一方、プロセッサ210は、進捗度判定部21GによりステップSt23の処理において、登録話者データベースDBに電話番号が登録済みのユーザ側通話端末UP1でないと判定した場合(St23,NO)、感情ごとに連結された発話音声信号と、取得されたユーザ側通話端末UP1の電話番号とを対応づけて、登録話者データベースDBの各感情データベースに登録(格納)し(St26)、発話音声信号の登録処理を完了する(St27)。
 プロセッサ210は、算出された類似度が閾値以上であるか否かを判定する(St28)。
 プロセッサ210は、ステップSt28の処理において、算出された類似度が閾値以上であると判定した場合(St28,YES)、現在、登録話者データベースDBに登録(格納)されているユーザ側通話端末UP1の電話番号が対応付けられた発話音声信号を、新たに取得された発話音声信号に更新(上書き)するか否かを、オペレータOP操作を受け付けることで判定する(St29)。
 一方、プロセッサ210は、ステップSt28の処理において、算出された類似度が閾値以上でないと判定した場合(St28,NO)、登録話者データベースDBに登録された発話音声信号と取得された発話音声信号とが異なるユーザの音声であると判定し、取得された発話音声信号の登録話者データベースDBへの登録処理を中止する(つまり、登録失敗)(St30)。
 プロセッサ210は、ステップSt27あるいはステップSt30の処理の後、発話音声信号の登録話者データベースDBへの登録処理結果を含む登録結果画面(不図示)を生成し、情報表示部DPに出力して表示させる(St31)。
 以上により、実施の形態1における認証解析装置P1は、ユーザUSの発話音声信号を感情ごとに分類して登録話者データベースDBに登録(格納)することができる。したがって、認証解析装置P1は、通話時のユーザUSの感情により発話音声信号に含まれる話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、取得された発話音声信号に含まれる感情に類似あるいは同一の感情に識別された発話音声信号を用いることでユーザ認証精度をより向上できる。
 次に、図9を参照して、登録話者データベースDBに登録されていないユーザ側通話端末UP1(つまり、ユーザUS)から取得された発話音声信号の登録処理の進捗通知画面について説明する。図9は、新規ユーザの進捗通知画面DP11の一例を説明する図である。なお、図9に示す進捗通知画面DP11は一例であって、これに限定されないことは言うまでもない。
 進捗通知画面DP11は、登録されていないユーザ側通話端末UP1(つまり、ユーザUS)の発話音声信号の登録処理の進捗状況をオペレータOPに通知する画面であって、プロセッサ210により生成されて、情報表示部DPにより表示される。進捗通知画面DP11は、ユーザ情報欄IN11と、登録名入力欄IF11と、音声信号グラフIN12と、登録進捗度情報IN13と、話者登録ボタンBT11と、を含む。
 ユーザ情報欄IN11は、ユーザ側通話端末UP1の電話番号,IPアドレス等に対応付けて登録(格納)されたユーザUSに関する情報を含む。図9に示すユーザ情報欄IN11は、例えば、ユーザ側通話端末UP1の電話番号,IPアドレス等の発信元番号「××-××××-××××」、ユーザ側通話端末UP1の電話番号が登録済みであるか否かを示す登録有無情報「登録なし(新規)」、ユーザUSの名前「なし」、ユーザUSの住所「なし」、ユーザUSの年齢「なし」、話者登録有無情報「なし」等の情報を含んで生成される。
 登録名入力欄IF11は、登録話者データベースDBに登録されるユーザ名についてオペレータ操作を受け付け可能な入力欄である。なお、登録名入力欄IF11は、ユーザ情報欄IN11に含まれるユーザUSに関する情報を入力可能であってよい。
 音声信号グラフIN12は、検出された発話区間の発話音声信号SG12に、発話音声信号SG12に含まれるユーザUSの感情識別結果を重畳して表示する。
 登録進捗度情報IN13は、登録話者データベースDBに登録される登録目標データ量に対する現在の発話音声信号の登録処理の進捗度IN131と、発話音声信号に含まれる音種類数「X」および発話長(信号長)「X」のそれぞれと、を含む。
 話者登録ボタンBT11は、オペレータOPによる登録話者データベースDBへの発話音声信号の登録処理の開始操作または停止操作を受け付ける。話者登録ボタンBT11は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の開始操作を受け付けた場合には、登録話者データベースDBに登録されていないユーザ側通話端末UP1(つまり、ユーザUS)から取得された発話音声信号の登録処理を実行する。また、話者登録ボタンBT11は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の停止操作を受け付けた場合には、登録話者データベースDBに登録されていないユーザ側通話端末UP1から取得された発話音声信号の登録処理を中止する。
 次に、図10および図11を参照して、登録話者データベースDBに登録済みのユーザ側通話端末UP1(つまり、ユーザUS)の発話音声信号の登録処理の進捗通知画面について説明する。図10は、登録済みユーザの進捗通知画面DP12Aの一例を説明する図である。図11は、登録済みユーザの進捗通知画面DP12Bの一例を説明する図である。なお、図10に示す進捗通知画面DP12Aと、図11に示す進捗通知画面DP12Bのそれぞれは一例であって、これに限定されないことは言うまでもない。
 進捗通知画面DP12Aは、登録話者データベースDBに登録済みのユーザ側通話端末UP1(つまり、ユーザUS)から取得された発話音声信号の登録処理の進捗状況をオペレータOPに通知する画面であって、プロセッサ210により生成されて、情報表示部DPにより表示される。進捗通知画面DP12Aは、ユーザ情報欄IN14と、登録名入力欄IF11と、音声信号グラフIN15と、登録進捗度情報IN13と、話者登録ボタンBT12と、を含む。
 ユーザ情報欄IN14は、ユーザ側通話端末UP1の電話番号,IPアドレス等に対応付けて登録(格納)されたユーザUSに関する情報を含む。図10に示すユーザ情報欄IN14は、例えば、ユーザ側通話端末UP1の電話番号,IPアドレス等の発信元番号「〇〇-〇〇〇〇-〇〇〇〇」、ユーザ側通話端末UP1の電話番号が登録済みであるか否かを示す登録有無情報「登録あり」、ユーザUSの名前「○○ 〇〇」、ユーザUSの住所「〇〇〇〇〇〇」、ユーザUSの年齢「〇〇」、話者登録有無情報「有」等の情報を含んで生成される。
 音声信号グラフIN15は、検出された発話区間の発話音声信号SG13に、発話音声信号SG13に含まれるユーザUSの感情識別結果を重畳して表示する。
 話者登録ボタンBT12は、オペレータOPによる登録話者データベースDBへの発話音声信号の登録処理の開始操作または停止操作を受け付ける。話者登録ボタンBT12は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の開始操作を受け付けた場合には、現在、登録話者データベースDBに登録されている発話音声信号を、取得された発話音声信号に更新(上書き)する。また、話者登録ボタンBT12は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の停止操作を受け付けた場合には、登録話者データベースDBへの発話音声信号の登録処理を中止する。
 進捗通知画面DP12Bは、進捗度判定部21Gにより取得された発話音声信号が、登録目標量に到達した(進捗度が閾値以上である)と判定した場合にプロセッサ210により生成されて、情報表示部DPにより表示される画面である。進捗通知画面DP12Bは、進捗通知画面DP12Aに含まれる各種情報に加えて、新たに更新通知情報IN16を含んで生成される。
 ここで、更新通知情報IN16は、進捗度判定部21Gにより取得された発話音声信号が、登録目標量に到達した(進捗度が閾値以上である)と判定した場合に生成されてもよいし、話者登録ボタンBT11は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の開始操作を受け付けた場合に生成されてもよい。
 更新通知情報IN16は、メッセージMSG11「○○ 〇〇さんの感情1は既に登録があり、同一話者であることを確認しました。データベースを更新しますか?」と、更新ボタンBT13と、登録中止ボタンBT14とを含む。
 プロセッサ210は、オペレータOP操作により更新ボタンBT13が押下(選択)された場合、登録話者データベースDBに既に登録済みの発話音声信号を、取得された発話音声信号に更新する。
 以上により、実施の形態1における認証解析装置P1は、話者(つまり、ユーザ)の発話音声の音声信号を取得する通信部20(取得部の一例)と、音声信号に含まれる話者の少なくとも1つの感情を識別する感情識別部21Eと、感情識別部21Eによる識別結果に基づいて、感情ごとの音声信号(つまり、発話音声信号)を登録話者データベースDB(データベースの一例)に登録するデータベース登録部21F(登録部の一例)と、を備える。
 これにより、実施の形態1における認証解析装置P1は、ユーザUSの発話音声信号を感情ごとに分類して登録話者データベースDBに登録(格納)することができる。したがって、認証解析装置P1は、通話時のユーザUSの感情により発話音声信号に含まれる発話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、取得された発話音声信号に含まれる感情に類似あるいは同一の感情に識別された発話音声信号を用いることでユーザ認証精度の低下をより効果的に抑制できる。
 また、以上により、実施の形態1における認証解析装置P1における登録話者データベースDBは、感情のそれぞれに対応する複数の感情データベース(例えば、図2に示す第1の感情データベースDB1,第2の感情データベースDB2,…,第Nの感情データベースDBN)を備える。データベース登録部21Fは、感情に対応する感情データベースに、感情ごとの音声信号を登録する。これにより、実施の形態1における認証解析装置P1は、音声信号を感情ごとに管理できるため、通話時のユーザUSの感情に対応する感情データベースを参照することで、ユーザ認証処理において登録済みの発話音声信号を用いることができる。したがって、認証解析装置P1は、ユーザ認証精度を向上できる。
 また、以上により、実施の形態1における認証解析装置P1における通信部20は、発話音声と、発話音声の話者を識別可能な話者情報とを取得する。データベース登録部21Fは、感情に対応する感情データベースに、感情ごとの音声信号と、話者情報とを対応付けて登録する。これにより、実施の形態1における認証解析装置P1は、各感情データベースに、それぞれの感情の発話音声信号を登録した場合であっても、同一話者の発話音声信号を管理できる。
 また、以上により、実施の形態1における認証解析装置P1におけるデータベース登録部21Fは、感情データベースに登録された話者情報のうち取得された話者情報と同一の話者情報があると判定した場合、感情データベースに登録済みであって、同一の話者情報の音声信号を感情ごとに識別された音声信号に更新する。これにより、実施の形態1における認証解析装置P1は、各感情データベースに登録(格納)された発話音声信号を、新たに取得された発話音声信号に上書き(更新)することで、登録話者データベースDBの空き容量不足の発生をより効率的に抑制できる。
 また、以上により、実施の形態1における認証解析装置P1は、データベース登録部21Fにより感情データベースに登録された話者情報のうち取得された話者情報と同一の話者情報があると判定した場合、同一の話者情報の音声信号と、取得された音声信号との類似度を算出する類似度計算部21D、をさらに備える。データベース登録部21Fは、判定された類似度が閾値以上であると判定した場合、感情データベースに登録済みの音声信号を識別された音声信号に更新する。これにより、実施の形態1における認証解析装置P1は、類似度に基づいて、同一話者であると判定された話者情報が対応付けられ、各感情データベースに登録(格納)された発話音声信号を、新たに取得された発話音声信号に上書き(更新)できる。
 また、以上により、実施の形態1における認証解析装置P1におけるデータベース登録部21Fは、算出された類似度が閾値以上でないと判定した場合、感情データベースに登録済みの音声信号の更新を省略する。これにより、実施の形態1における認証解析装置P1は、類似度に基づいて、同一人物でないと判定された場合には、各感情データベースに登録(格納)された発話音声信号の上書き(更新)を省略できる。
 また、以上により、実施の形態1における認証解析装置P1におけるデータベース登録部21Fは、感情データベースに登録された話者情報のうち取得された話者情報と同一の話者情報がないと判定した場合、感情ごとに識別された音声信号を対応する感情データベースに登録する。これにより、実施の形態1における認証解析装置P1は類似度に基づいて、同一話者の発話音声信号が登録されていないと判定した場合には、取得された感情ごとの発話音声信号を、この話者の新たな発話音声信号として各感情データベースに登録(格納)できる。
 また、以上により、実施の形態1における認証解析装置P1は、通信部20により取得された音声信号を所定話速に変換する発話区間検出部21A(変換部の一例)、をさらに備える。発話区間検出部21Aは、所定話速に変換された音声信号を用いて感情を識別する。これにより、実施の形態1における認証解析装置P1は、話者の話速にばらつきが生じた場合であっても、話速を所定話速に変換することで、ユーザ認証精度を向上できる。
 また、以上により、実施の形態1における認証解析装置P1において、話者情報は、発話音声を収音するユーザ側通話端末UP1(収音装置の一例)の電話番号である。これにより、実施の形態1における認証解析装置P1は、他の話者によるなりすましをより効果的に抑制できる。
(実施の形態2に至る経緯)
 特許文献1には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも1つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかし、同一の電話番号であっても、例えば電話番号に対応する発話者と、この発話者以外の声紋データとが入れ替わって発話する場合がある。このような場合、通話装置は、異なる複数の発話者の声紋データを、取得された電話番号に対応して格納するため、声紋照合時に声紋照合精度が低下する可能性があった。
 そこで、以下の実施の形態2では、通話中の発話者の切替わりを検出し、音声認証に用いられる発話音声を収集する発話音声登録装置および発話音声登録方法の例を説明する。なお、以下の説明において、実施の形態1と同一の構成要素については同一の符号を用いることで、その説明を省略する。
(実施の形態2)
 図12を参照して、実施の形態2における認証解析装置P1Aの内部構成例を示すブロック図について説明する。図12は、実施の形態2における認証解析装置P1Aの内部構成例を示すブロック図である。
 実施の形態2における認証解析装置P1Aは、コンピュータの一例であって、通話中の話者の切替わりを検出し、発話音声信号から登録話者データベースDBへの登録対象であるユーザUSの発話音声信号を抽出する。認証解析装置P1Aは、抽出されたユーザUSの発話音声信号に含まれる感情を解析して識別し、識別された感情ごとの発話音声信号を、対応する感情データベースに登録(格納)する。
 実施の形態2における認証解析装置P1Aのプロセッサ211は、発話区間検出部21A、発話連結部21B、特徴量抽出部21C、類似度計算部21D、感情識別部21E、データベース登録部21F、進捗度判定部21G、および話者切替わり識別部21Hのそれぞれの機能を実現する。
 話者切替わり識別部21Hは、オペレータ側通話端末OP1から送信され、発話区間検出部21Aにより検出された発話音声信号のうち直近で検出された複数の発話音声信号のそれぞれを連結した直近連結信号を生成する。話者切替わり識別部21Hは、生成された直近連結信号と、登録話者データベースDBに登録されたユーザUSの発話音声信号との類似度を判定する。話者切替わり識別部21Hは、直近連結信号の生成処理と、類似度の判定処理とを繰り返し実行し、判定された類似度、あるいは類似度の変化に基づいて、話者の切替わりを判定する。
 話者切替わり識別部21Hは、話者の切替わりが判定されたタイミングに基づいて、登録話者データベースDBへの発話音声信号の登録対象であるユーザUSの発話音声信号を抽出し、抽出されたすべての発話音声信号のそれぞれを連結した長時間連結信号を生成し、データベース登録部21Fに出力する。
 データベース登録部21Fは、話者切替わり識別部21Hから出力された長時間連結信号と、感情識別部21Eから出力された各発話区間のそれぞれに対応する発話音声信号の感情識別結果とに基づいて、登録話者データベースDBの各感情データベースに発話音声信号を登録(格納)する。
 次に、図13を参照して、話者切替わり識別部21Hにより実行される話者の切替わり識別処理について説明する。図13は、話者の切替わり識別処理例を説明する図である。なお、図13で説明する話者の切替わり識別処理は、一例であってこれに限定されない。例えば、直近連結信号に含まれる発話音声信号の数は3つに限定されない。なお、図13の説明において、ユーザ側通話端末UP1の所持者はユーザAである。
 図13に示す例において、ユーザ側通話端末UP1の所持者であるユーザAは、オペレータOPとの通話中にユーザ側通話端末UP1をユーザBに渡す。これにより、オペレータ側通話端末OP1から送信される音声信号は、ユーザAの発話音声からユーザBの発話音声に切り替わる。
 発話音声信号Us21,Us22,Us23,Us24,Us25のそれぞれは、ユーザAの発話音声信号である。各発話音声信号Us21~Us25のそれぞれに対応する「発話A1」~「発話A5」のそれぞれは、発話区間検出部21Aにより検出された各発話区間の発話音声信号を示す。
 発話音声信号Us31,Us32,Us33,Us34のそれぞれは、ユーザBの発話音声信号である。各発話音声信号Us31~Us34のそれぞれに対応する「発話B1」~「発話B4」のそれぞれは、発話区間検出部21Aにより検出された発話音声信号を示す。
 認証解析装置P1における発話区間検出部21Aは、オペレータ側通話端末OP1から送信された音声信号からユーザAおよびユーザBの発話区間「発話A1」~「発話A5」および発話区間「発話B1」~「発話B4」をそれぞれ検出する。
 プロセッサ211は、オペレータOPによりユーザAの発話音声信号の登録開始を要求する操作(つまり、登録開始操作)を受け付けたと判定したタイミングで、登録話者データベースDBへのユーザAの発話音声信号の登録を開始する。
 プロセッサ211は、オペレータ側通話端末OP1から送信されたユーザ側通話端末UP1の電話番号と、登録話者データベースDBに登録された複数のユーザ側通話端末のそれぞれの電話番号とを照合し、ユーザ側通話端末UP1の所持者であるユーザAを特定する。
 話者切替わり識別部21Hは、発話区間検出部21Aにより直近に検出された3つの発話区間「発話A2」~「発話A4」のそれぞれを連結した直近連結信号ML11と、登録話者データベースDBに登録されたユーザAの発話音声信号との類似度を判定する。このとき、直近連結信号ML11がすべてユーザAの発話音声から構成されており、所定の閾値以上の類似度であるため、話者切替わり識別部21Hは、直近連結信号ML11の類似度を「高」と判定する。話者切替わり識別部21Hは、1回目の類似度の判定に用いられた直近連結信号ML11と、1回目に判定された類似度とを対応付けてメモリ22に記録する。
 話者切替わり識別部21Hは、発話区間検出部21Aにより直近に検出された3つの発話区間「発話A3」~「発話A5」のそれぞれを連結した直近連結信号ML12と、登録話者データベースDBに登録されたユーザAの発話音声信号との類似度を判定する。このとき、直近連結信号ML12がすべてユーザAの発話音声から構成されており、所定の閾値以上の類似度であるため、話者切替わり識別部21Hは、直近連結信号ML12の類似度を「高」と判定する。話者切替わり識別部21Hは、2回目の類似度の判定に用いられた直近連結信号ML12と、2回目に判定された類似度とを対応付けてメモリ22に記録する。
 話者切替わり識別部21Hは、1回目の類似度判定処理により判定された類似度と、2回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末UP1の話者が切り替わったか否かを判定する。直近連結信号ML11の類似度が「高」であり、直近連結信号ML12の類似度も「高」であるため、図13における話者切替わり識別部21Hは、直近連結信号ML11の話者と直近連結信号ML12の話者とが切り替わっていないと判定する。
 話者切替わり識別部21Hは、発話区間検出部21Aにより直近に検出された3つの発話区間「発話A4」~「発話B1」のそれぞれを連結した直近連結信号ML13と、登録話者データベースDBに登録されたユーザAの発話音声信号との類似度を判定する。このとき、直近連結信号ML13がユーザAとユーザBとの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部21Hは、直近連結信号ML13の類似度を「低」と判定する。話者切替わり識別部21Hは、3回目の類似度の判定に用いられた直近連結信号ML13と、3回目に判定された類似度とを対応付けてメモリ22に記録する。
 話者切替わり識別部21Hは、2回目の類似度判定処理により判定された類似度と、3回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末UP1の話者が切り替わったか否かを判定する。直近連結信号ML12の類似度が「高」であり、直近連結信号ML13の信頼度が「低」であるため、図13における話者切替わり識別部21Hは、直近連結信号ML12の話者と直近連結信号ML13の話者とが切り替わったと判定する。
 話者切替わり識別部21Hは、発話区間検出部21Aにより直近に検出された3つの発話区間「発話A5」~「発話B2」のそれぞれを連結した直近連結信号ML14と、登録話者データベースDBに登録されたユーザAの発話音声信号との類似度を判定する。このとき、直近連結信号ML14がユーザAとユーザBとの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部21Hは、直近連結信号ML14の信頼度を「低」と判定する。話者切替わり識別部21Hは、4回目の類似度の判定に用いられた直近連結信号ML14と、4回目に判定された類似度とを対応付けてメモリ22に記録する。
 話者切替わり識別部21Hは、3回目の類似度判定処理により判定された類似度と、4回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末UP1の話者が切り替わったか否かを判定する。直近連結信号ML13の類似度が「低」であり、直近連結信号ML14の信頼度も「低」であるため、図13における話者切替わり識別部21Hは、直近連結信号ML13の話者と直近連結信号ML14の話者とが切り替わっていないと判定する。
 話者切替わり識別部21Hは、発話区間検出部21Aにより直近に検出された3つの発話区間「発話B1」~「発話B3」のそれぞれを連結した直近連結信号ML15と、登録話者データベースDBに登録されたユーザAの発話音声信号との類似度を判定する。このとき、直近連結信号ML15がすべてユーザBの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部21Hは、直近連結信号ML15の類似度を「低」と判定する。話者切替わり識別部21Hは、5回目の類似度の判定に用いられた直近連結信号ML15と、5回目に判定された類似度とを対応付けてメモリ22に記録する。
 話者切替わり識別部21Hは、4回目の類似度判定処理により判定された類似度と、5回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末UP1の話者が切り替わったか否かを判定する。直近連結信号ML14の類似度が「低」であり、直近連結信号ML15の類似度が「低」であるため、図13における話者切替わり識別部21Hは、直近連結信号ML14の話者と直近連結信号ML15の話者とが切り替わっていないと判定する。
 話者切替わり識別部21Hは、発話区間検出部21Aにより直近に検出された3つの発話区間「発話B2」~「発話B4」のそれぞれを連結した直近連結信号ML16と、登録話者データベースDBに登録されたユーザAの発話音声信号との類似度を判定する。このとき、直近連結信号ML16がすべてユーザBの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部21Hは、直近連結信号ML16の類似度を「低」と判定する。話者切替わり識別部21Hは、6回目の類似度の判定に用いられた直近連結信号ML16と、6回目に判定された類似度とを対応付けてメモリ22に記録する。
 話者切替わり識別部21Hは、5回目の類似度判定処理により判定された類似度と、6回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末UP1の話者が切り替わったか否かを判定する。直近連結信号ML15の類似度が「低」であり、直近連結信号ML16の類似度も「低」であるため、図13における話者切替わり識別部21Hは、直近連結信号ML15の話者と直近連結信号ML16の話者とが切り替わっていないと判定する。
 話者切替わり識別部21Hは、判定された類似度に基づいて、ユーザAであると判定された直近連結信号ML12までの発話音声信号Us21~Us25のそれぞれを連結した長時間連結信号LT12を生成して、データベース登録部21Fに出力する。
 データベース登録部21Fは、感情識別部21Eから出力された発話音声信号ごとの感情識別結果に基づいて、話者切替わり識別部21Hから出力された長時間連結信号LT12と、ユーザ側通話端末UP1の電話番号とを対応付けて、登録話者データベースDBの各感情データベースに登録(格納)する。
 なお、実施の形態2における話者切替わり識別部21Hは、類似度判定処理を実行するたびに、類似度判定処理が開始された時の発話区間から類似度判定処理に用いられた直近の発話区間までのすべての発話音声信号を連結した長時間連結信号LT11,LT12,LT13,LT14,LT15,LT16のそれぞれを生成してもよい。
 また、話者切替わり識別部21Hは、類似度が所定値以上であって、かつ、話者が切替わっていないと判定した場合、この発話区間までのすべての発話音声信号を連結した長時間連結信号を生成し、データベース登録部21Fに出力してもよい。
 次に、図14を参照して、実施の形態2における感情識別処理を説明する。図14は、実施の形態2における感情識別処理例を説明する図である。なお、図14で説明する感情識別処理方法は、実施の形態1における感情識別部21Eでも同様に実行されてよい。
 なお、図14で説明する感情識別処理は、一例として感情が含まれる(つまり、平常でない)発話音声信号と、感情が含まれていない(つまり、平常である)発話音声信号とを識別する例について説明するがこれに限定されない。例えば、感情識別部21Eは、所定の感情(例えば、怒り)が含まれる発話音声信号と、所定の感情が含まれていない発話音声信号とを識別してもよいし、2つ以上の所定の感情(例えば、怒り,興奮)が含まれる発話音声信号と、これら2つ以上の所定の感情が含まれていない発話音声信号とを識別してもよい。また、感情識別部21Eは、これら2つ以上の所定の感情が含まれていない発話音声信号にさらに感情識別処理を実行することにより、各感情データベースに対応する感情を識別してもよい。
 感情識別部21Eは、取得された発話音声信号SG21からユーザUSの感情を識別し、感情が含まれる発話音声信号の時間帯PR22と、感情が含まれない発話音声信号の時間帯PR21,PR23のそれぞれとを抽出する。
 図14に示す例において、感情識別部21Eは、発話音声信号SG21に含まれるユーザUSの感情を解析し、閾値Th2以上である発話音声信号には感情が含まれていると判定し、閾値Th1未満である発話音声信号には感情が含まれていないと判定する。感情識別部21Eは、時間t41から時間t42までの間の時間帯PR21の発話音声信号と、時間t43から時間t44までの間の時間帯PR23の発話音声信号とを「感情なし」,時間t42から時間t43までの間の時間帯PR22の発話音声信号を「感情あり」のそれぞれに識別する。感情識別部21Eは、時間帯PR21の発話音声信号と、時間帯PR23の発話音声信号とを結合して、データベース登録部21Fに出力する。
 データベース登録部21Fは、感情識別部21Eから出力された発話音声信号と、ユーザ側通話端末UP1の電話番号とを対応付けて、登録話者データベースDBに登録(格納)する。
 これにより、実施の形態2における認証解析装置P1は、ユーザUSの発話音声信号に含まれる感情に基づいて、ユーザ認証処理により適した発話音声信号(図14では感情を含まない発話音声信号)のみを抽出し、登録話者データベースDBに登録(格納)できる。したがって、認証解析装置P1は、通話時のユーザUSの感情により発話音声信号に含まれる話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、感情を含まない発話音声信号を用いることでユーザ認証精度の低下をより効果的に抑制できる。
 また、これにより、認証解析装置P1は、登録話者データベースDBに登録(格納)された発話音声信号を、新たに取得された発話音声信号に上書き(更新)することで、より最新の個人性を含む発話音声信号を用いたユーザ認証処理によってユーザ認証精度を向上させたり、登録話者データベースDBの空き容量不足の発生をより効率的に抑制したりできる。
 次に、図15および図16のそれぞれを参照して、実施の形態2における認証解析装置P1Aの動作手順について説明する。図15は、実施の形態2における音声登録処理例を説明するフローチャートである。図16は、実施の形態2における音声登録処理例を説明するフローチャートである。なお、図15および図16の説明において、図7および図8に示す実施の形態1における認証解析装置P1の動作手順と同一の処理については、説明を省略する。
 認証解析装置P1Aのプロセッサ211は、各発話区間の発話音声信号に含まれる発話特徴量を抽出する(St32)。
 プロセッサ211は、発話区間検出部21Aにより直近で検出された数回分の発話区間のそれぞれの発話音声信号を連結して直近連結信号を生成する。プロセッサ211は、ユーザ側通話端末UP1の電話番号と、登録話者データベースDBに登録された複数のユーザ側通話端末のそれぞれの電話番号とを照合する。プロセッサ211は、生成された直近連結信号と、照合の結果、登録話者データベースDBでユーザ側通話端末UP1の電話番号と同一の電話番号に対応付けられた各感情の発話音声信号との類似度を判定する。プロセッサ211は、判定された類似度の変化に基づいて、話者が切り替わった否か(話者切替わり識別)を判定する(St33)。なお、ここでプロセッサ211は、類似度の判定処理が1回目である場合、話者切替わり識別処理を省略してもよい。
 プロセッサ211は、類似度が閾値以上である発話音声信号と、ユーザ側通話端末UP1の電話番号とを対応付けて、登録話者データベースDBの各感情データベースに登録(格納)する(St34)。なお、プロセッサ211は、ステップSt34の処理において、判定された類似度が閾値以上でないと判定した場合、登録話者データベースDBの各感情データベースへの発話音声信号の登録(格納)処理を省略する。
 プロセッサ211は、登録目標データ量の発話音声信号が登録話者データベースDBに登録完了したか否かを判定する(St35)。
 プロセッサ211は、ステップSt35の処理において、登録目標データ量の発話音声信号が登録話者データベースDBに登録完了したと判定した場合(St35,YES)、発話音声信号の登録処理を完了する(St36)。
 プロセッサ211は、ステップSt35の処理において、登録目標データ量の発話音声信号が登録話者データベースDBに登録完了していないと判定した場合(St35,NO)、登録処理を継続することを要求する制御指令を受け付けたか否かを判定する(St37)。
 プロセッサ211は、ステップSt37の処理において、オペレータ側通話端末OP1から送信されたオペレータOP操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けたと判定した場合(St37,YES)、ステップSt15の処理に移行する。
 一方、プロセッサ211は、ステップSt37の処理において、オペレータ側通話端末OP1から送信されたオペレータOP操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けていない(つまり、登録処理の中止あるいは終了を要求する制御指令を受け付けた)と判定した場合(St37,NO)、取得された発話音声信号の登録話者データベースDBへの登録処理を中止する(つまり、登録失敗)(St39)。
 プロセッサ210は、ステップSt36あるいはステップSt39の処理の後、発話音声信号の登録話者データベースDBへの登録処理結果を含む登録結果画面(不図示)を生成し、情報表示部DPに出力して表示させる(St38)。
 以上により、実施の形態2における認証解析装置P1は、ユーザUSの発話音声信号に含まれる感情の有無に基づいて、ユーザ認証処理により適した発話音声信号のみを登録話者データベースDBに登録できる。したがって、認証解析装置P1は、通話時のユーザUSの感情により発話音声信号に含まれる話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理においてユーザ認証精度をより向上できる。
 以上により、実施の形態2における認証解析装置P1Aは、話者の発話音声の音声信号を取得する通信部20(取得部の一例)と、音声信号から話者の第1の発話区間と、第1の発話区間と異なる第2の発話区間とを検出する発話区間検出部21A(検出部の一例)と、第1の発話区間の音声信号と第2の発話区間の音声信号とを比較して、話者から話者と異なる他の話者への切替わり(例えば、図13に示すユーザAからユーザBへの切替わり)を検知する話者切替わり識別部21H(検知部の一例)と、話者切替わり識別部21Hによる切替わりの検知に基づいて、話者の音声信号を登録話者データベースDB(データベースの一例)に登録するデータベース登録部21F(登録部の一例)と、を備える。
 これにより、実施の形態2における認証解析装置P1Aは、同一のユーザ側通話端末UP1を用いた通話において、異なる複数の話者の音声信号を取得した場合であっても、各発話区間の発話音声信号に基づいて、話者の切替わりを検知できる。したがって、認証解析装置P1Aは、登録話者データベースDBに登録される発話音声信号に他の話者の発話音声信号が混ざって登録されたり、上書きされたりする誤登録をより効果的に抑制できる。
 また、以上により、実施の形態2における認証解析装置P1Aは、異なる2つの音声信号の類似度を算出する類似度計算部21D、をさらに備える。通信部20は、話者を識別可能な話者情報をさらに取得する。類似度計算部21Dは、登録話者データベースDBに登録された複数の話者のそれぞれの話者情報のうち取得された話者情報と同一の話者情報に対応付けられた発話音声信号(登録音声信号の一例)を取得し、登録音声信号と第1の発話区間との第1の類似度と、登録音声信号と第2の発話区間との第2の類似度とを算出する。話者切替わり識別部21Hは、第1の類似度と第2の類似度との変化に基づいて、話者から他の話者への切替わりを検知する。これにより、実施の形態2における認証解析装置P1Aは、登録話者データベースDBに登録済みの発話音声信号との類似度に基づいて、ユーザ側通話端末UP1の所持者である話者の発話音声信号と、他の話者の発話音声信号とを識別できる。したがって、認証解析装置P1Aは、登録される発話音声信号に他の話者の発話音声信号が混ざって登録されたり、上書きされたりする誤登録をより効果的に抑制できる。
 また、以上により、実施の形態2における認証解析装置P1Aにおける話者切替わり識別部21Hは、類似度が閾値以上でないと判定した場合、話者から他の話者への切替わりを検知する。これにより、実施の形態2における認証解析装置P1Aは、登録話者データベースDBに登録済みの発話音声信号との類似度に基づいて、ユーザ側通話端末UP1の所持者である話者の発話音声信号と、他の話者の発話音声信号とを識別できる。
 また、以上により、実施の形態2における認証解析装置P1Aは、音声信号に含まれる少なくとも1つの感情を識別する感情識別部21Eと、感情識別部による識別結果に基づいて、感情を含む発話区間を削除する発話区間検出部21A(削除部の一例)と、をさらに備える。発話区間検出部21Aは、感情を含む発話区間が削除された音声信号から話者の第1の発話区間と、第2の発話区間とを検出する。これにより、実施の形態2における認証解析装置P1Aは、ユーザUSの発話音声信号に含まれる感情に基づいて、ユーザ認証処理により適した発話音声信号(図14では感情を含まない発話音声信号)のみを抽出し、登録話者データベースDBに登録(格納)できる。
 また、以上により、実施の形態2における認証解析装置P1Aは、音声信号に含まれる少なくとも1つの感情を識別する感情識別部21Eと、感情識別部21Eによる識別結果に基づいて、感情を含む発話区間を削除するか否かの操作を受け付ける通信部20(入力部の一例)と、をさらに備える。発話区間検出部21Aは、通信部20が発話区間を削除する操作を受け付けた場合、感情を含む発話区間を削除し、感情を含む発話区間が削除された音声信号から話者の第1の発話区間と、第2の発話区間とを検出する。これにより、実施の形態2における認証解析装置P1Aは、オペレータOP操作に基づいて、ユーザUSの感情が含まれる発話音声信号を登録話者データベースDBに登録(格納)するか否かを選択可能にする。
 また、以上により、実施の形態2における認証解析装置P1Aは、通信部20により取得された音声信号を所定話速に変換する発話区間検出部21A(変換部の一例)、をさらに備える。感情識別部21Eは、所定話速に変換された音声信号を用いて感情を識別する。これにより、実施の形態2における認証解析装置P1Aは、話者の話速にばらつきが生じた場合であっても、話速を所定話速に変換することで、ユーザ認証精度を向上できる。
 また、以上により、実施の形態2における認証解析装置P1Aにおいて、第1の発話区間および第2の発話区間のそれぞれは、少なくとも同一の発話区間を含む。これにより、実施の形態2における認証解析装置P1Aは、話者の切替わりのタイミングをより精度よく検知できる。
 また、以上により、実施の形態2における認証解析装置P1Aにおいて、話者情報は、発話音声を収音するユーザ側通話端末UP1(収音装置の一例)の電話番号である。これにより、実施の形態2における認証解析装置P1Aは、他の話者によるなりすましをより効果的に抑制できる。
(実施の形態3に至る経緯)
 特許文献1には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも1つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかし、上述した通話装置は、発話者自身の操作に基づいて、発話音声(声紋データ)の収音を行い、収音が終わったタイミングで、声紋データの合算取得時間長が声紋照合のために必要な時間よりも長いと判定した場合に発話者に声紋データを登録するか否かの選択を要求する。よって、通話装置は、声紋データの合算取得時間長が声紋照合のために必要な時間よりも短い場合、発話者が声紋データを登録しないと選択した場合には、新たな声紋データの格納を行うことができないという課題があった。
 また、声紋データの登録方法として、発話者とオペレータとの通話音声のうち発話者の音声のみを抽出し、抽出された発話者の音声を声紋データとして格納する方法がある。このような声紋データの登録方法において、オペレータは、現在取得され、格納されている発話者の声紋データの登録状況がリアルタイムで分からないため、通話中の顧客に対する応答が遅れてしまったり、通話中に十分な声紋データの取得および登録ができなかったりする可能性があった。
 そこで、以下の実施の形態3では、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する発話音声登録装置および発話音声登録方法の例を説明する。なお、以下の説明において、実施の形態1または実施の形態2と同一の構成要素については同一の符号を用いることで、その説明を省略する。
(実施の形態3)
 図17を参照して、実施の形態3における認証解析装置P1Bの内部構成例を示すブロック図について説明する。図17は、実施の形態3における認証解析装置P1Bの内部構成例を示すブロック図である。
 実施の形態3における認証解析装置P1Bは、コンピュータの一例であって、ユーザUSが発した発話において不足している音種類数,発話長等に基づいて、不足している音種類数,発話長等を取得するためのユーザUSへの質問例を生成する。認証解析装置P1Bは、生成された質問例画面DP21(図20参照)、あるいは進捗通知画面DP22A,DP22B等を生成し、情報表示部DPに出力して表示させる。
 実施の形態3におけるプロセッサ212は、発話区間検出部21A、発話連結部21B、特徴量抽出部21C、類似度計算部21D、感情識別部21E、データベース登録部21F、および進捗度判定部21Iのそれぞれの機能を実現する。
 進捗度判定部21Iは、ユーザUSが発した発話において不足している音種類数,発話長等に基づいて、現在の進捗度を判定する。進捗度判定部21Iは、現在の発話音声信号の登録処理の進捗度(つまり、登録目標データ量)が閾値以上でないと判定した場合、ユーザUSが発した複数の発話音声信号で不足している音種類数,発話長等に基づいて、不足している音種類数,発話長等を取得するためのユーザUSへの質問例を生成する。
 進捗度判定部21Iは、判定された進捗度(言い換えると、発話音声信号の現在の登録状況)をオペレータOPにリアルタイムで通知する進捗通知画面DP22A,DP22B(図21,図22参照)を生成して、情報表示部DPに出力して表示させる。
 また、認証解析装置P1Bは、現在の発話音声信号の登録処理の進捗度(つまり、登録目標データ量)が閾値以上でないと判定した場合、ユーザUSが発した発話において不足している音種類数,発話長(信号長)等に基づいて、不足している音種類数,発話長等を取得するためのユーザUSへの質問例を生成する。認証解析装置P1Bは、生成された質問例画面DP21(図20参照)、あるいは進捗通知画面DP22A,DP22B等を生成し、情報表示部DPに出力して表示させる。
 実施の形態3におけるメモリ221は、不足する音種類数,発話長等に対応して選定される複数の質問例のそれぞれを記憶する。
 次に、図18を参照して、実施の形態3における進捗度判定部21Iが行う進捗度判定処理について説明する。図18は、実施の形態3における進捗度判定処理例を説明する図である。
 図18に示す例において、発話音声信号Us41,Us42,Us43のそれぞれは、ユーザUSの発話音声信号であって、登録話者データベースDBに登録しようとしている発話音声信号を示す。
 進捗度判定部21Iは、現在、音種類数=7、発話長=5秒の発話音声信号Us41が登録されている場合、進捗度が「低」であると判定する。また、進捗度判定部21Iは、現在、音種類数=12、発話長=10秒の発話音声信号Us42が登録されている場合、進捗度が「中」であると判定する。また、進捗度判定部21Iは、現在、音種類数=15、発話長=13秒の発話音声信号Us43が登録されている場合、進捗度が「高」であると判定する。なお、進捗度判定部21Iは、進捗度をパーセンテージで評価してもよい。
 ここで、プロセッサ212は、進捗度判定部21Iにより判定された進捗度に基づいて、音声出力により進捗度をオペレータOPに通知してもよい。例えば、プロセッサ212は、進捗度が「低」である場合には所定の通知音を1回だけ出力し、進捗度が「中」である場合には所定の通知音を2回出力し、進捗度が「高」である場合には所定の通知音を3回出力する。これにより、オペレータOPは、所定の通知音が鳴る回数に基づいて、現在の進捗度を知ることができる。なお、所定の通知音は、音声メッセージであってもよい。
 次に、図19を参照して、実施の形態3における認証解析装置の動作手順について説明する。図19は、実施の形態3における認証解析装置P1Bの動作手順例を示すフローチャートである。
 プロセッサ212は、現在の進捗度が閾値以上であるか否かを判定する(St40)。
 プロセッサ212は、ステップSt40の処理において、現在の進捗度が閾値以上であると判定した場合(St40,YES)、感情ごとに連結された発話音声信号と、取得されたユーザ側通話端末UP1の電話番号とを対応づけて、登録話者データベースDBの各感情データベースに登録(格納)し(St41)、発話音声信号の登録処理を完了する(St42)。
 一方、プロセッサ212は、ステップSt40の処理において、現在の進捗度が閾値以上でないと判定した場合(St40,NO)、登録処理を継続することを要求する制御指令を受け付けたか否かを判定する(St43)。
 プロセッサ212は、ステップSt43の処理において、オペレータ側通話端末OP1から送信されたオペレータOP操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けたと判定した場合(St43,YES)、現在不足している発話音声信号の音種類数,発話長等に基づいて、少なくとも1つの質問例を選定する。プロセッサ212は、選定された質問例を含む質問例画面DP21(図20参照)、あるいは進捗通知画面DP22A,DP22B(図21,図22参照)等を生成して、情報表示部DPに出力して表示させる(St44)。プロセッサ212は、ステップSt15の処理に移行する。
 一方、プロセッサ212は、ステップSt43の処理において、オペレータ側通話端末OP1から送信されたオペレータOP操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けていない(つまり、登録処理の中止あるいは終了を要求する制御指令を受け付けた)と判定した場合(St43,NO)、取得された発話音声信号の登録話者データベースDBへの登録処理を中止する(つまり、登録失敗)(St45)。
 プロセッサ212は、ステップSt42あるいはステップSt45の処理の後、発話音声信号の登録話者データベースDBへの登録処理結果を含む登録結果画面(不図示)を生成し、情報表示部DPに出力して表示させる(St46)。
 以上により、実施の形態3における認証解析装置P1Bは、ユーザUSの発話音声信号を感情ごとに識別して登録話者データベースDBに登録(格納)することができる。したがって、認証解析装置P1Bは、通話時のユーザUSの感情により発話音声信号に含まれる音種類数,発話長にばらつきが生じた場合であっても、登録目標データ量としてユーザ認証に必要な音種類数,発話長を含む発話音声信号を取得するための質問例をオペレータOPに提示することで、オペレータOPを支援できる。
 また、認証解析装置P1Bは、判定された進捗度をリアルタイムでオペレータOPに可視化する。したがって、オペレータOPは、ユーザUSによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザUSとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。
 次に、図20を参照して、質問例画面DP21について説明する。図20は、質問例画面DP21の一例を説明する図である。なお、図20に示す質問例画面DP21は一例であって、これに限定されない。また、図20に示す音種類数グラフIN212は必須でなく、省略されてよい。
 質問例画面DP21は、進捗度判定部21Iにより現在の発話音声信号の登録処理の進捗度(つまり、登録目標データ量)が閾値以上でないと判定した場合に生成され、情報表示部DPに表示される。
 進捗度判定部21Iは、ユーザUSが発した発話において不足している音種類数,発話長(信号長)等を解析し、解析結果に基づいて、ユーザ認証処理に用いられる発話音声信号として不足している音種類数,発話長等を取得するための少なくとも1つの質問例を選定する。進捗度判定部21Iは、選定された少なくとも1つの質問例のそれぞれに優先順位を設定し、少なくとも1つの質問例と、質問例に対応する優先順位とを含む質問例画面DP21を生成して、情報表示部DPに出力して表示させる。なお、優先順位の情報は必須でなく省略されてよい。
 図20に示す例における質問例画面DP21は、4つの質問例と、ユーザUSが発した発話において音ごとの音種類数を示す音種類数グラフIN212とを含んで生成される。質問例画面DP21は、上から順に優先順位1である質問例「登録したいご住所をお聞かせいただけますでしょうか?」と、優先順位2である質問例「登録したいお電話番号をお聞かせいただけますでしょうか?」と、優先順位3である質問例「お客様のご生年月日をお聞かせいただけますでしょうか?」と、優先順位4である質問例「「かきくけこ」と発話していただけますか?」とを含む。
 これにより、オペレータOPは、質問例画面DP21の4つの質問例のそれぞれのうちいずれか1つの質問を選択して、ユーザUSに質問できる。
 これにより、実施の形態3における認証解析装置P1Bは、不足している音種類数,発話長等をより効率的に取得し、ユーザ認証により適した発話音声信号を取得できる。また、認証解析装置P1Bは、ユーザUSとオペレータOPとの間の通話が長引かないようにオペレータOPを支援できる。
 次に、図21および図22のそれぞれを参照して、実施の形態3における進捗度判定部21Iにより生成される進捗通知画面について説明する。図21は、ユーザUSの進捗通知画面DP22Aの一例と説明する図である。図22は、ユーザUSの進捗通知画面DP22Bの一例と説明する図である。なお、図21に示す進捗通知画面DP22Aおよび図22に示す進捗通知画面DP22Bのそれぞれは一例であってこれに限定されない。
 進捗通知画面DP22Aは、ユーザ側通話端末UP1から取得された発話音声信号の登録処理の進捗状況をオペレータOPに通知する画面であって、プロセッサ212により生成されて、情報表示部DPにより表示される。また、進捗通知画面DP22Aは、プロセッサ212により進捗度が閾値未満であると判定された場合には、不足している音種類数,発話長を取得するための質問例IN221、をさらに含んで生成される。図21に示す進捗通知画面DP22Aは、質問例IN221と、登録名入力欄IF21と、登録進捗度情報IN23と、音声信号グラフIN24と、話者登録ボタンBT21と、を含む。
 質問例IN221は、上から順に優先順位1である質問例「登録したいご住所をお聞かせいただけますでしょうか?」と、優先順位2である質問例「登録したいお電話番号をお聞かせいただけますでしょうか?」とを含む。
 なお、プロセッサ212は、オペレータOP操作により進捗通知画面DP22Aに表示されたいずれか1つの質問例が選択(押下)操作された場合、この質問例を質問済みの質問例として記憶してよい。プロセッサ212は、再度、進捗度が閾値未満であると判定した場合、メモリ22に記憶された複数の質問例のそれぞれのうち質問済みの質問例以外の他の質問例からオペレータOPに提示する質問例を選定してよい。
 登録名入力欄IF21は、登録話者データベースDBに登録されるユーザ名についてオペレータ操作を受け付け可能な入力欄である。なお、登録名入力欄IF21は、ユーザUSに関する情報を入力可能であってよい。
 登録進捗度情報IN23は、登録目標データ量の音種類数に対して、現在登録されている発話音声信号の音種類数を示す進捗度IN231と、登録目標データ量の発話長に対して、現在登録されている発話音声信号の発話長を示す進捗度IN232とを含む。また、登録進捗度情報IN23は、現在登録されている発話音声信号の音種類数を「音種類数:XX」,発話長を「発話長:XX」のように数値を用いて表示してもよい。
 音声信号グラフIN24は、検出された発話区間の発話音声信号を表示する。
 話者登録ボタンBT21は、オペレータOPによる登録話者データベースDBへの発話音声信号の登録処理の開始操作または停止操作を受け付ける。話者登録ボタンBT21は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の開始操作を受け付けた場合には、取得された発話音声信号を登録話者データベースDBに登録する。また、話者登録ボタンBT21は、オペレータOP操作により、登録話者データベースDBへの発話音声信号の登録処理の停止操作を受け付けた場合には、登録話者データベースDBへの発話音声信号の登録処理を中止する。
 進捗通知画面DP22Bは、進捗通知画面DP22Aが表示された後、プロセッサ212により進捗度が閾値未満であると判定された場合にプロセッサ212により生成され、情報表示部DPにより表示される。
 質問例IN222は、新たに生成された質問例であって、上から順に優先順位1である質問例「登録したいお電話番号をお聞かせいただけますでしょうか?」と、優先順位2である質問例「お客様のご生年月日をお聞かせいただけますでしょうか?」とを含む。
 登録進捗度情報IN25は、音種類数の登録目標データ量に対して、現在登録されている発話音声信号の音種類数を示す進捗度IN251と、発話長の登録目標データ量に対して、現在登録されている発話音声信号の発話長を示す進捗度IN252とを含む。また、登録進捗度情報IN25は、現在登録されている発話音声信号の音種類数を「音種類数:ZZ」,発話長を「発話長:ZZ」のように数値を用いて表示してもよい。
 音声信号グラフIN26は、検出された発話区間の発話音声信号を表示する。
 以上により、実施の形態3における認証解析装置P1Bは、話者の発話音声の音声信号と、話者を識別可能な話者情報とを取得する通信部20(取得部の一例)と、取得された音声信号と話者情報とを対応付けて登録話者データベースDB(データベースの一例)に登録するデータベース登録部21F(登録部の一例)と、登録話者データベースDBに登録する音声信号の登録目標データ量(登録目標量の一例)に対して、登録話者データベースDBに登録される音声信号の進捗度(登録進捗度の一例)を繰り返し判定する進捗度判定部21Iと、判定された進捗度を通知するプロセッサ212(通知部の一例)と、を備える。
 これにより、実施の形態3における認証解析装置P1Bは、判定された進捗度をリアルタイムでオペレータOPに可視化する。したがって、オペレータOPは、ユーザUSによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザUSとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。
 また、以上により、実施の形態3における認証解析装置P1Bにおける進捗度判定部21Iは、登録話者データベースDBに登録される音声信号の進捗度と、登録される音声信号に含まれる音種類数とを繰り返し判定する。プロセッサ212は、進捗度と音種類数とを通知する。これにより、実施の形態3における認証解析装置P1Bは、判定された進捗度をリアルタイムでオペレータOPに可視化する。したがって、オペレータOPは、ユーザUSによる質問への回答に基づいて、発話音声信号の登録状況(進捗度および音種類数)をリアルタイムで知ることができ、ユーザUSとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。
 また、以上により、実施の形態3における認証解析装置P1Bにおける進捗度判定部21Iは、登録話者データベースDBに登録される音声信号に含まれる音ごとの音種類数(例えば、図20に示す音種類数グラフIN212)を判定する。プロセッサ212は、音ごとの音種類数を通知する。これにより、実施の形態3における認証解析装置P1Bは発話音声信号の登録状況である音ごとの音種類数を可視化して、オペレータOPに通知できる。
 また、以上により、実施の形態3における認証解析装置P1Bにおける進捗度判定部21Iは、登録話者データベースDBに登録される音声信号の進捗度と、登録される音声信号の信号長とを繰り返し判定する。プロセッサ212は、進捗度と信号長とを通知する。これにより、実施の形態3における認証解析装置P1Bは、判定された進捗度をリアルタイムでオペレータOPに可視化する。したがって、オペレータOPは、ユーザUSによる質問への回答に基づいて、発話音声信号の登録状況(進捗度および発話長(信号長))をリアルタイムで知ることができ、ユーザUSとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。
 また、以上により、実施の形態3における認証解析装置P1Bは、進捗度に基づいて、ユーザUSへの少なくとも1つの質問を選定するプロセッサ212(選定部の一例)、をさらに備える。プロセッサ212は、選定された質問と、進捗度とを含む進捗通知画面DP22A,DP22B(図21,図22参照)を生成して出力する。これにより、実施の形態3における認証解析装置P1Bは、進捗度に基づいて、ユーザ認証により適した発話音声信号を取得できる。
 また、以上により、実施の形態3における認証解析装置P1Bにおける進捗度判定部21Iは、登録話者データベースDBに登録される音声信号の進捗度と、登録される音声信号に含まれる音種類数とを繰り返し判定する。プロセッサ212は、登録目標データ量の音種類数と、登録される音声信号に含まれる音種類数とに基づいて、質問を選定する。これにより、実施の形態3における認証解析装置P1Bは、不足している音種類数をより効率的に取得し、ユーザ認証により適した発話音声信号を取得できる。
 また、以上により、実施の形態3における認証解析装置P1Bにおけるプロセッサ212は、登録目標データ量の音種類数と、登録される音声信号に含まれる音種類数とに基づいて、複数の質問を選定し、選定された複数の質問のそれぞれの優先順位を決定する。プロセッサ212は、選定された複数の質問のそれぞれと、質問の優先順位と、進捗度とを含む進捗通知画面DP22A,DP22B(図21,図22参照)を生成して出力する。これにより、実施の形態3における認証解析装置P1Bは、不足している音種類数をより効率的に取得し、ユーザ認証により適した発話音声信号を取得可能な質問例を、優先順位によりオペレータOPに可視化する。
 また、以上により、実施の形態3における認証解析装置P1Bにおける進捗度判定部21Iは、登録話者データベースDBに登録される音声信号の進捗度と、登録される音声信号に含まれる信号長とを繰り返し判定する。プロセッサ212は、登録目標データ量の信号長と、登録される音声信号に含まれる信号長とに基づいて、質問を選定する。これにより、実施の形態3における認証解析装置P1Bは、登録目標データ量の信号長(発話長)と、登録される音声信号に含まれる信号長(発話長)とに基づいて、質問を選定する。これにより、実施の形態3における認証解析装置P1Bは、不足している発話長をより効率的に取得し、ユーザ認証により適した発話音声信号を取得できる。
 また、以上により、実施の形態3における認証解析装置P1Bにおけるプロセッサ212は、進捗度を含む進捗通知画面DP22A,DP22B(図21,図22参照)を生成して出力する。これにより、実施の形態3における認証解析装置P1Bは、判定された進捗度をリアルタイムでオペレータOPに可視化する。したがって、オペレータOPは、ユーザUSによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザUSとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。
 また、以上により、実施の形態3における認証解析装置P1Bにおけるプロセッサ212は、進捗度を音声で通知する音声通知信号を生成して出力する。これにより、実施の形態3における認証解析装置P1Bは、判定された進捗度をリアルタイムでオペレータOPに通知できる。したがって、オペレータOPは、ユーザUSによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザUSとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。
 以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
 なお、本出願は、2021年12月3日出願の日本特許出願(特願2021-197228)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示は、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する音声登録装置および音声登録方法として有用である。
20 通信部
210,211,212 プロセッサ
21A 発話区間検出部
21B 発話連結部
21C 特徴量抽出部
21D 類似度計算部
21E 感情識別部
21F データベース登録部
21G,21I 進捗度判定部
22 メモリ
22A ROM
22B RAM
23 表示I/F
100 音声認証システム
DB 登録話者データベース
DB1 第1の感情データベース
DB2 第2の感情データベース
DBN 第Nの感情データベース
DP 情報表示部
DP22A,DP22B 進捗通知画面
OP1 オペレータ側通話端末
P1 認証解析装置
SC 認証結果画面
US ユーザ
UP1 ユーザ側通話端末

Claims (11)

  1.  話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得する取得部と、
     取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録する登録部と、
     前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定する進捗度判定部と、
     判定された前記登録進捗度を通知する通知部と、を備える、
     音声登録装置。
  2.  前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録される前記音声信号に含まれる音種類数とを繰り返し判定し、
     前記通知部は、前記登録進捗度と前記音種類数とを通知する、
     請求項1に記載の音声登録装置。
  3.  前記進捗度判定部は、前記データベースに登録される前記音声信号に含まれる音ごとの音種類数を判定し、
     前記通知部は、前記音ごとの前記音種類数を通知する、
     請求項2に記載の音声登録装置。
  4.  前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録された前記音声信号の信号長とを繰り返し判定し、
     前記通知部は、前記登録進捗度と前記信号長とを通知する、
     請求項1に記載の音声登録装置。
  5.  前記登録進捗度に基づいて、前記話者への少なくとも1つの質問を選定する選定部、をさらに備え、
     前記通知部は、選定された質問と、前記登録進捗度とを含む進捗通知画面を生成して出力する、
     請求項1に記載の音声登録装置。
  6.  前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録される前記音声信号に含まれる音種類数とを繰り返し判定し、
     前記選定部は、前記登録目標量の音種類数と、登録される前記音声信号に含まれる前記音種類数とに基づいて、前記質問を選定する、
     請求項5に記載の音声登録装置。
  7.  前記選定部は、前記登録目標量の音種類数と、登録される前記音声信号に含まれる前記音種類数とに基づいて、複数の質問を選定し、選定された前記複数の質問のそれぞれの優先順位を決定し、
     前記通知部は、選定された前記複数の質問のそれぞれと、前記質問の優先順位と、前記登録進捗度とを含む進捗通知画面を生成して出力する、
     請求項6に記載の音声登録装置。
  8.  前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録される前記音声信号に含まれる信号長とを繰り返し判定し、
     前記選定部は、前記登録目標量の信号長と、登録される前記音声信号に含まれる前記信号長とに基づいて、前記質問を選定する、
     請求項5に記載の音声登録装置。
  9.  前記通知部は、前記登録進捗度を含む進捗通知画面を生成して出力する、
     請求項1に記載の音声登録装置。
  10.  前記通知部は、前記登録進捗度を音声で通知する音声通知信号を生成して出力する、
     請求項1に記載の音声登録装置。
  11.  1以上のコンピュータが行う音声登録方法であって、
     話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得し、
     取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録し、
     前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定し、
     判定された前記登録進捗度を通知する、
     音声登録方法。
PCT/JP2022/044488 2021-12-03 2022-12-01 音声登録装置および音声登録方法 WO2023101000A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021197228 2021-12-03
JP2021-197228 2021-12-03

Publications (1)

Publication Number Publication Date
WO2023101000A1 true WO2023101000A1 (ja) 2023-06-08

Family

ID=86612372

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/044488 WO2023101000A1 (ja) 2021-12-03 2022-12-01 音声登録装置および音声登録方法

Country Status (1)

Country Link
WO (1) WO2023101000A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置
JP2004252111A (ja) * 2003-02-19 2004-09-09 Sony Corp 学習装置及び学習方法並びにロボット装置
JP2015125268A (ja) * 2013-12-26 2015-07-06 ブラザー工業株式会社 カラオケ装置及びカラオケ用プログラム
JP2016511475A (ja) * 2013-03-05 2016-04-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 人間を機械から区別するための方法及びシステム
WO2019181144A1 (ja) * 2018-03-20 2019-09-26 ソニー株式会社 情報処理装置及び情報処理方法、並びにロボット装置
CN112307451A (zh) * 2019-07-31 2021-02-02 华为技术有限公司 一种多模态身份识别方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置
JP2004252111A (ja) * 2003-02-19 2004-09-09 Sony Corp 学習装置及び学習方法並びにロボット装置
JP2016511475A (ja) * 2013-03-05 2016-04-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 人間を機械から区別するための方法及びシステム
JP2015125268A (ja) * 2013-12-26 2015-07-06 ブラザー工業株式会社 カラオケ装置及びカラオケ用プログラム
WO2019181144A1 (ja) * 2018-03-20 2019-09-26 ソニー株式会社 情報処理装置及び情報処理方法、並びにロボット装置
CN112307451A (zh) * 2019-07-31 2021-02-02 华为技术有限公司 一种多模态身份识别方法及设备

Similar Documents

Publication Publication Date Title
US9818399B1 (en) Performing speech recognition over a network and using speech recognition results based on determining that a network connection exists
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
JP2007004000A (ja) コールセンターにおけるオペレータ業務支援システム
US8521525B2 (en) Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data
JP2011053563A (ja) 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム
WO2006109515A1 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US20170178632A1 (en) Multi-user unlocking method and apparatus
JP2007004001A (ja) オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体
CN108630200A (zh) 声音关键字检测装置以及声音关键字检测方法
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
JP2018174442A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN111835522A (zh) 一种音频处理方法及装置
US11398224B2 (en) Communication system and method for providing advice to improve a speaking style
WO2023101000A1 (ja) 音声登録装置および音声登録方法
WO2023100998A1 (ja) 音声登録装置および音声登録方法
WO2023100999A1 (ja) 音声登録装置および音声登録方法
JP2006230548A (ja) 体調判定装置およびそのプログラム
JP2010054549A (ja) 回答音声認識システム
KR100898104B1 (ko) 상호 대화식 학습 시스템 및 방법
WO2019041871A1 (zh) 语音对象识别方法及装置
EP2541544A1 (en) Voice sample tagging
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质
WO2023100960A1 (ja) 認証装置および認証方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22901430

Country of ref document: EP

Kind code of ref document: A1