WO2022024297A1 - 音声処理装置、音声処理方法、記録媒体、および音声認証システム - Google Patents

音声処理装置、音声処理方法、記録媒体、および音声認証システム Download PDF

Info

Publication number
WO2022024297A1
WO2022024297A1 PCT/JP2020/029248 JP2020029248W WO2022024297A1 WO 2022024297 A1 WO2022024297 A1 WO 2022024297A1 JP 2020029248 W JP2020029248 W JP 2020029248W WO 2022024297 A1 WO2022024297 A1 WO 2022024297A1
Authority
WO
WIPO (PCT)
Prior art keywords
determination
voice
index value
subject
normal state
Prior art date
Application number
PCT/JP2020/029248
Other languages
English (en)
French (fr)
Inventor
レイ カク
孝文 越仲
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US18/016,789 priority Critical patent/US20230274760A1/en
Priority to PCT/JP2020/029248 priority patent/WO2022024297A1/ja
Priority to JP2022539897A priority patent/JPWO2022024297A5/ja
Publication of WO2022024297A1 publication Critical patent/WO2022024297A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/18Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a voice processing device, a voice processing method, a recording medium, and a voice authentication system, and more particularly to a voice processing device, a voice processing method, a recording medium, and a voice authentication system for collating a speaker based on voice data. ..
  • Patent Document 1 it is necessary to install a biosensor and a camera for each commercial vehicle owned by the company. Therefore, it may be avoided to adopt such a technique because of the high cost burden.
  • the present invention has been made in view of the above problems, and an object thereof is a technique capable of easily determining the state of a determination target person without the need for an interview with a determination target person by a user or a biosensor. Is to provide.
  • the voice processing device is based on the speech of the subject of determination by using a discriminator machine-learned using voice data based on the speech of the subject of determination in a normal state as teacher data.
  • the voice processing method is based on the speech of the subject of determination by using a discriminator machine-learned using voice data based on the speech of the subject of determination in a normal state as teacher data.
  • the characteristics of the input data are extracted from the input data, and an index value indicating the degree of similarity between the characteristics of the input data and the characteristics of the voice data based on the utterance of the subject of the determination in the normal state is obtained. It includes determining whether the subject of the determination is in a normal state or an abnormal state based on the calculated index value.
  • the recording medium is an input based on the speech of the subject of determination using a classifier machine-learned using voice data based on the speech of the subject of determination in a normal state as teacher data.
  • An index value indicating the degree of similarity between extracting the characteristics of the input data from the data and the characteristics of the input data and the characteristics of the voice data based on the speech of the subject of the determination in the normal state. Is stored, and a program for causing the computer to execute the determination of whether the target person of the determination is in the normal state or the abnormal state based on the index value is stored.
  • the voice recognition system uses the voice processing device according to the above-mentioned aspect and voice data based on the utterance of the subject of determination in a normal state as the teacher data, and the discriminator. It is equipped with a learning device to learn.
  • the state of the subject of determination can be easily determined without the need for an interview with the subject of determination by the user or the need for a biosensor.
  • FIG. It is a block diagram which shows the structure of the voice processing apparatus which concerns on Embodiment 2. It is a flowchart which shows the operation of the voice processing apparatus which concerns on Embodiment 2. It is a block diagram which shows the structure of the voice processing apparatus which concerns on Embodiment 3. It is a flowchart which shows the operation of the voice processing apparatus which concerns on Embodiment 3. It is a figure which shows the hardware configuration of the voice processing apparatus which concerns on Embodiment 2 or 3. It is a block diagram which shows the structure of the voice authentication system which includes the voice processing apparatus which concerns on Embodiment 2 or 3 and the learning apparatus.
  • FIG. 1 is a diagram illustrating an outline of the configuration and operation of the voice processing device X00 according to the first embodiment.
  • the voice processing device X00 receives a voice signal (input data in FIG. 1) input by a person to be determined by using an input device such as a microphone.
  • An example of the determination target person is a person whose voice processing device X00 tries to determine the state.
  • the configuration and operation of the voice processing device X00 described in the first embodiment can also be realized by the voice processing device 100 according to the second embodiment and the voice processing device 200 according to the third embodiment, which will be described later.
  • the voice processing device X00 supports a crew member (for example, a driver) to normally carry out work in a company that provides a bus operation service.
  • the subject of the determination is the bus crew.
  • the voice processing device X00 determines the state of the crew member by the method described below, and determines whether or not the crew member can drive based on the result of the determination.
  • the voice processing device X00 communicates with a microphone installed in a specific place (for example, a bus office) via a wireless network, and when the person to be judged speaks to the microphone, the microphone is turned on.
  • the input audio signal is received as input data.
  • the voice processing device X00 may receive the voice signal input to the microphone worn by the determination target person as input data at an arbitrary timing.
  • the voice processing device X00 receives the voice signal input to the microphone worn by the judgment target person as input data immediately before the crew member who is the judgment target person leaves the bus.
  • the voice processing device X00 may receive a voice signal (registered data in FIG. 1) registered in advance in the DB (Data Base).
  • the registered data is an audio signal input by the subject of the determination when it is confirmed by a medical examination or analysis of biological data that the subject of the determination is in a normal state.
  • the registered data is stored in the DB in association with the identification information of the determination target person, the identification information of the microphone used by the determination target person, and the like.
  • the voice processing device X00 determines whether the person is in a normal state or an abnormal state based on the input data based on the utterance of the person to be determined and the registered data.
  • the voice processing device X00 collates the input data based on the utterance of the determination target person with the registered data, and determines the state of the determination target person based on the index value indicating their similarity. judge.
  • the state of the subject of the determination here represents an evaluation of the mind and body of the subject of the determination.
  • the state of the subject of the determination represents the physical condition or emotion of the subject of the determination.
  • the judgment target person is in an abnormal state because the judgment target person has poor physical condition due to fever, lack of sleep, etc., has a cold or other illness, or the judgment target person is Indicates that you have a psychological problem (such as anxiety).
  • the fact that the subject of the determination is in a normal state means that the subject of the determination does not have any problem as illustrated above. More specifically, the fact that the subject of the determination is in a normal state means that the subject of the determination does not have any physical or mental problems that may hinder the performance of the business or the accompanying mission.
  • the person to be determined is the person who has registered the identification information together with the registered data, by visual inspection of the operation manager or by other methods.
  • Examples of other techniques are face recognition, iris recognition, fingerprint recognition, or other biometrics.
  • FIG. 2 is a block diagram showing the configuration of the voice processing device 100.
  • the voice processing device 100 includes a feature extraction unit 110, an index value calculation unit 120, and a state determination unit 130.
  • the feature extraction unit 110 uses a classifier (FIG. 1 or FIG. 7) machine-learned using voice data based on the speech of the determination target in the normal state as teacher data to make the determination target's speech. Extract the characteristics of the input data from the input data based on it.
  • the feature extraction unit 110 is an example of a feature extraction means.
  • the teacher data is voice data based on the utterance of the subject of the determination in the normal state.
  • the feature extraction unit 110 receives input data (FIG. 1) input using an input device such as a microphone. Further, the feature extraction unit 110 receives registration data (FIG. 1) from a DB (not shown). The feature extraction unit 110 inputs the input data to the trained classifier (hereinafter, simply referred to as a classifier), and extracts the features of the input data from the classifier. Further, the feature extraction unit 110 inputs the registered data to the classifier and extracts the features of the registered data from the feature extraction unit 110.
  • the trained classifier hereinafter, simply referred to as a classifier
  • the feature extraction unit 110 inputs the registered data to the classifier and extracts the features of the registered data from the feature extraction unit 110.
  • the feature extraction unit 110 may use any machine learning method to extract the features of the input data and the registered data.
  • An example of machine learning here is deep learning, and an example of a classifier is DNN (Deep Neural Network).
  • the feature extraction unit 110 inputs the input data to the DNN and extracts the features of the input data from the intermediate layer of the DNN.
  • the feature extracted from the input data may be an MFCC (Mel-Frequency Cepstrum Coefficients) or an LPC (linear predictive coding) coefficient, or may be a power spectrum or a spectral envelope.
  • the feature of the input data may be a feature vector of any dimension (hereinafter referred to as an acoustic vector) composed of feature quantities obtained by frequency analysis of the voice data.
  • the feature extraction unit 110 outputs the feature data of the registered data and the feature data of the input data to the index value calculation unit 120.
  • the index value calculation unit 120 calculates an index value indicating the degree of similarity between the characteristics of the input data and the characteristics of the voice data based on the utterance of the subject of the determination in the normal state.
  • the index value calculation unit 120 is an example of the index value calculation means.
  • the voice data based on the utterance of the subject of the determination in the normal state corresponds to the above-mentioned registered data.
  • the index value calculation unit 120 receives the feature data of the input data from the feature extraction unit 110. Further, the index value calculation unit 120 receives the feature data of the registered data from the feature extraction unit 110. The index value calculation unit 120 identifies the phonemes included in the input data and the phonemes included in the registered data, respectively. The index value calculation unit 120 associates a phoneme included in the input data with the same phoneme included in the registered data.
  • the index value calculation unit 120 calculates a score representing the degree of similarity between the characteristics of the phonemes included in the input data and the characteristics of the same phonemes contained in the registered data, and calculates for all the phonemes.
  • the total of the scored scores is calculated as an index value.
  • the phoneme features included in the input data and the phoneme features included in the registered data may be feature vectors of the same dimension.
  • the score indicating the degree of similarity is the reciprocal of the distance between the feature vector of the phoneme included in the input data and the feature vector of the same phoneme included in the registered data, or "(upper limit of distance) -distance". It may be there.
  • the “score” means the total of the above-mentioned scores.
  • "characteristics of input data” and “characteristics of registered data” mean “characteristics of phonemes included in input data” and “characteristics of the same phoneme contained in registered data”, respectively.
  • the index value calculation unit 120 outputs the calculated index value (score in one example) data to the state determination unit 130.
  • the state determination unit 130 determines whether the determination target person is in a normal state or an abnormal state based on the index value.
  • the state determination unit 130 is an example of the state determination means.
  • the state determination unit 130 receives index value data representing the degree of similarity between the characteristics of the input data and the characteristics of the registered data from the index value calculation unit 120.
  • the state determination unit 130 compares the index value with a predetermined threshold value. When the index value is larger than the threshold value, the state determination unit 130 determines that the determination target person is in a normal state. On the other hand, when the index value is equal to or less than the threshold value, the state determination unit 130 determines that the determination target person is in an abnormal state. The state determination unit 130 outputs the determination result.
  • the state determination unit 130 may limit the authority of the determination target person to operate the object.
  • the object is a commercial vehicle that the subject of the determination intends to operate.
  • the state determination unit 130 may control the computer of the commercial vehicle so that the engine of the commercial vehicle cannot be started.
  • FIG. 3 is a flowchart showing a flow of processing executed by each part (FIG. 2) of the voice processing device 100 in this example.
  • the feature extraction unit 110 extracts the features of the input data from the input data (FIG. 1) (S101). Further, the feature extraction unit 110 extracts the features of the registered data from the registered data (FIG. 1). Then, the feature extraction unit 110 outputs the feature data of the input data and the feature data of the registered data to the index value calculation unit 120.
  • the index value calculation unit 120 receives the feature data of the input data and the feature data of the registered data from the feature extraction unit 110.
  • the index value calculation unit 120 calculates an index value indicating the degree of similarity between the characteristics of the input data and the characteristics of the registered data (S102).
  • the index value calculation unit 120 calculates a score representing the distance between the feature vector indicating the characteristics of the input data and the feature vector indicating the characteristics of the registered data as the index value.
  • the index value calculation unit 120 outputs the calculated index value (score) data to the state determination unit 130.
  • the state determination unit 130 receives score data representing the degree of similarity between the characteristics of the input data and the characteristics of the registered data from the index value calculation unit 120.
  • the state determination unit 130 compares the score with a predetermined threshold value (S103).
  • the state determination unit 130 determines that the determination target person is in a normal state (S104A).
  • the state determination unit 130 determines that the determination target person is in an abnormal state (S104B). After that, the state determination unit 130 may output the determination result (step S104A or S104B).
  • the feature extraction unit 110 uses a classifier machine-learned using voice data based on the speech of the determination target person in the normal state as teacher data, and uses the determination target person.
  • the features of the input data are extracted from the input data based on the speech.
  • the index value calculation unit 120 calculates an index value representing the degree of similarity between the characteristics of the input data and the characteristics of the voice data based on the utterance of the subject of the determination in the normal state.
  • the state determination unit 130 determines whether the determination target person is in the normal state or the abnormal state based on the index value.
  • the voice processing device 100 can acquire an index value indicating the certainty that the person is in a normal state by using the discriminator.
  • the result of the determination based on this index value indicates how similar the utterance of the subject of the determination is to the utterance of that person in the normal state. Therefore, the voice processing device 100 can easily determine the state (normal or abnormal) of the determination target person without the need for an interview with the determination target person or a biosensor by the user. can. Further, when the result of the determination by the voice processing device 200 is output, the user can immediately check the state of the person to be determined.
  • voice processing device 200 The outline of the operation of the voice processing device 200 according to the third embodiment is the same as the operation of the voice processing device 100 described in the second embodiment. Basically, the voice processing device 200 operates in common with the voice processing device X00 described with reference to FIG. 1 in the first embodiment, but is partially different from the voice processing device X00 as described below. It also behaves differently.
  • FIG. 4 is a block diagram showing the configuration of the voice processing device 200 according to the third embodiment.
  • the voice processing device 200 includes a feature extraction unit 110, an index value calculation unit 120, and a state determination unit 130. Further, the voice processing device 200 further includes a presentation unit 240. That is, the configuration of the voice processing device 200 according to the third embodiment is different from the voice processing device 100 according to the second embodiment in that the presentation unit 240 is provided. Also in the third embodiment, the processing performed by the components having the same reference numerals as those in the second embodiment is common. Therefore, in the third embodiment, only the processing performed by the presentation unit 240 will be described.
  • the presentation unit 240 presents information indicating whether the determination target person is in a normal state or an abnormal state based on the result of the determination by the state determination unit 130 of the voice processing device 200.
  • the presentation unit 240 is an example of presentation means.
  • the presentation unit 240 acquires data of a determination result indicating whether the determination target person is in a normal state or an abnormal state from the state determination unit 130.
  • the presentation unit 240 may present different information depending on the data of the determination result.
  • the presentation unit 240 acquires the data of the index value (score) calculated by the index value calculation unit 120, and obtains the index value (score). Based on the score), information indicating the certainty of the judgment result is presented. Specifically, the presentation unit 240 indicates that the determination target person is in a normal state by means of text, a symbol, or the light of a light on the screen. On the other hand, when the state determination unit 130 determines that the determination target person is in an abnormal state, the presentation unit 240 notifies an alarm.
  • the presentation unit 240 acquires the data of the index value (score) calculated by the index value calculation unit 120, and outputs the acquired index value (score) data to a display device (not shown) to display the display device.
  • An index value (score) may be displayed on the screen.
  • FIG. 5 is a flowchart showing a process executed by each part (FIG. 4) of the voice processing device 200.
  • the presentation unit 240 displays the message on the screen of the display device by outputting the data of the message prompting the determination target person to speak for a long time to a display device (not shown) (S201). ..
  • the user of the voice processing apparatus 200 may appropriately determine the meaning of a long utterance (or the definition of the length of the utterance).
  • a long utterance is an utterance containing N or more words (N is a number set by the user).
  • the reason for requesting the subject of the determination to make a long utterance is to accurately calculate the index value indicating the degree of similarity between the characteristics of the input data and the characteristics of the registered data.
  • the feature extraction unit 110 receives an audio signal (input data in FIG. 1) collected from the utterance of the determination target person from an input device such as a microphone (S202). Further, the feature extraction unit 110 receives from the DB an audio signal (registered data in FIG. 1) recorded when the determination target person is in the normal state.
  • the feature extraction unit 110 extracts the features of the input data from the input data (S203). Further, the feature extraction unit 110 extracts the features of the registered data from the registered data.
  • the index value calculation unit 120 calculates an index value (score) representing the degree of similarity between the characteristics of the input data and the characteristics of the registered data (S204).
  • the state determination unit 130 compares the index value with a predetermined threshold value (S205). When the score is larger than the threshold value (Yes in S205), the state determination unit 130 determines that the determination target person is in a normal state (S206A). The state determination unit 130 outputs the determination result to the presentation unit 240. In this case, the presentation unit 240 displays information indicating that the determination target person is in a normal state on a display device (not shown) (S207A).
  • the state determination unit 130 determines that the determination target person is in an abnormal state (S206B).
  • the state determination unit 130 outputs the determination result to the presentation unit 240. In this case, the presentation unit 240 notifies the alarm (S207B).
  • the presentation unit 240 may display information indicating that the determination target person is in an abnormal state on a display device (not shown).
  • the presentation unit 240 acquires the data of the index value (score) calculated in step S204 from the index value calculation unit 120, and the acquired score itself or information based on the score (in one example, a proposal for re-examination). ) Is displayed on the display device.
  • the feature extraction unit 110 uses a classifier machine-learned using voice data based on the speech of the determination target person in the normal state as teacher data, and uses the determination target person.
  • the features of the input data are extracted from the input data based on the speech.
  • the index value calculation unit 120 calculates an index value representing the degree of similarity between the characteristics of the input data and the characteristics of the voice data based on the utterance of the subject of the determination in the normal state.
  • the state determination unit 130 determines whether the determination target person is in the normal state or the abnormal state based on the index value.
  • the voice processing device 200 can acquire an index value indicating the certainty that the determination target person is in the normal state by using the discriminator.
  • the result of the determination based on this index value indicates how similar the utterance of the subject of the determination is to the utterance of that person in the normal state. Therefore, the voice processing device 200 can easily determine the state (normal or abnormal) of the determination target person without the need for the result of the interview with the determination target person by the user or the biometric data. be able to. Further, when the result of the determination by the voice processing device 200 is output, the user can immediately check the state of the person to be determined.
  • the presentation unit 240 presents information indicating whether the determination target person is in the normal state or the abnormal state based on the determination result. Therefore, the user who sees the presented information can easily grasp the state of the person to be determined. Then, the user can appropriately take measures according to the state of the grasped determination target person (for example, re-meeting with the crew or restriction of work).
  • Each component of the voice processing devices 100 and 200 described in the second to third embodiments shows a block of functional units. Some or all of these components are realized by, for example, the information processing apparatus 900 as shown in FIG.
  • FIG. 6 is a block diagram showing an example of the hardware configuration of the information processing apparatus 900.
  • the information processing apparatus 900 includes the following configuration as an example.
  • -CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • -Program 904 loaded into RAM 903
  • a storage device 905 that stores the program 904.
  • Drive device 907 that reads and writes the recording medium 906.
  • -Communication interface 908 for connecting to the communication network 909 -I / O interface 910 for inputting / outputting data -Bus 911 connecting each component
  • Each component of the voice processing devices 100 and 200 described in the second to third embodiments is realized by the CPU 901 reading and executing the program 904 that realizes these functions.
  • the program 904 that realizes the functions of each component is stored in, for example, a storage device 905 or ROM 902 in advance, and the CPU 901 is loaded into the RAM 903 and executed as needed.
  • the program 904 may be supplied to the CPU 901 via the communication network 909, or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply the program to the CPU 901.
  • the voice processing devices 100 and 200 described in the second and third embodiments are realized as hardware. Therefore, it is possible to obtain the same effect as the effect described in the second to third embodiments.
  • FIG. 7 is a block diagram showing an example of the configuration of the voice authentication system 1.
  • the voice authentication system 1 includes a voice processing device 100 (200) and a learning device 10. Further, the voice authentication system 1 may include one or a plurality of input devices.
  • the voice processing device 100 (200) is the voice processing device 100 according to the second embodiment or the voice processing device 200 according to the third embodiment.
  • the learning device 10 acquires teacher data from a DB (DataBase) on the network or from a DB connected to the learning device 10.
  • the learning device 10 trains the classifier using the acquired teacher data. More specifically, the learning device 10 inputs the voice data included in the teacher data to the classifier, gives the correct answer information contained in the teacher data to the output of the classifier, and calculates the value of the well-known loss function. .. Then, the learning device 10 repeats a predetermined number of times so as to reduce the calculated value of the loss function, and updates the parameters of the discriminator. Alternatively, the learning device 10 repeats until the value of the loss function becomes equal to or less than a predetermined value, and updates the parameters of the discriminator.
  • DB DataBase
  • the voice processing device 100 determines the state of the person to be determined by using the learned classifier.
  • the voice processing device 200 according to the third embodiment also determines the state of the person to be determined by using the learned classifier.
  • the present invention in one example, can be used in a voice authentication system for verifying identity by analyzing voice data input using an input device.
  • Voice recognition system 10 Learning device 100
  • Voice processing device 110
  • Feature extraction unit 120
  • Index value calculation unit 130
  • Status judgment unit 200
  • Voice processing device 240 Presentation unit

Abstract

ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態を簡単に判定可能な技術を提供する。特徴抽出部(110)は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出し、指標値算出部(120)は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出し、状態判定部(130)は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。

Description

音声処理装置、音声処理方法、記録媒体、および音声認証システム
 本発明は、音声処理装置、音声処理方法、記録媒体、および音声認証システムに関し、特に、音声データに基づいて、話者を照合する音声処理装置、音声処理方法、記録媒体、および音声認証システムに関する。
 タクシー会社あるいはバス会社では、乗務員全員が参加する「点呼」がある。運行管理者は、乗務員との簡単な面談を行うことによって、乗務員の健康状態をチェックする。しかしながら、面談による健康状態のチェックでは、乗務員が意識的または無意識で嘘をついたり、自分の健康を過信または誤認したりする可能性がある。そこで、乗務員の健康状態を確実にチェックするために、関連する技術が開発されている。例えば、特許文献1には、乗務員が乗車している商用車に設置された生体センサおよびカメラを用いて、心電、筋電、眼球運動、脳波、呼吸、血圧、および発汗等を検知することによって、乗務員の心身の健康状態を総合的に判定する技術が記載されている。
国際公開第2020/003392号 特開2016-201014号公報 特開2015-069255号公報
 しかしながら、特許文献1に記載の関連する技術では、会社が所有する商用車ごとに、生体センサおよびカメラを設置する必要がある。そのため、コスト負担が大きいことを理由に、このような技術を採用することが敬遠される場合がある。
 本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態を簡単に判定可能な技術を提供することにある。
 本発明の一態様に係わる音声処理装置は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出する特徴抽出手段と、前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する指標値算出手段と、前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定する状態判定手段とを備えている。
 本発明の一態様に係わる音声処理方法は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出し、前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出し、前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定することを含む。
 本発明の一態様に係わる記録媒体は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出することと、前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出することと、前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定することとをコンピュータに実行させるためのプログラムを格納している。
 本発明の一態様に係わる音声認証システムは、上述の一態様に係わる音声処理装置と、正常状態であったときの判定の対象者の発話に基づく音声データを前記教師データとして用いて前記識別器を学習させる学習装置とを備えている。
 本発明の一態様によれば、ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態を簡単に判定することができる。
実施形態1に係わる音声処理装置の構成及び動作を概略的に説明する図である。 実施形態2に係わる音声処理装置の構成を示すブロック図である。 実施形態2に係わる音声処理装置の動作を示すフローチャートである。 実施形態3に係わる音声処理装置の構成を示すブロック図である。 実施形態3に係わる音声処理装置の動作を示すフローチャートである。 実施形態2または3に係わる音声処理装置のハードウェア構成を示す図である。 実施形態2または3に係わる音声処理装置と、学習装置とを備えた音声認証システムの構成を示すブロック図である。
 以下、いくつかの実施形態について、図面を参照しながら詳細に説明する。
 〔実施形態1〕
 (実施形態1に係わる音声処理装置X00の構成及び動作)
 図1は、実施形態1に係わる音声処理装置X00の構成及び動作の概要を説明する図である。図1に示すように、音声処理装置X00は、たとえば、マイクロフォン等の入力デバイスを用いて、判定の対象者により入力された音声信号(図1では入力データ)を受信する。判定の対象者の一例は、音声処理装置X00が状態を判定しようとする人物である。なお、本実施形態1において説明する音声処理装置X00の構成及び動作は、後述する実施形態2に係わる音声処理装置100、および、実施形態3に係わる音声処理装置200においても、実現可能である。
 たとえば、音声処理装置X00は、バスの運行サービスを提供する会社において、乗務員(例えば運転手)が正常に業務を担うことを支援する。この場合、判定の対象者は、バスの乗務員である。具体的には、音声処理装置X00は、以下で説明する方法で、乗務員の状態を判定し、判定の結果に基づいて、乗務員が運転することの可否を決定する。
 音声処理装置X00は、特定の場所(例えばバスの営業所)に設置されたマイクロフォンとの間で、無線ネットワークを介して通信し、判定の対象者がマイクロフォンに向かって発話した際に、マイクロフォンに入力された音声信号を、入力データとして受信する。あるいは、音声処理装置X00は、任意のタイミングで、判定の対象者が装着しているマイクロフォンに入力された音声信号を、入力データとして受信してもよい。例えば、音声処理装置X00は、判定の対象者である乗務員がバスを出庫する直前に、判定の対象者が装着しているマイクロフォンに入力された音声信号を、入力データとして受信する。
 また、音声処理装置X00は、予めDB(Data Base)に登録された音声信号(図1では登録データ)を受信してもよい。登録データは、判定の対象者が正常状態であることが、医学的な検査または生体データの分析などによって確認されたときに、判定の対象者により入力された音声信号である。登録データは、判定の対象者の識別情報、および、判定の対象者が使用するマイクロフォンの識別情報などと紐づけて、DBに格納されている。
 音声処理装置X00は、判定の対象者の発話に基づく入力データと、登録データとに基づいて、その人物が正常状態であるか、非正常状態であるかを判定する。
 より詳細な具体例では、音声処理装置X00は、判定の対象者の発話に基づく入力データと登録データとを照合し、それらの類似度を表す指標値に基づいて、判定の対象者の状態を判定する。ここでの判定の対象者の状態とは、判定の対象者の心身に関する評価を表す。
 一例では、判定の対象者の状態は、判定の対象者の体調または感情を表す。この場合、判定の対象者が非正常状態であるとは、判定の対象者に発熱や睡眠不足などによる体調不良があること、風邪などの病気にかかっていること、または、判定の対象者が心理的な問題(不安など)を抱えていることを表す。一方、判定の対象者が正常状態であるとは、判定の対象者が上で例示したような問題を何も持たないことを表す。より具体的には、判定の対象者が正常状態であるとは、判定の対象者が業務または付随する任務を遂行する上で支障となりうる問題を、心身共に抱えていないことを意味する。
 なお、以下の説明において、判定の対象者は、登録データとともに識別情報を登録された人物本人であることを、運行管理者の目視またはその他の手法によって、確認されているとする。その他の手法の一例は、顔認証、虹彩認証、指紋認証、またはその他の生体認証である。
 〔実施形態2〕
 図2から図3を参照して、実施形態2について説明する。
 (音声処理装置100)
 図2を参照して、実施形態2に係わる音声処理装置100の構成を説明する。図2は、音声処理装置100の構成を示すブロック図である。
 図2に示すように、音声処理装置100は、特徴抽出部110、指標値算出部120、および状態判定部130を備えている。
 特徴抽出部110は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器(図1あるいは図7)を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出する。特徴抽出部110は、特徴抽出手段の一例である。教師データは、正常状態であったときの判定の対象者の発話に基づく音声データである。
 一例では、特徴抽出部110は、マイクロフォン等の入力デバイスを用いて入力された入力データ(図1)を受信する。また、特徴抽出部110は、図示しないDBから、登録データ(図1)を受信する。特徴抽出部110は、入力データを学習済識別器(以下では、単に識別器と記載する)に入力し、識別器から、入力データの特徴を抽出する。また、特徴抽出部110は、登録データを識別器に入力し、特徴抽出部110から、登録データの特徴を抽出する。
 特徴抽出部110は、入力データおよび登録データのそれぞれの特徴を抽出するために、どのような機械学習の手法を用いてもよい。ここでの機械学習の一例は、深層学習であり、識別器の一例はDNN(Deep Neural Network:深層ニューラルネットワーク)である。この場合、特徴抽出部110は、入力データをDNNに入力し、DNNの中間層から、入力データの特徴を抽出する。一例では、入力データから抽出される特徴は、MFCC(Mel-Frequency Cepstrum Coefficients)またはLPC(linear predictive coding)係数であってもよいし、パワースペクトルまたはスペクトル包絡であってもよい。あるいは、入力データの特徴は、音声データを周波数分析することによって得られる特徴量で構成された、任意の次元の特徴ベクトル(以下では、音響ベクトルと呼ぶ)であってよい。
 特徴抽出部110は、登録データの特徴のデータ、および、入力データの特徴のデータを、指標値算出部120へ出力する。
 指標値算出部120は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する。指標値算出部120は、指標値算出手段の一例である。なお、正常状態であったときの判定の対象者の発話に基づく音声データとは、上述した登録データに相当する。
 一例では、指標値算出部120は、特徴抽出部110から、入力データの特徴のデータを受信する。また、指標値算出部120は、特徴抽出部110から、登録データの特徴のデータを受信する。指標値算出部120は、入力データに含まれる音素、登録データに含まれる音素を、それぞれ識別する。指標値算出部120は、入力データに含まれる音素と、登録データに含まれる同じ音素とを対応付ける。
 次に、一例では、指標値算出部120は、入力データに含まれる音素の特徴と登録データに含まれる同じ音素の特徴との間の類似度を表すスコアをそれぞれ計算し、すべての音素について計算したスコアの合計を、指標値として算出する。入力データに含まれる音素の特徴、および、登録データに含まれる音素の特徴は、同一の次元の特徴ベクトルであってよい。また、類似度を表すスコアは、入力データに含まれる音素の特徴ベクトルと登録データに含まれる同じ音素の特徴ベクトルとの間の距離の逆数、または、“(距離の上限値)-距離”であってよい。なお、以下の説明において、「スコア」とは、上述したスコアの合計を意味する。また、「入力データの特徴」「登録データの特徴」とは、「入力データに含まれる音素の特徴」「登録データに含まれる同じ音素の特徴」をそれぞれ意味する。
 指標値算出部120は、算出した指標値(一例ではスコア)のデータを、状態判定部130へ出力する。
 状態判定部130は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。状態判定部130は、状態判定手段の一例である。一例では、状態判定部130は、指標値算出部120から、入力データの特徴と登録データの特徴との間の類似度を表す指標値のデータを受信する。
 次に、一例では、状態判定部130は、指標値と、あらかじめ定められた閾値とを比較する。指標値が閾値より大きい場合、状態判定部130は、判定の対象者が正常状態であると判定する。一方、指標値が閾値以下である場合、状態判定部130は、判定の対象者が非正常状態であると判定する。状態判定部130は、判定の結果を出力する。
 加えて、状態判定部130は、判定の対象者が物体を操作する権限を制限してもよい。例えば、物体は、判定の対象者が操作しようとする商用車である。この場合、状態判定部130は、商用車のエンジンを始動させられないように、商用車のコンピュータを制御してもよい。
 (音声処理装置100の動作)
 図3を参照して、本実施形態2に係わる音声処理装置100の動作の一例を説明する。図3は、本例において、音声処理装置100の各部(図2)が実行する処理の流れを示すフローチャートである。
 図3に示すように、特徴抽出部110は、入力データ(図1)から、入力データの特徴を抽出する(S101)。また、特徴抽出部110は、登録データ(図1)から、登録データの特徴を抽出する。そして、特徴抽出部110は、入力データの特徴のデータ、および、登録データの特徴のデータを、指標値算出部120へ出力する。
 指標値算出部120は、特徴抽出部110から、入力データの特徴のデータ、および、登録データの特徴のデータを受信する。指標値算出部120は、入力データの特徴と登録データの特徴との間の類似度を表す指標値を算出する(S102)。一例では、指標値算出部120は、入力データの特徴を示す特徴ベクトルと、登録データの特徴を示す特徴ベクトルとの間の距離を表すスコアを、指標値として算出する。指標値算出部120は、算出した指標値(スコア)のデータを、状態判定部130へ出力する。
 状態判定部130は、指標値算出部120から、入力データの特徴と登録データの特徴との間の類似度を表すスコアのデータを受信する。状態判定部130は、スコアと、あらかじめ定められた閾値とを比較する(S103)。
 スコアが閾値よりも大きい場合(S103でYes)、状態判定部130は、判定の対象者が正常状態であると判定する(S104A)。
 一方、スコアが閾値以下である場合(S103でNo)、状態判定部130は、判定の対象者が非正常状態であると判定する(S104B)。その後、状態判定部130は、判定の結果(ステップS104AまたはS104B)を出力してもよい。
 以上で、本実施形態2に係わる音声処理装置100の動作は終了する。
 (本実施形態の効果)
 本実施形態の構成によれば、特徴抽出部110は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出する。指標値算出部120は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する。状態判定部130は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。音声処理装置100は、識別器を用いて、人物が正常状態であることの確からしさを示す指標値を取得できる。この指標値に基づく判定の結果は、判定の対象者の発話が、正常状態であるときのその人物の発話とどれぐらい類似しているのかを示す。したがって、音声処理装置100は、ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態(正常であるか、非正常であるか)を簡単に判定することができる。また、音声処理装置200による判定の結果が出力された場合、ユーザは、判定の対象者の状態を即時にチェックすることができる。
 〔実施形態3〕
 図4から図5を参照して、実施形態3について説明する。
 (音声処理装置200)
 本実施形態3に係わる音声処理装置200の動作の概要は、前記実施形態2で説明した音声処理装置100の動作と共通である。基本的に、音声処理装置200は、前記実施形態1において、図1を参照して説明した音声処理装置X00と共通の動作をするが、以下で説明するように、音声処理装置X00とは部分的に異なる動作もする。
 図4は、本実施形態3に係わる音声処理装置200の構成を示すブロック図である。図4に示すように、音声処理装置200は、特徴抽出部110、指標値算出部120、および状態判定部130を備えている。また音声処理装置200は、提示部240をさらに備えている。すなわち、本実施形態3に係わる音声処理装置200の構成は、提示部240を備えている点で、前記実施形態2に係わる音声処理装置100とは異なる。本実施形態3においても、前記実施形態2と同じ符号の構成要素が行う処理は共通である。したがって、本実施形態3では、提示部240が行う処理についてのみ説明する。
 提示部240は、音声処理装置200の状態判定部130による判定の結果に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを示す情報を提示する。提示部240は、提示手段の一例である。
 一例では、提示部240は、状態判定部130から、判定の対象者が正常状態であるか、非正常であるかを示す判定の結果のデータを取得する。提示部240は、判定の結果のデータに応じて、互いに異なる情報を提示してもよい。
 例えば、状態判定部130によって、判定の対象者が正常状態であると判定された場合、提示部240は、指標値算出部120が算出した指標値(スコア)のデータを取得し、指標値(スコア)に基づいて、判定の結果の確からしさを示す情報を提示する。具体的には、提示部240は、判定の対象者が正常状態であることを、画面上のテキスト、記号、あるいはライトの光によって、表示する。一方、状態判定部130によって、判定の対象者が非正常状態であると判定された場合、提示部240は、警報を報知する。加えて、提示部240は、指標値算出部120が算出した指標値(スコア)のデータを取得し、取得した指標値(スコア)のデータを図示しない表示装置に出力することによって、表示装置の画面上に指標値(スコア)を表示してもよい。
 (音声処理装置200の動作)
 図5を参照して、本実施形態3に係わる音声処理装置200の動作について説明する。図5は、音声処理装置200の各部(図4)が実行する処理を示すフローチャートである。
 図5に示すように、提示部240は、判定の対象者に対し、長い発話を促すメッセージのデータを、図示しない表示装置に出力することによって、表示装置の画面にメッセージを表示する(S201)。なお、長い発話の意味(あるいは発話の長短の定義)を、音声処理装置200のユーザは適宜に定めてよい。一例では、長い発話とは、N単語以上(Nはユーザが設定した数)を含む発話である。判定の対象者に対し、長い発話を求める理由は、入力データの特徴と、登録データの特徴との間の類似度を表す指標値を正確に計算するためである。
 特徴抽出部110は、マイクロフォン等の入力デバイスから、判定の対象者の発話を集音された音声信号(図1の入力データ)を受信する(S202)。また、特徴抽出部110は、DBから、判定の対象者が正常状態であるときに録音された音声信号(図1の登録データ)を受信する。
 特徴抽出部110は、入力データから、入力データの特徴を抽出する(S203)。また、特徴抽出部110は、登録データから、登録データの特徴を抽出する。
 そして、指標値算出部120は、入力データの特徴と登録データの特徴との間の類似度を表す指標値(スコア)を算出する(S204)。
 状態判定部130は、指標値と、あらかじめ定められた閾値とを比較する(S205)。スコアが閾値よりも大きい場合(S205でYes)、状態判定部130は、判定の対象者が正常状態であると判定する(S206A)。状態判定部130は、判定の結果を提示部240へ出力する。この場合、提示部240は、判定の対象者は正常状態であることを示す情報を、図示しない表示装置に表示する(S207A)。
 一方、スコアが閾値以下である場合(S205でNo)、状態判定部130は、判定の対象者が非正常状態であると判定する(S206B)。状態判定部130は、判定の結果を提示部240へ出力する。この場合、提示部240は、警報を報知する(S207B)。
 加えて、ステップS207Bにおいて、提示部240は、判定の対象者は非正常状態であることを示す情報を、図示しない表示装置に表示してもよい。一例では、提示部240は、指標値算出部120から、ステップS204において算出された指標値(スコア)のデータを取得し、取得したスコアそのもの、あるいはスコアに基づく情報(一例では、再検査の提案)を表示装置に表示する。
 以上で、本実施形態3に係わる音声処理装置200の動作は終了する。
 (本実施形態の効果)
 本実施形態の構成によれば、特徴抽出部110は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出する。指標値算出部120は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する。状態判定部130は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。これにより、音声処理装置200は、識別器を用いて、判定の対象者が正常状態であることの確からしさを示す指標値を取得できる。この指標値に基づく判定の結果は、判定の対象者の発話が、正常状態であるときのその人物の発話とどれぐらい類似しているのかを示す。したがって、音声処理装置200は、ユーザによる判定の対象者との面談の結果または生体データの必要なしに、判定の対象者の状態(正常であるか、非正常であるか)を簡単に判定することができる。また、音声処理装置200による判定の結果が出力された場合、ユーザは、判定の対象者の状態を即時にチェックすることができる。
 さらに、本実施形態の構成によれば、提示部240は、判定の結果に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを示す情報を提示する。そのため、提示された情報を見たユーザは、判定の対象者の状態を容易に把握することができる。そして、ユーザは、把握された判定の対象者の状態に応じた措置(例えば乗務員との再面談、あるいは業務の制限)を適切に行うことができる。
 〔ハードウェア構成〕
 前記実施形態2~3で説明した音声処理装置100、200の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図6に示すような情報処理装置900により実現される。図6は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
 図6に示すように、情報処理装置900は、一例として、以下のような構成を含む。
  ・CPU(Central Processing Unit)901
  ・ROM(Read Only Memory)902
  ・RAM(Random Access Memory)903
  ・RAM903にロードされるプログラム904
  ・プログラム904を格納する記憶装置905
  ・記録媒体906の読み書きを行うドライブ装置907
  ・通信ネットワーク909と接続する通信インタフェース908
  ・データの入出力を行う入出力インタフェース910
  ・各構成要素を接続するバス911
 前記実施形態2~3で説明した音声処理装置100、200の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
 上記の構成によれば、前記実施形態2~3において説明した音声処理装置100、200が、ハードウェアとして実現される。したがって、前記実施形態2~3において説明した効果と同様の効果を奏することができる。
 〔実施形態2および3に共通〕
 上述した実施形態2または3に係る音声処理装置が共通して適用される音声認証システムの構成の一例を説明する。
 (音声認証システム1)
 図7を参照して、音声認証システム1の構成の一例を説明する。図7は、音声認証システム1の構成の一例を示すブロック図である。
 図7に示すように、音声認証システム1は、音声処理装置100(200)および学習装置10を備えている。また、音声認証システム1は、1または複数の入力デバイスを備えていてもよい。音声処理装置100(200)は、前記実施形態2に係わる音声処理装置100、あるいは、前記実施形態3に係わる音声処理装置200である。
 図7に示すように、学習装置10は、ネットワーク上にあるDB(Data Base)から、あるいは学習装置10と接続されたDBから、教師データを取得する。学習装置10は、取得した教師データを用いて、識別器を学習させる。より詳細には、学習装置10は、教師データに含まれる音声データを識別器に入力し、教師データに含まれる正解の情報を識別器の出力に与えて、周知の損失関数の値を計算する。そして、学習装置10は、損失関数の計算値を減少させるように、所定の回数にわたって繰り返し、識別器のパラメータを更新する。あるいは、学習装置10は、損失関数の値が所定値以下になるまで繰り返し、識別器のパラメータを更新する。
 前記実施形態2で説明したように、音声処理装置100は、学習済の識別器を用いて、判定の対象者の状態を判定する。同様に、前記実施形態3に係わる音声処理装置200も、学習済の識別器を用いて、判定の対象者の状態を判定する。
 本発明は、一例では、入力デバイスを用いて入力された音声のデータを分析することによって、本人確認を行う音声認証システムに利用することができる。
   1 音声認証システム
  10 学習装置
 100 音声処理装置
 110 特徴抽出部
 120 指標値算出部
 130 状態判定部
 200 音声処理装置
 240 提示部

Claims (7)

  1.  正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出する特徴抽出手段と、
     前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する指標値算出手段と、
     前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定する状態判定手段と
     を備えた
     音声処理装置。
  2.  前記判定の結果に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを示す情報を提示する提示手段をさらに備えた
     ことを特徴とする請求項1に記載の音声処理装置。
  3.  前記判定の対象者が非正常状態であると判定された場合、
     前記提示手段は、前記指標値に基づいて、前記判定の結果の確からしさを示す情報を提示する
     ことを特徴とする請求項2に記載の音声処理装置。
  4.  前記判定の対象者が非正常状態であると判定された場合、
     前記状態判定手段は、前記判定の対象者が物体を操作する権限を制限する
     ことを特徴とする請求項1に記載の音声処理装置。
  5.  正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出し、
     前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出し、
     前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定する
     音声処理方法。
  6.  正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出することと、
     前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出することと、
     前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定することと
     をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
  7.  請求項1から4のいずれか1項に係わる音声処理装置と、
     正常状態であったときの判定の対象者の発話に基づく音声データを前記教師データとして用いて前記識別器を学習させる学習装置と
     を備えた音声認証システム。
PCT/JP2020/029248 2020-07-30 2020-07-30 音声処理装置、音声処理方法、記録媒体、および音声認証システム WO2022024297A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/016,789 US20230274760A1 (en) 2020-07-30 2020-07-30 Voice processing device, voice processing method, recording medium, and voice authentication system
PCT/JP2020/029248 WO2022024297A1 (ja) 2020-07-30 2020-07-30 音声処理装置、音声処理方法、記録媒体、および音声認証システム
JP2022539897A JPWO2022024297A5 (ja) 2020-07-30 音声処理装置、音声処理方法、プログラム、および音声認証システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/029248 WO2022024297A1 (ja) 2020-07-30 2020-07-30 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Publications (1)

Publication Number Publication Date
WO2022024297A1 true WO2022024297A1 (ja) 2022-02-03

Family

ID=80037807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/029248 WO2022024297A1 (ja) 2020-07-30 2020-07-30 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Country Status (2)

Country Link
US (1) US20230274760A1 (ja)
WO (1) WO2022024297A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015027A (ja) * 2008-07-04 2010-01-21 Nissan Motor Co Ltd 車両用飲酒検知装置及び車両用飲酒検知方法
WO2012014301A1 (ja) * 2010-07-29 2012-02-02 ユニバーサルロボット株式会社 飲酒状態判定装置及び飲酒状態判定方法
US9907509B2 (en) * 2014-03-28 2018-03-06 Foundation of Soongsil University—Industry Cooperation Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015027A (ja) * 2008-07-04 2010-01-21 Nissan Motor Co Ltd 車両用飲酒検知装置及び車両用飲酒検知方法
WO2012014301A1 (ja) * 2010-07-29 2012-02-02 ユニバーサルロボット株式会社 飲酒状態判定装置及び飲酒状態判定方法
US9907509B2 (en) * 2014-03-28 2018-03-06 Foundation of Soongsil University—Industry Cooperation Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method

Also Published As

Publication number Publication date
US20230274760A1 (en) 2023-08-31
JPWO2022024297A1 (ja) 2022-02-03

Similar Documents

Publication Publication Date Title
US8209174B2 (en) Speaker verification system
Hansen et al. Speaker recognition by machines and humans: A tutorial review
US20190295533A1 (en) Intelligent interactive method and apparatus, computer device and computer readable storage medium
Jessen Forensic phonetics
US9159054B2 (en) System and method for providing guidance to persuade a caller
US20200381130A1 (en) Systems and Methods for Machine Learning of Voice Attributes
WO2019242155A1 (zh) 基于声音识别的健康管理方法、装置和计算机设备
Hammersley et al. Voice identification by humans and computers
WO2006109268A1 (en) Automated speech disorder detection method and apparatus
Alexander Forensic automatic speaker recognition using Bayesian interpretation and statistical compensation for mismatched conditions
Nisar et al. Cognitively inspired feature extraction and speech recognition for automated hearing loss testing
KR102444012B1 (ko) 말 장애 평가 장치, 방법 및 프로그램
JP4631464B2 (ja) 体調判定装置およびそのプログラム
Warule et al. Significance of voiced and unvoiced speech segments for the detection of common cold
Nisar et al. Speech recognition-based automated visual acuity testing with adaptive mel filter bank
WO2022024297A1 (ja) 音声処理装置、音声処理方法、記録媒体、および音声認証システム
Aggarwal et al. Evaluation of supervised learning algorithms based on speech features as predictors to the diagnosis of mild to moderate intellectual disability
Tao et al. Multi-Local Attention for Speech-Based Depression Detection
CN111091836A (zh) 一种基于大数据的智能声纹识别方法
Franciscatto et al. Blending situation awareness with machine learning to identify children’s speech disorders
Macková et al. Best feature selection for emotional speaker verification in i-vector representation
Gorli et al. Proposal of ASLR for Voice Disorders
US20240071412A1 (en) Method and system for predicting a mental condition of a speaker
CN110338747B (zh) 视力检查的辅助方法、存储介质、智能终端及辅助装置
Teferra Correlates and Prediction of Generalized Anxiety Disorder from Acoustic and Linguistic Features of Impromptu Speech

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20947578

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022539897

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20947578

Country of ref document: EP

Kind code of ref document: A1