WO2014112375A1 - 話者識別装置、話者識別方法、および話者識別用プログラム - Google Patents

話者識別装置、話者識別方法、および話者識別用プログラム Download PDF

Info

Publication number
WO2014112375A1
WO2014112375A1 PCT/JP2014/000183 JP2014000183W WO2014112375A1 WO 2014112375 A1 WO2014112375 A1 WO 2014112375A1 JP 2014000183 W JP2014000183 W JP 2014000183W WO 2014112375 A1 WO2014112375 A1 WO 2014112375A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
similar
speakers
registered
classifier
Prior art date
Application number
PCT/JP2014/000183
Other languages
English (en)
French (fr)
Inventor
真宏 谷
孝文 越仲
祥史 大西
茂 澤田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014557410A priority Critical patent/JP6424628B2/ja
Priority to US14/760,617 priority patent/US10249306B2/en
Publication of WO2014112375A1 publication Critical patent/WO2014112375A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Definitions

  • the present invention relates to a speaker identification device, a speaker identification method, and a speaker identification program, and in particular, a speaker identification device and speaker identification for determining who an input speech is from among registered speakers.
  • the present invention relates to a method and a program for speaker identification.
  • FIG. 6 is a schematic diagram showing an outline of general speaker recognition technology.
  • speaker recognition is roughly divided into speaker identification and speaker verification, as shown in FIG.
  • For speaker identification a voice is input, it is determined who the speaker is registered in advance, and the ID (Identification) of the speaker is output.
  • the ID is an identifier that uniquely identifies the speaker and is given to the speaker at the time of registration.
  • speaker verification a voice and an ID are input, it is determined whether or not the input voice is based on the input ID, that is, whether or not the person is the person, and an acceptance or rejection is output.
  • Non-Patent Document 1 describes an example of a general speaker identification device.
  • FIG. 7 is a block diagram showing a schematic configuration of a general speaker identification device. As shown in FIG. 7, the general speaker identification device includes a registration unit 10 and an identification unit 20.
  • the registration unit 10 includes a feature extraction unit 101 and a learning unit 102.
  • the feature extraction unit 101 calculates a feature amount necessary for speaker identification from the input voice.
  • a mel cepstrum coefficient (MFCC; Mel-Frequency Cepstrum Coefficient) described in Non-Patent Document 2 is used as the feature amount.
  • the learning unit 102 creates a speaker model from the calculated feature amount.
  • the speaker model is a probabilistic model that expresses the voice characteristics of the speaker.
  • a known mixed Gaussian distribution model (GMM) is used as the speaker model.
  • the speaker model is stored in association with the registered speaker ID.
  • the identification unit 20 includes a feature extraction unit 201 and a score calculation unit 202.
  • the function of the feature extraction unit 201 is the same as the function of the feature extraction unit 101 of the registration unit 10, and calculates a feature amount necessary for speaker identification from the input voice.
  • the score calculation unit 202 compares the calculated feature amount with a speaker model registered in advance, and outputs a speaker ID corresponding to the speaker model having the highest score as an identification result.
  • the score is the likelihood of the model with respect to the feature amount, and the higher the likelihood is, the more similar the input speech and the registered speaker's speech are.
  • Non-Patent Document 3 describes an example of a general speaker verification device.
  • FIG. 8 is a block diagram showing a schematic configuration of a general speaker verification device. As shown in FIG. 8, the general speaker verification device includes a registration unit 30 and a verification unit 40.
  • the registration unit 30 includes a feature extraction unit 301, a feature extraction unit 302, and a learning unit 303.
  • the function of the feature extraction unit 301 and the function of the feature extraction unit 302 are the same, and the feature amount necessary for speaker verification is calculated from the input speech.
  • the feature extraction unit 301 inputs the voice of the speaker to be registered, and outputs the voice feature amount of the speaker to be registered.
  • the feature extraction unit 302 inputs the voices of many speakers other than the speaker to be registered, and outputs the voice feature quantities of many speakers other than the speaker to be registered.
  • a GMM super vector (GSV) is used as the feature quantity.
  • GSV is a super vector in which only the average vector of the speaker model expressed in GMM is extracted and connected. That is, in order to calculate GSV, it is first necessary to create a speaker model from speech.
  • the learning unit 303 learns the discriminator by using the feature values of the speakers to be registered as positive examples and the feature values of many speakers as negative examples.
  • a known support vector machine (SVM: Support Vector Machine) is used for learning of the classifier.
  • SVM is a method for obtaining a plane (identification plane) that separates feature points of positive examples and feature points of negative examples. The shortest distance between the identification plane and the feature point is called a margin, and the parameters of the identification plane are learned so as to maximize this margin.
  • Non-Patent Document 4 describes the SVM margin maximization criteria.
  • the collation unit 40 includes a feature extraction unit 401 and a score calculation unit 402.
  • the function of the feature extraction unit 401 is the same as the function of the feature extraction unit 301 and the feature extraction unit 302 of the registration unit 30, and calculates a GSV that is a feature amount from the input voice.
  • the score calculation unit 402 outputs a binary score (1 or ⁇ 1) as a matching result by using the calculated feature amount and the discriminator corresponding to the input ID. In this case, a score of 1 means that the input voice and the input ID are the same speaker (person), and a score of -1 means a different speaker (spoofer).
  • Non-Patent Document 1 The method of modeling a speaker's voice by GMM described in Non-Patent Document 1 can be used not only for speaker identification but also for speaker verification.
  • Non-Patent Document 3 the accuracy of matching between the method based on GMM and the method based on SVM is compared, and the latter has higher accuracy.
  • there is no effective method using SVM for speaker identification and a method based on GMM has become mainstream.
  • the problem with the general speaker identification device as described above is that, when a plurality of speakers having similar voice characteristics are registered, the identification accuracy of these similar speakers is low. This is because the speaker is identified based only on the voice characteristics of the speaker to be registered.
  • the present invention provides a speaker identification device, a speaker identification method, and a speaker identification program capable of realizing highly accurate speaker identification even when a plurality of speakers having similar voice characteristics are registered. With the goal.
  • the speaker identification device includes a primary speaker identification unit that calculates, for each registered speaker, a score indicating a degree of similarity between an input speech and a registered speaker's speech stored in advance, and the height of the score.
  • a similar speaker selection unit that selects a plurality of registered speakers as similar speakers according to the voice of a similar speaker among the similar speakers, and negative voices of other similar speakers.
  • a learning unit that creates a classifier for each similar speaker
  • a secondary speaker identification unit that calculates a score of the classifier for the input speech for each classifier and outputs a discrimination result It is characterized by that.
  • the speaker identification method calculates, for each registered speaker, a score indicating the degree of similarity between the input speech and a pre-stored registered speaker's speech, and a plurality of the above-described scores according to the height of the score. Select a registered speaker as a similar speaker, and create a classifier for each similar speaker with the voice of one similar speaker as a positive example and the voice of another similar speaker as a negative example among the similar speakers. The score of the discriminator with respect to the input speech is calculated for each discriminator, and the discrimination result is output.
  • the speaker identification program comprises: a primary speaker identification process for calculating, for each registered speaker, a score indicating a degree of similarity between an input speech and a registered speaker speech stored in advance in the computer; A similar speaker selection process for selecting a plurality of registered speakers as similar speakers according to the height of the speaker, and a voice of a similar speaker among the similar speakers as a normal example, and other similar speakers A learning process for creating a classifier for each similar speaker using speech as a negative example, a secondary speaker identification process for calculating a score of the classifier for the input speech for each classifier, and outputting a discrimination result; Is executed.
  • FIG. 1 is a block diagram showing the configuration of the speaker identification device of this embodiment.
  • FIG. 2 is an explanatory diagram showing a specific example of the operation of the speaker identification device of the present embodiment.
  • the speaker identification device of this embodiment includes a primary speaker identification unit 1, a similar speaker selection unit 2, a learning unit 3, a secondary speaker identification unit 4, and a registered speaker.
  • DB (DataBase: database) 5 is provided.
  • the primary speaker identification unit 1, the similar speaker selection unit 2, the learning unit 3, and the secondary speaker identification unit 4 are, for example, hardware designed to perform specific arithmetic processing or the like, or a CPU that operates according to a program This is realized by an information processing apparatus such as (Central Processing Unit).
  • a method based on GMM is used for primary speaker identification
  • a method based on SVM is used for secondary speaker identification.
  • the primary speaker identification unit 1 compares the input speech with the speech of the registered speaker stored in advance in the registered speaker DB 5, and calculates a score representing the degree of similarity with the input speech for each registered speaker. Specifically, the score is the likelihood of the speaker model for the input speech (feature value).
  • the registered speaker DB 5 stores as many speaker models as the number of registered speakers, which are modeled voice features of registered speakers.
  • the voice characteristics of the registered speaker are modeled by GMM by the method described in Non-Patent Document 1.
  • the speaker model may not be GMM.
  • the speaker model may be a well-known hidden Markov model (HMM; Hidden Markov Model) as long as the features of the speaker's voice can be expressed.
  • the primary speaker identification unit 1 may be configured to perform identification processing in multiple stages. For example, in the case of two-stage processing, the registered speaker DB 5 stores a lightweight version and a normal version of the speaker model. In this case, the primary speaker identification unit 1 first compares the input speech with a lightweight speaker model and calculates a score for each registered speaker. Then, the primary speaker identification unit 1 narrows down speakers with high scores, compares the input speech with a normal speaker model corresponding to the narrowed down speakers, and calculates a score.
  • the difference between the lightweight version and the normal version is, for example, a difference in the number of GMMs mixed when the speaker model is GMM.
  • the primary speaker identification unit 1 uses a GMM with a relatively small number of mixtures as a lightweight version (for example, the number of mixtures of 8) to identify the speaker, and then normally selects a GMM with a relatively large number of mixtures (for example, the number of mixtures of 512) Use as a version to identify speakers narrowed down by the lightweight version. In this way, by performing the identification process in two stages (the same applies to three or more stages), the processing of the primary speaker identification unit 1 can be speeded up.
  • the similar speaker selection unit 2 selects the top N people with high scores as similar speakers from the set of registered speakers and scores output by the primary speaker identification unit 1.
  • the similar speaker selection unit 2 selects from the speaker B having the highest likelihood (# 1) to the speaker V having the likelihood Nth (#N) as similar speakers.
  • the value of N is set in advance.
  • the learning unit 3 creates a classifier for each similar speaker by a method using a support vector machine (SVM). Specifically, the learning unit 3 uses N registered speaker data corresponding to N similar speakers output from the similar speaker selecting unit 2, and uses one registered speaker data among similar speakers. Is a positive example, and the remaining N-1 speaker data is a negative example, and N discriminators are created for each similar speaker.
  • FIG. 3 is an explanatory diagram showing a specific example of classifier learning by SVM. As shown in FIG. 3, when creating a discriminator for speaker B with the first likelihood (# 1), the feature quantity (GSV) obtained from the speaker model (GMM) corresponding to B is a positive example.
  • GSV feature quantity
  • a feature amount (GSV) obtained from a speaker model (GMM) corresponding to similar speakers (A,..., V) other than B is taken as a negative example.
  • the learning unit 3 learns the identification plane parameter that maximizes the margin according to the SVM margin maximization standard described in Non-Patent Document 4.
  • the learning unit 3 also creates a classifier for each speaker for the speakers A to V with the likelihood of 2nd to Nth in the same procedure as the above-mentioned speaker B.
  • the discriminator may not be SVM, and may be one using a known neural network, for example.
  • the learning unit 3 may not use the N-1 speaker data as a negative example, and may use the speaker data of the M highest scorers of the primary speaker identification unit 1 as a negative example.
  • the learning unit 3 uses speaker data of the top M (M> N ⁇ 1) people as a negative example, and when N is large, the learning unit 3 uses the top M (M ⁇ N ⁇ 1) people as a negative example. You may make it use as.
  • the former method suppresses deterioration in the identification accuracy of the latter stage (secondary speaker identification unit 4) due to insufficient learning data, and the latter method can speed up the learning process.
  • the learning unit 3 may store a pair of a similar speaker ID list in which similar speaker IDs are enumerated and a classifier as a history of using the speaker identification device of the present embodiment in the past. Then, the learning unit 3 may create a discriminator only when a difference appears between the similar speaker ID list selected by the similar speaker selection unit 2 and the similar speaker ID list of the history. . If there is no difference, the learning unit 3 outputs a discriminator in the history. The learning unit 3 can speed up (skip) the learning process by creating a discriminator only when a history and a difference are generated.
  • the secondary speaker identification unit 4 calculates the classifier score for the input speech for each classifier and outputs the identification result. Specifically, the secondary speaker identification unit 4 inputs the input speech to the N classifiers output by the learning unit 3, and finally registers the registered speaker ID corresponding to the classifier showing the highest score. Is output as a simple identification result. This score is, for example, the distance from the feature point of the input speech to the identification plane. In the example shown in FIG. 2, first, the secondary speaker identification unit 4 creates one speaker model (GMM) using the input speech in the same procedure as that for registration, and obtains a feature value (GSV). .
  • GMM speaker model
  • the secondary speaker identification unit 4 calculates the distance from the feature point (GSV) extracted from the input speech to the identification plane for each classifier, and the ID of the registered speaker corresponding to the feature point having the longest distance. Is output as the final identification result.
  • GSV feature point
  • FIG. 4 is a flowchart showing the operation of the speaker identification device of this embodiment.
  • the primary speaker identification unit 1 compares the input speech with the speech stored in the registered speaker DB 5, and calculates a score representing the degree of similarity with the input speech for each registered speaker (step A1).
  • the registered speaker DB 5 stores a speaker model of a registered speaker. The score is the likelihood of the speaker model for the input speech.
  • the similar speaker selection unit 2 selects the top N people with higher scores as similar speakers from the set of registered speakers and scores obtained in the process of step A1 (step A2).
  • the learning unit 3 corrects one speaker data among the similar speakers by using the N registered speaker data corresponding to the N similar speakers obtained in the process of step A2. For example, taking the remaining N-1 speaker data as a negative example, N discriminators are created for each similar speaker (step A3).
  • the registered speaker data is, for example, a GMM super vector (GSV) extracted from a speaker model expressed in GMM.
  • the secondary speaker identifying unit 4 inputs the input speech to each of the N classifiers obtained in step A3, calculates the score, and the registered speaker corresponding to the classifier that exhibits the highest score.
  • the ID is output as the final speaker identification result (step A4).
  • the score is, for example, the distance from the feature point extracted from the input speech to the discrimination plane when the discriminator is based on SVM.
  • the speaker identification device of this embodiment identifies input speech using a classifier, even when a plurality of speakers with similar voice characteristics are registered, it is possible to realize highly accurate speaker identification.
  • the speaker identification device according to the present embodiment creates a classifier only for the voice of a registered speaker having a predetermined similarity with the input voice, the identification process can be performed efficiently.
  • Embodiment 2 a second embodiment (Embodiment 2) will be described with reference to the drawings. Since the configuration of the speaker identification device of the present embodiment is the same as the configuration of the speaker identification device of the first embodiment shown in FIG. 1, the configuration will be described using the configuration shown in FIG. Since the speaker identification device of the present embodiment is different from the speaker identification device of the first embodiment only in the function of the similar speaker selection unit 2, the description of the configuration other than the similar speaker selection unit 2 is omitted. .
  • the similar speaker selection unit 2 inputs a set of scores indicating the degree of similarity between the registered speaker output by the primary speaker identification unit 1 and the input speech, and a score corresponding to the registered speaker and a preset score. Compare with the threshold. And the similar speaker selection part 2 selects the registration speaker corresponding to the score more than a threshold value as a similar speaker. That is, the number of similar speakers is dynamically changed by the input voice.
  • FIG. 5 is a flowchart showing the operation of the speaker identification device of this embodiment.
  • Steps A11, A13, and A14 shown in FIG. 5 are the same steps as Steps A1, A3, and A4 in the first embodiment shown in FIG.
  • the similar speaker selection unit 2 compares the score corresponding to the registered speaker with a preset threshold value of the score from the set of the registered speaker and the score obtained in step A11, and obtains a score equal to or higher than the threshold value.
  • the registered speaker corresponding to is selected as a similar speaker (step A12).
  • the similar speaker selection unit 2 selects a registered speaker corresponding to a score equal to or higher than a preset score threshold as a similar speaker. Therefore, compared with the method of fixing the number of similar speakers, selection omission of speakers with high similarity and selection of speakers with low similarity can be suppressed. If the former can be suppressed, the identification accuracy can be improved. If the latter can be suppressed, the identification speed can be improved.
  • FIG. 9 is a block diagram showing the configuration of the main part of the speaker identification device according to the present invention.
  • the speaker identification device according to the present invention has a primary configuration in which a score indicating the degree of similarity between an input voice and a registered speaker's voice stored in advance is calculated for each registered speaker.
  • Speaker identification unit 1 similar speaker selection unit 2 that selects a plurality of registered speakers as similar speakers according to the height of the score, and the voice of a similar speaker among the similar speakers as a positive example
  • a learning unit 3 that creates a classifier for each similar speaker using the voice of another similar speaker as a negative example, and a secondary story that calculates a score of the classifier for the input speech for each classifier and outputs a discrimination result
  • a person identification unit 4 is a primary configuration in which a score indicating the degree of similarity between an input voice and a registered speaker's voice stored in advance is calculated for each registered speaker.
  • Speaker identification unit 1 similar speaker selection unit 2 that selects a plurality of registered speakers as
  • speaker identification devices described in the following (1) to (4) are also disclosed.
  • the learning unit (for example, the learning unit 3) includes a similar speaker selected by the similar speaker selecting unit (for example, the similar speaker selecting unit 2) in the past and an identifier created by the learning unit in the past.
  • a speaker identification device that stores a set as a history in advance and creates a classifier only when there is a difference between the similar speaker in the history and the similar speaker selected by the similar speaker selection unit. According to such a speaker identification device, it is possible to speed up (skip) the learning process by creating a classifier only when a history and a difference are generated.
  • the speaker identification device may be configured such that the similar speaker selection unit selects a preset number of similar speakers.
  • the speaker identification device may be configured such that the similar speaker selection unit selects a similar speaker based on a preset score threshold. It is possible to suppress deterioration in the identification accuracy of the latter stage (secondary speaker identification unit 4) due to insufficient learning data, or to speed up the learning process.
  • the speaker identification device may be configured such that the classifier is an SVM, and the score of the classifier is a distance from the feature point of the input speech to the classification plane.
  • the present invention can be applied to applications such as a speaker identification device for identifying a person from input speech, a program for realizing the speaker identification device by a computer, and the like. Further, the present invention can be applied to a use such as a person retrieval device for identifying a person in the same manner as or in combination with person identification by fingerprint, face, handwriting, and iris. Furthermore, the present invention can be applied to applications such as a device that automatically assigns a speaker index to video content accompanied by sound, a content search device that searches content, and the like.

Abstract

 話者識別装置は、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを登録話者毎に算出する一次話者識別部1と、スコアの高さに応じて複数の登録話者を類似話者として選択する類似話者選択部2と、類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として類似話者毎の識別器を作成する学習部3と、入力音声に対する識別器のスコアを識別器毎に算出し、識別結果を出力する二次話者識別部4とを備える。

Description

話者識別装置、話者識別方法、および話者識別用プログラム
 本発明は、話者識別装置、話者識別方法、および話者識別用プログラムに関し、特に、入力音声が予め登録された話者の誰によるものかを判定する、話者識別装置、話者識別方法、および話者識別用プログラムに関する。
 図6は、一般的な話者認識技術の概要を示す模式図である。一般的に、話者認識は、図6に示すように、話者識別と話者照合とに大別される。話者識別は、音声を入力し、入力音声が予め登録された話者の誰によるものかを判定し、話者のID(Identification)を出力する。IDは、話者を一意に特定する識別子であり登録の際に話者に付与される。一方、話者照合は、音声およびIDを入力し、入力音声が入力IDによるものか否か、つまり本人か否かを判定し、受理(Accept)または拒否(Reject)を出力する。
 非特許文献1には、一般的な話者識別装置の一例が記載されている。図7は、一般的な話者識別装置の概略構成を示すブロック図である。図7に示すように、一般的な話者識別装置は、登録部10と、識別部20とを備える。登録部10は、特徴抽出部101と学習部102とを含む。
 特徴抽出部101は、入力音声から話者識別に必要な特徴量を算出する。特徴量には、非特許文献2に記載されているメルケプストラム係数(MFCC;Mel-Frequency Cepstrum Coefficient)が用いられる。
 学習部102は、算出された特徴量から話者モデルを作成する。話者モデルは、話者の音声の特徴を表現する確率モデルである。話者モデルとして、公知の混合ガウス分布モデル(GMM;Gaussian Mixture Model)が用いられる。話者モデルは、登録話者のIDに対応付けられて記憶される。
 識別部20は、特徴抽出部201とスコア算出部202とを含む。特徴抽出部201の機能は、登録部10の特徴抽出部101の機能と同じであり、入力音声から話者識別に必要な特徴量を算出する。スコア算出部202は、算出された特徴量と、予め登録された話者の話者モデルとを比較し、最もスコアの高い話者モデルに対応する話者IDを、識別結果として出力する。スコアは、特徴量に対するモデルの尤度であり、尤度が高いほど入力音声と登録話者の音声が類似していることを意味する。
 非特許文献3には、一般的な話者照合装置の一例が記載されている。図8は、一般的な話者照合装置の概略構成を示すブロック図である。図8に示すように、一般的な話者照合装置は、登録部30と、照合部40とを備える。
 登録部30は、特徴抽出部301と、特徴抽出部302と、学習部303とを含む。特徴抽出部301の機能と特徴抽出部302の機能は同じであり、入力音声から話者照合に必要な特徴量を算出する。特徴抽出部301は、登録する話者の音声を入力し、登録する話者の音声特徴量を出力する。一方、特徴抽出部302は、登録する話者以外の多数の話者の音声を入力し、登録する話者以外の多数の話者の音声特徴量を出力する。特徴量として、GMMスーパーベクトル(GSV;GMM Supervector)が用いられる。非特許文献3に記載されているように、GSVはGMMで表現される話者モデルの平均ベクトルのみを抜き出して連結したスーパーベクトルである。つまり、GSVを算出するには、まず、音声から話者モデルを作成する必要がある。
 学習部303は、登録する話者の特徴量を正例、多数の話者の特徴量を負例として、識別器を学習する。識別器の学習には、公知のサポートベクトルマシン(SVM;Support Vector Machine)が用いられる。SVMは、正例の特徴点と負例の特徴点を分離する平面(識別平面)を求める手法である。識別平面と特徴点との最短距離はマージンと呼ばれ、このマージンを最大化するように識別平面のパラメータが学習される。非特許文献4に、SVMのマージン最大化基準について記載されている。
 照合部40は、特徴抽出部401と、スコア算出部402とを含む。特徴抽出部401の機能は、登録部30の特徴抽出部301,特徴抽出部302の機能と同じであり、入力音声から特徴量であるGSVを算出する。スコア算出部402は、算出された特徴量と、入力されたIDに対応する識別器とを用いて、2値のスコア(1または-1)を照合結果として出力する。この場合、スコア1は、入力音声と入力IDは同一話者(本人)であることを意味し、スコア-1は、異なる話者(詐称者)であることを意味する。
 非特許文献1に記載されているGMMで話者の音声をモデル化する方式は、話者識別だけでなく、話者照合にも用いることができる。非特許文献3では、GMMに基づく方式と、前述のSVMに基づく方式の照合精度が比較されており、後者の方が高い精度が得られている。一方、話者識別にSVMを用いる効果的な方式はなく、GMMに基づく方式が主流となっている。
D. A. Reynolds and R. C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,"IEEE Trans. Speech Audio Processing, 1995, Vol. 3,No. 1, pp.72-83 鹿野清宏, 伊藤克亘, 河原達也, 武田一哉, 山本幹雄著, "音声認識システム,"株式会社オーム社, 2001, pp.13-15 W. M. Campbell, D. E. Sturim and D. A. Reynolds, "Support Vector Machines Using GMM Supervectors for Speaker Verification," IEEE Signal Processing Letters, 2006 , Vol. 13, No. 5, pp.308-311 Nello Cristianini, John Shawe-Taylor著, "サポートベクターマシン入門," 共立出版, 2005, pp.130-149
 上記のような一般的な話者識別装置の問題点は、音声の特徴が類似した話者が複数名登録されている場合、これら類似した話者の識別精度が低いことである。その理由は、登録する話者の音声の特徴のみに基づいて話者識別するためである。
 本発明は、音声の特徴が類似した話者が複数名登録されている場合でも、高精度な話者識別を実現できる、話者識別装置、話者識別方法および話者識別プログラムを提供することを目的とする。
 本発明による話者識別装置は、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別部と、前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択部と、前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習部と、前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別部とを備えたことを特徴とする。
 本発明による話者識別方法は、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出し、前記スコアの高さに応じて複数の前記登録話者を類似話者として選択し、前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成し、前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力することを特徴とする。
 本発明による話者識別プログラムは、コンピュータに、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別処理と、前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択処理と、前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習処理と、前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別処理とを実行させることを特徴とする。
 本発明によれば、音声の特徴が類似した話者が複数名登録されている場合でも、高精度な話者識別を実現できる。
本発明による話者識別装置の第1の実施形態および第2の実施形態の構成を示すブロック図である。 本発明による話者識別装置の第1の実施形態の動作の具体例を示す説明図である。 SVMによる識別器学習の具体例を示す説明図である。 本発明による話者識別装置の第1の実施形態の動作を示すフローチャートである。 本発明による話者識別装置の第2の実施形態の動作を示すフローチャートである。 一般的な話者認識技術の概要を示す模式図である。 一般的な話者識別装置の概略構成を示すブロック図である。 一般的な話者照合装置の概略構成を示すブロック図である。 本発明による話者識別装置の主要部の構成を示すブロック図である。
実施形態1.
 次に、本発明の第1の実施形態(実施形態1)を、図面を参照して説明する。図1は、本実施形態の話者識別装置の構成を示すブロック図である。図2は、本実施形態の話者識別装置の動作の具体例を示す説明図である。
 図1に示すように、本実施形態の話者識別装置は、一次話者識別部1と、類似話者選択部2と、学習部3と、二次話者識別部4と、登録話者DB(DataBase:データベース)5とを備える。一次話者識別部1、類似話者選択部2、学習部3、および二次話者識別部4は、例えば、特定の演算処理等を行うよう設計されたハードウェア、またはプログラムに従って動作するCPU(Central Processing Unit)等の情報処理装置によって実現される。図2に示す動作の具体例では、一次話者識別にGMMに基づく方式を用い、二次話者識別にSVMに基づく方式を用いる。
 一次話者識別部1は、入力音声と登録話者DB5に予め記憶された登録話者の音声とを比較し、入力音声との類似度を表すスコアを登録話者毎に算出する。スコアは、具体的には、入力音声(特徴量)に対する話者モデルの尤度である。
 登録話者DB5は、登録話者の音声の特徴をモデル化した話者モデルを、登録話者の数だけ記憶している。図2に示す例では、非特許文献1に記載された方法で、登録話者の音声の特徴がGMMによりモデル化されている。ただし、話者モデルはGMMでなくてもよい。話者の音声の特徴を表現することができれば、例えば、話者モデルは、公知の隠れマルコフモデル(HMM;Hidden Markov Model)でもよい。
 なお、一次話者識別部1は、多段階で識別処理するように構成されていてもよい。例えば、二段階処理の場合、登録話者DB5は、軽量版と通常版の話者モデルを記憶している。この場合、一次話者識別部1は、まず入力音声と軽量版の話者モデルとを比較しスコアを登録話者毎に計算する。そして、一次話者識別部1は、スコアの高い話者を絞り込み、入力音声と絞り込んだ話者に対応する通常版の話者モデルとを比較しスコアを計算する。軽量版と通常版の違いは、例えば、話者モデルがGMMである場合、GMMの混合数の違いである。一次話者識別部1は、比較的混合数の少ないGMMを軽量版(例えば、混合数8)として用いて話者識別した後、比較的混合数の多いGMM(例えば、混合数512)を通常版として用いて、軽量版で絞り込んだ話者を識別する。このように、二段階で識別処理することにより(三段階以上の多段階も同様)、一次話者識別部1の処理を高速化することができる。
 類似話者選択部2は、一次話者識別部1が出力した、登録話者とスコアの組から、スコアの高い上位N人を類似話者として選択する。図2に示す例では、類似話者選択部2は、尤度1位(#1)の話者Bから尤度N位(#N)の話者Vまでを類似話者として選択する。Nの値は、事前に設定される。
 学習部3は、サポートベクトルマシン(SVM)を用いた手法により、類似話者毎の識別器を作成する。学習部3は、具体的には、類似話者選択部2が出力した類似話者N人に対応する登録話者データN個を用いて、類似話者のうち、ある1人の話者データを正例、残りのN-1人の話者データを負例として、類似話者毎にN個の識別器を作成する。図3は、SVMによる識別器学習の具体例を示す説明図である。図3に示すように、尤度1位(#1)の話者Bについての識別器を作成する場合、Bに対応する話者モデル(GMM)から得られる特徴量(GSV)を正例、B以外の類似話者(A,…,V)に対応する話者モデル(GMM)から得られる特徴量(GSV)を負例とする。そして、学習部3は、非特許文献4に記載されているSVMのマージン最大化基準により、マージンが最大となる識別平面のパラメータを学習する。学習部3は、尤度2位~N位の話者A~Vについても、前述の話者Bと同様の手順で、話者毎に識別器を作成する。ただし、識別器は、SVMでなくてもよく、例えば、公知のニューラルネットワークを用いたものでもよい。
 なお、学習部3は、N-1人の話者データを負例として用いなくてもよく、一次話者識別部1のスコア上位M人の話者データを負例として用いてもよい。例えば、学習部3は、Nが小さい場合、上位M(M>N-1)人の話者データを負例として用い、Nが大きい場合、上位M(M<N-1)人を負例として用いるようにしてもよい。前者の方法は、学習データ不足による後段(二次話者識別部4)の識別精度の劣化を抑制し、後者の方法は、学習処理を高速化することができる。
 さらに、学習部3は、過去に本実施形態の話者識別装置を使用した履歴として、類似話者IDが列挙された類似話者IDリストと識別器の組を保存しておいてもよい。そして、類似話者選択部2が選択した類似話者IDリストと、履歴の類似話者IDリストとに差分が出た場合にのみ、学習部3が、識別器を作成するようにしてもよい。そして、差分がない場合は、学習部3は、履歴における識別器を出力する。学習部3は、履歴と差分が出た場合にのみ識別器を作成することにより、学習処理を高速化(スキップ)することができる。
 二次話者識別部4は、入力音声に対する識別器のスコアを識別器毎に算出し、識別結果を出力する。二次話者識別部4は、具体的には、入力音声を学習部3が出力したN個の識別器に入力し、最も高いスコアを示した識別器に対応する登録話者IDを最終的な識別結果として出力する。このスコアは、例えば、入力音声の特徴点から識別平面までの距離である。図2に示す例では、まず、二次話者識別部4は、登録時と同様の手続きで入力音声を用いて、話者モデル(GMM)を1つ作成し、特徴量(GSV)を得る。そして、二次話者識別部4は、識別器毎に、入力音声から抽出した特徴点(GSV)から識別平面までの距離を計算し、最も距離が大きい特徴点に対応する登録話者のIDを最終識別結果として出力する。特徴点が式(1)のように表され(Rは実数集合、kは特徴量の次元数)、識別平面が式(2)のように表されるとき(wは重みベクトル、bはバイアス)、特徴点から識別平面までの距離は、式(3)により求められる。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 次に、本実施形態の話者識別装置の全体の動作を説明する。図4は、本実施形態の話者識別装置の動作を示すフローチャートである。
 まず、一次話者識別部1は、入力音声と登録話者DB5に記憶された音声とを比較し、入力音声との類似度を表すスコアを登録話者毎に計算する(ステップA1)。登録話者DB5には、登録話者の話者モデルが記憶されている。スコアは、入力音声に対する話者モデルの尤度である。
 次に、類似話者選択部2は、ステップA1の処理で得られた、登録話者とスコアの組から、スコアの高い上位N人を類似話者として選択する(ステップA2)。
 次に、学習部3は、ステップA2の処理で得られた、類似話者N人に対応する登録話者データN個を用いて、類似話者の内、ある1人の話者データを正例、残りのN-1人の話者データを負例として、類似話者毎にN個の識別器を作成する(ステップA3)。登録話者データは、例えば、GMMで表現される話者モデルから抽出したGMMスーパーベクトル(GSV)である。
 最後に、二次話者識別部4は、入力音声を、ステップA3で得られた識別器N個それぞれに入力し、スコアを算出し、最も高いスコアを示した識別器に対応する登録話者IDを最終的な話者識別の結果として出力する(ステップA4)。スコアは、例えば、識別器がSVMによるものである場合、入力音声から抽出した特徴点から識別平面までの距離である。
 次に、本実施形態の効果を説明する。本実施形態の話者識別装置は、識別器を用いて入力音声を識別するため、音声の特徴が類似した話者が複数名登録されている場合でも、高精度な話者識別を実現できる。また、本実施形態の話者識別装置は、入力音声と所定の類似度を有する登録話者の音声に関してのみ識別器を作成するので、識別処理を効率良く行うことができる。
 また、識別器を事前に作成せず、本実施形態の話者識別装置のようにオンザフライで作成することによる効果を詳細に説明する。オンザフライでの作成は、事前に作成する場合と比較して、新たに話者を登録する際の計算リソースが少ないという効果がある。事前に識別器を作成する場合、例えば、登録された話者数が1万人のとき、ある話者1人を正例、残りの9999人を負例として学習した識別器を1万個作成しておく。ここで、新規話者1人(1万1人目)を登録する場合、既に作成した1万個の識別器を一から再作成する必要がある。特徴量に前述のGSV、識別器に前述のSVMを用いる場合、一般にGSVは高次元であるため(例えば、話者モデルが混合数512、次元数40のGMMの場合、GSVは512×40=20480次元)、1万個の識別器の再作成は非常に時間が掛かり、非現実的である。オンザフライで作成する場合は、新規話者が登録される度に、多量の識別器を一から再作成する必要はない。本実施形態の話者識別装置のように、類似話者のみ(例えば、類似話者20人のみ)で識別器をオンザフライで作成することにより、はじめて話者識別装置が現実的なものとなる。
実施形態2.
 次に、第2の実施形態(実施形態2)を、図面を参照して説明する。本実施形態の話者識別装置の構成は、図1に示す第1の実施形態の話者識別装置の構成と同じであるため、図1に示す構成を用いて説明する。本実施形態の話者識別装置は、類似話者選択部2の機能のみが、第1の実施形態の話者識別装置と異なるため、類似話者選択部2以外の構成に関しては説明を省略する。
 類似話者選択部2は、一次話者識別部1が出力した登録話者と入力音声との類似度を表すスコアの組を入力し、登録話者に対応するスコアと、あらかじめ設定したスコアの閾値とを比較する。そして、類似話者選択部2は、閾値以上のスコアに対応する登録話者を類似話者として選択する。つまり、類似話者数は、入力音声によって動的に変更される。
 次に、本実施形態の話者識別装置の動作を説明する。図5は、本実施形態の話者識別装置の動作を示すフローチャートである。
 図5に示すステップA11、A13、A14は、図4に示した第1の実施形態におけるステップA1、A3、A4と同一のステップであるため説明を省略する。
 類似話者選択部2は、ステップA11の処理で得られた、登録話者とスコアの組から、登録話者に対応するスコアと、あらかじめ設定したスコアの閾値とを比較し、閾値以上のスコアに対応する登録話者を類似話者として選択する(ステップA12)。
 次に、本実施形態の話者識別装置の効果を説明する。本実施形態では、類似話者選択部2が、あらかじめ設定したスコア閾値以上のスコアに対応する登録話者を類似話者として選択する。したがって、類似話者数を固定する方法と比較して、類似度が高い話者の選択漏れや、類似度が低い話者の選択を抑制できる。前者が抑制できれば識別精度を向上できる。後者が抑制できれば識別速度を向上できる。
 図9は、本発明による話者識別装置の主要部の構成を示すブロック図である。図9に示すように、本発明による話者識別装置は、主要な構成として、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを登録話者毎に算出する一次話者識別部1と、スコアの高さに応じて複数の登録話者を類似話者として選択する類似話者選択部2と、類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として類似話者毎の識別器を作成する学習部3と、入力音声に対する識別器のスコアを識別器毎に算出し、識別結果を出力する二次話者識別部4とを備える。
 また、上記の実施形態には、以下の(1)~(4)に記載された話者識別装置も開示されている。
(1)学習部(例えば、学習部3)は、類似話者選択部(例えば、類似話者選択部2)が過去に選択した類似話者と、学習部が過去に作成した識別器との組を履歴として予め保存し、履歴における類似話者と類似話者選択部が選択した類似話者とに差分がある場合にのみ、識別器を作成する話者識別装置。このような話者識別装置によれば、履歴と差分が出た場合にのみ識別器を作成することで、学習処理を高速化(スキップ)することができる。
(2)話者識別装置は、類似話者選択部が、予め設定された数の類似話者を選択するように構成されていてもよい。
(3)話者識別装置は、類似話者選択部が、予め設定されたスコアの閾値を基準に類似話者を選択するように構成されていてもよい。学習データ不足による後段(二次話者識別部4)の識別精度の劣化を抑制し、または、学習処理を高速化することができる。
(4)話者識別装置は、識別器が、SVMであり、識別器のスコアは、入力音声の特徴点から識別平面までの距離であるように構成されていてもよい。
 この出願は、2013年1月17日に出願された日本出願特願2013-006350を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、入力音声から人物を特定する話者識別装置や、話者識別装置をコンピュータで実現するためのプログラム等の用途に適用できる。また、指紋、顔、筆跡、虹彩による人物特定と同様に、或いは組み合わせて、人物を特定する人物検索装置等の用途に適用できる。さらに、音声を伴う映像コンテンツに話者インデックスを自動付与する装置、コンテンツを検索するコンテンツ検索装置等の用途にも適用できる。
 1 一次話者識別部
 2 類似話者選択部
 3 学習部
 4 二次話者識別部
 5 登録話者DB

Claims (7)

  1.  入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別部と、
     前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択部と、
     前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習部と、
     前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別部とを備えた
     ことを特徴とする話者識別装置。
  2.  学習部は、
     類似話者選択部が過去に選択した類似話者と、前記学習部が過去に作成した識別器との組を履歴として予め保存し、前記履歴における類似話者と前記類似話者選択部が選択した類似話者とに差分がある場合にのみ、識別器を作成する
     請求項1記載の話者識別装置。
  3.  類似話者選択部は、予め設定された数の類似話者を選択する
     請求項1または請求項2記載の話者識別装置。
  4.  類似話者選択部は、予め設定されたスコアの閾値を基準に類似話者を選択する
     請求項1または請求項2記載の話者識別装置。
  5.  識別器は、SVMであり、前記識別器のスコアは、入力音声の特徴点から識別平面までの距離である
     請求項1から請求項4のうちのいずれか1項に記載の話者識別装置。
  6.  入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出し、
     前記スコアの高さに応じて複数の前記登録話者を類似話者として選択し、
     前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成し、
     前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する
     ことを特徴とする話者識別方法。
  7.  コンピュータに、
     入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別処理と、
     前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択処理と、
     前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習処理と、
     前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別処理と
     を実行させるための話者識別プログラム。
PCT/JP2014/000183 2013-01-17 2014-01-16 話者識別装置、話者識別方法、および話者識別用プログラム WO2014112375A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014557410A JP6424628B2 (ja) 2013-01-17 2014-01-16 話者識別装置、話者識別方法、および話者識別用プログラム
US14/760,617 US10249306B2 (en) 2013-01-17 2014-01-16 Speaker identification device, speaker identification method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013006350 2013-01-17
JP2013-006350 2013-01-17

Publications (1)

Publication Number Publication Date
WO2014112375A1 true WO2014112375A1 (ja) 2014-07-24

Family

ID=51209471

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/000183 WO2014112375A1 (ja) 2013-01-17 2014-01-16 話者識別装置、話者識別方法、および話者識別用プログラム

Country Status (3)

Country Link
US (1) US10249306B2 (ja)
JP (1) JP6424628B2 (ja)
WO (1) WO2014112375A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019507992A (ja) * 2016-03-10 2019-03-22 シバントス ピーティーイー リミテッド 聴取装置の動作方法、および聴取装置
KR20200014723A (ko) * 2017-07-19 2020-02-11 알리바바 그룹 홀딩 리미티드 모델 훈련 방법 및 데이터 유사성 결정 방법, 그 장치 및 디바이스
WO2021010056A1 (ja) * 2019-07-17 2021-01-21 ホシデン株式会社 マイクユニット
WO2022149384A1 (ja) * 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
US10803873B1 (en) * 2017-09-19 2020-10-13 Lingual Information System Technologies, Inc. Systems, devices, software, and methods for identity recognition and verification based on voice spectrum analysis
US11244688B1 (en) * 2017-09-19 2022-02-08 Lingual Information System Technologies, Inc. Systems, devices, software, and methods for identity recognition and verification based on voice spectrum analysis
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
CN111656440A (zh) * 2018-01-23 2020-09-11 思睿逻辑国际半导体有限公司 说话人辨识
US10529356B2 (en) 2018-05-15 2020-01-07 Cirrus Logic, Inc. Detecting unwanted audio signal components by comparing signals processed with differing linearity
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
CA3190161A1 (en) * 2020-08-21 2022-02-24 Pindrop Security, Inc. Improving speaker recognition with quality indicators

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352984A (ja) * 1998-06-12 1999-12-24 Nec Corp 話者照合装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8719018B2 (en) * 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
WO2018106971A1 (en) * 2016-12-07 2018-06-14 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352984A (ja) * 1998-06-12 1999-12-24 Nec Corp 話者照合装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MICHAEL SCHMIDT ET AL.: "Speaker Identification via Support Vector Classifiers", PROC. ICASSP-96, pages 105 - 108 *
SHAN FINE ET AL.: "A Hybrid GMM/SVM Approach to Speaker Identification", PROC. ICASSP'01, vol. 1, pages 417 - 420 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019507992A (ja) * 2016-03-10 2019-03-22 シバントス ピーティーイー リミテッド 聴取装置の動作方法、および聴取装置
KR20200014723A (ko) * 2017-07-19 2020-02-11 알리바바 그룹 홀딩 리미티드 모델 훈련 방법 및 데이터 유사성 결정 방법, 그 장치 및 디바이스
KR102349908B1 (ko) * 2017-07-19 2022-01-12 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. 모델 훈련 방법 및 데이터 유사성 결정 방법, 그 장치 및 디바이스
US11288599B2 (en) 2017-07-19 2022-03-29 Advanced New Technologies Co., Ltd. Model training method, apparatus, and device, and data similarity determining method, apparatus, and device
WO2021010056A1 (ja) * 2019-07-17 2021-01-21 ホシデン株式会社 マイクユニット
CN114080641A (zh) * 2019-07-17 2022-02-22 星电株式会社 麦克风单元
JP7462634B2 (ja) 2019-07-17 2024-04-05 ホシデン株式会社 マイクユニット
WO2022149384A1 (ja) * 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム

Also Published As

Publication number Publication date
US20150356974A1 (en) 2015-12-10
JPWO2014112375A1 (ja) 2017-01-19
US10249306B2 (en) 2019-04-02
JP6424628B2 (ja) 2018-11-21

Similar Documents

Publication Publication Date Title
WO2014112375A1 (ja) 話者識別装置、話者識別方法、および話者識別用プログラム
US9947324B2 (en) Speaker identification method and speaker identification device
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
Martinez et al. Language recognition in ivectors space
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
Dileep et al. GMM-based intermediate matching kernel for classification of varying length patterns of long duration speech using support vector machines
US8374869B2 (en) Utterance verification method and apparatus for isolated word N-best recognition result
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Deng et al. Confidence measures in speech emotion recognition based on semi-supervised learning
JP2018097191A (ja) 言語記憶方法及び言語対話システム
JP2017097188A (ja) 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
JP6280068B2 (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
Madikeri et al. Implementation of the standard i-vector system for the kaldi speech recognition toolkit
US10699224B2 (en) Conversation member optimization apparatus, conversation member optimization method, and program
US11955111B2 (en) Learning data generation device, learning data generation method and non-transitory computer readable recording medium
Dileep et al. Class-specific GMM based intermediate matching kernel for classification of varying length patterns of long duration speech using support vector machines
US9053751B2 (en) Sound and image segment sorting device and method
You et al. A GMM-supervector approach to language recognition with adaptive relevance factor
WO2021166207A1 (ja) 認識装置、学習装置、それらの方法、およびプログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
Schnitzer et al. The relation of hubs to the Doddington zoo in speaker verification
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
Li et al. A multi-tasking model of speaker-keyword classification for keeping human in the loop of drone-assisted inspection
Gao et al. Open-set speaker identification in broadcast news

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14740244

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014557410

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14760617

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14740244

Country of ref document: EP

Kind code of ref document: A1