JPWO2011007497A1 - 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム - Google Patents
音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム Download PDFInfo
- Publication number
- JPWO2011007497A1 JPWO2011007497A1 JP2011522695A JP2011522695A JPWO2011007497A1 JP WO2011007497 A1 JPWO2011007497 A1 JP WO2011007497A1 JP 2011522695 A JP2011522695 A JP 2011522695A JP 2011522695 A JP2011522695 A JP 2011522695A JP WO2011007497 A1 JPWO2011007497 A1 JP WO2011007497A1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- model
- occurrence
- speech data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Abstract
Description
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の音声データ解析装置の構成例を示すブロック図である。図1に示すように、本実施形態の音声データ解析装置は、学習手段11と、認識手段12とを備える。
パラメータuj,vj,wjiに適当な値をセットする。
セッションΞ(n)がクラスタyに属する確立を、以下の式(5)に従って計算する。ここに、K(n)は、セッションΞ(n)に含まれる発話数である。
パラメータuj,vj,wjiを以下の式(6)に従って更新する。ここに、Nはセッション総数、δijはクロネッカのデルタである。
以降、上述の式(3)の確率p(Ξ|θ)の値の上昇度合いなどから収束判定を行い、収束するまでステップS1とステップS2を交互に反復する。
次に、本発明の第2の実施形態について説明する。図8は、本発明の第2の実施形態の音声データ解析装置の構成例を示すブロック図である。図8に示すように、本実施形態の音声データ解析装置は、学習手段31と、認識手段32とを備える。
者共起学習手段304は、話者共起モデルのパラメータuj,vj,wji(i=1,・・・,S、j=1,・・・,T)に適当な値をセットする。話者分類手段303は、未知の話者ラベルについて、乱数などにより適当なラベル(値)を付与する。
話者モデル学習手段302は、セッション音声データ記憶手段300に記録された音声データ、セッション話者ラベル記憶手段301に記録された既知の話者ラベル及び話者分類手段303が推定した話者ラベルを用いて話者モデルを学習し、パラメータai,λi(i=1,・・・,S)を更新する。例えば話者モデルが、平均μiと分散Σiで規定されるガウス分布モデル、すなわちλi=(ai,μi,Σi)であれば、以下の式(10)によってパラメータを更新する。
話者分類手段303は、セッション音声データ記憶手段300に記録された音声データ、並びに話者モデル、話者共起モデルを用いて、話者ラベルが未知の発話について、以下の式(11)に従って話者ラベルを確率的に推定する。
話者共起学習手段304は、セッション音声データ記憶手段300、セッション話者ラベル記憶手段301にそれぞれに記録された音声データ、既知の話者ラベル、並びに話者モデル学習手段302が算出した話者モデル、話者分類手段303が算出した未知の話者ラベルの推定結果を用いて、セッションΞ(n)がクラスタyに属する確率を、上述の式(5)に従って計算する。
話者共起学習手段304はさらに、ステップS33の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータuj,vj,wji(i=1,・・・,S、j=1,・・・,T)を以下の式(12)に従って更新する。
以降、収束するまでステップS31〜S34を反復する。収束に至った時点で、話者 モデル学習手段302は話者モデルを話者モデル記憶手段305に、話者共起学習手段304は話者共起モデルを話者共起モデル記憶手段306に、それぞれ記録する。
次に、本発明の第3の実施形態について説明する。図10は、本発明の第3の実施形態の音声データ解析装置(モデル生成装置)の構成例を示すブロック図である。図10に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム51−1と、データ処理装置52と、記憶装置53とを備える。また、記憶装置53には、セッション音声データ記憶領域531と、セッション話者ラベル記憶領域532と、話者モデル記憶領域533と、話者共起モデル記憶領域534とが含まれる。なお、本実施形態は、第1または第2の実施形態における学習手段(学習手段11または学習手段31)を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。
次に、本発明の第4の実施形態について説明する。図11は、本発明の第4の実施形態の音声データ解析装置(話者認識装置)の構成例を示すブロック図である。図11に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム51−2と、データ処理装置52と、記憶装置53とを備える。また、記憶装置53には、話者モデル記憶領域533と、話者共起モデル記憶領域534とが含まれる。なお、本実施形態は、第1または第2の実施形態における認識手段(認識手段12または認識手段32)を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。
100,300 セッション音声データ記憶手段
101,301 セッション話者ラベル記憶手段
102,302 話者モデル学習手段
104,304 話者共起学習手段
105,305 話者モデル記憶手段
106,306 話者共起モデル記憶手段
303 話者分類手段
12,32 認識手段
107,307,606 セッションマッチング手段
51,51−1,51−2 音声データ解析用プログラム
52 データ処理装置
53 記憶装置
531 セッション音声データ記憶領域
532 セッション話者ラベル記憶領域
533 話者モデル記憶領域
534 話者共起モデル記憶領域
601 話者モデル導出手段
602 話者共起モデル導出手段
603 話者推定手段
604 話者モデル記憶手段
605 話者共起モデル記憶手段
606 話者認識手段
Claims (15)
- 話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、
前記話者モデル導出手段が導出した話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段とを備える
ことを特徴とする音声データ解析装置。 - 話者モデル導出手段または話者共起モデル導出手段に入力される音声データ内に話者ラベルが付与されていない発話が存在する場合に、少なくともその時点において導出されている話者モデルまたは話者共起モデルを参照して、前記話者ラベルが付与されていない発話について話者ラベルを推定する話者推定手段を備える
請求項1に記載の音声データ解析装置。 - 話者モデル導出手段、話者共起モデル導出手段および話者推定手段が交互に反復動作する
請求項2に記載の音声データ解析装置。 - 話者共起モデルが、共起関係の強い話者の集合すなわちクラスタの出現確率および前記クラスタ内での話者の出現確率で規定されるマルコフネットワークである
請求項1から請求項3のうちのいずれか1項に記載の音声データ解析装置。 - 話者モデルが、話者ごとの音声特徴量の出現確率を規定する確率モデルである
請求項1から請求項4のうちのいずれか1項に記載の音声データ解析装置。 - 話者モデルが、ガウス混合モデルまたは隠れマルコフモデルであることを特徴とする
請求項5に記載の音声データ解析装置。 - 話者モデルおよび話者共起モデルが、前記音声データおよび話者ラベルに対する尤度最大化基準、事後確率最大化基準、ベイズ基準のいずれかの基準に基づいて、反復演算されることにより学習される
請求項1から請求項6のうちのいずれか1項に記載の音声データ解析装置。 - 前記話者モデル導出手段が導出した話者モデルと、前記話者共起モデル導出手段が導出した話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段を備えた
請求項1から請求項7のうちのいずれか1項に記載の音声データ解析装置。 - 話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、
前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係の強さを表すモデルである話者共起モデルを記憶する話者共起モデル記憶手段と、
前記話者モデルと前記話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段を備える
ことを特徴とする音声データ解析装置。 - 話者認識手段は、各発話について、各話者に該当する確率を算出し、前記確率が最大となる話者を認識結果として選択する
請求項8または請求項9に記載の音声データ解析装置。 - 話者認識手段は、確率が最大となる話者の確率が所定の閾値に達していない場合に、該当する話者なしと判定する
請求項10に記載の音声データ解析装置。 - 話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出ステップと、
前記話者モデル導出ステップで導出される話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出ステップとを含む
ことを特徴とする音声データ解析方法。 - 話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係の強さを表すモデルである話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識ステップを含む
ことを特徴とする音声データ解析方法。 - コンピュータに、
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出処理、および
前記話者モデル導出処理で導出される話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出処理
を実行させるための音声データ解析用プログラム。 - コンピュータに、
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係の強さを表すモデルである話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識処理
を実行させるための音声データ解析用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011522695A JP5704071B2 (ja) | 2009-07-16 | 2010-06-03 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009168290 | 2009-07-16 | ||
JP2009168290 | 2009-07-16 | ||
PCT/JP2010/003701 WO2011007497A1 (ja) | 2009-07-16 | 2010-06-03 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
JP2011522695A JP5704071B2 (ja) | 2009-07-16 | 2010-06-03 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011007497A1 true JPWO2011007497A1 (ja) | 2012-12-20 |
JP5704071B2 JP5704071B2 (ja) | 2015-04-22 |
Family
ID=43449109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011522695A Active JP5704071B2 (ja) | 2009-07-16 | 2010-06-03 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8954327B2 (ja) |
JP (1) | JP5704071B2 (ja) |
WO (1) | WO2011007497A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI413106B (zh) * | 2010-08-04 | 2013-10-21 | Hon Hai Prec Ind Co Ltd | 電子記錄裝置及方法 |
US9837078B2 (en) * | 2012-11-09 | 2017-12-05 | Mattersight Corporation | Methods and apparatus for identifying fraudulent callers |
US10068587B2 (en) * | 2014-06-30 | 2018-09-04 | Rajeev Conrad Nongpiur | Learning algorithm to detect human presence in indoor environments from acoustic signals |
JP6622165B2 (ja) * | 2016-09-16 | 2019-12-18 | 株式会社東芝 | 対話ログ分析装置、対話ログ分析方法およびプログラム |
US10474967B2 (en) * | 2017-05-23 | 2019-11-12 | International Business Machines Corporation | Conversation utterance labeling |
CN112738338B (zh) * | 2020-12-25 | 2022-10-14 | 平安科技(深圳)有限公司 | 基于深度学习的电话识别方法、装置、设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029124A (en) * | 1997-02-21 | 2000-02-22 | Dragon Systems, Inc. | Sequential, nonparametric speech recognition and speaker identification |
AU752317B2 (en) * | 1998-06-17 | 2002-09-12 | Motorola Australia Pty Ltd | Cohort model selection apparatus and method |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
US6253179B1 (en) * | 1999-01-29 | 2001-06-26 | International Business Machines Corporation | Method and apparatus for multi-environment speaker verification |
US6556969B1 (en) * | 1999-09-30 | 2003-04-29 | Conexant Systems, Inc. | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding |
JP3919475B2 (ja) | 2001-07-10 | 2007-05-23 | シャープ株式会社 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 |
JP3840221B2 (ja) * | 2003-11-06 | 2006-11-01 | キヤノン株式会社 | 音声認識装置及び方法 |
JP4556028B2 (ja) * | 2005-11-04 | 2010-10-06 | 株式会社国際電気通信基礎技術研究所 | 発話主体同定装置及びコンピュータプログラム |
JP4008468B2 (ja) * | 2005-11-18 | 2007-11-14 | 株式会社シー・エス・イー | 商品購入連動型身分証明システム |
JP5055781B2 (ja) * | 2006-02-14 | 2012-10-24 | 株式会社日立製作所 | 会話音声分析方法、及び、会話音声分析装置 |
WO2007105409A1 (ja) * | 2006-02-27 | 2007-09-20 | Nec Corporation | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム |
US8630853B2 (en) * | 2007-03-26 | 2014-01-14 | Nec Corporation | Speech classification apparatus, speech classification method, and speech classification program |
US8554562B2 (en) * | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
-
2010
- 2010-06-03 WO PCT/JP2010/003701 patent/WO2011007497A1/ja active Application Filing
- 2010-06-03 US US13/383,150 patent/US8954327B2/en active Active
- 2010-06-03 JP JP2011522695A patent/JP5704071B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2011007497A1 (ja) | 2011-01-20 |
US8954327B2 (en) | 2015-02-10 |
US20120116763A1 (en) | 2012-05-10 |
JP5704071B2 (ja) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5644772B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
CN107409061A (zh) | 语音总结程序 | |
JP5704071B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Geiger et al. | Learning new acoustic events in an hmm-based system using map adaptation | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
JP2011191542A (ja) | 音声分類装置、音声分類方法、及び音声分類用プログラム | |
KR20110071742A (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
Markowitz | The many roles of speaker classification in speaker verification and identification | |
Hassan et al. | Emotions analysis of speech for call classification | |
Aafaq et al. | Multi-Speaker Diarization using Long-Short Term Memory Network | |
Madhusudhana Rao et al. | Machine hearing system for teleconference authentication with effective speech analysis | |
Beigi et al. | Speaker Modeling | |
Naga Sai Manish et al. | Spoken Keyword Detection in Speech Processing using Error Rate Estimations. | |
Ding et al. | Speaker Identity Recognition by Acoustic and Visual Data Fusion through Personal Privacy for Smart Care and Service Applications. | |
JP2022133119A (ja) | 発話特徴量抽出装置および発話特徴量抽出方法 | |
EP4330965A1 (en) | Speaker diarization supporting eposodical content | |
JP2022133118A (ja) | 発話分類装置および発話分類方法 | |
JP2022133120A (ja) | 発話分類装置および発話分類方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5704071 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |