JPWO2007111169A1 - 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム - Google Patents
話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JPWO2007111169A1 JPWO2007111169A1 JP2008507435A JP2008507435A JPWO2007111169A1 JP WO2007111169 A1 JPWO2007111169 A1 JP WO2007111169A1 JP 2008507435 A JP2008507435 A JP 2008507435A JP 2008507435 A JP2008507435 A JP 2008507435A JP WO2007111169 A1 JPWO2007111169 A1 JP WO2007111169A1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speaker model
- registration
- utterances
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000004590 computer program Methods 0.000 title claims description 21
- 238000012795 verification Methods 0.000 claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims description 12
- 238000010187 selection method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 13
- 238000012821 model calculation Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000002411 adverse Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明に係る、話者認識システムにおける話者モデル登録装置は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備える。
本発明に係る、一の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置(但し、その各種態様を含む)と、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段とを備える。
本発明に係る、話者認識システムにおける話者モデル登録方法は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得工程と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出工程と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合工程と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程とを備える。
上記課題を解決するために、本発明のコンピュータプログラムは、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。
10 話者モデル登録装置
13 取得部
20 算出部
30 照合部
40 登録部
50 催促部
132 マイクロホン
142 音声部分抽出部
201 特徴量算出部
202 話者モデル算出部
30 照合部
41 検証・登録部
45 話者モデルデータベース
52 表示画面
第1実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基本的な動作を、図1を参照して説明する。ここに、図1は、本発明の第1実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。
続いて、第2実施例に係る話者認識システム1における話者モデル登録装置10の構成及び基本的な動作を、図2及び図3を参照して説明する。ここに、図2は、第2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。尚、図2及び図3において、上記図1に示した第1実施例に係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。
続いて、第3実施例に係る話者認識システム1における話者モデル登録装置10の基本的な動作を、図2及び図3に加えて図4を参照して説明する。ここに、図4は、第3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図4において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。
続いて、第4実施例に係る話者認識システム1における話者モデル登録装置10の基本的な動作を、図2及び図3に加えて図5を参照して説明する。ここに、図5は、第4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図5において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。
続いて、第5実施例に係る話者認識システム1における話者モデル登録装置10の基本的な動作を、図2及び図3に加えて図6を参照して説明する。ここに、図6は、第5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図6において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。
続いて、第6実施例に係る話者認識システム1における話者認識の際の基本的な動作を、図2に加えて図7を参照して説明する。ここに、図7は、第6実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。図7において、先ず話者認識の際、ユーザ即ち話者が、キーワードをマイクロホン132に向かって少なくとも1回発すると、この際の発話音声がマイクロホン132で収録され(ステップS601)、音声部分抽出部142で音声発話区間が抽出される(ステップS602)。抽出された音声発話区間が特徴量算出部201によって特徴量に変換され照合部に送られる(ステップS603)。
Claims (12)
- 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、
発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、
該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、
該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段と
を備えることを特徴とする話者認識システムにおける話者モデル登録装置。 - 前記登録手段は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録する
ことを特徴とする請求の範囲第1項に記載の話者認識システムにおける話者モデル登録装置。 - 前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合が行われた話者モデルを破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備えることを特徴とする請求の範囲第1項に記載の話者認識システムにおける話者モデル登録装置。
- 前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行うことを特徴とする請求の範囲第1項に記載の話者認識システムにおける話者モデル登録装置。
- 前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記n+α回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を再度行うことを特徴とする請求の範囲第1項に記載の話者認識システムにおける話者モデル登録装置。
- 前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、
前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録することを特徴とする請求の範囲第1項に記載の話者認識システムにおける話者モデル登録装置。 - 前記照合手段は、前記n+α回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を複数通り行い、
前記登録手段は、前記複数通り行われた前記照合の結果の統計値又は少なくとも一つが所定基準を満たす場合に、前記照合が行われた話者モデルを登録することを特徴とする請求の範囲第1項に記載の話者認識システムにおける話者モデル登録装置。 - 請求の範囲第1項に記載の話者モデル登録装置と、
前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段と
を備えたことを特徴とする話者認識システム。 - 請求の範囲第1項に記載の話者モデル登録装置を備え、
前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段としても機能することを特徴とする話者認識システム。 - 前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基いて、前記認識を行うことを特徴とする請求の範囲第8項に記載の話者認識システム。
- 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、
発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得工程と、
該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出工程と、
該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合工程と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程と
を備えることを特徴とする話者認識システムにおける話者モデル登録方法。 - 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、
発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、
該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、
該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段と
として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008507435A JP4854732B2 (ja) | 2006-03-24 | 2007-03-16 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006084275 | 2006-03-24 | ||
JP2006084275 | 2006-03-24 | ||
JP2008507435A JP4854732B2 (ja) | 2006-03-24 | 2007-03-16 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
PCT/JP2007/055433 WO2007111169A1 (ja) | 2006-03-24 | 2007-03-16 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007111169A1 true JPWO2007111169A1 (ja) | 2009-08-13 |
JP4854732B2 JP4854732B2 (ja) | 2012-01-18 |
Family
ID=38541089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008507435A Expired - Fee Related JP4854732B2 (ja) | 2006-03-24 | 2007-03-16 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090106025A1 (ja) |
JP (1) | JP4854732B2 (ja) |
WO (1) | WO2007111169A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111344783A (zh) * | 2017-11-14 | 2020-06-26 | 思睿逻辑国际半导体有限公司 | 说话人识别系统中的注册 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
US10438593B2 (en) | 2015-07-22 | 2019-10-08 | Google Llc | Individualized hotword detection models |
JP6556575B2 (ja) | 2015-09-15 | 2019-08-07 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
US20230215422A1 (en) * | 2022-01-05 | 2023-07-06 | Google Llc | Multimodal intent understanding for automated assistant |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5681781A (en) * | 1979-12-05 | 1981-07-04 | Nippon Electric Co | Sound lock system |
JPS584198A (ja) * | 1981-06-30 | 1983-01-11 | 株式会社日立製作所 | 音声認識装置における標準パタ−ン登録方式 |
JPS62245295A (ja) * | 1986-04-18 | 1987-10-26 | 株式会社リコー | 特定話者音声認識装置 |
JP2838848B2 (ja) * | 1989-02-10 | 1998-12-16 | 株式会社リコー | 標準パターン登録方式 |
JPH02298996A (ja) * | 1989-05-12 | 1990-12-11 | Toshiba Corp | 単語音声認識装置 |
JPH09218696A (ja) * | 1996-02-14 | 1997-08-19 | Ricoh Co Ltd | 音声認識装置 |
JP3582934B2 (ja) * | 1996-07-01 | 2004-10-27 | 株式会社リコー | 音声認識装置および標準パターン登録方法 |
JPH10133680A (ja) * | 1996-09-06 | 1998-05-22 | Amtex Kk | 音声データ記憶者判定装置 |
US6182037B1 (en) * | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
JP2000155595A (ja) * | 1998-11-19 | 2000-06-06 | Canon Inc | 撮像装置 |
US6748356B1 (en) * | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
DE60213595T2 (de) * | 2001-05-10 | 2007-08-09 | Koninklijke Philips Electronics N.V. | Hintergrundlernen von sprecherstimmen |
US6996526B2 (en) * | 2002-01-02 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for transcribing speech when a plurality of speakers are participating |
JP4163979B2 (ja) * | 2003-03-17 | 2008-10-08 | Kddi株式会社 | 話者認証装置 |
JP2004309779A (ja) * | 2003-04-07 | 2004-11-04 | Casio Comput Co Ltd | 音声認証装置 |
JP2005241215A (ja) * | 2004-02-27 | 2005-09-08 | Mitsubishi Electric Corp | 電気機器、冷蔵庫、冷蔵庫の操作方法 |
JP4254753B2 (ja) * | 2005-06-30 | 2009-04-15 | ヤマハ株式会社 | 話者認識方法 |
-
2007
- 2007-03-16 WO PCT/JP2007/055433 patent/WO2007111169A1/ja active Application Filing
- 2007-03-16 US US12/293,943 patent/US20090106025A1/en not_active Abandoned
- 2007-03-16 JP JP2008507435A patent/JP4854732B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111344783A (zh) * | 2017-11-14 | 2020-06-26 | 思睿逻辑国际半导体有限公司 | 说话人识别系统中的注册 |
Also Published As
Publication number | Publication date |
---|---|
US20090106025A1 (en) | 2009-04-23 |
JP4854732B2 (ja) | 2012-01-18 |
WO2007111169A1 (ja) | 2007-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6394709B2 (ja) | 話者識別装置および話者識別用の登録音声の特徴量登録方法 | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5172973B2 (ja) | 音声認識装置 | |
US9542931B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
JP2008293019A (ja) | 言語理解装置 | |
JPWO2006109515A1 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
JP4854732B2 (ja) | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP4143541B2 (ja) | 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム | |
JP2008233305A (ja) | 音声対話装置、音声対話方法及びプログラム | |
JPWO2018088534A1 (ja) | 電子機器、電子機器の制御方法及び電子機器の制御プログラム | |
JP3837061B2 (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
WO2007111197A1 (ja) | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム | |
JP2004101963A5 (ja) | ||
JP4236502B2 (ja) | 音声認識装置 | |
CN109559759B (zh) | 具备增量注册单元的电子设备及其方法 | |
JP6920730B2 (ja) | 対話装置および対話プログラム | |
JP5088314B2 (ja) | 音声応答装置、及びプログラム | |
JP2023004116A (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出装置プログラム | |
JP2004309504A (ja) | 音声キーワード認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111025 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |