JPWO2009057739A1 - 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム - Google Patents
話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム Download PDFInfo
- Publication number
- JPWO2009057739A1 JPWO2009057739A1 JP2009539120A JP2009539120A JPWO2009057739A1 JP WO2009057739 A1 JPWO2009057739 A1 JP WO2009057739A1 JP 2009539120 A JP2009539120 A JP 2009539120A JP 2009539120 A JP2009539120 A JP 2009539120A JP WO2009057739 A1 JPWO2009057739 A1 JP WO2009057739A1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speakers
- density
- model
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
Abstract
Description
2 データ処理手段
3 記憶手段
21 音響特徴量算出手段
22 話者スコア算出手段
23 選択話者数制御手段
24 類似話者選択手段
25 適応モデル作成手段
31 話者モデル記憶部
32 十分統計量記憶部
33 選択話者数記憶部
231 発声話者モデル作成手段
232 話者分布密度算出手段
233 選択話者数算出手段
図1および図2は、本発明の話者選択装置の第1の実施の形態の構成を示すブロック図である。図1に示すように、第1の実施の形態の話者選択装置は、マイクロフォン等から音声信号を受け取る入力手段1と、データ処理手段2と、記憶手段3とを備えている。
[文献1]鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社、2001年、13−15頁
次に、本発明の第2の実施の形態を図面を参照して詳細に説明する。図4は、本発明の話者選択装置の第2の実施の形態の構成を示すブロック図である。
Claims (24)
- 入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出手段と、
前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備えることを特徴とする話者選択装置。 - 前記話者分布密度算出手段は、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出手段を備え、前記ゆう度の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項1記載の話者選択装置。
- 前記話者分布密度算出手段は、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成手段を備え、前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項1記載の話者選択装置。
- 前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項2または請求項3記載の話者選択装置。
- 前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項2または請求項3記載の話者選択装置。
- 前記選択話者数算出手段は、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項2から請求項5のうちいずれかに記載された話者選択装置。
- 前記選択話者数算出手段は、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項6記載の話者選択装置。
- 請求項1から請求項7のうちのいずれかに記載された話者選択装置と、
前記話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えた話者適応モデル作成装置。 - 入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出ステップと、
前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出ステップとを備えることを特徴とする話者選択方法。 - 前記話者分布密度算出ステップは、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出ステップを備え、前記ゆう度の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項9記載の話者選択方法。
- 前記話者分布密度算出ステップは、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成ステップを備え、前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項9記載の話者選択方法。
- 前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項10または請求項11記載の話者選択方法。
- 前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項10または請求項11記載の話者選択方法。
- 前記選択話者数算出ステップは、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項10から請求項13のうちいずれかに記載された話者選択方法。
- 前記選択話者数算出ステップは、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項14記載の話者選択方法。
- 請求項9から請求項15のうちのいずれかに記載された話者選択方法を用いて、選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成ステップを有することを特徴とする話者適応モデル作成方法。
- コンピュータに、
入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出処理と、
前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出処理とを実行させることを特徴とする話者選択用プログラム。 - 前記話者分布密度算出処理は、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出処理を備え、
コンピュータに、
前記ゆう度の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する処理を実行させる請求項17記載の話者選択用プログラム。 - 前記話者分布密度算出処理は、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成処理を備え、
コンピュータに、
前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する処理を実行させる請求項17記載の話者選択用プログラム。 - 前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項18または請求項19記載の話者選択用プログラム。
- 前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項18または請求項19記載の話者選択用プログラム。
- 前記選択話者数算出処理は、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項18から請求項21のうちいずれかに記載された話者選択用プログラム。
- 前記選択話者数算出処理は、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項22記載の話者選択用プログラム。
- コンピュータに、
請求項17から請求項23のうちのいずれかに記載された話者選択用プログラムを用いて、選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成処理を実行させることを特徴とする話者適応モデル作成用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009539120A JP5626558B2 (ja) | 2007-10-31 | 2008-10-31 | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007283767 | 2007-10-31 | ||
JP2007283767 | 2007-10-31 | ||
JP2009539120A JP5626558B2 (ja) | 2007-10-31 | 2008-10-31 | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
PCT/JP2008/069853 WO2009057739A1 (ja) | 2007-10-31 | 2008-10-31 | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009057739A1 true JPWO2009057739A1 (ja) | 2011-03-10 |
JP5626558B2 JP5626558B2 (ja) | 2014-11-19 |
Family
ID=40591119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009539120A Active JP5626558B2 (ja) | 2007-10-31 | 2008-10-31 | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5626558B2 (ja) |
WO (1) | WO2009057739A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2002149185A (ja) * | 2000-09-27 | 2002-05-24 | Koninkl Philips Electronics Nv | 複数の学習用話者を表現する固有空間の決定方法 |
WO2005034086A1 (ja) * | 2003-10-03 | 2005-04-14 | Asahi Kasei Kabushiki Kaisha | データ処理装置及びデータ処理装置制御プログラム |
JP3756879B2 (ja) * | 2001-12-20 | 2006-03-15 | 松下電器産業株式会社 | 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム |
WO2008117626A1 (ja) * | 2007-03-27 | 2008-10-02 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
-
2008
- 2008-10-31 JP JP2009539120A patent/JP5626558B2/ja active Active
- 2008-10-31 WO PCT/JP2008/069853 patent/WO2009057739A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2002149185A (ja) * | 2000-09-27 | 2002-05-24 | Koninkl Philips Electronics Nv | 複数の学習用話者を表現する固有空間の決定方法 |
JP3756879B2 (ja) * | 2001-12-20 | 2006-03-15 | 松下電器産業株式会社 | 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム |
WO2005034086A1 (ja) * | 2003-10-03 | 2005-04-14 | Asahi Kasei Kabushiki Kaisha | データ処理装置及びデータ処理装置制御プログラム |
WO2008117626A1 (ja) * | 2007-03-27 | 2008-10-02 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2009057739A1 (ja) | 2009-05-07 |
JP5626558B2 (ja) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
US9514747B1 (en) | Reducing speech recognition latency | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
US8996373B2 (en) | State detection device and state detecting method | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
JP2017513047A (ja) | 音声認識における発音予測 | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
US20040199386A1 (en) | Method of speech recognition using variational inference with switching state space models | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US7574359B2 (en) | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
JPWO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP5626558B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131021 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140618 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5626558 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |