JPWO2008126627A1 - 音声分類装置、音声分類方法、および音声分類用プログラム - Google Patents
音声分類装置、音声分類方法、および音声分類用プログラム Download PDFInfo
- Publication number
- JPWO2008126627A1 JPWO2008126627A1 JP2009509015A JP2009509015A JPWO2008126627A1 JP WO2008126627 A1 JPWO2008126627 A1 JP WO2008126627A1 JP 2009509015 A JP2009509015 A JP 2009509015A JP 2009509015 A JP2009509015 A JP 2009509015A JP WO2008126627 A1 JPWO2008126627 A1 JP WO2008126627A1
- Authority
- JP
- Japan
- Prior art keywords
- probability
- cluster
- speech
- classification
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 88
- 238000004364 calculation method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000003860 storage Methods 0.000 claims description 63
- 230000008569 process Effects 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 34
- 239000000203 mixture Substances 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 19
- 238000013500 data storage Methods 0.000 description 22
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
本願は、先の日本特許出願2007−079677号(2007年3月26日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声を分類する音声分類装置、音声分類方法、および音声分類用プログラムに関し、特に、異なる話者や環境において発せられた複数の音声信号を、話者や環境の類似性に基づいてクラスタに分類する音声分類装置、音声分類方法、および音声分類用プログラムに関する。
第1の問題点は、リアルタイム性が要求される用途に適さないということである。その理由は、非特許文献1のような最小距離法による分類では、まず最初に距離最小の発話対を見出すために、その分類対象となる全発話データを取得し、任意の2発話データ間の距離を計算しなければならないからである。すなわち、1発話データが入力される度にこのような任意の2発話データ間の距離を計算する方法では、とてもオンライン処理として動作させることはできず、予め決められた発話データに対するオフライン処理(事前処理)にしか適さない方法であると言える。
102 話者データ記憶手段
103 発話分類確率計算手段
104 新規話者登録手段
105 更新対象発話選択手段
106 発話分類確率更新手段
107 パラメータ更新手段
108 パラメータ記憶手段
109 発話分類確率記憶手段
110 クラスタ数決定手段
51 入力装置
52 音声分類用プログラム
53 データ処理装置
54 記憶装置
541 話者データ記憶部
542 パラメータ記憶部
543 発話分類確率記憶部
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算し、
確率を用いて、逐次、確率モデルを規定するパラメータを推定し、
逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する、
上記工程を含む。
次に、本発明の第2の実施例について図面を参照して説明する。図5は、第2の実施例による音声分類装置の構成例を示すブロック図である。本実施例は、第1の実施例における各手段の動作をプログラムにより実現した場合に、そのプログラムを読み込んで動作するコンピュータの構成例である。図5に示すように、本実施例による音声分類装置は、入力装置51と、音声分類用プログラム52と、データ処理装置53と、記憶装置54とを備えたコンピュータによって実現される。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。
Claims (26)
- 音声信号を音声の類似性に基づきクラスタに分類する音声分類装置であって、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段と、
前記発話分類確率計算手段が計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新手段と、を備え、
前記発話分類確率計算手段は、前記パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する
ことを特徴とする音声分類装置。 - 過去の所定回以内に入力された音声信号について、前記パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段を備え、
前記パラメータ更新手段は、前記発話分類確率更新手段が計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
請求項1に記載の音声分類装置。 - 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する新規クラスタ登録手段と、
前記新規クラスタ登録手段によって作成された確率モデルを用いた計算結果に基づく前記パラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定するクラスタ数決定手段とを備えた
請求項1または請求項2に記載の音声分類装置。 - 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
請求項1から請求項3のうちのいずれか1項に記載の音声分類装置。 - 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
請求項4に記載の音声分類装置。 - 過去の所定回以内に入力された音声信号の各々に対して、前記発話分類確率更新手段に各クラスタに属する確率を再計算させることの要否を判定する更新対象発話選択手段を備えた 請求項2から請求項5のうちのいずれか1項に記載の音声分類装置。
- 前記更新対象発話選択手段は、要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
請求項6に記載の音声分類装置。 - 前記新規クラスタ登録手段は、属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
請求項3に記載の音声分類装置。 - 音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算し、
前記確率を用いて、逐次、前記確率モデルを規定するパラメータを推定し、
前記逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する
ことを特徴とする音声分類方法。 - 過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算し、
前記再計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
請求項9に記載の音声分類方法。 - 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成し、
前記作成された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する
請求項9または請求項10に記載の音声分類方法。 - 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
請求項9から請求項11のうちのいずれか1項に記載の音声分類方法。 - 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
請求項12に記載の音声分類方法。 - 過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する
請求項10から請求項13のうちのいずれか1項に記載の音声分類方法。 - 要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
請求項14に記載の音声分類方法。 - 属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
請求項10から請求項15のうちのいずれか1項に記載の音声分類方法。 - 音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、
コンピュータに、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および
前記確率計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、
前記確率計算処理で、前記逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる
ための音声分類用プログラム。 - 前記コンピュータに、
過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する確率再計算処理を実行させ、
パラメータ更新処理で、前記確率再計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定させる
請求項17に記載の音声分類用プログラム。 - 前記コンピュータに、
入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する処理、および
前記新規クラスタが規定された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する処理を実行させる
請求項17または請求項18に記載の音声分類用プログラム。 - 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
請求項17から請求項19のうちのいずれか1項に記載の音声分類用プログラム。 - 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
請求項20に記載の音声分類用プログラム。 - 前記コンピュータに、
過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する判定処理を実行させる
請求項18に記載の音声分類用プログラム。 - 前記コンピュータに
前記判定処理で、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否の判定を実行させる
請求項22に記載の音声分類用プログラム。 - 前記コンピュータに、
属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する処理を実行させる
請求項17から請求項23のうちのいずれか1項に記載の音声分類用プログラム。 - 最新の発話データについて、パラメータ記憶手段に記憶されているパラメータ値によって規定される、発話データの分布を仮定した確率モデルである生成モデルを用いて、前記発話データが各クラスタに属する確率をそれぞれ求め発話分類確率記憶手段に記憶させる発話分類確率計算手段と、
発話データがクラスタに属する確率のエントロピーを符号反転させた値を指標とし、前記指標と所定のしきい値との大小関係に応じて、前記発話データについて各クラスタに属する確率の再計算の必要有り無しを判定する更新対象発話選択手段と、
最新発話データ以外の所定個の発話データのうち、前記更新対象発話選択手段で再計算の必要ありと判断された発話データについてそれぞれ各クラスタに属する確率を求め、前記発話分類確率記憶手段を更新する発話分類確率更新手段と、
前記発話分類確率計算手段および前記発話分類確率更新手段での計算結果に基づき、現時点でのクラスタ数および該クラスタ数近辺のいくつかのクラスタ数を想定した上で、それぞれのクラスタ数について生成モデルを算出するために必要な十分統計量を算出し、生成モデルのパラメータ値を推定し前記パラメータ記憶手段のパラメータ値を更新するパラメータ更新手段と、
を備えた音声分類システム。 - 前記パラメータ記憶手段に記憶されている生成モデルのパラメータおよび十分統計量を読み出し、クラスタ数を1つ増やした場合の生成モデルを作成する新規話者登録手段と、
前記パラメータ更新手段が想定したいくつかのクラスタ数について、前記パラメータ更新手段による生成モデルのパラメータ値の推定結果から、最適なクラスタ数を決定し、決定したクラスタ数に対応する十分統計量およびパラメータ値を、前記パラメータ記憶手段に記憶するクラスタ数決定手段と、
を備えた請求項25記載の音声分類システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009509015A JP5418223B2 (ja) | 2007-03-26 | 2008-03-13 | 音声分類装置、音声分類方法、および音声分類用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007079677 | 2007-03-26 | ||
JP2007079677 | 2007-03-26 | ||
PCT/JP2008/054668 WO2008126627A1 (ja) | 2007-03-26 | 2008-03-13 | 音声分類装置、音声分類方法、および音声分類用プログラム |
JP2009509015A JP5418223B2 (ja) | 2007-03-26 | 2008-03-13 | 音声分類装置、音声分類方法、および音声分類用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008126627A1 true JPWO2008126627A1 (ja) | 2010-07-22 |
JP5418223B2 JP5418223B2 (ja) | 2014-02-19 |
Family
ID=39863754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009509015A Active JP5418223B2 (ja) | 2007-03-26 | 2008-03-13 | 音声分類装置、音声分類方法、および音声分類用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8630853B2 (ja) |
JP (1) | JP5418223B2 (ja) |
WO (1) | WO2008126627A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219510B2 (en) * | 2009-03-29 | 2012-07-10 | Mitsubishi Electric Research Laboratories, Inc. | Method for determining distributions of unobserved classes of a classifier |
JP5272141B2 (ja) * | 2009-05-26 | 2013-08-28 | 学校法人早稲田大学 | 音声処理装置およびプログラム |
WO2011007497A1 (ja) * | 2009-07-16 | 2011-01-20 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
US20120168331A1 (en) * | 2010-12-30 | 2012-07-05 | Safecode Drug Technologies Corp. | Voice template protector for administering medicine |
JP5767825B2 (ja) * | 2011-02-28 | 2015-08-19 | 綜合警備保障株式会社 | 音処理装置および音処理方法 |
US20120330880A1 (en) * | 2011-06-23 | 2012-12-27 | Microsoft Corporation | Synthetic data generation |
JP5591772B2 (ja) * | 2011-08-25 | 2014-09-17 | 日本電信電話株式会社 | 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム |
US20130325483A1 (en) * | 2012-05-29 | 2013-12-05 | GM Global Technology Operations LLC | Dialogue models for vehicle occupants |
US8972312B2 (en) * | 2012-05-29 | 2015-03-03 | Nuance Communications, Inc. | Methods and apparatus for performing transformation techniques for data clustering and/or classification |
US8965921B2 (en) * | 2012-06-06 | 2015-02-24 | Rackspace Us, Inc. | Data management and indexing across a distributed database |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
US9251784B2 (en) * | 2013-10-23 | 2016-02-02 | International Business Machines Corporation | Regularized feature space discrimination adaptation |
EP3423989B1 (en) * | 2016-03-03 | 2020-02-19 | Telefonaktiebolaget LM Ericsson (PUBL) | Uncertainty measure of a mixture-model based pattern classifer |
CN105761720B (zh) * | 2016-04-19 | 2020-01-07 | 北京地平线机器人技术研发有限公司 | 一种基于语音属性分类的交互系统及其方法 |
WO2018169381A1 (en) * | 2017-03-17 | 2018-09-20 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
US11227065B2 (en) | 2018-11-06 | 2022-01-18 | Microsoft Technology Licensing, Llc | Static data masking |
US10614809B1 (en) * | 2019-09-06 | 2020-04-07 | Verbit Software Ltd. | Quality estimation of hybrid transcription of audio |
JP7377736B2 (ja) * | 2020-02-21 | 2023-11-10 | 株式会社日立製作所 | オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム |
KR102396136B1 (ko) * | 2020-06-02 | 2022-05-11 | 네이버 주식회사 | 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
JP2946449B2 (ja) * | 1993-03-23 | 1999-09-06 | 株式会社山武 | クラスタリング処理装置 |
JP3533696B2 (ja) | 1994-03-22 | 2004-05-31 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JPH08123468A (ja) * | 1994-10-24 | 1996-05-17 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者モデル作成装置及び音声認識装置 |
US5715367A (en) * | 1995-01-23 | 1998-02-03 | Dragon Systems, Inc. | Apparatuses and methods for developing and using models for speech recognition |
US5839103A (en) | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
US5970239A (en) * | 1997-08-11 | 1999-10-19 | International Business Machines Corporation | Apparatus and method for performing model estimation utilizing a discriminant measure |
JPH1185184A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JP2965537B2 (ja) | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
US6208963B1 (en) | 1998-06-24 | 2001-03-27 | Tony R. Martinez | Method and apparatus for signal classification using a multilayer network |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
JP3919475B2 (ja) * | 2001-07-10 | 2007-05-23 | シャープ株式会社 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 |
JP3667332B2 (ja) * | 2002-11-21 | 2005-07-06 | 松下電器産業株式会社 | 標準モデル作成装置及び標準モデル作成方法 |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
EP1531478A1 (en) | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
JP4220449B2 (ja) | 2004-09-16 | 2009-02-04 | 株式会社東芝 | インデキシング装置、インデキシング方法およびインデキシングプログラム |
-
2008
- 2008-03-13 JP JP2009509015A patent/JP5418223B2/ja active Active
- 2008-03-13 US US12/593,323 patent/US8630853B2/en active Active
- 2008-03-13 WO PCT/JP2008/054668 patent/WO2008126627A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2008126627A1 (ja) | 2008-10-23 |
US20100138223A1 (en) | 2010-06-03 |
US8630853B2 (en) | 2014-01-14 |
JP5418223B2 (ja) | 2014-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
WO2008001485A1 (fr) | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue | |
JP2002268675A (ja) | 音声認識装置 | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
EP1457968B1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
Rosti | Linear Gaussian models for speech recognition | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2852298B2 (ja) | 標準パターン適応化方式 | |
GB2480084A (en) | An adaptive speech processing system | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
Yu et al. | Unsupervised adaptation with discriminative mapping transforms | |
JP4510517B2 (ja) | 音響モデル雑音適応化方法およびこの方法を実施する装置 | |
Liu et al. | Automatic model complexity control using marginalized discriminative growth functions | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
JP2005091504A (ja) | 音声認識装置 | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Liu | Discriminative complexity control and linear projections for large vocabulary speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130827 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131022 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5418223 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |