WO2008126627A1 - 音声分類装置、音声分類方法、および音声分類用プログラム - Google Patents

音声分類装置、音声分類方法、および音声分類用プログラム Download PDF

Info

Publication number
WO2008126627A1
WO2008126627A1 PCT/JP2008/054668 JP2008054668W WO2008126627A1 WO 2008126627 A1 WO2008126627 A1 WO 2008126627A1 JP 2008054668 W JP2008054668 W JP 2008054668W WO 2008126627 A1 WO2008126627 A1 WO 2008126627A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
utterance
probability
classification
analysis device
Prior art date
Application number
PCT/JP2008/054668
Other languages
English (en)
French (fr)
Inventor
Takafumi Koshinaka
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2009509015A priority Critical patent/JP5418223B2/ja
Priority to US12/593,323 priority patent/US8630853B2/en
Publication of WO2008126627A1 publication Critical patent/WO2008126627A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

 本発明は、逐次入力される音声信号に対して、現実的なメモリ使用量と処理速度、かつオンライン動作で、話者や官許の類似性に基づいて精度よく音声信号をクラスタリングできるようにすることを目的とする。発話分類確率計算手段103は、直近に入力された1つの音声信号(発話データ)に対し、確率モデルである生成モデルに基づいてその音声信号が各クラスタに属する確率(各クラスタへの分類確率)を計算し、パラメータ更新手段107は、発話分類確率計算手段103によって計算されるその発話データの各クラスタへの分類確率に基づいて、生成モデルを規定するパラメータを逐次推定する(図1)。
PCT/JP2008/054668 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム WO2008126627A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009509015A JP5418223B2 (ja) 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム
US12/593,323 US8630853B2 (en) 2007-03-26 2008-03-13 Speech classification apparatus, speech classification method, and speech classification program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007079677 2007-03-26
JP2007-079677 2007-03-26

Publications (1)

Publication Number Publication Date
WO2008126627A1 true WO2008126627A1 (ja) 2008-10-23

Family

ID=39863754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/054668 WO2008126627A1 (ja) 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム

Country Status (3)

Country Link
US (1) US8630853B2 (ja)
JP (1) JP5418223B2 (ja)
WO (1) WO2008126627A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
WO2011007497A1 (ja) * 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP2012181280A (ja) * 2011-02-28 2012-09-20 Sogo Keibi Hosho Co Ltd 音処理装置および音処理方法
JP2013045363A (ja) * 2011-08-25 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム
JP2021131524A (ja) * 2020-02-21 2021-09-09 株式会社日立製作所 オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219510B2 (en) * 2009-03-29 2012-07-10 Mitsubishi Electric Research Laboratories, Inc. Method for determining distributions of unobserved classes of a classifier
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US20120168331A1 (en) * 2010-12-30 2012-07-05 Safecode Drug Technologies Corp. Voice template protector for administering medicine
US20120330880A1 (en) * 2011-06-23 2012-12-27 Microsoft Corporation Synthetic data generation
US20130325483A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Dialogue models for vehicle occupants
US8972312B2 (en) * 2012-05-29 2015-03-03 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US8965921B2 (en) 2012-06-06 2015-02-24 Rackspace Us, Inc. Data management and indexing across a distributed database
CN102760434A (zh) 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9251784B2 (en) * 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
US10891942B2 (en) 2016-03-03 2021-01-12 Telefonaktiebolaget Lm Ericsson (Publ) Uncertainty measure of a mixture-model based pattern classifer
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法
US11189281B2 (en) * 2017-03-17 2021-11-30 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US11227065B2 (en) 2018-11-06 2022-01-18 Microsoft Technology Licensing, Llc Static data masking
US10607599B1 (en) 2019-09-06 2020-03-31 Verbit Software Ltd. Human-curated glossary for rapid hybrid-based transcription of audio
KR102396136B1 (ko) * 2020-06-02 2022-05-11 네이버 주식회사 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261789A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH11507443A (ja) * 1995-06-07 1999-06-29 ラットガーズ,ザ・ステート・ユニバーシティ・オブ・ニュージャージー 話者確認システム
JP2002519720A (ja) * 1998-06-24 2002-07-02 フォニックス コーポレイション 多層ネットワークを用いた信号分類の方法と装置
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2005173569A (ja) * 2003-11-12 2005-06-30 Sony Internatl Europ Gmbh オーディオ信号の分類装置及び方法
JP2006084875A (ja) * 2004-09-16 2006-03-30 Toshiba Corp インデキシング装置、インデキシング方法およびインデキシングプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP2946449B2 (ja) * 1993-03-23 1999-09-06 株式会社山武 クラスタリング処理装置
JPH08123468A (ja) * 1994-10-24 1996-05-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル作成装置及び音声認識装置
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure
JPH1185184A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JP2965537B2 (ja) 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
JP3667332B2 (ja) * 2002-11-21 2005-07-06 松下電器産業株式会社 標準モデル作成装置及び標準モデル作成方法
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261789A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH11507443A (ja) * 1995-06-07 1999-06-29 ラットガーズ,ザ・ステート・ユニバーシティ・オブ・ニュージャージー 話者確認システム
JP2002519720A (ja) * 1998-06-24 2002-07-02 フォニックス コーポレイション 多層ネットワークを用いた信号分類の方法と装置
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2005173569A (ja) * 2003-11-12 2005-06-30 Sony Internatl Europ Gmbh オーディオ信号の分類装置及び方法
JP2006084875A (ja) * 2004-09-16 2006-03-30 Toshiba Corp インデキシング装置、インデキシング方法およびインデキシングプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
WO2011007497A1 (ja) * 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US8954327B2 (en) 2009-07-16 2015-02-10 Nec Corporation Voice data analyzing device, voice data analyzing method, and voice data analyzing program
JP5704071B2 (ja) * 2009-07-16 2015-04-22 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP2012181280A (ja) * 2011-02-28 2012-09-20 Sogo Keibi Hosho Co Ltd 音処理装置および音処理方法
JP2013045363A (ja) * 2011-08-25 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム
JP2021131524A (ja) * 2020-02-21 2021-09-09 株式会社日立製作所 オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム
JP7377736B2 (ja) 2020-02-21 2023-11-10 株式会社日立製作所 オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム

Also Published As

Publication number Publication date
US8630853B2 (en) 2014-01-14
JPWO2008126627A1 (ja) 2010-07-22
JP5418223B2 (ja) 2014-02-19
US20100138223A1 (en) 2010-06-03

Similar Documents

Publication Publication Date Title
WO2008126627A1 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
CN109074816B (zh) 远场自动语音识别预处理
WO2020131187A3 (en) Ocean weather forecasting system
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
SG11201808360SA (en) Acoustic model training method, speech recognition method, apparatus, device and medium
CN103258533B (zh) 远距离语音识别中的模型域补偿新方法
WO2020098828A3 (en) System and method for personalized speaker verification
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN203721182U (zh) 一种车载语音处理系统
EP4235647A3 (en) Determining dialog states for language models
EP4113076A3 (en) Anomalous sound detection training apparatus, and methods and program for the same
CN104658538A (zh) 一种基于鸟鸣声的移动式鸟类识别方法
FR2971873B1 (fr) Procede de detection d&#39;un ensemble predefini de points caracteristiques d&#39;un visage
WO2013145778A3 (en) Data processing apparatus, data processing method, and program
EP2284768A3 (en) Data processing apparatus, data processing method, and program
CN104036774A (zh) 藏语方言识别方法及系统
EP2570880A3 (en) A method for real-time model based structural anomaly detection
NZ730641A (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
WO2016139670A8 (en) System and method for generating accurate speech transcription from natural speech audio signals
WO2007143272A3 (en) Artificial intelligence analyzer and generator
WO2008108232A1 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2007118032A3 (en) Methods and systems for adapting a model for a speech recognition system
WO2008082828A3 (en) Wave analysis using phase velocity processing
CN204929164U (zh) 具有方向性的声音传感器
WO2023211369A3 (zh) 语音识别模型的生成方法、识别方法、装置、介质及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08738656

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2009509015

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12593323

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 08738656

Country of ref document: EP

Kind code of ref document: A1