JPWO2018163279A1 - 音声処理装置、音声処理方法、および音声処理プログラム - Google Patents
音声処理装置、音声処理方法、および音声処理プログラム Download PDFInfo
- Publication number
- JPWO2018163279A1 JPWO2018163279A1 JP2019504164A JP2019504164A JPWO2018163279A1 JP WO2018163279 A1 JPWO2018163279 A1 JP WO2018163279A1 JP 2019504164 A JP2019504164 A JP 2019504164A JP 2019504164 A JP2019504164 A JP 2019504164A JP WO2018163279 A1 JPWO2018163279 A1 JP WO2018163279A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- speaker
- contribution
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 86
- 238000003672 processing method Methods 0.000 title claims description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。
図3は、第2の実施形態における音声処理装置200のブロック図である。音声処理装置200は、貢献度推定部11、話者特徴算出部12、音声区間検出部21、および音声統計量算出部22を備える。また、音声処理装置200は、さらに、貢献度記憶部23および貢献度学習部24を備えてもよい。
次に、第2の実施形態における音声処理装置200の動作について、図4のフローチャートを用いて説明する。図4は、音声処理装置200の動作の一例を示すフローチャートである。
以上、説明したように、本実施形態にかかる音声処理装置200によれば、音声処理装置200が算出した話者特徴を用いる話者認識の精度を高めることができる。なぜならば、音声処理装置200は、貢献度推定部11が音声信号の品質を貢献度として算出し、話者特徴算出部12が貢献度を考慮した特徴ベクトルを算出することで、音声信号の品質の高い部分区間に重きを置いた特徴ベクトルを出力するからである。
図5は、本発明の第3の実施形態に係る、音声処理装置の構成の一例を示すブロック図である。
次に、本発明の第3の実施形態に係る音声処理装置300の具体的な応用例について説明する。
以上、実施形態を用いて本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本発明は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
音声処理装置は、ハードウエアによって実現してもよいし、ソフトウエアによって実現してもよい。また、音声処理装置は、ハードウエアとソフトウエアの組み合わせによって実現してもよい。
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する貢献度推定手段と、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する話者特徴算出手段とを備える、音声処理装置。
前記音声信号に含まれる音の種類の比率を表す音声統計量を算出する音声統計量算出手段をさらに備え、
前記話者特徴算出手段は、前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、付記1に記載の音声処理装置。
前記貢献度推定手段は、前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する、付記1または2に記載の音声処理装置。
前記貢献度推定手段は、
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する、付記3に記載の音声処理装置。
前記話者特徴算出手段は、
前記認識特徴として i-vector を算出する、付記3または4に記載の音声処理装置。
前記話者認識特徴量に基づいて前記属性情報を認識する属性認識手段を備える、付記1〜5のいずれか1つに記載の音声処理装置。
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記1〜6のいずれか1つに記載の音声処理装置。
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出し、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する、音声処理方法。
前記音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出し、
前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、付記8に記載の音声処理方法。
前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する、付記8または9に記載の音声処理方法。
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する、付記10に記載の音声処理方法。
前記認識特徴として i-vector を算出する、付記10または11に記載の音声処理方法。
前記話者認識特徴量に基づいて前記属性情報を認識する、付記8〜12のいずれか1つに記載の音声処理方法。
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記8〜13のいずれか1つに記載の音声処理方法。
コンピュータに、
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する処理と、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する処理とを実行させる、音声処理プログラム。
前記コンピュータに、
前記音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出する処理と、
前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する処理とを実行させる、付記15に記載の音声処理方法。
前記コンピュータに、
前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、および前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する処理を実行させる、付記15または16に記載の音声処理プログラム。
前記コンピュータに、
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する処理を実行させる、付記17に記載の音声処理プログラム。
前記コンピュータに、
前記認識特徴として i-vector を算出する処理を実行させる、付記17または18に記載の音声処理プログラム。
前記コンピュータに、
前記話者認識特徴量に基づいて前記属性情報を認識する処理を実行させる、付記15〜19のいずれか1つに記載の音声処理プログラム。
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記8〜13のいずれか1つに記載の音声処理プログラム。
12・・・話者特徴算出部
13・・・属性認識部
21・・・音声区間検出部
22・・・音声統計量算出部
23・・・貢献度記憶部
24・・・貢献度学習部
100,200,300・・・音声処理装置
400・・・情報処理装置
410・・・制御部(CPU)
420・・・記憶部
430・・・ROM
440・・・RAM
450・・・通信インターフェース
460・・・ユーザインターフェース
Claims (10)
- 音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する貢献度推定手段と、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する話者特徴算出手段とを備える、音声処理装置。 - 前記音声信号に含まれる音の種類の比率を表す音声統計量を算出する音声統計量算出手段をさらに備え、
前記話者特徴算出手段は、前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、請求項1に記載の音声処理装置。 - 前記貢献度推定手段は、前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する、請求項1または2に記載の音声処理装置。 - 前記貢献度推定手段は、
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する、請求項3に記載の音声処理装置。 - 前記話者特徴算出手段は、
前記認識特徴として i-vector を算出する、請求項3または4に記載の音声処理装置。 - 前記話者認識特徴量に基づいて前記属性情報を認識する属性認識手段を備える、請求項1〜5のいずれか1項に記載の音声処理装置。
- 前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、請求項1〜6のいずれか1項に記載の音声処理装置。 - 音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出し、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する、音声処理方法。 - 前記音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出し、
前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、請求項8に記載の音声処理方法。 - コンピュータに、
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する処理と、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する処理とを実行させる、音声処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/008979 WO2018163279A1 (ja) | 2017-03-07 | 2017-03-07 | 音声処理装置、音声処理方法、および音声処理プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021029416A Division JP7216348B2 (ja) | 2021-02-26 | 2021-02-26 | 音声処理装置、音声処理方法、および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018163279A1 true JPWO2018163279A1 (ja) | 2019-11-07 |
JP6845489B2 JP6845489B2 (ja) | 2021-03-17 |
Family
ID=63448131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019504164A Active JP6845489B2 (ja) | 2017-03-07 | 2017-03-07 | 音声処理装置、音声処理方法、および音声処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (2) | US11250860B2 (ja) |
JP (1) | JP6845489B2 (ja) |
WO (1) | WO2018163279A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018163279A1 (ja) * | 2017-03-07 | 2018-09-13 | 日本電気株式会社 | 音声処理装置、音声処理方法、および音声処理プログラム |
WO2020003534A1 (en) | 2018-06-29 | 2020-01-02 | Nec Corporation | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
JP7159655B2 (ja) * | 2018-07-09 | 2022-10-25 | 富士フイルムビジネスイノベーション株式会社 | 感情推定システムおよびプログラム |
US20220093086A1 (en) * | 2020-09-18 | 2022-03-24 | Prama, Inc. | Method and a system for capturing conversations |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
JP4408205B2 (ja) | 2003-05-16 | 2010-02-03 | 東芝テック株式会社 | 話者認識装置 |
WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
JPWO2012020591A1 (ja) | 2010-08-09 | 2013-10-28 | 日本電気株式会社 | 個体識別システム、特徴量特定装置、特徴量特定方法およびプログラム |
US8731936B2 (en) | 2011-05-26 | 2014-05-20 | Microsoft Corporation | Energy-efficient unobtrusive identification of a speaker |
DK2797078T3 (en) * | 2013-04-26 | 2017-01-23 | Agnitio S L | Assessment of reliability in speech recognition |
JP6246636B2 (ja) | 2014-03-20 | 2017-12-13 | 株式会社東芝 | パターン識別装置、パターン識別方法およびプログラム |
JP6464650B2 (ja) | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
US10529328B2 (en) * | 2015-06-22 | 2020-01-07 | Carnegie Mellon University | Processing speech signals in voice-based profiling |
US10242677B2 (en) * | 2015-08-25 | 2019-03-26 | Malaspina Labs (Barbados), Inc. | Speaker dependent voiced sound pattern detection thresholds |
WO2018163279A1 (ja) * | 2017-03-07 | 2018-09-13 | 日本電気株式会社 | 音声処理装置、音声処理方法、および音声処理プログラム |
-
2017
- 2017-03-07 WO PCT/JP2017/008979 patent/WO2018163279A1/ja active Application Filing
- 2017-03-07 US US16/475,743 patent/US11250860B2/en active Active
- 2017-03-07 JP JP2019504164A patent/JP6845489B2/ja active Active
-
2021
- 2021-12-08 US US17/545,107 patent/US11837236B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210134300A1 (en) | 2021-05-06 |
US20220101859A1 (en) | 2022-03-31 |
JP6845489B2 (ja) | 2021-03-17 |
US11250860B2 (en) | 2022-02-15 |
WO2018163279A1 (ja) | 2018-09-13 |
US11837236B2 (en) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP2017032857A (ja) | 音声処理装置及び音声処理方法 | |
JP2016180839A (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP7160095B2 (ja) | 属性識別装置、属性識別方法、およびプログラム | |
JP6676009B2 (ja) | 話者判定装置、話者判定情報生成方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP2013182261A (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
JP5473116B2 (ja) | 音声認識装置およびその特徴量正規化方法 | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP5749186B2 (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
WO2022249450A1 (ja) | 学習方法、検出方法、それらの装置、およびプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP2001109491A (ja) | 連続音声認識装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6845489 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |