JPWO2019176986A1 - 信号処理システム、信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理システム、信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- JPWO2019176986A1 JPWO2019176986A1 JP2020506585A JP2020506585A JPWO2019176986A1 JP WO2019176986 A1 JPWO2019176986 A1 JP WO2019176986A1 JP 2020506585 A JP2020506585 A JP 2020506585A JP 2020506585 A JP2020506585 A JP 2020506585A JP WO2019176986 A1 JPWO2019176986 A1 JP WO2019176986A1
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature vector
- signal processing
- weighted
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 63
- 238000003672 processing method Methods 0.000 title claims description 5
- 239000013598 vector Substances 0.000 claims abstract description 194
- 238000004364 calculation method Methods 0.000 claims abstract description 108
- 238000013528 artificial neural network Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
Description
図1は、第1の実施形態に係る信号処理システムsysの構成の一例を示すシステム構成図である。
120 第1生成装置
130 第2生成装置
140 重み算出装置
150 統計量算出装置
121 第1生成部
131 第2生成部
141 重み算出部
151 統計量算出部
160 受付部
170 提示部
180 生成部
190 算出部
100 CPU
101 記憶媒体インタフェース部
102 記憶媒体
103 入力部
104 出力部
105 ROM
106 RAM
107 補助記憶部
108 ネットワークインターフェース部
12 第1の特徴量抽出ニューラルネットワーク
13 第2の特徴量抽出ニューラルネットワーク
14 重み算出ニューラルネットワーク
15 重み付き高次統計量算出ニューラルネットワーク
Claims (8)
- 時系列の音声データ、気象データ、センサデータ、テキストデータのいずれか、またはいずれかの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルに対する重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段と、
前記重み付き高次統計ベクトルを用いて、第2の特徴ベクトルを生成する第2生成手段と、
を備える、
信号処理システム。 - 前記重み付き高次統計ベクトルは、重み付き標準偏差ベクトル、または重み付き分散ベクトルである、
請求項1に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、三次以上の重み付き高次統計ベクトルである、
請求項1に記載の信号処理システム。 - 前記第1生成手段と、前記重み算出手段と、前記統計量算出手段と、前記第2生成手段とは、ニューラルネットワークで構成され、それぞれが単一の損失関数に基づいて最適化される、
請求項1から請求項3のいずれか一項に記載の信号処理システム。 - 前記第1生成手段は、話者の特徴を有する、各時刻の短時間特徴ベクトルを前記第1の特徴ベクトルとして生成し、
前記第2生成手段は、話者の特徴を有する、固定次元数の長時間特徴ベクトルを前記第2の特徴ベクトルとして生成する、
請求項1から請求項4のいずれか一項に記載の信号処理システム。 - 時系列の音声データ、気象データ、センサデータ、テキストデータのいずれか、またはいずれかの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルに対する重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段と、
前記重み付き高次統計ベクトルを用いて、第2の特徴ベクトルを生成する第2生成手段と、
を備える、
信号処理装置。 - コンピュータが、
時系列の音声データ、気象データ、センサデータ、テキストデータのいずれか、またはいずれかの特徴量に基づいて第1の特徴ベクトルを生成し、
前記第1の特徴ベクトルに対する重みを算出し、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出し、
前記重み付き高次統計ベクトルを用いて、第2の特徴ベクトルを生成する、
ことを含む、
信号処理方法。 - コンピュータが、
時系列の音声データ、気象データ、センサデータ、テキストデータのいずれか、またはいずれかの特徴量に基づいて第1の特徴ベクトルを生成する第1生成ステップと、
前記第1の特徴ベクトルに対する重みを算出する重み算出ステップと、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出ステップと、
前記重み付き高次統計ベクトルを用いて、第2の特徴ベクトルを生成する第2生成ステップと、
を実行するためのプログラムを格納した、一時的でない記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021165174A JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018048419 | 2018-03-15 | ||
JP2018048419 | 2018-03-15 | ||
PCT/JP2019/010174 WO2019176986A1 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、および記録媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021165174A Division JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019176986A1 true JPWO2019176986A1 (ja) | 2021-02-04 |
JP6958723B2 JP6958723B2 (ja) | 2021-11-02 |
Family
ID=67907911
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
JP2021165174A Active JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021165174A Active JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11842741B2 (ja) |
JP (2) | JP6958723B2 (ja) |
WO (1) | WO2019176986A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113031A1 (en) * | 2018-11-28 | 2020-06-04 | Google Llc | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
WO2021095119A1 (ja) * | 2019-11-12 | 2021-05-20 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
JP7465497B2 (ja) * | 2020-02-05 | 2024-04-11 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
US20220012538A1 (en) * | 2020-07-07 | 2022-01-13 | Nec Laboratories America, Inc. | Compact representation and time series segment retrieval through deep learning |
US20220383858A1 (en) * | 2021-05-28 | 2022-12-01 | Asapp, Inc. | Contextual feature vectors for processing speech |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4449380B2 (ja) | 2002-09-24 | 2010-04-14 | パナソニック株式会社 | 話者正規化方法及びそれを用いた音声認識装置 |
JP2006287319A (ja) | 2005-03-31 | 2006-10-19 | Nippon Hoso Kyokai <Nhk> | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
WO2011033597A1 (ja) * | 2009-09-19 | 2011-03-24 | 株式会社 東芝 | 信号分類装置 |
US8751191B2 (en) * | 2009-12-22 | 2014-06-10 | Panasonic Corporation | Action analysis device and action analysis method |
WO2011077924A1 (ja) | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
JP6464650B2 (ja) | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
-
2019
- 2019-03-13 WO PCT/JP2019/010174 patent/WO2019176986A1/ja active Application Filing
- 2019-03-13 JP JP2020506585A patent/JP6958723B2/ja active Active
- 2019-03-13 US US16/976,600 patent/US11842741B2/en active Active
-
2021
- 2021-10-07 JP JP2021165174A patent/JP7268711B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2019176986A1 (ja) | 2019-09-19 |
US20210050021A1 (en) | 2021-02-18 |
JP7268711B2 (ja) | 2023-05-08 |
JP6958723B2 (ja) | 2021-11-02 |
US11842741B2 (en) | 2023-12-12 |
JP2022008928A (ja) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6958723B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
US11545173B2 (en) | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment | |
US9558741B2 (en) | Systems and methods for speech recognition | |
WO2021082420A1 (zh) | 声纹认证方法、装置、介质及电子设备 | |
JP6832501B2 (ja) | 意味生成方法、意味生成装置及びプログラム | |
US9451304B2 (en) | Sound feature priority alignment | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN112863489B (zh) | 语音识别方法、装置、设备及介质 | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
WO2021014612A1 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP2023169230A (ja) | コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法 | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
US20230410789A1 (en) | System and Method for Secure Data Augmentation for Speech Processing Systems | |
Gupta et al. | Gender and age recognition using audio data—artificial neural networks | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP5956913B2 (ja) | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 | |
US20220036885A1 (en) | Segment detecting device, segment detecting method, and model generating method | |
US20220277767A1 (en) | Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program | |
JP6303530B2 (ja) | 頻度算出装置、方法、及びプログラム | |
JP2022010410A (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
KR20220117743A (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200813 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6958723 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |