KR101561651B1 - 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 - Google Patents
딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 Download PDFInfo
- Publication number
- KR101561651B1 KR101561651B1 KR1020140062477A KR20140062477A KR101561651B1 KR 101561651 B1 KR101561651 B1 KR 101561651B1 KR 1020140062477 A KR1020140062477 A KR 1020140062477A KR 20140062477 A KR20140062477 A KR 20140062477A KR 101561651 B1 KR101561651 B1 KR 101561651B1
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- dbn
- feature information
- data
- bias
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract description 4
- 230000008451 emotion Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 본 발명의 바람직한 실시예에 따른 DBN를 이용한 학습방법의 절차를 도시한 도면.
도 3은 본 발명의 바람직한 실시예에 따른 음성기반 호불호 검출방법의 흐름도.
도 4는 본 발명의 바람직한 실시예에 따른 RBM 구조를 예시한 도면.
도 5는 본 발명의 바람직한 실시예에 따른 깁스 샘플링 구조를 예시한 도면.
도 6은 본 발명의 바람직한 실시예에 따른 DBN 구조를 예시한 도면.
102 : 메모리부
104 : 사용자 인터페이스부
106 : 디스플레이부
108 : 음성신호 입력부
110 : 음성신호의 특징정보 검출부
Claims (11)
- 딥 빌리프 네트워크(Deep Belief Network; 이하 DBN라 칭함)를 이용한 음성기반 호불호 검출방법에 있어서,
음성신호들과 그에 대응되는 호불호 식별정보들로 구성되는 학습 데이터를 제공받아, 음성신호들에 대한 특징정보를 추출하고, 그 특징정보를 DBN을 통해 학습하여 DBN 데이터를 생성하고, 그 DBN 데이터에 호불호 식별정보로 구성되는 레이블 레이어를 추가하여 DBN 데이터의 생성을 완료하는 단계;
테스트 음성신호가 입력되면, 그 테스트 음성신호에서 특징정보를 추출하고, 그 특징정보에 대응되는 DBN 데이터를 검출하고, 그 검출된 DBN 데이터의 레이블 레이어에 기록된 호불호 식별정보에 따라 호불호 검출결과를 출력하는 단계;를 구비하며,
상기 특징정보의 학습은,
특징정보에 대한 가중합으로 다음 층의 유닛을 정의하는 RBM(Restricted Boltzmann Machine) 을 다수회 수행하고, 각 RBM 수행결과를 적층하여 DBN 데이터를 구성하는 것이며,
상기 RBM은 특징정보에 포함된 정보들 각각의 상태에 대한 에너지를 최소화하여 평형상태에 이르도록 수학식 7에 따라 학습함을 특징으로 하는 DBN을 이용한 음성기반 호불호 검출방법.
수학식 7
상기 수학식 7에서 상기 h(t)는 t-스텝의 깁스 샘플링을 통해 얻은 은닉 유닛의 상태이고, sigm()은 sigmoid function이고, v(t)는 t-스텝의 깁스 샘플링을 통해 얻은 가시 유닛의 상태이고, w는 가시 유닛과 은닉 유닛 사이의 가중치이고, c는 은닉 유닛의 바이어스이고, b는 가시 유닛의 바이어스이고, w'는 가중치 매트릭스(weight matrix)의 치환(transpose)이며, 상기 가시 유닛이 음성신호의 특징정보임. - 삭제
- 삭제
- 제1항에 있어서,
상기 가중치와 바이어스들은 수학식 8에 따라 근사화됨을 특징으로 하는 DBN을 이용한 음성기반 호불호 검출방법.
수학식 8
상기 수학식 8에서, CDk()는 k-step Constrative divergence를 이용하여 구한 그레디언트(gradient)이고, Wji는 j번째 가시 유닛과 i번째 은닉 유닛 사이의 가중치(weight)이고, bj는 j번째 가시 유닛의 바이어스(bias)이고, ci는 i번째 은닉 유닛의 바이어스이고, v(0), v(1),...,v(t)는 t-스텝의 깁스 샘플링(t-step gibbs sampling)을 통해 얻은 가시 유닛의 상태이고, 는 가중치나 바이어스를 표현하기 위한 파라미터임. - 제1항에 있어서,
상기 DBN 데이터를 재학습을 위해 파인 튜닝하는 단계;를 더 구비함을 특징으로 하는 DBN을 이용한 음성기반 호불호 검출방법. - 제1항, 제4항 및 제5항 중 어느 한 항에 따르는 방법을 실행하기 위한 프로그램이 기록된 저장매체.
- DBN을 이용한 음성기반 호불호 검출장치에 있어서,
학습 데이터와 DBN 데이터를 저장하는 메모리부;
음성신호에 대한 특징정보를 추출하는 음성신호의 특징정보 검출부;
음성신호들과 그에 대응되는 호불호 식별정보들로 구성되는 학습 데이터를 제공받아, 상기 음성신호의 특징정보 검출부를 통해 음성신호들에 대한 특징정보를 추출하고, 그 특징정보를 DBN을 통해 학습하여 DBN 데이터를 생성하고, 그 DBN 데이터에 호불호 식별정보로 구성되는 레이블 레이어를 추가하여 DBN 데이터의 생성을 완료하고,
테스트 음성신호가 입력되면, 상기 음성신호의 특징정보 검출부를 통해 상기 테스트 음성신호에서 특징정보를 추출하고, 그 특징정보에 대응되는 DBN 데이터를 검출하고, 그 검출된 DBN 데이터의 레이블 레이어에 기록된 호불호 식별정보에 따라 호불호 검출결과를 출력하는 제어장치;를 구비하며,
상기 특징정보의 학습은,
특징정보에 대한 가중합으로 다음 층의 유닛을 정의하는 RBM(Restricted Boltzmann Machine) 을 다수회 수행하고, 각 RBM 수행결과를 적층하여 DBN 데이터를 구성하는 것이며,
상기 RBM은 특징정보에 포함된 정보들 각각의 상태에 대한 에너지를 최소화하여 평형상태에 이르도록 수학식 9에 따라 학습함을 특징으로 하는 DBN을 이용한 음성기반 호불호 검출장치.
수학식 9
상기 수학식 9에서 상기 h(t)는 t-스텝의 깁스 샘플링을 통해 얻은 은닉 유닛의 상태이고, sigm()은 sigmoid function이고, v(t)는 t-스텝의 깁스 샘플링을 통해 얻은 가시 유닛의 상태이고, w는 가시 유닛과 은닉 유닛 사이의 가중치이고, c는 은닉 유닛의 바이어스이고, b는 가시 유닛의 바이어스이고, w'는 가중치 매트릭스(weight matrix)의 치환(transpose)이며, 상기 가시 유닛이 음성신호의 특징정보임. - 삭제
- 삭제
- 제7항에 있어서,
상기 가중치와 바이어스들은 수학식 10에 따라 근사화됨을 특징으로 하는 DBN을 이용한 음성기반 호불호 검출장치.
수학식 10
상기 수학식 10에서, CDk()는 k-step Constrative divergence를 이용하여 구한 그레디언트(gradient)이고, Wji는 j번째 가시 유닛과 i번째 은닉 유닛 사이의 가중치(weight)이고, bj는 j번째 가시 유닛의 바이어스(bias)이고, ci는 i번째 은닉 유닛의 바이어스이고, v(0), v(1), ... ,v(t)는 t-스텝의 깁스 샘플링(t-step gibbs sampling)을 통해 얻은 가시 유닛의 상태이고, 는 가중치나 바이어스를 표현하기 위한 파라미터임. - 제7항에 있어서,
상기 제어장치가 상기 DBN 데이터를 재학습을 위해 파인 튜닝함을 특징으로 하는 DBN을 이용한 음성기반 호불호 검출장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140062477A KR101561651B1 (ko) | 2014-05-23 | 2014-05-23 | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140062477A KR101561651B1 (ko) | 2014-05-23 | 2014-05-23 | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101561651B1 true KR101561651B1 (ko) | 2015-11-02 |
Family
ID=54599725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140062477A KR101561651B1 (ko) | 2014-05-23 | 2014-05-23 | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101561651B1 (ko) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101720514B1 (ko) | 2016-02-26 | 2017-04-11 | 서강대학교산학협력단 | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 |
CN107808663A (zh) * | 2017-10-25 | 2018-03-16 | 重庆大学 | 基于dbn和rf算法的帕金森病语音数据分类系统 |
CN108040073A (zh) * | 2018-01-23 | 2018-05-15 | 杭州电子科技大学 | 信息物理交通系统中基于深度学习的恶意攻击检测方法 |
CN108562697A (zh) * | 2018-03-30 | 2018-09-21 | 歌尔股份有限公司 | 一种室内有害气体监测装置 |
CN108806725A (zh) * | 2018-06-04 | 2018-11-13 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109118763A (zh) * | 2018-08-28 | 2019-01-01 | 南京大学 | 基于腐蚀去噪深度信念网络的车流量预测方法 |
CN109147817A (zh) * | 2018-08-29 | 2019-01-04 | 昆明理工大学 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法 |
CN109612513A (zh) * | 2018-12-17 | 2019-04-12 | 安徽农业大学 | 一种面向大规模高维传感器数据的在线式异常检测方法 |
CN109785863A (zh) * | 2019-02-28 | 2019-05-21 | 中国传媒大学 | 一种深度信念网络的语音情感识别方法及系统 |
CN110581802A (zh) * | 2019-08-27 | 2019-12-17 | 北京邮电大学 | 基于深度信念网络的全自主智能路由方法及装置 |
CN110739031A (zh) * | 2019-11-18 | 2020-01-31 | 中南大学 | 一种冶金烧结过程的有监督预测方法、装置及存储介质 |
CN110782012A (zh) * | 2019-10-21 | 2020-02-11 | 衢州学院 | 一种危化品车辆运输状态自学习预警模型的搭建方法 |
KR20210039090A (ko) | 2019-10-01 | 2021-04-09 | 전남대학교산학협력단 | 커널 기법을 사용한 제한된 볼츠만 머신 시스템 |
-
2014
- 2014-05-23 KR KR1020140062477A patent/KR101561651B1/ko active IP Right Grant
Non-Patent Citations (2)
Title |
---|
A. Mohamed et al., ‘Deep belief networks for phone recognition’, in Proc. NIPS Workshop Deep Learn. Speech Recogn. Rel. Applicat., 2009.* |
Mohamed R. Amer et al., ‘Emotion detection in speech using deep networks’, 2014 IEEE International Conference on Acoustic, Speech and Sognal Processing(ICASSP), pp.3724~3728, 4 May 2014.* |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101720514B1 (ko) | 2016-02-26 | 2017-04-11 | 서강대학교산학협력단 | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 |
CN107808663A (zh) * | 2017-10-25 | 2018-03-16 | 重庆大学 | 基于dbn和rf算法的帕金森病语音数据分类系统 |
CN108040073A (zh) * | 2018-01-23 | 2018-05-15 | 杭州电子科技大学 | 信息物理交通系统中基于深度学习的恶意攻击检测方法 |
US11777957B2 (en) | 2018-01-23 | 2023-10-03 | Hangzhou Dianzi University | Method for detecting malicious attacks based on deep learning in traffic cyber physical system |
CN108562697A (zh) * | 2018-03-30 | 2018-09-21 | 歌尔股份有限公司 | 一种室内有害气体监测装置 |
CN108806725A (zh) * | 2018-06-04 | 2018-11-13 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109118763B (zh) * | 2018-08-28 | 2021-05-18 | 南京大学 | 基于腐蚀去噪深度信念网络的车流量预测方法 |
CN109118763A (zh) * | 2018-08-28 | 2019-01-01 | 南京大学 | 基于腐蚀去噪深度信念网络的车流量预测方法 |
CN109147817A (zh) * | 2018-08-29 | 2019-01-04 | 昆明理工大学 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法 |
CN109612513A (zh) * | 2018-12-17 | 2019-04-12 | 安徽农业大学 | 一种面向大规模高维传感器数据的在线式异常检测方法 |
CN109785863A (zh) * | 2019-02-28 | 2019-05-21 | 中国传媒大学 | 一种深度信念网络的语音情感识别方法及系统 |
CN110581802A (zh) * | 2019-08-27 | 2019-12-17 | 北京邮电大学 | 基于深度信念网络的全自主智能路由方法及装置 |
KR20210039090A (ko) | 2019-10-01 | 2021-04-09 | 전남대학교산학협력단 | 커널 기법을 사용한 제한된 볼츠만 머신 시스템 |
CN110782012A (zh) * | 2019-10-21 | 2020-02-11 | 衢州学院 | 一种危化品车辆运输状态自学习预警模型的搭建方法 |
CN110739031A (zh) * | 2019-11-18 | 2020-01-31 | 中南大学 | 一种冶金烧结过程的有监督预测方法、装置及存储介质 |
CN110739031B (zh) * | 2019-11-18 | 2021-07-23 | 中南大学 | 一种冶金烧结过程的有监督预测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101561651B1 (ko) | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 | |
Cai et al. | Utterance-level end-to-end language identification using attention-based CNN-BLSTM | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
KR102311922B1 (ko) | 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법 | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
EP4177882B1 (en) | Methods and systems for synthesising speech from text | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
Rajput et al. | Back propagation feed forward neural network approach for speech recognition | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
Goyal et al. | Gender and age group predictions from speech features using multi-layer perceptron model | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
Alshamsi et al. | Automated speech emotion recognition on smart phones | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
CN114420169A (zh) | 情绪识别方法、装置及机器人 | |
KR102382191B1 (ko) | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
Masood et al. | Isolated word recognition using neural network | |
Mendiratta et al. | A robust isolated automatic speech recognition system using machine learning techniques | |
Wisesty et al. | Feature extraction analysis on Indonesian speech recognition system | |
Raju et al. | AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS. | |
Panigrahi et al. | Emotional speech recognition using particle swarm optimization algorithm | |
CN111475634B (zh) | 基于座席语音切分的代表性话术片段抽取装置及方法 | |
Basu et al. | Affect detection from speech using deep convolutional neural network architecture | |
Gondohanindijo et al. | Comparison Method in Indonesian Emotion Speech Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140523 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150330 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20150925 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20151013 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20151014 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20181004 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20181004 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190926 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20190926 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20201005 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20211101 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20221004 Start annual number: 8 End annual number: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20230926 Start annual number: 9 End annual number: 9 |
|
PR1001 | Payment of annual fee |