KR102286775B1 - 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 - Google Patents
미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 Download PDFInfo
- Publication number
- KR102286775B1 KR102286775B1 KR1020190094553A KR20190094553A KR102286775B1 KR 102286775 B1 KR102286775 B1 KR 102286775B1 KR 1020190094553 A KR1020190094553 A KR 1020190094553A KR 20190094553 A KR20190094553 A KR 20190094553A KR 102286775 B1 KR102286775 B1 KR 102286775B1
- Authority
- KR
- South Korea
- Prior art keywords
- output
- speaker
- nodes
- layer
- node
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims description 41
- 230000006870 function Effects 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 본 발명의 실시예에 따른 심층신경망의 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 가중치가 적용되는 연산을 수행하는 노드를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 심층신경망을 학습시키는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 심층신경망을 이용한 화자 인식 방법을 설명하기 위한 흐름도이다.
도 6 및 도 7은 본 발명의 실시예에 따른 미등록 화자를 추가하는 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 실시예에 따른 미등록 화자를 추가하는 방법을 설명하기 위한 도면이다.
120: 오디오부 130: 입력부
140: 표시부 150: 저장부
160: 제어부 200: 신경망
300: 학습부 400: 인식부
Claims (12)
- 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치에 있어서,
각각이 복수의 노드를 포함하는 입력계층, 하나 이상의 은닉계층 및 출력계층을 포함하며, 서로 다른 계층의 복수의 노드가 가중치로 연결되는 심층신경망;
화자가 알려지지 않은 음성을 상기 심층신경망의 상기 입력계층에 입력시킨 후, 상기 출력계층의 복수의 출력노드의 출력값을 기초로 화자를 식별하되, 상기 복수의 출력노드의 출력값 모두가 기 설정된 임계치 미만이면, 상기 화자를 미등록 화자로 분류하는 인식부; 및
상기 미등록 화자로 분류되면, 상기 분류된 미등록 화자에 대응하여 마지막 은닉계층의 복수의 은닉노드의 노드값을 저장하고, 상기 분류된 미등록 화자에 대응하여 마지막 은닉계층의 복수의 은닉노드의 노드값을 저장한 횟수가 소정 횟수 이상이면, 상기 미등록 화자에 대응하는 출력노드를 상기 출력계층에 추가하고, 소정 횟수 이상 저장된 미등록 화자의 마지막 은닉계층의 노드값을 기초로 마지막 은닉계층의 복수의 은닉노드와 상기 출력계층에 추가된 출력노드 간의 가중치를 산출하는 학습부;
를 포함하는 것을 특징으로 하는
화자 식별 장치. - 삭제
- 제1항에 있어서,
상기 출력 노드의 활성화 함수는 소프트맥스(softmax) 함수이며,
마지막 은닉계층의 복수의 은닉노드와 상기 추가된 출력 노드 간의 가중치는 저장된 마지막 은닉계층의 복수의 은닉노드 각각의 노드값의 평균인 것을 특징으로 하는
화자 식별 장치. - 제1항에 있어서,
상기 임계치는 등록된 화자를 학습할 때 사용한 학습 데이터의 기댓값 중 가장 큰 값인 것을 특징으로 하는
화자 식별 장치. - 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 방법에 있어서,
각각이 복수의 노드를 포함하는 입력계층, 하나 이상의 은닉계층 및 출력계층을 포함하며, 서로 다른 복수의 계층의 복수의 노드가 가중치로 연결되는 심층신경망에 인식부가 화자가 알려지지 않은 음성을 입력하는 단계;
상기 심층신경망의 복수의 계층의 복수의 노드가 상기 음성에 대해 상기 가중치가 작용되는 복수의 연산을 통해 출력계층의 복수의 출력노드의 출력값을 도출하는 단계;
상기 인식부가 상기 출력계층의 복수의 출력노드의 출력값을 기초로 화자를 식별하되, 상기 복수의 출력노드의 출력값 모두가 기 설정된 임계치 미만인지 여부를 판별하는 단계;
상기 판별 결과, 상기 복수의 출력노드의 출력값 모두가 기 설정된 임계치 미만이면, 상기 인식부가 상기 화자를 미등록 화자로 분류하는 단계;
학습부가 상기 분류된 미등록 화자에 대응하여 마지막 은닉계층의 복수의 은닉노드의 노드값을 저장하는 단계;
상기 분류된 미등록 화자에 대응하여 마지막 은닉계층의 복수의 은닉노드의 노드값을 저장한 횟수가 소정 횟수 이상이면, 상기 학습부가 상기 미등록 화자에 대응하는 출력노드를 상기 출력계층에 추가하는 단계; 및
상기 학습부가 소정 횟수 이상 저장된 미등록 화자의 마지막 은닉계층의 복수의 은닉노드의 노드값을 기초로 마지막 은닉계층의 복수의 은닉노드와 상기 출력계층에 추가된 출력노드 간의 가중치를 산출하는 단계;
를 포함하는 것을 특징으로 하는
화자 식별 방법. - 삭제
- 제5항에 있어서,
상기 출력노드의 활성화 함수는 소프트맥스(softmax) 함수이며,
상기 가중치를 산출하는 단계는
상기 학습부가 저장된 마지막 은닉계층의 복수의 은닉노드 각각의 노드값의 평균을 상기 마지막 은닉계층의 복수의 은닉노드와 상기 출력계층에 추가된 출력 노드 간의 가중치로 산출하는 것을 특징으로 하는
화자 식별 방법. - 제5항에 있어서,
상기 임계치는 등록된 화자를 학습할 때 사용한 학습 데이터의 기댓값 중 가장 큰 값인 것을 특징으로 하는
화자 식별 방법. - 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 있어서,
각각이 복수의 노드를 포함하는 입력계층, 하나 이상의 은닉계층 및 출력계층을 포함하며, 서로 다른 복수의 계층의 복수의 노드가 가중치로 연결되는 심층신경망에 인식부가 화자가 알려지지 않은 음성을 입력하는 단계;
상기 심층신경망의 복수의 계층의 복수의 노드가 상기 음성에 대해 상기 가중치가 작용되는 복수의 연산을 통해 출력계층의 복수의 출력노드의 출력값을 도출하는 단계;
상기 인식부가 상기 출력계층의 복수의 출력노드의 출력값을 기초로 화자를 식별하되, 상기 복수의 출력노드의 출력값 모두가 기 설정된 임계치 미만인지 여부를 판별하는 단계;
상기 판별 결과, 상기 복수의 출력노드의 출력값 모두가 기 설정된 임계치 미만이면, 상기 인식부가 상기 화자를 미등록 화자로 분류하는 단계;
학습부가 상기 분류된 미등록 화자에 대응하여 마지막 은닉계층의 복수의 은닉노드의 노드값을 저장하는 단계;
상기 분류된 미등록 화자에 대응하여 마지막 은닉계층의 복수의 은닉노드의 노드값을 저장한 횟수가 소정 횟수 이상이면, 상기 학습부가 상기 미등록 화자에 대응하는 출력노드를 상기 출력계층에 추가하는 단계; 및
상기 학습부가 소정 횟수 이상 저장된 미등록 화자의 마지막 은닉계층의 복수의 은닉노드의 노드값을 기초로 마지막 은닉계층의 복수의 은닉노드와 상기 출력계층에 추가된 출력노드 간의 가중치를 산출하는 단계;
를 포함하는
화자 식별 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체. - 삭제
- 제9항에 있어서,
상기 출력노드의 활성화 함수는 소프트맥스(softmax) 함수이며,
상기 가중치를 산출하는 단계는
상기 학습부가 저장된 마지막 은닉계층의 복수의 은닉노드 각각의 노드값의 평균을 상기 마지막 은닉계층의 복수의 은닉노드와 상기 출력계층에 추가된 출력 노드 간의 가중치로 산출하는 것을 특징으로 하는
화자 식별 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체. - 제9항에 있어서,
상기 임계치는 등록된 화자를 학습할 때 사용한 학습 데이터의 기댓값 중 가장 큰 값인 것을 특징으로 하는
화자 식별 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190094553A KR102286775B1 (ko) | 2019-08-02 | 2019-08-02 | 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190094553A KR102286775B1 (ko) | 2019-08-02 | 2019-08-02 | 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210015542A KR20210015542A (ko) | 2021-02-10 |
KR102286775B1 true KR102286775B1 (ko) | 2021-08-09 |
Family
ID=74561067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190094553A KR102286775B1 (ko) | 2019-08-02 | 2019-08-02 | 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102286775B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023204470A1 (ko) * | 2022-04-22 | 2023-10-26 | 엘지전자 주식회사 | 인공 지능 장치 및 그의 화자 자동 인식 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101805437B1 (ko) | 2016-07-08 | 2017-12-07 | 서울시립대학교 산학협력단 | 배경 화자 데이터를 이용한 화자 인증 방법 및 화자 인증 시스템 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9230550B2 (en) | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
KR102204975B1 (ko) * | 2016-01-22 | 2021-01-19 | 한국전자통신연구원 | 심층 신경망 기반 음성인식 방법 및 그 장치 |
KR102522924B1 (ko) * | 2016-03-18 | 2023-04-19 | 한국전자통신연구원 | 음성인식을 위한 초벌학습 장치 및 방법 |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
KR20180065761A (ko) * | 2016-12-08 | 2018-06-18 | 한국전자통신연구원 | 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법 |
-
2019
- 2019-08-02 KR KR1020190094553A patent/KR102286775B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101805437B1 (ko) | 2016-07-08 | 2017-12-07 | 서울시립대학교 산학협력단 | 배경 화자 데이터를 이용한 화자 인증 방법 및 화자 인증 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20210015542A (ko) | 2021-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922969B2 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
EP3770905B1 (en) | Speech recognition method, apparatus and device, and storage medium | |
KR102502220B1 (ko) | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
US11164565B2 (en) | Unsupervised learning system and method for performing weighting for improvement in speech recognition performance and recording medium for performing the method | |
CN106098059B (zh) | 可定制语音唤醒方法及系统 | |
JP7163159B2 (ja) | オブジェクト認識装置及び方法 | |
CN109120435B (zh) | 网络链路质量预测方法、装置及可读存储介质 | |
KR20200128938A (ko) | 모델 학습 방법 및 장치 | |
CN112955862A (zh) | 电子装置及其控制方法 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
US20240221730A1 (en) | Multi-device speech processing | |
US11531516B2 (en) | Intelligent volume control | |
US10916240B2 (en) | Mobile terminal and method of operating the same | |
US20180301144A1 (en) | Electronic device, method for adapting acoustic model thereof, and voice recognition system | |
US20200125952A1 (en) | Recurrent neural network based acoustic event classification using complement rule | |
JP6846216B2 (ja) | シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム | |
KR102286775B1 (ko) | 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP6731802B2 (ja) | 検出装置、検出方法及び検出プログラム | |
US20210166678A1 (en) | Electronic device and controlling the electronic device | |
KR102051011B1 (ko) | 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법 | |
US11853884B2 (en) | Many or one detection classification systems and methods | |
US20240029730A1 (en) | Predictive deletion of user input | |
KR20180065761A (ko) | 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법 | |
CN110874553A (zh) | 一种识别模型训练方法及装置 | |
CN115240647A (zh) | 声音事件检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190802 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20201217 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210628 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210802 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210803 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240731 Start annual number: 4 End annual number: 4 |