KR20210055464A - 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 - Google Patents
기계학습 기반의 화자 분리 방법 및 그를 위한 장치 Download PDFInfo
- Publication number
- KR20210055464A KR20210055464A KR1020190141938A KR20190141938A KR20210055464A KR 20210055464 A KR20210055464 A KR 20210055464A KR 1020190141938 A KR1020190141938 A KR 1020190141938A KR 20190141938 A KR20190141938 A KR 20190141938A KR 20210055464 A KR20210055464 A KR 20210055464A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speaker
- mixed
- residual
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000010801 machine learning Methods 0.000 title abstract description 8
- 238000000926 separation method Methods 0.000 claims abstract description 76
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 238000002156 mixing Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 238000013144 data compression Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명의 실시예에 따른 화자 분리 방법은, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함할 수 있다.
Description
도 2는 본 발명의 실시예에 따른 프로세서의 동작 구성을 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 음성 생성부의 동작 구성을 나타낸 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 음성 구분부의 동작 구성을 나타낸 블록 구성도이다.
도 5는 본 발명의 실시예에 따른 화자 분리 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 실시예에 따른 생성적 적대 신경망 기반의 화자 분리 동작을 설명하기 위한 예시도이다.
110: 입력부 120: 출력부
130: 프로세서 140: 메모리
150: 데이터 베이스
210: 음성 생성부 220: 음성 구분부
310: 데이터 압축부 320: 데이터 재구성부
410: 타겟 음성 구분부 420: 잔차 음성 구분부
Claims (15)
- 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 화자 분리 방법에 있어서,
상기 컴퓨팅 디바이스는,
적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계;
상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및
상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계
를 수행하는 것을 특징으로 하는 화자 분리 방법. - 제1항에 있어서,
상기 음성 입력 단계는,
상기 특정 화자의 제1 음성과 소정의 화자의 음성 또는 노이즈 음성을 포함하는 상기 혼합 음성을 입력 받는 것을 특징으로 하는 화자 분리 방법. - 제1항에 있어서,
상기 음성 생성 단계는,
하나의 타겟 소스 음성의 웨이브폼 세그먼트와 여러 화자의 소스 음성들이 합성된 혼합 음성의 웨이브폼 세그먼트가 매핑된 데이터셋을 사용하여 학습하여 상기 제1 음성을 생성하는 것을 특징으로 하는 화자 분리 방법. - 제1항에 있어서,
상기 음성 생성 단계는,
상기 혼합 음성에서 상기 특정 화자의 음성을 구분하기 위하여 상기 혼합 음성의 압축을 수행하는 혼합 음성 압축 단계; 및
상기 특정 화자의 음성을 기반으로 압축된 혼합 음성을 재구성하여 제1 음성(A')을 생성하는 데이터 재구성 단계
를 포함하는 것을 특징으로 하는 화자 분리 방법. - 제3항에 있어서,
상기 음성 구분 단계는,
상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및
상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계
를 포함하는 것을 특징으로 하는 화자 분리 방법. - 제5항에 있어서,
상기 타겟 음성 구분 단계는,
상기 제1 음성과 상기 제2 음성을 입력 받고, 상기 제1 음성이 상기 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 것을 특징으로 하는 화자 분리 방법. - 제5항에 있어서,
상기 잔차 음성 구분 단계는,
상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 상기 제1 잔차 음성이 상기 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 화자 분리 방법. - 제7항에 있어서,
상기 잔차 음성 구분 단계는,
상기 혼합 음성에서 상기 제1 음성을 제거한 상기 제1 잔차 음성과 상기 혼합 음성에서 상기 제2 음성을 제거한 상기 제2 잔차 음성을 비교하여 구분하는 것을 특징으로 하는 화자 분리 방법. - 제5항에 있어서,
상기 타겟 음성 구분 단계는,
상기 음성 생성 단계와 연동하여 상기 제1 음성 및 상기 제2 음성을 구분하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network) 학습을 수행하며,
상기 잔차 음성 구분 단계는, 상기 음성 생성 단계과 연동하여 상기 제1 잔차 음성 및 상기 제2 잔차 음성을 구분하기 위하여 생성적 적대 신경망(GAN) 학습을 수행하는 것을 특징으로 하는 화자 분리 방법. - 혼합 음성에서 화자를 분리하는 장치로서,
하나 이상의 프로세서; 및
상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계;
상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및
상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계
를 포함하는 동작들을 수행하게 하는 것을 특징으로 하는 화자 분리 장치. - 제10항에 있어서,
상기 음성 구분 단계는,
상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및
상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계
를 포함하는 것을 특징으로 하는 화자 분리 장치. - 제11항에 있어서,
상기 타겟 음성 구분 단계는,
상기 제1 음성과 상기 제2 음성을 입력 받고, 상기 제1 음성이 상기 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 것을 특징으로 하는 화자 분리 장치. - 제11항에 있어서,
상기 잔차 음성 구분 단계는,
상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 상기 제1 잔차 음성이 상기 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 화자 분리 장치. - 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 화자 분리 방법에 있어서,
상기 컴퓨팅 디바이스는,
적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받고, 특정 화자에 대한 음성을 기반으로 학습된 제1 학습 결과 및 상기 특정 화자를 제외한 음성을 기반으로 학습된 제2 학습 결과를 기반으로 상기 혼합 음성에 포함된 상기 특정 화자를 분리하는 것을 특징으로 화자 분리 방법. - 제14항에 있어서,
상기 컴퓨팅 디바이스는,
상기 제1 학습 결과를 기반으로 상기 혼합 음성에 포함된 상기 특정 화자의 음성을 추출하고, 상기 제2 학습 결과를 기반으로 상기 혼합 음성에서 상기 특정 화자의 음성을 제외한 나머지 음성을 제거하는 것을 특징으로 화자 분리 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190141938A KR102313387B1 (ko) | 2019-11-07 | 2019-11-07 | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190141938A KR102313387B1 (ko) | 2019-11-07 | 2019-11-07 | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 |
Publications (3)
Publication Number | Publication Date |
---|---|
KR20210055464A true KR20210055464A (ko) | 2021-05-17 |
KR102313387B1 KR102313387B1 (ko) | 2021-10-14 |
KR102313387B9 KR102313387B9 (ko) | 2021-11-12 |
Family
ID=76158155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190141938A KR102313387B1 (ko) | 2019-11-07 | 2019-11-07 | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102313387B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707173A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
WO2022265210A1 (ko) * | 2021-06-18 | 2022-12-22 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 개인화된 음성 처리 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146054A (ja) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
KR20100065811A (ko) * | 2008-12-09 | 2010-06-17 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
KR20130070345A (ko) * | 2011-12-19 | 2013-06-27 | 세종대학교산학협력단 | 음성 신호를 이용한 화자 인식 장치 및 그 방법 |
KR20130075513A (ko) * | 2011-12-27 | 2013-07-05 | 현대캐피탈 주식회사 | 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 |
KR20160013592A (ko) * | 2014-07-28 | 2016-02-05 | (주)복스유니버스 | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 |
-
2019
- 2019-11-07 KR KR1020190141938A patent/KR102313387B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146054A (ja) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
KR20100065811A (ko) * | 2008-12-09 | 2010-06-17 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
KR20130070345A (ko) * | 2011-12-19 | 2013-06-27 | 세종대학교산학협력단 | 음성 신호를 이용한 화자 인식 장치 및 그 방법 |
KR20130075513A (ko) * | 2011-12-27 | 2013-07-05 | 현대캐피탈 주식회사 | 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 |
KR20160013592A (ko) * | 2014-07-28 | 2016-02-05 | (주)복스유니버스 | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022265210A1 (ko) * | 2021-06-18 | 2022-12-22 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 개인화된 음성 처리 방법 |
CN113707173A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
CN113707173B (zh) * | 2021-08-30 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102313387B9 (ko) | 2021-11-12 |
KR102313387B1 (ko) | 2021-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Learning to separate object sounds by watching unlabeled video | |
Rakotomamonjy et al. | Histogram of gradients of time–frequency representations for audio scene classification | |
Biswas et al. | Audio codec enhancement with generative adversarial networks | |
Amiriparian et al. | Bag-of-deep-features: Noise-robust deep feature representations for audio analysis | |
CN107112006A (zh) | 基于神经网络的语音处理 | |
Aggarwal et al. | Cellphone identification using noise estimates from recorded audio | |
Chen et al. | Learning audio-visual dereverberation | |
CN114373476A (zh) | 一种基于多尺度残差注意力网络的声音场景分类方法 | |
EP3392883A1 (en) | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium | |
Okuyucu et al. | Audio feature and classifier analysis for efficient recognition of environmental sounds | |
Fathan et al. | Mel-spectrogram image-based end-to-end audio deepfake detection under channel-mismatched conditions | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
KR102313387B1 (ko) | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 | |
Ramsay et al. | The intrinsic memorability of everyday sounds | |
Chon et al. | Acoustic scene classification using aggregation of two-scale deep embeddings | |
Yadav et al. | PS3DT: Synthetic Speech Detection Using Patched Spectrogram Transformer | |
Yadav et al. | Compression Robust Synthetic Speech Detection Using Patched Spectrogram Transformer | |
Chowdhury et al. | Deeptalk: Vocal style encoding for speaker recognition and speech synthesis | |
Felipe et al. | Acoustic scene classification using spectrograms | |
Liu et al. | Robust audio-visual mandarin speech recognition based on adaptive decision fusion and tone features | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
AU2005100274A4 (en) | Method and apparatus for analyising sound | |
KR102400598B1 (ko) | 기계학습 기반의 잡음 제거 방법 및 그를 위한 장치 | |
KR101755238B1 (ko) | 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20191107 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210326 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210930 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20211008 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20211008 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
G170 | Re-publication after modification of scope of protection [patent] | ||
PG1701 | Publication of correction |
Patent event code: PG17011E01I Patent event date: 20211109 Comment text: Request for Publication of Correction Publication date: 20211112 |
|
PR1001 | Payment of annual fee |
Payment date: 20241016 Start annual number: 4 End annual number: 4 |