KR20190001280A - 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 - Google Patents
생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 Download PDFInfo
- Publication number
- KR20190001280A KR20190001280A KR1020170081024A KR20170081024A KR20190001280A KR 20190001280 A KR20190001280 A KR 20190001280A KR 1020170081024 A KR1020170081024 A KR 1020170081024A KR 20170081024 A KR20170081024 A KR 20170081024A KR 20190001280 A KR20190001280 A KR 20190001280A
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- neural network
- signal
- wideband signal
- deepened
- Prior art date
Links
- 239000013598 vector Substances 0.000 claims abstract description 159
- 238000013528 artificial neural network Methods 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000013145 classification model Methods 0.000 claims abstract description 72
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 239000004606 Fillers/Extenders Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 238000003062 neural network model Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.
도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.
도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.
도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.
Claims (15)
- 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계;
상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계
를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제1항에 있어서,
상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는,
상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제2항에 있어서,
학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계
를 더 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제3항에 있어서,
상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는,
상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제1항에 있어서,
상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는,
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제1항 또는 제2항에 있어서,
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,
DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제6항에 있어서,
상기 심화 신경망 생성 모델은,
엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제2항에 있어서,
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부;
상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부
를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제9항에 있어서,
상기 생성 모델링부는,
학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 생성 모델링부는,
상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 분류 모델링부는,
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,
DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제13항에 있어서,
상기 심화 신경망 생성 모델은,
엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
PCT/KR2018/005647 WO2019004592A1 (ko) | 2017-06-27 | 2018-05-17 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
US16/618,672 US11238877B2 (en) | 2017-06-27 | 2018-05-17 | Generative adversarial network-based speech bandwidth extender and extension method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190001280A true KR20190001280A (ko) | 2019-01-04 |
KR102002681B1 KR102002681B1 (ko) | 2019-07-23 |
Family
ID=64741666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11238877B2 (ko) |
KR (1) | KR102002681B1 (ko) |
WO (1) | WO2019004592A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102096598B1 (ko) * | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | 애니메이션 생성 방법 |
KR102334390B1 (ko) * | 2020-06-24 | 2021-12-01 | 연세대학교 산학협력단 | 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법 |
CN114071106A (zh) * | 2020-08-10 | 2022-02-18 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
KR20220049772A (ko) * | 2020-10-15 | 2022-04-22 | 한국로봇융합연구원 | 천적음 생성 장치 및 방법 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867191B (zh) * | 2018-08-28 | 2024-06-25 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
CN112639968B (zh) * | 2018-08-30 | 2024-10-01 | 杜比国际公司 | 用于控制对经低比特率编码的音频的增强的方法和装置 |
US12045726B2 (en) * | 2019-02-08 | 2024-07-23 | DeepSig Inc. | Adversarially generated communications |
CN110390950B (zh) * | 2019-08-17 | 2021-04-09 | 浙江树人学院(浙江树人大学) | 一种基于生成对抗网络的端到端语音增强方法 |
US11501787B2 (en) * | 2019-08-22 | 2022-11-15 | Google Llc | Self-supervised audio representation learning for mobile devices |
WO2021046683A1 (zh) * | 2019-09-09 | 2021-03-18 | 深圳大学 | 一种基于生成式对抗网络的语音处理方法及装置 |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110797038B (zh) * | 2019-10-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN113066483B (zh) * | 2019-12-31 | 2024-01-30 | 广州航海学院 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
CA3166263A1 (en) * | 2020-02-03 | 2021-08-12 | Pindrop Security, Inc. | Cross-channel enrollment and authentication of voice biometrics |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
KR20210142930A (ko) * | 2020-05-19 | 2021-11-26 | 삼성에스디에스 주식회사 | 퓨 샷 학습 방법 및 이를 수행하기 위한 장치 |
US20230300557A1 (en) * | 2020-09-03 | 2023-09-21 | Sony Group Corporation | Signal processing device and method, learning device and method, and program |
US11985179B1 (en) * | 2020-11-23 | 2024-05-14 | Amazon Technologies, Inc. | Speech signal bandwidth extension using cascaded neural networks |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
US20230076431A1 (en) * | 2021-09-09 | 2023-03-09 | Nvidia Corporation | Audio upsampling using one or more neural networks |
CN114420140B (zh) * | 2022-03-30 | 2022-06-21 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
CN114582361B (zh) * | 2022-04-29 | 2022-07-08 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的高解析度音频编解码方法及系统 |
EP4303873A1 (en) * | 2022-07-04 | 2024-01-10 | GN Audio A/S | Personalized bandwidth extension |
US11895344B1 (en) | 2022-12-09 | 2024-02-06 | International Business Machines Corporation | Distribution of media content enhancement with generative adversarial network migration |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI119576B (fi) | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
JP3598111B2 (ja) | 2004-04-09 | 2004-12-08 | 三菱電機株式会社 | 広帯域音声復元装置 |
WO2006062202A1 (ja) | 2004-12-10 | 2006-06-15 | Matsushita Electric Industrial Co., Ltd. | 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法 |
DE602005001048T2 (de) * | 2005-01-31 | 2008-01-03 | Harman Becker Automotive Systems Gmbh | Erweiterung der Bandbreite eines schmalbandigen Sprachsignals |
KR100762596B1 (ko) | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
US9454958B2 (en) * | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
US10581469B1 (en) * | 2017-04-17 | 2020-03-03 | DeepSig Inc. | Machine learning-based nonlinear pre-distortion system |
US20200143240A1 (en) * | 2017-06-12 | 2020-05-07 | D5Ai Llc | Robust anti-adversarial machine learning |
-
2017
- 2017-06-27 KR KR1020170081024A patent/KR102002681B1/ko active IP Right Grant
-
2018
- 2018-05-17 WO PCT/KR2018/005647 patent/WO2019004592A1/ko active Application Filing
- 2018-05-17 US US16/618,672 patent/US11238877B2/en active Active
Non-Patent Citations (3)
Title |
---|
Kehuang Li, et al. A deep neural network approach to speech bandwidth expansion. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.* * |
Xin Liu, et al. Audio bandwidth extension using ensemble of recurrent neural networks. EURASIP Journal on Audio, Speech, and Music Processing. 2016.* * |
노경진, 장준혁. 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블. 한국통신학회 2017년도 하계종합학술발표회. 2017.06.21.* * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102096598B1 (ko) * | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | 애니메이션 생성 방법 |
KR102334390B1 (ko) * | 2020-06-24 | 2021-12-01 | 연세대학교 산학협력단 | 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법 |
CN114071106A (zh) * | 2020-08-10 | 2022-02-18 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
CN114071106B (zh) * | 2020-08-10 | 2023-07-04 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
KR20220049772A (ko) * | 2020-10-15 | 2022-04-22 | 한국로봇융합연구원 | 천적음 생성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US11238877B2 (en) | 2022-02-01 |
WO2019004592A1 (ko) | 2019-01-03 |
KR102002681B1 (ko) | 2019-07-23 |
US20210166705A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102002681B1 (ko) | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 | |
KR101998950B1 (ko) | 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 | |
US10891944B2 (en) | Adaptive and compensatory speech recognition methods and devices | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
Strake et al. | Separated noise suppression and speech restoration: LSTM-based speech enhancement in two stages | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
WO2020127900A1 (en) | Apparatus and method for source separation using an estimation and control of sound quality | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
Nuthakki et al. | Speech enhancement based on deep convolutional neural network | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
KR102204975B1 (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
JP5443547B2 (ja) | 信号処理装置 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
JP6843701B2 (ja) | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 | |
Soni et al. | Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech | |
Ayhan et al. | Robust speaker identification algorithms and results in noisy environments | |
JP2017021267A (ja) | ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム | |
Seyedin et al. | New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition | |
US20240363133A1 (en) | Noise suppression model using gated linear units | |
KR100435441B1 (ko) | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 | |
CN119314493A (zh) | 一种面向真实场景的说话人识别方法及系统 | |
CN117558279A (zh) | 说话人分割模型的训练方法、说话人分割方法及相关设备 | |
CN117524265A (zh) | 语音帧检测及其模型训练方法、模型产品及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170627 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190402 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20190705 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20190716 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20190716 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20220802 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20230628 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20240701 Start annual number: 6 End annual number: 6 |