KR20170096083A - 신경망을 이용한 음원분리 장치 및 방법 - Google Patents
신경망을 이용한 음원분리 장치 및 방법 Download PDFInfo
- Publication number
- KR20170096083A KR20170096083A KR1020160017354A KR20160017354A KR20170096083A KR 20170096083 A KR20170096083 A KR 20170096083A KR 1020160017354 A KR1020160017354 A KR 1020160017354A KR 20160017354 A KR20160017354 A KR 20160017354A KR 20170096083 A KR20170096083 A KR 20170096083A
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- sound source
- convolutional neural
- source separation
- dimensional
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title description 27
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 45
- 238000000926 separation method Methods 0.000 claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 230000000873 masking effect Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명에 따른 신경망을 이용한 음원분리 장치는 오디오 신호를 분석하여 2차원 신호로 변환하는 2차원 신호 변환부, 변환된 2차원 신호에 기초하여 컨벌루션 신경망을 형성하는 컨벌루션 신경망 형성부, 형성된 컨벌루션 신경망에 기초하여 디컨벌루션 신경망을 형성하여 네트워크를 구성하는 디컨벌루션 신경망 형성부 및 디컨벌루션 신경망으로부터 확률맵을 추출하여 음원분리를 수행하는 음원 분리부를 포함한다.
Description
본 발명은 오디오 음원분리에 관한 것으로, 보다 상세하게는 혼합된 입력 오디오 신호에서 특정 오디오 소스를 분리하는 기술에 관한 것이다.
음원분리란 오디오 혼합된 오디오 신호로부터 하나 이상의 혼합 전 오디오 신호를 분리해내는 것이다. 기존의 음원분리 방법은 방위각 추정, ICA, NMF, 특징점 추출 등 여러 방법들이 사용되어 왔으나 최근에는 딥 러닝의 발전으로 인해 경망(Neural Network, 뉴럴 네트워크)를 이용한 음원분리 방법들이 제안되고 있다.
딥 러닝이란 인공 신경망의 종류 중 하나로 선형 근사(linear fitting)과 비선형(nonlinear) 변환, 액티베이션(activation) 등을 반복하여 수행함으로써 기계를 학습하고 이 결과를 통해 분류, 인식등에 사용되는 방법이다.
최근에는 이와 같은 신경망을 음원분리 기술에 적용하고 있다. 음원분리 기술에 적용되고 있는 신경망을 이용한 음원분리 방법은 오디오 신호를 주파수 도메인 값으로 변환한 후 각 프레임 값을 입력하여 하여 네트워크를 학습하고, 네트워크를 통과한 값을 바탕으로 음원을 분리한다.
본 발명이 해결하고자 하는 과제는 오디오 신호를 컨벌루션 신경망으로 학습하고 학습된 데이터를 바탕으로 디컨벌루션(Deconvolution) 및 언풀링(Un-pooling)의 과정을 수행하는 디컨벌루션 네트워크를 구성하여 음원분리를 수행하는 음원분리 장치 및 방법을 제공하는 것이다.
본 발명에 따른 신경망을 이용한 음원분리 장치는 오디오 신호를 분석하여 2차원 신호로 변환하는 2차원 신호 변환부, 변환된 2차원 신호에 기초하여 컨벌루션 신경망을 형성하는 컨벌루션 신경망 형성부, 형성된 컨벌루션 신경망에 기초하여 디컨벌루션 신경망을 형성하여 네트워크를 구성하는 디컨벌루션 신경망 형성부 및 디컨벌루션 신경망으로부터 확률맵을 추출하여 음원분리를 수행하는 음원 분리부를 포함한다.
본 발명에 따른 신경망을 이용한 음원분리 방법은 먼저, 수신된 오디오 신호를 분석하여 2차원 데이터로 변환한다. 오디오 신호가 2차원 신호로 변환되면, 변환된 2차원 신호에 기초하여 하나 이상의 레이어 구성된 컨벌루션 신경망(Convolution Neural Network)을 형성하여 인식 네트워크를 구성한다. 이 때, 분리하고자 하는 음원의 개수와 동일한 개수의 컨벌루션 신경망을 생성하여 추출음원을 생성할 수 있다.
분리하고자 하는 음원에 대응하는 컨벌루션 신경망이 형성되면, 생성된 하나 이상의 컨벌루션 신경망에 기초하여 대응하는 디컨벌루션 신경망을 형성한다. 다음으로, 컨벌루션 신경망으로 구성된 인식 네트워크에 대해 디컨벌루션 및 언풀링 과정을 통해 입력 이미지와 같은 크기의 2차원 벡터의 확률맵을 각각 추출한다. 이 때, 확률맵은 하나 이상의 디컨벌루션 각각에 대응하여 추출된다. 다음으로, 추출된 각각의 확률맵에 기초하여 음원 분리 마스킹을 수행하여 최종 판단을 내려 음원을 분리한다.
본 발명에 따른 신경망을 이용한 음원분리 장치 및 방법은 오디오 신호를 컨벌루션 신경망으로 학습하고 학습된 데이터를 바탕으로 디컨벌루션 및 언풀링의 과정을 수행하는 디컨벌루션 네트워크를 이용하여 음원을 분리함으로써, 노이즈를 줄이고 효과적인 분리를 가능하게 한다.
도 1은 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)의 음원 분리 과정의 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법의 추출음원 생성의 일례를 나타내는 순서도이다.
도 2는 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)의 음원 분리 과정의 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법의 추출음원 생성의 일례를 나타내는 순서도이다.
이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세하게 설명한다. 본 명세서에서 사용되는 용어 및 단어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 발명의 의도 또는 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예에서 사용된 용어는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)는 2차원 신호 변환부(110), 컨벌루션 신경망 형성부(120), 디컨벌루션 신경망 형성부(130) 및 음원 분리부(140)를 포함한다.
2차원 신호 변환부(110)는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환한다. 2차원 신호 변환부(110)는 1차원인 오디오 신호가 수신되면, 오디오 신호를 프레임 단위로 분석하여 2차원 데이터로 변환한다. 일례로서, 2차원 신호 변환부(110)는 고속 퓨리에 변환(Fast Fourier Transformer, FFT), 콘스턴트 Q 변환(Constant Q Transform, CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있으며, 2차원 신호로 표현하는 방법은 어느 방법이든 사용될 수 있다.
컨벌루션 신경망 형성부(120)는 2차원 신호 변환부(110)에서 변환된 2차원 신호에 기초하여 하나 이상의 레이어 구성된 컨벌루션 신경망(Convolution Neural Network)을 형성하여 인식 네트워크를 구성한다. 컨벌루션 신경망이란 이미지 인식 분야에 주로 사용되고 있는 네트워크로 고정 된 마스크로 컨벌루션을 수행함으로써 특징을 추출한다. 이 방법은 필기체 인식을 위해 처음 제안 되었고, 이미지 인식 분야에서 뛰어난 성능을 보이며 그 활용 분야가 점차 확대되고 있다.
신경망의 가장 큰 강점 중 한 가지는 기존의 수동 특징(Hand crafted feature) 추출 기반의 인식 방법들과 다르게 사람이 임의적으로 추출한 특징값들(MFCC, ZCR등)을 이용하는 것이 아닌 특징(feature) 추출부터 인식까지의 모든 과정을 하나의 네트워크 내에서 수행한다는 것이다. 이를 통해 낮은 인식 성능을 갖는 수동 특징(Hand crafted feature) 대신 네트워크가 추출한 특징(feature)들을 학습하게 된다.
컨벌루션 신경망은 컨벌루션(Convolution)과 서브 샘플링(Sub-Sampling)등의 동작을 번갈아 수행함으로써 각각의 레이어들이 구성되고 최종적으로 완전 연결층(Fully Connected Layer)를 생성함으로써 분류를 수행하는 방법이 일반적이다.
컨벌루션 신경망 형성부(120)는 상술한 바와 같이, 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.
디컨벌루션 신경망 형성부(130)는 컨벌루션 신경망 형성부(120)에서 형성된 컨벌루션 신경망에 기초하여 디컨벌루션 신경망을 형성한다. 이때, 출력 노드의 값은 음원 분리하고자 하는 트레이닝 또는 테스트 데이터 등이 될 수 있다. 디컨벌루션은 오디오 신호를 2차원 도메인으로 변환한 뒤 컨벌루션 신경망으로 학습했을 때에도 동일하게 적용이 가능하다. 특히, 본 발명에서 디컨벌루션은 컨벌루션 신경망과 결합되어 사용됨으로써, 이미지 디블러링, 노이즈 제거, 세그멘테이션 등에서 고성능을 보여준다.
음원 분리부(140)는 컨벌루션 신경망으로 구성된 인식 네트워크에 대해 디컨벌루션 및 언풀링 과정을 통해 입력 이미지와 같은 크기의 2차원 벡터의 확률맵을 추출해 낸다. 그리고 음원 분리부(140)는 추출된 확률맵에 기초하여 음원 분리 마스킹을 수행하여 최종 판단을 내려 음원을 분리한다. 음원 분리부(140)는 디컨벌루션 신경망 형성부(130)에서 추출된 확률맵을 입력값으로 하여 수신된 오디오 신호를 하나 이상의 추출음원으로 분리한다.
컨벌루션 신경망 형성부(120) 및 디컨벌루션 신경망 형성부(130)는 분리하고자 하는 음원(추출음원)의 개수만큼 컨벌루션 신경망 및 디컨벌루션 신경망을 생성한다. 그리고 생성된 하나 이상의 컨벌루션 신경망 및 디컨벌루션 신경망에 기초하여 음원 분리부(140)는 동일한 개수의 음원을 분리한다.
도 2는 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)의 음원 분리 과정의 일례를 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)는 도 1과 같이 한번에 하나의 음원을 분리할 수 있으며, 동시에 둘 이상의 음원을 분리할 수 있다. 도 2는 두 개의 음원을 분리하는 일례를 들어 설명한다.
본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 장치(100)는 오디오 신호(201)를 수신한다. 수신된 오디오 신호(201)는 1차원 신호이다. 신경망을 이용한 음원분리 장치(100)는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환한다. 이 때, 신경망을 이용한 음원분리 장치(100)는 FFT, CQT 및 파형요소변환(Wavelet Transform) 등이 활용될 수 있다.
오디오 신호(201)가 2차원 신호로 변환되면, 신경망을 이용한 음원분리 장치(100)는 분리하는 음원의 개수에 대응하는 개수의 컨벌루션 신경망(Convolution Neural Networks, 211, 221)를 생성한다. 도 2의 일례에서는 2개의 음원을 분리하기 위해 2 개의 컨벌루션 신경망(211, 221)을 생성한다. 생성된 컨벌루션 신경망은 하나 이상의 레이어로 구성된다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.
신경망을 이용한 음원분리 장치(100)는 제1 컨벌루션 신경망(211) 및 제2 컨벌루션 신경망(221)에 기초하여 각각 제1 디컨벌루션 신경망(212) 및 제2 디컨벌루션 신경망(222)을 형성한다. 신경망을 이용한 음원분리 장치(100)는 컨벌루션 신경망(211, 221)으로 구성된 인식 네트워크에 대해 디컨벌루션 및 언풀링 과정을 통해 입력 이미지와 같은 크기의 2차원 벡터의 확률맵을 추출해 낸다. 디컨벌루션은 오디오 신호를 2차원 도메인으로 변환한 뒤 컨벌루션 신경망으로 학습했을 때에도 동일하게 적용이 가능하다. 다음으로, 신경망을 이용한 음원분리 장치(100)는 추출된 확률맵에 기초하여 음원 분리 마스킹을 수행하여 최종 판단을 내려 두 개의 음원(213, 223)을 분리한다.
도 3은 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법의 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법은 먼저, 수신된 오디오 신호를 분석하여 2차원 데이터로 변환한다(S301). 수신되는 오디오 신호는 1차원 신호이다. 따라서, 컨벌루션 신경망을 형성하기 위해 1차원 오디오 신호를 2차원 신호로 변환한다. 일례로서, 고속 퓨리에 변환(FFT), 콘스턴트 Q 변환(CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호로 변환할 수 있다. 이 때, 2차원 신호로 변환하는 방법은 상술한 방법으로 한정되는 것은 아니며, 다양한 종류의 2차원 신호 변환 방법이 활용될 수 있다.
오디오 신호가 2차원 신호로 변환되면, 변환된 2차원 신호에 기초하여 하나 이상의 레이어 구성된 컨벌루션 신경망(Convolution Neural Network)을 형성하여 인식 네트워크를 구성한다(S302). 생성되는 컨벌루션 신경망의 개수는 분리하고자 하는 음원의 개수에 대응한다. 즉, 분리하고자 하는 음원의 개수와 동일한 개수의 컨벌루션 신경망을 생성하여 추출음원을 생성할 수 있다.
컨벌루션 신경망은 컨벌루션(Convolution)과 서브 샘플링(Sub-Sampling)등의 동작을 번갈아 수행함으로써 각각의 레이어들이 구성되고 최종적으로 완전 연결층(Fully Connected Layer)을 생성함으로써 분류를 수행하는 방법이 일반적이다.
상술한 바와 같이, 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.
분리하고자 하는 음원에 대응하는 컨벌루션 신경망이 형성되면, 생성된 하나 이상의 컨벌루션 신경망에 기초하여 대응하는 디컨벌루션 신경망을 형성한다(S303). 다음으로, 컨벌루션 신경망으로 구성된 인식 네트워크에 대해 디컨벌루션 및 언풀링 과정을 통해 입력 이미지와 같은 크기의 2차원 벡터의 확률맵을 각각 추출한다(S304). 확률맵은 하나 이상의 디컨벌루션 각각에 대응하여 추출된다.
이때, 출력 노드의 값은 음원 분리하고자 하는 트레이닝 또는 테스트 데이터 등이 될 수 있다. 디컨벌루션은 컨벌루션 신경망과 결합되어 사용됨으로써, 이미지 디블러링, 노이즈 제거, 세그멘테이션 등에서 고성능을 보여주고 있으며, 본 발명에서와 같이 오디오 신호를 2차원 도메인으로 변환한 뒤 컨벌루션 신경망으로 학습했을 때에도 동일하게 적용이 가능하다.
다음으로, 추출된 각각의 확률맵에 기초하여 음원 분리 마스킹을 수행하여 최종 판단을 내려 음원을 분리한다(S305). S304 단계에서 추출된 하나 이상의 확률맵을 입력값으로 하여 수신된 오디오 신호를 둘 이상의 추출음원으로 분리한다. 본 발명은 상술한 과정을 통해 음원 분리를 수행하여 필요로 하는 개수의 추출음원을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법의 추출음원 생성의 일례를 나타내는 순서도이다.
도 3 및 도 4를 참조하면, 본 발명의 일 실시예에 따른 신경망을 이용한 음원분리 방법은 한번에 하나의 음원만을 분리할 수 있으며, 동시에 둘 이상의 음원을 분리할 수 있다.
1차원 신호인 오디오 신호가 입력(410)되면, 오디오 신호를 분석하여 2차원 신호(데이터)로 변환한다(420). 이 때, 2차원 신호로 변환하는 과정에는 FFT, CQT 및 파형요소변환(Wavelet Transform) 등이 활용될 수 있다. 오디오 신호가 2차원 신호로 변환되면, 분리하는 음원의 개수에 대응하는 개수의 컨벌루션 신경망을 생성한다(431, 441). 도 4의 일례에서는 2개의 추출음원을 생성하기 위해 두 개의 컨벌루션 신경망을 생성한다. 생성된 컨벌루션 신경망은 하나 이상의 레이어로 구성된다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다.
필요로 하는 음원의 개수만큼 컨벌루션 신경망이 생성되면, 생성된 컨벌루션 신경망(431, 441) 각각으로부터 디컨벌루션 신경망을 생성한다(432, 442). 그리고 컨벌루션 신경망으로 구성된 인식 네트워크에 대해 디컨벌루션 및 언풀링 과정을 통해 입력 이미지와 같은 크기의 2차원 벡터의 확률맵을 추출해 낸다. 다음으로, 추출된 확률맵에 기초하여 음원 분리 마스킹을 수행하여 최종 판단을 내려 두 개의 음원(433, 443)을 분리한다.
상술한 내용을 포함하는 본 발명은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체 또는 정보저장매체에 저장되고, 컴퓨터에 의하여 판독되고 실행함으로써 본 발명의 방법을 구현할 수 있다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상 바람직한 실시예를 들어 본 발명을 상세하게 설명하였으나, 본 발명은 전술한 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당분야에서 통상의 지식을 가진자에 의하여 여러 가지 변형이 가능하다.
100: 신경망을 이용한 음원분리 장치
110: 2차원 신호 변환부
120: 컨벌루션 신경망 형성부
130: 디컨벌루션 신경망 형성부
140: 음원 분리부
110: 2차원 신호 변환부
120: 컨벌루션 신경망 형성부
130: 디컨벌루션 신경망 형성부
140: 음원 분리부
Claims (1)
- 오디오 신호를 분석하여 2차원 신호로 변환하는 2차원 신호 변환부;
상기 변환된 2차원 신호에 기초하여 컨벌루션 신경망을 형성하는 컨벌루션 신경망 형성부;
상기 형성된 컨벌루션 신경망에 기초하여 디컨벌루션 신경망을 형성하여 네트워크를 구성하는 디컨벌루션 신경망 형성부; 및
상기 디컨벌루션 신경망으로부터 확률맵을 추출하여 음원분리를 수행하는 음원 분리부;
를 포함하는 신경망을 이용한 음원분리 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160017354A KR20170096083A (ko) | 2016-02-15 | 2016-02-15 | 신경망을 이용한 음원분리 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160017354A KR20170096083A (ko) | 2016-02-15 | 2016-02-15 | 신경망을 이용한 음원분리 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20170096083A true KR20170096083A (ko) | 2017-08-23 |
Family
ID=59759494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160017354A KR20170096083A (ko) | 2016-02-15 | 2016-02-15 | 신경망을 이용한 음원분리 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20170096083A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190180142A1 (en) * | 2017-12-11 | 2019-06-13 | Electronics And Telecommunications Research Institute | Apparatus and method for extracting sound source from multi-channel audio signal |
KR20190108804A (ko) * | 2018-03-15 | 2019-09-25 | 한국전자통신연구원 | 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치 |
KR102093822B1 (ko) * | 2018-11-12 | 2020-03-26 | 한국과학기술연구원 | 음원 분리 장치 |
CN111833885A (zh) * | 2020-07-08 | 2020-10-27 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
CN113812173A (zh) * | 2019-05-09 | 2021-12-17 | 索诺瓦有限公司 | 处理音频信号的听力装置系统及方法 |
WO2022163982A1 (ko) * | 2021-01-27 | 2022-08-04 | 한양에스앤에이 주식회사 | 딥러닝을 이용한 음원 분류 장치 및 그 방법 |
-
2016
- 2016-02-15 KR KR1020160017354A patent/KR20170096083A/ko unknown
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190180142A1 (en) * | 2017-12-11 | 2019-06-13 | Electronics And Telecommunications Research Institute | Apparatus and method for extracting sound source from multi-channel audio signal |
KR20190069198A (ko) * | 2017-12-11 | 2019-06-19 | 한국전자통신연구원 | 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법 |
US10552711B2 (en) | 2017-12-11 | 2020-02-04 | Electronics And Telecommunications Research Institute | Apparatus and method for extracting sound source from multi-channel audio signal |
KR20190108804A (ko) * | 2018-03-15 | 2019-09-25 | 한국전자통신연구원 | 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치 |
KR102093822B1 (ko) * | 2018-11-12 | 2020-03-26 | 한국과학기술연구원 | 음원 분리 장치 |
US10803882B2 (en) | 2018-11-12 | 2020-10-13 | Korea Institute Of Science And Technology | Apparatus and method of separating sound sources |
CN113812173A (zh) * | 2019-05-09 | 2021-12-17 | 索诺瓦有限公司 | 处理音频信号的听力装置系统及方法 |
CN111833885A (zh) * | 2020-07-08 | 2020-10-27 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
CN111833885B (zh) * | 2020-07-08 | 2023-08-01 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
WO2022163982A1 (ko) * | 2021-01-27 | 2022-08-04 | 한양에스앤에이 주식회사 | 딥러닝을 이용한 음원 분류 장치 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20170096083A (ko) | 신경망을 이용한 음원분리 장치 및 방법 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
Espi et al. | Exploiting spectro-temporal locality in deep learning based acoustic event detection | |
KR101803471B1 (ko) | 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법 | |
CN111201569B (zh) | 电子装置及其控制方法 | |
CN113436643B (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
KR20190069198A (ko) | 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법 | |
Maheswari et al. | A hybrid model of neural network approach for speaker independent word recognition | |
Fonseca et al. | Self-supervised learning from automatically separated sound scenes | |
US11393443B2 (en) | Apparatuses and methods for creating noise environment noisy data and eliminating noise | |
TWI814268B (zh) | 資料生成裝置、資料生成方法及電腦程式產品 | |
JP6452061B1 (ja) | 学習データ生成方法、学習方法、及び評価装置 | |
CN108573711A (zh) | 一种基于nmf算法的单传声器语音分离方法 | |
CN113053361B (zh) | 语音识别方法、模型训练方法、装置、设备及介质 | |
CN112541542B (zh) | 多分类样本数据的处理方法、装置及计算机可读存储介质 | |
Shah et al. | Speech recognition using spectrogram-based visual features | |
CN110544472B (zh) | 提升使用cnn网络结构的语音任务的性能的方法 | |
KR20170095644A (ko) | 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 | |
Maayah et al. | LimitAccess: on-device TinyML based robust speech recognition and age classification | |
Shen | Application of transfer learning algorithm and real time speech detection in music education platform | |
CN113380268A (zh) | 模型训练的方法、装置和语音信号的处理方法、装置 | |
CN113327587A (zh) | 特定场景下语音识别的方法、装置、电子设备和存储介质 | |
WO2020250220A1 (en) | Sound analysis for determination of sound sources and sound isolation | |
Bhat et al. | Transfer Learning Based Automatic Model Creation Tool For Resource Constraint Devices |