KR102393948B1 - 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법 - Google Patents

다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법 Download PDF

Info

Publication number
KR102393948B1
KR102393948B1 KR1020170169666A KR20170169666A KR102393948B1 KR 102393948 B1 KR102393948 B1 KR 102393948B1 KR 1020170169666 A KR1020170169666 A KR 1020170169666A KR 20170169666 A KR20170169666 A KR 20170169666A KR 102393948 B1 KR102393948 B1 KR 102393948B1
Authority
KR
South Korea
Prior art keywords
sound source
audio signal
channel audio
extracting
feature maps
Prior art date
Application number
KR1020170169666A
Other languages
English (en)
Other versions
KR20190069198A (ko
Inventor
임우택
백승권
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170169666A priority Critical patent/KR102393948B1/ko
Priority to US16/203,668 priority patent/US10552711B2/en
Publication of KR20190069198A publication Critical patent/KR20190069198A/ko
Application granted granted Critical
Publication of KR102393948B1 publication Critical patent/KR102393948B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법이 개시된다. 음원 추출 방법은 다채널 오디오 신호를 2차원 데이터로 변환하는 단계; 적어도 하나의 레이어로 구성된 컨벌루션 신경망에 상기 2차원 데이터를 입력하여 복수의 특징 맵들을 추출하는 단계; 및 상기 특징 맵들을 이용하여 상기 다채널 오디오 신호에서 음원을 추출하는 단계를 포함할 수 있다.

Description

다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법{APPARATUS AND METHOD FOR EXTRACTING SOUND SOURCES FROM MULTI-CHANNEL AUDIO SIGNALS}
본 발명은 다채널 오디오 신호에서 음원을 추출하는 장치 및 방법에 관한 것이다.
음원 추출 기술은 복수의 음원이 혼합된 다채널 오디오 신호로부터 1개 이상의 혼합 전 오디오 신호를 추출하는 기술이다.
음원 추출 기술은 원본 오디오 신호에서 음성 음원만을 분리해서 이를 음성 강화와 같은 분야에 활용하거나, 반대로 음원을 제거하고 남은 신호를 활용해서 노래방 반주 신호와 같은 분야에 활용하기 위하여 사용될 수 있다.
종래의 음원 추출 방법인 센터 채널 추출 방법은 센터 채널 추출 방법은 양 스테레오 채널간의 음량 차이와 위상 차이 정보를 이용하여 음원을 추출할 수 있다. 구체적으로, 센터 채널 추출 방법은 STFT 과정을 통해 변환된 오디오 신호 중 주파수와 시간 축에서 신호 성분 각각의 연산을 통해 양 채널의 음량, 위상의 차이를 계산할 수 있다. 그리고, 계산 결과와 미리 정해진 기준 값을 이용하여 센터 채널의 신호를 추출할 수 있다.
이러한 시간-주파수 영역 신호의 기준 값 기반의 음원 추출 방법은 미리 정해 둔 기준값을 이용하여 음원을 추출하고 있으므로, 추출하지 못한 센터 음원의 성분이 존재하거나 센터 음원을 추출하는 과정에서 주변 음원들이 포함될 수 있다는 문제가 있었다.
따라서, 복수의 채널에 공통적으로 존재하거나 독립적으로 존재하는 주요한 객체 오디오 신호를 추출하는 방법이 요청되고 있다.
[선행문헌]
한국 공개특허 제2009-0037845호
본 발명은 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출하는 장치 및 방법을 제공할 수 있다.
본 발명의 일실시예에 따른 음원 추출 방법은 다채널 오디오 신호를 2차원 데이터로 변환하는 단계; 적어도 하나의 레이어로 구성된 컨벌루션 신경망에 상기 2차원 데이터를 입력하여 복수의 특징 맵들을 추출하는 단계; 및 상기 특징 맵들을 이용하여 상기 다채널 오디오 신호에서 음원을 추출하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 음원 추출 방법의 2차원 데이터로 변환하는 단계는, 상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.
본 발명의 일실시예에 따른 음원 추출 방법의 컨벌루션 신경망은, 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 특징 맵을 추출하고, 복수의 채널들에서 추출한 특징 맵을 병합하여 출력할 수 있다.
본 발명의 일실시예에 따른 음원 추출 방법의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출할 수 있다.
본 발명의 일실시예에 따른 음원 추출 방법의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출할 수 있다.
본 발명의 일실시예에 따른 음원 추출 장치는 다채널 오디오 신호를 2차원 데이터로 변환하여 컨벌루션 신경망에 입력하는 2차원 신호 변환부; 적어도 하나의 레이어로 구성되며, 상기 2차원 데이터에서 복수의 특징 맵들을 추출하는 컨벌루션 신경망; 및 상기 특징 맵들을 이용하여 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출부를 포함할 수 있다.
본 발명의 일실시예에 따른 음원 추출 장치의 2차원 신호 변환부는, 상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.
본 발명의 일실시예에 따른 음원 추출 장치의 컨벌루션 신경망은, 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 특징 맵을 추출하고, 복수의 채널들에서 추출한 특징 맵을 병합하여 출력할 수 있다.
본 발명의 일실시예에 따른 음원 추출 장치의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출할 수 있다.
본 발명의 일실시예에 따른 음원 추출 장치의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출할 수 있다.
본 발명의 일실시예에 의하면, 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다.
도 1은 본 발명의 일실시예에 따른 음원 추출 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 음원 추출 과정의 일례이다.
도 3은 본 발명의 일실시예에 따른 병합 레이어의 일례이다.
도 4는 본 발명의 일실시예에 따른 음원 추출 방법을 도시한 플로우차트이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 음원 추출 방법은 음원 추출 장치에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 음원 추출 장치를 나타내는 도면이다.
음원 추출 장치(100)는 도 1에 도시된 바와 같이 2차원 신호 변환부(110), 컨벌루션 신경망(120) 및 음원 추출부(130)를 포함할 수 있다. 이때, 2차원 신호 변환부(110), 컨벌루션 신경망(120) 및 음원 추출부(130)는 서로 다른 프로세스, 또는 하나의 프로세스에 포함된 프로그램을 수행하기 위한 각각의 모듈일 수 있다.
2차원 신호 변환부(110)는 다채널 오디오 신호를 2차원 데이터로 변환하여 컨벌루션 신경망(120)에 입력할 수 있다. 이때, 2차원 신호 변환부(110)는 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다. 예를 들어, 2차원 신호 변환부(110)는 FFT(Fast Fourier Transform), CQT(Constant Q Transform), Wavelet 중 하나를 이용하여 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다. 또한, 2차원 신호 변환부(110)는 앞서 설명한 예시 이외에도 오디오 신호를 2차원 신호로 표현하는 방법 중 하나를 이용하여 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.
컨벌루션 신경망(convolutional neural network)(120)은 이미지 인식, 생성, 해석 분야에 주로 사용되고 있는 네트워크일 수 있다.
컨벌루션 신경망(120)은 적어도 하나의 레이어로 구성되며, 입력받은 2차원 데이터에 고정 된 마스크로 컨벌루션을 수행함으로써 복수의 특징 맵(feature map)들을 추출할 수 있다. 이때, 2차원 데이터의 크기는 프레임 길이, 주파수 해상도, 사용자 입력과 같은 복수의 조건에 따라 결정될 수 있다. 그리고, 컨벌루션 신경망(120)은 컨벌루션, 서브샘플링, Activation, Drop out, Softmax, 정규화와 같은 방법들 중 적어도 하나를 수행할 수 있다.
또한, 컨벌루션 신경망(120)은 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 특징 맵을 추출하고, 복수의 채널들에서 추출한 특징 맵을 병합하여 출력할 수 있다. 구체적으로, 컨벌루션 신경망(120)은 컨벌루션(Convolution) 동작과 서브 샘플링(Sub-Sampling) 동작을 번갈아 수행함으로써 각각의 레이어들을 구성할 수 있다. 그리고, 컨벌루션 신경망(120)은 레이어들을 이용하여 2차원 데이터에서 특징 맵들을 추출하며, 특징 맵들을 병합하여 오디오 신호에서 음원을 분류할 수 있다. 이때, 컨벌루션 신경망(120)은 2차원 데이터로 변환된 다채널 오디오 신호에서 엣지(edge) 성분을 추출하여 특징 맵을 생성할 수 있다. 이때, 다채널 오디오 신호에서 엣지 성분이 검출되는 영역은 음원의 성분이 존재하는 영역이므로, 2차원 데이터가 컨벌루션 신경망(120)을 통과하면, 음원의 주요 성분들이 존재하는 부분에서 특징 맵이 추출될 수 있다.
음원 추출부(130)는 컨벌루션 신경망(120)에서 추출된 특징 맵들을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다. 이때, 음원 추출부(130)는 특징 맵들 간의 연산을 수행하여 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 다채널 오디오 신호에서 음원을 추출할 수 있다.
또한, 음원 추출부(130)는 특징 맵들 간의 연산을 수행하여 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 다채널 오디오 신호에서 예측한 독립 음원을 추출할 수 있다. 이때, 음원 추출부(130)가 수행하는 특징 맵들 간의 연산은 곱, 차이, 합 중 하나일 수 있다.
예를 들어 특징 맵들 간의 곱을 통해 주요 성분을 예측할 경우, 특징 맵들을 곱하여 생성된 병합 특징맵에서 주요 성분들은 독립 음원들에 비하여 상대적으로 큰 값을 가질 수 있다. 따라서, 음원 추출부(130)가 병합 특징 맵을 정규화한 후 복원하게 되면 병합 특징 맵의 각 성분들이 0~1 사이의 값을 가질 수 있다. 이때, 병합 특징 맵에서는 주요 성분이 1에 근사한 값을 갖게 되고, 독립 음원은 0에 근사한 값을 갖게 되므로 소프트 마스트(soft mask)와 같은 역할을 할 수 있다.
따라서, 음원 추출부(130)는 특징 맵들을 곱하여 생성된 병합 특징맵을 정규화한 후 복원함으로써, 주요 성분이 포함된 음원을 추출할 수 있다.
또한, 음원 추출부(130)는 특징 맵들을 곱하여 생성된 병합 특징맵에서 특정 임계 값 이상인 성분들을 주요 성분으로 판단하고 임계 값 이상의 성분만을 복원함으로써, 1과 0으로 구성된 특징 맵을 생성할 수 있다. 1과 0으로 구성된 특징 맵은 주요 성분이 1인 바이너리 마스트(binary mask)와 같은 역할을 할 수 있으므로, 음원 추출부(130)는 1과 0으로 구성된 특징 맵을 복원하여 주요 성분이 포함된 음원을 추출할 수 있다.
본 발명의 일실시예에 따른 음원 추출 장치(100)는 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다. 도 2는 본 발명의 일실시예에 따른 음원 추출 과정의 일례이다.
2차원 신호 변환부(110)는 다채널 오디오 신호의 제1 프레임(210)을 분석하고, 분석 결과에 따라 채널 1의 2차원 데이터(211)를 컨벌루션 신경망(120)에 입력할 수 있다. 또한, 2차원 신호 변환부(110)는 다채널 오디오 신호의 제2 프레임(220)을 분석하고, 분석 결과에 따라 채널 2의 2차원 데이터(221)를 컨벌루션 신경망(120)에 입력할 수 있다.
컨벌루션 신경망(120)의 컨벌루션 레이어(200)는 채널 1의 2차원 데이터(211)에서 엣지 성분(212)을 추출하여 특징 맵(213)을 생성할 수 있다. 다음으로, 컨벌루션 레이어(200)는 특징 맵(213)에서 엣지 성분(214)을 추출하여 특징 맵(215)을 생성할 수 있다.
또한, 컨벌루션 레이어(200)는 채널 2의 2차원 데이터(221)에서 엣지 성분(224)을 추출하여 특징 맵(223)을 생성할 수 있다. 다음으로, 컨벌루션 레이어(200)는 특징 맵(223)에서 엣지 성분(224)을 추출하여 특징 맵(225)을 생성할 수 있다.
그리고, 컨벌루션 레이어(200)는 특징 맵(215)와 특징 맵(225)를 병합한 병합 특징 맵(merged feature map)(230)을 생성하여 출력할 수 있다.
이때, 음원 추출부(130)는 병합 특징 맵(230)에서 특징 맵(215)와 특징 맵(225)에 공통으로 포함된 성분들을 검색하여 음원(240)를 추출할 수 있다. 그리고, 추출한 음원(240)은 2차원 데이터이므로, 음원 추출부(130)는 추출한 음원(240)을 오디오 신호(250)로 변환하여 출력할 수 있다.
도 3은 본 발명의 일실시예에 따른 병합 레이어의 일례이다.
컨벌루션 신경망(120)에서 추출한 제1 특징 맵(310)과 제2 특징 맵(320)는 도 3에 도시된 바와 같이 복수의 특징들을 포함하고 있다. 그리고, 컨벌루션 신경망(120)에서 제1 특징 맵(310)과 제2 특징 맵(320)을 병합하여 생성되는 병합 특징 맵(330)은 제1 특징 맵(310)과 제2 특징 맵(320)에 각각 포함된 특징들 중 제1 특징 맵(310)과 제2 특징 맵(320)에 공통으로 포함된 특징(300)만을 포함할 수 있다.
따라서, 음원 추출부(130)는 병합 특징 맵(330)에 포함된 특징(300)을 검색함으로써, 제1 특징 맵(310)과 제2 특징 맵(320)에 공통으로 포함된 특징을 검색할 수 있다.
도 4는 본 발명의 일실시예에 따른 음원 추출 방법을 도시한 플로우차트이다.
단계(410)에서 2차원 신호 변환부(110)는 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다. 이때, 2차원 신호 변환부(110)는 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.
단계(420)에서 2차원 신호 변환부(110)는 2차원 데이터를 컨벌루션 신경망(120)에 입력할 수 있다. 이때, 컨벌루션 신경망(120)은 입력받은 2차원 데이터에서 복수의 특징 맵들을 추출할 수 있다.
단계(430)에서 음원 추출부(130)는 특징 맵들 간의 연산을 수행하여 특징 맵들에 공통적으로 포함된 주요 성분, 또는 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측할 수 있다.
단계(440)에서 음원 추출부(130)는 단계(430)에서 예측한 주요 성분, 또는 독립 음원에 따라 다채널 오디오 신호에서 음원을 추출할 수 있다.
본 발명은 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110: 2차원 신호 변환부
120: 컨벌루션 신경망
130: 음원 추출부

Claims (10)

  1. 2차원 신호 변환부, 컨벌루션 신경망, 및 음원 추출부가 포함된 음원 추출 장치가 수행하는 음원 추출 방법에 있어서,
    상기 2차원 신호 변환부가 다채널 오디오 신호를 2차원 데이터로 변환하는 단계;
    상기 컨벌루션 신경망이 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 엣지 성분을 추출하여 각각의 특징 맵들을 생성하고, 생성한 특징 맵들을 병합한 병합 특징 맵(merged feature map)을 출력하는 단계; 및
    상기 음원 추출부가 상기 병합 특징 맵에 포함된 성분을 검색하여 상기 다채널 오디오 신호에서 음원을 추출하는 단계
    를 포함하는 음원 추출 방법.
  2. 제1항에 있어서,
    상기 2차원 데이터로 변환하는 단계는,
    상기 2차원 신호 변환부가 상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환하는 음원 추출 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 음원을 추출하는 단계는,
    상기 음원 추출부가 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출 방법.
  5. 제1항에 있어서,
    상기 음원을 추출하는 단계는,
    상기 음원 추출부가 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출하는 음원 추출 방법.
  6. 다채널 오디오 신호를 2차원 데이터로 변환하여 컨벌루션 신경망에 입력하는 2차원 신호 변환부;
    2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 엣지 성분을 추출하여 각각의 특징 맵들을 생성하고, 생성한 특징 맵들을 병합한 병합 특징 맵을 출력하는 컨벌루션 신경망; 및
    상기 병합 특징 맵에 포함된 성분을 검색하여 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출부
    를 포함하는 음원 추출 장치.
  7. 제6항에 있어서,
    상기 2차원 신호 변환부는,
    상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환하는 음원 추출 장치.
  8. 삭제
  9. 제6항에 있어서,
    상기 음원을 추출하는 단계는,
    상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출 장치.
  10. 제6항에 있어서,
    상기 음원을 추출하는 단계는,
    상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출하는 음원 추출 장치.
KR1020170169666A 2017-12-11 2017-12-11 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법 KR102393948B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170169666A KR102393948B1 (ko) 2017-12-11 2017-12-11 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법
US16/203,668 US10552711B2 (en) 2017-12-11 2018-11-29 Apparatus and method for extracting sound source from multi-channel audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170169666A KR102393948B1 (ko) 2017-12-11 2017-12-11 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20190069198A KR20190069198A (ko) 2019-06-19
KR102393948B1 true KR102393948B1 (ko) 2022-05-04

Family

ID=66696998

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170169666A KR102393948B1 (ko) 2017-12-11 2017-12-11 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법

Country Status (2)

Country Link
US (1) US10552711B2 (ko)
KR (1) KR102393948B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6943202B2 (ja) * 2018-02-23 2021-09-29 日本電信電話株式会社 音響信号モデル学習装置、音響信号解析装置、方法、及びプログラム
CN108734211B (zh) * 2018-05-17 2019-12-24 腾讯科技(深圳)有限公司 图像处理的方法和装置
US11315585B2 (en) 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
CN110277105B (zh) * 2019-07-05 2021-08-13 广州酷狗计算机科技有限公司 消除背景音频数据的方法、装置和系统
CN110400575B (zh) * 2019-07-24 2024-03-29 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
US10706286B1 (en) * 2019-09-05 2020-07-07 Alphonso Inc. 3D convolutional neural networks for television advertisement detection
US20210081672A1 (en) * 2019-09-13 2021-03-18 Nec Laboratories America, Inc Spatio-temporal interactions for video understanding
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system
CN116324979A (zh) * 2020-09-28 2023-06-23 三星电子株式会社 音频编码装置和方法,以及音频解码装置和方法
KR102492212B1 (ko) 2020-10-19 2023-01-27 주식회사 딥히어링 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200734888A (en) * 2006-03-01 2007-09-16 Univ Nat Chiao Tung Visualization system of acoustic source energy distribution and the method thereof
KR101901961B1 (ko) 2011-12-21 2018-09-28 한국전자통신연구원 부품을 인식하기 위한 장치 및 그 방법
US10198689B2 (en) 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
KR20170096083A (ko) * 2016-02-15 2017-08-23 한국전자통신연구원 신경망을 이용한 음원분리 장치 및 방법
KR20170101500A (ko) 2016-02-29 2017-09-06 한국전자통신연구원 노이즈 제거를 통한 오디오 신호 식별 방법 및 장치

Also Published As

Publication number Publication date
KR20190069198A (ko) 2019-06-19
US20190180142A1 (en) 2019-06-13
US10552711B2 (en) 2020-02-04

Similar Documents

Publication Publication Date Title
KR102393948B1 (ko) 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법
CN110136744B (zh) 一种音频指纹生成方法、设备及存储介质
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
Roma et al. Recurrence quantification analysis features for environmental sound recognition
KR20100073167A (ko) 음원 분리 방법 및 그 장치
US9437208B2 (en) General sound decomposition models
Meyer et al. Efficient convolutional neural network for audio event detection
WO2021075063A1 (en) Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium
Stoller et al. Jointly detecting and separating singing voice: A multi-task approach
Koerich et al. Cross-representation transferability of adversarial attacks: From spectrograms to audio waveforms
CN113892136A (zh) 信号提取系统、信号提取学习方法以及信号提取学习程序
Peter et al. End-to-end keyword spotting using neural architecture search and quantization
CN113327628B (zh) 音频处理方法、装置、可读介质和电子设备
CN102214219B (zh) 音视频内容检索系统及其方法
Han et al. Environmental sound classification based on feature collaboration
Prasanna Kumar et al. Single-channel speech separation using combined EMD and speech-specific information
WO2020003534A1 (en) Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
CN111460214B (zh) 分类模型训练方法、音频分类方法、装置、介质及设备
KR20230154597A (ko) 차분 특징을 이용한 소리 이벤트 검출 모델 기반의 소리 이벤트 검출 방법 및 장치
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
Dokania et al. Graph representation learning for audio & music genre classification
US11948554B2 (en) Learning device and pattern recognition device
US9626956B2 (en) Method and device for preprocessing speech signal
CN111048110A (zh) 乐器识别方法、介质、装置和计算设备
KR102626550B1 (ko) 딥러닝 기반 환경 사운드 분류 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right