KR20170101614A - 분리 음원을 합성하는 장치 및 방법 - Google Patents

분리 음원을 합성하는 장치 및 방법 Download PDF

Info

Publication number
KR20170101614A
KR20170101614A KR1020160024397A KR20160024397A KR20170101614A KR 20170101614 A KR20170101614 A KR 20170101614A KR 1020160024397 A KR1020160024397 A KR 1020160024397A KR 20160024397 A KR20160024397 A KR 20160024397A KR 20170101614 A KR20170101614 A KR 20170101614A
Authority
KR
South Korea
Prior art keywords
sound source
azimuth
frequency
stereo audio
audio signal
Prior art date
Application number
KR1020160024397A
Other languages
English (en)
Other versions
KR102617476B1 (ko
Inventor
정영호
이태진
장대영
최진수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160024397A priority Critical patent/KR102617476B1/ko
Priority to US15/288,033 priority patent/US9966081B2/en
Publication of KR20170101614A publication Critical patent/KR20170101614A/ko
Application granted granted Critical
Publication of KR102617476B1 publication Critical patent/KR102617476B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

스테레오 오디오 신호의 프레임에 혼합된 음원에 대한 공간 정보를 생성하는 단계, 및 상기 공간 정보에 기초하여, 상기 스테레오 오디오 신호의 프레임으로부터 주파수 영역의 분리 음원을 합성하는 단계를 포함하고, 공간 정보는, 상기 스테레오 오디오 신호의 프레임의 방위각 및 주파수에 따른 에너지 분포를 나타낸 주파수-방위각 평면을 포함하는 분리 음원 합성 방법 및 그 방법을 수행하는 장치가 제공된다.

Description

분리 음원을 합성하는 장치 및 방법 {APPARATUS AND METHOD FOR SYNTHESIZING SEPARATED SOUND SOURCE}
본 발명은 스테레오 오디오 신호를 처리하는 장치 및 방법에 관한 것으로, 보다 구체적으로는 스테레오 오디오 신호로부터 분리 음원을 합성하는 장치 및 방법에 관한 것이다.
인간의 두 귀는 머리의 좌측 및 우측에 위치한다. 인간은 좌측 귀로 입력되는 소리 및 우측 귀로 입력되는 소리 간의 강도 차이(IID, Inter-aural Intensity Difference)에 기초하여, 소리가 발생된 음원(sound source)의 공간상의 위치를 파악할 수 있다.
스테레오 오디오 신호는 좌채널 신호 및 우채널 신호를 포함한다. 분리 음원을 합성하는 기술은 상술한 인간의 청각 특성을 이용하여, 스테레오 오디오 신호에 혼합된 복수 개의 음원의 공간 정보를 획득한 다음, 공간 정보에 기초하여 분리 음원을 합성하는 것이다. 분리 음원을 합성하는 기술은 객체 기반 오디오 서비스, 음악 정보 검색 서비스, 멀티채널 업믹싱 등 다양한 응용 분야에서 활용될 수 있다.
분리 음원을 합성하는 기술의 일례로, ADRess(Azimuth Discrimination and Resynthesis) 알고리즘이 있다. ADRess 알고리즘은 주파수-방위각 평면(frequency- azimuth plane)의 방위각 축을 실제 방위각이 아닌 좌채널 신호 및 우채널 신호간의 비율을 기준으로 구성한다.
본 발명은 음원의 정확한 실제 방위각을 식별할 수 있는 분리 음원 합성 장치 및 방법을 제안한다.
본 발명은 확률 밀도 함수를 좌채널 신호 및 우채널 신호 중 우세한 어느 하나의 신호에 적용함으로써, 음질이 보다 향상된 분리 음원을 합성하는 장치 및 방법을 제안한다.
본 발명의 일실시예에 따르면, 스테레오 오디오 신호의 프레임에 혼합된 음원에 대한 공간 정보를 생성하는 단계 및 상기 공간 정보에 기초하여, 상기 스테레오 오디오 신호의 프레임으로부터 주파수 영역의 분리 음원을 합성하는 단계를 포함하고, 상기 공간 정보는, 상기 스테레오 오디오 신호의 프레임의 방위각 및 주파수에 따른 에너지 분포를 나타낸 주파수-방위각 평면을 포함하는 분리 음원 합성 방법이 제공된다.
일실시예에 따르면, 상기 공간 정보를 생성하는 단계는, 상기 스테레오 오디오 신호의 프레임을 구성하는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이를 고려하여, 상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 신호 강도비를 결정하는 단계, 상기 신호 강도비에 대응하는 방위각을 획득하는 단계 및 상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 크기 차이가 최소가 되는 상기 방위각에서, 상기 음원의 에너지의 크기를 추정함으로써, 상기 주파수-방위각 평면을 생성하는 단계를 포함하는 분리 음원 합성 방법이 제공된다.
일실시예에 따르면, 상기 분리 음원을 합성하는 단계는, 상기 주파수-방위각 평면에서, 주파수 성분의 에너지의 크기를 상기 방위각 별로 누적함으로써, 상기 방위각에 따른 상기 스테레오 오디오 신호의 프레임의 에너지 분포를 계산하는 단계, 상기 방위각에 따른 스테레오 오디오 신호의 프레임의 에너지 분포에서, 에너지가 극대인 상기 방위각을 식별함으로써, 상기 음원의 방위각을 식별하는 단계, 상기 음원의 방위각에 대응하는 신호 강도비를 이용하여 확률 밀도 함수를 결정하는 단계 및 상기 스테레오 오디오 신호의 프레임을 구성하는 좌채널 신호 및 우채널 신호 중 우세한 어느 하나의 신호에 상기 확률 밀도 함수를 적용함으로써, 상기 분리 음원을 추출하는 단계를 포함하는 분리 음원 합성 방법이 제공된다.
일실시예에 따르면, 상기 확률 밀도 함수는, 가우시안 윈도우 함수이고, 상기 가우시안 윈도우 함수의 대칭축은, 상기 음원의 방위각에 기초하여 결정되는 분리 음원 합성 방법이 제공된다.
일실시예에 따르면, 상기 분리 음원을 합성하는 단계는, 상기 주파수 영역의 분리 음원을 시간 영역으로 변환한 다음, 시간 영역의 분리 음원에 오버랩-애드(overlap-add) 기법을 적용하는 분리 음원 합성 방법이 제공된다.
본 발명의 일실시예에 따르면, 스테레오 오디오 신호의 프레임을 구성하는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이를 고려하여, 상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 신호 강도비를 결정하는 단계, 상기 신호 강도비에 대응하는 방위각을 획득하는 단계 및 상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 크기 차이가 최소가 되는 상기 방위각에서, 상기 스테레오 오디오 신호에 혼합된 음원의 에너지의 크기를 추정함으로써, 주파수-방위각 평면을 생성하는 단계를 포함하는 주파수-방위각 평면 생성 방법이 제공된다.
일실시예에 따르면, 상기 주파수-방위각 평면에서, 주파수 성분의 에너지의 크기를 상기 방위각 별로 누적함으로써, 상기 방위각에 따른 상기 스테레오 오디오 신호의 에너지 분포를 계산하는 단계, 상기 에너지 분포에서, 상기 스테레오 오디오 신호의 에너지가 극대인 상기 방위각을 식별함으로써, 상기 음원의 방위각을 식별하는 단계를 더 포함하는 주파수-방위각 평면 생성 방법이 제공된다.
일실시예에 따르면, 상기 음원의 방위각을 식별하는 단계는, 상기 스테레오 오디오 신호의 에너지가 극대인 상기 방위각을 상기 음원의 개수만큼 식별하는 주파수-방위각 평면 생성 방법이 제공된다.
본 발명의 일실시예에 따르면, 스테레오 오디오 신호의 프레임에 혼합된 음원에 대한 공간 정보를 생성하는 공간 정보 생성부 및 상기 공간 정보에 기초하여, 상기 스테레오 오디오 신호의 프레임으로부터 주파수 영역의 분리 음원을 합성하는 분리 음원 합성부를 포함하고, 상기 공간 정보는, 상기 스테레오 오디오 신호의 프레임의 방위각 및 주파수에 따른 에너지 분포를 나타낸 주파수-방위각 평면을 포함하는 분리 음원 합성 장치가 제공된다.
본 발명의 일실시예에 따르면, 음원의 정확한 실제 방위각을 식별할 수 있는 분리 음원 합성 장치 및 방법이 제공된다.
본 발명의 일실시예에 따르면, 확률 밀도 함수를 좌채널 신호 및 우채널 신호 중 우세한 어느 하나의 신호에 적용함으로써, 음질이 보다 향상된 분리 음원을 합성하는 장치 및 방법이 제공된다.
도 1은 본 발명의 일실시예에 따른 스테레오 오디오 신호에 포함된 음원간의 공간상의 위치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 분리 음원 합성 장치의 구조를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 분리 음원 합성 장치가 수행하는 동작을 도시한 흐름도이다.
도 4는 본 발명의 일실시예에 따른 신호 강도비 및 방위각 간의 관계를 도시한 도면이다.
도 5는 일실시예에 따른 분리 음원 합성 장치가 생성한 주파수-방위각 평면의 일례를 도시한 도면이다.
도 6은 일실시예에 따른 분리 음원 합성 장치가 계산한 방위각에 따른 스테레오 오디오 신호의 프레임의 에너지 분포를 도시한 도면이다.
도 7은 일실시예에 따른 분리 음원 합성 장치가 합성한 분리 음원의 파형을 음원의 파형과 비교하여 도시한 도면이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, “포함하다” 또는 “가지다” 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 스테레오 오디오 신호에 포함된 음원간의 공간상의 위치를 도시한 도면이다.
도 1을 참고하면, 스테레오 오디오 신호의 좌채널 신호를 녹음할 수 있는 좌채널 마이크(101) 및 스테레오 오디오 신호의 우채널 신호를 녹음할 수 있는 우채널 마이크(102)가 도시된다. 좌채널 마이크(101) 및 우채널 마이크(102)는 스테레오 마이크(stereo microphone)에 포함될 수 있다.
도 1을 참고하면, 소리를 생성하는 음원1(111), 음원2(112) 및 음원3(113)이 서로 다른 곳에 배치될 수 있다. 좌채널 마이크(101) 및 우채널 마이크(102)는 음원1(111), 음원2(112) 및 음원3(113)이 동시에 생성한 소리를 녹음할 수 있다. 이로써, 음원1(111), 음원2(112) 및 음원3(113)은 하나의 스테레오 오디오 신호에 혼합될 수 있다.
분리 음원은 분리 음원 합성 장치가 스테레오 오디오 신호로부터 복원한 음원을 의미한다. 본 발명의 일실시예에 따른 분리 음원 합성 장치는 스테레오 오디오 신호의 좌채널 신호 및 우채널 신호의 차이에 기초하여 분리 음원을 합성할 수 있다. 분리 음원 합성 장치는 스테레오 오디오 신호로부터 음원의 공간 정보를 획득할 수 있다. 분리 음원 합성 장치는 획득한 공간 정보에 기초하여, 분리 음원을 합성할 수 있다.
도 1을 참고하면, 좌채널 마이크(101) 및 우채널 마이크(102)가 배치된 기준 축(120)을 기준으로, 서로 다른 방위각(azimuth)을 가질 수 있다. 도 1을 참고하면, 음원1(111)의 방위각 a가 가장 작고, 음원 3(113)의 방위각 c가 가장 크다는 것을 알 수 있다. 또한, 방위각이 작을수록, 음원 및 좌채널 마이크(101) 간의 거리 보다 음원 및 우채널 마이크(102) 간의 거리가 더 길다는 것을 알 수 있다.
소리는 음원간의 거리에 비례하여 감쇄된다. 따라서, 음원이 좌채널 마이크(101)및 우채널 마이크(102)와 서로 다른 거리를 가지는 경우, 좌채널 마이크(101)에서 녹음된 좌채널 신호와 우채널 마이크(102)에서 녹음된 우채널 신호간에 크기의 차이가 발생할 수 있다. 도 1을 참고하면, 좌채널 마이크(101)는 우채널 마이크(102) 보다 음원1(111)에 가까이 있으므로, 음원1(111)에 대한 좌채널 신호의 크기는 음원1(111)에 대한 우채널 신호의 크기보다 크다. 또 다른 예로써, 좌채널 마이크(101)는 우채널 마이크(102) 보다 음원3(113)에 멀리 있으므로, 음원3(113)에 대한 좌채널 신호의 크기는 음원3(113)에 대한 우채널 신호의 크기보다 작다.
본 발명의 일실시예에 따르면, 분리 음원 합성 장치는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이에 기초하여, 음원의 방위각을 식별할 수 있다. 분리 음원 합성 장치는 상기 음원의 식별된 방위각에 기초하여, 스테레오 오디오 신호로부터 상기 음원에 대한 분리 음원을 합성할 수 있다.
도 2는 본 발명의 일실시예에 따른 분리 음원 합성 장치의 구조를 도시한 도면이다.
도 2를 참고하면, 스테레오 오디오 신호(200)는 좌채널 신호(201)및 우채널 신호(202)를 포함한다. 일실시예에 따른 분리 음원 합성 장치(210)는 스테레오 오디오 신호(200)에 혼합된 음원의 공간 정보를 생성할 수 있다.
또한, 분리 음원 합성 장치(210)는 음원의 공간 정보에 기초하여, 스테레오 오디오 신호(200)로부터 분리 음원을 합성할 수 있다. 네 개의 음원이 스테레오 오디오 신호(200)에 혼합되었다 가정하자. 이 경우 도 2를 참고하면,, 분리 음원 합성 장치(210)는 각 음원의 공간 정보에 기초하여, 스테레오 오디오 신호(200)로부터 분리 음원 S1(221), 분리 음원 S2(222), 분리 음원 S3(223) 및 분리 음원 S4(224)를 합성할 수 있다.
분리 음원 합성 장치(210)는 스테레오 오디오 신호(200)의 프레임 별로 분리 음원을 합성할 수 있다. 이하에서는 분리 음원 합성 장치(210)가 스테레오 오디오 신호(200)의 m 번째 프레임(203)으로부터 분리 음원을 합성하는 동작을 구체적으로 설명한다.
도 2를 참고하면, 일실시예에 따른 분리 음원 합성 장치(210)는 m 번째 프레임(203)에 혼합된 음원에 대한 공간 정보를 생성하는 공간 정보 생성부(211)를 포함할 수 있다. 공간 정보 생성부(211)는 m 번째 프레임(203)을 주파수 영역의 신호로 변환할 수 있다. 보다 구체적으로, 공간 정보 생성부(211)는 STFT(Short-Time Fourier Transform)를 이용하여, m 번째 프레임(203)을 주파수 영역으로 변환할 수 있다. 변환된 주파수 영역의 m 번째 프레임(203)은 주파수 영역의 좌채널 신호 및 주파수 영역의 우채널 신호를 포함한다.
일실시예에 따르면, 공간 정보 생성부(211)가 생성한 공간 정보는 주파수-방위각 평면을 포함할 수 있다. 공간 정보 생성부(211)는 주파수 별로, 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이가 최소가 되는 방위각을 식별할 수 있다. 공간 정보 생성부(211)는 상기 방위각에서, m 번째 프레임(203)에 혼합된 음원의 특정 주파수 성분의 에너지의 크기를 추정할 수 있다. 공간 정보 생성부(211)는 추정된 에너지에 기초하여, 주파수-방위각 평면을 생성할 수 있다.
따라서, 주파수-방위각 평면은 m 번째 프레임(203)의 방위각 및 주파수에 따른 에너지 분포를 표시할 수 있다. 일실시예에 따르면, 공간 정보 생성부(211)는 주파수-방위각 평면을 주파수 및 실제 방위각을 축으로 하는 주파수-방위각 공간에 생성할 수 있다.
도 2를 참고하면, 일실시예에 따른 분리 음원 합성 장치(210)는 공간 정보에 기초하여, m 번째 프레임(203)으로부터 주파수 영역의 분리 음원을 합성하는 분리 음원 합성부(212)를 포함할 수 있다. 앞서 설명한 바와 같이, 공간 정보는 주파수-방위각 평면을 포함한다. 또한, 주파수-방위각 평면은 실제 방위각을 기준으로 생성되므로, 분리 음원 합성부(212)는 주파수-방위각 평면을 분석함으로써, 음원의 정확한 방위각을 식별할 수 있다.
분리 음원 합성부(212)는 주파수-방위각 평면으로부터, m 번째 프레임(203)의 방위각에 따른 에너지 분포를 계산할 수 있다. 에너지 분포는 m 번째 프레임(203)에 포함된 음원의 방위각에 집중될 것이다. 분리 음원 합성부(212)는 m 번째 프레임(203)의 방위각에 따른 에너지 분포가 극대(local maximum)가 되는 방위각을 식별함으로써, 음원의 방위각을 식별할 수 있다.
일실시예에 따르면, 분리 음원 합성부(212)는 식별한 음원의 방위각에 기초하여, 확률 밀도 함수를 결정할 수 있다. 확률 밀도 함수는 가우시안 윈도우 함수일 수 있다. 분리 음원 합성부(212)는 m 번째 프레임(203)의 좌채널 신호 및 m 번째 프레임(203)의 우채널 신호 중 우세한 신호에 확률 밀도 함수를 적용함으로써, 주파수 영역에서의 분리 음원을 획득할 수 있다. 더 나아가서, 분리 음원 합성부(212)는 ISTFT(Inverse Short-Time Fourier Transformation)를 이용하여, 주파수 영역에서의 분리 음원을 시간 영역으로 변환할 수 있다. 또한, 분리 음원 합성부(212)는 오버랩-애드(overlap-add)를 이용하여, 분리 음원을 합성할 수 있다.
도 3은 본 발명의 일실시예에 따른 분리 음원 합성 장치가 수행하는 동작을 도시한 흐름도이다. 일실시예에 따르면, 분리 음원 합성 방법을 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체가 제공될 수 있다. 분리 음원 합성 장치는 기록 매체를 판독함으로써, 일실시예에 따른 분리 음원 합성 방법을 수행할 수 있다.
도 3을 참고하면, 단계(310)에서, 일실시예에 따른 분리 음원 합성 장치는 스테레오 오디오 신호의 프레임에 혼합된 음원에 대한 공간 정보를 생성할 수 있다. 분리 음원 합성 장치는 스테레오 오디오 신호의 프레임을 주파수 영역으로 변환할 수 있다. 주파수 영역에서, 분리 음원 합성 장치는 프레임을 구성하는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분을, g(i)를 이용해 수학식 1과 같이 결합할 수 있다.
Figure pat00001
수학식 1을 참고하면, X1(k,m)은 m 번째 프레임의 좌채널 신호의 k 번째 주파수 성분이다. X2(k,m)은 m 번째 프레임의 우채널 신호의 k 번째 주파수 성분이다. 주파수 해상도 N에 대하여, k는 0≤k≤N을 만족한다. 방위각 해상도 β에 대하여, 방위각 인덱스 i는 0≤i≤β를 만족한다. 따라서, 분리 음원 합성 장치는 수학식 1로부터, (N+1)×(β+1)배열의 주파수-방위각 평면을 생성할 수 있다.
수학식 1의 g(i)는 수학식 2에 기초하여 결정된다.
Figure pat00002
수학식 2를 참고하면 g(i)는 0 과 1사이의 값을 가질 수 있다. 또한, 음원이 좌채널 신호가 우세한 경우(i≤β/2)의 g(i) 및 음원이 우채널 신호가 우세한 경우(i>β/2)의 g(i)를 비교하면, g(i)는 방위각 90˚를 기준으로 대칭임을 알 수 있다.
도 3을 참고하면, 단계(311)에서, 일실시예에 따른 분리 음원 합성 장치는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이를 고려하여, 방위각의 변화에 대한 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 신호 강도비
Figure pat00003
를 결정할 수 있다. 분리 음원 합성 장치는 수학식 3에 기초하여 신호 강도비
Figure pat00004
를 결정할 수 있다.
Figure pat00005
수학식 3을 참고하면, 신호 강도비
Figure pat00006
는 좌채널 신호가 우세(i≤β/2)한지 또는 음원이 우채널 신호가 우세(i>β/2)한지에 따라 정의가 달라진다. 따라서, 신호 강도비
Figure pat00007
는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이를 고려하여 결정될 수 있다.
또한, 수학식 2와 비교할 때에, 신호 강도비
Figure pat00008
는 방위각 90˚를 기준으로 부호가 바뀔 수 있으므로, 신호 강도비
Figure pat00009
의 값으로 방위각이 90˚보다 작은지 또는 90˚보다 큰지 식별할 수 있다. 따라서, 신호 강도비
Figure pat00010
는 수학식 2와 달리, 좌측 방위각(90˚보다 작은 경우) 또는 우측 방위각(90˚보다 큰 경우)을 구분할 수 있다.
도 3을 참고하면, 단계(312)에서, 일실시예에 따른 분리 음원 합성 장치는 신호 강도비
Figure pat00011
에 대응하는 방위각을 획득할 수 있다. 보다 구체적으로, 분리 음원 합성 장치는 수학식 4에 기초하여 방위각을 획득할 수 있다.
Figure pat00012
도 4는 본 발명의 일실시예에 따른 신호 강도비 및 방위각 간의 관계를 도시한 도면이다. 도 4를 참고하면, 방위각 인덱스에 따라 계산된 신호 강도비 및 방위각은 비선형 관계에 있다. 따라서, 방위각 인덱스 i에 기초하여 주파수-방위각 평면을 구성할 경우, 분리 음원 및 원음 간에 방위각 인덱스 i 및 실제 방위각과의 비선형 관계로 인한 차이가 발생할 수 있다.
다시 도 3을 참고하면, 단계(313)에서, 일실시예에 따른 분리 음원 합성 장치는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이가 최소가 되는 방위각에서, 음원의 에너지의 크기를 추정함으로써, 주파수-방위각 평면을 생성할 수 있다.
보다 구체적으로, 분리 음원 합성 장치는 수학식 1의 Az(k,m,i)를 최소로 만드는 방위각 인덱스 i를 찾을 수 있다. 분리 음원 합성 장치는 Az(k,m,i)를 최소로 만드는 방위각 인덱스 i에서의 음원의 에너지를 수학식 5에 기초하여 추정함으로써, 주파수-방위각 평면을 생성할 수 있다.
Figure pat00013
분리 음원 합성 장치는
Figure pat00014
를 수학식 4의 방위각을 축으로 하는 주파수-방위각 공간에 생성할 수 있다. 따라서, 주파수-방위각 평면이 실제 방위각을 기준으로 생성되므로, 방위각 인덱스 i 및 실제 방위각과의 비선형 관계로 인한 왜곡을 제거할 수 있다. 즉, 분리 음원 합성 장치는 보다 정확하게 음원의 방위각을 식별할 수 있다.
도 5는 일실시예에 따른 분리 음원 합성 장치가 생성한 주파수-방위각 평면의 일례를 도시한 도면이다. 이하에서는, 도 3 및 도 5를 참고하여 분리 음원 합성 장치가 주파수-방위각 평면을 해석하는 구체적인 동작을 설명한다. 또한, 이하에서는, 음원이 좌측에 위치한 경우 방위각 0˚로, 정중앙에 위치한 경우 방위각 90˚로, 우측에 위치한 경우 방위각 180˚로 가정한다.
도 5를 참고하면, 스테레오 오디오 신호의 프레임의 에너지는 방위각 100˚ 주변에 집중됨을 알 수 있다. 또한, 4kHz이하의 주파수 성분이 우세함을 알 수 있다. 분리 음원 합성 장치는 주파수-방위각 평면의 에너지 분포를 분석함으로써, 음원의 방위각을 식별할 수 있다.
다시 도 3을 참고하면, 단계(321)에서, 일실시예에 따른 분리 음원 합성 장치는 주파수-방위각 평면에서, 주파수 성분의 에너지의 크기를 방위각 별로 누적함으로써, 방위각에 따른 스테레오 오디오 신호의 프레임의 에너지 분포를 계산할 수 있다. 즉, 분리 음원 합성 장치는
Figure pat00015
를 방위각 별로 누적함으로써, 방위각에 따른 프레임의 에너지 분포를 계산할 수 있다.
도 3을 참고하면, 단계(322)에서, 일실시예에 따른 분리 음원 합성 장치는 방위각에 따른 스테레오 오디오 신호의 프레임의 에너지 분포에서, 에너지가 극대인 방위각을 식별함으로써, 음원의 방위각을 식별할 수 있다. 프레임의 에너지 분포는 프레임에 혼합된 음원의 개수만큼 극대값을 가질 수 있다.
도 5의 주파수-방위각 평면의 예시에서, 스테레오 오디오 신호의 프레임의 에너지가 방위각 100˚ 주변에 집중되어 있으므로, 분리 음원 합성 장치가 계산한 방위각에 따른 프레임의 에너지 분포는, 방위각 100˚에서 극대값을 가질 것이다. 따라서, 분리 음원 합성 장치는 음원의 방위각 100˚임을 식별할 수 있다.
다시 도 3을 참고하면, 단계(323)에서, 일실시예에 따른 분리 음원 합성 장치는 음원의 방위각에 대응하는 신호 강도비를 이용하여 확률 밀도 함수를 결정할 수 있다. 확률 밀도 함수는 가우시안 윈도우 함수를 포함할 수 있다. 일실시예에 따르면, 분리 음원 합성 장치는 수학식 6에 기초하여 가우시안 윈도우 함수를 결정할 수 있다.
Figure pat00016
수학식 6을 참고하면, dj는 분리 음원 합성 장치가 단계(322)에서 식별한 음원의 방위각이다. 따라서, 가우시안 윈도우 함수의 대칭축은 음원의 방위각에 대응하는 신호 강도비
Figure pat00017
로 결정될 수 있다. γ는 가우시안 윈도우 함수의 폭을 결정할 수 있다. 분리 음원 합성 장치는 γ를 조절함으로써, 다른 방위각에 위치한 음원에 의한 왜곡을 조절할 수 있다. U(k)는 k 번째 주파수 성분에서, Az(k,m,i)를 최소로 만드는 방위각 인덱스 i에 대하여, 수학식 7과 같이 정의된다.
Figure pat00018
도 3을 참고하면, 단계(324)에서, 일실시예에 따른 분리 음원 합성 장치는 결정한 확률 밀도 함수를, 스테레오 오디오 신호의 프레임의 좌채널 신호 및 우채널 신호 중에서 우세한 어느 하나의 신호에 적용함으로써, 주파수 영역의 분리 음원을 추출할 수 있다. 일실시예에 따른 분리 음원 합성 장치는 수학식 8을 이용하여, m 번째 프레임의 분리 음원 Sj의 k 번째 주파수 성분 Sj(k,m)을 추출할 수 있다.
Figure pat00019
수학식 8을 참고하면, 분리 음원 Sj의 k 번째 주파수 성분 Sj(k,m)은 확률 밀도 함수를, 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 중에서 우세한 어느 하나의 신호에 적용함으로써 추출될 수 있다. 도 5를 참고하면, 음원의 방위각은 100˚이므로, 분리 음원 합성 장치는 수학식 8을 참고할 때에, 가우시안 윈도우 함수를 우채널 신호에 적용함으로써, 주파수 영역의 분리 음원을 추출할 수 있다.
본 발명의 일실시예에 따르면, 분리 음원 합성 장치는 주파수 영역의 분리 음원을 시간 영역으로 변환할 수 있다. 보다 구체적으로, 분리 음원 합성 장치는 분리 음원 Sj의 k 번째 주파수 성분 Sj(k,m)을 시간 영역으로 변환할 수 있다. 더 나아가서, 분리 음원 합성 장치는 오버랩-애드(overlap-add)를 이용하여, 분리 음원을 합성할 수 있다.
이하에서는, 일실시예에 따른 분리 음원 합성 장치가 SASSEC(Stereo Audio Source Separation Evaluation Campaign)에서 제공하는 스테레오 오디오 신호로부터 합성한 분리 음원을 음원과 비교하여 설명한다.
SASSEC에서 제공하는 스테레오 오디오 신호는 2 개의 무지향성 마이크로폰을 이용하여(이격 거리: 5cm), 4 개의 방위각(45˚, 75˚, 100˚, 140˚)에 대해 1m 반경으로 위치한 스피커에서 출력하는 서로 다른 4 명의 음성이 혼합되어 있다. 즉, SASSEC에서 제공하는 스테레오 오디오 신호는 4 개의 방위각(45˚, 75˚, 100˚, 140˚) 각각에 위치한 4 개의 음원이 혼합되어 있다.
도 6은 일실시예에 따른 분리 음원 합성 장치가 계산한 방위각에 따른 스테레오 오디오 신호의 프레임의 에너지 분포를 도시한 도면이다. 분리 음원 합성 장치는 주파수-방위각 평면에서, 주파수 성분의 에너지의 크기를 방위각 별로 누적함으로써, 방위각에 따른 스테레오 오디오 신호의 에너지 분포를 계산할 수 있다.
도 6을 참고하면, 누적된 에너지는 방위각 45˚, 75˚, 100˚, 140˚ 근처에서 극대값(610, 620, 630, 640)을 가짐을 알 수 있다. 분리 음원 합성 장치는 극대값(610, 620, 630, 640)의 방위각에 대응하는 신호 강도비를 이용하여, 각각의 음원에 대한 확률 밀도 함수를 결정할 수 있다.
분리 음원 합성 장치는 스테레오 오디오 신호의 좌채널 신호 및 우채널 신호 중 우세한 어느 하나의 신호에 확률 밀도 함수를 적용함으로써, 분리 음원을 추출할 수 있다. 예를 들어, 분리 음원 합성 장치는 극대값(620, 610)에 대응하는 분리 음원을 합성할 경우, 극대값(620, 610)은 방위각 90˚ 보다 큰 방위각 100˚ 및 140˚에 위치하므로, 분리 음원 합성 장치는 우채널 신호에 가우시안 윈도우 함수를 적용할 것이다.
도 7은 일실시예에 따른 분리 음원 합성 장치가 합성한 분리 음원의 파형을 음원의 파형과 비교하여 도시한 도면이다. 도 7을 참고하면, 음원 S1(710)에 대한 분리 음원(711), 음원 S2(720)에 대한 분리 음원(721), 음원 S3(730)에 대한 분리 음원(731) 및 음원 S4(740)에 대한 분리 음원(741)이 도시된다.
표 1은 일실시예에 따른 분리 음원 합성 장치가 합성한 분리 음원의 성능 및 종래의 분리 음원을 합성하는 기술에 의해 합성된 분리 음원의 성능을 비교한 것이다. 표 1을 참고하면, SDR(Source to Distortion Ratio), SIR(Source to Interference Ratio), SAR(Source to Artifact Ratio)을 계산함으로써, 성능을 비교하였다.
SDR (dB) SIR (dB) SAR (dB)
종래 -2.89 19.07 -2.80
본 발명 6.21 20.52 6.43
표 1을 참고하면, 일실시예에 따른 분리 음원 합성 장치가 합성한 분리 음원의 성능은 종래의 방식과 비교할 때에, SDR은 약 9.1dB, SIR은 1.45dB, SAR은 약 9.23dB 만큼 향상되었음을 알 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200 : 스테레오 오디오 신호
201 : 좌채널 신호
202 : 우채널 신호
203 : m번째 프레임
210 : 분리 음원 합성 장치
211 : 공간 정보 생성부
212 : 분리 음원 합성부
221 : 분리 음원 S1
222 : 분리 음원 S2
223 : 분리 음원 S3
224 : 분리 음원 S4

Claims (9)

  1. 스테레오 오디오 신호의 프레임에 혼합된 음원에 대한 공간 정보를 생성하는 단계; 및
    상기 공간 정보에 기초하여, 상기 스테레오 오디오 신호의 프레임으로부터 주파수 영역의 분리 음원을 합성하는 단계
    를 포함하고,
    상기 공간 정보는,
    상기 스테레오 오디오 신호의 프레임의 방위각 및 주파수에 따른 에너지 분포를 나타낸 주파수-방위각 평면을 포함하는
    분리 음원 합성 방법.
  2. 제1항에 있어서,
    상기 공간 정보를 생성하는 단계는,
    상기 스테레오 오디오 신호의 프레임을 구성하는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이를 고려하여, 상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 신호 강도비를 결정하는 단계;
    상기 신호 강도비에 대응하는 방위각을 획득하는 단계; 및
    상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 크기 차이가 최소가 되는 상기 방위각에서, 상기 음원의 에너지의 크기를 추정함으로써, 상기 주파수-방위각 평면을 생성하는 단계
    를 포함하는 분리 음원 합성 방법.
  3. 제1항에 있어서,
    상기 분리 음원을 합성하는 단계는,
    상기 주파수-방위각 평면에서, 주파수 성분의 에너지의 크기를 상기 방위각 별로 누적함으로써, 상기 방위각에 따른 상기 스테레오 오디오 신호의 프레임의 에너지 분포를 계산하는 단계;
    상기 방위각에 따른 스테레오 오디오 신호의 프레임의 에너지 분포에서, 에너지가 극대인 상기 방위각을 식별함으로써, 상기 음원의 방위각을 식별하는 단계;
    상기 음원의 방위각에 대응하는 신호 강도비를 이용하여 확률 밀도 함수를 결정하는 단계; 및
    상기 스테레오 오디오 신호의 프레임을 구성하는 좌채널 신호 및 우채널 신호 중 우세한 어느 하나의 신호에 상기 확률 밀도 함수를 적용함으로써, 상기 분리 음원을 추출하는 단계
    를 포함하는 분리 음원 합성 방법.
  4. 제3항에 있어서,
    상기 확률 밀도 함수는,
    가우시안 윈도우 함수이고,
    상기 가우시안 윈도우 함수의 대칭축은,
    상기 음원의 방위각에 기초하여 결정되는 분리 음원 합성 방법.
  5. 제1항에 있어서,
    상기 분리 음원을 합성하는 단계는,
    상기 주파수 영역의 분리 음원을 시간 영역으로 변환한 다음, 시간 영역의 분리 음원에 오버랩-애드(overlap-add) 기법을 적용하는 분리 음원 합성 방법.
  6. 스테레오 오디오 신호의 프레임을 구성하는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이를 고려하여, 상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 신호 강도비를 결정하는 단계;
    상기 신호 강도비에 대응하는 방위각을 획득하는 단계; 및
    상기 좌채널 신호의 주파수 성분 및 상기 우채널 신호의 주파수 성분 간의 크기 차이가 최소가 되는 상기 방위각에서, 상기 스테레오 오디오 신호에 혼합된 음원의 에너지의 크기를 추정함으로써, 주파수-방위각 평면을 생성하는 단계
    를 포함하는 주파수-방위각 평면 생성 방법.
  7. 제6항에 있어서,
    상기 주파수-방위각 평면에서, 주파수 성분의 에너지의 크기를 상기 방위각 별로 누적함으로써, 상기 방위각에 따른 상기 스테레오 오디오 신호의 에너지 분포를 계산하는 단계;
    상기 에너지 분포에서, 상기 스테레오 오디오 신호의 에너지가 극대인 상기 방위각을 식별함으로써, 상기 음원의 방위각을 식별하는 단계
    를 더 포함하는 주파수-방위각 평면 생성 방법.
  8. 제7항에 있어서,
    상기 음원의 방위각을 식별하는 단계는,
    상기 스테레오 오디오 신호의 에너지가 극대인 상기 방위각을 상기 음원의 개수만큼 식별하는 주파수-방위각 평면 생성 방법.
  9. 스테레오 오디오 신호의 프레임에 혼합된 음원에 대한 공간 정보를 생성하는 공간 정보 생성부; 및
    상기 공간 정보에 기초하여, 상기 스테레오 오디오 신호의 프레임으로부터 주파수 영역의 분리 음원을 합성하는 분리 음원 합성부
    를 포함하고,
    상기 공간 정보는,
    상기 스테레오 오디오 신호의 프레임의 방위각 및 주파수에 따른 에너지 분포를 나타낸 주파수-방위각 평면을 포함하는
    분리 음원 합성 장치.
KR1020160024397A 2016-02-29 2016-02-29 분리 음원을 합성하는 장치 및 방법 KR102617476B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160024397A KR102617476B1 (ko) 2016-02-29 2016-02-29 분리 음원을 합성하는 장치 및 방법
US15/288,033 US9966081B2 (en) 2016-02-29 2016-10-07 Method and apparatus for synthesizing separated sound source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160024397A KR102617476B1 (ko) 2016-02-29 2016-02-29 분리 음원을 합성하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170101614A true KR20170101614A (ko) 2017-09-06
KR102617476B1 KR102617476B1 (ko) 2023-12-26

Family

ID=59679081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160024397A KR102617476B1 (ko) 2016-02-29 2016-02-29 분리 음원을 합성하는 장치 및 방법

Country Status (2)

Country Link
US (1) US9966081B2 (ko)
KR (1) KR102617476B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN108877820B (zh) * 2017-11-30 2021-05-11 视联动力信息技术股份有限公司 一种音频数据混合方法和装置
KR102556092B1 (ko) 2018-03-20 2023-07-18 한국전자통신연구원 지향성 마이크를 이용한 음향 이벤트 검출 방법, 그리고 지향성 마이크를 이용한 음향 이벤트 검출 장치
CN113782047B (zh) * 2021-09-06 2024-03-08 云知声智能科技股份有限公司 语音分离方法、装置、设备和存储介质
US20230130844A1 (en) * 2021-10-27 2023-04-27 WingNut Films Productions Limited Audio Source Separation Processing Workflow Systems and Methods

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500532A (ja) * 2008-08-14 2012-01-05 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号変換

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027478B2 (en) * 2004-04-16 2011-09-27 Dublin Institute Of Technology Method and system for sound source separation
JP5769967B2 (ja) * 2007-10-03 2015-08-26 コーニンクレッカ フィリップス エヌ ヴェ ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム
KR101567461B1 (ko) 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9049532B2 (en) 2010-10-19 2015-06-02 Electronics And Telecommunications Research Instittute Apparatus and method for separating sound source
US9520138B2 (en) * 2013-03-15 2016-12-13 Broadcom Corporation Adaptive modulation filtering for spectral feature enhancement
KR20150025852A (ko) 2013-08-30 2015-03-11 한국전자통신연구원 멀티채널 오디오 분리 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500532A (ja) * 2008-08-14 2012-01-05 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号変換

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. Barry et al. Sound Source Separation: Azimuth Discrimination and Resynthesis. 7th International Conference on Digital Audio Effects, 2004.10.* *
Maximo Cobos, et al. Stereo to wave-field synthesis music up-mixing: An objective and subjective evaluation. 3rd International Symposium on Communications, Control and Signal Processing. 2008.03.12.* *

Also Published As

Publication number Publication date
US20170251319A1 (en) 2017-08-31
US9966081B2 (en) 2018-05-08
KR102617476B1 (ko) 2023-12-26

Similar Documents

Publication Publication Date Title
Pulkki et al. Parametric time-frequency domain spatial audio
EP3320692B1 (en) Spatial audio processing apparatus
JP6807029B2 (ja) 音源分離装置および方法、並びにプログラム
EP2965540B1 (en) Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
KR102617476B1 (ko) 분리 음원을 합성하는 장치 및 방법
EP2731359B1 (en) Audio processing device, method and program
US11943604B2 (en) Spatial audio processing
KR20200115731A (ko) 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
EP3133833B1 (en) Sound field reproduction apparatus, method and program
KR102123916B1 (ko) 직접-산란 분해
EP3440670B1 (en) Audio source separation
US9313598B2 (en) Method and apparatus for stereo to five channel upmix
WO2016011048A1 (en) Decomposing audio signals
KR102590887B1 (ko) 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
Delikaris-Manias et al. Parametric binaural rendering utilizing compact microphone arrays
Lluís et al. Direction specific ambisonics source separation with end-to-end deep learning
Hammond et al. Robust full-sphere binaural sound source localization
Hammond et al. Robust full-sphere binaural sound source localization using interaural and spectral cues
JP2005091560A (ja) 信号分離方法および信号分離装置
JP2018191255A (ja) 収音装置、その方法、及びプログラム
WO2017176968A1 (en) Audio source separation
Härmä Estimation of the energy ratio between primary and ambience components in stereo audio data
Kealey et al. Unsupervised Improved MVDR Beamforming for Sound Enhancement

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant