KR101375432B1 - 통합 음원 분리 방법 및 장치 - Google Patents

통합 음원 분리 방법 및 장치 Download PDF

Info

Publication number
KR101375432B1
KR101375432B1 KR1020100058463A KR20100058463A KR101375432B1 KR 101375432 B1 KR101375432 B1 KR 101375432B1 KR 1020100058463 A KR1020100058463 A KR 1020100058463A KR 20100058463 A KR20100058463 A KR 20100058463A KR 101375432 B1 KR101375432 B1 KR 101375432B1
Authority
KR
South Korea
Prior art keywords
sound source
information
sound
signal
extracting
Prior art date
Application number
KR1020100058463A
Other languages
English (en)
Other versions
KR20110138530A (ko
Inventor
김민제
장인선
백승권
이태진
강경옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100058463A priority Critical patent/KR101375432B1/ko
Priority to US13/076,623 priority patent/US20110311060A1/en
Publication of KR20110138530A publication Critical patent/KR20110138530A/ko
Application granted granted Critical
Publication of KR101375432B1 publication Critical patent/KR101375432B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 혼합 음악 신호에서 주요한 음원들을 분리 및 추출하는 통합적인 방법 및 시스템이 개시된다. 통합 음원 분리 시스템은 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리하는 제1 음원 분리부; 및 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 제2 음원 분리부를 포함한다.

Description

통합 음원 분리 방법 및 장치{METHOD AND SYSTEM FOR UNIFIED SOURCE SEPARATION }
본 발명은 음원 분리 시스템에 관한 것으로써, 보다 상세하게는 혼합 음악 신호에서 주요한 음원들을 분리 및 추출하는 통합적인 방법 및 시스템에 관한 것이다.
기술의 발달로 다양한 음원이 함께 녹음된 혼합 신호에서 특정 음원을 분리하는 방법이 개발되었다.
그러나, 종래의 음원 분리 기술은 신호가 혼합되는 환경의 모델에 기반하여 음원의 통계적 특성을 활용하여 음원을 분리하므로, 분리하고자 하는 음원 개수만큼의 혼합 신호를 요구하였다.
또한, 고유한 시간이나 주파수의 특징이 없는 음원은 해당 음원의 위치 정보를 사용하여 분리하였다. 그러나, 혼합 신호에서 각각의 음원은 다른 음원에 영향을 받으므로 다른 음원과의 거리에 따라 분리한 음원에도 다른 음원의 정보가 혼재될 수 있는 실정이었다.
따라서, 2개 이하의 혼합 신호만을 획득할 수 있는 반면, 음원의 개수는 그보다 많기 쉬운 상용 음악 신호에서는 특정 음원을 분리할 수 있으며, 위치 정보를 사용하여 음원을 분리하는 경우에도 다른 음원의 정보가 혼재되지 않도록 하는 방법이 필요한 실정이다.
본 발명의 일실시예는 각기 다른 방법을 사용하여 혼합 음악 신호로부터 음원을 분리함으로써 혼합 음악 신호에 포함되어 있는 다양한 음원을 보다 효율적으로 분리할 수 있는 방법 및 시스템을 제공한다.
본 발명의 일실시예에 따른 통합 음원 분리 시스템은 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리하는 제1 음원 분리부; 및 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 제2 음원 분리부를 포함한다.
본 발명의 일실시예에 따른 통합 음원 분리 방법은 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리하는 단계; 및 상기 제1 음원이 분리된 혼합 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 단계를 포함한다.
본 발명의 일실시예에 따르면, 각기 다른 방법을 사용하여 혼합 음악 신호로부터 음원을 분리함으로써 혼합 음악 신호에 포함되어 있는 다양한 음원을 보다 효율적으로 분리할 수 있는 효과가 있다.
또한, 본 발명의 일실시예에 따르면, 스테레오 채널 정보를 활용해서 음원을 분리하는 방식과 시간/주파수 영역의 특징을 이용해서 음원을 분리하는 방식을 결합하여 상기 방식들을 상호 보완할 수 있는 효과도 있다.
그리고, 본 발명의 일실시예에 따르면, 스테레오 채널 정보를 활용하여 음원을 분리하는 경우에 예측 범위 밖에 있는 음원 성분을 2차적으로 분리함으로써 음원의 음상 범위 예측 오류에 따른 문제점을 해소할 수 있는 효과도 있다.
도 1은 본 발명에 따른 통합 음원 분리 시스템의 구성을 도시한 도면이다.
도 2는 채널 정보를 사용한 음원 분리 방법에서 음상 분포를 실제보다 좁게 예측한 경우의 일례이다.
도 3은 채널 정보를 사용한 음원 분리 방법에서 음상 분포를 실제보다 넓게 예측한 경우의 일례이다.
도 4는 채널 정보를 사용한 음원 분리 방법에서 한 음원의 음상 분포가 다른 음원의 음상 분포와 혼재된 경우의 일례이다.
도 5는 본 발명에 따른 제2 음원 분리부와 후처리부의 구성을 도시한 도면이다.
도 6는 본 발명에 따른 후처리부의 다른 실시예를 도시한 도면이다.
도 7은 본 발명에 따른 후처리부가 오버랩(overlap) 구조를 형성하여 후처리 정보를 추출하는 과정을 도시한 도면이다.
도 8은 본 발명에 따른 후처리부가 동일 시간의 프레임 이외에 동일 시간 프레임의 전후 프레임을 사용하여 후처리 정보를 추출하는 과정을 도시한 도면이다.
도 9는 본 발명에 따른 통합 음원 분리 시스템의 다른 일례를 도시한 도면이다.
도 10은 본 발명에 따른 통합 음원 분리 방법의 일례를 도시한 순서도이다.
도 11은 본 발명에 따른 통합 음원 분리 방법의 다른 일례를 도시한 순서도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명에 따른 통합 음원 분리 시스템의 구성을 도시한 도면이다.
본 발명은 독립적으로 연주되고 있는 데이터베이스를 확보된 특정 음원과 스테레오 공간 상에서 특정 위치에 있는 음원이 복합된 혼합 음악 신호에서 상기 특정 음원과 특정 위치에 있는 음원을 각각 분리할 수 있다.
도 1을 참고하면, 통합 음원 분리 시스템은 제1 음원 분리부(110), 제2 음원 분리부(120), 후처리부(130) 및 결합부(140)로 구성된다. 이때, 도 1은 3개의 음원이 혼합된 혼합 음악 신호를 사용하는 경우의 일례이다.
제1 음원 분리부(110)은 혼합 음악 신호에서 시간/주파수 정보를 사용하여 음원을 분리한다. 이때, 혼합 음악 신호는 좌 채널 혼합 음악 신호와 우 채널 혼합 음악 신호로 구성될 수 있다.
구체적으로 제1 음원 분리부(110)는 시간과 주파수 영역의 특징을 사용하여 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리할 수 있다.
일례로, 제1 음원이 드럼과 같은 타악기의 경우에, 다른 드럼 세트를 통해 연주된 다양한 드럼 음원으로부터 획득한 타악기 음원의 공통적인 시간/주파수 영역 정보를 사용하여 혼합 음악 신호로부터 제1 음원을 분리할 수 있다.
또한, 제1 음원 분리부(110)는 타악기와 같은 특정 악기 음원만을 대상으로 하지는 않으며, 음원의 시간 영역에서의 특징 또는 주파수 영역에서의 특징을 활용하여 분리 가능한 모든 음원을 분리할 수 있다.
그리고, 제1 음원 분리부(110)는 도 1에 도시된 바와 같이 제1 음원을 분리하여 좌 채널의 복원 신호1과 우 채널의 복원 신호1을 생성할 수 있다.
이때, 제1 음원 분리부(110)는 도 1에 도시된 바와 같이 혼합 음악 신호에서 제1 음원을 제외한 좌 채널과 우 채널의 나머지 신호를 제2 음원 분리부(120)로 전송할 수 있다. 구체적으로, 제1 음원 분리부(110)는 제2 음원의 복원 신호2와 제3음원의 복원 신호3가 결합된 좌 채널 신호와 제2 음원의 복원 신호2와 제3음원의 복원 신호3가 결합된 우 채널신호를 제2 음원 분리부(120)로 전송할 수 있다.
제2 음원 분리부(120)는 제1 음원 분리부(110)에서 제1 음원이 분리되고 남은 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리한다. 이때, 제2 음원 분리부(120)는 혼합 음악 신호에서 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리할 수도 있다.
구체적으로, 제2 음원 분리부(120)는 분리하고자 하는 제2 음원의 음상 분포를 예측하고, 예측한 범위에 포함된 음원 성분을 제2 음원으로 분리할 수 있다.
이때, 제2 음원 분리부(120)는 제2 음원으로 분리한 복원 신호 2와 나머지 음원 정보인 복원 신호 3을 후처리부(130)로 전송할 수 있다. 이때, 제2 음원 분리부(120)는 복원 신호 2와 복원 신호 3을 좌 채널과 우 채널로 각각 구분하여 전송할 수 있다.
후처리부(130)는 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 후처리 정보로 추출한다. 이때, 나머지 음원 정보는 혼합 음악 신호, 또는 제1 음원이 분리되고 남은 음악 신호에서 제2 음원을 제외한 정보일 수 있다.
또한, 후처리부(130)는 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 제외하고 남은 정보를 제3 음원으로 판단하여 좌 채널과 우 채널의 복원 신호 3을 생성할 수 있다.
혼합 음악 신호가 도 2에 도시된 바와 같은 위치에 있는 메인 보컬 음원(210), 피아노 음원(220) 및 기타 음원(230)로 구성된 경우에 각각의 음원은 공간감을 위한 각종 사운드 효과가 더해져서, 음원의 성분이 지정된 위치를 중심으로 각도가 넓어질수록 약해지는 성분의 분포를 가지게 된다.
일례로 제2 음원 분리부(120)는 메인 보컬 음원(210)을 0°위치 정보를 기준으로 분리하는 경우에, 메인 보컬 음원의 음상 분포를 실제 음상 범위인 좌우 약 15°(211)보다 좁은 범위인 좌우 약 9°(212)로 예측할 수도 있다.
이때, 메인 보컬 음원의 성분 중 +9 ~ +15° 에 있는 음원의 성분(213)과, -9 ~ -15°에 있는 음원의 성분(214)은 분리되지 않고 남게 되므로, 분리 성능이 낮아 질 수 있다.
다른 일례로, 제2 음원 분리부(120)가 도 3에 도시된 바와 같이 메인 보컬 음원의 예측 음상 범위를 실제 음상 범위(211)보다 더 넓은, 좌우 약 18°(311)로 예측할 수도 있다.
이때, +15 ~ +17°의 영역(312)과 -15 ~ -17° 사이의 영역(313)에는 메인 보컬 음원(210)의 성분이 없으므로 다른 음원의 성분(313)이 메인 보컬 음원(210)에 포함되어 분리될 수도 있다.
또한, 메인 보컬 음원(210)과 피아노 음원(220)처럼, 가까운 거리에 음원이 있는 경우에는 스테레오 음상 내에서 특정 부분에 각 음원의 성분들이 혼재될 수도 있다. 일례로, -20°를 중심으로 -7 ~ -34°까지 넓게 분포하고 있는 피아노 음원(220)의 성분은, -7 ~ -15°구간에서 메인 보컬 음원(210)의 성분과 혼재될 수 있다.
이 경우에, 제2 음원 분리부(120)가 도 4에 도시된 바와 같이 메인 보컬 음원(210)의 예측 음상 범위를 실제 음상 범위(211)와 동일한 좌우 약 15°(411)로 예측하여 메인 보컬 음원(210)을 분리하더라도, 분리된 메인 보컬 음원(210)에는 -7 ~ -15°구간(412)에 포함된 피아노 음원(220)의 성분이 포함될 수 있다.
이때, 본 발명에 따른 제2 음원 분리부(120)와 후처리부(130)는 도 2와 같은 경우를 방지함으로써 도 3과 도 4와 같은 경우로 인한 분리 성능 저하를 방지할 수 있다. 구체적으로 제2 음원 분리부(120)는 도 2와 같이 예측 음상 범위를 좁게 예측하여 제2 음원을 분리하고, 후처리부(130)가 음원의 성분(213)과, 음원의 성분(214)를 나머지 음원 정보에서 추가적으로 분리함으로써 제2 음원에 다른 음원 정보가 포함되는 것을 방지할 수 있다.
제2 음원 분리부(120)와 후처리부(130)의 상세 구성과 동작은 이하 도 5를 사용하여 상세히 설명한다.
결합부(130)는 제2 음원 분리부(120)에서 분리된 제 2음원에 후처리부(130)에서 추출한 잔여 성분을 결합하여 제2 음원의 음질을 개선할 수 있다.
이때, 제2 음원 분리부(120)에서 분리된 제 2음원은 후처리가 되기 전의 복원 신호2이고, 후처리부(130)에서 추출한 잔여 성분은 복원 신호2의 후처리 정보일 수 있다. 구체적으로, 결합부(130)는 후처리 전의 복원 신호2에 후처리 정보를 결합하여 음질이 향상된 복원신호 2를 생성할 수 있다.
도 5는 본 발명에 따른 제2 음원 분리부와 후처리부의 구성을 도시한 도면이다.
본 발명에 따른 제2 음원 분리부(120)는 도 4에 도시된 바와 같이 분포 영역 예측부(511)와 음원 분리부(512)를 포함할 수 있다.
이때, 분포 영역 예측부(511)는 도 2에 도시된 바와 같이 분리할 목표 음원인 제2 음원의 음상 분포를 다른 음원 성분이 포함될 가능성을 최소화하는 범위로 예측할 수 있다.
또한, 음원 분리부(512)는 분포 영역 예측부(511)에서 예측한 음상 분포에 따라 혼합 음악 신호, 또는 제1 음원이 분리되고 남은 음악 신호에서 제2 음원을 분리하여 복원 신호를 생성할 수 있다. 이때, 생성되는 복원 신호는 제2 음원의 모든 성분을 포함하지 않은 불완전한 복원 신호이지만 혼합 음악 신호보다는 제2 음원의 성분을 더 많이 포함하고 있을 수 있다.
또한, 음원 분리부(512)는 제2 음원 분리부(120)가 수신한 신호에서 복원 신호를 분리하고 남은 정보인 나머지 음원 정보의 좌 채널 신호와 우 채널 신호를 각각 좌 채널 잔여 성분 추출부(522)와 우 채널 잔여 성분 추출부(523)로 전송할 수 있다. 이때, 나머지 음원 정보는 제2 음원의 잔여 성분과, 제2 음원과는 다른 음원의 성분을 포함할 수 있다.
본 발명에 따른 후 처리부(130)는 부가 정보 추출부(521)과 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)를 포함할 수 있다.
부가 정보 추출부(521)는 음원 분리부(512)에서 생성된 복원 신호에서 잔여 성분 추출에 필요한 부가 정보를 추출할 수 있다.
이때, 부가 정보는 배음 정보 또는 주파수 패턴 정보일 수 있다.
일례로, 부가 정보 추출부(521)는 복원 신호에서 일정 시간 간격 또는 프레임 마다 음정(pitch) 정보를 추출하고, 음정 정보를 기초로 제2 음원의 배음(harmonics) 정보를 추정하며, 추정한 배음 정보를 부가 정보로 추출할 수 있다.
좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 부가 정보 추출부(521)가 추출한 부가 정보를 사용하여 나머지 음원 정보로부터 제2 음원의 잔여 성분을 추출할 수 있다. 이때, 추출된 잔여 성분은 결합부(140)에서 복원 신호와 결합하여 제2 음원이 될 수 있다.
이 때 추출된 잔여 성분은, 부가 정보 추출부(521)에서 추정한 제2 음원의 배음 정보가 잔여 성분에도 동일하게 적용될 수 있다는 가정을 기반으로, 잔여 성분이 실제로 존재하는 특정 프레임의 주파수 위치를 추정할 수 있다. 추정된 주파수 위치에 존재할 수 있는 잔여 성분은 마스킹(masking) 기법 또는 추가적인 검출 과정을 통해 선별적으로 추출되어 제2 음원의 잔여 성분을 복원할 수 있다.
도 6는 본 발명에 따른 후처리부의 다른 실시예를 도시한 도면이다.
도 6은 음정 정보를 사용하여 제2 음원을 분리하는 후처리부(130)의 구성이다.
이때, 후처리부(130)는 음정/배음 추정부(610), 마스크 생성부(620), 시간 주파수 영역 변환부(630), 잔여 음원 추출부(640), 결합부(650) 및 시간 주파수 영역 역변환부(660)를 포함할 수 있다.
음정/배음 추정부(610)는 먼저 복원 신호에서 음정(pitch) 정보를 추출하고, 추출한 음정 정보를 기초로 일정 시간 간격 또는 프레임 마다 제2 음원의 배음(harmonics) 정보를 추정할 수 있다.
마스크 생성부(620)는 음정/배음 추정부(610)에서 배음 정보를 추정한 위치에 마스크를 생성할 수 있다. 구체적으로 마스크 생성부(620)는 음정/배음 추정부(610)에서 배음 정보를 추정한 프레임 또는 시간에 마스크를 생성할 수 있다.
시간 주파수 영역 변환부(630)는 나머지 음원 정보의 좌 채널 신호와 우 채널 신호를 수신하여 시간- 주파수 영역으로 변환할 수 있다. 이때, 시간 주파수 영역 변환부(630)는 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)와 같은 정보를 수신할 수 있다.
또한, 시간 주파수 영역 변환부(630)는 시간- 주파수 영역으로 변환한 나머지 음원 정보의 좌 채널 신호와 우 채널 신호를 결합부(140)과 잔여 음원 추출부(640)로 전송할 수 있다.
잔여 음원 추출부(640)는 마스크 생성부(620)에서 생성된 마스크의 위치를 기초로 시간- 주파수 영역으로 변환한 나머지 음원 정보의 좌 채널 신호와 우 채널 신호에서 잔여 음원 성분을 추출할 수 있다.
구체적으로 마스크가 생성된 프레임이나 시간에서의 음원 성분을 잔여 음원 성분으로 추출할 수 있다.
이때, 결합부(650)는 잔여 음원 추출부(640)에서 추출된 잔여 음원 성분을 나머지 음원 정보의 좌 채널 신호와 우 채널 신호와 결합할 수 있다.
또한, 시간 주파수 영역 역변환부(660)는 결합부(140)에서 결합된 신호를 시간- 주파수 영역에서 역변환함으로써 제2 음원의 잔여 성분을 추출할 수 있다.
좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)가 각각 나머지 음원 정보의 좌 채널 신호와 우 채널 신호에 STFT(Short Time Fourier Transform)를 수행하여 생성한 프레임 x는 하기된 수학식 1로 표현될 수 있다.
Figure 112010039610936-pat00001
이때, a C는 나머지 신호의 한 프레임 x 내에 포함된 목표 음원의 주파수 성분을 나타내는 벡터이고, a Ix내에 포함된 나머지 음원 정보의 주파수 성분을 나타내는 벡터일 수 있다.
또한, aC의 해당 scalar 가중치 값인 sC 과 aI 의 해당 scalar 가중치 값인 sI는 비음성 행렬의 부분적 공동 분해(NMPCF: Nonnegative Matrix Partial Co-Factorization)학습 규칙을 통해 계산할 수 있다.
구체적으로. 시간-주파수 영역에서의 복원 신호와 나머지 음원 정보의 주파수 성분이 각각
Figure 112010039610936-pat00002
,
Figure 112010039610936-pat00003
인 경우에 상기 주파수 성분들은 하기 수학식 2와 같이 엔티티(entity) 행렬의 릴레이션쉽(relationship)으로 표현될 수 있다.
Figure 112010039610936-pat00004
이때, 엔티티 행렬인
Figure 112010039610936-pat00005
는 모두 음이 아닌 실수로 이루어진 행렬이며, 이 중 행렬 U는 2개의 릴레이션쉽인
Figure 112010039610936-pat00006
,
Figure 112010039610936-pat00007
에 모두 포함되기 때문에 공유되어서 표현될 수 있다.
또한, 복원 신호인
Figure 112010039610936-pat00008
은 엔티티 행렬 U와 Z의 릴레이션쉽으로 이루어질 수 있다. 그리고, U의 열 벡터는 임의의 주파수 영역 특성이고, Z의 해당 열 벡터는 주파수 영역 특성이 시간 영역에서 표현되는 위치 및 강도일 수 있다.
그리고, 나머지 음원 정보인
Figure 112010039610936-pat00009
에 포함되어 있는 엔티티 행렬의 곱인
Figure 112010039610936-pat00010
Figure 112010039610936-pat00011
에서 사용되었던 것과 동일한 주파수 영역의 특성 행렬 U를 공유함으로써, 분리 대상이 되는 음원의 주파수 영역 특성이
Figure 112010039610936-pat00012
에 어떤 식으로 포함되어 있는지를 표현할 수 있다.
이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 NMPCF 방식에 따라 복원 신호와 상관없는 엔티티 행렬 W와 Y를 정의함으로써, 분리 대상이 되는 음원이 아닌 나머지 음원들이 혼합 음악 신호를 구성하는 상황 역시 동시에 모델링 할 수 있다.
이때, 나머지 신호
Figure 112010039610936-pat00013
는 분리 대상 신호를 표현하는 엔티티 행렬의 릴레이션쉽과 나머지 악기들을 표현하는 엔티티 행렬의 릴레이션쉽의 합으로 구성될 수 있다.
따라서, 이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)에서 사용되는 최적화 대상 함수는 수학식 3과 같을 수 있다.
Figure 112010039610936-pat00014
이때, 가중치 파라미터
Figure 112010039610936-pat00015
는 두 번째 항과 첫 번째 항 사이의 가중치를 나타낼 수 있다.
다른 일례로, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 나머지 음원 정보를 주파수 영역으로 변환하여 주파수 벡터를 생성하고, 주파수 벡터를 도 7에 도시된 바와 같이 복수의 서브 밴드로 분할하여 오버랩(overlap) 구조를 형성할 수 있다.
이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 서브 밴드에 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분(720)을 추출할 수 있다.
이때, 서브 밴드에 입력되는 신호는 하기 수학식 4를 만족할 수 있다.
Figure 112010039610936-pat00016
이때, 특정 서브 밴드에 입력되는 신호인 x'(n)(710)은, 주파수 부분 벡터x(n)에 대하여 윈도우 연산이 수행된 이후의 부분 벡터일 수 있다. 이때, 주파수 부분 벡터 x(n)는 해당 프레임의 주파수 벡터를 기 설정된 개수인 N 만큼의 서브밴드로 중첩해서 나눈 경우의 n번째 서브밴드일 수 있다. 또한, 윈도우 연산은 overlap-and-add 수행 후에 그 에너지 및 오차가 상쇄될 수 있는 연상일 수 있다. 일례로, 윈도우 연산은 sin 제곱 함수일 수 있다. 이때, aI(N) sI(N)(730)는 제2 음원이 아닌 다른 음원의 성분일 수 있다.
일례로, 1024 개의 주파수 샘플 값으로 변환된 하나의 프레임 x에 대해, 128 샘플 길이의 서브밴드 분할을 수행하는 경우, 50%의 overlap을 가정하면, 하나의 서브밴드 범위는 128 샘플이 되며, 각 서브밴드 간 간격은 64샘플이 된다.
따라서 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 도합 N=15개의 서브밴드 별 연산을 수행하게 된다.
이때, 서브밴드 n의 주파수 벡터 x(n)은 256 샘플 길이의 윈도우 연산을 통해 x'(n)을 도출할 수 있다.
또한, 윈도우 연산은, n-1 번째 윈도우의 오른쪽 중첩 부분과, n 번째 윈도우의 왼쪽 중첩 부분이 더해지는 경우(711)에 1의 값을 가지도록 함으로써, 윈도우 중첩으로 인한 에너지 변화가 없도록 하는 윈도우를 사용할 수 있다.
이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 중첩되지 않는 부분을 가지는 x(1)의 왼쪽 윈도우(712)와 x(N)의 오른쪽 윈도우(713)가 모두 1의 값을 가지도록 함으로써 해당 부분의 윈도우 효과를 없앨 수 있다.
본 발명에 따른 후처리부(130)는 나머지 음원 정보에 포함된 제2 음원의 잔여 성분을 2차적으로 분리하는 과정에 서브밴드 구조를 사용하여 비교 범위를 전 대역에서 일부 대역으로 감소시킴으로써 제2 음원의 잔여 성분의 유사성을 높일 수 있다. 이때, 본 발명에 따른 후처리부(130)는 잔여 성분의 유사성을 높임으로써 용이하게 목표 음원을 분리 할 수 있다.
또한, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 스테레오 채널 정보를 이용한 음원 분리 신호를 aC(n)으로 활용함에 있어서, 입력 프레임 x와 동일한 시간 시점의 프레임만을 사용하지 않고, 전후로 복수 개의 프레임을 추가적으로 활용함으로써, 유사성을 높일 수도 있다.
구체적으로, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 복원 신호의 주파수 패턴 정보 중에 나머지 음원 정보와 동일 프레임, 이전 프레임, 및 다음 프레임의 주파수 패턴 정보를 사용하여 나머지 음원 정보에서 제2 음원의 잔여 성분을 추출할 수 있다.
이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)에 입력되는 신호 x(n)(810)은 하기 수학식 5를 만족할 수 있다.
Figure 112010039610936-pat00017
이때, AC(n) sC(n)(820)는 제2 음원의 잔여 성분이고, aI(n) sI(n)(830)는 제2 음원이 아닌 다른 음원의 성분일 수 있다.
또한, AC(n)는 도 8에 도시된 바와 같이 동일 시점의 단일 프레임 정보 aC(n)(822)와 추가적인 주파수 벡터(821, 823)들을 포함한 행렬일 수 있다. 이때, 주파수 벡터(821)는 이전 프레임의 주파수 벡터이고, 주파수 벡터(823)은 다음 프레임의 주파수 벡터일 수 있다.
이때, 가중치 값 sC(n) 는, 복수 개의 부가 정보 주파수 벡터에 대응하기 위해 그 개수만큼의 요소를 가지는 벡터로 전환된다. 일례로, 도 7에 도시된 바와 같이 3 개의 프레임으로부터 주파수 벡터를 활용하는 경우, sC(n) 는 3X1 벡터가 될 수 있다.
그리고, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 각각 나머지 신호의 좌 채널 신호와 우 채널 신호의 기 설정된 길이의 프레임에 STFT를 사용하여 주파수 벡터 x(n)를 형성할 수 있다. 이때, n은 특정 서브밴드의 인덱스이고, 서브밴드 개수에 따라 1에서 N까지의 값을 가질 수 있다.
이때, 수학식 5에서 인덱스 n 값을 생략하면, x는 하기 수학식 6과 같이 제2 음원의 인접 프레임의 주파수 성분과 나머지 음원의 주파수 성분의 가중치 합으로 표현할 수 있다.
Figure 112010039610936-pat00018
이때, 상기 수학식 6의 모델에 따른 최적화 대상함수는 하기 수학식 7과 같이 구성될 수 있다.
Figure 112010039610936-pat00019
이때, 상기 수학식 7에 대한 업데이트 규칙은 NMPCF의 업데이트 규칙인 수학식 8을 사용할 수 있다.
Figure 112010039610936-pat00020
이때, 수학식 7에서 사용하는 변수의 이름이 수학식 8과는 다르므로
Figure 112010039610936-pat00021
,
Figure 112010039610936-pat00022
,
Figure 112010039610936-pat00023
,
Figure 112010039610936-pat00024
,
Figure 112010039610936-pat00025
로 변환할 수 있다.
또한, 수학식 7은 U의 초기값을 고정시키고, 사전 정보
Figure 112010039610936-pat00026
에 대한 오차 항이 필요 없으므로 수학식 8의 업데이트 규칙 중에서, U와
Figure 112010039610936-pat00027
에 해당하는 업데이트는 수행하지 않을 수 있다.
따라서, 수학식 7에 대한 업데이트 규칙은 하기 수학식 9과 같이 정리될 수 있다.
Figure 112010039610936-pat00028
이때, 음이 아닌 임의의 실수로 초기화된 각각의 entity 행렬 W,Y,Z는 더 이상의 유의미한 변화가 없을 때까지 상기 수학식 9를 통해 업데이트될 수 있다. 또한, 스테레오 채널 정보를 이용한 음원 분리 결과물을 통해 초기화된 행렬 U는 업데이트되지 않을 수 있다.
본 발명에 따른 후처리부(130)는 동일 시점 프레임을 기준으로 전후에 위치한 복수 개의 프레임을 추가적으로 활용하여 잔여 성분을 추출함으로써, 반향 필터 등을 통해 목표 음원에 지연이 발생하는 효과가 발생한 경우, 목표 음원의 음상 위치 주변에 목표 음원 성분이 지연과 함께 흩어지는 경우에도 잔영 성분을 효과적으로 추출할 수 있다.
도 9는 본 발명에 따른 통합 음원 분리 시스템의 다른 일례를 도시한 도면이다.
도 9는 고유한 시간과 주파수 영역의 특징을 가지는 N개의 음원과 특정 스테레오 음상 위치에 존재하는 M개의 음원으로 구성된 혼합 음악 신호를 분리하기 위한 통합 음원 분리 시스템의 구성이다.
이때, 통합 음원 분리 시스템은 N개의 고유한 시간과 주파수 영역의 특징을 가지는 음원을 분리하기 위하여 각각의 음원의 고유 시간/주파수 정보를 사용하여 음원을 분리할 수 있는 음원 분리부들(910,920,930)를 포함할 수 있다. 이하에서 나머지 신호는 음원 분리부에서 입력 받은 신호에서 하나의 음원을 분리하고 남은 신호이다.
구체적으로 시간/주파수 정보를 사용하는 음원 분리부1(910)는 혼합 음악 신호에서 기 저장된 고유 시간/주파수 정보로 하나의 음원을 분리하여 복원 신호 1을 생성하고, 나머지 신호를 각각 좌 채널(911)과 우 채널(912)로 구분하여 시간/주파수 정보를 사용하는 음원 분리부2(920)로 전송할 수 있다.
다음으로 시간/주파수 정보를 사용하는 음원 분리부2(920)는 수신한 나머지 신호에서 기 저장된 고유 시간/주파수 정보로 하나의 음원을 분리하여 복원 신호 2를 생성하고, 나머지 신호를 각각 좌 채널(921)과 우 채널(922)로 구분하여 다른 시간/주파수 정보를 사용하는 음원 분리부로 전송할 수 있다.
통합 음원 분리 시스템은 상기 과정을 반복하여 복원 신호1 내지 복원 신호 N을 분리할 수 있으며, 시간/주파수 정보를 사용하는 음원 분리부 N(930)은 M개의 제2 음원으로 구성된 나머지 신호를 각각 좌 채널(931)과 우 채널(932)로 구분하여 스테레오 채널 정보를 이용하는 음원 분리부(940)로 전송할 수 있다.
이때, 통합 음원 분리 시스템의 제2 음원 분리부는 M개의 제2 음원을 분리하기 위하여 각각의 제2 음원의 스테레오 정보를 사용하여 제2 음원을 분리할 수 있는 음원 분리부들(940,870)를 포함할 수 있다.
스테레오 채널 정보를 이용하는 음원 분리부1(940)은 스테레오 정보를 기초로 하나의 음원을 분리하여 복원 신호 N+1(941)을 생성하고, 좌 채널의 나머지 신호(942) 및 우 채널의 나머지 신호(943)와 함께 후처리부1(950)에 전송할 수 있다.
이때, 후처리부1(950)은 복원 신호 N+1(941)의 정보를 기초로 좌 채널의 나머지 신호(942)에서 좌 채널의 잔여 신호(951)를 분리하고, 우 채널의 나머지 신호(943)에서 우 채널의 잔여 신호(952)를 분리하여 결합부(960)로 전송할 수 있다.
또한, 후처리부1(950)는 좌 채널의 잔여 신호(951)가 분리된 우 채널의 나머지 신호(953)와 우 채널의 잔여 신호(952)가 분리된 우 채널의 나머지 신호(954)를 다음 스테레오 채널 정보를 이용하는 음원 분리부2(970)로 전송할 수 있다.
이때, 결합부(960)는 복원 신호 N+1(941)와 좌 채널의 잔여 신호(951) 및 우 채널의 잔여 신호(952)를 결합하여 완전한 복원 신호 N+1를 생성할 수 있다.
다음으로 통합 음원 분리 시스템은 스테레오 채널 정보를 이용하는 음원 분리부2(970)와 후처리부2(980) 내지 스테레오 채널 정보를 이용하는 음원 분리부M과 후처리부M에서 상기 과정을 반복하여 복원 신호 N+2 내지 복원 신호 N+M을 분리할 수 있다.
도 10은 본 발명에 따른 통합 음원 분리 방법의 일례를 도시한 순서도이다.
도 10은는 3개의 음원을 포함하는 혼합 음악 신호를 본 발명에 따른 통합 음원 분리 방법에 따라 분리하는 과정의 순서도이다.
단계(S1010)에서 제1 음원 분리부(110)는 혼합 음악 신호에서 시간과 주파수 영역의 특징을 사용하여 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리한다.
단계(S1020)에서 제2 음원 분리부(120)는 단계(S1010)에서 제1 음원이 분리되고 남은 혼합 음악 신호에서 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리한다.
단계(S1030)에서 후처리부(130)는 단계(S1020)에서 분리된 제2 음원을 사용하여 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 후처리 정보로 추출한다. 나머지 음원 정보는 단계(S1020)에서 제2 음원이 분리되고 남은 신호일 수 있다.
단계(S1040)에서 결합부(140)는 단계(S1020)에서 분리된 제2 음원에 단계(S1030)에서 추출한 후처리 정보를 결합하여 완전한 제2 음원을 복원한다. 이때, 단계(S1020)에서 분리된 제2 음원은 후처리 전 정보일 수 있다.
도 11은 본 발명에 따른 통합 음원 분리 방법의 다른 일례를 도시한 순서도이다.
도 11은 고유한 시간과 주파수 영역의 특징을 가지는 복수의 음원과 특정 스테레오 음상 위치에 존재하는 복수의 음원으로 구성된 혼합 음악 신호를 본 발명에 따른 통합 음원 분리 방법에 따라 분리하는 과정의 순서도이다.
단계(S1110)에서 제1 음원 분리부(110)는 혼합 음악 신호에서 시간과 주파수 영역의 특징을 사용하여 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리한다.
단계(S1120)에서 제1 음원 분리부(110)는 혼합 음악 신호 중에 시간과 주파수 영역의 특징을 사용하여 분리 가능한 음원이 더 있는지 여부를 확인한다.
이때, 혼합 음악 신호에 포함된 시간과 주파수 영역의 특징을 사용하여 분리 가능한 음원의 수가 기 설정되어 있고, 상기 음원의 수에 대응하는 숫자의 시간/주파수 정보를 사용하는 음원 분리부가 제1 음원 분리부(110)에 포함된 경우에 제1 음원 분리부(110)는 혼합 음악 신호가 통과하지 않은 시간/주파수 정보를 사용하는 음원 분리부가 있는지 여부를 확인할 수도 있다.
단계(S1130)에서 제2 음원 분리부(120)는 단계(S1110)에서 제1 음원이 분리되고 남은 혼합 음악 신호에서 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리한다.
단계(S1140)에서 후처리부(130)는 단계(S1130)에서 분리된 제2 음원을 사용하여 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 후처리 정보로 추출한다. 나머지 음원 정보는 단계(S1130)에서 제2 음원이 분리되고 남은 신호일 수 있다.
단계(S1150)에서 결합부(140)는 단계(S1130)에서 분리된 제2 음원에 단계(S1140)에서 추출한 후처리 정보를 결합하여 완전한 제2 음원을 복원한다. 이때, 단계(S1130)에서 분리된 제2 음원은 후처리 전 정보일 수 있다.
단계(S1160)에서 제2 음원 분리부(110)는 혼합 음악 신호에서 모든 음원이 분리되었는지 여부를 확인한다.
이때, 혼합 음악 신호에 포함된 스테레오 채널 정보를 사용하여 분리 가능한 음원의 수가 기 설정되어 있고, 상기 음원의 수에 대응하는 숫자의 스테레오 채널 정보를 이용하는 음원 분리부, 후처리부가 각각 제2 음원 분리부(120)와 후처리부(130)에 포함된 경우에 제2 음원 분리부(120)는 혼합 음악 신호가 통과하지 않은 스테레오 채널 정보를 이용하는 음원 분리부가 있는지 여부를 확인할 수도 있다.
본 발명은 각기 다른 방법을 사용하여 혼합 음악 신호로부터 음원을 분리함으로써 혼합 음악 신호에 포함되어 있는 다양한 음원을 보다 효율적으로 분리할 수 있다.
또한, 스테레오 채널 정보를 활용해서 음원을 분리하는 방식과 시간/주파수 영역의 특징을 이용해서 음원을 분리하는 방식을 결합하여 상기 방식들을 상호 보완할 수 있다.
그리고, 스테레오 채널 정보를 활용하여 음원을 분리하는 경우에 예측 범위 밖에 있는 음원 성분을 2차적으로 분리함으로써 음원의 음상 범위 예측 오류에 따른 문제점을 해소할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110: 제1 음원 분리부
120: 제2 음원 분리부
130: 후처리부

Claims (19)

  1. 제1 음원의 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 제1 음원을 분리하는 제1 음원 분리부;
    스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 제2 음원 분리부;
    상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 후처리 정보로 추출하는 후처리부; 및
    상기 제 2음원과 상기 후처리 정보를 결합하여 상기 제2 음원의 음질을 개선하는 결합부
    를 포함하고,
    상기 제2 음원의 잔여 성분은,
    상기 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 분리되지 않은 제2 음원의 성분인 것을 특징으로 하는 통합 음원 분리 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 제2 음원 분리부는,
    분리할 목표 음원인 제2 음원의 음상 분포를 실제 음상 범위보다 좁은 범위로 예측하는 분포 영역 예측부; 및
    상기 분포 영역 예측부에서 예측한 음상 분포에 따라 상기 혼합 음악 신호에서 상기 제2 음원을 분리하여 복원 신호를 생성하는 음원 분리부
    를 포함하는 통합 음원 분리 시스템.
  4. 제3항에 있어서,
    상기 후 처리부는,
    상기 복원 신호에서 부가 정보를 추출하는 부가 정보 추출부; 및
    상기 부가 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호로부터 상기 제2 음원의 잔여 성분을 추출하는 잔여 성분 추출부
    를 포함하는 통합 음원 분리 시스템.
  5. 제4항에 있어서,
    상기 부가 정보 추출부는,
    상기 복원 신호에서 일정 시간 간격으로 음정(pitch) 정보를 추출하고, 상기 음정 정보를 기초로 상기 제2 음원의 특정 시점에서의 배음(harmonics)를 상기 부가 정보로 추출하는 것을 특징으로 하는 통합 음원 분리 시스템
  6. 제5항에 있어서,
    상기 부가 정보 추출부는,
    추출된 상기 음정 및 배음 정보를 기초로 상기 제 2음원의 잔여 성분을 추가적으로 더 분리하는 것을 특징으로 하는 통합 음원 분리 시스템
  7. 제4항에 있어서,
    상기 부가 정보 추출부는,
    상기 복원 신호의 주파수 패턴 정보를 부가 정보로 추출하고,
    상기 잔여 성분 추출부는,
    상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하고, 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 것
    을 특징으로 하는 통합 음원 분리 시스템.
  8. 제7항에 있어서,
    상기 잔여 성분 추출부는,
    상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하여 주파수 벡터를 생성하고,
    상기 주파수 벡터를 복수의 서브 밴드로 분할하여 오버랩(overlap) 구조를 형성하며,
    상기 서브 밴드에 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 것
    을 특징으로 하는 통합 음원 분리 시스템.
  9. 제7항에 있어서,
    상기 잔여 성분 추출부는,
    복원 신호의 주파수 패턴 정보 중에 상기 제2 음원이 분리된 혼합 음악 신호와 동일 프레임, 이전 프레임, 및 다음 프레임의 주파수 패턴 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 추출하는 것
    을 특징으로 하는 통합 음원 분리 시스템.
  10. 제1항에 있어서,
    상기 제1 음원 분리부는,
    분리하고자 하는 상기 제1 음원의 숫자와 종류에 따라 각기 다른 복수의 음원 분리부를 포함하는 것
    을 특징으로 하는 통합 음원 분리 시스템.
  11. 제1항에 있어서,
    상기 제2 음원 분리부는,
    상기 제1 음원 분리부에서 상기 제1 음원이 분리되고 남은 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 것
    을 특징으로 하는 통합 음원 분리 시스템.
  12. 제1 음원의 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 제1 음원을 분리하는 단계; 및
    상기 제1 음원이 분리된 혼합 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 단계;
    상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 후처리 정보로 추출하는 단계; 및
    상기 제 2음원과 상기 후처리 정보를 결합하여 상기 제2 음원의 음질을 개선하는 단계
    를 포함하고,
    상기 제2 음원의 잔여 성분은,
    상기 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 분리되지 않은 제2 음원의 성분인 것을 특징으로 하는 통합 음원 분리 방법.
  13. 삭제
  14. 제12항에 있어서,
    상기 제2 음원을 분리하는 단계는,
    상기 제2 음원의 음상 분포를 실제 음상 범위보다 좁은 범위로 예측하는 단계; 및
    상기 예측하는 단계에서 예측한 음상 분포에 따라 상기 제1 음원이 분리된 혼합 음악 신호에서 상기 제2 음원을 분리하여 복원 신호를 생성하는 단계
    를 포함하는 통합 음원 분리 방법.
  15. 제14항에 있어서,
    상기 후처리 정보로 추출하는 단계는,
    상기 복원 신호에서 부가 정보를 추출하는 단계; 및
    상기 부가 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호로부터 상기 제2 음원의 잔여 성분을 추출하는 단계
    를 포함하는 통합 음원 분리 방법.
  16. 제15항에 있어서,
    상기 부가 정보를 추출하는 단계는,
    상기 복원 신호에서 일정 시간 간격으로 음정(pitch) 정보를 추출하는 단계;
    상기 음정 정보를 기초로 상기 제2 음원의 특정 시점에서의 배음(harmonics)를 추정하는 단계; 및
    상기 제2 음원의 특정 시점에서의 음정 및 배음을 상기 부가 정보로 추출하는 단계
    를 포함하는 통합 음원 분리 방법
  17. 제15항에 있어서,
    상기 부가 정보를 추출하는 단계는,
    상기 복원 신호의 주파수 패턴 정보를 부가 정보로 추출하고,
    상기 잔여 성분을 추출하는 단계는,
    상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하는 단계; 및
    상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 단계
    를 포함하는 통합 음원 분리 방법.
  18. 제17항에 있어서,
    상기 잔여 성분을 추출하는 단계는,
    상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하여 주파수 벡터를 생성하는 단계;
    상기 주파수 벡터를 복수의 서브 밴드로 분할하여 오버랩(overlap) 구조를 형성하는 단계; 및
    상기 서브 밴드에 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 단계
    를 포함하는 통합 음원 분리 방법.
  19. 제17항에 있어서,
    상기 잔여 성분을 추출하는 단계는,
    복원 신호의 주파수 패턴 정보 중에 상기 제2 음원이 분리된 혼합 음악 신호와 동일 프레임, 이전 프레임, 및 다음 프레임의 주파수 패턴 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 추출하는 것
    을 특징으로 하는 통합 음원 분리 방법.
KR1020100058463A 2010-06-21 2010-06-21 통합 음원 분리 방법 및 장치 KR101375432B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100058463A KR101375432B1 (ko) 2010-06-21 2010-06-21 통합 음원 분리 방법 및 장치
US13/076,623 US20110311060A1 (en) 2010-06-21 2011-03-31 Method and system for separating unified sound source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100058463A KR101375432B1 (ko) 2010-06-21 2010-06-21 통합 음원 분리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110138530A KR20110138530A (ko) 2011-12-28
KR101375432B1 true KR101375432B1 (ko) 2014-03-17

Family

ID=45328689

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100058463A KR101375432B1 (ko) 2010-06-21 2010-06-21 통합 음원 분리 방법 및 장치

Country Status (2)

Country Link
US (1) US20110311060A1 (ko)
KR (1) KR101375432B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
EP3127115B1 (en) * 2014-03-31 2019-07-17 Sony Corporation Method and apparatus for generating audio content
KR101641645B1 (ko) * 2014-06-11 2016-07-22 전자부품연구원 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템
KR101648931B1 (ko) * 2014-12-22 2016-08-17 라인플러스 주식회사 리듬 게임 제작 방법, 장치 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
KR102556098B1 (ko) * 2017-11-24 2023-07-18 한국전자통신연구원 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
US10977007B2 (en) 2018-12-05 2021-04-13 Electronics And Telecommunications Research Institute Apparatus and method for executing function

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060015389A (ko) * 2004-08-14 2006-02-17 삼성전자주식회사 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
KR20090131237A (ko) * 2008-06-17 2009-12-28 한국전자통신연구원 공간 필터링을 이용한 오디오 채널 분리 장치 및 그 방법
US20100131086A1 (en) * 2007-04-13 2010-05-27 Kyoto University Sound source separation system, sound source separation method, and computer program for sound source separation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4580210B2 (ja) * 2004-10-19 2010-11-10 ソニー株式会社 音声信号処理装置および音声信号処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060015389A (ko) * 2004-08-14 2006-02-17 삼성전자주식회사 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
US20100131086A1 (en) * 2007-04-13 2010-05-27 Kyoto University Sound source separation system, sound source separation method, and computer program for sound source separation
KR20090131237A (ko) * 2008-06-17 2009-12-28 한국전자통신연구원 공간 필터링을 이용한 오디오 채널 분리 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문(DAFX)_2004.10 *

Also Published As

Publication number Publication date
US20110311060A1 (en) 2011-12-22
KR20110138530A (ko) 2011-12-28

Similar Documents

Publication Publication Date Title
KR101375432B1 (ko) 통합 음원 분리 방법 및 장치
Stoller et al. Wave-u-net: A multi-scale neural network for end-to-end audio source separation
Wilson et al. Regularized non-negative matrix factorization with temporal dependencies for speech denoising.
Fitzgerald Harmonic/percussive separation using median filtering
US9812150B2 (en) Methods and systems for improved signal decomposition
Sekiguchi et al. Fast multichannel source separation based on jointly diagonalizable spatial covariance matrices
Graciarena et al. All for one: feature combination for highly channel-degraded speech activity detection.
KR101280253B1 (ko) 음원 분리 방법 및 그 장치
Canadas-Quesada et al. Percussive/harmonic sound separation by non-negative matrix factorization with smoothness/sparseness constraints
Liu et al. Deep CASA for talker-independent monaural speech separation
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
Kırbız et al. Perceptually enhanced blind single-channel music source separation by non-negative matrix factorization
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
Manilow et al. Predicting algorithm efficacy for adaptive multi-cue source separation
Şimşekli et al. Score guided audio restoration via generalised coupled tensor factorisation
Zhang et al. Complex ratio masking for singing voice separation
Wu et al. Self-supervised speech denoising using only noisy audio signals
Pons et al. Gass: Generalizing audio source separation with large-scale data
Watcharasupat et al. A generalized bandsplit neural network for cinematic audio source separation
Ben Messaoud et al. Sparse representations for single channel speech enhancement based on voiced/unvoiced classification
Kırbız et al. Perceptually weighted non-negative matrix factorization for blind single-channel music source separation
CN110060699A (zh) 一种基于深度稀疏展开的单信道语音分离方法
KR101621718B1 (ko) 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법
Becker et al. NMF with spectral and temporal continuity criteria for monaural sound source separation
Lee et al. Discriminative training of complex-valued deep recurrent neural network for singing voice separation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee