KR102250624B1 - 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 - Google Patents

스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 Download PDF

Info

Publication number
KR102250624B1
KR102250624B1 KR1020187029671A KR20187029671A KR102250624B1 KR 102250624 B1 KR102250624 B1 KR 102250624B1 KR 1020187029671 A KR1020187029671 A KR 1020187029671A KR 20187029671 A KR20187029671 A KR 20187029671A KR 102250624 B1 KR102250624 B1 KR 102250624B1
Authority
KR
South Korea
Prior art keywords
frequency
time
frequency bin
bin
change
Prior art date
Application number
KR1020187029671A
Other languages
English (en)
Other versions
KR20180121995A (ko
Inventor
안드레아스 니더마이더
리차드 푸에그
사스카 디쉬
마이너 뮐러
조나단 드리저
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180121995A publication Critical patent/KR20180121995A/ko
Application granted granted Critical
Publication of KR102250624B1 publication Critical patent/KR102250624B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/221Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

오디오 신호의 크기 스펙트로그램을 분석하기 위한 장치가 제공된다. 이 장치는 오디오 신호의 크기 스펙트로그램에 따라 오디오 신호의 크기 스펙트로그램의 복수의 시간-주파수 빈(bin)들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성된 주파수 변화 결정기(110)를 포함한다. 또한, 장치는 상기 시간-주파수 빈에 대해 결정된 주파수의 변화에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성된 분류기(120)를 포함한다.

Description

스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법
본 발명은 오디오 신호 프로세싱에 관한 것으로, 특히, 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법에 관한 것이다.
사운드를 고조파 및 퍼커시브 성분으로 분리할 수 있는 것은 많은 애플리케이션들에서 효과적인 전처리 단계이다.
"고조파-퍼커시브(-잔여) 분리"는 통상적인 용어이지만, 기본 주파수의 정수배의 주파수를 갖는 정현파들을 갖는 고조파 구조를 의미하기 때문에 오해의 소지가 있다. 정확한 용어는 "음조-퍼커시브-(잔여) 분리"이어야 함에도 불구하고, "음조" 대신 용어 및 "고조파"가 더 쉬운 이해를 위해 다음에 사용된다.
예를 들어, 음악 레코딩의 분리된 퍼커시브 성분을 사용하는 것은 비트 추적([1] 참조), 리듬 분석 및 리듬 악기들의 편곡에 대한 품질 개선을 도출할 수 있다. 분리된 고조파 성분은 피치 악기들 및 코드 검출의 편곡에 적합하다([3] 참조). 또한, 고조파-퍼커시브 분리는 2개의 신호 성분들 둘 모두 사이에서 레벨 비율을 변경하는 것과 같은 리믹스 목적들을 위해 사용될 수 있고([4] 참조), 이는 "더 부드러운" 또는 "더 효과적인" 전체 사운드 인식을 도출한다.
고조파-퍼커시브 사운드 분리를 위한 일부 방법들은 고조파 사운드가 입력 신호의 크기 스펙트로그램에서 (시간 방향에서) 수평 구조를 갖는 한편 퍼커시브 사운드들이 (주파수 방향에서) 수직 구조들로 나타난다는 가정에 의존한다. Ono 등은 시간/주파수 방향에서의 확산에 의해 고조파/퍼커시브 강화된 스펙트로그램을 먼저 생성하는 방법을 제시하였다([5] 참조). 이후에 이러한 강화된 표현들을 비교함으로써 사운드가 고조파인지 또는 퍼커시브인지 여부가 유도될 수 있다.
유사한 방법이 Fitzgerald에 의해 공표되었는데, 여기서 확산 대신에 수직 방향들에서 중앙 필터링을 사용하여 강화된 스펙트로그램이 계산되었으며([6] 참조), 이는 계산 복잡도를 감소시키면서 유사한 결과들을 도출한다.
작은 세트의 파라미터들을 사용하여 각각의 신호 성분들을 설명하려는 목적의 프레임워크가 사인 + 과도부 + 잡음(S + T + N) 신호 모델([7], [8], [9] 참조)에 의해 영향받는다. 그 다음, Fitzgerald의 방법은 [10]에서 고조파-퍼커시브-잔영(HPR) 분리로 확장되었다. 오디오 신호들은 종종 명확하게 고조파도 퍼커시브도 아닌 사운드들로 구성되기 때문에, 이러한 절차는 제3의 잔여 성분에서 이러한 사운드들을 캡처한다. 이러한 잔여 신호들 중 일부는 분명히 (예를 들어, 잡음과 같은) 등방성, 즉 수평도 아니고 수직도 아닌 구조를 갖지만, 명확한 수평 구조를 갖지 않지만 그럼에도 불구하고 음조 정보를 전달하고 사운드의 고조파 부분으로 인식될 수 있는 사운드들이 존재한다. 예는, 바이올린 연주 또는 보컬의 레코딩에서 발생할 수 있는 것과 같은 주파수 변조 음조들이며, 이들은 "비브라토"를 갖는 것으로 지칭된다. 수평 또는 수직 구조를 인식하는 전략으로 인해 앞서 언급한 방법들은 항상 이들의 고조파 성분에서 이러한 사운드들을 캡처할 수 있는 것은 아니다.
고조파 성분에서 비-수평 스펙트럼 구조들을 갖는 고조파 사운드들을 포착할 수 있는 음수가 아닌 행렬 인수분해에 기초한 고조파-퍼커시브 분리 절차가 [11]에 제안되었다. 그러나, 이는 제3 잔여 성분을 포함하지 않았다.
위의 내용을 요약하면, 최근의 방법들은 스펙트로그램 표현에서 고조파 사운드가 수평 구조들을 도출하고 퍼커시브 사운드들이 수직 구조를 도출하는 관찰에 의존한다. 또한, 이러한 방법들은 수평도 수직도 아닌 구조들(즉, 비-고조파, 비-퍼커시브 사운드들)을 잔여 카테고리로 연관시킨다. 그러나, 이러한 가정은 변동하는 스펙트럼 구조들을 나타내지만 그럼에도 불구하고 음조 정보를 전달하는 주파수 변조된 음조들과 같은 신호들에 대해서는 유지되지 않는다.
이미지 프로세싱([12], [13] 참조)에 사용되는 도구인 텐서는 에지 및 코너 검출([14] 참조)을 위한 그레이 스케일 이미지들에 또는 객체의 배향을 추정하기 위해 적용된다. 구조 텐서는 오디오 프로세싱에서 전처리 및 특징부 추출에 이미 사용되어 왔다([15], [16] 참조).
본 발명의 목적은 오디오 신호 프로세싱을 위한 개선된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 제1항에 따른 장치, 청구항 제16항에 따른 방법 및 청구항 제17항에 따른 컴퓨터 프로그램에 의해 해결된다.
오디오 신호의 크기 스펙트로그램을 분석하기 위한 장치가 제공된다. 이 장치는 오디오 신호의 크기 스펙트로그램에 따라 오디오 신호의 크기 스펙트로그램의 복수의 시간-주파수 빈(bin)들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성된 주파수 변화 결정기를 포함한다. 또한, 장치는 상기 시간-주파수 빈에 대해 결정된 주파수의 변화에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성된 분류기를 포함한다.
또한, 오디오 신호의 크기 스펙트로그램을 분석하기 위한 방법이 제공된다. 방법은,
오디오 신호의 크기 스펙트로그램에 따라 오디오 신호의 크기 스펙트로그램의 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하는 단계. 및:
상기 시간-주파수 빈에 대해 결정된 주파수의 변화에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하는 단계를 포함한다.
또한, 컴퓨터 프로그램이 제공되며, 여기서 컴퓨터 프로그램은 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 앞서 설명된 방법을 구현하도록 구성된다.
이하, 도면들을 참조하여 본 발명의 실시예들이 더 상세히 설명된다.
도 1은 일 실시예에 따라 오디오 신호의 크기 스펙트로그램을 분석하기 위한 장치를 예시한다.
도 2는 일 실시예에 따른 영역에서 확대된 노래하는 음성, 캐스터네츠 및 박수의 혼합에 대한 스펙트로그램을 예시하며, 화살표들의 배향은 방향을 표시하고, 화살표들의 길이는 이방성 측정을 표시한다.
도 3은 일 실시예에 따른 구조 텐서를 사용함으로써 컴퓨팅된 배향/이방성 값들의 범위를 예시한다.
도 4는 합성 입력 신호의 발췌를 위한 HPR-M 및 HPR-ST 방법 사이의 비교를 예시한다.
도 5는 일 실시예에 따른 장치를 예시하며, 장치는 신호 생성기를 포함한다.
도 6은 일 실시예에 따른 장치를 예시하며, 장치는 오디오 신호를 레코딩하기 위한 하나 이상의 마이크로폰들을 포함한다.
도 1은 실시예들에 따라 오디오 신호의 크기 스펙트로그램을 분석하기 위한 장치를 예시한다.
장치는 주파수 변화 결정기(110)를 포함한다. 주파수 변화 결정기(110)는 오디오 신호의 크기 스펙트로그램에 따라 오디오 신호의 크기 스펙트로그램의 복수의 시간-주파수 빈(bin)들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성된다.
또한, 장치는 분류기(120)를 포함한다. 분류기(120)는 상기 시간-주파수 빈에 대해 결정된 주파수의 변화에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성된다.
일 실시예에 따르면, 주파수 변화 결정기(110)는 예를 들어 상기 시간-주파수 빈에 대한 각도 α(b, k)에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성될 수 있다. 상기 시간-주파수 빈에 대한 각도 α(b, k)는 오디오 신호의 크기 스펙트로그램에 의존한다.
일 실시예에서, 주파수 변화 결정기(110)는 예를 들어, 오디오 신호의 샘플링 주파수 fs에 추가로 의존하여 그리고 분석 윈도우의 길이 N에 따라 그리고 분석 윈도우의 홉(hop) 크기 H에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성될 수 있다.
일 실시예에 따르면, 장치의 주파수 변화 결정기(110)는 하기 공식
Figure 112018101031841-pct00001
에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성되고, (b, k)는 복수의 시간-주파수 빈들의 시간-주파수 빈을 표시하고, R(b, k)는 상기 시간-주파수 빈 (b, k)에 대한 주파수의 변화를 표시하고, b는 시간을 표시하고, k는 주파수를 표시하고, fs는 오디오 신호의 샘플링 주파수를 표시하고, N은 분석 윈도우의 길이를 표시하고, H는 분석 윈도우의 홉 크기를 표시하고, α(b, k)는 상기 시간-주파수 빈 (b, k)에 대한 각도를 표시하고, 각도 α(b, k)는 크기 스펙트로그램에 의존한다.
일 실시예에서, 주파수 변화 결정기(110)는 예를 들어 시간 인덱스에 대한 오디오 신호의 크기 스펙트로그램 S의 편미분 S b를 결정하도록 구성될 수 있다. 이러한 실시예에서, 주파수 변화 결정기(110)는 예를 들어 시간 인덱스에 대한 오디오 신호의 크기 스펙트로그램 S의 편미분 S k를 결정하도록 구성될 수 있다.
또한, 이러한 실시예에서, 주파수 변화 결정기(110)는, 시간 인덱스에 대한 오디오 신호의 크기 스펙트로그램 S의 편미분 S b에 따라 그리고 주파수 인덱스에 대한 오디오 신호의 크기 스펙트로그램 S의 편미분 S k에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대한 구조 텐서 T(b, k)를 결정하도록 구성된다.
또한, 이러한 실시예에서, 주파수 변화 결정기(110)는 예를 들어 상기 시간-주파수 빈 (b, k)에 대한 구조 텐서 T(b, k)에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대한 각도 α(b, k)를 결정하도록 구성될 수 있다.
일 실시예에 따르면, 주파수 변화 결정기(110)는 예를 들어, 상기 시간-주파수 빈(b, k)의 구조 텐서(T(b, k))의 2개의 성분들 ν1(b, k) 및 ν2(b, k) 및 고유벡터 ν(b, k)를 결정함으로써 그리고
Figure 112018101031841-pct00002
에 따라 상기 시간-주파수 빈((b, k))에 대한 각도(α(b, k))를 결정함으로써 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대한 각도 α(b, k)를 결정하도록 구성될 수 있고,
α(b, k)는 상기 시간-주파수 빈 ((b, k))에 대한 각도를 표시하고, b는 시간을 표시하고, k는 주파수를 표시하고, atan()는 역 탄젠트 함수를 표시한다.
일 실시예에서, 분류기(120)는 예를 들어 공식들
Figure 112018101031841-pct00003
Figure 112018101031841-pct00004
중 적어도 하나에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대한 이방성의 측정을 결정하도록 구성될 수 있고,
μ(b, k)는 제1 고유값이고 λ(b, k)는 상기 시간-주파수 빈 (b, k)의 구조 텐서 (T(b, k))의 제2 고유값이고,
Figure 112018101031841-pct00005
이다.
이러한 실시예에서, 분류기(120)는 예를 들어, 이방성의 측정의 변화에 추가로 의존하여 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성될 수 있다.
일 실시예에 따르면, 분류기(120)는, 예를 들어, 하기 공식
Figure 112018101031841-pct00006
에 따라 상기 시간-주파수 빈 (b, k)에 대한 이방성의 측정을 결정하도록 구성될 수 있고,
C(b, k)는 상기 시간-주파수 빈 (b, k)에 의존하는 이방성의 측정이고, 분류기(120)는, 이방성의 측정 C(b, k)가 제1 임계치 값 c보다 작으면, 상기 시간-주파수 빈 (b, k)을 둘 이상의 신호 성분 그룹들의 잔여 성분 그룹에 할당하도록 구성되거나, 또는 분류기(120)는, 이방성의 측정 C(b, k)가 제1 임계치 값 c보다 작거나 동일하면, 상기 시간-주파수 빈 (b, k)을 둘 이상의 신호 성분 그룹들의 잔여 성분 그룹에 할당하도록 구성되고,
Figure 112018101031841-pct00007
이다.
일 실시예에서, 분류기(120)는 예를 들어, 상기 시간-주파수 빈 (b, k)에 대해 결정된 주파수의 변화 R(b, k)에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성될 수 있어서, 분류기(120)는 상기 시간-주파수 빈 (b, k)에 대해 결정된 주파수의 변화 R(b, k)의 절대값
Figure 112018101031841-pct00008
이 제2 임계치 값 rh보다 작은지 여부에 따라, 또는 상기 시간-주파수 빈 (b, k)에 대해 결정된 주파수의 변화 R(b, k)의 절대값
Figure 112018101031841-pct00009
이 제2 임계치 값 rh보다 작거나 또는 동일한지 여부에 따라 복수의 시간-주파수 빈들의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 고조파 신호 성분 그룹에 할당하고, 여기서
Figure 112018101031841-pct00010
이다.
일 실시예에 따르면, 분류기(120)는 예를 들어, 상기 시간-주파수 빈 (b, k)에 대해 결정된 주파수의 변화 R(b, k)에 따라 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성될 수 있어서, 분류기(120)는 상기 시간-주파수 빈 (b, k)에 대해 결정된 주파수의 변화 R(b, k)의 절대값
Figure 112018101031841-pct00011
이 제3 임계치 값 rp보다 큰지 여부에 따라, 또는 상기 시간-주파수 빈 (b, k)에 대해 결정된 주파수의 변화 (R(b, k))의 절대값
Figure 112018101031841-pct00012
이 제3 임계치 값 rp보다 크거나 또는 동일한지 여부에 따라 복수의 시간-주파수 빈들의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 퍼커시브 신호 성분 그룹에 할당하고, 여기서 rp
Figure 112018101031841-pct00013
이다.
다음으로, 실시예들의 상세한 설명이 제공된다.
실시예들은 구조 텐서에 기초하여 고조파-퍼커시브-잔여(HPR) 사운드 분리에 대한 개선된 개념들을 제공한다. 일부 실시예들은 구조 텐서에 의해 제공된 스펙트럼 구조들의 배향에 대한 정보를 이용함으로써 고조파 성분에서 음조 정보를 유지하는 주파수 변조된 사운드들을 캡처한다.
일부 실시예들은, 이러한 신호들에 대해 수평 및 수직으로의 엄격한 분류가 부적절하고 잔여 성분으로 음조 정보가 누설되는 것을 초래할 수 있다는 발견에 기초한다. 실시예들은 크기 스펙트로그램에서 우세한 배향 각도들을 계산하기 위해 수학적 도구인 구조 텐서를 대신 사용하는 신규한 방법에 관한 것이다. 실시예들은 주파수 변조된 신호들의 경우에도 고조파, 퍼커시브 및 잔여 신호 성분들 사이를 구별하기 위해 이러한 배향 정보를 이용한다. 마지막으로, 객관적인 평가 측정들 뿐만 아니라 오디오 예시들 둘 모두를 통해 실시예들의 개념의 효율성이 검증된다.
또한, 일부 실시예들은 구조 텐서가 블랙 박스로 고려될 수 있다는 발견에 기초하며, 여기서 입력은 그레이 스케일 이미지이고 출력들은 가장 낮은 변화의 방향에 대응하는 각각의 픽셀에 대한 각도들 n 및 각각의 픽셀에 대해 이러한 방향에 대한 확실성 또는 이방성 측정이다. 구조 텐서는 추가적으로 평활화될 가능성을 제공하여, 향상된 견고성에 대한 잡음의 영향을 감소시킨다. 또한, 확실성 측정은 추정된 각도들의 품질을 결정하기 위해 사용될 수 있다. 이러한 확실성 측정의 낮은 값은 픽셀이 임의의 명확한 방향 없이 일정한 밝기 영역에 놓여 있음을 표시한다.
로컬 주파수 변화는 예를 들어, 구조 텐서에 의해 획득된 각도들로부터 추출될 수 있다. 이러한 각도들로부터, 스펙트로그램의 시간-주파수-빈이 고조파(= 낮은 로컬 주파수 변화)에 속하는지 또는 퍼커시브(= 높은 또는 무한 로컬 주파수 변화) 성분에 속하는지 여부가 결정될 수 있다.
고조파-퍼커시브-잔여 분류 및 분리에 대한 개선된 실시예들이 제공된다.
고조파-퍼커시브-잔여 사운드 분리는 피치 악기 편곡 또는 리듬 추출과 같은 애플리케이션들에 대한 유용한 전처리 도구이다. 엄격하게 수평 및 수직 구조들만을 탐색하는 대신에, 일부 실시예들은 이미지 프로세싱으로부터 공지된 구조 텐서를 사용함으로써 스펙트로그램에서 지배적인 배향 각도들 뿐만 아니라 로컬 이방성을 결정한다.
그 다음, 실시예들에서, 스펙트럼 구조들의 배향에 대해 제공된 정보는 적절한 임계치들을 설정함으로써 고조파, 퍼커시브 및 잔여 신호 성분들 사이를 구별하기 위해 사용될 수 있으며, 도 2를 참조한다.
도 2는 구조 텐서에 의해 획득된 방향(화살표들의 배향) 및 이방성 측정(화살표들의 길이)을 추가로 나타내는 영역에서 확대된 노래하는 음성, 캐스터네츠 및 박수의 혼합에 대한 스펙트로그램을 예시한다. 화살표들의 색상은, 배향 및 이방성 정보에 기초하여 각각의 시간-주파수 빈이 고조파 성분(영역(210))에 할당되는지, 퍼커시브 성분(영역(230))에 할당되는지 또는 잔여 성분(영역(220))에 할당되는지 여부를 표시한다.
높지도 낮지도 않은 로컬 주파수 변화 레이트를 갖는 모든 빈들 또는 일정한 영역을 표시하는 확실성 측정이 잔여 성분에 속하도록 할당되었다. 이러한 스펙트로그램의 분리에 대한 예는 도 2에서 볼 수 있다. 실시예들은 주파수 변조된 사운드들을 포함하는 오디오 신호들에 대해 크기 스펙트로그램에서 작동하는 유사한 방법들보다 더 양호하게 수행한다.
처음에, 구조 텐서의 개념이 설명되고, 이러한 일반적인 개념은 오디오 프로세싱의 맥락에서 적용가능하도록 확장된다.
다음으로, 표기의 편의를 위해 행렬들 및 벡터들은 굵은 글자들로 기재된다. 또한, 특정 엘리먼트를 인덱싱하기 위해
Figure 112018101031841-pct00014
연산자가 사용된다. 이러한 경우, 행렬 또는 벡터는 이의 스칼라 사용을 나타내기 위해 굵지 않은 글자로 기재된다.
먼저, 실시예들에 따른 스펙트로그램의 계산이 설명된다. 오디오 신호는 (이산적) 입력 오디오 신호일 수 있다.
구조 텐서는 fs의 샘플링 주파수로 이산적 입력 오디오 신호의 스펙트로그램 표현
Figure 112018101031841-pct00015
에 적용될 수 있다. x의 스펙트럼 분석의 경우, 단시간 푸리에 변환(STFT)
Figure 112018101031841-pct00016
(1)
이 사용되고, 여기서
Figure 112018101031841-pct00017
이고, b는 프레임 인덱스를 표시하고, k는 주파수 인덱스이고
Figure 112018101031841-pct00018
는 길이 N의 윈도우 함수이다(즉, N은 분석 윈도우의 길이이다).
Figure 112018101031841-pct00019
은 윈도우의 분석 윈도우 홉 크기를 표현한다. STFT 스펙트럼이
Figure 112018101031841-pct00020
에서 나이퀴스트(Nyquist) 포인트를 중심으로 특정 대칭성을 갖기 때문에, 프로세싱은 예를 들어
Figure 112018101031841-pct00021
으로 제한될 수 있는데, 이는 역 STFT 동안 대칭성이 재구성될 수 있기 때문이다.
상기 공식 (1)을 사용함으로써, 스펙트로그램이 획득될 수 있다. 스펙트로그램은 복수의 스펙트럼들을 포함하고, 복수의 스펙트럼들은 시간에서 서로 연속한다. 복수의 스펙트럼들 중 제2 스펙트럼은, 제2 스펙트럼을 생성하기 위해 사용되고 제1 스펙트럼을 생성하기 위해 사용되지 않으며 제1 스펙트럼을 생성하기 위해 사용되는 제1 시간 도메인 샘플들보다 나중의 시점을 지칭하는 시간 도메인 샘플들인 적어도 어떠한 제2 시간 도메인이 존재하면, 시간에서 제1 스펙트럼에 후속한다. 시간에서 이웃하는 스펙트럼들을 생성하기 위해 사용되는 시간 도메인 샘플들의 윈도우들은, 예를 들어 중첩할 수 있다.
실시예들에서, 분석 윈도우 길이 N은, 예를 들어 다음과 같이 정의될 수 있다:
256개 샘플들 ≤ N ≤ 2048개 샘플들.
일부 실시예들에서, 분석 윈도우 길이는 예를 들어 2048일 수 있다. 다른 실시예들에서, 분석 윈도우 길이는 예를 들어 1024개 샘플들일 수 있다. 추가적 실시예들에서, 분석 윈도우 길이는 예를 들어 768개 샘플들일 수 있다. 또한 추가적 실시예들에서, 분석 윈도우 길이는 예를 들어 256개 샘플들일 수 있다.
실시예들에서, 분석 홉 크기 H는 예를 들어 분석 윈도우의 25% 내지 75% 범위에 있을 수 있다. 이러한 실시예들에서:
0.25 N ≤ H ≤ 0.75 N.
따라서, 이러한 실시예들에서, 분석 윈도우가 예를 들어, 2048개의 샘플들을 가지면(N = 2048), 분석 홉 크기는 예를 들어,
512개 샘플들 ≤ H ≤ 1536개 샘플들의 범위에 있을 수 있다.
분석 윈도우가 예를 들어, 256개의 샘플들을 가지면(N = 256), 분석 홉 크기는 예를 들어,
64개 샘플들 ≤ H ≤ 192개 샘플들의 범위에 있을 수 있다.
바람직한 실시예들에서, 분석 홉 크기는 예를 들어 분석 윈도우의 50 %일 수 있다. 이는 50 %의 2개의 후속 분석 윈도우들의 윈도우 중첩에 대응한다.
일부 실시예들에서, 분석 홉 크기는 예를 들어 분석 윈도우의 25 %일 수 있다. 이는 75 %의 2개의 후속 분석 윈도우들의 윈도우 중첩에 대응한다.
다른 실시예들에서, 분석 홉 크기는 예를 들어 분석 윈도우의 75 %일 수 있다. 이는 25 %의 2개의 후속 분석 윈도우들의 윈도우 중첩에 대응한다.
본 발명의 개념들은 MDCT(Modified Discrete Cosine Transform), MDST(Modified Discrete Sine Transform), DSTFT(Discrete Short-Time Fourier Transform) 등과 같은 임의의 종류의 시간 도메인 대 스펙트럼 도메인 변환에 적용가능함을 주목해야 한다.
실수 값의 로그 스펙트로그램은 예를 들어,
Figure 112018101031841-pct00022
(2)
로서 계산될 수 있다.
오디오 신호의 크기 스펙트로그램은 S로 지칭될 수 있고, 시간-주파수 빈 (b, k)에 대한 크기 스펙트로그램의 값은 S(b, k)로 지칭될 수 있다.
다음으로, 실시예들에 따른 구조 텐서의 계산이 설명된다.
구조 텐서의 계산에 대해, S의 편미분들이 요구된다. 시간 인덱스 b에 대한 편미분은
Figure 112018101031841-pct00023
(3)
로 주어지는 한편, 주파수 인덱스 f에 대한 편미분은
Figure 112018101031841-pct00024
(4)
로 정의되며, d는 이산적 미분 연산자(예를 들어, 중심 차이들에 대해
Figure 112018101031841-pct00025
를 선택할 수 있음)이고, *는 2차원 콘벌루션을 표시한다.
또한,
Figure 112018101031841-pct00026
(5)
Figure 112018101031841-pct00027
(6)
Figure 112018101031841-pct00028
(7)
이 정의될 수 있으며, 여기서
Figure 112018101031841-pct00029
는 하다마드(Hadamard) 곱으로 또한 공지된 포인트별 행렬 곱셈이고, G는 시간 인덱스 방향에서 표준편차
Figure 112018101031841-pct00030
및 주파수 인덱스 방향에서 표준 편차
Figure 112018101031841-pct00031
를 갖는 2D 가우시안 평활화 필터이다. 그 다음, 구조 텐서 T(b, k)는 2×2 대칭적 및 양의 준-한정적 행렬에 의해 주어진다.
Figure 112018101031841-pct00032
(8)
구조 텐서는 위치 (b, k)에서 지배적인 배향에 대한 정보를 포함한다. 특수한 경우에, G가 스칼라인 경우, T(b, k)는 스펙트로그램의 이러한 위치에서의 그레디언트보다 많은 정보를 포함하지 않음을 주목해야 한다. 그러나 그레디언트와 달리 구조 텐서는 제거 효과 없이 G로 평활화될 수 있고, 이는 잡음에 대해 더 견고하게 한다.
구조 텐서 T(b, k)는 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대해 정의됨을 주목해야 한다. 따라서, 복수의 시간 주파수 빈들, 예를 들어, 시간-주파수 빈들
Figure 112018101031841-pct00033
이 고려되는 경우, 복수의 구조 텐서들
Figure 112018101031841-pct00034
이 존재한다. 예를 들어, 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대해, 하나의 구조 텐서 T(b, k)가 결정된다.
다음으로, 실시예들에 따른 각도들 및 이방성 측정의 계산이 설명된다.
구조 텐서 T(b, k)의 고유값들
Figure 112018101031841-pct00035
(여기서,
Figure 112018101031841-pct00036
) 및 대응하는 고유벡터들
Figure 112018101031841-pct00037
Figure 112018101031841-pct00038
를 계산함으로써 스펙트로그램의 각각의 빈에 대한 배향에 관한 정보가 획득된다. 더 작은 고유값 λ(b, k)에 대응하는 고유벡터 ν(b, k)는 인덱스 (b, k)에서 스펙트로그램의 가장 낮은 변화 방향을 포인팅하는 한편, w(b, k)는 가장 높은 변화 방향을 포인팅함을 주목해야 한다. 따라서, 특정 빈의 배향 각도는
Figure 112018101031841-pct00039
(9)
에 의해 획득될 수 있고,
ν1(b, k) 및 ν2(b, k)는 고유벡터 ν(b, k)의 성분들이다.
atan()는 역 탄젠트 함수를 표시한다.
또한, 이방성의 측정
Figure 112018101031841-pct00040
(10)
(여기서
Figure 112018101031841-pct00041
)이 각각의 빈에 대해 결정될 수 있다.
Figure 112018101031841-pct00042
임을 주목한다. 1에 가까운 C(b, k)의 값들은 인덱스 (b, k)에서 스펙트로그램의 높은 이방성을 표시하는 한편, 일정한 이웃은 0에 가까운 값들을 도출한다. 어느 것이 이방성으로 고려되어야 하는지에 대한 제한을 정의하는 임계치 e는 잡음에 대한 견고성을 추가로 증가시키도록 선택될 수 있다.
각도 α(b, k)의 물리적 의미는 시간 인터벌 Δt 동안 일시적 주파수의 변화 Δf를 갖는 연속적 신호를 고려함으로써 이해될 수 있다. 따라서, 일시적 주파수 변화 레이트 R은
Figure 112018101031841-pct00043
(11)
로 표시된다.
예를 들어, 실시예들에 따르면, 구조 텐서에 의해 획득된 각도들(도 2에서 화살표들의 방향으로 표시됨)은 스펙트로그램의 각각의 시간-주파수 빈에 대해, 예를 들어, 로컬 주파수 변화 레이트
Figure 112018101031841-pct00044
(11a)
로 해석될 수 있다.
각각의 시간-주파수 빈에 대한 주파수의 변화는 예를 들어, 일시적 주파수 변화 레이트로 지칭될 수 있다.
적용된 STFT 분석의 샘플 레이트, 길이 및 홉-크기를 고려하면, 스펙트로그램의 각도들과 각각의 빈에 대한 일시적 주파수 변화 레이트 R(b, k) 사이의 관계는 로 정의될 수 있다.
Figure 112018101031841-pct00045
(12)
또한, 이산적 도메인에서 평활화 필터 G의 표준 편차들
Figure 112018101031841-pct00046
Figure 112018101031841-pct00047
Figure 112018101031841-pct00048
(13)
에 의해 연속적인 물리적 파라미터들
Figure 112018101031841-pct00049
Figure 112018101031841-pct00050
로 변환될 수 있다.
다음으로 구조 텐서를 사용한 고조파-퍼커시브-잔여 분리가 설명된다.
구조 텐서를 통해 획득된 정보는 예를 들어, 스펙트로그램의 각각의 빈을 입력 신호의 고조파, 퍼커시브 또는 잔여 성분의 일부인 것으로 분류하기 위해, HPR 분리의 문제에 적용될 수 있다.
실시예들은, 고조파 성분들에 할당된 빈들이 오히려 수평 구조들에 속해야 하는 한편 오히려 수직 구조들에 속하는 빈들이 퍼커시브 성분에 할당되어야 한다는 발견에 기초한다. 또한, 어떠한 종류의 배향된 구조에도 속하지 않는 빈들은 잔여 성분에 할당되어야 한다.
실시예들에 따르면, 빈 (b, k)은 예를 들어, 하기 2개의 제약들 중 제1 제약을 충족하면 고조파 성분에 할당될 수 있다.
바람직한 실시예들에 따르면, 빈 (b, k)은 예를 들어, 하기 2개의 제약들 중 둘 모두를 충족하면 고조파 성분에 할당될 수 있다.
- 제1 제약은 예를 들어, 각도 α(b, k)의 절대값이 임계치 αh보다 작은(또는 동일한) 것일 수 있다. 임계치 αh는 예를 들어,
Figure 112018101031841-pct00051
범위일 수 있다. 이는, 빈이 αh보다 크거나 작은 기울기를 갖지 않는 어떠한 스펙트럼 구조의 일부이어야 함을 의미한다. 이러한 방식으로 또한 주파수 변조된 사운드들은 파라미터 αh에 따라 고조파 성분의 일부인 것으로 고려될 수 있다.
- 제2 제약은 예를 들어, 빈 (b, k)이 일부 지향된 이방성 구조의 일부이며 따라서 제2 임계치 c를 초과하는 것을 이방성의 측정 C(b, k)이 지원하는 것일 수 있다. 주어진 빈 (b, k)에 대해, 이방성의 각도 α(b, k) 및 측정 C(b, k)은 함께 극좌표에서 주어진
Figure 112018101031841-pct00052
의 포인트를 정의함을 주목해야 한다.
유사하게, 실시예들에서, 다른 각도 임계치 αp는 빈이 퍼커시브 성분에 할당되어야 하는 경우(도 3에서 수직 라인들을 갖는 영역들(330))를 정의하기 위해 할당된다.
따라서, 실시예들에 따르면, 빈 (b, k)은 예를 들어, 하기 2개의 제약들 중 제1 제약을 충족하면 퍼커시브 성분에 할당될 수 있다.
바람직한 실시예들에 따르면, 빈 (b, k)은 예를 들어, 하기 2개의 제약들 중 둘 모두를 충족하면 퍼커시브 성분에 할당될 수 있다.
- 제1 제약은 예를 들어, 각도 α(b, k)의 절대값이 임계치 αp보다 큰(또는 동일한) 것일 수 있다. 임계치 αp는 예를 들어, 범위
Figure 112018101031841-pct00053
일 수 있다. 이는, 빈이 αp보다 크거나 작은 기울기를 갖지 않는 어떠한 스펙트럼 구조의 일부이어야 함을 의미한다. 이러한 방식으로 또한 주파수 변조된 사운드들은 파라미터 αp에 따라 고조파 성분의 일부인 것으로 고려될 수 있다.
- 제2 제약은 예를 들어, 빈 (b, k)이 일부 지향된 이방성 구조의 일부이며 따라서 제2 임계치 c를 초과하는 것을 이방성의 측정 C(b, k)이 지원하는 것일 수 있다. 주어진 빈 (b, k)에 대해, 이방성의 각도 α(b, k) 및 측정 C(b, k)는 함께 극좌표에서 주어진
Figure 112018101031841-pct00054
의 포인트를 정의함을 주목해야 한다.
마지막으로, 실시예들에서, 고조파도 아니고 퍼커시브 성분도 아닌 것에 할당되는 모든 빈들은 예를 들어, 잔여 성분에 할당될 수 있다.
앞서 설명된 할당 프로세스는 고조파 성분에 대한 마스크 M h, 퍼커시브 성분에 대한 마스크 M p 및 잔여 성분에 대한 마스크 M r을 정의함으로써 표현될 수 있다.
임계치 αh 및 임계치 αp를 사용하는 대신에, 실시예들에서 임계치들은 예를 들어, 파라미터들의 선택에 더 양호한 물리적 해석을 제공하기 위해 최대 절대 주파수 변화 레이트
Figure 112018101031841-pct00055
(여기서
Figure 112018101031841-pct00056
)에 대해 정의될 수 있음을 주목해야 한다. 그 다음, 마스크들은 다음과 같이 주어진다.
Figure 112018101031841-pct00057
(14)
Figure 112018101031841-pct00058
(15)
Figure 112018101031841-pct00059
(16)
마지막으로, 고조파 성분 X h, 퍼커시브 성분 X p 및 잔여 성분 X r의 STFT가 획득된다.
Figure 112018101031841-pct00060
(17)
Figure 112018101031841-pct00061
(18)
Figure 112018101031841-pct00062
(19)
그 다음, 대응하는 시간 신호들이 역 STFT를 통해 계산될 수 있다.
도 3은 구조 텐서에 의해 컴퓨팅된 배향/이방성 값들의 범위를 예시한다.
특히, 도 3은 고조파 성분으로의 할당을 도출하는 모든 포인트들의 서브세트를 도시한다. 특히, 물결선들을 갖는 영역들(310)에서의 값들은 고조파 성분에 대한 할당을 도출한다.
수직 라인들을 갖는 영역들(330)에서의 값들은 퍼커시브 성분에 대한 할당을 도출한다.
점선 영역들(320)에서의 값들은 잔여 성분에 대한 할당을 도출한다.
임계치 αh는 도 3의 라인(301)을 정의하고, 임계치 αp는 도 3의 라인(302)을 정의한다.
도 5는 일 실시예에 따른 장치를 예시하며, 장치는 복수의 시간-주파수 빈들의 둘 이상의 신호 성분 그룹들로의 할당에 따라 오디오 출력 신호를 생성하도록 구성되는 신호 생성기(130)를 포함한다.
예를 들어, 신호 생성기는 상이한 신호 성분 그룹들의 시간-주파수 빈들의 크기 값들에 대해 상이한 가중치 팩터들을 적용함으로써 오디오 신호의 상이한 성분들을 필터링할 수 있다. 예를 들어, 고조파 신호 성분 그룹은 제1 가중치 팩터 wh를 가질 수 있고, 퍼커시브 신호 성분 그룹은 제2 가중치 팩터 wp를 가질 수 있고, 잔여 신호 성분 그룹은 제1 가중치 팩터 wr를 가질 수 있고, 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈의 크기 값은 예를 들어 신호 성분 그룹의 가중치 팩터로 가중될 수 있고, 시간-주파수 빈은 에 할당된다.
예를 들어, 고조파 신호 성분들을 강조하기 위해, 일 실시예에서, 가중치 팩터들이 선형 크기 값들과 곱해지는 경우,
wh = 1.3, wp = 0.7, 및 wr = 0.2
예를 들어, 고조파 신호 성분들을 강조하기 위해, 일 실시예에서, 가중치 팩터들이 로그 크기 값들에 추가되는 경우,
wh = +0.26, wp = -0.35, 및 wr = -1.61
예를 들어, 퍼커시브 신호 성분들을 강조하기 위해, 일 실시예에서, 가중치 팩터들이 선형 크기 값들과 곱해지는 경우,
wh = 0.7, wp = 1.3, 및 wr = 0.2
예를 들어, 퍼커시브 신호 성분들을 강조하기 위해, 일 실시예에서, 가중치 팩터들이 로그 크기 값들에 추가되는 경우,
wh = -0.35, wp = +0.26, 및 wr = -1.61
따라서, 신호 생성기(130)는 오디오 출력 신호를 획득하기 위해 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈의 크기 값에 가중치 팩터를 적용하도록 구성되며, 여기서 상기 시간-주파수 빈에 적용되는 가중치 팩터는 상기 시간-주파수 빈이 할당되는 신호 성분 그룹에 의존한다.
도 5의 특정 실시예에서, 신호 프로세서(130)는 예를 들어 둘 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 획득하기 위해 오디오 신호를 업믹싱하도록 구성된 업믹서일 수 있다. 예를 들어, 업믹서는 복수의 시간-주파수 빈들의 둘 이상의 신호 성분 그룹들로의 할당에 따라 둘 이상의 오디오 출력 채널들을 생성하도록 구성될 수 있다.
예를 들어, 둘 이상의 오디오 출력 채널들은 앞서 설명된 바와 같이 상이한 신호 성분 그룹들의 시간-주파수 빈들의 크기 값들에 대해 상이한 가중치 팩터들을 적용함으로써 오디오 신호의 상이한 성분들을 필터링하여 오디오 신호로부터 생성될 수 있다.
그러나, 상이한 오디오 채널을 생성하기 위해, 예를 들어 상이한 오디오 출력 채널들 각각에 대해 특정될 수 있는 신호 성분 그룹들에 대해 상이한 가중치들이 사용될 수 있다.
예를 들어, 제1 오디오 출력 채널에 대해, 로그 크기 값들에 추가될 가중치들은, 예를 들어,
w1h = +0.26, w1p = -0.35, 및 w1r = -1.61.
그리고 제2 오디오 출력 채널에 대해, 로그 크기 값들에 추가될 가중치들은, 예를 들어,
w2h = +0.35, w2p = -0.26, 및 w2r = -1.61.
예를 들어, 5개의 오디오 출력 채널, 즉, 정면 좌측, 중심, 우측, 좌측 서라운드 및 우측 서라운드를 획득하기 위해 오디오 신호를 업믹싱하는 경우,
- 고조파 가중치 팩터 w1h는, 좌측 서라운드 및 우측 서라운드 오디오 출력 채널들을 생성하기 위한 고조파 가중치 팩터 w2h에 비해 좌측, 중심 및 우측 오디오 출력 채널들을 생성하기 위해 더 클 수 있다.
- 퍼커시브 가중치 팩터 w1p는, 좌측 서라운드 및 우측 서라운드 오디오 출력 채널들을 생성하기 위한 퍼커시브 가중치 팩터 w2p에 비해 좌측, 중심 및 우측 오디오 출력 채널들을 생성하기 위해 더 작을 수 있다.
개별적인 가중치 팩터들은 생성될 각각의 오디오 출력 채널에 대해 사용될 수 있다.
도 6은 일 실시예에 따른 장치를 예시하며, 장치는 오디오 신호를 레코딩하기 위한 하나 이상의 마이크로폰들(171, 172)을 포함한다.
도 6에서, 제1 마이크로폰(171)은 오디오 신호의 제1 오디오 채널을 레코딩한다. 선택적인 제2 마이크로폰(172)은 오디오 신호의 선택적인 제2 오디오 신호를 레코딩한다.
또한, 도 6의 장치는, 제1 오디오 채널을 포함하고 선택적으로 선택적인 제2 오디오 채널을 포함하는 오디오 신호로부터 오디오 신호의 크기 스펙트로그램을 생성하기 위한 크기 스펙트로그램 생성기(180)를 더 포함한다. 오디오 신호로부터 크기 스펙트로그램을 생성하는 것은 당업자에게 널리 공지된 개념이다.
다음으로, 실시예들의 평가가 고려된다.
고조파 성분에서 주파수 변조된 사운드들을 캡처하는 실시예들의 유효성을 나타내기 위해, 실시예들에 따른 구조 텐서(HPR-ST)에 기초한 HPR 방법이 [10]에 제시된 중간값 필터링에 기초한 비-반복적 방법(HPR-M)과 비교된다. 추가적으로, 달성가능한 최대 분리 품질에 대한 기준으로서 사용되는 이상적인 바이너리 마스크들(IBM)을 사용하여 분리 결과들에 대한 메트릭이 또한 컴퓨팅된다.
HPR-ST 뿐만 아니라 HPR-M 둘 모두에 대해, 시스템 테스트 중 파라미터들을 고려하면, w에 대해 사인 윈도우를 사용하여 STFT 파라미터들은 fs = 22050Hz, N = 1024 및 H = 256으로 선택되었다. HPR-M에 대한 분리 파라미터들은 [10]에서 수행된 실험들에서와 같이 선택되었다. 실시예들에 따르면, 구조 텐서는 미분 연산자, 예를 들어, 이산적 미분 연산자 d로서 Scharr-Operator [17]를 사용하여 계산된다. 평활화는
Figure 112018101031841-pct00063
Figure 112018101031841-pct00064
을 도출하는 표준 편차들
Figure 112018101031841-pct00065
을 갖는 9×9 등방성 가우시안 필터를 사용하여 수행되었다. 마지막으로, 분리에 대한 임계치들은
Figure 112018101031841-pct00066
Figure 112018101031841-pct00067
로 설정되었다.
실시예들에 따라 rh 및 rp의 선택에 의해, 스펙트로그램의 매우 가파른 구조조차도 고조파 성분에 할당된다는 점을 주목해야 한다. 실시예들은 예를 들어 도 2에 도시된 바와 같이 실세계 비브라토 사운드들에 대한 관찰들을 이용한다. 여기서, 일부 경우들에서는 노래하는 음성의 비브라토가 매우 높은 일시적 주파수 변화 레이트를 가짐을 알 수 있다. 또한, rh = rp로 선택함으로써, 스펙트로그램에서 잔여 성분에 대한 빈의 할당은 순수하게 이방성 측정에 의존한다는 것을 주목해야 한다.
실시예들에 따른 HPR-ST의 유효성은, 객관적인 평가 측정들 뿐만 아니라 오브젝트 예들 둘 모두를 통해, [10]에서 제시된 최신 중간값 필터링 기반 방법 HPR-M에 비교함으로써 평가되었다.
주파수 변조된 사운드들을 포함하는 신호들에 적용되는 경우 실시예들에 따른 HPR-ST 및 종래 기술의 HPR-M의 거동을 비교하여 객관적인 결과들을 획득하기 위해, 2개의 테스트 항목들이 생성되었다.
테스트 항목 1은 순수하게 합성 사운드들의 중첩으로 구성된다. 고조파 소스는 1000Hz의 기본 주파수, 3Hz의 비브라토 주파수, 50Hz 및 4 오버톤들의 비브라토 범위를 갖는 비브라토 음조로 선택되었다. 퍼커시브 소스의 경우 몇몇 임펄스들이 사용되는 한편, 백색 잡음은 고조파 소스도 퍼커시브 잔여 소스도 표현하지 않는다.
테스트 항목 2는 노래하는 음성의 실세계 신호들을 비브라토(고조파), 캐스터네츠(퍼커시브) 및 박수(고조파도 퍼커시브도 아님)와 중첩함으로써 생성되었다.
이러한 항목들의 HPR 분리를 소스 분리 문제로서 해석하여, 표준 소스 분리 평가 메트릭([18]에서 소개된 바와 같이, 소스 대 왜곡 비 SDR, 소스 대 간섭 비 SIR 및 소스 대 아티팩트 비 SAR)이 두 절차들 모두의 분리 결과들에 대해 컴퓨팅되었다. 결과들은 표 1에 나타난다.
표 1은 객관적인 평가 측정들을 나타내고, 여기서 모든 값들은 dB 단위로 주어진다.
Figure 112018101031841-pct00068
표 1
항목 1의 경우 HPR-ST는 비브라토 음조에 대해 21.25dB의 SDR을 산출하고, 따라서 HPR-M의 분리 결과(11.51dB)보다 IBM의 최적 분리 결과(29.43dB)에 더 가깝다. 이는, HPR-ST가 고조파 성분에서 이러한 주파수 변조된 사운드를 캡처할 때 HPRM에 비해 개선됨을 표시한다. 이는 또한 도 4에 도시되어 있다.
도 4는 합성 입력 신호(항목 1)의 발췌를 위한 HPR-M 및 HPR-ST 방법 사이의 비교를 예시한다. 향상된 가시성을 위해, 분리 알고리즘들에 대해 사용된 것과 상이한 STFT 파라미터들을 사용하여 스펙트로그램들이 계산되었다.
도 4(a)는 시간에 대한 입력 신호의 주파수를 예시한다. 도 4에서, 고조파 성분들의 스펙트로그램들 및 절차들 둘 모두에 대해 컴퓨팅된 퍼커시브 및 잔여 성분의 합이 플로팅되어 있다. HPR-M에 대해 비브라토 음조의 가파른 기울기들은 잔여 성분으로 누설된 한편(도 4b 및 도 4c), HPR-ST(도 4d 및 도 4e)는 양호한 분리를 산출함을 알 수 있다. 이는 또한 HPR-ST에 비해 잔여 성분에 대한 HPRM의 매우 낮은 SIR 값들을 설명한다(-11.99dB 대 14.12dB).
고조파 성분에 대한 HPR-M의 높은 SIR 값은 비브라토의 사운드가 전체적으로 잘 캡처된 것이 아니라 다른 성분들로부터 간섭하는 사운드들이 거의 없음을 반영할 뿐인 것을 주목해야 한다. 일반적으로 항목 1에 대한 대부분의 관찰들은 덜 현저하지만 항목 2의 실세계 사운드들의 혼합에 대해 또한 유효하다. 이러한 항목의 경우, 보컬들에 대한 HPR-M의 SIR 값은 HPR-ST의 SIR 값을 훨씬 초과한다(20.83dB 대 15.61dB). 또한, 박수에 대한 낮은 SIR 값은 보컬들의 비브라토 부분들이 HPR-M(1.11dB)에 대한 잔여 성분으로 누설되는 한편, HPR-ST의 잔여 성분은 더 적은 간섭 사운드들(6.34dB)을 포함하는 것을 지원한다. 이는 실시예들이 HPR-M보다 훨씬 양호한 보컬들의 주파수 변조된 구조들을 캡처할 수 있음을 표시한다.
결과들을 요약하면, 주파수 변조된 음조들을 포함하는 신호들에 대해, 실시예들의 HPR-ST 개념은 HPR-M에 비해 훨씬 양호한 분리 결과들을 제공한다.
일부 실시예들은 노래하는 음성 검출을 위한 구조 텐서를 이용한다. (종래 기술에 따른 노래하는 음성 검출은 [2]에 설명되어 있다).
일부 양상들은 장치의 상황에서 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 표현하는 것이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법의 상황에서 설명되는 양상들은 또한 대응하는 장치의 블록 또는 아이템 또는 특징의 설명을 표현한다. 방법 단계들의 일부 또는 전부는, 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이를 사용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 하나 또는 몇몇은 이러한 장치에 의해 실행될 수 있다.
특정한 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로, 또는 적어도 부분적으로 하드웨어로 또는 적어도 부분적으로 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들을 저장하는 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독가능일 수 있다.
본 발명에 따른 일부 실시예들은, 본원에서 설명되는 방법들 중 하나가 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행되는 경우 본 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어, 머신-판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 본원에서 설명되는 방법들 중 하나를 수행하기 위한, 머신 판독가능 캐리어 상에 저장되는 컴퓨터 프로그램을 포함한다.
따라서, 달리 말하면, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 창작적 방법들의 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 포함되고 기록되는 데이터 캐리어(예를 들어, 디지털 저장 매체 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 통상적으로 유형(tangible)이고 그리고/또는 비일시적이다.
따라서, 창작적 방법의 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스 또는 데이터 스트림은, 예를 들어, 인터넷을 통해, 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는 본원에서 설명되는 방법들의 기능들 중 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본원에서 정의되는 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
본원에 설명된 장치는 하드웨어 장치를 사용하여 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본원에 설명된 방법들은 하드웨어 장치를 사용하여 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
앞서 설명된 실시예들은, 본 발명의 원리들에 대해 단지 예시적이다. 본원에서 설명되는 배열들 및 세부사항들의 변형들 및 변화들이 당업자들에게 자명할 것이 이해된다. 따라서, 본 발명은 후속 특허 청구항들의 범주에 의해서만 제한되며, 본원의 실시예들의 서술 및 설명의 방식으로 제시되는 특정 세부사항들에 의해서는 제한되지 않도록 의도된다.
참조문헌들
[1] Aggelos Gkiokas, Vassilios Katsouros, George Carayannis, and Themos Stafylakis, "Music tempo estimation and beat tracking by applying source separation and metrical relations", in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2012, pp 421-424
[2] Bernhard Lehner, Gerhard Widmer, and Reinhard Sonnleitner, "On the reduction of false positives in singing voice detection", in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, 2014, pp 7480-748
[3] Yushi Ueda, Yuuki Uchiyama, Takuya Nishimoto, Nobutaka Ono, and Shigeki Sagayama, "HMM-based approach for automatic chord detection using refined acoustic features", in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Dallas, Texas, USA, 2010, pp 5518-5521
[4] Nobutaka Ono, Kenichi Miyamoto, Hirokazu Kameoka, and Shigeki Sagayama, "A real-time equalizer of harmonic and percussive components in music signals", in Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), Philadelphia, Pennsylvania, USA, 2008, pp 139-144
[5] Nobutaka Ono, Kenichi Miyamoto, Jonathan LeRoux, Hirokazu Kameoka, and Shigeki Sagayama, "Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram", in European Signal Processing Conference, Lausanne, Switzerland, 2008, pp 240-244
[6] Derry Fitzgerald, "Harmonic/percussive separation using median filtering", in Proceedings of the International Conference on Digital Audio Effects (DAFX), Graz, Austria, 2010, pp 246-253
[7] Scott N Levine and Julius O Smith III, "A sines+transients+noise audio representation for data compression and time/pitch scale modications", in Proceedings of the AES Convention, 1998
[8] Tony S Verma and Teresa HY Meng, "An analysis/synthesis tool for transient signals that allows a flexible sines+transients+noise model for audio", in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Seattle, Washington, USA, May 1998, pp 3573-353736
[9] Laurent Daudet, "Sparse and structured decompositions of signals with the molecular matching pursuit", IEEE Transactions on Audio, Speech, and Language Processing, vol 14, no 5, pp 1808-1816, September 2006
[10] Jonathan Driedger, Meinard M
Figure 112018101031841-pct00069
ller, and Sascha Disch, "Extending harmonicpercussive separation of audio signals", in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Taipei, Taiwan, 2014, pp 611-616
[11] Jeongsoo Park and Kyogu Lee, "Harmonic-percussive source separation using harmonicity and sparsity constraints", in Proceedings of the International Conference on Music Information Retrieval (ISMIR), M
Figure 112018101031841-pct00070
laga,a aSapaaaiana,a a2a0a1a5a,a ap 148-154
[12] Josef Bigun and G
Figure 112018101031841-pct00071
sta H. Granlund, "Optimal orientation detection of linear symmetry", in Proceedings of the IEEE First International Conference on Computer Vision, London, UK, 1987, pp 433-438
[13] Hans Knutsson, "Representing local structure using tensors", in 6th Scandinavian Conference on Image Analysis, Oulu, Finland, 1989, pp 244-251
[14] Chris Harris and Mike Stephens, "A combined corner and edge detector", in Proceedings of the 4th Alvey Vision Conference, Manchester, UK, 1988, pp 147-151
[15] Rolf Bardeli, "Similarity search in animal sound databases", IEEE Transactions on Multimedia, vol 11, no 1, pp 68-76, January 2009
[16] Matthias Zeppelzauer, Angela S St
Figure 112018101031841-pct00072
ger, and Christian Breitenedeeere,e "Acoustic detection of elephant presence in noisy environments", in Proceedings of the 2nd ACM International Workshop on Multimedia Analysis for Ecological Data, Barcelona, Spain, 2013, pp4 3-8
[17] Hanno Scharr, “Optimale Operatoren in der digitalen Bildverarbeitung“, Dissertation, IWR, Fakult
Figure 112018101031841-pct00073
t f
Figure 112018101031841-pct00074
r Physik und Astronomie, Universit
Figure 112018101031841-pct00075
t Heidelberg, Heidelberg, Germany, 2000
[18] Emmanuel Vincent, R
Figure 112018101031841-pct00076
mi Gribonval, and C
Figure 112018101031841-pct00077
dric F
Figure 112018101031841-pct00078
votte, "Performance measurement in blind audio source separation", IEEE Transactions on Audio, Speech, and Language Processing, vol 14, no 4, pp 1462-1469, 2006

Claims (17)

  1. 오디오 신호의 크기 스펙트로그램을 분석하기 위한 장치로서,
    오디오 신호의 크기 스펙트로그램에 따라 상기 오디오 신호의 크기 스펙트로그램의 복수의 시간-주파수 빈(bin)들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성되는 주파수 변화 결정기(110), 및
    상기 시간-주파수 빈에 대해 결정된 주파수의 변화에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성되는 분류기(120)를 포함하는,
    장치.
  2. 제1항에 있어서,
    상기 주파수 변화 결정기(110)는 상기 시간-주파수 빈에 대한 각도 (α(b, k))에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성되고, 상기 시간-주파수 빈에 대한 각도 (α(b, k))는 상기 오디오 신호의 크기 스펙트로그램에 의존하는,
    장치.
  3. 제2항에 있어서,
    상기 주파수 변화 결정기(110)는 상기 오디오 신호의 샘플링 주파수(fs)에 추가로 의존하여 그리고 분석 윈도우의 길이(N)에 따라 그리고 상기 분석 윈도우의 홉(hop) 크기(H)에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성되는,
    장치.
  4. 제3항에 있어서,
    상기 장치의 주파수 변화 결정기(110)는 공식
    Figure 112018101031841-pct00079

    에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하도록 구성되고,
    (b, k)는 상기 복수의 시간-주파수 빈들의 시간-주파수 빈을 표시하고,
    R(b, k)는 상기 시간-주파수 빈 (b, k)에 대한 주파수의 변화를 표시하고,
    b는 시간을 표시하고,
    k는 주파수를 표시하고,
    fs는 상기 오디오 신호의 샘플링 주파수를 표시하고,
    N은 상기 분석 윈도우의 길이를 표시하고,
    H는 상기 분석 윈도우의 홉 크기를 표시하고,
    α(b, k)는 상기 시간-주파수 빈 (b, k)에 대한 각도를 표시하고, 상기 각도 α(b, k)는 크기 스펙트로그램에 의존하는,
    장치.
  5. 제2항에 있어서,
    상기 주파수 변화 결정기(110)는 시간 인덱스에 대한 상기 오디오 신호의 크기 스펙트로그램(S)의 편미분(S b)을 결정하도록 구성되고,
    상기 주파수 변화 결정기(110)는 주파수 인덱스에 대한 상기 오디오 신호의 크기 스펙트로그램(S)의 편미분(S k)을 결정하도록 구성되고,
    상기 주파수 변화 결정기(110)는, 상기 시간 인덱스에 대한 상기 오디오 신호의 크기 스펙트로그램(S)의 편미분(S b)에 따라 그리고 상기 주파수 인덱스에 대한 상기 오디오 신호의 크기 스펙트로그램 (S)의 편미분(S k)에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대한 구조 텐서 (T(b, k))를 결정하도록 구성되고,
    상기 주파수 변화 결정기(110)는 상기 시간-주파수 빈 ((b, k))에 대한 상기 구조 텐서 (T(b, k))에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 ((b, k))에 대한 각도 (α(b, k))를 결정하도록 구성되는,
    장치.
  6. 제5항에 있어서,
    상기 주파수 변화 결정기(110)는 상기 시간-주파수 빈 ((b, k))의 구조 텐서 (T(b, k))의 2개의 성분들 ν1(b, k) 및 ν2(b, k) 및 고유벡터 ν(b, k)를 결정함으로써 그리고
    Figure 112018101031841-pct00080

    에 따라 상기 시간-주파수 빈 ((b, k))에 대한 각도 (α(b, k))를 결정함으로써 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 ((b, k))에 대한 각도 (α(b, k))를 결정하도록 구성되고,
    α(b, k)는 상기 시간-주파수 빈 ((b, k))에 대한 각도를 표시하고,
    b는 시간을 표시하고,
    k는 주파수를 표시하고,
    atan()는 역 탄젠트 함수를 표시하는,
    장치.
  7. 제5항에 있어서,
    상기 분류기(120)는 공식들
    Figure 112020104872312-pct00081


    Figure 112020104872312-pct00082

    중 적어도 하나에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈 (b, k)에 대한 이방성의 측정을 결정하도록 구성되고,
    Figure 112020104872312-pct00083
    는 상기 시간-주파수 빈(b, k)의 상기 구조 텐서(T(b, k))와 연관된 제1 값이고,
    Figure 112020104872312-pct00084
    는 상기 시간-주파수 빈(b, k)의 상기 구조 텐서(T(b, k))와 연관된 제2 값이며,
    Figure 112020104872312-pct00085
    이고,
    상기 분류기(120)는 상기 이방성의 측정의 변화에 추가로 의존하여 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성되는,
    장치.
  8. 제7항에 있어서,
    상기 분류기(120)는, 공식
    Figure 112018101031841-pct00086

    에 따라 상기 시간-주파수 빈 (b, k)에 대한 이방성의 측정을 결정하도록 구성되고,
    C(b, k)는 상기 시간-주파수 빈 (b, k)에 의존하는 이방성의 측정이고,
    상기 분류기(120)는, 상기 이방성의 측정 C(b, k)이 제1 임계치 값 c보다 작으면, 상기 시간-주파수 빈 (b, k)을 상기 둘 이상의 신호 성분 그룹들의 잔여 성분 그룹에 할당하도록 구성되거나, 또는 상기 분류기(120)는, 상기 이방성의 측정 C(b, k)이 상기 제1 임계치 값 c보다 작거나 동일하면, 상기 시간-주파수 빈 (b, k)을 상기 둘 이상의 신호 성분 그룹들의 잔여 성분 그룹에 할당하도록 구성되고,
    Figure 112018101031841-pct00087
    인,
    장치.
  9. 제1항에 있어서,
    상기 분류기(120)는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성되어, 상기 분류기(120)는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))의 절대값 (
    Figure 112018101162712-pct00088
    )이 제2 임계치 값 rh보다 작은지 여부에 따라, 또는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))의 절대값 (
    Figure 112018101162712-pct00089
    )이 상기 제2 임계치 값 rh보다 작거나 또는 동일한지 여부에 따라 상기 복수의 시간-주파수 빈들의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 고조파 신호 성분 그룹에 할당하고,
    Figure 112018101162712-pct00090
    인,
    장치.
  10. 제1항에 있어서,
    상기 분류기(120)는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성되어, 상기 분류기(120)는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))의 절대값 (
    Figure 112018101162712-pct00091
    )이 제3 임계치 값 rp보다 큰지 여부에 따라, 또는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))의 절대값 (
    Figure 112018101162712-pct00092
    )이 상기 제3 임계치 값 rp보다 크거나 또는 동일한지 여부에 따라 상기 복수의 시간-주파수 빈들의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 퍼커시브 신호 성분 그룹에 할당하고,
    Figure 112018101162712-pct00093
    인,
    장치.
  11. 제9항에 있어서,
    상기 분류기(120)는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하도록 구성되어, 상기 분류기(120)는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))의 절대값 (
    Figure 112018101031841-pct00094
    )이 제3 임계치 값 rp보다 큰지 여부에 따라, 또는 상기 시간-주파수 빈 ((b, k))에 대해 결정된 주파수의 변화 (R(b, k))의 절대값 (
    Figure 112018101031841-pct00095
    )이 상기 제3 임계치 값 rp보다 크거나 또는 동일한지 여부에 따라 상기 복수의 시간-주파수 빈들의 시간-주파수 빈을 상기 둘 이상의 신호 성분 그룹들의 퍼커시브 신호 성분 그룹에 할당하고,
    Figure 112018101031841-pct00096
    인,
    장치.
  12. 제1항에 있어서,
    상기 장치는 상기 복수의 시간-주파수 빈들의 상기 둘 이상의 신호 성분 그룹들로의 할당에 따라 오디오 출력 신호를 생성하도록 구성되는 신호 생성기(130)를 포함하는,
    장치.
  13. 제12항에 있어서,
    상기 신호 생성기(130)는 상기 오디오 출력 신호를 획득하기 위해 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈의 크기 값에 가중치 팩터(wh, wp, wr)를 적용하도록 구성되며, 상기 시간-주파수 빈에 적용되는 가중치 팩터(wh, wp, wr)는 상기 시간-주파수 빈이 할당되는 신호 성분 그룹에 의존하는,
    장치.
  14. 제12항에 있어서,
    상기 신호 생성기(130)는 둘 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 획득하기 위해 상기 오디오 신호를 업믹싱하도록 구성된 업믹서이고,
    상기 업믹서는 상기 복수의 시간-주파수 빈들의 상기 둘 이상의 신호 성분 그룹들로의 할당에 따라 상기 둘 이상의 오디오 출력 채널들을 생성하도록 구성되는,
    장치.
  15. 제1항에 있어서,
    상기 장치는 상기 오디오 신호를 레코딩하기 위한 하나 이상의 마이크로폰들(171, 172)을 포함하고,
    상기 장치는 상기 오디오 신호로부터 오디오 신호의 크기 스펙트로그램을 생성하기 위한 크기 스펙트로그램 생성기(180)를 더 포함하는,
    장치.
  16. 오디오 신호의 크기 스펙트로그램을 분석하기 위한 방법으로서,
    상기 오디오 신호의 크기 스펙트로그램에 따라 상기 오디오 신호의 크기 스펙트로그램의 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈에 대한 주파수의 변화를 결정하는 단계, 및
    상기 시간-주파수 빈에 대해 결정된 주파수의 변화에 따라 상기 복수의 시간-주파수 빈들의 각각의 시간-주파수 빈을 둘 이상의 신호 성분 그룹들의 신호 성분 그룹에 할당하는 단계를 포함하는,
    방법.
  17. 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 제16항의 방법을 구현하기 위한 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램.
KR1020187029671A 2016-03-18 2017-03-16 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 KR102250624B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16161251.0A EP3220386A1 (en) 2016-03-18 2016-03-18 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
EP16161251.0 2016-03-18
PCT/EP2017/056257 WO2017158102A1 (en) 2016-03-18 2017-03-16 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms

Publications (2)

Publication Number Publication Date
KR20180121995A KR20180121995A (ko) 2018-11-09
KR102250624B1 true KR102250624B1 (ko) 2021-05-12

Family

ID=55646318

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187029671A KR102250624B1 (ko) 2016-03-18 2017-03-16 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법

Country Status (11)

Country Link
US (1) US10770051B2 (ko)
EP (2) EP3220386A1 (ko)
JP (1) JP6800995B2 (ko)
KR (1) KR102250624B1 (ko)
CN (1) CN109247030B (ko)
BR (1) BR112018068852A2 (ko)
CA (1) CA3017558C (ko)
ES (1) ES2788682T3 (ko)
MX (1) MX2018011104A (ko)
RU (1) RU2712652C1 (ko)
WO (1) WO2017158102A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658951B (zh) * 2019-01-08 2021-03-26 北京雷石天地电子技术有限公司 混合信号检测方法及系统
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN112150386B (zh) * 2020-09-29 2023-03-21 西安工程大学 基于对比度均值的sar图像相干斑非局部平均抑制方法
CN113203992A (zh) * 2021-04-29 2021-08-03 电子科技大学 一种多基sar的抗欺骗性干扰方法
KR102475219B1 (ko) * 2022-09-21 2022-12-07 국방과학연구소 비디오 형태의 데이터 증강에 기반한 합성 개구면 레이다의 표적 분류 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210888A (ja) * 2008-03-05 2009-09-17 Univ Of Tokyo 音信号の分離方法
JP2010054802A (ja) 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5950734A (ja) 1982-09-16 1984-03-23 スタンレー電気株式会社 磁石式交流発電機の電圧調整装置
JPS638698A (ja) * 1986-06-27 1988-01-14 松下電器産業株式会社 リズム表示装置
US5845241A (en) * 1996-09-04 1998-12-01 Hughes Electronics Corporation High-accuracy, low-distortion time-frequency analysis of signals using rotated-window spectrograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102004049517B4 (de) * 2004-10-11 2009-07-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
JP2010210758A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音声を含む信号の処理方法及び装置
JP5560861B2 (ja) 2010-04-07 2014-07-30 ヤマハ株式会社 楽曲解析装置
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム
JP2013164584A (ja) * 2012-01-12 2013-08-22 Yamaha Corp 音響処理装置
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
JP6763721B2 (ja) * 2016-08-05 2020-09-30 大学共同利用機関法人情報・システム研究機構 音源分離装置
US10354632B2 (en) * 2017-06-28 2019-07-16 Abu Dhabi University System and method for improving singing voice separation from monaural music recordings

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210888A (ja) * 2008-03-05 2009-09-17 Univ Of Tokyo 音信号の分離方法
JP2010054802A (ja) 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tachibana et al. "Harmonic/Percussive Sound Separation Based on Anisotropic Smoothness of Spectrograms", IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014.08.22.

Also Published As

Publication number Publication date
JP6800995B2 (ja) 2020-12-16
CN109247030B (zh) 2023-03-10
RU2712652C1 (ru) 2020-01-30
EP3430612A1 (en) 2019-01-23
CA3017558A1 (en) 2017-09-21
CA3017558C (en) 2021-03-16
MX2018011104A (es) 2019-01-10
JP2019515323A (ja) 2019-06-06
BR112018068852A2 (pt) 2019-01-22
US20190012999A1 (en) 2019-01-10
EP3430612B1 (en) 2020-03-25
WO2017158102A1 (en) 2017-09-21
US10770051B2 (en) 2020-09-08
EP3220386A1 (en) 2017-09-20
CN109247030A (zh) 2019-01-18
KR20180121995A (ko) 2018-11-09
ES2788682T3 (es) 2020-10-22

Similar Documents

Publication Publication Date Title
KR102250624B1 (ko) 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법
US8175730B2 (en) Device and method for analyzing an information signal
US10607630B2 (en) Encoding by reconstructing phase information using a structure tensor on audio spectrograms
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
CN103999076A (zh) 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
CN107533848B (zh) 用于话音恢复的系统和方法
EP1569200A1 (en) Identification of the presence of speech in digital audio data
JP2004528599A (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
Füg et al. Harmonic-percussive-residual sound separation using the structure tensor on spectrograms
DK2843659T3 (en) PROCEDURE AND APPARATUS TO DETECT THE RIGHT OF PITCH PERIOD
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
US8219390B1 (en) Pitch-based frequency domain voice removal
John et al. Classification of Indian classical carnatic music based on raga using deep learning
Costa et al. Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms
Mikami et al. Residual drum sound estimation for RPCA singing voice extraction
McCallum Foreground Harmonic Noise Reduction for Robust Audio Fingerprinting
JP2007536587A (ja) 情報信号を解析するための装置および方法
Wells et al. Principal Component Analysis of Rasterised Audio for Cross-Synthesis
Khadar¹ et al. Check for updates

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant