KR20080059246A - 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 - Google Patents

모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 Download PDF

Info

Publication number
KR20080059246A
KR20080059246A KR1020087009683A KR20087009683A KR20080059246A KR 20080059246 A KR20080059246 A KR 20080059246A KR 1020087009683 A KR1020087009683 A KR 1020087009683A KR 20087009683 A KR20087009683 A KR 20087009683A KR 20080059246 A KR20080059246 A KR 20080059246A
Authority
KR
South Korea
Prior art keywords
audio
frame
classifier
sources
monophonic
Prior art date
Application number
KR1020087009683A
Other languages
English (en)
Other versions
KR101269296B1 (ko
Inventor
드미트리 슈문크
Original Assignee
디티에스 라이센싱 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스 라이센싱 리미티드 filed Critical 디티에스 라이센싱 리미티드
Publication of KR20080059246A publication Critical patent/KR20080059246A/ko
Application granted granted Critical
Publication of KR101269296B1 publication Critical patent/KR101269296B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Burglar Alarm Systems (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

뉴럴 네트워크 분류기는 단일 모노포닉 오디오 신호에 다운 믹스된 복수의 임의의 오디오 소스 및 미리 알려지지 않은 오디오 소스를 분리 및 카테고리화 하는 능력을 제공한다. 이는 모노포닉 오디오 신호를 기준선 프레임으로 나누고(아마도 오버랩핑되는), 그 프레임을 윈도잉(windowing)하여, 각각의 프레임의 많은 기술되는 특징들을 추출하고, 분류기로서 미리 훈련된 비선형 뉴럴 네트워크를 이용함으로써 달성된다. 각각의 뉴럴 네트워크 출력은 모노포닉 오디오 신호의 각각의 기준선 프레임에 미리 결정한 유형의 오디오 소스의 존재를 나타낸다. 뉴럴 네트워크 분류기는 신호 및 소스의 파라미터의 광범위한 변화, 소스의 시간 및 주파수 도메인 오버랩핑, 및 실생활의 신호의 반향(reverberation) 및 폐쇄(occlusion)를 처리하는데 매우 적합하다. 분류기 출력은, 소스 분리 알고리즘(예, ICA)을 위한 복수의 오디오 채널을 생성하기 위한 프론트 엔드로서, 또는 후처리 알고리즘(예, 음악을 카테고리화하고, 소스를 추적하며, 네비게이션, 리믹싱, 보안 및 감시, 전화 및 무선 통신, 및 화상회의 용도의 오디오 인덱스 발생)의 파라미터로서 사용될 수 있다.

Description

모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴 네트워크 분류기{NEURAL NETWORK CLASSIFIER FOR SEPARATING AUDIO SOURCES FROM A MONOPHONIC AUDIO SIGNAL}
본 발명은 단일 모노포닉 오디오 신호에 다운-믹스된 복수의 알려지지 않은 오디오 소스를 분리하는 것에 관한 것이다.
스테레오 또는 다채널 오디오 신호로부터 소스를 추출하는 기술이 존재한다. ICA(Independent component analysis)가 가장 널리 알려지고 연구된 방법이다. 그러나, ICA는 입력 신호의 채널의 수와 같거나 또는 그보다 적은 수의 복수개 소스만을 추출할 수 있다. 따라서, 이 방법은 모노포닉 신호 분리에서는 사용될 수 없다.
모노포닉 신호로부터의 오디오 신호 추출은, 음성 신호 특성을 추출, 다채널 신호 표시를 합성, 음악을 카테고리화하고, 소스를 추적하고, ICA용 추가 채널을 발생하며, 네비게이션(브라우징), 리믹싱(소비자 & 프로), 보안 및 감시, 전화 및 무선 통신, 및 화상 회의 용도의 오디오 인덱스를 발생시키는데 유용할 수 있다. (자동화된 딕터 검출, 자동화된 음성 인식, 음성/음향 검출기와 같은) 음성 신호 특성의 추출은 매우 발전했다. 모노포닉 신호로부터의 임의의 악기 정보 추출은, 신호 및 소스의 광범위한 파라미터 변경, 소스의 시간 및 주파수 도메인 오버랩핑, 및 실생활의 신호의 반향(reverberation) 및 폐쇄(occlusion)를 포함하는 문제에 의해 발생하는 어려움들 때문에 매우 드물게 연구된다. 알려진 기술들은 등화 및 직접적인 파라미터 추출을 포함한다.
알려진 주파수 영역을 점유하는 소스를 추출하기 위해, 신호에 등화기가 적용될 수 있다. 예를 들어, 음성 신호의 대부분의 에너지는 200Hz-4kHz 영역에서 나타난다. 베이스 기타 소리는 정상적으로는 1kHz 아래의 주파수로 제한된다. 모든 대역외 신호(out-of-band signal)를 필터링함으로써, 선택된 소스가 추출되거나 또는 그 에너지가 다른 소스와 연관되어 증폭될 수 있다. 그러나, 등화는 오버랩핑 소스를 추출하는데 효과적이지 않다.
직접적인 파라미터 추출의 한 방법은 Tong Zhang과 Jay Kuo가 쓴 "온라인 시청각 데이터 구분 및 분류를 위한 오디오 콘텐츠 분석" (2001년 5월 No.4, vol.9 음성 및 오디오 처리에 대한 IEEE 트랜잭션)에 기술되어 있다. 에너지 함수, 평균 영 교차율, 기본 주파수, 및 스펙트럼 피크 트랙과 같은 단순한 오디오 특징들이 추출된다. 그 다음 신호는 카테고리(묵음; 소리 성분이 있는; 소리 성분이 없는) 및 하위 카테고리별로 나뉜다. 특정 카테고리에 단편(fragment)을 포함시키는 것은 특징을 한 세트의 제한들과 직접 비교하여 결정한다. 소스의 연역적 지식이 요구된다.
음악 장르의 카테고리화 방법은 George Tzanetakis와 Perry Cook이 쓴 "오디오 신호의 음악 장르 분류" (2002년 7월 No.5, vol.10 음성 및 오디오 처리에 대한 IEEE 트랜잭션)에 기술되어 있다. 기악편성, 리듬 구조, 및 하모니 콘텐츠와 같은 특징들은 미리 훈련된 통계적 패턴 인식 분류기의 신호 및 입력으로부터 추출된다. Don Kimbler와 Lynn Wilcox가 쓴 "오디오 브라우저용 청각 구분"은 오디오 구분 및 분류를 위해 은닉 마르코프 모델(Hidden Markov Models)을 이용한다.
본 발명은 단일 모노포닉 오디오 신호에 다운 믹스된 복수의 임의의 오디오 소스 및 사전에 알려지지 않은 오디오 신호를 분류 및 카테고리화 하는 능력을 제공한다.
이는 모노포닉 오디오 신호를 기준선 프레임으로 나누고(아마도 오버랩핑되는), 프레임을 윈도잉하여(windowing), 각각의 프레임의 많은 기술되는 특징들을 추출하고, 분류기로서 미리 훈련된 비선형 뉴럴 네트워크를 이용함으로써 달성된다. 각각의 뉴럴 네트워크 출력은 모노포닉 오디오 신호의 각각의 기준선 프레임에 있는 미리 결정한 유형의 오디오 소스의 존재를 나타낸다. 뉴럴 네트워크는 통상적으로 오디오 소스 유형이 존재하는 만큼의 출력을 갖고, 시스템은 구분될 수 있도록 훈련된다. 뉴럴 네트워크 분류기는 신호 및 소스의 광범위한 파라미터 변경, 소스의 시간 및 주파수 도메인 오버랩핑, 및 실생활의 신호의 반향 및 폐쇄를 처리하는데 매우 적합하다. 분류기의 출력은 소스 분류 알고리즘(예, ICA)용 복수의 오디오 채널을 생성하기 위한 프론트-엔드, 또는 후처리 알고리즘(예, 음악을 카테고리화하고, 소스를 추적하며, 네비게이션, 리믹싱, 보안 및 감시, 전화 및 무선 통신, 및 화상회의 용도의 오디오 인덱스를 발생)의 파라미터로서 사용될 수 있다.
제1 실시예에서, 모노포닉 오디오 신호는 부분 대역 필터링된다. 부분 대역의 수, 및 부분 대역의 변화 또는 균일함은 애플리케이션에 의존한다. 그 다음 각각의 부분 대역이 프레이밍되고 특징이 추출된다. 동일하거나 또는 상이한 특징들의 조합은 상이한 부분 대역으로부터 추출될 수 있다. 몇몇 부분 대역들은 추출된 특징을 갖지 않을 수 있다. 각각의 부분 대역 특징은 분류기에 대한 별도의 입력을 형성하거나 또는 유사한 특징들이 부분 대역 전반에 "융합(fused)"될 수 있다. 분류기는 각각의 특정 오디오 소스 분류의 확고함을 향상시키기 위해 각각의 미리 결정된 오디오 신호에 대해 단일 출력 노드를 포함할 수 있다. 대안으로서, 분류기는 다중 주파수 오버랩된 소스의 분류를 향상시키기 위해 각각의 미리 결정된 오디오 소스에 대해 각각의 부분 대역에 대한 출력 노드를 포함할 수 있다.
제2 실시예에서, 특징들, 예컨대, 톤 성분 또는 TNR과 같은 특징들 중 하나 이상은 다중 시간-주파수 분해능(resolution)에서 추출된 다음 기준선 프레임 사이즈로 조절된다. 이는 바람직하게는 병렬로 행해지지만, 순차적으로 행해질 수도 있다. 각각의 분해능에서의 특징들은 분류기에 입력될 수 있거나, 단일 입력을 형성하기 위해 융합될 수 있다. 이 다중-분해능 접근 방식은 자연 상태의 신호(natural signal)의 비-안정성을 해결한다. 대부분의 신호는 짧은 시간 간격에서의 준-안전성으로서 고려될 수 있다. 몇몇 신호는, 예컨대 음성에 대해, 더 빠르고 약간은 더느리게 변하는데, 신호 파라미터들을 빠르게 변화시킴으로써, 단 시간-프레임은 더 나은 신호 에너지 분리를 가져올 것이다. 더 안정적인 현악기에 대해, 더 긴 프레임은 신호 에너지 분리의 감소 없이 고주파수 분해능을 제공한다.
제3 실시예에서, 모노포닉 오디오 신호는 부분 대역 필터링되고, 하나 이상의 부분 대역의 특징들 중 하나 이상은 다중 시간-주파수 분해능에서 추출된 다음, 기준선 프레임 사이즈로 조절된다. 부분 대역 필터와 다중 분해능의 조합은 분류기의 능력을 더 강화할 수 있다.
제4 실시예에서, 뉴럴 네트워크 출력 노드의 값은 분류의 노이즈를 감소시키기 위해 저역 필터링되고, 따라서 프레임 대 프레임 변화도 감소된다. 저역 필터링 없이, 시스템은 과거의 입력 또는 미래의 입력에 대한 지식이 없이 신호의 단편(기준선 프레임)상에서 동작한다. 저역 필터링은 잘못된 결과의 수를 감소시키고, 신호는 통상적으로 하나보다 많은 기준선 프레임 동안 지속되는 것으로 가정한다.
본 발명의 이런 저런 특징들 및 이점들은, 첨부한 도면들과 함께, 후속하는 바람직한 실시예에 대한 상세한 설명을 통해 당업자들에게 명백해질 것이다.
도 1은 본 발명에 따라 뉴럴 네트워크 분류기를 이용하여, 단일 모노포닉 오디오 신호에 다운 믹스된 알려지지 않은 복수의 오디오 소스의 분리에 대한 블럭도이다.
도 2는 입력 신호의 부분 대역 필터링을 도시한 도면이다.
도 3은 입력 신호의 프레이밍(framing) 및 윈도잉(windowing)을 도시한 도면이다.
도 4는 다중 분해능 톤 성분 및 TNR 특징을 추출하기 위한 흐름도이다.
도 5는 노이즈 플로어를 추정하기 위한 흐름도이다.
도 6은 켑스트럼(Cepstrum) 피크 특징을 추출하기 위한 흐름도이다.
도 7은 통상의 뉴럴 네트워크 분류기에 대한 블럭도이다.
도 8a-8c는 모노포닉 신호를 이루는 오디오 소스 및 뉴럴 네트워크 분류기에 의해 출력된 측정치의 플롯이다.
도 9는 모노포닉 신호를 복수의 오디오 채널에 리믹스하기 위해 출력 측정을 이용하는 시스템에 대한 블럭도이다.
도 10은 모노포닉 신호 상에서 수행된 표준 후처리 수행을 증대시키기 위해 출력 측정을 이용하는 시스템에 대한 블럭도이다.
본 발명은 단일 모노포닉 오디오 신호에 다운 믹스된 복수의 임의의 오디오 소스 및 미리 알려지지 않은 오디오 소스를 분리 및 카테고리화 하는 능력을 제공한다.
도 1에 도시된 바와 같이, 복수의 오디오 소스(10), 예를 들어, 음성, 현악기 소리, 및 타악기 소리와 같은 오디오 소스는 단일 모노포닉 오디오 채널(14)로 다운 믹스되었다(단계 12). 모노포닉 신호는 종래의 모노 믹스이거나 또는 스테레오 또는 다채널 신호 중 한 채널일 수 있다. 대부분의 일반적인 경우, 특정 믹스에 특별한 유형의 오디오 소스에 관한 연역적 정보, 즉, 신호 그 자체로서, 얼마나 많이 상이한 신호들이 포함되었는가에 관한 연역적 정보, 또는 믹싱 계수에 관한 연역적 정보는 존재하지 않는다. 특정 믹스에 포함될 수 있는 오디오 신호의 유형은 알려져 있다. 예를 들어, 애플리케이션은 음향 믹스에서 소스들 또는 우세한 소스 들을 분류할 것이다. 분류기는 잠재적 소스가 남성의 음성, 여성의 음성, 현악기 소리, 타악기 소리 등을 포함한다는 것을 알 것이다. 분류기는 이 소스들 중 어느 소스가 또는 얼마나 많은 소스가 그 특정 믹스에 포함되는지, 그 특정 소스에 대한 어떠한 것도, 또는 어떻게 그것들이 믹스되는지도 알지 못할 것이다.
복수의 임의의 오디오 소스 및 미리 알려지지 않은 오디오 소스를 분리 및 카테고리화 하는 프로세스는, 모노포닉 오디오 신호를 일련의 기준선 프레임으로 프레이밍함으로써(아마도 오버랩핑되는) 시작되고(단계 16), 그 프레임들을 윈도잉하며(단계 18), 각각의 프레임의 기술한 많은 특징들을 추출하고(단계 20), 미리 훈련된 비선형 뉴럴 네트워크를 분류기로서 이용한다(단계 22). 각각의 뉴럴 네트워크 출력은 모노포닉 오디오 신호의 각각의 기준선 프레임에 미리 결정한 유형의 오디오 소스가 존재한다는 것을 나타낸다. 뉴럴 네트워크는 통상적으로 시스템이 구별되도록 훈련된 유형의 오디오 소스가 존재하는 만큼의 출력을 갖는다.
특히 "오버랩핑 소스"를 분리 및 분류하는데 있어서, 뉴럴 네트워크 분류기의 성능은 모노포닉 신호의 부분 대역 필터링, 다중 분해능 특징의 추출, 및 분류값의 저역 필터링을 포함하는 많은 방법들로 강화될 수 있다.
강화된 성능에 대한 제1 실시예에서, 모노포닉 오디오 신호는 부분 대역 필터링될 수 있다(단계 24). 이는 통상적인 것이지만 프레이밍에 앞서 필수적으로 수행되는 것은 아니다. 부분 대역의 수 및 부분 대역의 변화 또는 균일함은 애플리케이션 의존적이다. 그 다음 각각의 부분 대역은 프레이밍되고 특징은 추출된다. 특징들의 동일한 또는 상이한 조합은 상이한 부분 대역으로부터 추출될 수 있다. 몇 몇 부분 대역은 추출된 특징들을 갖지 않을 수 있다. 각각의 부분 대역의 특징은 분류기로의 개별적인 입력을 형성하거나 또는 유사한 특징들은 부분 대역 전반에서 "융합"될 수 있다(단계 26). 분류기는 각각의 미리 결정된 오디오 소스에 대해 단일 출력 노드를 포함할 수 있는데, 이런 경우, 복수의 부분 대역들로부터 특징을 추출하는 것이 각각의 특정 오디오 소스의 분류에 대한 확고함을 증가시킨다. 대안으로서, 분류기는 각각의 미리 결정된 오디오 소스에 대해 각각의 부분 대역에 대한 단일 출력 노드를 포함할 수 있는데, 이런 경우, 복수의 부분 대역들로부터 특징을 추출하는 것이 다중 주파수-오버랩된 소스의 분리를 향상시킨다.
강화된 성능에 대한 제2 실시예에서, 특징들 중 하나 이상의 특징은 다중 시간-주파수 분해능에서 추출된 다음, 기준선 프레임 사이즈 조절된다. 도시된 바와 같이, 모노포닉 신호가 초기에 기준선 프레임으로 분할되고, 윈도잉되고 특징이 추출된다. 특징들 중 하나 이상의 특징이 다중 분해능에서 추출된다면(단계 28), 프레임의 사이즈는 감소하고(증가하고) (단계 30), 프로세스는 반복된다. 기준선 프레임의 사이즈는, 오버랩 및 윈도잉에 적합하게 조절된 복수의 기준선 프레임 사이즈로 적당히 감소(증가)한다. 결과적으로, 기준선 프레임의 등가물에 대해 각각의 특징에 대한 복수의 예들이 존재할 것이다. 그 다음 이런 특징들은 각자 또는 함께 기준선 프레임의 사이즈로 조절된다(단계 32). 더 작은 사이즈의 프레임에서 추출된 특징들은 평균화되고 더 큰 사이즈의 프레임에서 추출된 특징들은 기준선 프레임 사이즈로 삽입된다. 몇몇의 경우, 알고리즘은 기준선 프레임으로부터의 감소와 증가 양자 모두에 의해 다중 분해능 특징들을 추출할 수 있다. 또한, 분류기에 대 한 하나의 입력을 형성하기 위해 각각의 분해능에서 추출된 특징들을 융합하는 것이 바람직할 수 있다(단계 26). 다중 분해능 특징이 융합되지 않는 경우, 기준선의 사이즈를 조절하는(단계 32) 것은 루프 내에서 수행될 수고, 특성 정보가 각각의 패스에서 분류기에 입력될 수 있다. 더 바람직한 것은, 다중 분해능 추출이 병렬로 수행된다는 것이다.
강화된 성능에 대한 제3 실시예에서, 뉴럴 네트워크의 출력 노드의 값은, 예컨대, 분류의 노이즈를 줄임으로써 프레임 대 프레임 변화를 줄이기 위해 이동 평균 저역 필터를 이용하여(단계 34) 후 처리된다.
부분 대역 필터링
도 2에 도시된 바와 같이, 부분 대역 필터(40)는 모노포닉 오디오 신호의 주파수 스펙트럼을 N개의 균일한 또는 변화하는 너비의 부분 대역(42)으로 나눈다. 예시를 위해, 가능한 주파수 스펙트럼 H(f)은 음성(44), 현악기(46), 및 타악기(48)로 도시되었다. 소스 오버랩이 낮은 부분 대역의 특징들을 추출함으로써, 분류기는 프레임의 우세한 소스의 분류를 더 잘 수행할 수 있다. 또한, 상이한 부분 대역의 특징들을 추출함으로써, 분류기는 부분 대역 각각의 우세한 소스를 분류할 수 있다. 신호 분리가 양호한 이런 부분 대역에서, 분류에 대한 확신은, 예를 들어 거의 1만큼 매우 강할 수 있다. 반면, 신호가 오버랩되는 부분 대역에서, 분류기는, 예컨대 2개 이상의 소스가 비슷한 출력 값을 가질 수 있는 경우처럼, 하나의 소스가 우세하다는 것에 대해 덜 확신할 것이다.
부분 대역 필터 대신 주파수 변환을 이용하는 등가의 기능이 제공될 수도 있다.
프레이밍 & 윈도잉
도 3a-3c에 도시된 바와 같이, 모노포닉 신호(50) (또는 신호의 각각의 부분 대역)은 일련의 기준선 프레임(52)으로 나누어진다. 신호는 오버랩핑 프레임, 바람직하게는 50% 또는 그보다 더 많이 오버랩된 프레임으로 적당히 나누어진다. 각각의 프레임은 프레임 경계에서의 불연속성의 영향을 줄이고 주파수 분리를 향상시키도록 윈도잉된다. 잘 알려진 분석 윈도우(54)로는, Raised Cosine, Hamming, Hanning, 및 Chebyschev 등이 있다. 그 다음 각각의 기준선 프레임에 대해 윈도잉된 신호(56)가 특징 추출을 위해 전달된다.
특징 추출
특징 추출은 오디오의 기준선 프레임을 특징짓는데 사용될 수 있는 조밀한 수치 표시를 계산하는 프로세스이다. 이 프로세스의 개념은, 많은 특징들을 단독으로 또는 다른 특징들과 결합하여, 단일 또는 다중 분해능에서, 및 단일 또는 복수의 스펙트럼 대역에서 분류하여, 상이한 오디오 소스들을 효과적으로 구분하는 것이다. 모노포닉 오디오 신호로부터의 소스 분리에 유용한 특징의 예로는, 프레임 내의 톤 성분의 총 수, 톤 대 잡음비(TNR), 및 켑스트럼 피크 진폭이 있다. 이러한 특징들과 더불어, MPEG-7 사양에 기술되어 있는 오디오에 대한 17개의 저-레벨 기술어들 중 임의의 하나 또는 그들의 조합은 상이한 애플리케이션에서 적합한 특징 들일 수 있다.
톤 성분, TNR, 및 켑스트럼 피크 특징에 대해 상세히 설명할 것이다. 또한 톤 성분 및 TNR 특징은 다중 시간-주파수 분해능에서 추출되고, 기준선 프레임으로 사이즈가 조절된다. "저 레벨 기술어"를 계산하는 단계는 MPEG-7 오디오를 위한 문서화를 지원하는데 이용 가능하다.
(국제 표준 ISO/DEC 15938 "Multimedia Content Description Interface" 또는 http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm 참조)
톤 성분
톤 성분은 본질적으로 평균적인 신호에 비하여 상대적으로 강한 톤이다. 추출되는 특징은 주어진 시간-주파수 분해능에서의 톤 성분의 수이다. 각각의 프레임에서 단일 시간-주파수 분해능 레벨의 톤 성분의 수를 추정하는 절차가 도 4에 도시되어 있고, 이 절차는 다음과 같은 단계들을 포함한다.
1. 모노포닉 입력 신호를 프레이밍한다(단계 16).
2. 프레임 내에 속하게 된 데이터를 윈도잉한다(단계 18).
3. 그 윈도잉된 신호에 FFT, MDCT등과 같은 주파수 변환을 적용한다(단계 60). 변환의 길이는 프레임 내의 오디오 샘플의 수, 즉, 프레임 사이즈와 같아야한다. 변환 길이를 늘이는 것은 주파수 분해능을 증가시키지 않고 시간 분해능을 낮출 것이다. 변환 길이를 줄이면, 프레임의 길이는 주파수 분해능을 낮출 것이다.
4. 스펙트럼 선의 크기를 계산한다(단계 62). FFT에서, 진폭 A=Sqrt(Re*Re+Im*Im)이고, 여기서 Re와 Im은 상기 변환에 의해 생성된 스펙트럼 선의 실수 및 허수 성분이다.
5. 모든 주파수에 대해 잡음 플로어 레벨을 추정한다(단계 64)(도 5참조).
6. 잡음 플로어보다 충분히 큰 성분들, 예를 들어, 잡음 플로어를 초과하는 미리 정의된 고정된 임계치보다 큰 성분들의 수를 센다(단계 66). 이 성분들이 "톤 성분"으로서 고려되고, 셈한 결과가 NN 분류기에 출력된다(단계 68).
실생활의 오디오 신호는 그 안에 (현악기와 유사한) 톤 성분을 갖는 안정적인 단편, 및 그 안에 (음성 단편과 같은) 톤 성분을 갖는 비 안정적 단편 모두를 포함한다. 모든 경우의 상황에서 톤 성분을 효과적으로 캡쳐하기 위해, 신호는 다양한 시간-주파수 분해능 레벨에서 분석되어야 한다. 실제 유용한 결과는 약 5 msec 내지 200 msec 범위의 프레임 내에서 추출될 수 있다. 주목할 것은, 이러한 프레임들은 바람직하게는 인터리빙하고, 주어진 길이의 많은 프레임들은 단일 기준선 프레임 내에 있을 수 있다.
다중 시간-주파수 분해능에서 톤 성분의 수를 추정하기 위해, 상기 절차는 다음과 같이 변경된다.
1. 예컨대, (오버랩핑은 무시하고) 인수 2만큼 프레임 사이즈를 감소시킨다(단계 70).
2. 새로운 프레임 사이즈에 대해 단계들(16, 18, 60, 62, 64, 및 66)을 반복한다. 최적의 시간-주파수 트레이드 오프를 얻기 위해, 프레임 길이와 같은 길이의 주파수 변환이 수행되어야 한다.
3. 톤 성분의 카운트를 기준선 프레임 사이즈로 조정하고 NN 분류기에 출력한다(단계 72). 도시된 바와 같이, 각각의 시간-주파수 분해능에서의 톤 성분의 축적된 수는 개별적으로 분류기에 전달된다. 보다 단순한 구현에서는, 모든 분해능에서의 톤 성분의 수가 추출되어 단일 값을 형성하기 위해 함께 합산된다.
4. 가장 작은 원하는 프레임 사이즈가 분석될 때까지 반복한다(단계 74).
다중 분해능 톤 성분의 추출을 설명하기 위해, 후속하는 예들을 고려해보자. 기준선 프레임 사이즈는 4096개 샘플이다(명료함을 위해 비 오버랩핑됨). 톤 성분은 1024, 2048, 및 4096 변환 길이들에서(간명성을 위해 오버래핑되지 않음) 추출된다. 통상적인 결과는 다음과 같다.
4096-포인트 변환: 5개의 성분
2048-포인트 변환(하나의 기준선 프레임에서 총 2번의 변환): 15개의 성분, 7개의 성분
1024-포인트 변환(하나의 기준선 프레임에서 총 4번의 변환): 3, 10, 17, 4
NN 입력들에 전달되는 수는 매 전달시 5, 22(=15+7), 34(=3+10+17+4)일 것이다. 또는 대안으로서, 값들은 61=5+22+34로 합산되어, 하나의 값으로서 입력될 수 있다.
증분함으로써 다중 시간-주파수 분해능을 계산하는 알고리즘도 유사하다.
톤 대 잡음 비율( TNR )
톤 대 잡음 비율은 톤 성분의 총 에너지와 잡음 플로어의 비율의 측정치이 며, 다양한 유형의 소스의 구별을 위한 매우 연관성 있는 특징일 수 있다. 예를 들어, 다양한 종류의 현악기는 상이한 TNR 레벨을 갖는다. 톤 대 잡음비의 프로세스는 상술한 톤 성분의 수를 추정하는 것과 유사하다. 톤 성분의 수를 세는(단계 66) 대신, 이 절차는 톤 성분의 축적된 에너지와 잡음 플로어의 비를 계산하고(단계 76), NN 분류기에 그 비율을 출력한다(단계 78).
다양한 시간-주파수 분해능에서의 TNR 측정은, 실생활의 신호에 보다 확고한 수행을 제공하는데 이롭다. 프레임 사이즈가 감소되고(단계 70), 이 절차는 많은 작은 프레임 사이즈에 대해 반복된다. 더 작은 프레임으로부터의 결과는 기준선 프레임과 같은 기간에 대해 그 프레임들의 평균을 계산함으로써 조절된다(단계 78). 톤 성분과 함께, 그 평균화된 비율이 매 전달시 분류기에 출력되거나 또는 하나의 값으로 합산될 수 있다. 또한, 톤 성분과 TNR 양자 모두에 대한 상이한 분해능은 병렬로 적합하게 계산된다.
다중 분해능 TNR의 추출을 설명하기 위해, 다음과 같은 예들을 고려해보자. 기준선 프레임 사이즈는 4096개의 샘플이다. TNR은 1024, 2048, 및 4096 변환 길이에서 추출된다(명료함을 위해 비 오버랩핑됨). 통상적인 결과는 다음과 같다.
4096-포인트 변환: 40db 비율
2048-포인트 변환(하나의 기준선 프레임에서 총 2번 변환): 28db, 20db 비율
1024-포인트 변환(하나의 기준선 프레임에서 총 4번 변환): 20db, 20db, 16db 및 l2db 비율
NN 입력들에 전달될 비율들은 각각의 전달에서 40db, 24db, 및 17db일 것이 다. 또는 대안으로서, 값들은 합산되고 (평균= 27db), 하나의 값으로서 입력된다. 증분함으로써 다중 시간-주파수 분해능을 계산하는 알고리즘도 유사하다.
잡음 플로어 추정
톤 성분 및 TNR을 추정하는데 사용되는 잡음 플로어는 신호를 둘러싼 부분 또는 신호의 원하지 않는 부분에 대한 측정치이다. 예를 들어, 라이브 어쿠스틱 음악 퍼포먼스에서 악기를 분류 또는 분리하려고 시도하는 경우, 잡음 플로어는, 연주자가 연주하지 않을 때의 방의 평균적인 청각 레벨을 나타낼 것이다.
많은 알고리즘들이 프레임의 잡음 플로어를 추정하는데 사용될 수 있다. 일 실시예에서, 저역 FIR 필터는 스펙트럼 선의 진폭에 적용될 수 있다. 이와 같은 필터링의 결과는, 잡음과 톤 성분 에너지 모두를 포함할 수 있기 때문에 실제 잡음 플로어보다는 약간 더 높을 것이다. 이는 임계치를 낮춤으로써 보상될 수 있다. 도 5에 도시된 바와 같이, 더 정밀한 알고리즘은 실제 잡음 플로어와 근사한 값을 얻기 위한 단순한 FIR 필터 접근 방식을 더 용이하게 한다.
잡음 플로어의 단순 추정은 FIR 필터 애플리케이션에 의해 발견된다.
Figure 112008028937483-PCT00001
N i - i번째 스펙트럼 선에 대해 추정된 잡음 플로어
A i - 주파수 변형 후의 스펙트럼 선의 크기
C k - FIR 필터 계수, 및
L - 필터 길이
도 5에 도시된 바와 같이, 잡음 플로어보다 충분히 큰, 예를 들어, 각각의 주파수에서의 FIR 출력보다 3db 큰 성분들을 마킹함으로써(단계 82), 더 정밀한 추정치는 상기 주어진 초기 저역 FIR 추정(단계 80)을 정밀화한다. 일단 마킹되면, 카운터는 예컨대, J=O으로 설정되고(단계 84), 마킹된 성분(크기 86)은 마지막 FIR 결과와 교체된다(단계 88). 이 단계는 잡음 플로어의 계산으로부터 톤 성분 에너지를 효과적으로 삭제한다. 저역 FIR은 재적용되고(단계 90), 잡음 플로어보다 충분히 큰 성분이 마킹되며(단계 92), 카운터는 증분되고(단계 94), 마킹한 성분은 다시 마지막 FIR 결과와 교체된다(단계 88). 이 프로세스는 원하는 반복 횟수, 예를 들어 3번 반복된다(단계 96), 더 많은 반복 횟수는 약간 더 나은 정밀함을 가져올 것이다.
잡음 플로어 추정 그 자체가 오디오 소스를 설명하고 분리하기 위한 특징으로서 사용될 수 있다는 것은 주목할 만하다.
켑스트럼 피크
켑스트럼 분석은 보통 음성 처리와 연관된 애플리케이션에서 이용된다. 켑스트럼의 다양한 특성은 처리를 위한 파라미터로서 사용될 수 있다. 켑스트럼은 또한 다른 유형의 고조파 신호에 대해서도 설명될 수 있다. 켑스트럼은, 마치 자신이 신 호인 것처럼 데시벨 스펙트럼의 역 푸리에 변환을 취한 결과이다. 켑스트럼 피크의 추출 절차는 다음과 같다.
1. 오디오 신호를 일련의 프레임으로 분리한다(단계 16).
2. 신호를 각각의 프레임에 윈도잉한다(단계 18).
4. 켑스트럼을 계산한다:
a. 윈도잉된 신호의 주파수 변환, 예를 들어 FET를 계산(단계100);
b. 스펙트럼 선 크기의 로그-진폭을 계산(단계 102); 및
c. 로그 진폭에 대한 역변환을 계산(단계 104).
5. 켑스트럼 피크는 켑스트럼의 최고치의 값과 위치이다(단계 106).
뉴럴 네트워크 분류기
많은 알려져 있는 유형의 뉴럴 네트워크는 분류기로서 동작하기에 접합하다. 뉴럴 네트워크 아키텍처 및 훈련 알고리즘의 현 기술 상태는 전방향 네트워크(feedforward network) (각각의 층이 이전의 층으로부터 입력을 수신하기만 하는 적층형 네트워크)를 매우 훌륭한 후보로 만든다. 기존의 훈련 알고리즘은 안정된 결과 및 양호한 일반화를 제공한다.
도 7에 도시된 바와 같이, 전방향 네트워크(110)는 하나의 입력층(112), 하나 이상의 은닉층(114), 및 하나의 출력층(116)을 포함한다. 입력층의 뉴런들은 완전한 한 세트의 추출된 특징(118)들 및 각각의 가중치를 수신한다. 오프라인으로 감독된 훈련 알고리즘은 특징이 전달된 뉴런 각각의 가중치를 조정한다. 은닉층 (들)은 비선형 활성 함수들을 갖는 뉴런들을 포함한다. 비선형 전달 함수를 갖는 복수의 뉴런 층은 네트워크가 입력 신호와 출력 신호 사이의 비선형적인 관계 및 선형적인 관계를 학습하도록 허용한다. 출력층의 뉴런의 수는 분류기가 인식할 수 있는 유형의 소스들의 수와 같다. 네트워크의 각각의 출력은 특정 유형의 소스(120)의 존재를 시그널링하고, 값 [0, 1]은 입력 신호가 주어진 오디오 소스를 포함한다는 확신을 나타낸다. 부분 대역 필터링이 이용되는 경우, 출력 뉴런의 수는 소스의 수를 부분 대역의 수와 곱한 것과 같을 것이다. 이런 경우, 뉴런의 출력은, 특정 부분 대역에 특정 소스가 존재한다는 것을 나타낸다. 출력 뉴런들은, 특정 레벨보다 큰 뉴런 값을 유지만 하기 위해 임계치화 되거나, 또는 가장 우세한 하나의 소스를 유지만 하기 위해 임계치화 되어, "그대로" 전달될 수 있다.
네트워크는 한 세트의 충분히 대표적인 신호에 대해 미리 훈련되어야 한다. 예를 들어, 남성의 음성, 여성의 음성, 타악기, 및 현악기를 포함하는 4개의 상이한 기록을 인식할 수 있는 시스템에 대해, 이런 모든 유형의 소스들은 충분한 변화에 훈련된 세트에 존재해야 한다. 뉴럴 네트워크의 일반화능력에 기인하는 모든 가능한 종류의 소스들이 철저히 존재해야 하는 것은 아니다. 각각의 기록은 알고리즘의 특징 추출부를 통과해야 한다. 그 다음 추출된 특징들은 임의로 2개의 데이터 세트: 훈련 및 유효화 세트로 믹싱된다. 그 다음, 잘 알려진 감독된 훈련 알고리즘들 중 하나(예컨대, Levenberg-Marquardt 알고리즘과 같은)가 네트워크를 훈련하는데 사용된다.
분류기의 확고함은 추출된 특징 세트에 매우 의존한다. 특징들이 함께 상이 한 소스들을 식별하는 경우, 분류기는 수행을 잘할 것이다. 표준 오디오 특징을 증가시키기 위한 다중 분해능 및 부분 대역 필터링의 구현은 모노포닉 신호의 오디오 소스들을 식별하고 적당히 분류할 더 풍부한 특징 세트를 제시한다.
예시적 실시예에서, 모든 층에서의 tansig(쌍곡선 탄젠트) 활성체 함수(activator function)를 갖는 5-3-3 전방향 네트워크 아키텍처(입력층 상에 5개의 뉴런, 은닉층 상에 3개의 뉴런, 및 출력층 상에 3개의 뉴런)는, 음성, 타악기 소리, 및 현악기 소리의 3가지 유형의 소스 분류에 양호하게 수행된다. 사용된 전방향 아키텍처에서, 주어진 층의 각각의 뉴런은 (입력층을 제외한) 앞선 층의 모든 뉴런들에 접속된다. 입력층의 각각의 뉴런은 완전한 세트의 추출된 특징들을 수신했다. 특징들은, 다중 분해능 톤 성분, 다중 분해능 TNR, 및 켑스트럼 피크에 포함되는 네트워크에 제시되고, [-1:1] 범위에 적합하도록 미리 정규화된다. 네트워크의 제1 출력은 신호의 음성 소스의 존재를 시그널링한다. 제2 출력은 현악기의 존재를 시그널링한다. 그리고 최종적으로, 제3 출력은 타악기의 존재를 시그널링하도록 훈련되었다.
각각의 층에서, 'tansig' 활성체 함수가 사용되었다. j번째 층의 k번째의 출력을 계산하기 위한 계산상 효율적인 공식은 다음과 같이 주어진다.
Figure 112008028937483-PCT00002
A j ,k - j번째 층의 k번째 뉴런의 출력
W i j ,k - 뉴런의 가중치(훈련중의 세트)
입력층에 대한 공식은 다음과 같다.
Figure 112008028937483-PCT00003
F i - i 번째 특징
W i l ,k - 뉴런의 i번째 가중치(훈련중의 세트)
단순 분류기를 테스트하기 위해, 긴 오디오 파일이 3가지 상이한 종류의 오디오 신호로부터 연쇄된다(concatenate). 청색 선은 실제 존재하는 음성(독어 회화 음성)(130), 타악기(하이 햇츠)(132), 및 현악기(어쿠스틱 기타)(134)를 나타낸다. 파일은 거의 800개의 프레임 길이인데, 처음 370개의 프레임은 음성이고, 그 다음 100개의 프레임은 타악기이며, 마지막 350개의 프레임은 현악기이다. 청색선의 갑작스런 드롭아웃은 입력 신호의 묵음 기간에 대응한다. 녹색선은 분류기에 의해 주어진 음성(140), 타악기 소리(142 및 144)의 예측치를 나타낸다. 출력값은 잡음을 줄이도록 필터링되었다. 0 또는 1로부터 네트워크 출력이 얼만큼 떨어져 있는지, 그 거리는 입력 신호가 특정 오디오 소스를 포함하는지를 분류기가 어떻게 확신하는지에 대한 측정이다.
오디오 파일은, 실제로는 오디오 소스 중 어느 것도 동시에 나타나지 않는 모노포닉 신호를 나타내지만, 분류기의 능력을 증명하기에는 충분하면서도 간단하 다. 도 8c에 도시된 바와 같이, 분류기는 큰 확신을 가지고 실수없이 현악기를 식별했다. 도 8a 및 8b에 도시된 바와 같이, 음성 및 타악기 신호에 대한 수행은 만족스러웠지만, 약간의 오버랩이 존재했다. 다중 분해능 톤 성분의 사용은 타악기와 음성 단편 (실제로는, 소리없는 음성 단편) 사이를 더 효과적으로 구분할 것이다.
분류기는 출력은 소스 분리 알고리즘 (예, ICA)에 대해 복수의 오디오 채널을 생성하기 위한 프론트 엔드로서 사용되거나, 또는 후처리 알고리즘(예, 음악을 카테고리화하고, 소스를 추적하며, 네비게이션, 리믹싱, 보안 및 감시, 전화 및 무선 통신, 및 화상 회의 용도의 오디오 인데스를 발생)의 파라미터로서 사용될 수 있다.
도 9에 도시된 바와 같이, 분류기가 분리하려고 시도하는 소스만큼의 입력 채널을 요하는, ICA와 같은 블라인드 소스 분리(BSS) 알고리즘(150)에 대한 프론트 엔드로서 분류기가 사용된다. BBS 알고리즘이 모노포닉 신호로부터 음성, 타악기 소리, 및 현악기 소리의 소스를 분리하기를 원한다 해도, 이 알고리즘을 이를 행할 수 없다. NN 분류기는 음성, 타악기 소리, 및 현악기 소리에 대한 출력 뉴런(152)들을 갖도록 구성될 수 있다. 오디오 채널(156)의 모노포닉 신호 각각의 프레임을 음성(158), 타악기 소리(160), 및 현악기 소리(162) 인, 3개의 분리 오디오 채널로 믹스하기(154) 위한 가중치로서 뉴런 값들이 사용된다. 이 가중치들은 뉴런의 실제 값, 또는 프레임당 하나의 우세하는 신호를 식별하기 위한 임계값일 수 있다. 이 절차는 부분 대역 필터링을 이용하여 더 용이해질 수 있고 따라서 BSS를 위해 훨씬 더 많은 입력 채널들을 생성할 수 있다. BSS는 NN 분류기에 의해 제공된 초기 의 소스 분리를 더 용이하게 할 효과적인 알고리즘을 사용한다.
도 10에 도시된 바와 같이, NN 출력층 뉴런(170)들은 오디오 채널(174)의 모노포닉 출력 신호 상에 동작하는 후처리기(172)에서 사용될 수 있다.
트랙킹-알고리즘은 프레임별로 실행되는 다른 알고리즘(예, BSS)들과 함께 획득된 개개의 채널들에 적용될 수 있다. 알고리즘 출력을 이용하여, 이웃하는 프레임들의 링키지(linkage)가 가능해지거나 또는 더 안정적으로 또는 더 단순해질 수 있다.
오디오 식별 및 오디오 검색 엔진-추출된 신호 패턴의 유형 및 그것의 가능한 지속기간은 데이터베이스의 인덱스로서 (또는 해시 표에 대한 키로서) 사용될 수 있다.
코덱-신호 유형에 대한 정보는 코덱이 음성 심리학 모델, 비트 할당, 또는 다른 코딩 파라미터들을 미세 조정할 수 있도록 허용한다.
소스 분리하기 위한 프론트 엔드-ICA와 같은 알고리즘은 적어도 존재하는 소스만큼의 입력 채널들을 요구한다. 본 발명의 알고리즘은 단일 채널로부터 복수의 오디오 채널을 생성하거나 또는 이용 가능한 개개의 입력 채널의 수를 증가시키는데 사용될 수 있다.
리믹싱-개개의 분리된 채널은 중간에 (등화기와 같은) 후처리 알고리즘을 이용하여 모노포닉 표시 (또는 감소한 수의 채널을 갖는 표시)로 다시 리믹싱될 수 있다.
보안 및 감시-알고리즘 출력은 기록된 오디오의 이해도를 강화하기 위한 후 처리 알고리즘의 파라미터로서 사용될 수 있다.
전화 및 무선 통신, 그리고 화상회의-알고리즘은 개개의 스피커/소스를 분리하는데 사용될 수 있고, 후처리 알고리즘은 스테레오 또는 다채널 환경에 개개의 가상 위치를 할당할 수 있다. 감소한 수의 채널들 (또는 가능한 단일 채널)은 전송되어야 할 것이다.
본 발명의 몇몇 실시예들이 도시되고 설명되었지만, 많은 변경 및 대안적인 실시예들이 당업자들에게 발생할 것이다. 이와 같은 변경 및 대안적인 실시예들은 고려될 수 있으며, 첨부한 청구범위로 정의된 본 발명의 정신 및 범위로부터 벗어나지 않고 행해질 수 있다.

Claims (27)

  1. 모노포닉(monophonic) 오디오 신호로부터 오디오 소스를 분리하는 방법으로서,
    (a) 복수의 알려지지 않은 오디오 소스가 다운 믹스된 모노포닉 오디오 신호를 제공하는 단계;
    (b) 일련의 기준선 프레임으로 상기 오디오 신호를 분리하는 단계;
    (c) 각각의 프레임을 윈도잉하는(windowing) 단계;
    (d) 상기 오디오 소스를 구별하려는 경향이 있는 각각의 기준선 프레임으로부터 복수의 오디오 특징들을 추출하는 단계; 및
    (e) 상기 오디오 특징들을 갖는 오디오 소스의 대표적인 세트에 대해 훈련된 뉴럴 네트워크(NN) 분류기에 상기 오디오 특징들을 제공하는 단계
    를 포함하고, 상기 뉴럴 네트워크 분류기는 상기 모노포닉 오디오 신호의 상기 각각의 기준선 프레임에 포함된 오디오 소스의 적어도 하나의 측정치를 출력하는 것인, 오디오 소스 분리 방법.
  2. 제1항에 있어서, 상기 복수의 알려지지 않은 오디오 소스는 적어도 음성, 현악기 소리, 및 타악기 소리를 포함하는 한 세트의 음원 소스로부터 선택되는 것인, 오디오 소스 분리 방법.
  3. 제1항에 있어서,
    다중 분해능에서 특징들을 추출하기 위해, 상이한 프레임 사이즈에 대해 단계(b) 내지 (d)를 반복하는 단계; 및
    상이한 분해능에서 추출된 오디오 특징들을 상기 기준선 프레임으로 사이즈 조절하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  4. 제3항에 있어서, 각각의 분해능의 상기 사이즈 조절된 특징들을 상기 NN 분류기에 제공하는 단계를 더 포함하는 오디오 소스 분리 방법.
  5. 제3항에 있어서, 각각의 분해능의 사이즈 조절된 특징들을 상기 NN 분류기에 제공되는 하나의 특징으로 융합하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  6. 제1항에 있어서, 상기 프레임들을 복수의 주파수 부분 대역으로 필터링하고 상기 부분 대역으로부터 상기 오디오 특징들을 추출하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  7. 제1항에 있어서, 상기 분류기 출력을 저역(low-pass) 필터링하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  8. 제1항에 있어서, 톤 성분, 톤 대 잡음비(TNR), 및 켑스트럼(Cepstrum) 피크를 포함하는 하나의 세트로부터 하나 이상의 오디오 특징들이 선택되는 것인, 오디오 소스 분리 방법.
  9. 제8항에 있어서, 상기 톤 성분은,
    (f) 각각의 프레임에 대해 윈도잉된 신호에 주파수 변환을 적용하는 단계;
    (g) 상기 주파수 변환의 스펙트럼 선의 크기를 계산하는 단계;
    (h) 잡음 플로어를 추정하는 단계;
    (i) 임계치 양만큼 상기 잡음 플로어를 초과하는 스펙트럼 성분을 톤 성분으로서 식별하는 단계; 및
    (j) 상기 톤 성분의 수를 상기 톤 성분의 특징으로서 출력하는 단계
    를 수행함으로써 추출되는 것인, 오디오 소스 분리 방법.
  10. 제9항에 있어서, 상기 주파수의 변환 길이는 특정 시간-주파수 분해능에 대한 프레임의 오디오 샘플의 수와 같은 것인, 오디오 소스 분리 방법.
  11. 제10항에 있어서,
    상이한 프레임 및 변환 길이에 대해 단계(f) 내지 (i)를 반복하는 단계; 및
    각각의 시간-주파수 분해능의 축적된 톤 성분의 수를 출력하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  12. 제8항에 있어서, 상기 TNR은,
    (k) 각각의 프레임에 대해 윈도잉된 상기 신호에 주파수 변환을 적용하는 단계;
    (l) 상기 주파수 변환의 스펙트럼 선의 크기를 계산하는 단계;
    (m) 잡음 플로어를 추정하는 단계;
    (n) 식별된 톤 성분의 에너지 대 상기 잡음 플로어의 비를 결정하는 단계; 및
    (o) 상기 비를 상기 TNR의 특징으로서 출력하는 단계
    를 수행함으로써 추출되는 것인, 오디오 소스 분리 방법.
  13. 제12항에 있어서, 상기 주파수의 변환 길이는 특정 시간-주파수 분해능에 대한 상기 프레임의 오디오 샘플의 수와 같은 것인, 오디오 소스 분리 방법.
  14. 제13항에 있어서,
    상이한 프레임 및 변환 길이에 대해 단계(k) 내지 (n)을 반복하는 단계; 및
    상기 기준선 프레임과 같은 기간에 대한, 상기 상이한 분해능으로부터의 비의 평균을 구하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  15. 제12항에 있어서, 상기 잡음 플로어는,
    (p) 스펙트럼 선의 크기에 대해 저역 필터를 적용하는 단계;
    (q) 상기 필터의 출력보다 충분히 큰 성분들을 마킹하는 단계;
    (r) 상기 마킹한 성분들을 상기 저역 필터의 출력으로 대체하는 단계;
    (s) 단계 (a) 내지 (c)를 소정의 횟수만큼 반복하는 단계; 및
    (t) 잡음 플로어 추정으로서 상기 결과의 성분들을 출력하는 단계
    를 수행함으로써 추정되는 것인, 오디오 소스 분리 방법.
  16. 제1항에 있어서, 상기 뉴럴 네트워크 분류기는, 상기 모노포닉 오디오 신호에 특정 오디오 소스가 존재한다는 것을 각각 나타내는 복수의 출력 뉴런들을 포함하는 것인, 오디오 소스 분리 방법.
  17. 제16항에 있어서, 각각의 출력 뉴런의 값은, 상기 기준선 프레임이 상기 특정 오디오 소스를 포함한다는 확신을 나타내는 것인, 오디오 소스 분리 방법.
  18. 제1항에 있어서,
    대표적인 세트의 각각의 오디오 소스를 위한 복수의 오디오 채널로 상기 모노포닉 오디오 신호를 리믹싱하기 위해 상기 측정치를 사용하는 단계를 더 포함하는 오디오 소스 분리 방법.
  19. 제18항에 있어서, 상기 모노포닉 오디오 신호는 가장 우세한 것으로 식별된 오디오 채널에 스위칭됨으로써 리믹싱되는 것인, 오디오 소스 분리 방법.
  20. 제18항에 있어서,
    상기 뉴럴 네트워크 분류기는, 상기 프레임이 대응하는 오디오 소스를 포함한다는 확신을 나타내는 대표적인 세트의 오디오 소스 각각에 대한 측정치를 출력하고, 상기 모노포닉 오디오 신호는 상기 각각의 측정치에 의해 약화되고, 상기 각각의 오디오 채널로 지향되는 것인, 오디오 소스 분리 방법.
  21. 제18항에 있어서,
    상기 복수의 오디오 채널을 같은 수의 상기 오디오 소스로, 또는 그보다 적은 수의 상기 오디오 소스로 분리하기 위해, 적어도 오디오 소스만큼의 입력 오디오 채널을 요구하는 소스 분리 알고리즘을 이용하여 상기 복수의 오디오 채널을 처리하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  22. 제21항에 있어서, 상기 소스 분리 알고리즘은 블라인드 소스 분리(BSS)에 기초한 것인, 오디오 소스 분리 방법.
  23. 제1항에 있어서,
    모노포닉 오디오 신호의 후처리를 증대시키기 위해, 상기 측정치를 사용하는 후처리기에 상기 모노포닉 오디오 신호 및 일련의 측정치들을 전달하는 단계
    를 더 포함하는 오디오 소스 분리 방법.
  24. 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 방법으로서,
    (a) 복수의 알려지지 않은 오디오 소스가 다운 믹스된 모노포닉 오디오 신호를 제공하는 단계;
    (b) 일련의 기준선 프레임으로 오디오 신호를 분리하는 단계;
    (c) 각각의 프레임을 윈도잉하는(windowing) 단계;
    (d) 상기 오디오 소스를 구별하려는 경향이 있는 각각의 기준선 프레임으로부터 복수의 오디오 특징들을 추출하는 단계;
    (e) 다중 분해능에서 특징들을 추출하기 위해 상이한 프레임 사이즈로 단계 (b) 내지 (d)를 반복하는 단계;
    (f) 상기 상이한 분해능에서 추출된 오디오 특징들을 상기 기준선 프레임으로 사이즈 조절하는 단계; 및
    (g) 상기 오디오 특징들을 갖는 대표적인 오디오 소스 세트에 대해 훈련된 뉴럴 네트워크(NN) 분류기에 상기 오디오 특징들을 제공하는 단계
    를 포함하고, 상기 뉴럴 네트워크 분류기는, 각각의 기준선 프레임에 대해 모노포닉 오디오 신호에 특정 오디오 소스의 존재를 각각 시그널링하는 복수의 출 력 뉴런들을 갖는 것인, 오디오 소스 분리 방법.
  25. 오디오 소스 분류기로서,
    복수의 알려지지 않은 오디오 소스가 다운 믹스된 모노포닉 오디오 신호를 일련의 윈도잉된(windowed) 기준선 프레임으로 분리하는 프레이머(framer);
    상기 오디오 소스들 구별하려는 경향이 있는 각각의 기준선 프레임으로부터 복수의 오디오 특징들을 추출하는 특징 추출기; 및
    상기 오디오 특징을 갖는 오디오 소스의 대표적인 세트에 대해 훈련된 뉴럴 네트워크(NN) 분류기
    를 포함하고, 상기 뉴럴 네트워크 분류기는, 추출된 오디오 특징들을 수신하고, 상기 모노포닉 오디오 신호의 각각의 기준선 프레임에 포함된 적어도 하나의 오디오 소스의 측정치를 출력하는 것인, 오디오 소스 분류기.
  26. 제25항에 있어서, 상기 특징 추출기는 다중 시간-주파수 분해능에서 하나 이상의 오디오 특징들을 추출하는 것인, 오디오 소스 분류기.
  27. 제25항에 있어서,
    상기 NN 분류기는 각각의 기준선 프레임에 대해 상기 모노포닉 오디오 신호에 특정 오디오 소스의 존재를 각각 시그널링하는 복수의 출력 뉴런들을 갖는 것인, 오디오 소스 분류기.
KR1020087009683A 2005-10-06 2008-04-23 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 KR101269296B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/244,554 US20070083365A1 (en) 2005-10-06 2005-10-06 Neural network classifier for separating audio sources from a monophonic audio signal
US11/244,554 2005-10-06
PCT/US2006/038742 WO2007044377A2 (en) 2005-10-06 2006-10-03 Neural network classifier for seperating audio sources from a monophonic audio signal

Publications (2)

Publication Number Publication Date
KR20080059246A true KR20080059246A (ko) 2008-06-26
KR101269296B1 KR101269296B1 (ko) 2013-05-29

Family

ID=37911912

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087009683A KR101269296B1 (ko) 2005-10-06 2008-04-23 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기

Country Status (13)

Country Link
US (1) US20070083365A1 (ko)
EP (1) EP1941494A4 (ko)
JP (1) JP2009511954A (ko)
KR (1) KR101269296B1 (ko)
CN (1) CN101366078A (ko)
AU (1) AU2006302549A1 (ko)
BR (1) BRPI0616903A2 (ko)
CA (1) CA2625378A1 (ko)
IL (1) IL190445A0 (ko)
NZ (1) NZ566782A (ko)
RU (1) RU2418321C2 (ko)
TW (1) TWI317932B (ko)
WO (1) WO2007044377A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180134213A (ko) * 2017-06-08 2018-12-18 한국전자통신연구원 가변 윈도우 사이즈 기반의 음원 분리 방법 및 장치
KR20190080437A (ko) * 2017-12-28 2019-07-08 한양대학교 산학협력단 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1605437B1 (en) * 2004-06-04 2007-08-29 Honda Research Institute Europe GmbH Determination of the common origin of two harmonic components
EP1605439B1 (en) * 2004-06-04 2007-06-27 Honda Research Institute Europe GmbH Unified treatment of resolved and unresolved harmonics
EP1686561B1 (en) 2005-01-28 2012-01-04 Honda Research Institute Europe GmbH Determination of a common fundamental frequency of harmonic signals
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
JP5174027B2 (ja) * 2006-09-29 2013-04-03 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びミックス信号処理方法
US9418667B2 (en) 2006-10-12 2016-08-16 Lg Electronics Inc. Apparatus for processing a mix signal and method thereof
KR100891665B1 (ko) 2006-10-13 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
JP4838361B2 (ja) * 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2118886A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US8200489B1 (en) * 2009-01-29 2012-06-12 The United States Of America As Represented By The Secretary Of The Navy Multi-resolution hidden markov model using class specific features
WO2010098130A1 (ja) * 2009-02-27 2010-09-02 パナソニック株式会社 トーン判定装置およびトーン判定方法
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US8682669B2 (en) * 2009-08-21 2014-03-25 Synchronoss Technologies, Inc. System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems
EP4120263B1 (en) 2010-01-19 2023-08-09 Dolby International AB Improved subband block based harmonic transposition
US20110191102A1 (en) * 2010-01-29 2011-08-04 University Of Maryland, College Park Systems and methods for speech extraction
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
US8762154B1 (en) * 2011-08-15 2014-06-24 West Corporation Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system
US9210506B1 (en) * 2011-09-12 2015-12-08 Audyssey Laboratories, Inc. FFT bin based signal limiting
KR20130133541A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 오디오 신호 처리 방법 및 장치
EP2860729A4 (en) * 2012-06-04 2016-03-02 Samsung Electronics Co Ltd METHOD AND DEVICE FOR AUDIO CODING, METHOD AND DEVICE FOR AUDIO DECODING, AND MULTIMEDIA DEVICE EMPLOYING THEM
US9147157B2 (en) 2012-11-06 2015-09-29 Qualcomm Incorporated Methods and apparatus for identifying spectral peaks in neuronal spiking representation of a signal
CN103839551A (zh) * 2012-11-22 2014-06-04 鸿富锦精密工业(深圳)有限公司 音频处理系统与音频处理方法
CN103854644B (zh) * 2012-12-05 2016-09-28 中国传媒大学 单声道多音音乐信号的自动转录方法及装置
US10203839B2 (en) 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9892743B2 (en) * 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN104575507B (zh) * 2013-10-23 2018-06-01 中国移动通信集团公司 语音通信方法及装置
US10564923B2 (en) * 2014-03-31 2020-02-18 Sony Corporation Method, system and artificial neural network
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
WO2016014476A1 (en) 2014-07-23 2016-01-28 Schlumberger Canada Limited Cepstrum analysis of oilfield pumping equipment health
EP3192012A4 (en) * 2014-09-12 2018-01-17 Microsoft Technology Licensing, LLC Learning student dnn via output distribution
US20160162473A1 (en) * 2014-12-08 2016-06-09 Microsoft Technology Licensing, Llc Localization complexity of arbitrary language assets and resources
CN104464727B (zh) * 2014-12-11 2018-02-09 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
CN105070301B (zh) * 2015-07-14 2018-11-27 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
RU2698153C1 (ru) 2016-03-23 2019-08-22 ГУГЛ ЭлЭлСи Адаптивное улучшение аудио для распознавания многоканальной речи
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
EP3469584B1 (en) * 2016-06-14 2023-04-19 The Trustees of Columbia University in the City of New York Neural decoding of attentional selection in multi-speaker environments
CN106847302B (zh) * 2017-02-17 2020-04-14 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
CN107507621B (zh) * 2017-07-28 2021-06-22 维沃移动通信有限公司 一种噪声抑制方法及移动终端
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107749299B (zh) * 2017-09-28 2021-07-09 瑞芯微电子股份有限公司 一种多音频输出方法和装置
US10455325B2 (en) 2017-12-28 2019-10-22 Knowles Electronics, Llc Direction of arrival estimation for multiple audio content streams
WO2019133732A1 (en) * 2017-12-28 2019-07-04 Knowles Electronics, Llc Content-based audio stream separation
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
US10283140B1 (en) 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
JP6725185B2 (ja) * 2018-01-15 2020-07-15 三菱電機株式会社 音響信号分離装置および音響信号分離方法
FR3079706B1 (fr) * 2018-03-29 2021-06-04 Inst Mines Telecom Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11756564B2 (en) 2018-06-14 2023-09-12 Pindrop Security, Inc. Deep neural network based speech enhancement
CN108922517A (zh) * 2018-07-03 2018-11-30 百度在线网络技术(北京)有限公司 训练盲源分离模型的方法、装置及存储介质
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109272987A (zh) * 2018-09-25 2019-01-25 河南理工大学 一种分选煤和矸石的声音识别方法
KR20200063290A (ko) 2018-11-16 2020-06-05 삼성전자주식회사 오디오 장면을 인식하는 전자 장치 및 그 방법
DE102019200956A1 (de) * 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE102019200954A1 (de) 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
US11017774B2 (en) 2019-02-04 2021-05-25 International Business Machines Corporation Cognitive audio classifier
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
US11315585B2 (en) 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
CN110782915A (zh) * 2019-10-31 2020-02-11 广州艾颂智能科技有限公司 一种基于深度学习的波形音乐成分分离方法
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system
CN111370023A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种基于gru的乐器识别方法及系统
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
US11558699B2 (en) 2020-03-11 2023-01-17 Sonova Ag Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device
CN112115821B (zh) * 2020-09-04 2022-03-11 西北工业大学 一种基于小波近似系数熵的多信号智能调制模式识别方法
CN111787462B (zh) * 2020-09-04 2021-01-26 蘑菇车联信息科技有限公司 音频流处理方法及系统、设备、介质
US11839815B2 (en) 2020-12-23 2023-12-12 Advanced Micro Devices, Inc. Adaptive audio mixing
CN112488092B (zh) * 2021-02-05 2021-08-24 中国人民解放军国防科技大学 基于深度神经网络的导航频段信号类型识别方法及系统
CN113674756B (zh) * 2021-10-22 2022-01-25 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法
CN116828385A (zh) * 2023-08-31 2023-09-29 深圳市广和通无线通信软件有限公司 一种基于人工智能分析的音频数据处理方法及相关装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2807457B2 (ja) * 1987-07-17 1998-10-08 株式会社リコー 音声区間検出方式
JP3521844B2 (ja) 1992-03-30 2004-04-26 セイコーエプソン株式会社 ニューラルネットワークを用いた認識装置
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
JP4104626B2 (ja) * 2003-02-07 2008-06-18 日本電信電話株式会社 収音方法及び収音装置
US7091409B2 (en) * 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US7340398B2 (en) * 2003-08-21 2008-03-04 Hewlett-Packard Development Company, L.P. Selective sampling for sound signal classification
DE602004027774D1 (de) * 2003-09-02 2010-07-29 Nippon Telegraph & Telephone Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm
US7295607B2 (en) * 2004-05-07 2007-11-13 Broadcom Corporation Method and system for receiving pulse width keyed signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180134213A (ko) * 2017-06-08 2018-12-18 한국전자통신연구원 가변 윈도우 사이즈 기반의 음원 분리 방법 및 장치
KR20190080437A (ko) * 2017-12-28 2019-07-08 한양대학교 산학협력단 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법

Also Published As

Publication number Publication date
RU2418321C2 (ru) 2011-05-10
TW200739517A (en) 2007-10-16
NZ566782A (en) 2010-07-30
CN101366078A (zh) 2009-02-11
US20070083365A1 (en) 2007-04-12
WO2007044377B1 (en) 2008-11-27
JP2009511954A (ja) 2009-03-19
EP1941494A2 (en) 2008-07-09
EP1941494A4 (en) 2011-08-10
WO2007044377A3 (en) 2008-10-02
CA2625378A1 (en) 2007-04-19
KR101269296B1 (ko) 2013-05-29
IL190445A0 (en) 2008-11-03
AU2006302549A1 (en) 2007-04-19
BRPI0616903A2 (pt) 2011-07-05
WO2007044377A2 (en) 2007-04-19
TWI317932B (en) 2009-12-01
RU2008118004A (ru) 2009-11-20

Similar Documents

Publication Publication Date Title
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
Sharma et al. Trends in audio signal feature extraction methods
Zakariah et al. Digital multimedia audio forensics: past, present and future
Marchi et al. Multi-resolution linear prediction based features for audio onset detection with bidirectional LSTM neural networks
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
AU2002240461B2 (en) Comparing audio using characterizations based on auditory events
Hu et al. Pitch‐based gender identification with two‐stage classification
US10665248B2 (en) Device and method for classifying an acoustic environment
Alonso-Martin et al. Multidomain voice activity detection during human-robot interaction
Arumugam et al. An efficient approach for segmentation, feature extraction and classification of audio signals
Pilia et al. Time scaling detection and estimation in audio recordings
Valero et al. Classification of audio scenes using narrow-band autocorrelation features
Saishu et al. A CNN-based approach to identification of degradations in speech signals
Zhang et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks
Uhle et al. Speech enhancement of movie sound
Barbedo et al. A robust and computationally efficient speech/music discriminator
Htun Analytical approach to MFCC based space-saving audio fingerprinting system
Jahanirad et al. Blind source computer device identification from recorded VoIP calls for forensic investigation
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Joshi et al. Extraction of feature vectors for analysis of musical instruments
Lin et al. A new approach for classification of generic audio data
Kaur et al. Audio de-noising and quality assessment for various noises in lecture videos
Bharti et al. Speech Enhancement And Noise Reduction In Forensic Applications
MX2008004572A (en) Neural network classifier for seperating audio sources from a monophonic audio signal
Aljinu Khadar et al. Extraction of Vocal Tract Length from Formant Frequencies for Forensic Speech Applications in Noisy Environment

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160511

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170515

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee