KR20060021299A - 매개변수화된 시간 특징 분석 - Google Patents

매개변수화된 시간 특징 분석 Download PDF

Info

Publication number
KR20060021299A
KR20060021299A KR1020057020201A KR20057020201A KR20060021299A KR 20060021299 A KR20060021299 A KR 20060021299A KR 1020057020201 A KR1020057020201 A KR 1020057020201A KR 20057020201 A KR20057020201 A KR 20057020201A KR 20060021299 A KR20060021299 A KR 20060021299A
Authority
KR
South Korea
Prior art keywords
audio
audio feature
feature
additional
classifying
Prior art date
Application number
KR1020057020201A
Other languages
English (en)
Other versions
KR101101384B1 (ko
Inventor
제로엔 브레바트 덕
프란시스커스 맥키네이 마틴
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060021299A publication Critical patent/KR20060021299A/ko
Application granted granted Critical
Publication of KR101101384B1 publication Critical patent/KR101101384B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 적어도 하나의 오디오 신호(A)를 적어도 하나의 오디오 클래스(AC)로 분류하는 방법(1)에 관한 것이며, 상기 분류방법(1)은 적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10),다른 시간 인스턴스들에 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12), 상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12), 상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 단계(14)를 포함한다. 추가 오디오 특징을 사용하여, 오디오 특징의 시간 변동에 대한 정보를 획득하며, 이는 오디오를 분류하는데 유리할 수 있다.
오디오 신호, 오디오 클래스, 분류방법, 오디오 특징, 주파수 분석

Description

매개변수화된 시간 특징 분석{Parameterized temporal feature analysis}
본 발명은 적어도 하나의 오디오 신호를 적어도 하나의 오디오 클래스로 분류하기 위한 기술에 관한 것이다.
인터넷 및 방송기술의 발전은 사용자들로 하여금 대량의 멀티미디어 컨텐츠를 즐길 수 있도록 하였다. 데이터량의 급속한 증가로 인하여, 사용자들은 인입 데이터를 필터링하고 처리하며 저장하기 위한 자동화 방법들을 요구하게 되었다. 이들 기능들의 일부는 컨텐츠에 대한 정보를 제공하는 첨부 메타데이터에 의하여 지원된다. 그러나, 메타데이터가 종종 제공되지 않는 사실로 인하여, 정밀성 또는 정확성이 떨어지게 되며, 국부 처리 파워가 과도하게 증가되기 때문에 국부 자동 멀티미디어 분석에 대한 흥미가 점점 더 증가되고 있다. 메타데이터 분석은 오디오 신호의 자동 분류를 포함할 수 있다. 오디오 신호의 자동분류시에, 저레벨 신호 특징들은 시맨틱 의미(semantic meaning), 즉 분석 오디오 컨텐츠의 분류로 매핑된다. 예로서, 분류는 음악, 음성, 배경잡음 또는 침묵간의 구별일 수 있다. 또한, 음악장르 분류, 특정 오디오 하이라이트들의 자동검출 또는 자동 스피커 인식과 같은 다른 분류들도 가능하다. 오디오의 분류는 보통 두가지 스테이지들을 포함한다. 제 1스테이지는 입력 파형을 분석하고, 오디오 신호의 미리 결정된 특 성에 대한 정보를 제공하는 적어도 하나의 오디오 특징을 추출한다. 특징 추출 프로세스는 보통 큰 정보 감소를 포함한다. 제 2스테이지는 추출된 오디오 특징들에 기초하여 분류를 수행한다.
E. Wold 등은 "오디오의 컨텐츠-기반 분류, 탐색 및 검색" 제하의 IEEE Multimedia, Fall:27-36, 1996에서 오디오 분류를 위하여 사용될 수 있는 다수의 오디오 특징들을 제시했다. 이들 오디오 특징들은 오디오 신호의 대역폭, 휘도, 피치 및 소리 크기이다. 오디오 특징들은 시간에 따라 변화할 수 있으며, 이는 오디오 특징의 소위 궤도(trajectory)들을 야기한다. 특징 궤도들, 즉 오디오 특징의 시간 변동에 대한 정보를 획득하기 위하여, 다수의 추가 오디오 특징들이 도입된다. 이들 추가 오디오 특징들은 특징 궤도에 대한 오디오 특징의 평균값, 특징 궤도에 대한 오디오 특징의 분산, 및 작은 래그(lag)에서 특징 궤도에 대한 오디오 특징의 자기상관을 포함한다.
본 발명의 목적은 유리한 방식으로 오디오 특징의 시간 변동에 대한 정보를 획득하는데 있다. 상기와 같은 목적을 달성하기 위하여, 본 발명은 독립항들에서 특정된 방법, 시스템, 음악 시스템, 멀티미디어 시스템 및 매체를 제공한다. 유리한 실시예들은 종속항들에 의하여 한정된다.
본 발명의 양상에 따르면, 오디오 특징의 시간 동작에 대한 정보를 획득하기 위하여, 다른 시간 인스턴스들에서 오디오 특징 값들의 세트에 대하여 수행된 주파수 분석에 기초하는 추가 오디오 특징이 도입된다. 본 발명은 비록 시간에 따른 오디오 특징의 평균 및 분산이 오디오 특징의 시간 변동에 대한 정보를 제공할지라도 오디오 특징의 시간 변화율에 대한 임의의 정보를 제공하지 않는 관점에 기초한다. 더욱이, 오디오 특징의 평균 및 분산은 보통 상관된다. 예컨대, 만일 신호가 2의 인자에 의하여 스케일링되면, 단기간 에너지의 평균 및 표준편차는 동일한 인자로 스케일링한다. 대부분의 분류 알고리즘들은 분석된 오디오 특징들이 상관되지 않는 경우에 더 효율적으로 동작한다. 다음으로, Wold 등에서 도입된 오디오 특징의 자기상관은 오디오 특징이 시간에 따라 변화하는지의 여부 또는 오디오 특징이 주기적인지의 여부에 관한 측정일 수 있다. 그러나, 자기상관은 오디오 특징의 시간 동작에 대한 상세한 설명을 제공하지 않는다. 자기상관은 오디오 특징이 시간에 따라 얼마나 빨리 변화하는지에 대한 지시를 제공할 수 있으나, 이러한 지시는 전체 신호 전반에 걸쳐 평균된다. 따라서, 오디오 특징의 자기상관을 사용하면, 오디오 특징의 시간변동에 대한 제한된 정보만이 제공된다. 본 발명에 따른 추가 오디오 특징을 사용하면 앞서 언급된 문제점들중 적어도 하나가 해결된다.
본 발명의 다른 양상에 따르면, 주파수 분석에 대한 입력으로서 사용되는 오디오 특징은 공지된 적어도 하나의 오디오 특징일 수 있다. 예로서, 오디오 특징은 제곱평균제곱근(RMS) 레벨, 스펙트럼 중심, 대역폭, 영교차율, 스펙트럼 롤-오프 주파수, 대역 에너지비, 델타 스펙트럼 크기, 피치 및 피치 강도와 같은 다수의 오디오 특징들로부터 선택될 수 있다. 이들 오디오 특징들은 공지된 특징들이다. 이들 오디오 특징들을 사용할때의 장점은 오디오 특징들의 계산을 매우 단순화시킬 수 있으며 결국 필요로 되는 계산 부하가 감소된다는 점이다. 오디오 특징을 선택하기 위한 추가 가능성은 적어도 하나의 멜-주파수 켑스트럴 계수(MFCC)를 사용하는 것이다. MFCC 계수들은 오디오 신호의 진폭 스펙트럼의 매개변수화된 설명을 나타낸다. MFCC 계수는 그것의 컴팩트성으로 인하여 오디오 분류 알고리즘들에서 사용되며, 즉 MFCC 계수들은 단지 소수의 파라미터들을 가진 스펙트럼 엔벨로프를 나타낼 수 있다. 게다가, MFCC 계수들은 음성 신호들 및 음악에 대하여 대략 비상관된다. 또한, 전체 신호 레벨의 함수인 제 0 MFCC 계수를 제외하고, 나머지 계수들은 입력레벨에 따르지 않으며, 즉 나머지 계수들은 독립적인 이득이다. 오디오 특징을 선택하기 위한 또 다른 가능성은 보통 공지된 사이코-음향 특징들을 사용하는 것이다. 예로서, 이들 특징들은 오디오 신호의 소리 크기 및 선명도일 수 있다. 소리 크기는 강도의 감각이며, 선명도는 고주파수 에너지의 상대 강도 및 스펙트럼 밀도와 관련된 인식이다. 추가 오디오 특징들을 획득하기 위하여 이들 특징들을 선택하면 사이코-음향 특징들이 오디오의 인간의 인식과 관련되기 때문에 유리할 수 있다.
본 발명의 실시예에서, 추가 오디오 특징을 유도하기 위하여 평균(DC) 값은 다른 시간 인스턴스들에서 오디오 특징값들의 세트로 계산되고, 적어도 하나의 주파수 대역이 정의되며, 주파수 대역내의 에너지량은 주파수 분석으로부터 계산되며, 추가 오디오 특징은 평균(DC) 값에 따라 에너지량으로서 정의된다. 주파수 대역을 사용할때의 장점은 이러한 주파수 대역이 오디오 분류를 위하여 중요할 수 있는 특정 인식현상에 대응하도록 선택될 수 있다는 점이다. 예컨대, 음성 신호들은 3-15Hz 범위내에서의 주요한 엔벨로프 변조들을 포함하며, 상기 범위는 음절문자율(syllabic rate)에 대응한다. 음악 오디오 신호들과 같은 다른 오디오 신호들은 상기 범위내의 상대적으로 소수의 변조들을 가진다. 따라서, 만일 음성 오디오 신호들이 분류될 필요가 있으면, 3-15Hz의 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징들을 사용하는 것이 유리할 수 있다. 게다가, 20-150Hz 범위내에서의 엔벨로프 변조는 거칠기, 즉 음악 불협화음으로서 인식된다. 따라서, 협화음 또는 평활한 사운드들로부터 불협화음 또는 거친 사운드들을 구별하기 위하여, 20-50Hz 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징을 사용하는 것이 유리할 수 있다. 다음으로, 예컨대 1-2Hz 범위의 초저주파수에서의 엔벨로프 변조들은 소리 크기의 변화들로서 인식되다. 따라서, 다른 소리 크기 변화율들을 가진 사운드들을 구별하기 위하여, 1-2Hz의 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징을 사용하는 것이 유리하다. 또한, 음악 템포 정보는 1-2Hz의 범위내서 표현된다. 앞서 언급된 주파수 대역들이 단지 예로서 제공된다는 것을 유의해야 한다. 다른 특징 대역들은 본 발명의 범위를 벗어나지 않고 선택될 수 있다. 주파수 대역들이 중첩될 수 있으며 오디오 신호, 처리 결과들, 다른 외부 또는 내부 파라미터들 또는 이들의 결합에 따라 시간에 따라 변화할 수 있다는 것을 유의해야 한다.
본 발명의 다른 실시예에서, 추가 오디오 특징은 주파수 분석의 결과에 대하여 이산코사인 변환(DCT)을 수행하여 적어도 하나의 계수를 유도함으로서 결정된다. 적어도 하나의 DCT 계수를 사용할때의 장점은 DCT 계수들이 신호 레벨과 무관하다는 점이다. 게다가, 오디오 분류에 대해 유리할 수 있는 DCT 계수들은 비상관 계수들일 수 있다. 또한, DCT 계수들의 수를 증가시킴으로써, 주파수 분석의 결과에 대한 보다 자세한 세부사항들이 커버된다. 이러한 방식에서는 결과적인 처리부하와 관련한 세부레벨을 선택할 수 있다.
본 발명의 전술한 및 다른 양상들은 이후에 기술되는 실시예들로부터 명백해질 것이다.
도 1은 본 발명에 따라 오디오 신호를 분류하기 위한 방법의 일 실시예를 나타낸 블록도.
도 2는 본 발명에 따른 음악 시스템의 일 실시예를 나타낸 도면.
도 3은 본 발명에 따른 멀티미디어 시스템의 일 실시예를 나타낸 도면.
도 1은 본 발명에 따라 오디오 신호를 분류하기 위한 프로세스의 일 실시예를 나타낸 블록도를 도시한다. 프로세스의 입력으로서, 오디오 신호(A)가 사용된다. 오디오 신호(A)는 길이 Nl의 PCM 샘플들 x[n]의 프레임일 수 있다. 오디오 신호(A)는 특징 추출단계(10)에 대한 입력으로서 사용된다. 특징 추출단계(10)에서, 적어도 하나의 미리 결정된 오디오 특징 F가 결정된다. 추출된 오디오 특징(F)은 다음과 같은 오디오 특징들, 즉 제곱평균제곱근(RMS) 레벨, 스펙트럼 중심, 대역폭, 영교차율, 스펙트럼 롤-오프 주파수, 대역 에너지비, 델타 스펙트럼 크기, 피치 및 피치 강도중 적어도 하나인 것이 가능하다. 길이 N의 오디오 프레임의 RMS 레벨은 다음과 같이 계산된다.
Figure 112005060191310-PCT00001
수식(1)
스펙트럼 중심은 오디오 신호(A)의 파워 스펙트럼 P[k]에 기초한다. 파워 스펙트럼 P[k]는 FFT 연산에 의하여 다음과 같이 획득될 수 있다:
Figure 112005060191310-PCT00002
수식(2)
여기서, k는 다음과 같은 수식에 따라 주파수 f과 관련한 파워 스펙트럼 빈의 수이다.
Figure 112005060191310-PCT00003
수식(3)
여기서, fs는 입력신호의 샘플링율이다. 스펙트럼 중심 Sf은 다음과 같이 파워 스펙트럼 P[k]의 질량중심으로서 정의될 수 있다:
Figure 112005060191310-PCT00004
수식(4)
파워 스펙트럼 P[k]의 대역폭 Bf는 다음과 같이 정의될 수 있다:
Figure 112005060191310-PCT00005
수식(5)
영교차율 Rz은 미리 결정된 시간 프레임내에서 발생하는 오디오 신호(A)의 영교차점들의 수로서 정의될 수 있다. 스펙트럼 롤-오프 주파수 fr는 다음과 같은 주파수로서 정의될 수 있으며, 이 주파수이하의 에너지는 전체 신호 에너지의 미리 결정된 비례치 p(0 < p < 1)이다:
Figure 112005060191310-PCT00006
수식(6)
대역-에너지비 Br는 미리 결정된 주파수 범위 f1-f2 Hz에 존재하는 상대 에너지량으로서 다음과 같이 정의될 수 있다.
Figure 112005060191310-PCT00007
수식(7)
델타 스펙트럼 크기 fd는 스펙트럼에서 변화의 상관치이다. 만일 두개의 다음 시간-프레임이 (정규화된) 파워 스펙트럼 Pi[k] 및 Pi+ 1[k]를 가지면, 델타 스펙트럼 크기는 다음과 같이 정의될 수 있다:
Figure 112005060191310-PCT00008
수식(8)
피치 T는 제한된 지연 범위내에서 자기상관 함수의 최대치를 선택함으로서 계산될 수 있다. 피치 강도 S는 피치값에 대응하는 정규화된 자기상관 함수에서 최대 피치의 높이로서 정의될 수 있다.
앞서 언급된 오디오 특징을 추출한 다음에, 추출된 오디오 특징 F는 적어도 하나의 멜-주파수 켑스트럴 계수(MFCC)일 수 있다. MFCC 계수를 결정하기 위하여, 0≤n≤N-1에서 주어진 오디오 프레임 x[n]에 대하여, 파워 스펙트럼은 예컨대 x[n]의 퓨리에 변환을 취함으로서 계산될 수 있으며, 이 계산 결과 X[k]는 다음과 같다.
Figure 112005060191310-PCT00009
수식(9)
여기서 h[n]는 시간 윈도우를 나타낸다. 이러한 윈도우의 예는 공지된 해밍 윈도우이다. X[k]의 진폭 스펙트럼
Figure 112005060191310-PCT00010
은 필터 커널들의 세트로 곱해진다. 이들 필터들의 중심 주파수들은 다음과 같이 정의될 수 있고 주파수 f와 무관한 멜-주파수 스케일 fm에 대하여 일정 간격을 가진다.
Figure 112005060191310-PCT00011
수식(10)
입력 스펙트럼은 멜-주파수 스케일로 선형적으로 이격된 대역폭 및 간격을 가진 kn 삼각형 필터들 G[k, kn]를 포함하는 필터뱅크를 사용하여 멜-주파수 스펙트럼으로 변환된다. 그 다음에, 멜-주파수 스펙트럼은 필터 커널 및 진폭 스펙트럼의 내적의 로그에 의하여 주어진다.
Figure 112005060191310-PCT00012
수식(11)
멜-주파수 켑스트럼 계수들(MFCC) c[n]을 획득하기 위하여, 멜-주파수 스펙트럼의 이산코사인변환은 다음과 같이 계산된다.
Figure 112005060191310-PCT00013
수식(12)
추출된 오디오 특징 F를 선택하기 위한 추가 가능성은 오디오 신호의 소리 크기 또는 선명도와 같은 적어도 하나의 사이코-음향(PA) 오디오 특징을 사용하는 것이다. 소리 크기를 정의하는 예는 Eberhard Zwicker et al., in "Psychoacoustics: Facts and Models", volume 22 of Springer series on information sciences, Springer-Verlag, Berlin, 2nd edition, 1999에 개시되어 있다. 선명도를 정의하는 예는 "Sharpness as an attribute of the timbre of steady sounds" in Acustica, 30: 159-172, 1974에 개시되어 있다. 본 발명에 다른 추가 오디오 특징을 획득하기 위하여 선택될 수 있는 사이코-음향 특징들을 추출하기 위한 다수의 방법들이 공지되어 있다.
추가 오디오 특징은 추가 오디오 추출단계(12)에서 획득된다. 추가 특징 추출단계(12)에서, 다른 시간의 오디오 특징 F 값들의 세트가 정의된다. 또한, 값들의 세트는 고정 크기를 가질 수 있거나 또는 가변적일 수 있다. 또한, 값들의 세트들은 중첩될 수 있다. 다음으로, 주파수 분석은 시간 t=[0..T]에서 오디오 특징 F의 값들의 세트 F(t)에 대하여 수행되며, 이는 다음과 같은 특징 로그 파워 스펙트럼
Figure 112005060191310-PCT00014
을 야기한다.
Figure 112005060191310-PCT00015
수식(13)
특징 로그 파워 스펙트럼을 매개변수화하기 위하여, 파워 스펙트럼의 주파수 축은 적어도 하나의 미리 결정된 주파수 대역내의 에너지를 합산함으로서 총계가 구해진다. 합산은 예컨대 주파수에 무관하거나 또는 에너지 그 자체에 따라 에너지들의 가중합일 수 있다. 예로서, 미리 결정된 주파수 대역은 주파수 대역들 1-2Hz, 3-15Hz 및 20-150Hz중 적어도 하나일 수 있다. 1-2Hz 주파수 대역은 초저주파수에서의 엔벨로프 변조들이 소리 크기의 변화들로서 인식될때 다른 소리 크기 변화율을 가진 사운드들을 구별하는데 바람직할 수 있다. 또한, 음악 템포 정보는 이러한 주파수 범위로부터 이용가능하다. 3-15Hz 주파수 대역은 3-15Hz 범위내의 주요한 엔벨로프 변조들을 포함하는 음성 신호들을 분류하는데 바람직할 수 있으며, 3-15Hz 범위는 음절문자율에 대응한다. 음악 오디오 신호들과 같은 다른 오디오 신호들은 이러한 범위내의 극소수 변조들을 가진다. 20-150Hz 주파수 대역은 20-150Hz 범위내에서의 엔벨로프 변조들이 거칠기, 즉 음악 불협화음으로서 인식될때 협화음 또는 스무스한 사운드들로부터 불협화음 또는 거친 사운드들을 구별하는데 바람직하다. 최종적으로, 미리 결정된 주파수 대역내의 에너지량은 상대 변조 깊이를 산출하기 위하여 오디오 특징의 다음 값들에 대한 평균(DC)에 의해 분할될 수 있다. 평균은 특징 파워 스펙트럼
Figure 112005060191310-PCT00016
에서 0 Hz 에너지를 평가함으로서 획득될 수 있다. 이러한 계산 결과는 오디오 신호를 분류하기 위하여 사용될 수 있는 추가 오디오 특징 Fmod이다. 특징 로그 파워 스펙트럼을 매개변수화하기 위한 다른 방법은 이산코사인변환(DCT)을 사용하여 로그-파워 스펙트럼
Figure 112005060191310-PCT00017
을 다음과 같은 적어도 하나의 계수 C(m)로 변환하는 것이다.
Figure 112005060191310-PCT00018
수식(14)
여기서 fa 및 fb는 대상 주파수 대역의 시작 및 종료 주파수를 나타낸다. 보통, 상부 주파수 fb는 fs의 샘플링 주파수의 절반이다. 지금, 계수 C(m)는 추가 오디오 특징 Fmod로서 사용된다. C(0)는 로그 스케일에서 변조 평균들의 양을 나타내며, 전체 변조 깊이와 관련된다.
Figure 112005060191310-PCT00019
Figure 112005060191310-PCT00020
을 나누기 때문에, 변조 깊이 파라미터는 신호 레벨과 무관하다. 게다가, 오디오를 분류할때 유리할 수 있는 DCT 계수들이 비상관 계수들이라는 것을 유의해야 한다. 또한, 계수들 C(m)의 수를 증가시킴으로서 특징 로그-파워 스펙트럼
Figure 112005060191310-PCT00021
의 세부사항이 커버된다는 것을 유의해야 한다.
오디오 신호의 분류는 오디오 분류단계(14)에서 수행된다. 오디오 특징들에 기초하여 오디오를 분류하기 위한 다양한 방법들이 공지되어 있다. 이들 방법들중 일부는 특징 추출단계(10)에서 유도된 오디오 특징 F와 관련하여 추가 오디오 특징 Fmod를 사용하는 오디오 분류단계(14)에서 사용될 수 있다. 예로서, 오디오 분류단계(14)는 다변량 가우시안 모델들, 가우시안 혼합 모델들, 자체-편성 맵들, 신경회로망들, k-최근접 이웃 방식들 및 은폐 마르코프 모델들중 적어도 하나를 포함한 다. 이들 오디오 분류 방법들은 종래에 공지되어 있으며 본 발명의 범위내에 속하지 않기 때문에 상세히 설명하지 않을 것이다. 분류단계(14)의 결과는 적어도 하나의 오디오 클래스 AC이다. 오디오의 분류가 유사성 측정들, 예컨대 유사 음악 검색을 포함할 수 있다는 것에 유의해야 한다. 분류는 세그먼트화 절차, 예컨대 오디오 특징들을 사용하여 장면 변화들의 식별을 추가로 포함할 수 있다.
도 2는 본 발명에 따른 음악 시스템(2)의 실시예를 도시한다. 음악 시스템(2)은 오디오 데이터를 포함하는 매체(22)를 포함한다. 매체(22)는 컴팩트 디스크와 같은 소거가능 매체일 수 있거나 또는 예컨대 하드 디스크가 시스템에 통합되는 바와같이 음악 시스템(2)에 통합될 수 있다. 음악 시스템은 오디오 수신기를 나타낼 수 있다. 이러한 경우에, 매체(22)는 다른 위치에 있을 수 있으며, 오디오 데이터는 예컨대 무선, 인터넷 또는 위성에 의하여 오디오 수신기로 방송된다. 매체(22)는 마이크로폰 또는 음악 장비와 같은 오디오 데이터 생성 장치일 수 있다. 오디오 데이터는 오디오 데이터 처리장치(24)에 전송된다. 오디오 데이터 처리 장치(24)는 오디오 증폭기를 포함할 수 있고, 또한 오디오 데이터를 적응시키는 오디오 처리수단 및 오디오 분류 프로세스를 제어하는 제어수단을 추가로 포함할 수 있다. 오디오 데이터 처리장치(24)로부터의 결과 신호는 스피커와 같은 사운드 생성 장치(26)에 전송된다. 음악 시스템(2)은 오디오 분류 시스템(20)을 더 포함한다. 오디오 분류 시스템은 본 발명에 따라 오디오 데이터로부터 특징들을 추출하고 오디오 데이터를 적어도 하나의 미리 결정된 오디오 클래스로 분류한다. 오디오 데이터는 오디오 데이터 처리장치(24)로부터 획득될 수 있거나 또는 매체(22)로부터 직접 획득될 수 있다. 결과적인 오디오 클래스 또는 클래스들은 추가 처리를 위하여 오디오 데이터 처리장치(24)에 전송된다. 예컨대, 오디오 클래스에 기초하여 오디오 데이터는 재생되거나 또는 재생되지 않을 수 있으며, 또는 오디오 클래스에 기초하여 정보는 사용자가 청취중인 컨텐츠에 대하여 사용자에게 제공될 수 있다. 분류를 위하여 사용되는 특징들은 오디오 데이터를 가지는 신호로부터 이용가능하며, 이 신호는 본 발명에 따라 획득되는 적어도 하나의 추가 오디오 특징을 포함한다. 음악 시스템(2)이 오디오 수신기를 지시할때, 오디오 수신기는 본 발명에 따라 획득되는 적어도 하나의 추가 오디오 특징을 포함하는 신호를 수신하기 위한 수단을 더 포함할 수 있으며, 여기서 추가 오디오 특징은 분류를 위하여 사용될 수 있다.
도 3은 본 발명에 따른 멀티미디어 시스템(3)의 실시예를 도시한다. 멀티미디어 시스템(3)은 오디오및 비디오 데이터를 포함하는 매체(32)를 포함한다. 오디오 또는 비디오 데이터 중 하나를 포함하는 다른 매체들이 존재할 수 있다. 매체는 소거가능 매체일 수 있거나, 또는 시스템(3)내에 통합될 수 있거나, 또는 방송을 통해 이용가능할 수 있다. 오디오 및 비디오 데이터는 오디오 및 비디오 처리장치(34)에 전송된다. 오디오 및 비디오 처리장치(34)는 오디오 및 비디오 재생장치(36)를 통해 오디오 및 비디오 데이터를 재생하기 위하여 오디오 및 비디오를 처리하는 수단을 포함한다. 오디오 및 비디오 재생장치(36)는 예컨대 텔레비전, 모니터 또는 투영기일 수 있다. 오디오 및 비디오 재생 장치(36)는 시스템(3)에 통합될 수 있으나 이는 필수적인 것이 아니다. 오디오 및 비디오 처리장치(34)는 비 디오 분석 시스템(38)을 제어하는 제어수단을 더 포함할 수 있다. 비디오 분석 시스템(38)은 매체(32)로부터 또는 오디오 및 비디오 처리장치(34)로부터 직접 획득된 비디오 데이터를 분석할 수 있다. 예로서, 비디오 분석 시스템(38)은 압축방식으로 이용가능한 비디오 데이터를 디코딩하는 비디오 디코더, 예컨대 MPEG 디코더, 상업용 블록 검출기, 영화 검출기 또는 비디오 분류 시스템(이들은 공지되어 있음)을 포함할 수 있다. 비디오 분석 시스템(38)의 결과치들은 오디오 및 비디오 처리장치(34)에 전송된다. 오디오 및 비디오 처리장치(34)는 오디오 분류 시스템(20)을 제어하기 위한 수단을 더 포함할 수 있다. 오디오 분류 시스템(20)은 음악 시스템(2)에서와 동일한 방식으로 기능을 한다. 게다가, 오디오 및 비디오 처리장치(34)는 비디오 분석시스템(38) 및 오디오 분류 시스템(20)으로부터의 결과치들을 결합하는 수단을 더 포함할 수 있다. 예컨대, 영화가 비디오 분석 시스템(38)에 의하여 검출될때, 오디오 분류 시스템(20)은 영화의 음성을 영화에서 연기하는 임의의 배우로부터의 음성 클래스로 분류할 수 있다.
당업자는 앞서 언급된 실시예들이 본 발명을 제한하지 않고 첨부된 청구범위로부터 벗어나지 않고 많은 대안 실시예들이 고안될 수 있다는 것을 이해해야 한다. 청구범위에서, 괄호내의 임의의 도면부호들은 청구범위를 제한하는 것으로 구성되지 않는다. 단어 "포함한다"는 청구항에 리스트된 엘리먼트들 또는 단계들과 다른 엘리먼트들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 여러 개별 엘리먼트들을 포함하는 하드웨어에 의하여 그리고 적절하게 프로그래밍된 컴퓨터에 의하여 구현될 수 있다. 여러 수단들을 열거하는 장치 청구항에서, 상기 수단들중 여러 수단은 하드웨어의 하나 및 동일한 항목에 의하여 구현될 수 있다. 임의의 측정치들이 서로 다른 종속항들에서 인용되는 단순한 사실은 상기 측정치들의 결합이 유리하게 사용될 수 있다는 것을 지시한다.

Claims (12)

  1. 적어도 하나의 오디오 신호(A)를 적어도 하나의 오디오 클래스(AC)로 분류하기 위한 방법(1)으로서,
    적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10);
    다른 시간 인스턴스들(time instances)에서 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12);
    상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12); 및
    상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 단계(14)를 포함하는, 오디오 클래스 분류방법.
  2. 제 1항에 있어서, 상기 적어도 하나의 미리 결정된 오디오 특징은,
    제곱평균제곱근(RMS) 레벨,
    스펙트럼 중심(Sf),
    대역폭(Bf),
    영교차율(Rz),
    스펙트럼 롤-오프 주파수(fr),
    대역 에너지비(Br),
    델타 스펙트럼 크기(fd),
    피치(T), 및
    피치 강도(S) 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
  3. 제 1항에 있어서, 상기 미리 결정된 오디오 특징은 적어도 하나의 멜-주파수 켑스트럴 계수(mel-frequency cepstral coefficient; MFCC)를 포함하는, 오디오 클래스 분류방법.
  4. 제 1항에 있어서, 상기 미리 결정된 오디오 특징은 크기 및 선명도와 같은 사이코-음향(PA) 오디오 특징들 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
  5. 제 1항에 있어서, 상기 유도단계(12)는,
    다른 시간 인스턴스들에서 상기 오디오 특징 값들의 상기 세트에 대한 평균(DC)값을 계산하는 단계;
    적어도 하나의 주파수 대역을 정의하는 단계;
    상기 주파수 분석으로부터 상기 주파수 대역내의 에너지량을 계산하는 단계; 및
    상기 평균(DC) 값에 따라 상기 추가 오디오 특징을 상기 에너지량으로서 정의하는 단계를 포함하는, 오디오 클래스 분류방법.
  6. 제 5항에 있어서, 변조 주파수 대역들 즉, 1-2Hz, 3-15Hz 및 20-150Hz중 적어도 하나는 매개변수화 단계에서 사용되는, 오디오 클래스 분류방법.
  7. 제 1항에 있어서, 상기 적어도 하나의 추가 오디오 특징은 상기 주파수 분석의 결과에 대하여 이산코사인변환(DCT)을 수행함으로서 획득된 적어도 하나의 계수(C(m))로서 정의되는, 오디오 클래스 분류방법.
  8. 적어도 하나의 오디오 신호를 적어도 하나의 오디오 클래스로 분류하기 위한 시스템(20)으로서,
    적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 수단(10);
    다른 시간 인스턴스들에서 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 수단(12);
    상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 수단(12); 및
    상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 수단(14)을 포함하는, 오디오 클래스 분류 시스템.
  9. 음악 시스템(2)으로서,
    매체(22)로부터 오디오 데이터를 재생하는 수단(24); 및
    상기 오디오 데이터를 분류하기 위한 제8항에 따른 시스템(20)을 포함하는, 음악 시스템(2).
  10. 멀티미디어 시스템(3)으로서,
    매체(32)로부터 오디오 데이터를 재생하는 수단(34);
    상기 오디오 데이터를 분류하는 제8항에 따른 시스템(20);
    추가 매체(32)로부터 비디오 데이터를 디스플레이하는 수단(36);
    상기 비디오 데이터를 분석하는 수단(38); 및
    상기 오디오 데이터를 분류하는 시스템(20)으로부터 획득된 결과치들과 상기 비디오 데이터를 분석하는 수단(38)으로부터 획득된 결과치들을 결합하는 수단(34)을 포함하는, 멀티미디어 시스템(3).
  11. 신호(22,32)로서,
    적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 오디오 신호를 분석하는 단계(10);
    다른 시간 인스턴스들에서 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12); 및
    상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12)에 의하여 획득된 상기 적어도 하나의 추가 오디오 특징을 포함하는 신호(22, 32).
  12. 오디오 신호를 수신하는 수단 및 신호(22, 32)를 수신하는 수단을 포함하는 오디오 수신기(2)로서, 상기 신호(22, 32)는,
    적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10),
    다른 시간 인스턴스들에서 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12), 및
    상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 상기 적어도 하나의 추가 오디오 특징을 유도하는 단계(12)에 의하여 획득된 적어도 하나의 추가 오디오 신호 특징을 포함하는, 상기 오디오 수신기(2)에 있어서,
    상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 수단(14)을 더 포함하는, 오디오 수신기(2).
KR1020057020201A 2003-04-24 2004-04-21 파라미터화된 시간 특징 분석 KR101101384B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03101146.3 2003-04-24
EP03101146 2003-04-24
PCT/IB2004/050477 WO2004095315A1 (en) 2003-04-24 2004-04-21 Parameterized temporal feature analysis

Publications (2)

Publication Number Publication Date
KR20060021299A true KR20060021299A (ko) 2006-03-07
KR101101384B1 KR101101384B1 (ko) 2012-01-02

Family

ID=33305806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057020201A KR101101384B1 (ko) 2003-04-24 2004-04-21 파라미터화된 시간 특징 분석

Country Status (6)

Country Link
US (1) US8311821B2 (ko)
EP (1) EP1620811A1 (ko)
JP (1) JP4795934B2 (ko)
KR (1) KR101101384B1 (ko)
CN (1) CN100543731C (ko)
WO (1) WO2004095315A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100974871B1 (ko) * 2008-06-24 2010-08-11 연세대학교 산학협력단 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1605439B1 (en) * 2004-06-04 2007-06-27 Honda Research Institute Europe GmbH Unified treatment of resolved and unresolved harmonics
US8156123B2 (en) * 2004-06-25 2012-04-10 Apple Inc. Method and apparatus for processing metadata
US8131674B2 (en) 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
KR101049345B1 (ko) * 2004-07-23 2011-07-13 가부시끼가이샤 디 앤 엠 홀딩스 오디오 신호 출력 장치
WO2006050731A2 (en) 2004-11-09 2006-05-18 Bang & Olufsen A/S A procedure and apparatus for generating automatic replay of recordings
US7895138B2 (en) * 2004-11-23 2011-02-22 Koninklijke Philips Electronics N.V. Device and a method to process audio data, a computer program element and computer-readable medium
CN101213543A (zh) 2005-06-30 2008-07-02 皇家飞利浦电子股份有限公司 创建内容项目序列的电子设备和方法
BRPI0617432A2 (pt) 2005-10-17 2011-07-26 Koninkl Philips Electronics Nv mÉtodos para calcular uma mÉtrica de similaridade, e um fator de ponderaÇço, software, e, dispositivo eletrânico para calcular uma mÉtrica de similaridade
EP1941486B1 (en) * 2005-10-17 2015-12-23 Koninklijke Philips N.V. Method of deriving a set of features for an audio input signal
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US20080003961A1 (en) * 2006-06-29 2008-01-03 International Business Machines Corporation Apparatus and method for scanning radio waves
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
WO2009001202A1 (en) * 2007-06-28 2008-12-31 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
JP4623124B2 (ja) 2008-04-07 2011-02-02 ソニー株式会社 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
JP5204904B2 (ja) * 2009-01-30 2013-06-05 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号品質予測
US8687839B2 (en) 2009-05-21 2014-04-01 Digimarc Corporation Robust signatures derived from local nonlinear filters
GB0908879D0 (en) * 2009-05-22 2009-07-01 Univ Ulster A system and method of streaming music repair and error concealment
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US8401683B2 (en) * 2009-08-31 2013-03-19 Apple Inc. Audio onset detection
JP5641326B2 (ja) * 2010-12-21 2014-12-17 ソニー株式会社 コンテンツ再生装置および方法、並びにプログラム
EP2666160A4 (en) * 2011-01-17 2014-07-30 Nokia Corp AUDIO SCENE PROCESSING APPARATUS
JP5702666B2 (ja) * 2011-05-16 2015-04-15 富士通テン株式会社 音響装置および音量補正方法
WO2013030623A1 (en) * 2011-08-30 2013-03-07 Nokia Corporation An audio scene mapping apparatus
CN103092854B (zh) * 2011-10-31 2017-02-08 深圳光启高等理工研究院 一种音乐数据分类方法
CN102568470B (zh) * 2012-01-11 2013-12-25 广州酷狗计算机科技有限公司 一种音频文件音质识别方法及其系统
US9055376B1 (en) * 2013-03-08 2015-06-09 Google Inc. Classifying music by genre using discrete cosine transforms
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
WO2015027327A1 (en) * 2013-08-28 2015-03-05 Mixgenius Inc. System and method for performing automatic audio production using semantic data
JP6260022B2 (ja) * 2013-09-03 2018-01-17 株式会社国際電気通信基礎技術研究所 制御信号生成装置およびパワーアシスト装置
US9275136B1 (en) 2013-12-03 2016-03-01 Google Inc. Method for siren detection based on audio samples
CN104036788B (zh) * 2014-05-29 2016-10-05 北京音之邦文化科技有限公司 音频文件的音质识别方法及装置
EP2963817B1 (en) * 2014-07-02 2016-12-28 GN Audio A/S Method and apparatus for attenuating undesired content in an audio signal
CN104091601A (zh) * 2014-07-10 2014-10-08 腾讯科技(深圳)有限公司 音乐品质检测方法和装置
US11308928B2 (en) 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
EP3889954B1 (en) 2014-09-25 2024-05-08 Sunhouse Technologies, Inc. Method for extracting audio from sensors electrical signals
US9653094B2 (en) 2015-04-24 2017-05-16 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US11817115B2 (en) * 2016-05-11 2023-11-14 Cerence Operating Company Enhanced de-esser for in-car communication systems
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
CN107369447A (zh) * 2017-07-28 2017-11-21 梧州井儿铺贸易有限公司 一种基于语音识别的室内智能控制系统
JP7000757B2 (ja) * 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US10403303B1 (en) * 2017-11-02 2019-09-03 Gopro, Inc. Systems and methods for identifying speech based on cepstral coefficients and support vector machines
US11154251B2 (en) 2018-02-10 2021-10-26 The Governing Council Of The University Of Toronto System and method for classifying time series data for state identification
US10186247B1 (en) * 2018-03-13 2019-01-22 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
US20210389486A1 (en) * 2018-11-29 2021-12-16 Bp Exploration Operating Company Limited DAS Data Processing to Identify Fluid Inflow Locations and Fluid Type

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US5581658A (en) * 1993-12-14 1996-12-03 Infobase Systems, Inc. Adaptive system for broadcast program identification and reporting
DE69637514D1 (de) 1995-03-30 2008-06-19 Thomson Licensing Verfahren und Anordnung zur Klassifizierung von Videosignalen
US5701391A (en) * 1995-10-31 1997-12-23 Motorola, Inc. Method and system for compressing a speech signal using envelope modulation
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5899969A (en) * 1997-10-17 1999-05-04 Dolby Laboratories Licensing Corporation Frame-based audio coding with gain-control words
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US20010044719A1 (en) 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US7028325B1 (en) * 1999-09-13 2006-04-11 Microsoft Corporation Annotating programs for automatic summary generation
JP3757719B2 (ja) * 1999-11-19 2006-03-22 松下電器産業株式会社 音響データ分析方法及びその装置
JP4461557B2 (ja) * 2000-03-09 2010-05-12 パナソニック株式会社 音声認識方法および音声認識装置
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
JP3601465B2 (ja) * 2001-03-23 2004-12-15 三菱電機株式会社 目標観測システム
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100974871B1 (ko) * 2008-06-24 2010-08-11 연세대학교 산학협력단 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치

Also Published As

Publication number Publication date
EP1620811A1 (en) 2006-02-01
CN1777891A (zh) 2006-05-24
US8311821B2 (en) 2012-11-13
WO2004095315A1 (en) 2004-11-04
US20060196337A1 (en) 2006-09-07
CN100543731C (zh) 2009-09-23
KR101101384B1 (ko) 2012-01-02
JP2006524359A (ja) 2006-10-26
JP4795934B2 (ja) 2011-10-19

Similar Documents

Publication Publication Date Title
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
US9466275B2 (en) Complexity scalable perceptual tempo estimation
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US8036884B2 (en) Identification of the presence of speech in digital audio data
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US20130289756A1 (en) Ranking Representative Segments in Media Data
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US9892758B2 (en) Audio information processing
WO2015114216A2 (en) Audio signal analysis
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
JP2001147697A (ja) 音響データ分析方法及びその装置
Izumitani et al. A background music detection method based on robust feature extraction
Pfeiffer et al. Formalisation of MPEG-1 compressed domain audio features
Tardieu et al. Production effect: audio features for recording techniques description and decade prediction
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy
Kos et al. On-line speech/music segmentation for broadcast news domain
Fenton Audio Dynamics: Towards a Perceptual Model of'punch'.
Pfeiffer et al. Survey of compressed domain audio features and their expressiveness
MX2008004572A (en) Neural network classifier for seperating audio sources from a monophonic audio signal
Munoz-Expósito et al. NEW WARPED LPC-BASED FEATURE FOR FAST AND ROBUST SPEECH/MUSIC DISCRIMINATION
JPS6054000A (ja) 音声の有声・無声判定方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141218

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee