KR101101384B1

KR101101384B1 - 파라미터화된 시간 특징 분석

Info

Publication number: KR101101384B1
Application number: KR1020057020201A
Authority: KR
Inventors: 제로엔 브레바트 덕; 프란시스커스 맥키네이 마틴
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-04-24
Filing date: 2004-04-21
Publication date: 2012-01-02
Also published as: EP1620811A1; WO2004095315A1; US8311821B2; CN1777891A; CN100543731C; JP4795934B2; JP2006524359A; US20060196337A1; KR20060021299A

Abstract

본 발명은 적어도 하나의 오디오 신호(A)를 적어도 하나의 오디오 클래스(AC)로 분류하는 방법(1)에 관한 것이며, 상기 분류방법(1)은 적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10),다른 시간 인스턴스들에 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12), 상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12), 상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 단계(14)를 포함한다. 추가 오디오 특징을 사용하여, 오디오 특징의 시간 변동에 대한 정보를 획득하며, 이는 오디오를 분류하는데 유리할 수 있다.

오디오 신호, 오디오 클래스, 분류방법, 오디오 특징, 주파수 분석

Description

파라미터화된 시간 특징 분석{Parameterized temporal feature analysis}

본 발명은 적어도 하나의 오디오 신호를 적어도 하나의 오디오 클래스로 분류하기 위한 기술에 관한 것이다.

인터넷 및 방송기술의 발전은 사용자들로 하여금 대량의 멀티미디어 컨텐츠를 즐길 수 있도록 하였다. 데이터량의 급속한 증가로 인하여, 사용자들은 인입 데이터를 필터링하고 처리하며 저장하기 위한 자동화 방법들을 요구하게 되었다. 이들 기능들의 일부는 컨텐츠에 대한 정보를 제공하는 첨부 메타데이터에 의하여 지원된다. 그러나, 메타데이터가 종종 제공되지 않는 사실로 인하여, 정밀성 또는 정확성이 떨어지게 되며, 국부 처리 파워가 과도하게 증가되기 때문에 국부 자동 멀티미디어 분석에 대한 흥미가 점점 더 증가되고 있다. 메타데이터 분석은 오디오 신호의 자동 분류를 포함할 수 있다. 오디오 신호의 자동 분류시에, 저레벨 신호 특징들은 시맨틱 의미(semantic meaning), 즉 분석 오디오 컨텐츠의 분류로 매핑된다. 예로서, 분류는 음악, 음성, 배경잡음 또는 침묵간의 구별일 수 있다. 또한, 음악장르 분류, 특정 오디오 하이라이트들의 자동검출 또는 자동 스피커 인식과 같은 다른 분류들도 가능하다. 오디오의 분류는 보통 두가지 스테이지들을 포함한다. 제 1스테이지는 입력 파형을 분석하고, 오디오 신호의 미리 결정된 특성에 대한 정보를 제공하는 적어도 하나의 오디오 특징을 추출한다. 특징 추출 프로세스는 보통 큰 정보 감소를 포함한다. 제 2스테이지는 추출된 오디오 특징들에 기초하여 분류를 수행한다.

E. Wold 등은 "오디오의 컨텐츠-기반 분류, 탐색 및 검색" 제하의 IEEE Multimedia, Fall:27-36, 1996에서 오디오 분류를 위하여 사용될 수 있는 다수의 오디오 특징들을 제시했다. 이들 오디오 특징들은 오디오 신호의 대역폭, 휘도, 피치 및 소리 크기이다. 오디오 특징들은 시간에 따라 변화할 수 있으며, 이는 오디오 특징의 소위 궤도(trajectory)들을 야기한다. 특징 궤도들, 즉 오디오 특징의 시간 변동에 대한 정보를 획득하기 위하여, 다수의 추가 오디오 특징들이 도입된다. 이들 추가 오디오 특징들은 특징 궤도에 대한 오디오 특징의 평균값, 특징 궤도에 대한 오디오 특징의 분산, 및 작은 래그(lag)에서 특징 궤도에 대한 오디오 특징의 자기상관을 포함한다.

본 발명의 목적은 유리한 방식으로 오디오 특징의 시간 변동에 대한 정보를 획득하는데 있다. 상기와 같은 목적을 달성하기 위하여, 본 발명은 독립항들에서 특정된 방법, 시스템, 음악 시스템, 멀티미디어 시스템 및 매체를 제공한다. 유리한 실시예들은 종속항들에 의하여 한정된다.

본 발명의 양상에 따르면, 오디오 특징의 시간 동작에 대한 정보를 획득하기 위하여, 다른 시간 인스턴스들에서 오디오 특징 값들의 세트에 대하여 수행된 주파수 분석에 기초하는 추가 오디오 특징이 도입된다. 본 발명은 비록 시간에 따른 오디오 특징의 평균 및 분산이 오디오 특징의 시간 변동에 대한 정보를 제공할지라도 오디오 특징의 시간 변화율에 대한 임의의 정보를 제공하지 않는 관점에 기초한다. 더욱이, 오디오 특징의 평균 및 분산은 보통 상관된다. 예컨대, 만일 신호가 2의 인자에 의하여 스케일링되면, 단기간 에너지의 평균 및 표준편차는 동일한 인자로 스케일링한다. 대부분의 분류 알고리즘들은 분석된 오디오 특징들이 상관되지 않는 경우에 더 효율적으로 동작한다. 다음으로, Wold 등에서 도입된 오디오 특징의 자기상관은 오디오 특징이 시간에 따라 변화하는지의 여부 또는 오디오 특징이 주기적인지의 여부에 관한 측정일 수 있다. 그러나, 자기상관은 오디오 특징의 시간 동작에 대한 상세한 설명을 제공하지 않는다. 자기상관은 오디오 특징이 시간에 따라 얼마나 빨리 변화하는지에 대한 지시를 제공할 수 있으나, 이러한 지시는 전체 신호 전반에 걸쳐 평균된다. 따라서, 오디오 특징의 자기상관을 사용하면, 오디오 특징의 시간변동에 대한 제한된 정보만이 제공된다. 본 발명에 따른 추가 오디오 특징을 사용하면 앞서 언급된 문제점들중 적어도 하나가 해결된다.

본 발명의 다른 양상에 따르면, 주파수 분석에 대한 입력으로서 사용되는 오디오 특징은 공지된 적어도 하나의 오디오 특징일 수 있다. 예로서, 오디오 특징은 제곱평균제곱근(RMS) 레벨, 스펙트럼 중심, 대역폭, 영교차율, 스펙트럼 롤-오프 주파수, 대역 에너지비, 델타 스펙트럼 크기, 피치 및 피치 강도와 같은 다수의 오디오 특징들로부터 선택될 수 있다. 이들 오디오 특징들은 공지된 특징들이다. 이들 오디오 특징들을 사용할때의 장점은 오디오 특징들의 계산을 매우 단순화시킬 수 있으며 결국 필요로 되는 계산 부하가 감소된다는 점이다. 오디오 특징을 선택하기 위한 추가 가능성은 적어도 하나의 멜-주파수 켑스트럴 계수(MFCC)를 사용하는 것이다. MFCC 계수들은 오디오 신호의 진폭 스펙트럼의 파라미터화된 설명을 나타낸다. MFCC 계수는 그것의 컴팩트성으로 인하여 오디오 분류 알고리즘들에서 사용되며, 즉 MFCC 계수들은 단지 소수의 파라미터들을 가진 스펙트럼 엔벨로프를 나타낼 수 있다. 게다가, MFCC 계수들은 음성 신호들 및 음악에 대하여 대략 비상관된다. 또한, 전체 신호 레벨의 함수인 제 0 MFCC 계수를 제외하고, 나머지 계수들은 입력레벨에 따르지 않으며, 즉 나머지 계수들은 독립적인 이득이다. 오디오 특징을 선택하기 위한 또 다른 가능성은 보통 공지된 사이코-음향 특징들을 사용하는 것이다. 예로서, 이들 특징들은 오디오 신호의 소리 크기 및 선명도일 수 있다. 소리 크기는 강도의 감각이며, 선명도는 고주파수 에너지의 상대 강도 및 스펙트럼 밀도와 관련된 인식이다. 추가 오디오 특징들을 획득하기 위하여 이들 특징들을 선택하면 사이코-음향 특징들이 오디오의 인간의 인식과 관련되기 때문에 유리할 수 있다.

본 발명의 실시예에서, 추가 오디오 특징을 유도하기 위하여 평균(DC) 값은 다른 시간 인스턴스들에서 오디오 특징값들의 세트로 계산되고, 적어도 하나의 주파수 대역이 정의되며, 주파수 대역내의 에너지량은 주파수 분석으로부터 계산되며, 추가 오디오 특징은 평균(DC) 값에 따라 에너지량으로서 정의된다. 주파수 대역을 사용할 때의 장점은 이러한 주파수 대역이 오디오 분류를 위하여 중요할 수 있는 특정 인식현상에 대응하도록 선택될 수 있다는 점이다. 예컨대, 음성 신호들은 3-15Hz 범위내에서의 주요한 엔벨로프 변조들을 포함하며, 상기 범위는 음절문자율(syllabic rate)에 대응한다. 음악 오디오 신호들과 같은 다른 오디오 신호들은 상기 범위내의 상대적으로 소수의 변조들을 가진다. 따라서, 만일 음성 오디오 신호들이 분류될 필요가 있으면, 3-15Hz의 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징들을 사용하는 것이 유리할 수 있다. 게다가, 20-150Hz 범위내에서의 엔벨로프 변조는 거칠기, 즉 음악 불협화음으로서 인식된다. 따라서, 협화음 또는 평활한 사운드들로부터 불협화음 또는 거친 사운드들을 구별하기 위하여, 20-50Hz 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징을 사용하는 것이 유리할 수 있다. 다음으로, 예컨대 1-2Hz 범위의 초저주파수에서의 엔벨로프 변조들은 소리 크기의 변화들로서 인식되다. 따라서, 다른 소리 크기 변화율들을 가진 사운드들을 구별하기 위하여, 1-2Hz의 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징을 사용하는 것이 유리하다. 또한, 음악 템포 정보는 1-2Hz의 범위내서 표현된다. 앞서 언급된 주파수 대역들이 단지 예로서 제공된다는 것을 유의해야 한다. 다른 특징 대역들은 본 발명의 범위를 벗어나지 않고 선택될 수 있다. 주파수 대역들이 중첩될 수 있으며 오디오 신호, 처리 결과들, 다른 외부 또는 내부 파라미터들 또는 이들의 결합에 따라 시간에 따라 변화할 수 있다는 것을 유의해야 한다.

본 발명의 다른 실시예에서, 추가 오디오 특징은 주파수 분석의 결과에 대하여 이산코사인 변환(DCT)을 수행하여 적어도 하나의 계수를 유도함으로서 결정된다. 적어도 하나의 DCT 계수를 사용할때의 장점은 DCT 계수들이 신호 레벨과 무관하다는 점이다. 게다가, 오디오 분류에 대해 유리할 수 있는 DCT 계수들은 비상관 계수들일 수 있다. 또한, DCT 계수들의 수를 증가시킴으로써, 주파수 분석의 결과에 대한 보다 자세한 세부사항들이 커버된다. 이러한 방식에서는 결과적인 처리부하와 관련한 세부레벨을 선택할 수 있다.

본 발명의 전술한 및 다른 양상들은 이후에 기술되는 실시예들로부터 명백해질 것이다.

도 1은 본 발명에 따라 오디오 신호를 분류하기 위한 방법의 일 실시예를 나타낸 블록도.

도 2는 본 발명에 따른 음악 시스템의 일 실시예를 나타낸 도면.

도 3은 본 발명에 따른 멀티미디어 시스템의 일 실시예를 나타낸 도면.

도 1은 본 발명에 따라 오디오 신호를 분류하기 위한 프로세스의 일 실시예를 나타낸 블록도를 도시한다. 프로세스의 입력으로서, 오디오 신호(A)가 사용된다. 오디오 신호(A)는 길이 N_l의 PCM 샘플들 x[n]의 프레임일 수 있다. 오디오 신호(A)는 특징 추출단계(10)에 대한 입력으로서 사용된다. 특징 추출단계(10)에서, 적어도 하나의 미리 결정된 오디오 특징 F가 결정된다. 추출된 오디오 특징(F)은 다음과 같은 오디오 특징들, 즉 제곱평균제곱근(RMS) 레벨, 스펙트럼 중심, 대역폭, 영교차율, 스펙트럼 롤-오프 주파수, 대역 에너지비, 델타 스펙트럼 크기, 피치 및 피치 강도중 적어도 하나인 것이 가능하다. 길이 N의 오디오 프레임의 RMS 레벨은 다음과 같이 계산된다.

수식(1)

스펙트럼 중심은 오디오 신호(A)의 파워 스펙트럼 P[k]에 기초한다. 파워 스펙트럼 P[k]는 FFT 연산에 의하여 다음과 같이 획득될 수 있다:

수식(2)

여기서, k는 다음과 같은 수식에 따라 주파수 f과 관련한 파워 스펙트럼 빈의 수이다.

수식(3)

여기서, f_s는 입력신호의 샘플링율이다. 스펙트럼 중심 S_f은 다음과 같이 파워 스펙트럼 P[k]의 질량중심으로서 정의될 수 있다:

수식(4)

파워 스펙트럼 P[k]의 대역폭 B_f는 다음과 같이 정의될 수 있다:

수식(5)

영교차율 R_z은 미리 결정된 시간 프레임내에서 발생하는 오디오 신호(A)의 영교차점들의 수로서 정의될 수 있다. 스펙트럼 롤-오프 주파수 f_r는 다음과 같은 주파수로서 정의될 수 있으며, 이 주파수이하의 에너지는 전체 신호 에너지의 미리 결정된 비례치 p(0 < p < 1)이다:

수식(6)

대역-에너지비 B_r는 미리 결정된 주파수 범위 f₁-f₂ Hz에 존재하는 상대 에너지량으로서 다음과 같이 정의될 수 있다.

수식(7)

델타 스펙트럼 크기 f_d는 스펙트럼에서 변화의 상관치이다. 만일 두개의 다음 시간-프레임이 (정규화된) 파워 스펙트럼 P_i[k] 및 P_i+ ₁[k]를 가지면, 델타 스펙트럼 크기는 다음과 같이 정의될 수 있다:

수식(8)

피치 T는 제한된 지연 범위내에서 자기상관 함수의 최대치를 선택함으로서 계산될 수 있다. 피치 강도 S는 피치값에 대응하는 정규화된 자기상관 함수에서 최대 피치의 높이로서 정의될 수 있다.

앞서 언급된 오디오 특징을 추출한 다음에, 추출된 오디오 특징 F는 적어도 하나의 멜-주파수 켑스트럴 계수(MFCC)일 수 있다. MFCC 계수를 결정하기 위하여, 0≤n≤N-1에서 주어진 오디오 프레임 x[n]에 대하여, 파워 스펙트럼은 예컨대 x[n]의 퓨리에 변환을 취함으로서 계산될 수 있으며, 이 계산 결과 X[k]는 다음과 같다.

수식(9)

여기서 h[n]는 시간 윈도우를 나타낸다. 이러한 윈도우의 예는 공지된 해밍 윈도우이다. X[k]의 진폭 스펙트럼 은

필터 커널들의 세트로 곱해진다. 이들 필터들의 중심 주파수들은 다음과 같이 정의될 수 있고 주파수 f와 무관한 멜-주파수 스케일 f_m에 대하여 일정 간격을 가진다.

수식(10)

입력 스펙트럼은 멜-주파수 스케일로 선형적으로 이격된 대역폭 및 간격을 가진 k_n 삼각형 필터들 G[k, k_n]를 포함하는 필터뱅크를 사용하여 멜-주파수 스펙트럼으로 변환된다. 그 다음에, 멜-주파수 스펙트럼은 필터 커널 및 진폭 스펙트럼의 내적의 로그에 의하여 주어진다.

수식(11)

멜-주파수 켑스트럼 계수들(MFCC) c[n]을 획득하기 위하여, 멜-주파수 스펙트럼의 이산 코사인 변환은 다음과 같이 계산된다.

수식(12)

추출된 오디오 특징 F를 선택하기 위한 추가 가능성은 오디오 신호의 소리 크기 또는 선명도와 같은 적어도 하나의 사이코-음향(PA) 오디오 특징을 사용하는 것이다. 소리 크기를 정의하는 예는 Eberhard Zwicker et al., in "Psychoacoustics: Facts and Models", volume 22 of Springer series on information sciences, Springer-Verlag, Berlin, 2^nd edition, 1999에 개시되어 있다. 선명도를 정의하는 예는 "Sharpness as an attribute of the timbre of steady sounds" in Acustica, 30: 159-172, 1974에 개시되어 있다. 본 발명에 다른 추가 오디오 특징을 획득하기 위하여 선택될 수 있는 사이코-음향 특징들을 추출하기 위한 다수의 방법들이 공지되어 있다.

추가 오디오 특징은 추가 오디오 추출단계(12)에서 획득된다. 추가 특징 추출단계(12)에서, 다른 시간의 오디오 특징 F 값들의 세트가 정의된다. 또한, 값들의 세트는 고정 크기를 가질 수 있거나 또는 가변적일 수 있다. 또한, 값들의 세트들은 중첩될 수 있다. 다음으로, 주파수 분석은 시간 t=[0..T]에서 오디오 특징 F의 값들의 세트 F(t)에 대하여 수행되며, 이는 다음과 같은 특징 로그 파워 스펙트럼

을 야기한다.

수식(13)

특징 로그 파워 스펙트럼을 파라미터화하기 위하여, 파워 스펙트럼의 주파수 축은 적어도 하나의 미리 결정된 주파수 대역내의 에너지를 합산함으로서 총계가 구해진다. 합산은 예컨대 주파수에 무관하거나 또는 에너지 그 자체에 따라 에너지들의 가중합일 수 있다. 예로서, 미리 결정된 주파수 대역은 주파수 대역들 1-2Hz, 3-15Hz 및 20-150Hz중 적어도 하나일 수 있다. 1-2Hz 주파수 대역은 초저주파수에서의 엔벨로프 변조들이 소리 크기의 변화들로서 인식될때 다른 소리 크기 변화율을 가진 사운드들을 구별하는데 바람직할 수 있다. 또한, 음악 템포 정보는 이러한 주파수 범위로부터 이용가능하다. 3-15Hz 주파수 대역은 3-15Hz 범위내의 주요한 엔벨로프 변조들을 포함하는 음성 신호들을 분류하는데 바람직할 수 있으며, 3-15Hz 범위는 음절문자율에 대응한다. 음악 오디오 신호들과 같은 다른 오디오 신호들은 이러한 범위내의 극소수 변조들을 가진다. 20-150Hz 주파수 대역은 20-150Hz 범위내에서의 엔벨로프 변조들이 거칠기, 즉 음악 불협화음으로서 인식될때 협화음 또는 스무스한 사운드들로부터 불협화음 또는 거친 사운드들을 구별하는데 바람직하다. 최종적으로, 미리 결정된 주파수 대역내의 에너지량은 상대 변조 깊이를 산출하기 위하여 오디오 특징의 다음 값들에 대한 평균(DC)에 의해 분할될 수 있다. 평균은 특징 파워 스펙트럼

에서 0 Hz 에너지를 평가함으로써 획득될 수 있다. 이러한 계산 결과는 오디오 신호를 분류하기 위하여 사용될 수 있는 추가 오디오 특징 F_mod이다. 특징 로그 파워 스펙트럼을 파라미터화하기 위한 다른 방법은 이산 코사인 변환(DCT)을 사용하여 로그-파워 스펙트럼

을 다음과 같은 적어도 하나의 계수 C(m)로 변환하는 것이다.

수식(14)

여기서 f_a 및 f_b는 대상 주파수 대역의 시작 및 종료 주파수를 나타낸다. 보통, 상부 주파수 f_b는 f_s의 샘플링 주파수의 절반이다. 지금, 계수 C(m)는 추가 오디오 특징 F_mod로서 사용된다. C(0)는 로그 스케일에서 변조 평균들의 양을 나타내며, 전체 변조 깊이와 관련된다.

로

을 나누기 때문에, 변조 깊이 파라미터는 신호 레벨과 무관하다. 게다가, 오디오를 분류할때 유리할 수 있는 DCT 계수들이 비상관 계수들이라는 것을 유의해야 한다. 또한, 계수들 C(m)의 수를 증가시킴으로써 특징 로그-파워 스펙트럼

의 세부사항이 커버된다는 것을 유의해야 한다.

오디오 신호의 분류는 오디오 분류단계(14)에서 수행된다. 오디오 특징들에 기초하여 오디오를 분류하기 위한 다양한 방법들이 공지되어 있다. 이들 방법들중 일부는 특징 추출단계(10)에서 유도된 오디오 특징 F와 관련하여 추가 오디오 특징 F_mod를 사용하는 오디오 분류단계(14)에서 사용될 수 있다. 예로서, 오디오 분류단계(14)는 다변량 가우시안 모델들, 가우시안 혼합 모델들, 자체-편성 맵들, 신경회로망들, k-최근접 이웃 방식들 및 은폐 마르코프 모델들중 적어도 하나를 포함한 다. 이들 오디오 분류 방법들은 종래에 공지되어 있으며 본 발명의 범위내에 속하지 않기 때문에 상세히 설명하지 않을 것이다. 분류단계(14)의 결과는 적어도 하나의 오디오 클래스 AC이다. 오디오의 분류가 유사성 측정들, 예컨대 유사 음악 검색을 포함할 수 있다는 것에 유의해야 한다. 분류는 세그먼트화 절차, 예컨대 오디오 특징들을 사용하여 장면 변화들의 식별을 추가로 포함할 수 있다.

도 2는 본 발명에 따른 음악 시스템(2)의 실시예를 도시한다. 음악 시스템(2)은 오디오 데이터를 포함하는 매체(22)를 포함한다. 매체(22)는 컴팩트 디스크와 같은 소거가능 매체일 수 있거나 또는 예컨대 하드 디스크가 시스템에 통합되는 바와같이 음악 시스템(2)에 통합될 수 있다. 음악 시스템은 오디오 수신기를 나타낼 수 있다. 이러한 경우에, 매체(22)는 다른 위치에 있을 수 있으며, 오디오 데이터는 예컨대 무선, 인터넷 또는 위성에 의하여 오디오 수신기로 방송된다. 매체(22)는 마이크로폰 또는 음악 장비와 같은 오디오 데이터 생성 장치일 수 있다. 오디오 데이터는 오디오 데이터 처리장치(24)에 전송된다. 오디오 데이터 처리 장치(24)는 오디오 증폭기를 포함할 수 있고, 또한 오디오 데이터를 적응시키는 오디오 처리수단 및 오디오 분류 프로세스를 제어하는 제어수단을 추가로 포함할 수 있다. 오디오 데이터 처리장치(24)로부터의 결과 신호는 스피커와 같은 사운드 생성 장치(26)에 전송된다. 음악 시스템(2)은 오디오 분류 시스템(20)을 더 포함한다. 오디오 분류 시스템은 본 발명에 따라 오디오 데이터로부터 특징들을 추출하고 오디오 데이터를 적어도 하나의 미리 결정된 오디오 클래스로 분류한다. 오디오 데이터는 오디오 데이터 처리장치(24)로부터 획득될 수 있거나 또는 매체(22)로부터 직접 획득될 수 있다. 결과적인 오디오 클래스 또는 클래스들은 추가 처리를 위하여 오디오 데이터 처리장치(24)에 전송된다. 예컨대, 오디오 클래스에 기초하여 오디오 데이터는 재생되거나 또는 재생되지 않을 수 있으며, 또는 오디오 클래스에 기초하여 정보는 사용자가 청취중인 컨텐츠에 대하여 사용자에게 제공될 수 있다. 분류를 위하여 사용되는 특징들은 오디오 데이터를 가지는 신호로부터 이용가능하며, 이 신호는 본 발명에 따라 획득되는 적어도 하나의 추가 오디오 특징을 포함한다. 음악 시스템(2)이 오디오 수신기를 지시할때, 오디오 수신기는 본 발명에 따라 획득되는 적어도 하나의 추가 오디오 특징을 포함하는 신호를 수신하기 위한 수단을 더 포함할 수 있으며, 여기서 추가 오디오 특징은 분류를 위하여 사용될 수 있다.

도 3은 본 발명에 따른 멀티미디어 시스템(3)의 실시예를 도시한다. 멀티미디어 시스템(3)은 오디오 및 비디오 데이터를 포함하는 매체(32)를 포함한다. 오디오 또는 비디오 데이터 중 하나를 포함하는 다른 매체들이 존재할 수 있다. 매체는 소거가능 매체일 수 있거나, 또는 시스템(3)내에 통합될 수 있거나, 또는 방송을 통해 이용가능할 수 있다. 오디오 및 비디오 데이터는 오디오 및 비디오 처리장치(34)에 전송된다. 오디오 및 비디오 처리장치(34)는 오디오 및 비디오 재생장치(36)를 통해 오디오 및 비디오 데이터를 재생하기 위하여 오디오 및 비디오를 처리하는 수단을 포함한다. 오디오 및 비디오 재생장치(36)는 예컨대 텔레비전, 모니터 또는 투영기일 수 있다. 오디오 및 비디오 재생 장치(36)는 시스템(3)에 통합될 수 있으나 이는 필수적인 것이 아니다. 오디오 및 비디오 처리장치(34)는 비디오 분석 시스템(38)을 제어하는 제어수단을 더 포함할 수 있다. 비디오 분석 시스템(38)은 매체(32)로부터 또는 오디오 및 비디오 처리장치(34)로부터 직접 획득된 비디오 데이터를 분석할 수 있다. 예로서, 비디오 분석 시스템(38)은 압축방식으로 이용가능한 비디오 데이터를 디코딩하는 비디오 디코더, 예컨대 MPEG 디코더, 상업용 블록 검출기, 영화 검출기 또는 비디오 분류 시스템(이들은 공지되어 있음)을 포함할 수 있다. 비디오 분석 시스템(38)의 결과치들은 오디오 및 비디오 처리장치(34)에 전송된다. 오디오 및 비디오 처리장치(34)는 오디오 분류 시스템(20)을 제어하기 위한 수단을 더 포함할 수 있다. 오디오 분류 시스템(20)은 음악 시스템(2)에서와 동일한 방식으로 기능을 한다. 게다가, 오디오 및 비디오 처리장치(34)는 비디오 분석시스템(38) 및 오디오 분류 시스템(20)으로부터의 결과치들을 결합하는 수단을 더 포함할 수 있다. 예컨대, 영화가 비디오 분석 시스템(38)에 의하여 검출될때, 오디오 분류 시스템(20)은 영화의 음성을 영화에서 연기하는 임의의 배우로부터의 음성 클래스로 분류할 수 있다.

당업자는 앞서 언급된 실시예들이 본 발명을 제한하지 않고 첨부된 청구범위로부터 벗어나지 않고 많은 대안 실시예들이 고안될 수 있다는 것을 이해해야 한다. 청구범위에서, 괄호내의 임의의 도면부호들은 청구범위를 제한하는 것으로 구성되지 않는다. 단어 "포함한다"는 청구항에 리스트된 엘리먼트들 또는 단계들과 다른 엘리먼트들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 여러 개별 엘리먼트들을 포함하는 하드웨어에 의하여 그리고 적절하게 프로그래밍된 컴퓨터에 의하여 구현될 수 있다. 여러 수단들을 열거하는 장치 청구항에서, 상기 수단들중 여러 수단은 하드웨어의 하나 및 동일한 항목에 의하여 구현될 수 있다. 임의의 측정치들이 서로 다른 종속항들에서 인용되는 단순한 사실은 상기 측정치들의 결합이 유리하게 사용될 수 있다는 것을 지시한다.

Claims

적어도 하나의 오디오 신호(A)를 적어도 하나의 오디오 클래스(AC)로 분류하기 위한 방법(1)으로서,

적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10);

상기 미리 결정된 오디오 특징의 파워 스펙트럼을 발생시키도록 다른 시간 인스턴스들(time instances)에서 상기 미리 결정된 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12);

상기 파워 스펙트럼을 파라미터화함으로써 상기 미리 결정된 오디오 특징의 시간 동작(temporal behavior)을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12); 및

상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 단계(14)를 포함하는, 오디오 클래스 분류방법.
제 1항에 있어서, 상기 적어도 하나의 미리 결정된 오디오 특징은,

제곱평균제곱근(RMS) 레벨,

스펙트럼 중심(S_f),

대역폭(B_f),

영교차율(R_z),

스펙트럼 롤-오프 주파수(f_r),

대역 에너지비(B_r),

델타 스펙트럼 크기(f_d),

피치(T), 및

피치 강도(S) 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
제 1항에 있어서, 상기 미리 결정된 오디오 특징은 적어도 하나의 멜-주파수 켑스트럴 계수(mel-frequency cepstral coefficient; MFCC)를 포함하는, 오디오 클래스 분류방법.
제 1항에 있어서, 상기 미리 결정된 오디오 특징은 소리 크기(loudness) 및 선명도와 같은 사이코-음향(PA) 오디오 특징들 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
제 1항에 있어서, 상기 유도하는 단계(12)는,

다른 시간 인스턴스들에서 상기 미리 결정된 오디오 특징 값들의 상기 세트에 대한 평균(DC)값을 계산하는 단계;

적어도 하나의 주파수 대역을 정의하는 단계;

상기 주파수 분석으로부터 상기 주파수 대역내의 에너지량을 계산하는 단계; 및

상기 평균(DC) 값에 의존하여 상기 추가 오디오 특징을 상기 에너지량으로서 정의하는 단계를 포함하는, 오디오 클래스 분류방법.
제 5항에 있어서, 상기 적어도 하나의 주파수 대역은 변조 주파수 대역들 1-2Hz, 3-15Hz 및 20-150Hz 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
제 1항에 있어서, 상기 적어도 하나의 추가 오디오 특징은 상기 주파수 분석의 결과에 대하여 이산 코사인 변환(DCT)을 수행함으로써 획득된 적어도 하나의 계수(C(m))로서 정의되는, 오디오 클래스 분류방법.
적어도 하나의 오디오 신호를 적어도 하나의 오디오 클래스로 분류하기 위한 시스템(20)으로서,

적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 수단(10);

상기 미리 결정된 오디오 특징의 파워 스펙트럼을 발생시키도록 다른 시간 인스턴스들에서 상기 미리 결정된 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 수단(12);

상기 파워 스펙트럼을 파라미터화함으로써 상기 미리 결정된 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 수단(12); 및

상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 수단(14)을 포함하는, 오디오 클래스 분류 시스템.
음악 시스템(2)으로서,

매체(22)로부터 오디오 데이터를 재생하는 수단(24); 및

상기 오디오 데이터를 분류하기 위한 제8항에 따른 시스템(20)을 포함하는, 음악 시스템(2).
멀티미디어 시스템(3)으로서,

매체(32)로부터 오디오 데이터를 재생하는 수단(34);

상기 오디오 데이터를 분류하는 제8항에 따른 시스템(20);

추가 매체(32)로부터 비디오 데이터를 디스플레이하는 수단(36);

상기 비디오 데이터를 분석하는 수단(38); 및

상기 오디오 데이터를 분류하는 시스템(20)으로부터 획득된 결과치들과 상기 비디오 데이터를 분석하는 수단(38)으로부터 획득된 결과치들을 결합하는 수단(34)을 포함하는, 멀티미디어 시스템(3).
삭제
오디오 신호를 수신하는 수단 및 신호(22, 32)를 수신하는 수단을 포함하는 오디오 수신기(2)로서, 상기 신호(22, 32)는,

적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10),

상기 미리 결정된 오디오 특징의 파워 스펙트럼을 발생시키도록 다른 시간 인스턴스들에서 상기 미리 결정된 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12), 및

상기 파워 스펙트럼을 파라미터화함으로써 상기 미리 결정된 오디오 특징의 시간동작을 나타내는 상기 적어도 하나의 추가 오디오 특징을 유도하는 단계(12)에 의하여 획득된 적어도 하나의 추가 오디오 신호 특징을 포함하는, 상기 오디오 수신기(2)에 있어서,

상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 수단(14)을 더 포함하는, 오디오 수신기(2).