KR101101384B1 - 파라미터화된 시간 특징 분석 - Google Patents
파라미터화된 시간 특징 분석 Download PDFInfo
- Publication number
- KR101101384B1 KR101101384B1 KR1020057020201A KR20057020201A KR101101384B1 KR 101101384 B1 KR101101384 B1 KR 101101384B1 KR 1020057020201 A KR1020057020201 A KR 1020057020201A KR 20057020201 A KR20057020201 A KR 20057020201A KR 101101384 B1 KR101101384 B1 KR 101101384B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- feature
- audio feature
- predetermined
- additional
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Auxiliary Devices For Music (AREA)
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 적어도 하나의 오디오 신호(A)를 적어도 하나의 오디오 클래스(AC)로 분류하는 방법(1)에 관한 것이며, 상기 분류방법(1)은 적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10),다른 시간 인스턴스들에 상기 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12), 상기 주파수 분석에 기초하여 상기 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12), 상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 단계(14)를 포함한다. 추가 오디오 특징을 사용하여, 오디오 특징의 시간 변동에 대한 정보를 획득하며, 이는 오디오를 분류하는데 유리할 수 있다.
오디오 신호, 오디오 클래스, 분류방법, 오디오 특징, 주파수 분석
Description
본 발명은 적어도 하나의 오디오 신호를 적어도 하나의 오디오 클래스로 분류하기 위한 기술에 관한 것이다.
인터넷 및 방송기술의 발전은 사용자들로 하여금 대량의 멀티미디어 컨텐츠를 즐길 수 있도록 하였다. 데이터량의 급속한 증가로 인하여, 사용자들은 인입 데이터를 필터링하고 처리하며 저장하기 위한 자동화 방법들을 요구하게 되었다. 이들 기능들의 일부는 컨텐츠에 대한 정보를 제공하는 첨부 메타데이터에 의하여 지원된다. 그러나, 메타데이터가 종종 제공되지 않는 사실로 인하여, 정밀성 또는 정확성이 떨어지게 되며, 국부 처리 파워가 과도하게 증가되기 때문에 국부 자동 멀티미디어 분석에 대한 흥미가 점점 더 증가되고 있다. 메타데이터 분석은 오디오 신호의 자동 분류를 포함할 수 있다. 오디오 신호의 자동 분류시에, 저레벨 신호 특징들은 시맨틱 의미(semantic meaning), 즉 분석 오디오 컨텐츠의 분류로 매핑된다. 예로서, 분류는 음악, 음성, 배경잡음 또는 침묵간의 구별일 수 있다. 또한, 음악장르 분류, 특정 오디오 하이라이트들의 자동검출 또는 자동 스피커 인식과 같은 다른 분류들도 가능하다. 오디오의 분류는 보통 두가지 스테이지들을 포함한다. 제 1스테이지는 입력 파형을 분석하고, 오디오 신호의 미리 결정된 특성에 대한 정보를 제공하는 적어도 하나의 오디오 특징을 추출한다. 특징 추출 프로세스는 보통 큰 정보 감소를 포함한다. 제 2스테이지는 추출된 오디오 특징들에 기초하여 분류를 수행한다.
E. Wold 등은 "오디오의 컨텐츠-기반 분류, 탐색 및 검색" 제하의 IEEE Multimedia, Fall:27-36, 1996에서 오디오 분류를 위하여 사용될 수 있는 다수의 오디오 특징들을 제시했다. 이들 오디오 특징들은 오디오 신호의 대역폭, 휘도, 피치 및 소리 크기이다. 오디오 특징들은 시간에 따라 변화할 수 있으며, 이는 오디오 특징의 소위 궤도(trajectory)들을 야기한다. 특징 궤도들, 즉 오디오 특징의 시간 변동에 대한 정보를 획득하기 위하여, 다수의 추가 오디오 특징들이 도입된다. 이들 추가 오디오 특징들은 특징 궤도에 대한 오디오 특징의 평균값, 특징 궤도에 대한 오디오 특징의 분산, 및 작은 래그(lag)에서 특징 궤도에 대한 오디오 특징의 자기상관을 포함한다.
본 발명의 목적은 유리한 방식으로 오디오 특징의 시간 변동에 대한 정보를 획득하는데 있다. 상기와 같은 목적을 달성하기 위하여, 본 발명은 독립항들에서 특정된 방법, 시스템, 음악 시스템, 멀티미디어 시스템 및 매체를 제공한다. 유리한 실시예들은 종속항들에 의하여 한정된다.
본 발명의 양상에 따르면, 오디오 특징의 시간 동작에 대한 정보를 획득하기 위하여, 다른 시간 인스턴스들에서 오디오 특징 값들의 세트에 대하여 수행된 주파수 분석에 기초하는 추가 오디오 특징이 도입된다. 본 발명은 비록 시간에 따른 오디오 특징의 평균 및 분산이 오디오 특징의 시간 변동에 대한 정보를 제공할지라도 오디오 특징의 시간 변화율에 대한 임의의 정보를 제공하지 않는 관점에 기초한다. 더욱이, 오디오 특징의 평균 및 분산은 보통 상관된다. 예컨대, 만일 신호가 2의 인자에 의하여 스케일링되면, 단기간 에너지의 평균 및 표준편차는 동일한 인자로 스케일링한다. 대부분의 분류 알고리즘들은 분석된 오디오 특징들이 상관되지 않는 경우에 더 효율적으로 동작한다. 다음으로, Wold 등에서 도입된 오디오 특징의 자기상관은 오디오 특징이 시간에 따라 변화하는지의 여부 또는 오디오 특징이 주기적인지의 여부에 관한 측정일 수 있다. 그러나, 자기상관은 오디오 특징의 시간 동작에 대한 상세한 설명을 제공하지 않는다. 자기상관은 오디오 특징이 시간에 따라 얼마나 빨리 변화하는지에 대한 지시를 제공할 수 있으나, 이러한 지시는 전체 신호 전반에 걸쳐 평균된다. 따라서, 오디오 특징의 자기상관을 사용하면, 오디오 특징의 시간변동에 대한 제한된 정보만이 제공된다. 본 발명에 따른 추가 오디오 특징을 사용하면 앞서 언급된 문제점들중 적어도 하나가 해결된다.
본 발명의 다른 양상에 따르면, 주파수 분석에 대한 입력으로서 사용되는 오디오 특징은 공지된 적어도 하나의 오디오 특징일 수 있다. 예로서, 오디오 특징은 제곱평균제곱근(RMS) 레벨, 스펙트럼 중심, 대역폭, 영교차율, 스펙트럼 롤-오프 주파수, 대역 에너지비, 델타 스펙트럼 크기, 피치 및 피치 강도와 같은 다수의 오디오 특징들로부터 선택될 수 있다. 이들 오디오 특징들은 공지된 특징들이다. 이들 오디오 특징들을 사용할때의 장점은 오디오 특징들의 계산을 매우 단순화시킬 수 있으며 결국 필요로 되는 계산 부하가 감소된다는 점이다. 오디오 특징을 선택하기 위한 추가 가능성은 적어도 하나의 멜-주파수 켑스트럴 계수(MFCC)를 사용하는 것이다. MFCC 계수들은 오디오 신호의 진폭 스펙트럼의 파라미터화된 설명을 나타낸다. MFCC 계수는 그것의 컴팩트성으로 인하여 오디오 분류 알고리즘들에서 사용되며, 즉 MFCC 계수들은 단지 소수의 파라미터들을 가진 스펙트럼 엔벨로프를 나타낼 수 있다. 게다가, MFCC 계수들은 음성 신호들 및 음악에 대하여 대략 비상관된다. 또한, 전체 신호 레벨의 함수인 제 0 MFCC 계수를 제외하고, 나머지 계수들은 입력레벨에 따르지 않으며, 즉 나머지 계수들은 독립적인 이득이다. 오디오 특징을 선택하기 위한 또 다른 가능성은 보통 공지된 사이코-음향 특징들을 사용하는 것이다. 예로서, 이들 특징들은 오디오 신호의 소리 크기 및 선명도일 수 있다. 소리 크기는 강도의 감각이며, 선명도는 고주파수 에너지의 상대 강도 및 스펙트럼 밀도와 관련된 인식이다. 추가 오디오 특징들을 획득하기 위하여 이들 특징들을 선택하면 사이코-음향 특징들이 오디오의 인간의 인식과 관련되기 때문에 유리할 수 있다.
본 발명의 실시예에서, 추가 오디오 특징을 유도하기 위하여 평균(DC) 값은 다른 시간 인스턴스들에서 오디오 특징값들의 세트로 계산되고, 적어도 하나의 주파수 대역이 정의되며, 주파수 대역내의 에너지량은 주파수 분석으로부터 계산되며, 추가 오디오 특징은 평균(DC) 값에 따라 에너지량으로서 정의된다. 주파수 대역을 사용할 때의 장점은 이러한 주파수 대역이 오디오 분류를 위하여 중요할 수 있는 특정 인식현상에 대응하도록 선택될 수 있다는 점이다. 예컨대, 음성 신호들은 3-15Hz 범위내에서의 주요한 엔벨로프 변조들을 포함하며, 상기 범위는 음절문자율(syllabic rate)에 대응한다. 음악 오디오 신호들과 같은 다른 오디오 신호들은 상기 범위내의 상대적으로 소수의 변조들을 가진다. 따라서, 만일 음성 오디오 신호들이 분류될 필요가 있으면, 3-15Hz의 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징들을 사용하는 것이 유리할 수 있다. 게다가, 20-150Hz 범위내에서의 엔벨로프 변조는 거칠기, 즉 음악 불협화음으로서 인식된다. 따라서, 협화음 또는 평활한 사운드들로부터 불협화음 또는 거친 사운드들을 구별하기 위하여, 20-50Hz 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징을 사용하는 것이 유리할 수 있다. 다음으로, 예컨대 1-2Hz 범위의 초저주파수에서의 엔벨로프 변조들은 소리 크기의 변화들로서 인식되다. 따라서, 다른 소리 크기 변화율들을 가진 사운드들을 구별하기 위하여, 1-2Hz의 범위내에서의 엔벨로프 변조량을 나타내는 추가 오디오 특징을 사용하는 것이 유리하다. 또한, 음악 템포 정보는 1-2Hz의 범위내서 표현된다. 앞서 언급된 주파수 대역들이 단지 예로서 제공된다는 것을 유의해야 한다. 다른 특징 대역들은 본 발명의 범위를 벗어나지 않고 선택될 수 있다. 주파수 대역들이 중첩될 수 있으며 오디오 신호, 처리 결과들, 다른 외부 또는 내부 파라미터들 또는 이들의 결합에 따라 시간에 따라 변화할 수 있다는 것을 유의해야 한다.
본 발명의 다른 실시예에서, 추가 오디오 특징은 주파수 분석의 결과에 대하여 이산코사인 변환(DCT)을 수행하여 적어도 하나의 계수를 유도함으로서 결정된다. 적어도 하나의 DCT 계수를 사용할때의 장점은 DCT 계수들이 신호 레벨과 무관하다는 점이다. 게다가, 오디오 분류에 대해 유리할 수 있는 DCT 계수들은 비상관 계수들일 수 있다. 또한, DCT 계수들의 수를 증가시킴으로써, 주파수 분석의 결과에 대한 보다 자세한 세부사항들이 커버된다. 이러한 방식에서는 결과적인 처리부하와 관련한 세부레벨을 선택할 수 있다.
본 발명의 전술한 및 다른 양상들은 이후에 기술되는 실시예들로부터 명백해질 것이다.
도 1은 본 발명에 따라 오디오 신호를 분류하기 위한 방법의 일 실시예를 나타낸 블록도.
도 2는 본 발명에 따른 음악 시스템의 일 실시예를 나타낸 도면.
도 3은 본 발명에 따른 멀티미디어 시스템의 일 실시예를 나타낸 도면.
도 1은 본 발명에 따라 오디오 신호를 분류하기 위한 프로세스의 일 실시예를 나타낸 블록도를 도시한다. 프로세스의 입력으로서, 오디오 신호(A)가 사용된다. 오디오 신호(A)는 길이 Nl의 PCM 샘플들 x[n]의 프레임일 수 있다. 오디오 신호(A)는 특징 추출단계(10)에 대한 입력으로서 사용된다. 특징 추출단계(10)에서, 적어도 하나의 미리 결정된 오디오 특징 F가 결정된다. 추출된 오디오 특징(F)은 다음과 같은 오디오 특징들, 즉 제곱평균제곱근(RMS) 레벨, 스펙트럼 중심, 대역폭, 영교차율, 스펙트럼 롤-오프 주파수, 대역 에너지비, 델타 스펙트럼 크기, 피치 및 피치 강도중 적어도 하나인 것이 가능하다. 길이 N의 오디오 프레임의 RMS 레벨은 다음과 같이 계산된다.
스펙트럼 중심은 오디오 신호(A)의 파워 스펙트럼 P[k]에 기초한다. 파워 스펙트럼 P[k]는 FFT 연산에 의하여 다음과 같이 획득될 수 있다:
여기서, k는 다음과 같은 수식에 따라 주파수 f과 관련한 파워 스펙트럼 빈의 수이다.
여기서, fs는 입력신호의 샘플링율이다. 스펙트럼 중심 Sf은 다음과 같이 파워 스펙트럼 P[k]의 질량중심으로서 정의될 수 있다:
파워 스펙트럼 P[k]의 대역폭 Bf는 다음과 같이 정의될 수 있다:
영교차율 Rz은 미리 결정된 시간 프레임내에서 발생하는 오디오 신호(A)의 영교차점들의 수로서 정의될 수 있다. 스펙트럼 롤-오프 주파수 fr는 다음과 같은 주파수로서 정의될 수 있으며, 이 주파수이하의 에너지는 전체 신호 에너지의 미리 결정된 비례치 p(0 < p < 1)이다:
대역-에너지비 Br는 미리 결정된 주파수 범위 f1-f2 Hz에 존재하는 상대 에너지량으로서 다음과 같이 정의될 수 있다.
델타 스펙트럼 크기 fd는 스펙트럼에서 변화의 상관치이다. 만일 두개의 다음 시간-프레임이 (정규화된) 파워 스펙트럼 Pi[k] 및 Pi+ 1[k]를 가지면, 델타 스펙트럼 크기는 다음과 같이 정의될 수 있다:
피치 T는 제한된 지연 범위내에서 자기상관 함수의 최대치를 선택함으로서 계산될 수 있다. 피치 강도 S는 피치값에 대응하는 정규화된 자기상관 함수에서 최대 피치의 높이로서 정의될 수 있다.
앞서 언급된 오디오 특징을 추출한 다음에, 추출된 오디오 특징 F는 적어도 하나의 멜-주파수 켑스트럴 계수(MFCC)일 수 있다. MFCC 계수를 결정하기 위하여, 0≤n≤N-1에서 주어진 오디오 프레임 x[n]에 대하여, 파워 스펙트럼은 예컨대 x[n]의 퓨리에 변환을 취함으로서 계산될 수 있으며, 이 계산 결과 X[k]는 다음과 같다.
여기서 h[n]는 시간 윈도우를 나타낸다. 이러한 윈도우의 예는 공지된 해밍 윈도우이다. X[k]의 진폭 스펙트럼 은필터 커널들의 세트로 곱해진다. 이들 필터들의 중심 주파수들은 다음과 같이 정의될 수 있고 주파수 f와 무관한 멜-주파수 스케일 fm에 대하여 일정 간격을 가진다.
입력 스펙트럼은 멜-주파수 스케일로 선형적으로 이격된 대역폭 및 간격을 가진 kn 삼각형 필터들 G[k, kn]를 포함하는 필터뱅크를 사용하여 멜-주파수 스펙트럼으로 변환된다. 그 다음에, 멜-주파수 스펙트럼은 필터 커널 및 진폭 스펙트럼의 내적의 로그에 의하여 주어진다.
멜-주파수 켑스트럼 계수들(MFCC) c[n]을 획득하기 위하여, 멜-주파수 스펙트럼의 이산 코사인 변환은 다음과 같이 계산된다.
추출된 오디오 특징 F를 선택하기 위한 추가 가능성은 오디오 신호의 소리 크기 또는 선명도와 같은 적어도 하나의 사이코-음향(PA) 오디오 특징을 사용하는 것이다. 소리 크기를 정의하는 예는 Eberhard Zwicker et al., in "Psychoacoustics: Facts and Models", volume 22 of Springer series on information sciences, Springer-Verlag, Berlin, 2nd edition, 1999에 개시되어 있다. 선명도를 정의하는 예는 "Sharpness as an attribute of the timbre of steady sounds" in Acustica, 30: 159-172, 1974에 개시되어 있다. 본 발명에 다른 추가 오디오 특징을 획득하기 위하여 선택될 수 있는 사이코-음향 특징들을 추출하기 위한 다수의 방법들이 공지되어 있다.
추가 오디오 특징은 추가 오디오 추출단계(12)에서 획득된다. 추가 특징 추출단계(12)에서, 다른 시간의 오디오 특징 F 값들의 세트가 정의된다. 또한, 값들의 세트는 고정 크기를 가질 수 있거나 또는 가변적일 수 있다. 또한, 값들의 세트들은 중첩될 수 있다. 다음으로, 주파수 분석은 시간 t=[0..T]에서 오디오 특징 F의 값들의 세트 F(t)에 대하여 수행되며, 이는 다음과 같은 특징 로그 파워 스펙트럼 을 야기한다.
특징 로그 파워 스펙트럼을 파라미터화하기 위하여, 파워 스펙트럼의 주파수 축은 적어도 하나의 미리 결정된 주파수 대역내의 에너지를 합산함으로서 총계가 구해진다. 합산은 예컨대 주파수에 무관하거나 또는 에너지 그 자체에 따라 에너지들의 가중합일 수 있다. 예로서, 미리 결정된 주파수 대역은 주파수 대역들 1-2Hz, 3-15Hz 및 20-150Hz중 적어도 하나일 수 있다. 1-2Hz 주파수 대역은 초저주파수에서의 엔벨로프 변조들이 소리 크기의 변화들로서 인식될때 다른 소리 크기 변화율을 가진 사운드들을 구별하는데 바람직할 수 있다. 또한, 음악 템포 정보는 이러한 주파수 범위로부터 이용가능하다. 3-15Hz 주파수 대역은 3-15Hz 범위내의 주요한 엔벨로프 변조들을 포함하는 음성 신호들을 분류하는데 바람직할 수 있으며, 3-15Hz 범위는 음절문자율에 대응한다. 음악 오디오 신호들과 같은 다른 오디오 신호들은 이러한 범위내의 극소수 변조들을 가진다. 20-150Hz 주파수 대역은 20-150Hz 범위내에서의 엔벨로프 변조들이 거칠기, 즉 음악 불협화음으로서 인식될때 협화음 또는 스무스한 사운드들로부터 불협화음 또는 거친 사운드들을 구별하는데 바람직하다. 최종적으로, 미리 결정된 주파수 대역내의 에너지량은 상대 변조 깊이를 산출하기 위하여 오디오 특징의 다음 값들에 대한 평균(DC)에 의해 분할될 수 있다. 평균은 특징 파워 스펙트럼 에서 0 Hz 에너지를 평가함으로써 획득될 수 있다. 이러한 계산 결과는 오디오 신호를 분류하기 위하여 사용될 수 있는 추가 오디오 특징 Fmod이다. 특징 로그 파워 스펙트럼을 파라미터화하기 위한 다른 방법은 이산 코사인 변환(DCT)을 사용하여 로그-파워 스펙트럼 을 다음과 같은 적어도 하나의 계수 C(m)로 변환하는 것이다.
여기서 fa 및 fb는 대상 주파수 대역의 시작 및 종료 주파수를 나타낸다. 보통, 상부 주파수 fb는 fs의 샘플링 주파수의 절반이다. 지금, 계수 C(m)는 추가 오디오 특징 Fmod로서 사용된다. C(0)는 로그 스케일에서 변조 평균들의 양을 나타내며, 전체 변조 깊이와 관련된다. 로 을 나누기 때문에, 변조 깊이 파라미터는 신호 레벨과 무관하다. 게다가, 오디오를 분류할때 유리할 수 있는 DCT 계수들이 비상관 계수들이라는 것을 유의해야 한다. 또한, 계수들 C(m)의 수를 증가시킴으로써 특징 로그-파워 스펙트럼 의 세부사항이 커버된다는 것을 유의해야 한다.
오디오 신호의 분류는 오디오 분류단계(14)에서 수행된다. 오디오 특징들에 기초하여 오디오를 분류하기 위한 다양한 방법들이 공지되어 있다. 이들 방법들중 일부는 특징 추출단계(10)에서 유도된 오디오 특징 F와 관련하여 추가 오디오 특징 Fmod를 사용하는 오디오 분류단계(14)에서 사용될 수 있다. 예로서, 오디오 분류단계(14)는 다변량 가우시안 모델들, 가우시안 혼합 모델들, 자체-편성 맵들, 신경회로망들, k-최근접 이웃 방식들 및 은폐 마르코프 모델들중 적어도 하나를 포함한 다. 이들 오디오 분류 방법들은 종래에 공지되어 있으며 본 발명의 범위내에 속하지 않기 때문에 상세히 설명하지 않을 것이다. 분류단계(14)의 결과는 적어도 하나의 오디오 클래스 AC이다. 오디오의 분류가 유사성 측정들, 예컨대 유사 음악 검색을 포함할 수 있다는 것에 유의해야 한다. 분류는 세그먼트화 절차, 예컨대 오디오 특징들을 사용하여 장면 변화들의 식별을 추가로 포함할 수 있다.
도 2는 본 발명에 따른 음악 시스템(2)의 실시예를 도시한다. 음악 시스템(2)은 오디오 데이터를 포함하는 매체(22)를 포함한다. 매체(22)는 컴팩트 디스크와 같은 소거가능 매체일 수 있거나 또는 예컨대 하드 디스크가 시스템에 통합되는 바와같이 음악 시스템(2)에 통합될 수 있다. 음악 시스템은 오디오 수신기를 나타낼 수 있다. 이러한 경우에, 매체(22)는 다른 위치에 있을 수 있으며, 오디오 데이터는 예컨대 무선, 인터넷 또는 위성에 의하여 오디오 수신기로 방송된다. 매체(22)는 마이크로폰 또는 음악 장비와 같은 오디오 데이터 생성 장치일 수 있다. 오디오 데이터는 오디오 데이터 처리장치(24)에 전송된다. 오디오 데이터 처리 장치(24)는 오디오 증폭기를 포함할 수 있고, 또한 오디오 데이터를 적응시키는 오디오 처리수단 및 오디오 분류 프로세스를 제어하는 제어수단을 추가로 포함할 수 있다. 오디오 데이터 처리장치(24)로부터의 결과 신호는 스피커와 같은 사운드 생성 장치(26)에 전송된다. 음악 시스템(2)은 오디오 분류 시스템(20)을 더 포함한다. 오디오 분류 시스템은 본 발명에 따라 오디오 데이터로부터 특징들을 추출하고 오디오 데이터를 적어도 하나의 미리 결정된 오디오 클래스로 분류한다. 오디오 데이터는 오디오 데이터 처리장치(24)로부터 획득될 수 있거나 또는 매체(22)로부터 직접 획득될 수 있다. 결과적인 오디오 클래스 또는 클래스들은 추가 처리를 위하여 오디오 데이터 처리장치(24)에 전송된다. 예컨대, 오디오 클래스에 기초하여 오디오 데이터는 재생되거나 또는 재생되지 않을 수 있으며, 또는 오디오 클래스에 기초하여 정보는 사용자가 청취중인 컨텐츠에 대하여 사용자에게 제공될 수 있다. 분류를 위하여 사용되는 특징들은 오디오 데이터를 가지는 신호로부터 이용가능하며, 이 신호는 본 발명에 따라 획득되는 적어도 하나의 추가 오디오 특징을 포함한다. 음악 시스템(2)이 오디오 수신기를 지시할때, 오디오 수신기는 본 발명에 따라 획득되는 적어도 하나의 추가 오디오 특징을 포함하는 신호를 수신하기 위한 수단을 더 포함할 수 있으며, 여기서 추가 오디오 특징은 분류를 위하여 사용될 수 있다.
도 3은 본 발명에 따른 멀티미디어 시스템(3)의 실시예를 도시한다. 멀티미디어 시스템(3)은 오디오 및 비디오 데이터를 포함하는 매체(32)를 포함한다. 오디오 또는 비디오 데이터 중 하나를 포함하는 다른 매체들이 존재할 수 있다. 매체는 소거가능 매체일 수 있거나, 또는 시스템(3)내에 통합될 수 있거나, 또는 방송을 통해 이용가능할 수 있다. 오디오 및 비디오 데이터는 오디오 및 비디오 처리장치(34)에 전송된다. 오디오 및 비디오 처리장치(34)는 오디오 및 비디오 재생장치(36)를 통해 오디오 및 비디오 데이터를 재생하기 위하여 오디오 및 비디오를 처리하는 수단을 포함한다. 오디오 및 비디오 재생장치(36)는 예컨대 텔레비전, 모니터 또는 투영기일 수 있다. 오디오 및 비디오 재생 장치(36)는 시스템(3)에 통합될 수 있으나 이는 필수적인 것이 아니다. 오디오 및 비디오 처리장치(34)는 비디오 분석 시스템(38)을 제어하는 제어수단을 더 포함할 수 있다. 비디오 분석 시스템(38)은 매체(32)로부터 또는 오디오 및 비디오 처리장치(34)로부터 직접 획득된 비디오 데이터를 분석할 수 있다. 예로서, 비디오 분석 시스템(38)은 압축방식으로 이용가능한 비디오 데이터를 디코딩하는 비디오 디코더, 예컨대 MPEG 디코더, 상업용 블록 검출기, 영화 검출기 또는 비디오 분류 시스템(이들은 공지되어 있음)을 포함할 수 있다. 비디오 분석 시스템(38)의 결과치들은 오디오 및 비디오 처리장치(34)에 전송된다. 오디오 및 비디오 처리장치(34)는 오디오 분류 시스템(20)을 제어하기 위한 수단을 더 포함할 수 있다. 오디오 분류 시스템(20)은 음악 시스템(2)에서와 동일한 방식으로 기능을 한다. 게다가, 오디오 및 비디오 처리장치(34)는 비디오 분석시스템(38) 및 오디오 분류 시스템(20)으로부터의 결과치들을 결합하는 수단을 더 포함할 수 있다. 예컨대, 영화가 비디오 분석 시스템(38)에 의하여 검출될때, 오디오 분류 시스템(20)은 영화의 음성을 영화에서 연기하는 임의의 배우로부터의 음성 클래스로 분류할 수 있다.
당업자는 앞서 언급된 실시예들이 본 발명을 제한하지 않고 첨부된 청구범위로부터 벗어나지 않고 많은 대안 실시예들이 고안될 수 있다는 것을 이해해야 한다. 청구범위에서, 괄호내의 임의의 도면부호들은 청구범위를 제한하는 것으로 구성되지 않는다. 단어 "포함한다"는 청구항에 리스트된 엘리먼트들 또는 단계들과 다른 엘리먼트들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 여러 개별 엘리먼트들을 포함하는 하드웨어에 의하여 그리고 적절하게 프로그래밍된 컴퓨터에 의하여 구현될 수 있다. 여러 수단들을 열거하는 장치 청구항에서, 상기 수단들중 여러 수단은 하드웨어의 하나 및 동일한 항목에 의하여 구현될 수 있다. 임의의 측정치들이 서로 다른 종속항들에서 인용되는 단순한 사실은 상기 측정치들의 결합이 유리하게 사용될 수 있다는 것을 지시한다.
Claims (12)
- 적어도 하나의 오디오 신호(A)를 적어도 하나의 오디오 클래스(AC)로 분류하기 위한 방법(1)으로서,적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10);상기 미리 결정된 오디오 특징의 파워 스펙트럼을 발생시키도록 다른 시간 인스턴스들(time instances)에서 상기 미리 결정된 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12);상기 파워 스펙트럼을 파라미터화함으로써 상기 미리 결정된 오디오 특징의 시간 동작(temporal behavior)을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 단계(12); 및상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 단계(14)를 포함하는, 오디오 클래스 분류방법.
- 제 1항에 있어서, 상기 적어도 하나의 미리 결정된 오디오 특징은,제곱평균제곱근(RMS) 레벨,스펙트럼 중심(Sf),대역폭(Bf),영교차율(Rz),스펙트럼 롤-오프 주파수(fr),대역 에너지비(Br),델타 스펙트럼 크기(fd),피치(T), 및피치 강도(S) 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
- 제 1항에 있어서, 상기 미리 결정된 오디오 특징은 적어도 하나의 멜-주파수 켑스트럴 계수(mel-frequency cepstral coefficient; MFCC)를 포함하는, 오디오 클래스 분류방법.
- 제 1항에 있어서, 상기 미리 결정된 오디오 특징은 소리 크기(loudness) 및 선명도와 같은 사이코-음향(PA) 오디오 특징들 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
- 제 1항에 있어서, 상기 유도하는 단계(12)는,다른 시간 인스턴스들에서 상기 미리 결정된 오디오 특징 값들의 상기 세트에 대한 평균(DC)값을 계산하는 단계;적어도 하나의 주파수 대역을 정의하는 단계;상기 주파수 분석으로부터 상기 주파수 대역내의 에너지량을 계산하는 단계; 및상기 평균(DC) 값에 의존하여 상기 추가 오디오 특징을 상기 에너지량으로서 정의하는 단계를 포함하는, 오디오 클래스 분류방법.
- 제 5항에 있어서, 상기 적어도 하나의 주파수 대역은 변조 주파수 대역들 1-2Hz, 3-15Hz 및 20-150Hz 중 적어도 하나를 포함하는, 오디오 클래스 분류방법.
- 제 1항에 있어서, 상기 적어도 하나의 추가 오디오 특징은 상기 주파수 분석의 결과에 대하여 이산 코사인 변환(DCT)을 수행함으로써 획득된 적어도 하나의 계수(C(m))로서 정의되는, 오디오 클래스 분류방법.
- 적어도 하나의 오디오 신호를 적어도 하나의 오디오 클래스로 분류하기 위한 시스템(20)으로서,적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 수단(10);상기 미리 결정된 오디오 특징의 파워 스펙트럼을 발생시키도록 다른 시간 인스턴스들에서 상기 미리 결정된 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 수단(12);상기 파워 스펙트럼을 파라미터화함으로써 상기 미리 결정된 오디오 특징의 시간동작을 나타내는 적어도 하나의 추가 오디오 특징을 유도하는 수단(12); 및상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 수단(14)을 포함하는, 오디오 클래스 분류 시스템.
- 음악 시스템(2)으로서,매체(22)로부터 오디오 데이터를 재생하는 수단(24); 및상기 오디오 데이터를 분류하기 위한 제8항에 따른 시스템(20)을 포함하는, 음악 시스템(2).
- 멀티미디어 시스템(3)으로서,매체(32)로부터 오디오 데이터를 재생하는 수단(34);상기 오디오 데이터를 분류하는 제8항에 따른 시스템(20);추가 매체(32)로부터 비디오 데이터를 디스플레이하는 수단(36);상기 비디오 데이터를 분석하는 수단(38); 및상기 오디오 데이터를 분류하는 시스템(20)으로부터 획득된 결과치들과 상기 비디오 데이터를 분석하는 수단(38)으로부터 획득된 결과치들을 결합하는 수단(34)을 포함하는, 멀티미디어 시스템(3).
- 삭제
- 오디오 신호를 수신하는 수단 및 신호(22, 32)를 수신하는 수단을 포함하는 오디오 수신기(2)로서, 상기 신호(22, 32)는,적어도 하나의 미리 결정된 오디오 특징을 추출하기 위하여 상기 오디오 신호를 분석하는 단계(10),상기 미리 결정된 오디오 특징의 파워 스펙트럼을 발생시키도록 다른 시간 인스턴스들에서 상기 미리 결정된 오디오 특징 값들의 세트에 대하여 주파수 분석을 수행하는 단계(12), 및상기 파워 스펙트럼을 파라미터화함으로써 상기 미리 결정된 오디오 특징의 시간동작을 나타내는 상기 적어도 하나의 추가 오디오 특징을 유도하는 단계(12)에 의하여 획득된 적어도 하나의 추가 오디오 신호 특징을 포함하는, 상기 오디오 수신기(2)에 있어서,상기 추가 오디오 특징에 기초하여 상기 오디오 신호를 분류하는 수단(14)을 더 포함하는, 오디오 수신기(2).
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03101146.3 | 2003-04-24 | ||
EP03101146 | 2003-04-24 | ||
PCT/IB2004/050477 WO2004095315A1 (en) | 2003-04-24 | 2004-04-21 | Parameterized temporal feature analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060021299A KR20060021299A (ko) | 2006-03-07 |
KR101101384B1 true KR101101384B1 (ko) | 2012-01-02 |
Family
ID=33305806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057020201A KR101101384B1 (ko) | 2003-04-24 | 2004-04-21 | 파라미터화된 시간 특징 분석 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8311821B2 (ko) |
EP (1) | EP1620811A1 (ko) |
JP (1) | JP4795934B2 (ko) |
KR (1) | KR101101384B1 (ko) |
CN (1) | CN100543731C (ko) |
WO (1) | WO2004095315A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019178108A1 (en) * | 2018-03-13 | 2019-09-19 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1605439B1 (en) * | 2004-06-04 | 2007-06-27 | Honda Research Institute Europe GmbH | Unified treatment of resolved and unresolved harmonics |
US8156123B2 (en) * | 2004-06-25 | 2012-04-10 | Apple Inc. | Method and apparatus for processing metadata |
US8131674B2 (en) | 2004-06-25 | 2012-03-06 | Apple Inc. | Methods and systems for managing data |
JP4446072B2 (ja) * | 2004-07-23 | 2010-04-07 | 株式会社ディーアンドエムホールディングス | オーディオ信号出力装置 |
WO2006050731A2 (en) | 2004-11-09 | 2006-05-18 | Bang & Olufsen A/S | A procedure and apparatus for generating automatic replay of recordings |
DE602005009244D1 (de) * | 2004-11-23 | 2008-10-02 | Koninkl Philips Electronics Nv | Einrichtung und verfahren zur verarbeitung von audiodaten, computerprogrammelement und computerlesbares medium |
WO2007004152A2 (en) | 2005-06-30 | 2007-01-11 | Koninklijke Philips Electronics N.V. | Electronic device and method of creating a sequence of content items |
BRPI0617432A2 (pt) | 2005-10-17 | 2011-07-26 | Koninkl Philips Electronics Nv | mÉtodos para calcular uma mÉtrica de similaridade, e um fator de ponderaÇço, software, e, dispositivo eletrânico para calcular uma mÉtrica de similaridade |
EP1941486B1 (en) * | 2005-10-17 | 2015-12-23 | Koninklijke Philips N.V. | Method of deriving a set of features for an audio input signal |
JP4665836B2 (ja) * | 2006-05-31 | 2011-04-06 | 日本ビクター株式会社 | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
US20080003961A1 (en) * | 2006-06-29 | 2008-01-03 | International Business Machines Corporation | Apparatus and method for scanning radio waves |
US7659471B2 (en) * | 2007-03-28 | 2010-02-09 | Nokia Corporation | System and method for music data repetition functionality |
WO2009001202A1 (en) * | 2007-06-28 | 2008-12-31 | Universitat Pompeu Fabra | Music similarity systems and methods using descriptors |
JP4623124B2 (ja) | 2008-04-07 | 2011-02-02 | ソニー株式会社 | 楽曲再生装置、楽曲再生方法および楽曲再生プログラム |
KR100974871B1 (ko) * | 2008-06-24 | 2010-08-11 | 연세대학교 산학협력단 | 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치 |
WO2010086020A1 (en) * | 2009-01-30 | 2010-08-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Audio signal quality prediction |
US8687839B2 (en) | 2009-05-21 | 2014-04-01 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
GB0908879D0 (en) * | 2009-05-22 | 2009-07-01 | Univ Ulster | A system and method of streaming music repair and error concealment |
US9215538B2 (en) * | 2009-08-04 | 2015-12-15 | Nokia Technologies Oy | Method and apparatus for audio signal classification |
US8401683B2 (en) * | 2009-08-31 | 2013-03-19 | Apple Inc. | Audio onset detection |
JP5641326B2 (ja) * | 2010-12-21 | 2014-12-17 | ソニー株式会社 | コンテンツ再生装置および方法、並びにプログラム |
EP2666160A4 (en) * | 2011-01-17 | 2014-07-30 | Nokia Corp | AUDIO SCENE PROCESSING APPARATUS |
JP5702666B2 (ja) * | 2011-05-16 | 2015-04-15 | 富士通テン株式会社 | 音響装置および音量補正方法 |
WO2013030623A1 (en) * | 2011-08-30 | 2013-03-07 | Nokia Corporation | An audio scene mapping apparatus |
CN103092854B (zh) * | 2011-10-31 | 2017-02-08 | 深圳光启高等理工研究院 | 一种音乐数据分类方法 |
CN102568470B (zh) * | 2012-01-11 | 2013-12-25 | 广州酷狗计算机科技有限公司 | 一种音频文件音质识别方法及其系统 |
US9055376B1 (en) * | 2013-03-08 | 2015-06-09 | Google Inc. | Classifying music by genre using discrete cosine transforms |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CA2887124C (en) * | 2013-08-28 | 2015-09-29 | Mixgenius Inc. | System and method for performing automatic audio production using semantic data |
JP6260022B2 (ja) * | 2013-09-03 | 2018-01-17 | 株式会社国際電気通信基礎技術研究所 | 制御信号生成装置およびパワーアシスト装置 |
US9275136B1 (en) * | 2013-12-03 | 2016-03-01 | Google Inc. | Method for siren detection based on audio samples |
CN104036788B (zh) * | 2014-05-29 | 2016-10-05 | 北京音之邦文化科技有限公司 | 音频文件的音质识别方法及装置 |
EP2963817B1 (en) * | 2014-07-02 | 2016-12-28 | GN Audio A/S | Method and apparatus for attenuating undesired content in an audio signal |
CN104091601A (zh) * | 2014-07-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 音乐品质检测方法和装置 |
US11308928B2 (en) | 2014-09-25 | 2022-04-19 | Sunhouse Technologies, Inc. | Systems and methods for capturing and interpreting audio |
JP6814146B2 (ja) | 2014-09-25 | 2021-01-13 | サンハウス・テクノロジーズ・インコーポレーテッド | オーディオをキャプチャーし、解釈するシステムと方法 |
WO2016172363A1 (en) * | 2015-04-24 | 2016-10-27 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
WO2017196382A1 (en) * | 2016-05-11 | 2017-11-16 | Nuance Communications, Inc. | Enhanced de-esser for in-car communication systems |
CN108989706A (zh) * | 2017-06-02 | 2018-12-11 | 北京字节跳动网络技术有限公司 | 基于音乐节奏生成特效的方法及装置 |
CN107369447A (zh) * | 2017-07-28 | 2017-11-21 | 梧州井儿铺贸易有限公司 | 一种基于语音识别的室内智能控制系统 |
JP7000757B2 (ja) * | 2017-09-13 | 2022-01-19 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
US10403303B1 (en) * | 2017-11-02 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying speech based on cepstral coefficients and support vector machines |
US11154251B2 (en) | 2018-02-10 | 2021-10-26 | The Governing Council Of The University Of Toronto | System and method for classifying time series data for state identification |
BR112021010168A2 (pt) * | 2018-11-29 | 2021-08-17 | Bp Exploration Operating Company Limited | detecção de evento usando recursos de das com aprendizado de máquina |
US12016098B1 (en) | 2019-09-12 | 2024-06-18 | Renesas Electronics America | System and method for user presence detection based on audio events |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
US5581658A (en) * | 1993-12-14 | 1996-12-03 | Infobase Systems, Inc. | Adaptive system for broadcast program identification and reporting |
EP0735754B1 (en) | 1995-03-30 | 2008-05-07 | THOMSON Licensing | Method and apparatus for the classification of television signals |
US5701391A (en) * | 1995-10-31 | 1997-12-23 | Motorola, Inc. | Method and system for compressing a speech signal using envelope modulation |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US5899969A (en) * | 1997-10-17 | 1999-05-04 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with gain-control words |
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
US20010044719A1 (en) | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
US7028325B1 (en) * | 1999-09-13 | 2006-04-11 | Microsoft Corporation | Annotating programs for automatic summary generation |
JP3757719B2 (ja) * | 1999-11-19 | 2006-03-22 | 松下電器産業株式会社 | 音響データ分析方法及びその装置 |
JP4461557B2 (ja) * | 2000-03-09 | 2010-05-12 | パナソニック株式会社 | 音声認識方法および音声認識装置 |
US6910035B2 (en) * | 2000-07-06 | 2005-06-21 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to consonance properties |
JP3601465B2 (ja) * | 2001-03-23 | 2004-12-15 | 三菱電機株式会社 | 目標観測システム |
US7295977B2 (en) * | 2001-08-27 | 2007-11-13 | Nec Laboratories America, Inc. | Extracting classifying data in music from an audio bitstream |
-
2004
- 2004-04-21 CN CNB2004800106744A patent/CN100543731C/zh not_active Expired - Fee Related
- 2004-04-21 US US10/554,010 patent/US8311821B2/en not_active Expired - Fee Related
- 2004-04-21 KR KR1020057020201A patent/KR101101384B1/ko not_active IP Right Cessation
- 2004-04-21 JP JP2006506871A patent/JP4795934B2/ja not_active Expired - Fee Related
- 2004-04-21 EP EP04728615A patent/EP1620811A1/en not_active Withdrawn
- 2004-04-21 WO PCT/IB2004/050477 patent/WO2004095315A1/en active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019178108A1 (en) * | 2018-03-13 | 2019-09-19 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
US10482863B2 (en) | 2018-03-13 | 2019-11-19 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
US10629178B2 (en) | 2018-03-13 | 2020-04-21 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
CN111868821A (zh) * | 2018-03-13 | 2020-10-30 | 尼尔森(美国)有限公司 | 从媒体信号提取与音调无关的音色属性的方法和装置 |
US10902831B2 (en) | 2018-03-13 | 2021-01-26 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
EP3766062A4 (en) * | 2018-03-13 | 2021-12-29 | The Nielsen Company (US), LLC. | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
US11749244B2 (en) | 2018-03-13 | 2023-09-05 | The Nielson Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
US12051396B2 (en) | 2018-03-13 | 2024-07-30 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
Also Published As
Publication number | Publication date |
---|---|
EP1620811A1 (en) | 2006-02-01 |
WO2004095315A1 (en) | 2004-11-04 |
US8311821B2 (en) | 2012-11-13 |
CN1777891A (zh) | 2006-05-24 |
CN100543731C (zh) | 2009-09-23 |
JP4795934B2 (ja) | 2011-10-19 |
JP2006524359A (ja) | 2006-10-26 |
US20060196337A1 (en) | 2006-09-07 |
KR20060021299A (ko) | 2006-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
US9466275B2 (en) | Complexity scalable perceptual tempo estimation | |
JP4067969B2 (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
US9313593B2 (en) | Ranking representative segments in media data | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US7478045B2 (en) | Method and device for characterizing a signal and method and device for producing an indexed signal | |
JP2004530153A6 (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
US9892758B2 (en) | Audio information processing | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
WO2015114216A2 (en) | Audio signal analysis | |
Li et al. | A comparative study on physical and perceptual features for deepfake audio detection | |
JP2001147697A (ja) | 音響データ分析方法及びその装置 | |
Pfeiffer et al. | Formalisation of MPEG-1 compressed domain audio features | |
Rizzi et al. | Genre classification of compressed audio data | |
CN105632523A (zh) | 调节音频数据的音量输出值的方法和装置及终端 | |
Kos et al. | Online speech/music segmentation based on the variance mean of filter bank energy | |
Kos et al. | On-line speech/music segmentation for broadcast news domain | |
Fenton | Audio Dynamics: Towards a Perceptual Model of'punch'. | |
Pfeiffer et al. | Survey of compressed domain audio features and their expressiveness | |
Manzo-Martínez et al. | Use of the entropy of a random process in audio matching tasks | |
Munoz-Expósito et al. | NEW WARPED LPC-BASED FEATURE FOR FAST AND ROBUST SPEECH/MUSIC DISCRIMINATION | |
MX2008004572A (en) | Neural network classifier for seperating audio sources from a monophonic audio signal | |
JPS6054000A (ja) | 音声の有声・無声判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20141218 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20161220 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |