KR101370515B1 - 복합 확장 인지 템포 추정 시스템 및 추정방법 - Google Patents

복합 확장 인지 템포 추정 시스템 및 추정방법 Download PDF

Info

Publication number
KR101370515B1
KR101370515B1 KR1020127010356A KR20127010356A KR101370515B1 KR 101370515 B1 KR101370515 B1 KR 101370515B1 KR 1020127010356 A KR1020127010356 A KR 1020127010356A KR 20127010356 A KR20127010356 A KR 20127010356A KR 101370515 B1 KR101370515 B1 KR 101370515B1
Authority
KR
South Korea
Prior art keywords
tempo
audio signal
pay
delete delete
determining
Prior art date
Application number
KR1020127010356A
Other languages
English (en)
Other versions
KR20120063528A (ko
Inventor
아리지트 비스와스
다닐로 홀로시
미카엘 슈그
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20120063528A publication Critical patent/KR20120063528A/ko
Application granted granted Critical
Publication of KR101370515B1 publication Critical patent/KR101370515B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

본 문헌은 오디오 또는 조합된 비디오/오디오 신호와 같은, 미디어 신호의 템포를 추정하기 위한 방법 및 시스템에 관한 것이다. 특히, 본 문헌은 확장 가능한 연산 복잡도에서 템포 추정을 위한 방법 및 시스템뿐만 아니라, 인간 청취자에 의해 인지되는 템포의 추정과 관련된다. 스펙트럼 대역 복제 데이터를 포함하는 오디오 신호의 인코딩된 비트스트림으로부터 오디오 신호의 템포 정보를 추출하기 위한 방법 및 시스템이 설명된다. 상기 방법은 상기 오디오 신호의 시간 간격 동안 상기 인코딩된 비트스트림에 포함된 스펙트럼 대역 복제 데이터의 양과 관련된 페이로드(pay-load) 양(量)을 결정하는 단계; 상기 오디오 신호의 상기 인코딩된 비트스트림의 연속된 시간 간격 동안 상기 결정하는 단계를 반복함으로써, 페이로드(pay-load) 양의 시퀀스를 결정하는 단계; 상기 페이로드(pay-load) 양의 시퀀스에서 주기성을 식별하는 단계; 상기 식별된 주기성으로부터 상기 오디오 신호의 템포 정보를 추출하는 단계를 포함한다.

Description

복합 확장 인지 템포 추정 시스템 및 추정방법{Complexity Scalable Perceptual Tempo Estimation System And Method Thereof}
본 발명은 오디오 또는 조합된 비디오/오디오 신호와 같은, 미디어 신호의 템포를 추정하기 위한 방법 및 시스템에 관한 것이다. 특히, 본 발명은 확장 연산 복잡도(scalable computational complexity, 컴퓨터 연산)에서 템포 추정을 위한 방법 및 시스템뿐만 아니라, 사람 청취자에 의해 인지되는 템포의 추정에 관련된 것이다.
휴대 포켓용 장치들, 예컨대, PDA들, 스마트 폰들, 모바일 폰들 및 휴대용 미디어 재생기들은, 전형적으로 오디오 및/또는 비디오 랜더링 능력들(capabilities)을 포함하며, 중요한 엔터테인먼트 플랫폼들이 되었다. 개발은 무선 또는 유선 전송 능력의 성장하는 침투(growing penetration)에 의해 그러한 장치들 내로 밀어붙여졌다. 미디어 전송 및/또는 저장 프로토콜들의 지원에 기인하여, 그러한 HE-AAC 포맷, 미디어 콘텐츠는 계속적으로 다운로드되고, 포터블 핸드헬드(portable handheld) 장치들에 저장될 수 있다. 그렇게 함으로써, 가상의 무제한적인 양의 미디어 콘텐츠를 제공할 수 있게 되었다.
하지만, 낮은 복잡도 알고리즘들은 모바일/휴대형 장치들에게는 치명적이다. 왜냐하면, 제한된 컴퓨터의 파워 및 에너지 소비는 심각한 제약을 가져온다. 이러한 제약은 떠오르는 시장들(emerging markets)에서 로엔드(low-end) 휴대형 장치에 더욱 치명적일 수 있다. 전형적인 이동형 전자장치들에서 이용할 수 있는 높은 양의 미디어 파일들의 관점에서, MIR(Music Information Retrieval) 어플리케이션은 미디어 파일들을 클러스터하거나 또는 분류하기 위해 바람직한 도구이며, 그것에 의해 이동형 전자장치의 사용자가 적합한 미디어 파일, 예컨대, 오디오, 음악 및/또는 비디오 파일을 식별하는 것을 허용한다. 제한된 컴퓨터 및 파워 자원들을 가지는 이동형 전자장치들 상의 유용함이 절충되지 않는다면, 그러한 MIR 어플리케이션들을 위해 낮은 복잡도 연산 구조들이 바람직하다.
장르 및 분위기 분류, 음악 요약, 오디오 섬네일링, 자동 재생리스트 생성 및 음악 유사도를 이용한 음악 추천 시스템들 등과 같은 다양한 MIR 어플리케이션들을 위한 중요한 음악 특징은 음악 템포이다. 그러므로, 낮은 연산 복잡도를 가지는 템포 판단을 위한 프로시저는 모바일 장치들을 위한 언급된 MIR 어플리케이션들의 분권화된 구현들(decentralized implementations)의 개발에 공헌할 수 있다.
더욱이, BPM(Beats Per Minute)에서 종이 음악(sheet music) 또는 음악 악보(musical score) 상의 기록된 템포에 의해 음악 템포를 특징짓는 것이 일반적이지만, 이 값은 종종 인지 템포(perceptual tempo)에 대응하지 않을 수 있다. 예를 들면, 청취자의 그룹(전문적인 음악가를 포함하는)이 음악의 발췌한 인용 부분의 템포에 주석을 달도록 요청받는다면, 그들은 일반적으로 다른 응답들을 제공할 것이다. 즉, 그들은 전형적으로 다른 운율(metrical) 레벨들에서 두드린다. 음악의 어떤 발췌부분에 대해, 인지 템포는 덜 모호하며, 모든 청취자들은 전형적으로 동일한 운율 레벨을 두드릴 것이다. 하지만, 다른 음악의 발췌부분에서, 템포는 모호할 수 있으며, 그러면, 다른 청취자들은 다른 템포들로 인지할 것이다. 다른 말로, 인지적 실험들은 인지 템포가 기록된 템포와 다를 수 있다는 것을 보인다. 한곡은 음악은 우세한 인지 펄스(dominant perceived pulse)가 기록된 템포 보다 운율 레벨이 높거나 또는 낮을 수 있으므로, 기록된 템포보다 더 빠르거나 또는 더 느리게 느껴질 수 있다. MIR 어플리케이션이 사용자에 의해 인지되는 것과 가장 유사하게 템포를 고려해야만 한다는 관점에서, 자동 템포 추출기는 오디오 신호의 가장 인지적인 현저한 템포를 예측해야만 한다.
알려진 템포 추정 방법 및 시스템은 다양한 문제점들을 가지고 있다. 많은 경우들에서, 특정한 오디오 코덱들, 예컨대, MP3에 한정되고, 다른 코덱들로 인코딩된 오디오 트랙들에 적용할 수 없다. 더욱이, 그러한 템포 추정 방법들은 전형적으로 단지 단순하고 분명한 리드미컬한(rhythmical) 구조들을 가지는 서구 유행 가요에 적용되었을 때 적합하게 동작한다. 추가로, 알려진 템포 추정 방법들은 인지적 측면들을 고려하지 않는다. 즉, 그들은 청취자에 의해 아마도 인지될 것 같은 템포를 추정하는 것에 대해 지시되지 않는다. 마지막으로, 알려진 템포 추정 구조들은 단지 압축되지 않은 PCM 도메인, 변환 도메인 또는 압축 도메인 중 하나에서 전형적으로 동작한다.
알려진 템포 추정 구조들의 앞서 언급된 단점들을 극복하는 템포 추정 방법 및 시스템을 제공하는 것이 요구된다. 특히, 코덱에 무관(codec agnostic) 및/또는 어떤 종류의 음악 장르에도 적용되는 템포 추정을 제공하는 것이 요구된다. 추가로, 오디오 신호의 인지적인 가장 현저한 템포(most salient tempo)를 추정하는 템포 추정 구조를 제공하는 것이 요구된다. 더욱이, 템포 추정 구조는 앞서 언급된 즉, 압축되지 않은 PCM 도메인, 변환 도메인, 및 압축된 도메인들 중 어떤 것에라도 오디오 신호를 적용할 수 있는 것이 요구된다. 이는 또한, 낮은 연산 복잡도를 가지는 템포 추정 구조들을 제공하는 것이 요구된다.
템포 추정 구조들은 다양한 어플리케이션들에 사용될 수 있다. 왜냐하면, 템포는 음악에서 기본적으로 의미론적 정보이며, 그러한 템포의 믿을 수 있는 추정은 자동 콘텐츠 기반 장르 분류(automatic content-based genre classification), 분위기 분류, 음악 유사도, 오디오 섬네일링 및 음악 요약과 같은, 다른 MIR 어플리케이션들의 성능을 강화시킬 수 있다. 더욱이, 인지 템포에 대한 믿을 수 있는 추정은 음악 선택, 비교, 믹싱 및 재생 목록 작성을 위해 유용한 통계자료이다. 특히, 자동 재생 목록 작성 생성기 또는 음악 탐색기 또는 DJ 장치에 대해, 인지 템포 또는 느낌(feel)은 전형적으로 더 기록된 또는 물리적 템포보다 의미 있다. 추가로, 인지 템포에 대한 믿을 수 있는 추정은 게임 어플리케이션들에 대해 유용할 수 있다. 실시예들에 의해, 사운드트랙 템포는 게임의 스피드와 같이, 관련된 게임 파라미터들을 제어하는 데에 사용될 수 있다. 이는 오디오를 이용하는 게임 콘텐츠를 개인화하기 위하여, 그리고, 향상된 경험을 사용자에게 제공하기 위하여 사용될 수 있다. 추가의 어플리케이션 영역은 콘텐츠 기반 오디오/비디오 동기화가 될 수 있다. 여기서, 음악적 비트 또는 템포는 시간 이벤트들을 위한 앵커(anchor)로서 사용되는 주요 정보 소스이다.
본 발명의 문헌에서 용어 "템포"는 박자(tactus) 펄스의 비율로 이해되어야 함을 언급한다. 이 박자는 또한 발로 두드리는 비율(foot tapping rate), 즉, 청취자가, 오디오 신호, 예컨대, 음악 신호를 들을 때, 그들의 발로 두드리는 비율로 나타낼 수 있다. 이는 음악 신호의 계층적인 구조를 정의하는 음악 미터(musical meter)와는 다르다.
W0 2006/037366A1은 한 곡의 음악의 시간-도메인 PCM 표현에 기반한 인코딩된 리듬 패턴을 생성하기 위한 장치 및 방법을 설명한다. US7518053B1은 2개의 오디오 스트림들의 비트들의 정렬 방법 및 2개의 오디오 스트림들로부터 비트들의 추출을 위한 방법을 설명한다.
본 발명의 목적은 확장 연산 복잡도에서 템포 추정을 위한 방법 및 시스템뿐만 아니라, 사람 청취자에 의해 인지되는 템포를 추정하기 위한 것이다.
일 측면에 따르면, 오디오 신호의 인코딩된 비트스트림으로부터 오디오 신호의 템포 정보를 추출하기 위한 방법이 제공된다. 여기서, 인코딩된 비트스트림 스펙트럼 대역 복제 데이터를 포함한다. 인코딩된 비트스트림은 HE-AAC 비트스트림 또는 mp3PRO 비트스트림이 될 수 있다. 오디오 신호는 음악 신호을 포함할 수 있고, 템포 정보를 추출하는 것은 음악 신호의 템포를 추정하는 것을 포함할 수 있다.
상기 방법은 오디오 신호의 시간 인터벌 동안 인코딩된 비트스트림에 포함된 스펙트럼 대역 복제 데이터의 양에 관련된 페이로드(pay-load) 양을 결정하는 단계를 포함할 수 있다. 특히, 인코딩된 비트스트림이 HE-AAC 비트스트림인 경우, 후자의 단계는 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 데이터의 양을 결정하는 단계와, 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 데이터의 양에 기초한 페이로드(pay-load) 양을 결정하는 단계를 포함한다.
스펙트럼 대역 복제 데이터가 고정된 헤더를 이용하여 인코딩될 수 있다는 사실에 기인하여, 템포 정보를 추출하기 전 그러한 헤더를 제거하는 것이 이득이 될 수 있다. 특히, 이 방법은 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 스펙트럼 대역 복제 헤더의 양을 결정하는 단계를 포함할 수 있다. 더욱이, 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 데이터의 순(net) 양은 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 스펙트럼 대역 복제 헤더 데이터의 양을 차감하거나, 또는 공제하여 결정될 수 있다. 결국, 이 헤더 비트들은 제거되며, 그리고, 페이로드(pay-load) 양은 데이터의 순(net) 양에 기초하여 결정될 수 있다. 스펙트럼 대역 복제 헤더가 고정된 길이라면, 이 방법은 시간 인터벌에서 스펙트럼 대역 복제 헤더들의 수 X를 세는 단계와, 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 스펙트럼 대역 복제 헤더 데이터의 양으로부터 헤더의 X 배 길이를 차감하거나, 공제하는 단계를 포함할 수 있다는 것을 언급한다.
일 실시예에서, 페이로드(pay-load) 양은 시간 인터벌에서 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드들에 포함된 스펙트럼 대역 복제 헤더 데이터의 순(net) 양 또는 양에 대응한다. 대안적으로 또는 추가적으로, 추가 오버헤드 데이터는 실제 스펙트럼 대역 복제 데이터를 결정하기 위하여, 하나 이상의 필-엘리먼트(fill-element) 필드들로부터 제거될 수 있다.
상기 인코딩된 비트스트림은 복수의 프레임들을 포함하며, 각 프레임은 시간의 미리 결정된 길이의 오디오 신호의 발췌 부분에 대응한다. 일 예로써, 일 프레임은 몇 미리초의 음악 신호의 발췌 부분을 포함할 수 있다. 시간 인터벌은 인코딩된 비트스트림의 프레임에 의해 커버되는 시간 길이에 대응할 수 있다. 일 예로써, AAC 프레임은 전형적으로 1024 스펙트럼 값들, 즉, MDCT 계수들을 포함한다. 스펙트럼 값들은 오디오 신호의 시간 인터벌 또는 특정 시간 인스탄스의 주파수 표현이다. 시간 및 주파수 사이의 관계는 다음과 같이 표현될 수 있다.
Figure 112012031993372-pct00001
Figure 112012031993372-pct00002
여기서,
Figure 112014003419792-pct00003
는 커버된 주파수 범위이다.
Figure 112014003419792-pct00004
는 샘플링 주파수이며, t는 시간 레졸루션, 즉, 프레임에 의해 커버되는 오디오 신호의 시간 인터벌이다. 샘플링 주파수
Figure 112014003419792-pct00005
= 44100Hz에서, 이는 AAC 프레임에 대해 시간 레졸루션 t= 1024/44100 Hz = 23,219 ms에 대응한다. 실시예에 있어서, HE-AAC는 이의 코어 인코더(AAC)가 샘플링 주파수의 절반에서 동작하는 "듀얼 레이트 시스템(dual-rate system)" 으로 정의되기 때문에, t = 1024/22050Hz = 46,4399 m의 최대 시간 레졸루션이 성취될 수 있다.
이 방법은 오디오 신호의 상기 인코딩된 비트스트림의 연속된 시간 인터벌을 위한 결정하는 단계를 반복하는 추가 단계를 포함할 수 있다. 이러한 반복에 의해 페이로드(pay-load) 양의 시퀀스를 결정할 수 있다. 인코딩된 비트스트림이 연속된 프레임들을 포함하면, 이 반복 단계는 인코딩된 비트스트림의 프레임들의 어떤 세트에 대해, 즉, 인코딩된 비트스트림의 모든 프레임에 대해 수행될 수 있다.
추가 단계에서, 이 방법은 페이로드(pay-load) 양의 시퀀스에서 주기성을 식별하는 단계를 포함할 수 있다. 이는 페이로드(pay-load) 양의 시퀀스에서 순환하는 패턴 또는 피크들의 주기성을 식별하는 것에 의해 이루어질 수 있다. 주기성의 식별은 파워 값들의 세트 및 해당 주파수들을 산출하도록 페이로드(pay-load) 양의 시퀀스 상에서 스펙트럼 분석을 수행하는 것에 의해 이루어질 수 있다. 주기성은 상기 파워 값의 세트에서 극대값(relative maximum)를 결정하는 것에 의해, 그리고, 상기 해당 주파수로 주기성을 선택하는 것에 의해, 페이로드(pay-load) 양의 시퀀스에서 식별할 수 있다. 일 실시예에서, 절대 최대치(absolute maximum)가 결정된다.
스펙트럼 분석은 전형적으로 페이로드(pay-load) 양의 시퀀스의 시간 축을 따라 수행된다. 게다가, 스펙트럼 분석은 전형적으로 페이로드(pay-load) 양의 시퀀스의 복수의 서브시퀀스 상에서 수행된다. 그렇게 함으로써, 파워 값들의 복수의 세트를 산출한다. 한 예로써, 서브시퀀스들은 예컨대, 6 초의 오디오 신호의 어떤 길이를 커버할 수 있다. 게다가, 서브시퀀스들은 서로, 예컨대, 50% 오버랩될 수 있다. 그렇게 하여, 파워값들의 복수의 세트들이 얻어진다. 여기서, 파워 값들의 각 세트는 오디오 신호의 어떤 발췌부분에 대응한다. 완전한 오디오 신호에 대한 파워값들의 전체 세트는 파워 값들의 복수의 세트들의 평균화에 의해 얻어진다. 용어 "평균화(averaging)"는 평균값을 산출하는 것, 또는 중간값을 결정하는 것과 같은, 다양한 형식의 수학적 연산을 커버할 수 있다. 즉, 파워 값들의 전체 세트는 파워 값들의 복수의 세트들의 평균 파워값의 세트 또는 중간 파워값들을 산출하는 것에 의해 얻어질 수 있다. 일 실시예에서, 스펙트럼 분석을 수행하는 것은 FFT 또는 푸리에 변환과 같은, 주파수 변환을 수행하는 것을 포함한다.
파워값들의 세트들은 추가 프로세싱에 제출될 수 있다. 일 실시예에서, 파워값들의 세트는 그들의 해당 주파수의 인간 인지 선호도에 관련된 가중치로 곱해진다. 한 예로써, 그러한 인지 가중은 인간에 의해 덜 자주 검출되는 템포들에 해당 주파수들이 약화되는 반면, 인간에 의해 더욱 자주 검출되는 템포들에 해당 주파수들을 강조하는 것이 될 수 있다.
방법은 식별된 주기성으로부터 오디오 신호의 템포 정보를 추출하는 단계를 더 포함할 수 있다. 이는 파워값들의 세트의 절대 최대값에 해당 주파수를 결정하는 단계를 포함할 수 있다. 그러한 주파수는 오디오 신호의 물리적인 템포가 될 수 있다.
추가 측면에 따르면, 오디오 신호의 인지적인 템포(perceptually salient tempo)를 추정하기 위한 방법이 기술된다. 인지적인 템포는 예컨대, 음악 신호와 같은, 오디오 신호를 들을 때, 사용자들의 그룹에 의해 가장 자주 인지되는 템포가 될 수 있다. 이는 전형적으로 오디오 신호의 물리적으로 가장 현저한 템포(physically salient tempo)와는 차이가 있다. 이는 오디오 신호, 예컨대, 음악 신호의 물리적 또는 음향적으로 가장 현저한 템포로 정의될 수 있다.
이 방법은 오디오 신호로부터 변조 스펙트럼을 결정하는 단계를 포함할 수 있다. 여기서, 변조 스펙트럼은 전형적으로 대응하는 복수의 중요한 값들 및 어커런스(occurrence)의 복수의 주파수를 포함할 수 있다. 중요한 값들은 오디오 신호에서 어커런스의 해당 주파수들의 상대적 중요도를 나타낸다. 다른 말로, 대응하는 중요한 값들이 오디오 신호에서 그러한 주기성의 중요함을 나타낼 때, 어커런스의 주파수들은 오디오 신호에서 어떤 주기성을 나타낸다. 한 예로, 주기성은 오디오 신호, 예컨대, 음악 신호에서 베이스 드럼의 사운드에서 일시적일 수 있다. 이는 되돌아오는 시간 인스탄스에서 발생된다. 만약, 이 임시성이 독특(distinctive)하면, 그러면, 이의 주기성에 대응하는 중요한 값은 전형적으로 높다.
일 실시예에 있어서, 상기 오디오 신호는 시간 축을 따라 PCM 샘플들의 시퀀스에 의해 표현된다. 그러한 경우에 있어서, 상기 변조 스펙트럼을 결정하는 단계는, 상기 PCM 샘플의 시퀀스로부터, 복수의, 연속되고, 부분적으로 오버랩핑된 서브시퀀스들을 선택하는 단계; 복수의 연속된 서브시퀀스들을 위한 스펙트럼 레졸루션을 가지는 복수의 연속된 파워 스펙트럼을 결정하는 단계와, 멜 주파수 변환(Mel frequency transformation) 또는 어떤 다른 인지 자극 비선형 주파수 변환(perceptually motivated non-linear frequency transformation)을 이용하여 복수의 연속된 파워 스펙트럼들의 스펙트럼 레졸루션을 응축하는 단계, 및/또는, 응축된 복수의 연속된 파워 스펙트럼들에 대해 시간 축을 따라 스펙트럼 분석을 수행하는 단계로서, 상기 스펙트럼 분석에 따라, 복수의 중요한 값들 및 어커런스(occurrence)의 해당 주파수들을 산출하는, 스펙트럼 분석을 수행하는 단계를 포함할 수 있다.
상기 변조 스펙트럼을 결정하는 단계는, 상기 PCM 샘플의 시퀀스로부터, 복수의, 연속되고, 부분적으로 오버랩핑된 서브시퀀스들을 선택하는 단계와, 복수의 연속된 서브시퀀스들을 위한 스펙트럼 레졸루션을 가지는 복수의 연속된 파워 스펙트럼을 결정하는 단계와, 인지적 비 선형 변환을 이용하여 복수의 연속된 파워 스펙트럼들의 스펙트럼 레졸루션을 응축하는 단계와, 응축된 복수의 연속된 파워 스펙트럼들에 대해 시간 축을 따라 스펙트럼 분석을 수행하는 단계로서, 상기 스펙트럼 분석에 따라, 복수의 중요한 값들 및 어커런스(occurrence)의 해당 주파수들을 산출하는, 스펙트럼 분석을 수행하는 단계를 포함한다. 일 실시예에서, 오디오 신호는 시간 축을 따라 연속된 서브밴드 계수 블록들의 시퀀스에 의해 표현된다. 그러한 서브밴드 계수들은 HE-AAC, MP3, AAC, 돌비 디지털(Dolby Digital) 또는 돌비 디지털 플러스(Dolby Digital Plus) 코덱의 경우에서, 예컨대, MDCT 계수들이 될 수 있다. 그러한 경우에서, 변조 스펙트럼을 결정하는 단계는 인지 비-선형 변환을 이용하여 블록에서 MDCT 계수들의 수를 응축하는 단계; 및/또는 응축된 연속의 MDCT 계수 블록들의 시퀀스 상의 시간 축을 따라 스펙트럼 분석을 수행하는 단계로서, 상기 스펙트럼 분석에 따라, 복수의 중요한 값들 및 어커런스(occurrence)의 해당 주파수들을 산출하는, 스펙트럼 분석을 수행하는 단계;를 포함한다.
일 실시예에 있어서, 오디오 신호는 시간 축을 따라 복수의 연속된 프레임들 및 스펙트럼 대역 복제 데이터를 포함하는 인코딩된 비트스트림에 의해 표현된다. 이러한 경우의 한 예로써, 인코딩 비트스트림은 HE-AAC 또는 mp3PRO 비트스트림이 될 수 있다. 이러한 경우에 있어, 상기 변조 스펙트럼을 결정하는 단계는, 상기 인코딩된 비트스트림의 프레임들의 시퀀스에서 스펙트럼 대역 복제 데이터의 양과 관련된 페이로드(pay-load) 양의 시퀀스를 결정하는 단계; 상기 페이로드(pay-load) 양의 시퀀스로부터 복수의 연속된, 부분적으로 오버랩된 서브시퀀스들을 결정하는 단계; 및/또는 복수의 연속된 서브시퀀스들 상에서 시간 축을 따라 스펙트럼 분석을 수행하는 단계로서, 상기 스펙트럼 분석에 따라, 복수의 중요한 값들 및 어커런스(occurrence)의 해당 주파수들을 산출하는, 스펙트럼 분석을 수행하는 단계;를 포함한다. 다른 말로, 변조 스펙트럼은 상술한 방법에 따라 결정될 수 있다.
더욱이, 변조 스펙트럼을 결정하는 단계는 변조 스펙트럼을 강화하기 위한 프로세싱을 포함할 수 있다. 그러한 변조 스펙트럼을 결정하는 단계는 복수의 중요한 값들을 어커런스(occurrence)의 해당 주파수들의 인간 인지 선호도와 관련된 가중치로 곱하는 단계를 포함할 수 있다.
상기 방법은 물리적인 템포를 복수의 중요한 값들의 최대값에 대응하는 어커런스의 주파수로 결정하는 단계를 더 포함할 수 있다. 이 최대값은 복수의 중요한 값들의 절대 최대값이 될 수 있다.
상기 방법은 변조 스펙트럼으로부터 오디오 신호의 비트 매트릭을 결정하는 단계를 더 포함한다. 일 실시예에 있어서, 복수의 중요한 값의 비교적 높은 값, 예컨대, 복수의 중요한 값들의 두 번째로 높은 값에 대응하는 적어도 하나의 다른 주파수의 어커런스 및 비트 매트릭은 물리적인 템포 사이의 관계를 나타낸다. 상기 비트 매트릭은 3/4 비트의 경우 3, 또는, 4/4 비트의 경우 2 중 어느 하나이다. 비트 매트릭은 오디오 신호의 복수의 중요한 값들 중 비교적 높은 값들에 대응하는 적어도 하나에 다른 현저한 템포, 즉, 어커런스의 주파수 및 물리적인 템포 사이의 비율에 관련된 팩터가 될 수 있다. 일반적인 용어에서, 비트 매트릭은 오디오 신호의 복수의 물리적인 템포들 사이, 예컨대, 오디오 신호의 2개의 물리적으로 가장 현정한 템포들 사이의 관계를 표현할 수 있다.
일 실시예에 있어서, 비트 매트릭을 결정하는 단계는 복수의 논-제로(non-zero) 주파수 지연들을 위한 변조 스펙트럼의 자기 상관을 결정하는 단계; 자기 상관의 최대치 및 해당 주파수 지연을 식별하는 단계; 및/또는 상기 물리적인 템포 및 해당 주파수 지연에 기반하여 비트 매트릭을 결정하는 단계;를 포함한다. 또한, 상기 비트 매트릭을 결정하는 단계는 복수의 비트 매트릭과 각각 관련된 복수의 합성된 탭핑 함수들 및 변조 스펙트럼 사이의 상호 상관을 결정하는 단계; 및/또는 최대 상호 상관을 산출하는 비트 매트릭을 선택하는 단계;를 포함할 수 있다.
상기 방법은 변조 스펙트럼으로부터 인지적으로 템포 지시자를 결정하는 단계를 포함한다. 상기 인지 템포 지시자를 결정하는 단계는 복수의 중요한 값들의 최대값에 의해 정규화된(normalized), 복수의 중요한 값들의 평균 값으로 제1 인지 템포 지시자를 결정하는 단계를 포함한다. 인지 템포 지시자를 결정하는 단계는 복수의 중요한 값들 중 최대 중요한 값으로 제2 인지 템포 지시자를 결정하는 단계를 포함한다. 상기 인지 템포 지시자를 결정하는 단계는 변조 스펙트럼의 어커런스(occurrence)의 센트로이드 주파수로 제3 인지 템포 지시자를 결정하는 단계를 포함한다.
상기 방법은 상기 비트 매트릭에 따라 물리적인 템포를 수정하여 인지적인 템포를 결정하는 단계를 포함하며, 상기 물리적인 템포를 수정하는 것은, 인지적 템포 지시자 및 상기 물리적인 템포 사이의 관계를 고려하는 것을 특징으로 한다. 일 실시예에 있어서, 상기 인지적인 템포를 결정하는 단계는 제1 인지 템포 지시자가 제1 임계치를 초과하는지 여부를 판단하는 단계와, 제1 임계치를 초과하면, 물리적인 템포를 수정하는 단계를 포함한다. 일 실시예에 있어서, 상기 인지적인 템포를 결정하는 단계는 상기 제2 인지 템포 지시자가 제2 임계치 미만인지의 여부를 판단하는 단계; 및 상기 제2 인지 템포 지시자가 상기 제2 임계치 미만이면, 물리적인 템포를 수정하는 단계;를 포함할 수 있다.
대안적으로 또는 추가로, 인지적인 템포를 결정하는 단계는 상기 제3 인지 템포 지시자 및 물리적인 템포 사이의 불일치(mismatch)를 결정하는 단계; 및 상기 불일치가 결정되면, 물리적인 템포를 수정하는 단계;를 포함할 수 있다. 상기 불일치를 결정하는 단계는 예컨대, 상기 제3 인지 템포 지시자가 제3 임계치 이하이고, 물리적인 템포가 제4 임계치 이상인지를 판단하는 단계; 또는, 상기 제3 인지 템포 지시자가 제5 임계치 이상이고, 상기 물리적인 템포가 제6 임계치 이하인지를 판단하는 단계;를 포함할 수 있다. 전형적으로, 제3, 제4, 제5 및 제6 임계치 중 적어도 하나는 인간 인지 템포 선호도에 관련되는 것을 특징으로 한다. 그러한 인지 템포 선호도는 제3 인지 템포 지시자 및 사용자의 그룹들에 의해 인지되는 오디오 신호의 스피드의 대상 인지 사이의 상관을 나타낼 수 있는 것을 특징으로 한다.
상기 비트 매트릭에 따라 물리적인 템포를 수정하는 단계는 기초 비트의 다음 높은 비트 레벨로 비트 레벨을 증가시키는 단계; 또는, 기초 비트의 다음 낮은 비트 레벨로 비트 레벨을 감소시키는 단계;를 포함할 수 있다. 한 예로써, 기초 비트가 4/4 비트이면, 비트 레벨을 증가시키는 단계는 물리적인 템포, 예컨대, 쿼터 노트들에 대응하는 템포들을 팩터 2에 의해 증가시키는 단계를 포함할 수 있으며, 그렇게 하여, 다음 높은 템포, 예컨대, 8번째 노트들에 대응하는 템포를 산출하는 것을 특징으로 한다. 유사한 방식으로, 비트 레벨을 증가시키는 단계는 2에 의해 나누는 단계를 포함할 수 있다. 그렇게 함으로써, 1/8 기반 템포에서 1.4 기반 템포로 시프트(shift)시킬 수 있다.
일 실시예에 있어서, 비트 레벨을 증가시키거나, 또는, 감소시키는 단계는 3/4 비트의 경우에 3에 의해 물리적인 템포를 곱하거나 또는 나누는 단계; 및/또는 4/4 비트의 경우 2에 의해 물리적인 템포를 곱하거나, 또는, 나누는 단계;를 포함한다.
이 실시예에서 다른 측면에 따르면, 소프트웨어 프로그램이 설명된다. 이는 컴퓨터 장치 상에서 수행될 때, 본 문헌에서 설명된 방법들의 단계들을 수행하고, 프로세서 상에서 실행하도록 적용된다.
이 실시예에서 다른 측면에 따르면, 저장 매체가 설명된다. 이는, 컴퓨터 장치 상에서 수행될 때, 본 문헌에서 설명된 방법 단계들을 수행하고, 프로세서 상에서 실행하도록 적용된다.
본 발명의 다른 측면에 따르면, 컴퓨터 프로그램 제품이 설명된다. 이는 컴퓨터 상에서 실행될 때, 본 발명에서 설명된 방법을 수행하기 위한 실행 명령을 포함한다.
다른 양상에 따르면, 휴대용 전자장치가 제공된다. 이러한 휴대 장치는 오디오 신호를 저장하도록 구성되는 저장 유닛과, 오디오 신호를 랜더링하도록 구성되는 오디오 랜더링 유닛과, 오디오 신호 상에서 템포 정보를 위한 사용자의 요청을 수신하도록 구성되는 사용자 인터페이스; 및 오디오 신호 상에서 본 문헌에서 설명된 방법 단계들을 수행하는 것에 의해 템포 정보를 결정하도록 구성되는 프로세서를 포함할 수 있다.
다른 양상에 따르면, 오디오 신호의 스펙트럼 대역 복제 데이터를 포함하는, 인코딩된 비트스트림으로부터 오디오 신호, 예컨대, HE-AAC 비트스트림의 템포 정보를 추출하도록 구성되는 시스템이 설명된다. 상기 시스템은 오디오 신호의 시간 인터벌의 상기 인코딩된 비트스트림에 포함된 스펙트럼 대역 복제 데이터의 양과 관련된 페이로드(pay-load) 양을 결정하기 위한 수단과, 오디오 신호의 상기 인코딩된 비트스트림의 연속된 시간 인터벌을 위한 결정하는 단계를 반복하기 위한 수단;으로, 상기 반복에 의해 페이로드(pay-load) 양의 시퀀스를 결정하는 것을 특징으로 하는, 반복하기 위한 수단과, 페이로드(pay-load) 양의 시퀀스에서 주기성을 식별하기 위한 수단과, 식별된 주기성으로부터 오디오 신호의 템포 정보를 추출하기 위한 수단;을 포함할 수 있다.
오디오 신호의 인지적인 템포를 추정하도록 구성된 시스템이 설명된다. 이 시스템은 오디오 신호의 변조 스펙트럼을 결정하기 위한 수단으로, 상기 변조 스펙트럼은 어커런스(occurrence)의 복수의 주파수들 및 대응하는 복수의 중요한 값들을 포함하며, 상기 중요한 값들은 오디오 신호에서 어커런스의 해당 주파수들의 상대적 중요도를 나타내는 것을 특징으로 하는, 변조 스펙트럼을 결정하기 위한 수단과, 복수의 중요한 값들의 최대값에 대응하는 어커런스의 주파수로 물리적인 템포를 결정하기 위한 수단과, 변조 스펙트럼으로부터 오디오 신호의 비트 매트릭을 결정하기 위한 수단과, 상기 변조 스펙트럼으로부터 인지 템포 지시자를 결정하기 위한 수단 및 상기 비트 매트릭에 따라 물리적인 템포를 수정하여 인지적인 템포를 결정하기 위한 수단으로서, 상기 물리적인 템포를 수정하는 것은, 인지적 템포 지시자 및 상기 물리적인 템포 사이의 관계를 고려하는 것을 특징으로 하는 인지적인 템포를 결정하기 위한 수단을 포함할 수 있다.
본 발명의 다른 측면에 따라, 오디오 신호의 메타데이터를 포함하는 인코딩된 비트스트림을 생성하기 위한 방법이 제공된다. 이러한 방법은 상기 오디오 신호의 템포에 관련된 메타데이터를 결정하는 단계 및 상기 인코딩된 비트스트림에 상기 메타데이터를 삽입하는 단계를 포함할 수 있다. 한 예로써, 오디오 신호는 HE-AAC, MP3, AAC, 돌비 디지털(Dolby Digital) 또는 돌비 디지털 플러스(Dolby Digital Plus) 비트스트림으로 인코딩될 수 있다. 대안적으로, 또는, 추가하여, 방법은 이미 인코딩된 비트스트림에 의존할 수 있다. 예컨대, 방법은 인코딩된 비트스트림을 수신하는 단계를 포함할 수 있다.
상기 방법은, 오디오 신호의 템포에 관련된 메타데이터를 결정하기 위한 단계와, 상기 인코딩된 비트스트림에 상기 메타데이터를 삽입하기 위한 단계를 포함할 수 있다. 이 메타데이터는 오디오 신호의 인지적인 템포 및/또는 물리적인 템포를 표현하는 데이터가 될 수 있다. 또한, 메타데이터는 오디오 신호로부터 변조 스펙트럼을 표현하는 데이터가 될 수 있다. 오디오 신호의 변조 스펙트럼을 결정하기 위한 방법으로, 상기 변조 스펙트럼은 어커런스(occurrence)의 복수의 주파수들 및 대응하는 복수의 중요한 값들을 포함하며, 상기 중요한 값들은 오디오 신호에서 어커런스의 해당 주파수들의 상대적 중요도를 나타내는 것을 특징으로 한다. 오디오 신호의 템포와 관련된 메타데이터는 본 발명에서 설명된 방법들 중 어느 하나에 따라 결정될 수 있다. 즉, 템포들 및 변조 스펙트럼은 이 문헌에서 설명된 방법들에 따라 결정될 수 있다.
또 다른 측면에 따르면, 메타데이터를 포함하는 오디오 신호의 인코딩된 비트스트림이 설명된다. 인코딩된 비트스트림은 HE-AAC, MP3, AAC, 돌비 디지털(Dolby Digital) 또는 돌비 디지털 플러스(Dolby Digital Plus) 비트스트림이 될 수 있다. 상기 메타데이터는 오디오 신호의 인지적인 템포 및/또는 물리적인 템포를 표현하는 데이터; 중 적어도 하나를 포함한다. 오디오 신호로부터의 변조 스펙트럼, 상기 변조 스펙트럼은 어커런스(occurrence)의 복수의 주파수들 및 대응하는 복수의 중요한 값들을 포함하며, 상기 중요한 값들은 오디오 신호에서 어커런스의 해당 주파수들의 상대적 중요도를 나타낸다. 특히, 메타데이터는 본 문헌에서 설명되는 방법들에 의해 생성된 변조 스펙트럼 데이터 및 템포 데이터를 표현하는 데이터를 포함할 수 있다.
본 발명의 다른 측면에 따라, 오디오 신호의 메타데이터를 포함하는 인코딩된 비트스트림을 생성하도록 구성된 오디오 인코더를 설명한다. 인코더는 오디오 신호를 페이로드(pay-load) 데이터의 시퀀스로 인코딩하기 위한 수단으로, 그에 의해 인코딩된 비트스트림이 산출되는, 인코딩하기 위한 수단; 오디오 신호의 템포에 관련된 메타데이터를 결정하기 위한 수단; 및 상기 인코딩된 비트스트림에 상기 메타데이터를 삽입하기 위한 수단을 포함할 수 있다. 앞서 설명된 유사한 방식에 따라, 인코더는 이미 인코딩된 비트스트림에 따르며, 인코더는 인코딩된 비트스트림을 수신하기 위한 수단을 포함한다.
추가적인 측면에 따라, 오디오 신호의 인코딩된 비트스트림을 디코딩하도록 구성된 대응하는 디코더 및 오디오 신호의 인코딩된 비트스트림을 디코딩하기 위한 대응하는 방법이 설명된다. 방법 및 디코더는 인코딩된 비트스트림으로부터, 각각 메타데이터, 특히, 템포 정보에 관련된 메타데이터를 추출하도록 구성되는 것을 언급한다.
이 문헌에서 설명된 양태들 및 실시예들은 임의로 조합될 수 있음을 언급한다. 특히, 시스템의 콘텍스트에 설명된 측면들 및 특징들은 또한, 대응하는 방법들의 콘텍스트에 적용할 수 있으며, 그 역도 이와 같다. 게다가, 본 문헌의 실시예들은 종속항에서 백 레퍼런스들(back references)에 의해 명백하게 주어지는 청구범위 조합들이 아닌 다른 청구범위 조합들 또한 커버할 수 있다. 즉, 청구범위 및 그들의 기술적 특징들은 어떤 순서 및 어떤 형태로든 조합할 수 있다.
상술한 바와 같이 본 발명은 물리적 및 인지적 템포의 신뢰있는 추정을 위한 복합 스케이러블 변조 주파수(complexity scalable modulation frequency) 방법 및 시스템을 제공한다. 이 추정은 비압축 PCM 도메인, MDCT 기반 HE-AAC 변환 도메인 및 HE-AAC SBR 페이로드(pay-load) 기반 압축 도메인에서 오디오 신호들 상에서 수행되며, 이러한 이유로 오디오 신호가 압축 도메인에 있을 때이더라도, 매우 낮은 복잡도에서 템포 추정을 수행할 수 있도록 한다. 특히, SBR 페이로드(pay-load) 데이터를 이용하면, 템포 추정들은 엔트로피 디코딩을 수행함이 없이, 압축된 HE-AAC 비트스트림으로부터 직접 추출할 수 있다. 이러한 본 발명은 비트레이트 및 SBR 크로스-오버 주파수 변경들에 대해서 강건하고, 모노 및 다중 채널 인코딩된 오디오 신호에 적용할 수 있다. 또한, 이는 "mp3PRO"와 같은, 다른 SBR 강화된 오디오 코더들에 적용할 수 있고, 코덱 애그노스틱(codec agnostic)으로 간주될 수 있다. 본 발명의 템포 추정을 위하여, 템포 추정을 수행하는 장치는, 템포 추출이 인코딩된 SBR 데이터 상에서 직접 수행되므로, SBR 데이터를 디코딩하는 것이 가능하도록 하는 것을 반드시 요구하지는 않는다. 더욱이, 본 발명의 방법들 및 시스템은 많은 음악 데이터세트들에서 인간 템포 인지 및 음악 템포 분산들에 대한 지식을 사용한다. 그리고, 템포 추정을 위한 오디오 신호의 적합한 표현의 검증, 인지 템포 가중 함수 및 인지 템포 정정 구조을 제안하고, 인지 템포 정정 구조를 제공함으로써, 오디오 신호들의 인지적인 템포의 신뢰있는 추정들을 제공할 수 있다. 게다가, 본 발명의 실시예에 따른 방법들 및 시스템들은 예컨대, 장르 분류를 위한 MIR 어플리케이션들의 콘텍스트에서 사용될 수 있으며, 낮은 연산 복잡도에 기인하여, SBR 페이로드(pay-load)에 기초한 특정 추정 방법에서, 템포 추정 구조들은 전형적으로 제한된 프로세싱 및 메모리 리소스들을 가지는, 휴대용 전자장치들 상에서 직접 구현될 수 있다. 더욱이, 인지적인 템포들의 결정은 음악 선곡, 비교, 믹싱, 및 재생목록을 위해 사용될 수 있고, 한 예로써, 인접한 음악 트랙들 사이에서, 유연한 리듬 변경들을 가지는 재생 목록을 생성할 때, 음악 트랙의 인지적인 템포를 고려하는 정보는 물리적인 템포에 관련된 정보보다 더 나은 사용자 경험(UX)을 제공할 수 있다.
본 발명이 도면과 함께 참조하여, 본 발명의 범위 또는 사상을 벗어남이 없이, 실시예들을 설명하는 방법에 의해 설명될 것이다.
도 1은 단일 음악 발췌부의 탭핑된 템포들 vs 대형 음악 콜렉션을 위한 예시적 공명 모델을 도시한다;
도 2는 짧은 블록들에 대한 MDCT(Modified Discrete Cosine Transform) 계수들의 예시적인 인터리빙을 보인다;
도 3은 예시적인 멜 스케일(Mel scale) 및 예시적인 멜 스케일 필터 뱅크를 도시한다;
도 4는 예시적인 압신 함수(companding function)를 도시한다;
도 5는 예시적인 가중 함수(weighting function)를 도시한다;
도 6은 예시적인 파워 및 변조 스펙트럼을 도시한다;
도 7은 예시적인 SBR 데이터 요소를 도시한다;
도 8은 예시적인 SBR 페이로드(pay-load) 크기의 시퀀스 및 결과 변조 스펙트럼(resulting modulation spectra)을 도시한다;
도 9는 제안된 템포 추정 구조의 예시적인 개요를 보인다;
도 10은 제안된 템포 추정 구조들의 예시적인 비교를 보인다;
도 11은 다른 매트릭들을 가지는 오디오 트랙들을 위한 예시적인 변조 스펙트럼을 보인다;
도 12는 인지 템포 분류에 대한 예시적인 실험 결과들을 보인다; 그리고,
도 13은 템포 추정 시스템의 예시적인 블록도를 보인다.
아래에 설명될 실시예들은 단지 템포 추정을 위한 방법 및 시스템의 원리들을 설명하기 위한 것이다. 본 문헌에 설명된 상세한 설명들 및 방식들의 수정 및 변형이 있을 수 있음은 이 기술분야에서 통상의 지식을 가진자에게 자명한 것으로 이해되어야 한다. 그러므로 본 발명의 범위는 오직 첨부된 특허청구범위에 의해서만 제한되어야 할 것이며, 본 문헌에 기술 및 설명에 의한 방법으로 제공되는 특정된 상세한 설명들의 실시예들에 의해 제한되어서는 안 된다.
도입부에서 나타낸 바와 같이, 알려진 템포 측정 구조는 예컨대, PCM 도메인, 전송 도메인, 또는 압축 도메인과 같은 신호 표현의 어떤 도메인들에 대해 제한되어 있다. 특히, 템포 추정을 위해 존재하는 해결이 없다. 여기서, 특징들은 엔트로피 디코딩을 수행하지 않은 압축된 HE-AAC 비트스트림으로부터 직접 계산된다. 더욱이, 존재하는 시스템들은 주로 서구식 유행 가요에 제한된다.
게다가, 기존의 구조들은 인간 청취자에 의해 인지되는 템포를 고려하지 않으며, 그 결과, 옥타브 오류들 또는 이중/반-시간 혼동(double/half-time confusion)이 존재한다. 상기 혼동은 음악에서 다른 악기들이 필수불가결하게 관련된 다수의 서로 간에 주기성을 가지는 리듬에서 연주된다는 사실로부터 일어난다. 다음에서 그 개요가 설명될 바와 같이, 템포의 인지는 반복 비율 또는 주기성에 따르는 것이라기보다는, 다른 인지적 팩터들에 의해 영향을 받는다는 것이 본 발명이 이해하는 바이다. 따라서 이러한 혼동들은 추가 인지 특징들을 사용함으로써 극복될 수 있다. 이러한 추가 인지 특징들에 기초하여, 지각적으로 자극받은 방법에서 추출된 템포들의 정정이 수행된다. 즉, 앞서 언급된 템포 혼동은 감소되거나 또는 제거된다.
이미 강조한 바와 같이, "템포"에 관하여 언급할 때, 기록된 템포, 물리적으로 측정된 템포 및 인지 템포 사이에 구분이 필요하다. 인지 템포가 주관적인 특징을 가지며, 전형적으로 인지 청취 경험으로부터 판별되는 반면, 물리적으로 측정된 템포는 샘플링된 오디오 신호 상에서 실제 측정으로부터 얻어진다. 추가로, 템포는 매우 콘텐츠 독립적인 음악적 특징이며, 때로는 자동으로 감지하기가 매우 어렵다. 왜냐하면, 어떤 오디오 또는 음악에서 음악적으로 발췌한 부분을 전달하는 템포를 추적하는 것은 명확하지 않기 때문이다. 또한, 청취자의 음악적 경험 및 그들의 포커스는 템포 측정 결과에 있어 상당한 영향을 미친다. 이는 기록된 템포, 물리적으로 측정된 템포 및 인지 템포를 비교할 때 사용되는 템포 매트릭 내에서 차이로 이끌 수 있다. 여전히, 물리적 및 인지 템포 추정 접근은 서로의 정정을 위하여 조합되어 사용될 수 있다. 이는, 어떤 BPM(beats per minute) 값 및 그 곱에 대응하는, 즉, 전체 및 이중 기록들이, 오디오 신호 상에 물리적 측정에 의해 검출되었을 때, 인지할 수 있다. 하지만, 인지 템포는 느리게 랭크된다. 결과적으로, 물리적 측정이 안정적(reliable)이라고 가정할 때, 정정 템포는 감지가 느린 것이다. 다른 말로, 기록된 템포의 추정에 초점을 맞춘 추정 구조는 전체 및 이중 기록들에 대응하여 애매모호한 추정 결과들을 제공할 것이다. 인지 템포 추정 방법들과 조합한다면, 정확한 (인지) 템포가 결정될 수 있다.
인간 템포 인지 상의 큰 스케일 경험들은 사람들이 피크치가 120 BPM에서 범위 100과 140 BPM 사이의 범위에서 음악 템포를 인지하는 경향이 있는 것을 보인다. 이는 도 1에 보인 바와 같은 점선의 공명 곡선(101)으로 모델링될 수 있다. 이 모델은 큰 데이터 세트들을 위한 템포 분산을 예측하기 위하여 사용될 수 있다. 하지만, 단일 음악 파일 또는 트랙에 대한 탭핑 실험들의 결과를 비교할 때, 공명 곡선(101)과 함께, 참조 번호 102 및 203을 보면, 개별 오디오 트랙의 인지 템포들(102, 103)이 모델(101)에 반드시 맞을 필요는 없다는 것을 알 수 있다. 알 수 있는 바와 같이, 대상들은, 때로는 모델(101)과 전혀 다른 곡선을 초래하는 다른 박자 레벨들(102 또는 103)에서 탭(tap)할 수 있다. 이는 특히 다른 종류의 장르 및 다른 종류의 리듬들에 대해 참(true)이다. 그러한 박자의 모호함은 템포 결정에 대해 높은 혼란의 정도를 초래하고, 비인지적으로(non-perceptually) 구동된 템포 추정 알고리즘의 전체적으로 "만족스럽지 못한" 성능에 대해 설명이 가능하다.
이러한 혼란을 극복하기 위하여, 새로운 인지적 자극 템포 정정 구조가 제안된다. 여기서, 가중치들이, 청각 단서들(acoustic cues), 즉, 음악 파라미터 또는 특징의 수의 추출된 것에 기초하여 다른 매트릭 레벨(metrical level)들에 할당된다. 이러한 가중치들은 추출되어 물리적으로 계산된 템포들을 정정하는 데에 사용될 수 있다. 특히, 그러한 정정은 인지 중심 템포들을 결정하는 데에 사용될 수 있다.
다음에서, PCM 도메인 및 변환 도메인으로부터 템포 정보를 추출하기 위한 방법이 설명된다. 변조 스펙트럼 분석이 이러한 목적을 위해 사용될 수 있다. 일반적으로, 변조 스펙트럼 분석은 시간이 흐름에 따라 음악 특징들의 반복성을 캡처하기 위하여 사용될 수 있다. 음악 트랙의 장기적인 통계 자료를 평가하는 데에 사용될 수 있거나, 및/또는 이는 양적인 템포 추정에 사용될 수 있다. 멜(Mel) 파워 스펙트럼에 기초한 변조 스펙트럼은 압축되지 않은 PCM(Pulse Code Modulation) 도메인에서 오디오 트랙에 대해, 및/또는, 변환 도메인, 예컨대, HE-AAC(High Efficiency Advanced Audio Coding) 변환 도메인에서 오디오 트랙에 대해 결정될 수 있다.
PCM 도메인에서 표현되는 신호를 위해, 변조 스펙트럼은 오디오 신호의 PCM 샘플들로부터 직접 결정될 수 있다. 다른 한편, 변환 도메인, 예컨대, HE-AAC 변환 도메인에서 표현되는 오디오 신호를 위해, 신호의 서브밴드 계수는 변조 스펙트럼의 결정을 위해 사용될 수 있다. HE-AAC 변환 도메인을 위해, 변조 스펙트럼은 디코딩 또는 인코딩하는 동안 HE-AAC 디코더로부터 직접 취해진 MDCT(Modified Discrete Cosine Transform) 계수들의 어떤 수(예컨대, 1024)의 프레임별(frame by frame) 기반으로 결정될 수 있다.
HE-AAC 변환 도메인에서 작동할 때, 짧고 긴 블록들의 존재를 고려하는 것은 이로울 수 있다. 짧은 블록들은, 그들의 낮은 주파수 레졸루션 때문에, MFCC(Mel-frequency cepstral coefficients)의 연산을 위해, 또는, 비-선형 주파수 스케일 상에서 연산된 켑스텀(cepstum, 신호의 스펙트럼을 IFT 연산한 결과)의 연산을 위해, 스킵되거나, 드롭될 수 있다. 반면, 짧은 블록들은 오디오 신호의 템포를 결정할 때, 고려되어야만 한다. 이는 특히 수많은 급격한 시작들(sharp onsets) 및 결과적으로 높은 품질의 표현을 위한 높은 수의 짧은 블록들을 포함하는 오디오 및 음성 신호들과 관련된다.
단일 프레임에 대해, 8개의 짧은 블록들을 포함할 때, 긴 블록에 대한 MDCT 계수들의 인터리빙이 수행되는 것이 제안된다. 전형적으로, 길고, 짧은 블록들인, 2개의 형식들의 블록들은 구별될 수 있다. 일 실시예에서, 긴 블록은 프레임의 크기와 같다(즉, 특정 시간 레졸루션에 대응하는 1024 스펙트럼 계수). 짧은 블록은 프리-에코-아티팩트(pre-echo-artifact)들을 피하기 위하여, 그리고, 시간에 맞는 오디오 신호 특징들의 적절한 표현에 대해 8 배 높은 시간 레졸루션(1023/128)을 성취하기 위해 128개의 스펙트럼 값들을 포함한다. 결과적으로, 프레임은 동일한 팩터 8에 의해 감소된 주파수 레졸루션의 코스트(cost)에 8개의 짧은 블록들에 의해 형성된다. 이 구조는 일반적으로 "AAC 블록-스위칭 구조(AAC Block-Switching Scheme)"이라 한다.
이는 도 2에서 보인다. 여기서, 8개의 짧은 블록(201 내지 208)의 MDCT 계수는 인터리빙되어, 8개의 짧은 블록(201 내지 208)의 MDCT 계수 각각이 재편성된다. 즉, 8개의 짧은 블록(201 내지 208)의 첫 번째 MDCT 계수가 재편성되고, 이를 따르는, 즉, 8개의 짧은 블록(201 내지 208)의 두 번째 MDCT 계수가 재편성되는, 등으로 재편성된다. 이렇게 함으로써, 대응하는 MDCT 계수들, 즉, 동일한 주파수에 대응하는 MDCT 계수는 함께 그룹화된다. 프레임 내에서 짧은 블록들의 인터리빙은 프레임 내에서 주파수 레졸루션을 "인위적으로(artificially)" 증가시키는 동작으로 이해될 수 있다. 이는 주파수 레졸루션을 증가시키는 다른 수단들이 고려될 수도 있음을 언급한다.
도시된 실시예에서, 1024 MDCT 계수들을 포함하는 블록(210)은 8개의 짧은 블록들의 묶음에 대해 얻어진다. 긴 블록들도 또한 1024 MDCT 계수들을 포함한다는 것에 기인하여, 1024 MDCT 계수들을 포함하는 블록들의 전체 시퀀스는 오디오 신호에 대해 얻을 수 있다. 즉, 8개의 연속된 짧은 블록들(201 내지 208)로부터 긴 블록들(210)을 형성함에 의해, 긴 블록들의 시퀀스가 얻어진다.
(짧은 블록들의 경우에서) 인터리빙된 MDCT 계수들의 블록(210)에 기초하고, 그리고, 긴 블록들에 대해 MDCT 계수의 블록 상에 기초하여, 파워 스펙트럼이 MDCT 계수들의 매 블록에 대해 산출된다. 예시적인 파워 스펙트럼이 도 6a에 도시되었다.
일반적으로, 인간 청지각(auditory perception)은 (전형적으로 비선형) 라우드니스 및 주파수의 기능이며, 반면, 모든 주파수들이 동일한 라우드니스로 인지되는 것은 아님을 언급한다. 다른 한편, MDCT 계수들은 진폭/에너지 및 주파수 모두에 대해 선형 스케일 상에 표현되며, 이는 양자 모두에 대해 비선형인 인간 청각 시스템과 대조적이다. 인간 지각에 근접된 신호 표현을 얻기 위해, 선형에서 비선형 스케일로 변환이 사용될 수 있다. 실시예에서, dB를 사용하는 로그 스케일(logarithmic scale) 상에서 MDCT 계수들에 대한 파워 스펙트럼 변환은 인간 라우드니스 인지를 모델링하도록 사용된다. 그러한 파워 스펙트럼 변환은 다음에 따라 산출될 수 있다.
Figure 112012031993372-pct00006
유사하게, 파워 스펙트로그램 또는 파워 스펙트럼은 압축되지 않은 PCM 도메인에서 오디오 신호에 대해 산출될 수 있다. 이를 위해, 시간에 따라 어떤 길이의 STFT(Short Term Fourier Transform)는 오디오 신호에 적용된다. 그 후, 파워 변환이 수행된다. 인간 라우드니스 인지를 모델링하기 위해, 비 선형 스케일 상의 변환, 예컨대, 상술한 로그 스케일 상의 변환이 수행될 수 있다. STFT의 크기는, 시간 레졸루션을 발생하는 것이 변환된 HE-AAC 프레임들의 시간 레졸루션과 일치되도록 선택된다. 하지만, STFT의 크기는, 또한, 요구되는 정화도 및 연산 복잡도에 따라, 크거나 또는 작은 값들로 설정될 수 있다.
다음 단계에서, 멜(Mel) 필터-뱅크로 필터링하는 것은 인간 주파수 감도(human frequency sensitivity)의 비선형성을 모델링하는 데에 적용될 수 있다. 이러한 목적을 위해, 도 3a에 보인 바와 같은, 비선형 주파수 스케일(Mel 스케일)이 적용된다. 스케일(300)은 대략적으로 낮은 주파수(< 500 Hz)에서 선형이며, 높은 주파수들에서 대수적(logarithmic)이다. 선형 주파수 스케일에 대한 참조 포인트 301은 1000 멜(Mel)로 정의되는 1000 Hz 톤(tone)이다. 2 배 높이 인지되는 피치를 가지는 톤은 200 멜로 정의되고, 절반의 높이로 인지되는 피치를 가지는 톤은 500 멜로 정의된다. 수학적인 항에서, 멜 스케일은 다음과 같이 주어진다.
Figure 112012031993372-pct00007
여기서, fHz는 Hz에서 주파수이며, 멜에서의 주파수이다. 멜 스케일 변환은 인간 비선형 주파수 인지를 모델링하기 위해 사용될 수 있고, 게다가, 가중치(weights)가 인간 비선형 주파수 감도를 모델링하기 위하여 주파수들에 할당될 수도 있다. 이는 멜 주파수 스케일(또는, 어떤 다른 비선형 인지 자극 주파수 스케일)에 삼각 필터들을 50%의 오버랩핑하는 것을 이용하여 수행 될 수 있다. 여기서, 필터의 가중치는 필터의 대역폭의 역수이다(비선형 감도(non-linear sensitivit -y)). 이는 도 3b에서 보이며, 도 3b는 예시적인 멜 스케일 필터 뱅크를 도시한다. 필터(302)는 필터(303) 보다 큰 대역폭을 가지는 것을 알 수 있다. 결과적으로, 필터(302)의 필터 가중치는 필터(303)의 필터 가중치 보다 작다.
이렇게 함으로써, 멜 파워 스펙트럼이 단지 몇몇 계수들을 가지는 가청 주파수 범위를 표현하는 것이 얻어진다. 예시적인 멜 파워 스펙트럼이 도 6b에 보인다. 멜 스케일 필터링의 결과에 따라, 파워 스펙트럼이 스무드되고(smoothed), 높은 주파수들에서 특별히 세부 사항들이 로스트(lost)된다. 예시적인 경우에 있어서, 멜 파워 스펙트럼의 주파수 축은 압축된 PCM 도메인에 대해 잠재적으로 높은 수의 스펙트럼 계수들과 HE-AAC 변환 도메인에 대해 프레임당 1024 MDCT 계수 대신 단지 40개의 계수들에 의해 표현된다.
의미있는 최소화를 위한 주파수에 따라 데이터의 수를 더욱 감소시키기 위하여, CP(압신 함수, 압축신장 함수, 압축신장 부호화 함수, companding function)가 도입된다. 이는 높은 멜 대역들을 단일 계수들에 매핑한다. 이것에 대한 배경 이유는 전형적인 대부분의 정보 및 신호 파워는 낮은 주파수 영역들에 위치하는 것이다. 실험적으로 검증된 CP가 표 1에 보이며, 이에 대응하는 곡선(400)이 도 4에 보인다. 예시적인 경우에서, 이 CP는 멜 파워 계수들의 수를 12로 감소시킨다. 예시적인 압신된(송신신호의 압축에 의한 수신신호의 신장, 압축신장 부호화, companded) 멜 파워 스펙트럼이 도 6c에 보인다.
압신된(companded) 멜 뱅크 인덱스 멜 대역 인덱스((...)의 합)
1 1
2 2
3 3-4
4 5-6
5 7-8
6 9-10
7 11-12
8 13-14
9 15-18
10 19-23
11 24-29
12 30-40
CP(companding function)는 다른 주파수 범위들을 강조하기 위하여 가중치를 부여 받는다는 것을 언급한다. 실시예에 있어서, 가중치는 압신된(companded, 송신 신호의 압축에 의해 수신 신호의 신장된) 주파수 대역들이 특정 압신 주파수 밴드에 포함되는 멜 주파수 대역들의 평균 파워를 반영하는 것을 보장할 수 있다. 이는 압신 주파수 대역들이 특정 압신 주파수 대역에서 포함된 멜 주파수 대역들의 전체 파워를 반영하는 비-가중된(non-weighted) CP(companding function)와는 다르다. 한 예로써, 가중치를 부여하는 것은 압신 주파수 대역에 의해 커버되는 멜 주파수 대역들의 수를 고려할 수 있다. 실시예에서, 가중치를 부여하는 것은 반대로 특정 압신 주파수 대역에 포함된 멜 주파수 대역들의 수에 역으로 비례할 수 있다.
변조 스펙트럼을 결정하기 위해, 압신 파워 스펙트럼, 또는, 어떤 다른 미리 결정된 파워 스펙트럼은, 오디오 신호 길이의 미리 결정된 길이를 나타내는 블록들로 세그먼트화될 수 있다. 게다가, 이는 블록들의 부분적인 오버랩을 정의하는 데에 이득이 될 수 있다. 실시예에 있어서, 시간 축 상의 50% 오버랩을 가지는 오디오 신호의 6 초 길이에 대응하는 블록들이 선택된다. 블록들의 길이는 오디오 신호의 긴-시간 특징들을 커버하는 능력 및 연산 복잡도 사이의 트래이드오프 (tradeoff)로 선택될 수 있다. 압신 멜 파워 스펙트럼으로부터 결정된 예시적인 변조 스펙트럼이 도 6d에 도시되었다. 사이드 노트(side note)에 따르면, 변조 스펙트럼을 결정하는 것에 대한 어프로치는 멜 필터된 스펙트럼 데이터로 한정되는 것이 아니라, 스펙트럼 표현 또는 기본적으로 어떤 음악적 특징의 긴 기간의 통계치를 얻기 위해 사용될 수 있다.
그러한 세그먼트 또는 블록 각각에 대해, FFT는 라우드니스의 진폭 변조된 주파수들을 얻기 위한 시간 및 주파수 축을 따라 산출된다. 전형적으로, 0 내지 10 Hz 범위 내의 변조 주파수들이, 이 범위를 넘어서는 변조 주파수들이 전형적으로 중요하지 않음(irrelevant)에 따라, 템포 추정의 콘텍스트에 고려된다. 시간 또는 프레임 축을 따라 파워 스펙트럼 데이터에 대해 결정되는, FFT 분석의 출력으로, FFT 주파수 빈(bin)들에 대응하는 파워 스펙트럼의 피크(peak)들이 결정될 수 있다. 그러한 피크들의 주파수 또는 주파수 빈은 오디오 또는 음악 트랙에서 파워 인텐시브 이벤트(power intensive event)의 주파수에 대응하며, 그것에 의해 오디오 또는 음악 트랙의 템포를 나타낸다.
압신 멜 파워 스펙트럼의 연관된 피크들의 결정을 향상시키기 위하여, 데이터는 인지적 가중치 부여(weighting) 및 블러링(blurring)과 같은 추가적인 처리를 위해서 제공될 수 있다. 인간 템포 선호도가 변조 주파수에 따라 다양하다는 사실의 관점에서, 그리고, 매우 높고 매우 낮은 변조 주파수들이 발생하기 쉽지 않다는 관점에서, 인지 템포 가중 함수는 어커런스(occurrence)의 높은 라이크리후드(likelihood)를 가지는 이러한 템포들을 강조하기 위해서, 그리고, 발생하기 쉽지 않은 템포들을 억제하기 위해서, 도입될 수 있다. 실험적으로 검증된 가중 함수(500)가 도 5에 도시되었다. 가중 함수(500)는 오디오 신호의 블록 또는 각 세그먼트의 변조 주파수 축을 따라 모든 압신 멜 파워 스펙트럼 밴드에 적용될 수 있다. 즉, 각 압신 멜 대역의 파워 값들은 가중 함수(500)에 의해 곱해질 수 있다. 예시적인 가중된 변조 스펙트럼이 도 6e에 도시되었다. 가중 필터 또는 가중 함수는 만약, 음악의 장르가 알려진다면, 적용될 수 있다는 점을 언급한다. 예를 들면, 전자 음악이 분석된다는 점이 알려진다면, 가중 함수는 약 2 Hz의 피크치를 가지며, 다소 협소한 범위의 외부로 제한될 수 있다. 다른 말로, 가중 함수들은 음악 장르에 종속될 수 있다.
신호 다양성을 더 강조하고, 변조 스펙트럼의 리듬 콘텐츠를 표명하기 위하여, 변조 주파수 축을 따라 절대 오차 연산(absolute difference calculation)이 수행된다. 결과적으로, 변조 스펙트럼에서 피크 라인들이 강화된다. 예시적으로 구분되는 변조 스펙트럼이 도 6f에 도시되었다.
추가적으로, 멜 주파수 대역들 또는 멜 주파수 축과 변조 주파수 축에 따른 인지 블러링이 수행될 수 있다. 전형적으로, 이 단계는 인접한 변조 주파수 라인들이 넓은, 진폭 종속 영역으로 조합되는 그러한 방법에서 데이터를 스무딩(smooth)한다. 게다가, 블러링은 데이터에서 잡음 패턴들의 영향을 감소시킬 수 있고, 그러므로, 나은 비주얼 번역도(visual interpretability)로 이끌 수 있다. 추가로, 블러링은 (도 1의 102, 103에 보인바와 같이) 변조 스펙트럼을 개별 음악 아이템 탭핑 실험으로부터 얻어지는 탭핑 히스토그램의 형상에 적응시킬 수 있다. 예시적인 블러링된 변조 스펙트럼이 도 6g에 도시되었다.
마지막으로, 오디오 신호의 한 세트(suite)의 세그먼트들 또는 블록들의 세그먼트들의 조인트 주파수 표현(joint frequency representation)은 멜 주파수 변조 스펙트럼에 독립된 매우 컴팩트한, 오디오 파일 길이를 얻기 위해 평균화될 수 있다. 앞서 그 개요를 설명한 바와 같이, 용어 "평균(average)"은 평균 값들의 산출 및 중간값(median)의 결정을 포함하는 다른 수학적 동작들을 나타낼 수 있다. 예시적인 평균 변조 스펙트럼이 도 6h에 도시되엇다.
오디오 트랙의 그러한 변조 스펙트럼 표현의 이득은 다중 매트릭 레벨들(metrical levels)에서 템포들을 나타낼 수 있다는 것임을 언급한다. 게다가, 변조 스펙트럼은 인지 템포를 결정하는 데에 사용되는 탭핑 실험들과 호환되는 포맷에서 다중 운율 레벨들의 관련된 물리적인 현저성을 나타내는 것이 가능하다. 다른 말로, 이 표현은 도 1의 102, 103의 실험적인 "탭핑" 표현과 제대로 매치되고, 그러므로, 오디오 트랙의 템포를 추정하는 것에 대해 인지 자극 결정에 기반할 수 있다.
이미 언급된 바와 같이, 처리된 압신 멜 파워 스펙트럼의 피크들에 해당 주파수들은 분석된 오디오 신호의 템포의 지시(indication)를 제공한다. 게다가, 변조 스펙트럼 표현은 노래간 리듬 유사도(inter-song rhythmic similarity)를 비교하는 데에 사용될 수 있다. 추가로, 개별 세그먼트 또는 블록들의 변조 스펙트럼 표현은 오디오 섬네일 또는 세그먼트화된 어플리케이션들에 대해 인트라 노래내의 유사도(intra-song similarity)를 비교하는 데에 사용될 수 있다.
전반적으로, 방법은 변환 도메인, 예컨대, HE-AAC 변환 도메인, 및 PCM 도메인에서 오디오 신호들로부터 템포 정보를 어떻게 얻는지 설명되었다. 하지만, 이는 압축된 도메인으로부터의 오디오 신호에서 직접 템포 정보를 추출하는 것은 바람직할 수 있다. 다음에서, 방법은 압축 도메인 또는 비트 스트림 도메인에서 표현되는 오디오 신호들 상에서 템포 추정을 어떻게 결정하는지에 대해서 설명한다. 특정 포커스는 HE-AAC 인코딩된 오디오 신호들 상에서 만들어진다.
HE-AAC 인코딩은 HFR(High Frequency Reconstruction) 또는 SBR(Spectral Band Replication) 기술들을 사용한다. SBR 인코딩 프로세스는 임시 검출 스테이지(Transient Detection Stage), 적절한 표현을 위한 적응 T/F(Time/Frequency) 그리드 선택(T/F (Time/Frequency) Grid Selection), 엔벨로프 추정 스테이지(Envelope Estimation Stage) 및 신호의 저주파수 및 고주파수 부분 사이의 신호 특징들에서 미스매치를 정정하기 위한 추가 방법들을 포함한다.
SBR 인코더에 의해 생성된 대부분의 페이로드(pay-load)는 엔벨로프의 파라미터 표현으로부터 유래되는 것이 관찰되었다. 신호 특징들에 따라, 인코더는 프리-에코-아티팩트(pre-echo-artefacts)를 피하는 데에 적합하고, 오디오 세그먼트의 적절한 표현에 적합한 시간-주파수 레졸루션을 결정한다. 전형적으로, 높은 주파수 레졸루션은 시간에서 준정적(quasi-stationary) 세그먼트를 위해 선택된다. 반면, 동적 악절들(dynamic passages)에 대해, 높은 시간 레졸루션이 선택된다. 결과적으로, 시간-주파수 레졸루션의 선택은 긴 시간-세그먼트들이 짧은 시간-세그먼트 보다 더 효과적으로 인코딩될 수 있다는 사실에 기인하여, SBR 비트 레이트에 상당한 영향을 미친다. 동시에, 빠르게 변하는 콘텐츠를 위한, 즉, 전형적으로, 높은 템포를 가지는 오디오 콘텐츠를 위한 엔벨로프들의 수와 결과적으로 오디오 신호의 적절한 표현을 위해 전송된 엔벨로프 계수들의 수는 느리게 변화되는 콘텐츠를 위한 것 보다 높다. 선택된 시간 레졸루션의 임팩트에 추가로, 이 효과는 SBR 데이터의 크기에 더욱 영향을 미친다. 사실은, 기초적인 오디오 신호의 템포 변화(tempo variations)에 대한 SBR 데이터 레이트의 감도는 mp3 코덱의 콘텍스트에 사용되는 허프만(Huffman) 코드 길이의 크기의 감도 보다 높다는 것이 관찰되었다. 그러므로, SBR 데이터의 비트 레이트에서 변화들은 인코딩된 비트스트림으로부터 직접 리듬 컴포넌트를 결정하기 위해 사용될 수 있는 귀중한 정보로 식별된다.
도 7은 필_엘리먼트(fill_element) 필드(702)를 포함하는 예시적인 AAC 로우 데이터 블록(701)을 보인다. 비트스트림에서 필_엘리먼트(fill_element) 필드(702)는 SBR 데이터와 같은, 추가 파라미터 사이드 정보를 저장하기 위해서 사용된다. SBR(즉, HE-AAC 버전 2에서)에 추가로 파라미터 스테레오(PS, Parametric Stereo)를 사용할 때, 필_엘리먼트(fill_element) 필드(702)는 또한 PS 사이드 정보를 포함한다. 다음의 설명들은 모노 케이스(mono case)에 기초한다. 하지만, 설명된 방법은 또한, 어떤 수의 채널들, 예컨대, 스테레오 케이스(stereo case)를 전달하는 비트스트림들에도 적용된다.
필_엘리먼트(fill_element) 필드(702)의 크기는 전송된 파라미터 사이드 정보의 양에 따라 다양하다. 결국, 필_엘리먼트(fill_element) 필드(702)의 크기는 압축된 HE-AAC 스트림으로부터 직접 템포 정보를 추출하는 데에 사용될 수 있다. 도 7에 보인 바와 같이, 필_엘리먼트(fill_element) 필드(702)는 SBR 헤더(703) 및 SBR 페이로드(pay-load) 데이터(704)를 포함한다.
SBR 헤더(703)는 개별 오디오 파일에 대해 일정한 크기를 가지며, 필_엘리먼트(fill_element) 필드(702)의 일부로 반복해서 전송된다. SBR 헤더(703)의 재전송은 어떤 주파수에서의 페이로드(pay-load) 데이터에서 반복되는 피크를 초래한다. 그리고 이는 결과적으로 어떤 진폭을 가지는 1/x Hz(x는 SBR 헤더(703)의 전송을 위한 반복 레이트)에서 변조 주파수 도메인에서 피크를 초래한다. 하지만, 이 반복해서 전송된 SBR 헤더(703)는 어떤 리듬 정보도 갖지 않으며, 그러므로, 제거되어야만 한다.
이는 비트스트림 파싱 후에 직접 SBR 헤더(703)의 어커런스(occurrence)의 시간 인터벌 및 길이를 결정하는 것에 의해 이루어질 수 있다. SBR 헤더(703)의 주기성에 기인하여, 이 결정 단계는 전형적으로 오직 한번만 수행되어야 한다. 길이 및 어커런스 정보가 이용 가능하다면, 전체 SBR 데이터(705)는, SBR 헤더(703)의 어커런스의 시간에서, 즉, SBR 헤더(703) 전송의 시간에서의 SBR 데이터(705)로부터, SBR 헤더(703)의 길이를 빼는 것에 의해 쉽게 정정될 수 있다. 이는 템포 결정에 사용될 수 있는 SBR 페이로드(pay-load)(704)의 크기를 산출한다. 유사한 방식에서, SBR 헤더(703)의 길이를 빼는 것에 의해 정정되는, 필_엘리먼트(fill_eleme -nt) 필드(702)의 크기는 템포 결정을 위해 사용될 수 있다. 반면, 이는 일정한 오버헤드(constant overhead)에 의해 SBR 페이로드(pay-load)(704)의 크기와는 다르다.
세트(suite)의 SBR 페이로드(pay-load) 데이터(704) 크기 또는 정정된 필_엘리먼트(fill_element) 필드(702) 크기에 대한 예시들이 도 8a에 주어진다. x 축은 프레임 번호를 보이며, 반면, y 축은 대응하는 프레임에 대한 정정된 필_엘리먼트(fill_element) 필드(702) 크기 또는 SBR 페이로드(pay-load) 데이터(704)의 크기를 나타낸다. SBR 페이로드(pay-load) 데이터(704)의 크기는 프레임마다 다를 수 있음을 알 수 있다. 다음에서, 이는 SBR 페이로드(pay-load) 데이터(704) 크기를 나타낸다. 템포 정보는 SBR 페이로드(pay-load) 데이터(704)의 크기에서, 주기성을 식별하는 것에 의해 SBR 페이로드(pay-load) 데이터(704)의 크기의 시퀀스(801)로부터 추출될 수 있다. 개별적으로, SBR 페이로드(pay-load) 데이터(704)에서 반복적인 패턴들 또는 피크들의 주기성들이 식별될 수 있다. 이는 예컨대, SBR 페이로드(pay-load) 데이터(704)의 크기의 오버랩핑된 서브시퀀스 상에서 FFT를 적용하는 것에 의해 이루어질 수 있다. 서브시퀀스들은 어떤 신호 길이, 예컨대, 6 초에 대응할 수 있다. 연속된 서브 시퀀스들의 오버랩핑은 50 % 오버랩이 될 수 있다. 결국, 서브시퀀스에 대한 FFT 계수들은 완전한 오디오 트랙 길이에 걸쳐 평균화될 수 있다. 이는 완전한 오디오 트랙에 대해 평균화된 FFT 계수들을 낳는다. 이는 도 8b에 도시된 변조 스펙트럼(811)으로서 표현될 수 있다. SBR 페이로드(pay-load) 데이터(704)의 크기에서 주기성을 식별하기 위한 다른 방법들이 고려될 수 있음을 언급한다.
변조 스펙트럼(811)에서 피크들(812, 813, 814)은 반복적인, 즉, 어커런스(occurrence)의 어떤 주파수를 가지는 리듬 패턴들을 나타낸다. 어커런스의 주파수는, 또한, 변조 주파수로 칭할 수도 있다. 최대 가능한 변조 주파수는 기초적인 코어 오디오 코덱의 시간-레졸루션에 의해 제한된다. HE-AAC가 절반의 샘플링 주파수로 작동하는 AAC 코어 코덱을 가지는 듀얼 레이트 시스템으로 정의되기 때문에, 약 21.74 Hz/2 ~ 11 Hz의 최대 가능한 변조 주파수는 샘플링 주파수 Fs = 44100 Hz 및 6 초 길이(128 프레임들)의 시퀀스에 대해 얻어진다. 이 최대 가능한 변조 주파수는 대략 660 BPM에 대응한다. 이는 거의 모든 음악(musical piece)의 템포를 커버한다. 편의상, 정정 프로세싱이 보장될 때, 최대 변조 주파수는 10 Hz에 대해 제한될 수 있다. 이는 600 BPM에 대응한다.
도 8b의 변조 스펙트럼은 오디오 신호의 PCM 도메인 표현 또는 변환 도메인으로부터 결정되는 변조 스펙트럼을 가지는 콘텍스트에서 그 개요를 설명된 바와 같은 유사한 방식에 따라 더욱 강화될 수 있다. 예를 들면, 도 5에 보인 가중 곡선(500)을 이용하는 인지 가중은 인간 템포 선호도를 모델링하기 위하여 SBR 페이로드(pay-load) 데이터 변조 스펙트럼(811)에 적용될 수 있다. 인지적으로 가중된 SBR 페이로드(pay-load) 데이터 변조 스펙트럼(821)의 결과가 도 8c에 도시되었다. 이는 매우 낮고, 매우 높은 템포들이 억제되었음을 알 수 있다. 특히, 낮은 주파수 피크(822) 및 높은 주파수 피크(824)는 초기 피크들(812 및 814) 각각과 비교하였을 때, 감소되었음을 알 수 있다. 다른 한편, 중간 주파수 피크(823)는 유지된다.
변조 스펙트럼의 최대값 및 SBR 페이로드(pay-load) 데이터 변조 스펙트럼으로부터 이의 대응하는 변조 주파수를 결정하는 것에 의해, 물리적으로 가장 현저한 템포가 얻어질 수 있다. 도 8c에 도시된 경우에서, 그 결과는 178,659 BPM이다. 하지만, 제시된 예에서, 이는 이 물리적으로 가장 현저한 템포는 약 89 BPM인 인지적인 가장 현저한 템포에 대응하지 않는다. 결과적으로, 이중의 혼동, 즉, 정정되는 것이 필요한 매트릭 레벨(metric level)에서 혼동이 존재한다. 이러한 목적을 위해, 인지 템포 정정 구조가 아래에서 설명된다.
SBR 페이로드(pay-load) 데이터에 기반한 템포 추정을 위한 제안된 어프로치는 음악 입력신호의 비트레이트와는 독립적임을 언급한다. HE-AAC 인코딩된 비트스트림의 비트레이트를 변경할 때, 인코더는 자동으로 이 특정 비트레이트에서 성취할 수 있는 최대 출력 품질에 대응하는 SBR 시작 및 종료 주파수를 설정한다. 즉, SBR 크로스-오버 주파수가 변경된다. 그럼에도 불구하고, SBR 페이로드(pay-load)는, 여전히 오디오 트랙에서 반복되는 임시 컴포넌트들에 관련된 정보를 포함한다. 이는 도 8d에서 확인될 수 있다. 여기서, SBR 페이로드(pay-load) 변조 스펙트럼은 다른 비트레이트들(16kbit/s에서 최대 64kbit/s 까지)에 대해 보여진다. 이는 오디오 신호의 반복 부분들(즉, 피크(833)과 같은 변조 스펙트럼에서 피크)이 모든 비트레이트들에 걸쳐 우세함(dominant)을 유지하는 것을 알 수 있다. 인코더는 비트레이트가 감소할 때, SBR에서 비트들을 저장하는 것을 시도하기 때문에, 파동(fluctuations)이 다른 변조 스펙트럼에서 제공되는 것이 관찰될 수 있다.
상술한 것들을 정리하기 위해, 레퍼런스는 도 9로 이루어진다. 오디오 신호의 3개의 다른 표현들이 고려된다. 압축된 도메인에서, 오디오 신호는 이의 인코딩된 비트스트림에 의해, 예컨대, HE-AAC 비트스트림(901)에 의해, 표현된다. 변환 도메인에서, 오디오 신호는 서브밴드로, 또는, 변환 계수들, 예컨대, MDCT 계수들(902)로 표현된다. PCM 도메인에서, 오디오 신호는 PCM 샘플들(903)에 의해 표현된다. 상술한 설명에서, 어떤 3개의 신호 도메인들에서 변조 스펙트럼을 결정하기 위한 방법이 개요로 설명된다. HE-AAC 비트스트림(901)의 SBR 페이로드(pay-load)에 기반한 변조 스펙트럼(911)을 결정하기 위한 방법이 설명된다. 더욱이, 예컨대, 오디오 신호의 MDCT 계수들에 기반하여, 변환 표현(902)에 기반한 변조 스펙트럼(912)을 결정하기 위한 방법이 설명된다. 추가로, 오디오 신호의 PCM 표현(903)에 기반하여 변조 스펙트럼(913)을 결정하기 위한 방법이 설명된다.
추정된 변조 스펙트럼들(911, 912, 913) 중 어느 것은 물리 템포 추정을 위한 기반으로 사용될 수 있다. 이러한 목적을 위해, 강화 프로세싱의 다양한 단계들은 예컨대, 가중 곡선(500)을 이용하는 인지 가중(perceptual weighting), 인지 블러링(perceptual blurring) 및/또는 절대 오차 연산(absolute difference calculation)이 수행될 수 있다. 결국, (강화된) 변조 스펙트럼(911, 912, 913)의 최대 및 대응되는 변조 주파수들이 결정된다. 변조 스펙트럼(911, 912, 913)의 절대 최대치(absolute maximum)는 분석된 오디오 신호의 물리적으로 가장 현저한 템포에 대한 추정이다. 다른 최대치는 전형적으로 물리적으로 가장 현저한 템포의 다른 매트릭 레벨에 대응한다.
도 10은 상기 언급된 방법들을 이용하여 얻어진 변조 스펙트럼(911, 912, 913)의 비교를 제공한다. 이는 각 변조 스펙트럼의 절대 최대치에 해당 주파수들이 매우 유사하다는 것을 알 수 있다. 왼쪽 측면 상에, 재즈 음악의 오디오 트랙의 발췌 부분이 분석되었다. 변조 스펙트럼들(911, 912, 913)은 오디오 신호의 HE-AAC 표현, MDCT 표현 및 PCM 표현 각각으로부터 결정된다. 모든 3개의 변조 스펙트럼들은 변조 스펙트럼들(911, 912, 913)의 최대 피크에 대응하는 유사한 변조 주파수들(1001, 1002, 1003)을 각각 제공한다. 변조 주파수들(1011, 1012, 1013)을 가지는 메탈 하드 락 음악의 발췌 부분(오른쪽) 및 변조 주파수들(1011, 1012, 1013)을 가지는 클래식 음악(중간)의 발췌부분에 대해서도 유사한 결과들이 얻어진다.
그런, 방법 및 대응하는 시스템들이 설명된다. 이러한 방법 및 시스템들은 신호의 표현들의 다른 형식들로부터 유도되는 변조 스펙트럼들의 평균에 의해 물리적인 템포들의 추정을 허용한다. 이러한 방법들은 음악들의 다양한 형식들에 적용될 수 있고, 서구 팝 음악에 한정되어 제한되지 않는다. 게다가, 다른 방법들은 다른 형식들의 신호 표현에 적용될 수 있고, 각 개별 신호 표현에 대해 낮은 연산 복잡도로 수행될 수 있다.
도 6, 도 8 및 도 10에서 볼 수 있는 바와 같이, 변조 스펙트럼들은 전형적으로, 오디오 신호의 템포의 다른 매트릭 레벨들에 대응하는 복수의 피크들을 가진다. 이는 예컨대, 도 8b에서 확인할 수 있다. 여기서, 3개의 피크들(812, 813, 814)은 상당한 세기를 가지며, 그러므로, 오디오 신호의 기초적인 템포를 후보자가 될 수 있다. 최대 피크(813)를 선택하는 것은 물리적으로 가장 현저한 템포를 제공한다. 앞서 개요를 설명한 바와 같이, 물리적으로 가장 현저한 템포는 인지적으로 가장 현저한 템포에 대응하지 않을 수 있다. 자동의 방법으로 인지적으로 가장 현저한 템포를 추정하기 위하여, 인지 템포 정정 구조가 다음에서 그 개요가 설명된다.
실시예에 있어서, 인지 템포 정정 구조는 변조 스펙트럼으로부터 물리적으로 가장 현저한 템포의 결정을 포함한다. 도 8b의 변조 스펙트럼(811)의 경우에서, 피크(813) 및 대응하는 변조 주파수가 결정될 수 있다. 추가로, 추가 파라미터들이 템포 정정을 돕기위해 변조 스펙트럼에서 추출될 수 있다. 제1 파라미터는
Figure 112014003419792-pct00008
(멜(Mel) 변조 스펙트럼)가 될 수 있다. 이는 수학식 1에 따른 변조 스펙트럼의 센트로이드(centroid)이다. 센트로이드 파라미터
Figure 112014003419792-pct00009
는 오디오 신호의 스피드의 지시자(indicator)로 사용될 수 있다.
Figure 112012031993372-pct00010
상술한 수학식에서, D는 변조 주파수 빈의 수이고, d = 1, ..., D는 각 변조 주파수 빈을 식별한다. N은 멜 주파수 축에 따른 주파수 빈들의 합이며, n=1, ..., N은 멜 주파수 축 상의 각각의 주파수 빈을 식별한다.
Figure 112012031993372-pct00011
은 오디오 신호의 특정 세그먼트를 위한 변조 스펙트럼을 나타내며, 반면,
Figure 112012031993372-pct00012
는 전체 오디오 신호를 특징짓는 요약된 변조 스펙트럼을 나타낸다.
템포 정정을 돕기 위한 제2 파라미터는
Figure 112012031993372-pct00013
가 될 수 있으며, 이는 <수학식 2>에 따른 변조 스펙트럼의 최대값이다. 전형적으로, 이 값은 전자 음악에 대해 높으며, 클래식 음악에 대해 작다.
Figure 112012031993372-pct00014
추가 파라미터는
Figure 112012031993372-pct00015
가 될 수 있다. 이는 수학식 3에 따라 1로 정규화된 후의 변조 스펙트럼의 평균(mean)이다. 이 후자의 파라미터가 낮으면, 이는 변조 스펙트럼(예컨대, 도 6에서와 같은) 상의 강한 피크에 대한 지시(indication)이다. 만약, 이 파라미터가 높으면 변조 스펙트럼은 중요하지 않은 피크들을 가지면서 넓게 확산되고, 높은 정도의 혼란이 존재한다.
Figure 112012031993372-pct00016
이러한 파라미터들 이외에, 즉, 변조 스펙트럼 센트로이드 또는 그래비티(gravity)
Figure 112012031993372-pct00017
, 변조 비트 강도
Figure 112012031993372-pct00018
및 변조 템포 혼동
Figure 112012031993372-pct00019
, 다른 인지적으로 의미 있는 파라미터들이 유도되며, 이들은 MIR 어플리케이션들을 위해 사용될 수 있다.
이 문헌에서 함수들은 멜 주파수 변조 스펙트럼들을 위해, 즉, PCM 도메인 및 변환 도메인에서 표현되는 오디오 신호들로부터 결정되는 변조 스펙트럼(912, 913)을 위해, 만들어졌다. 압축된 도메인에서 표현되는 오디오 신호들로부터 결정되는 변조 스펙트럼(911)이 사용되는 경우에 있어서, 텀(term) MMS(n, d) 및
Figure 112014003419792-pct00020
은 이 문헌에서 제공되는 수학식들에서 텀
Figure 112014003419792-pct00021
(SBR 페이로드(pay-load) 데이터 기반의 변조 스펙트럼)에 의해 교체되는 것이 필요하다.
상술한 파라미터 선택에 기초하여, 인지 템포 정정 구조가 제공될 수 있다. 이 인지 템포 정정 구조는 인지적으로 가장 현저한 템포를 결정하기 위해 사용될 수 있고, 인간들은 변조 표현으로부터 얻어진 물리적으로 가장 현저한 템포로부터 인지할 수 있다. 이 방법은 변조 스펙트럼으로부터 얻어진 인지 자극 파라미터들(perceptually motivated parameters)을 이용한다. 즉, 변조 스펙트럼 센트로이드
Figure 112014003419792-pct00022
에 의한 음악 스피드, 변조 스펙트럼
Figure 112014003419792-pct00023
에서 최대값에 의해 주어지는 비트 강도, 및 정규화(normalization) 후, 변조 표현의 평균에 의해 주어지는 변조 혼동 팩터
Figure 112014003419792-pct00024
에 대한 측정이 그것이다. 이 방법은 다음 단계들 중 적어도 어느 하나를 포함할 수 있다.
1. 음악 트랙의 기초 매트릭을 결정하는 단계, 예컨대, 4/4 비트 또는 3/4 비트.
2. 파라미터
Figure 112012031993372-pct00025
에 따른 관심의 범위에 대한 템포 폴딩(tempo folding).
3. 인지 스피드 측정
Figure 112012031993372-pct00026
에 따라 템포 정정.
선택적으로, 변조 혼동 팩터
Figure 112012031993372-pct00027
가 인지 템포 추정의 신뢰도에 대한 측정이 제공될 수 있다.
제1 단계에서, 물리적으로 측정된 템포들이 정정되는 것에 의해 가능한 팩터들을 결정하기 위해, 음악 트랙의 기초 매트릭이 결정될 수 있다. 예시적으로, 3/4 비트를 가지는 음악 트랙의 변조 스펙트럼에서 피크들은 기초 리듬의 주파수의 3배에서 발생한다. 그러므로, 템포 정정은 3을 기반으로 하여 조절되어야만 한다. 4/4 비트를 가지는 음악 트랙의 경우에서, 템포 정정은 2의 팩터에 의해 조절되어야 한다. 이는 도 11에 도시되었다. 여기서, 4/4 비트(도 11b)에서 메탈 음악 트랙 및 3/4 비트(도 11a)를 가지는 재즈 음악 트랙의 SBR 페이로드(pay-load) 변조 스펙트럼을 보인다. 템포 매트릭은 SBR 페이로드(pay-load) 변조 스펙트럼에서 피크들의 분산으로부터 결정될 수 있다. 4/4 비트의 경우, 중요 피크들은 2의 기반에서 서로에 곱해지며, 반면, 3/4 박자의 경우, 중요한 피크들은 3의 기반에서 곱해진다.
템포 추정 에러들의 잠재적인 소스를 극복하기 위하여, 상호 상관(cross correlation) 방법이 적용될 수 있다. 실시예에서, 변조 스펙트럼의 자기상관(autocorrelation)은 다른 주파수 지연들
Figure 112012031993372-pct00028
에 대해 결정될 수 있다. 자기상관은 다음의 수학식 4에 의해 주어진다.
Figure 112012031993372-pct00029
최대 상관
Figure 112014003419792-pct00030
을 산출하는 주파수 지연들
Figure 112014003419792-pct00031
은 기초 매트릭(underlying metric)의 지시(indication)를 제공한다. 보다 상세하게는, 만약,
Figure 112014003419792-pct00032
가 물리적으로 가장 현저한 변조 주파수이면, 표현
Figure 112014003419792-pct00033
는 기초 매트릭의 지시를 제공한다.
평균화된 변조 스펙트럼 내의 물리적으로 가장 현저한 템포의 합성되고 인지적으로 변환된 곱들 사이의 상호 상관은 기초 매트릭을 결정하기 위하여 사용된다. 이중(수학식 5) 및 3중(수학식 6) 혼동에 대한 곱들의 세트들이 다음과 같이 산출된다.
Figure 112012031993372-pct00034
Figure 112012031993372-pct00035
다음 단계에서, 다른 매트릭에서 탭핑 함수들의 합성이 수행된다. 여기서, 탭핑 함수들은 변조 스펙트럼들의 표현에 대해 동일한 길이를 가진다. 즉, 그들은 변조 주파수 축에 대해 동일한 길이이다(수학식 7).
Figure 112012031993372-pct00036
합성 태핑 함수들
Figure 112012031993372-pct00037
은 기초 템포의 다른 매트릭 레벨들에서 사람의 탭핑의 모델을 표현한다. 즉, 3/4 비트로 가정하면, 템포는 이 비트의 3배, 이의 비트의 6배, 이의 비트, 이의 비트의 1/3 및 이의 비트의 1/6에서 탭핑될 수 있다. 유사한 방식에서, 만약, 4/4 비트가 추정되면, 템포는 이 비트의 1/4, 이 비트의 1/2, 비트, 이 비트의 2배 및 이 비트의 4배에서 탭핑될 수 있다.
만약, 변조 스펙트럼들의 인지적으로 수정된 버전이 고려되면, 합성 탭핑 함수들 또한 일반 표현을 제공하기 위해 수정되어야 필요가 있을 수 있다. 만약, 인지 블러링이 인지 템포 추출 구조에서 무시되면, 이 단계는 스킵될 수 있다. 그렇지 않으면, 합성 탭핑 함수들은, 합성 탭핑 함수들을 인간 템포 탬핑 히스토그램의 모양에 적응시키기 위하여 수학식 8에 의해 개요를 설명한 바와 같이, 인지 블러링을 겪게 된다.
Figure 112012031993372-pct00038
여기서, B는 블러링 커널이며, *는 상관 연산을 나타낸다. 블러링 커널 B는 고정된 길이의 벡터이다. 이는 탭핑 히스토그램의 피크의 모양, 예컨대, 삼각(triangular) 또는 협소(narrow) 가우시안(Gaussian) 펄스를 가진다. 블러링 커널 B의 모양은 바람직하게, 탭핑 히스토그램들, 예컨대, 도 1의 102, 103의 피크들의 모양을 반영한다. 블러링 커널 B의 폭, 즉, 커널 B를 위한 계수들의 수, 및 커널 B에 의해 커버되는 변조 주파수 범위는, 완전한 변조 주파수 범위 D에 걸쳐 전형적으로 동일하다. 실시예에 있어서, 블러링 커널 B는 1의 최대 진폭을 가지는 펄스와 같은 협소 가우시안이다. 블러링 커널 B는 0.265 Hz(~ 16 BPM)의 변조 주파수 범위를 커버할 수 있다. 즉, 이는 펄스의 중심으로부터 +- 8 BPM의 폭을 가질 수 있다.
합성 탭핑 함수들의 인지 변조가 수행되면(만약 필요하다면), 지연 0(zero)에서 상호 상관이 탭핑 함수들 및 원래의 변조 스펙트럼 사이에서 산출된다. 이를 수학식 9에 보인다.
Figure 112012031993372-pct00039
마지막으로, 상관 팩터는 "이중(double)" 매트릭을 위한 합성 탭핑 함수 및 "3중(triple)" 매트릭을 위한 합성 탭핑 함수로부터 얻어진 상관 결과들을 비교하는 것에 의해 결정된다. 만약, 2중 혼동을 위한 탭핑 함수로 얻어진 이의 상관이 3중 혼동을 위한 탭핑 함수로 얻어진 상관 보다 같거나 크면, 상관 팩터는 2로 설정되며, 그 역도 이와 같다(수학식 10).
Figure 112012031993372-pct00040
포괄적인 텀들에서, 상관 팩터는 변조 스펙트럼 상에서 상관 기술들을 이용하여 결정된다는 것을 언급한다. 상관 팩터는 음악 신호의 기초적인 매트릭, 즉, 4/4, 3/4 또는 다른 비트들에 관련된다. 기초적인 비트 매트릭은 음악 신호의 변조 스펙트럼 상에서 상관 기술을 적용하는 것에 의해 결정될 수 있다. 이들 중 몇몇이 앞서 그 개요가 설명되었다.
상관 팩터를 이용하여, 실제 인지 템포 정정이 수행될 수 있다. 실시예에 있어서, 이는 단계적인 방식으로 이루어진다. 예시적인 실시예의 슈도코드(pseudo-code)가 표 2에 제공된다.
Figure 112012031993372-pct00041
제1 단계에서, 표 2에 "Tempo"로 나타낸, 물리적으로 가장 현저한 템포가
Figure 112012031993372-pct00042
파라미터 및 앞서 연산된 상관 팩터의 사용에 의해 관심의 범위 내에 맵핑된다. 만약,
Figure 112012031993372-pct00043
파라미터 값이 어떤 임계치 보다 낮고(이 임계치는 신호 도메인, 오디오 코덱, 비트레이트 및 샘플링 주파수에 따름), 물리적으로 결정된 템포, 즉, 파라미터 "Tempo"가 비교적 높거나, 또는, 비교적 낮으면, 물리적으로 가장 현저한 템포는 결정된 상관 팩터 또는 비트 매트릭으로 정정된다.
제2 단계에서, 템포는 음악 스피드에 따라, 즉, 변조 스펙트럼 센트로이드
Figure 112014003419792-pct00044
에 따라 더 정정된다. 상관에 대한 개별 임계치는 인지적 실험들로부터 결정될 수 있다. 여기서, 사용자들은 다른 장르 및 템포의 음악 콘텐츠에 랭크를 부여하도록 요청된다. 예컨대, 4개의 카테고리, 느림, 조금 느림, 조금 빠름, 빠름. 추가로, 변조 스펙트럼 센트로이드들
Figure 112014003419792-pct00045
은 동일한 오디오 테스트 아이템들에 대해 산출되고, 주관적으로 카테고리화된 것에 매핑된다. 예시적인 랭크 부여의 결과들이 도 12에 도시되었다. x 축은 4개의 주관적인 카테고리, 느림, 조금 느림, 조금 빠름 및 빠름을 보인다. y 축은 산출된 그래비티(gravity), 즉, 변조 스펙트럼 센트로이드를 보인다. 압축된 도메인(도 12a) 상에서 변조 스펙트럼들(911)을 이용하고, 변환 도메인(도 12b) 상에서 변조 스펙트럼들(912)을 이용하며, 그리고, PCM 도메인(도 12c) 상에서 변조 스펙트럼들(913)을 이용하는 실험적인 결과들이 도시되었다. 각 카테고리에 대해, 평균(1201), 50% 신뢰 구간(confidence interval)(1202, 1203) 및 랭킹의 상위 및 하위 쿼드릴(quadrille)(1204, 1205)이 도시되었다. 카테고리들을 가로지르는 높은 차수의 오버랩은 주관적인 방법에서 템포의 랭킹과 관련하여 높은 레벨의 혼동을 나타낸다. 그럼에도 불구하고, 그러한 실험적인 결과들로부터
Figure 112014003419792-pct00046
파라미터에 대한 임계치들을 추출하는 것이 가능하다. 이러한 파라미터는 음악 트랙을 주관적인 카테고리들, 느림(SLOW), 조금 느림(ALMOST SLOW), 조금 빠름(ALMOST FAST) 및 빠름(FAST)에 할당하는 것을 허용한다. 다른 신호 표현들(SBR 페이로드(pay-load)를 가지는 PCM 도메인, HE-AAC 변환 도메인, 압축 도메인)을 위한
Figure 112014003419792-pct00047
파라미터를 위한 예시적인 임계값이 표 3에 제공된다.
Figure 112012031993372-pct00048
파라미터
Figure 112014003419792-pct00049
을 위한 이러한 임계값들이 표 2에서 설명된 제2 템포 상관 단계에 사용될 수 있다. 제2 템포 정정 단계에서, 템포 추정 및 파라미터
Figure 112014003419792-pct00050
와의 큰 차이가 식별되며, 결국, 정정된다. 한 예로써, 만약, 추정된 템포가 비교적 빠르고, 만약, 파라미터
Figure 112014003419792-pct00051
가 인지된 스피드가 보다 느려져야 한다는 것을 나타내면, 추정된 템포는 상관 팩터에 의해 감소된다. 유사한 방식으로, 만약, 추정된 템포가 비교적 느리고, 반면, 파라미터
Figure 112014003419792-pct00052
가 인지된 스피드가 다소 빠르게 되어야 한다는 것을 나타내면, 추정된 템포는 상관 팩터에 의해 증가된다.
Figure 112012031993372-pct00053
인지 템포 정정 구조의 다른 실시예가 표 4에 그 개요가 설명되었다. 2의 정정 팩터를 위한 슈도코드가 보인다. 하지만, 그 예는 다른 정정 팩터들에 대해서도 동일하게 적용할 수 있다. 표 4의 인지 템포 정정 구조에서, 이는 만약, 혼동, 즉,
Figure 112014003419792-pct00054
이 어떤 임계치를 초과하면, 제1 단계에서 확인된다. 만약, 그렇지 않다면, 물리적인 템포 t1은 인지적인 템포에 대응한다고 추정된다. 하지만, 만약, 혼동의 레벨이 임계치를 초과한다면, 물리적인 템포 t1은 파라미터
Figure 112014003419792-pct00055
로부터 그려지는(drawn) 음악 신호의 인지된 스피드 상의 정보를 고려하는 것에 의해 정정된다.
대안적인 구조들이 음악 트랙들을 분류하기 위해 사용될 수 있다는 점을 강조한다. 한 예로써, 분류기(classifier)는 스피드를 분류할 수 있도록 설계될 수 있으며, 그런 다음, 이러한 종류의 인지 정정을 만든다. 실시예에 있어서, 템포 정정을 위해 사용되는 파라미터들, 즉, 특히,
Figure 112014003419792-pct00056
,
Figure 112014003419792-pct00057
, 및
Figure 112014003419792-pct00058
는 자동으로 알려지지 않은 음악 신호들의 비트-강도, 스피드, 및 혼동을 분류하도록 훈련되고, 모델링된다. 분류기는 앞서 설명된 바와 같은 유사한 인지 정정들을 수행하는데에 사용될 수 있다. 이렇게 함으로써, 표 3 및 표 4에서 제공되는 바와 같은, 고정된 임계치들의 사용은 완화될 수 있고, 시스템은 더욱 유연하게 만들어질 수 있다.
이미 앞에서 언급된 바와 같이, 제안된 혼동 파라미터
Figure 112012031993372-pct00059
는 추정된 템포의 신뢰도에 대한 표시(indication)를 제공한다. 파라미터는 무드 및 장르 분류를 위한 MIR(Music Information Retrieval) 피처(feature)로 사용될 수 있다.
상술한 인지 템포 정정 구조는 다양한 물리 템포 추정 방법들 상에 적용될 수 있다. 이는 도 9에 도시되었다. 여기서 보여지는 것은 인지 템포 정정 구조가 압축 도메인(참조 부호 921)으로부터 얻어지는 물리 템포 추정에 적용될 수 있고, 인지 템포 정정 구조가 변환 도메인(참조 부호 922)으로부터 얻어지는 물리 템포 추정에 적용될 수 있으며, 인지 템포 정정 구조가 PCM 도메인(참조 부호 923)으로부터 얻어지는 물리 템포 추정들에 적용될 수 있다는 것이다.
템포 추정 시스템(1300)의 예시적인 블록도가 도 13에 도시되었다. 요구사항에 따라, 그러한 템포 추정 시스템(1300)의 다른 컴포넌트들이 분리되어 사용될 수 있다. 시스템(1300)은 시스템 제어 유닛(1310), 도메인 파서(1301), 통일된 신호 표현(1302, 1303, 1304, 1305, 1306 1307)을 얻기 위한 전처리 단계, 현저한 템포들(1311)을 결정하기 위한 알고리즘 및 인지적 방법(1309, 1309)으로 추출된 템포들을 정정하기 위한 후처리유닛을 포함한다.
신호 흐름은 다음과 같을 수 있다. 시작시, 어느 도메인의 입력신호는 도메인 파서(1301)에 제공된다. 도메인 파서(1301)는 예컨대, 샘플링 레이트 및 채널 모드와 같은 입력 오디오 파일로부터 템포 결정 및 정정을 위해 필요한 모든 정보를 추출한다. 그런 다음, 이러한 값들은 시스템 제어 유닛(1310)에 저장된다. 시스템 제어 유닛(1310)은 입력-도메인에 따른 연산 경로를 설정한다.
입력 데이터의 추출 및 전처리는 다음 단계에서 수행된다. 압출 도메인에서 표현되는 입력신호의 경우, 그러한 전처리 프로세싱(1302)은 SBR 페이로드(pay-load)의 추출, SBR 헤더 정보 및 헤더 정보 에러 정정 구조를 포함한다. 변환 도메인에서, 전처리 프로세싱(1303)은 MDCT 계수 블록들의 시퀀스의 파워 변환, 짧은 블록 인터리빙 및 MDCT 계수의 추출을 포함한다. 비압축 도메인에서, 전처리 프로세싱(1304)은 PCM 샘플들의 파워 스펙토그램 연산을 포함한다. 변환된 데이터는 입력신호(세그먼트 유닛(1305))의 긴 주기 특징들을 캡처(capture)하기 위하여, 하프 오버랩핑(half overlapping)된 6 초 청크들(chunks)의 K개의 블록들로 세그먼트화된다. 이러한 목적을 위하여, 시스템 제어 유닛(1310)에 저장된 제어 정보가 사용될 수 있다. 블록들 K의 수는 전형적으로 입력신호의 길이에 따른다. 실시예에 있어서, 블록, 예컨대, 오디오 트랙의 마지막 블록은 그 블록이 6초 보다 짧다면, 0(zero)으로 덧붙여진다.
전처리된 MDCT 또는 PCM 데이터를 포함하는 세그먼트들은 컴팬딩 함수(companding function)를 이용하여 크기 감소 프로세싱 단계 및/또는 멜-스케일 변환을 겪는다(멜-스케일 프로세싱 유닛(1306)). SBR 페이로드(pay-load) 데이터를 포함하는 세그먼트들은 다음 프로세싱 블록(1307), 변환 스펙트럼 결정 유닛에 직접 제공되고, 여기서, N 포인트 FFT는 시간 축을 따라 연산된다. 이 단계는 요구되는 변조 스펙트럼들로 연결된다. 변조 주파수 빈들의 수는 기초 도메인의 시간 레졸루션에 따르며, 시스템 제어 유닛(1310)에 의한 알고리즘으로 전달될 수 있다. 일 실시예에 있어서, 스펙트럼은 감각적인 템포 범위들 내에 유지시키기 위하여 10 Hz로 한정되고, 스펙트럼은 인간 템포 선호도 커브(500)에 따라 인지적으로 가중된다(weighted).
비압축된 도메인 및 변환 도메인에 기초하여 스펙트럼들에서 변조 피크들을 강화하기 위하여, 변조 주파수 축을 따르는 절대 차이는, 탭핑 히스토그램의 모양에 적응하기 위한 멜-스케일 주파수 및 변조 주파수 측 모두를 따라 인지 블러링에 따르는, 다음 단계에서 산출될 수 있다(변조 스펙트럼 결정 유닛(1307) 내에서). 이 연산 단계는 어떤 새로운 데이터도 생성되지 않기 때문에, 비압축 도메인 및 변환 도메인을 위해 선택적이다. 하지만, 이는 전형적으로 변조 스펙트럼의 향상된 시각적 표현을 이끈다.
마지막으로, 유닛(1307)에서 처리된 세그먼트들은 평균 연산에 의해 조합될 수 있다. 이미 앞서 그 개요를 설명한 바와 같이, 평균화는 중앙값의 결정 또는 평균값의 연산을 포함한다. 평균화는 변환 도메인 MDCT 데이터 또는 비압축된 PCM 데이터로부터 인지 자극 멜-스케일 변조 스펙트럼(MMS)의 마지막 표현으로 유도하거나, 또는, 평균화는 압축된 도메인 비트스트림 일부분들의 인지 자극 SBR 페이로드(pay-load) 변조 스펙트럼(MSSBR)의 마지막 표현으로 유도한다.
변조 스펙트럼 센트로이드, 변조 스펙트럼 비트 강도 및 변조 스펙트럼 템포 혼동과 같은, 변조 스펙트럼 파라미터들이 연산될 수 있다. 이러한 파라미터들 중 어떤 것이라도, 인지 템포 정정 유닛(1309)에 공급될 수 있으며, 인지 템포 정정 유닛(1309)에 의해 사용된다. 인지 템포 정정 유닛(1309)은 최대 연산(1311)으로부터 얻어진 물리적으로 가장 현저한 템포들을 정정한다. 이 시스템(1300)의 출력은 실제 음악 입력 파일의 인지적으로 가장 현저한 템포이다.
이 문헌에서 템포 추정을 위해 설명된 방법들은 오디오 인코더와 마찬가지로, 오디오 디코더에도 적용될 수 있음을 언급한다. 압축 도메인, 변환 도메인 및 PCM 도메인에서 오디오 신호들로부터 템포 추정을 위한 방법들은, 인코딩된 파일을 디코딩하는 동안 적용될 수 있다. 방법들은 오디오 신호를 인코딩하는 동안 동일하게 적용될 수 있다. 설명된 방법들의 복잡한 확장성 개념은 오디오 신호를 디코딩할 때 그리고 인코딩할 때에도 유효하다.
본 문헌에서 개요가 설명된 방법들은 완전한 오디오 신호들에 대한 정정 및 템포 추정의 콘텍스트에서 설명되어질 수 있다. 그 방법들은 또한, 서브섹션들, 예컨대, 오디오 신호의 MMS 세그먼트들에 적용될 수 있고, 그에 의해 오디오 신호의 서브섹션들을 위한 템포 정보를 제공한다.
다른 측면에 따르면, 오디오 신호의 물리 템포 및/또는 인지 템포 정보는 메타데이터의 형식에서 인코딩된 비트스트림으로 작성될 수 있다. 그러한 메타데이터는 MRI 어플리케이션 또는 미디어 재생기에 의해 추출되고, 사용될 수 있다.
게다가, 이는 변조 스펙트럼 표현들(예컨대, 변조 스펙트럼(1001), 그리고 도 10의 특정 1002 및 1003에서)을 수정하고 압축하는 것과, 오디오/비디오 파일 또는 비트스트림 내에서 메타데이터로 가능한 수정 및/또는 압축 변조 스펙트럼들을 저장하는 것이 고려된다. 이 정보는 오디오 신호의 청각적 이미지 섬네일들로 사용될 수 있다. 이는 오디오 신호에서 리듬 콘텐츠와 관련된 세부사항을 사용자에게 제공하는 데에 유용할 수 있다.
본 문헌에서, 물리적 및 인지적 템포의 신뢰있는 추정을 위한 복합 스케이러블 변조 주파수(complexity scalable modulation frequency) 방법 및 시스템이 설명되었다. 이 추정은 비압축 PCM 도메인, MDCT 기반 HE-AAC 변환 도메인 및 HE-AAC SBR 페이로드(pay-load) 기반 압축 도메인에서 오디오 신호들 상에서 수행될 수 있다. 이는, 오디오 신호가 압축 도메인에 있을 때이더라도, 매우 낮은 복잡도에서 템포 추정들의 결정을 허용한다. SBR 페이로드(pay-load) 데이터를 이용하면, 템포 추정들은 엔트로피 디코딩을 수행함이 없이, 압축된 HE-AAC 비트스트림으로부터 직접 추출될 수 있다. 제안된 방법은 비트레이트 및 SBR 크로스-오버 주파수 변경들에 대해서 강건하고, 모노 및 다중 채널 인코딩된 오디오 신호에 적용할 수 있다. 또한, 이는 "mp3PRO"와 같은, 다른 SBR 강화된 오디오 코더들에 적용할 수 있고, 코덱 애그노스틱(codec agnostic)으로 간주될 수 있다. 템포 추정의 목적을 위하여, 템포 추정을 수행하는 장치는 SBR 데이터를 디코딩하는 것이 가능하도록 하는 것이 요구되지 않는다. 이는 템포 추출이 인코딩된 SBR 데이터 상에서 직접 수행된다는 사실에 기인한다.
추가로, 제안된 방법들 및 시스템은 많은 음악 데이터 세트들에서 인간 템포 인지 및 음악 템포 분산들에 대한 지식을 사용한다. 게다가, 템포 추정을 위한 오디오 신호의 적합한 표현의 검증, 인지 템포 가중 함수 및 인지 템포 정정 구조가 설명된다. 게다가, 인지 템포 정정 구조가 설명된다. 이는 오디오 신호들의 인지적인 템포의 신뢰있는 추정들을 제공한다.
제안된 방법들 및 시스템들은 예컨대, 장르 분류를 위한 MIR 어플리케이션들의 콘텍스트에서 사용될 수 있다. 낮은 연산 복잡도에 기인하여, SBR 페이로드(pay-load)에 기초한 특정 추정 방법에서, 템포 추정 구조들은 전형적으로 제한된 프로세싱 및 메모리 리소스들을 가지는, 휴대용 전자장치들 상에서 직접 구현될 수 있다.
게다가, 인지적인 템포들의 결정은 음악 선곡, 비교, 믹싱, 및 재생목록을 위해 사용될 수 있다. 한 예로써, 인접한 음악 트랙들 사이에서, 유연한 리듬 변경들을 가지는 재생 목록을 생성할 때, 음악 트랙의 인지적인 템포를 고려하는 정보는 물리적인 템포에 관련된 정보 보다 적합할 수 있다.
본 문헌에서 설명된 템포 추정 방법들 및 시스템들은 소프트웨어, 펌웨어 및/또는 하드웨어로 구현될 수 있다. 어떤 컴포넌트들은 예컨대, 디지털 시그날 프로세서 또는 마이크로프로세서 상에서 실행되는 소프트웨어로 구현될 수 있다. 다른 컴포넌트들은 예컨대, 어플리케이션 특정 집적회로(ASIC) 및/또는 하드웨어로 구현될 수 있다. 설명된 방법들 및 시스템들에서 이 신호들은 RAM(random access memory) 또는 광학 저장 매체와 같은, 매체에 저장될 수 있다. 그들은 라디오 네트워크들, 위성 네트워크들, 무선 네트워크들, 또는, 유선 네트워크들(예컨대, 인터넷)과 같은 네트워크들을 통해 전달될 수 있다. 본 문헌에 설명된 방법들 및 시스템들을 이용하는 전형적인 장치들은 오디오 신호들을 저장 및/또는 랜더링하기 위해 사용되는, 휴대용 전자장치들 또는 다른 소비자 장치가 될 수 있다. 이 방법들 및 시스템은 예컨대, 인터넷 웹 서버와 같은 컴퓨터 시스템에 사용될 수 있다. 이 컴퓨터 시스템은 다운로드를 위한 오디오 신호들(예컨대, 음악 신호들)을 저장하고 제공한다.
1301: 도메인 파서
1305: 6초 청크들에서 세그먼트화, 50% 오버랩
1311: 최대 연산
1309: 인지 템포 정정
1310: 시스템 제어

Claims (46)

  1. 오디오 신호의 압축되어 있으면서, 스펙트럼 대역 복재 인코딩된 비트스트림으로부터 상기 오디오 신호의 템포 정보를 추출하며, 상기 인코딩된 비트스트림은 스펙트럼 대역 복제 데이터를 포함하는 방법에 있어서,
    상기 오디오 신호의 시간 간격 동안 상기 인코딩된 비트스트림에 포함된 스펙트럼 대역 복제 데이터의 양과 관련된 페이로드(pay-load) 양(量)을 결정하는 단계;
    상기 오디오 신호의 상기 인코딩된 비트스트림의 연속된 시간 간격 동안 상기 결정하는 단계를 반복함으로써, 페이로드(pay-load) 양의 시퀀스를 결정하는 단계;
    상기 페이로드(pay-load) 양의 시퀀스에서 주기성을 식별하는 단계; 및
    상기 식별된 주기성으로부터 상기 오디오 신호의 템포 정보를 추출하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  2. 제1항에 있어서,
    상기 페이로드(pay-load) 양을 결정하는 단계는
    시간 인터벌에서 상기 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fil l-element) 필드에 포함된 데이터의 양을 결정하는 단계; 및
    상기 시간 인터벌에서 상기 인코딩된 비트스트림의 하나 이상의 필-엘리먼트(fill-element) 필드에 포함된 데이터의 양에 기초하여 상기 페이로드(pay-load) 양을 결정하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  3. 제2항에 있어서,
    상기 페이로드(pay-load) 양을 결정하는 단계는
    상기 시간 인터벌에서 상기 인코딩된 비트스트림의 상기 하나 이상의 필-엘리먼트(fill-element) 필드에 포함된 스펙트럼 대역 복제 헤더 데이터의 양을 결정하는 단계;
    상기 시간 인터벌에서 상기 인코딩된 비트스트림의 상기 하나 이상의 필-엘리먼트(fill-element) 필드에 포함된 스펙트럼 대역 복제 헤더 데이터의 양을 공제함으로써, 상기 시간 인터벌에서 상기 인코딩된 비트스트림의 상기 하나 이상의 필-엘리먼트(fill-element) 필드에 포함된 데이터의 순(net) 양을 결정하는 단계;
    상기 데이터의 순(net) 양에 기초하여 상기 페이로드(pay-load) 양을 결정하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  4. 제3항에 있어서,
    상기 페이로드(pay-load) 양은 상기 데이터의 순(net) 양에 대응하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 인코딩된 비트스트림은 복수의 프레임들을 포함하며, 각 프레임은 시간의 미리 결정된 길이의 오디오 신호의 발췌 부분에 대응하고,
    상기 시간 인터벌은 상기 인코딩된 비트스트림의 프레임에 해당하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  6. 제1항에 있어서,
    상기 반복하는 단계는
    상기 인코딩된 비트스트림의 모든 프레임에 대해 수행되는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  7. 제1항에 있어서,
    상기 주기성을 식별하는 단계는
    상기 페이로드(pay-load) 양의 시퀀스에서 피크들의 주기성을 식별하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  8. 제1항에 있어서,
    상기 주기성을 식별하는 단계는
    파워 값들의 세트 및 해당 주파수들을 산출하는 상기 페이로드(pay-load) 양의 시퀀스상에서 스펙트럼 분석을 수행하는 단계; 및
    상기 파워 값의 세트에서 극대값(relative maximum)을 결정하고, 상기 주기성을 상기 해당 주파수로서 선택함으로써, 상기 페이로드(pay-load) 양의 시퀀스에서 주기성을 식별하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  9. 제8항에 있어서,
    상기 스펙트럼 분석을 수행하는 단계는
    복수의 세트들의 파워 값들을 산출하는 상기 페이로드(pay-load) 양의 시퀀스의 복수의 서브시퀀스들상에서 스펙트럼 분석을 수행하는 단계; 및
    상기 복수의 세트들의 파워 값들을 평균화하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  10. 제9항에 있어서,
    상기 복수의 서브시퀀스들은 부분적으로 오버랩되는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  11. 제8항에 있어서,
    상기 스펙트럼 분석을 수행하는 단계는 푸리에 변환을 수행하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  12. 제8항에 있어서,
    상기 파워 값들의 세트에 해당 주파수들의 인간 인지 선호도와 관련된 가중치를 곱하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  13. 제8항에 있어서,
    상기 템포 정보를 추출하는 단계는
    파워 값들의 세트의 절대 최대값(absolute maximum value)에 해당하는 주파수를 결정하는 단계;
    를 포함하며,
    상기 파워 값들의 세트의 절대 최대값(absolute maximum value)에 해당하는 주파수는 상기 오디오 신호의 물리적인 템포에 대응하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  14. 제1항에 있어서,
    상기 오디오 신호는 음악 신호를 포함하며,
    상기 템포 정보를 추출하는 단계는 상기 음악 신호의 템포를 추정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 템포 정보를 추출하기 위한 방법.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 컴퓨터 장치상에서 수행될 때, 제1항의 방법 단계들을 수행하고, 프로세서 상에서 실행하도록 사용된 소프트웨어 프로그램을 기록한 컴퓨터 판독 가능한 저장 매체.
  34. 삭제
  35. 컴퓨터상에서 실행될 때, 제1항의 방법을 수행하기 위한 실행 가능한 명령을 포함하는 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 저장 매체.
  36. 삭제
  37. 압축되어 있으면서, 스펙트럼 대역 복제 인코딩된 비트스트림으로부터 오디오 신호의 템포 정보를 추출하도록 구성되며, 상기 인코딩된 비트스트림은 상기 오디오 신호의 스펙트럼 대역 복제 데이터를 포함하는 시스템에 있어서,
    상기 오디오 신호의 시간 인터벌의 상기 인코딩된 비트스트림에 포함된 스펙트럼 대역 복제 데이터의 양과 관련된 페이로드(pay-load) 양을 결정하기 위한 수단;
    상기 오디오 신호의 상기 인코딩된 비트스트림의 연속된 시간 인터벌 동안 결정하는 단계를 반복함으로써, 상기 페이로드(pay-load) 양의 시퀀스를 결정하는 수단;
    상기 페이로드(pay-load) 양의 시퀀스에서 주기성을 식별하기 위한 수단; 및
    상기 식별된 주기성으로부터 상기 오디오 신호의 템포 정보를 추출하기 위한 수단;
    을 포함하는 것을 특징으로 하는 시스템.
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
KR1020127010356A 2009-10-30 2010-10-26 복합 확장 인지 템포 추정 시스템 및 추정방법 KR101370515B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25652809P 2009-10-30 2009-10-30
US61/256,528 2009-10-30
PCT/EP2010/066151 WO2011051279A1 (en) 2009-10-30 2010-10-26 Complexity scalable perceptual tempo estimation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020147000929A Division KR101612768B1 (ko) 2009-10-30 2010-10-26 인지적인 템포를 추정하기 위한 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20120063528A KR20120063528A (ko) 2012-06-15
KR101370515B1 true KR101370515B1 (ko) 2014-03-06

Family

ID=43431930

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020147000929A KR101612768B1 (ko) 2009-10-30 2010-10-26 인지적인 템포를 추정하기 위한 시스템 및 그 방법
KR1020127010356A KR101370515B1 (ko) 2009-10-30 2010-10-26 복합 확장 인지 템포 추정 시스템 및 추정방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020147000929A KR101612768B1 (ko) 2009-10-30 2010-10-26 인지적인 템포를 추정하기 위한 시스템 및 그 방법

Country Status (10)

Country Link
US (1) US9466275B2 (ko)
EP (2) EP2988297A1 (ko)
JP (2) JP5295433B2 (ko)
KR (2) KR101612768B1 (ko)
CN (2) CN104157280A (ko)
BR (1) BR112012011452A2 (ko)
HK (1) HK1168460A1 (ko)
RU (2) RU2507606C2 (ko)
TW (1) TWI484473B (ko)
WO (1) WO2011051279A1 (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2296145B1 (en) 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
JP5569228B2 (ja) * 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
EP2702589B1 (en) * 2011-04-28 2017-04-05 Dolby International AB Efficient content classification and loudness estimation
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
EP2786377B1 (en) * 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
DE102012208405A1 (de) * 2012-05-21 2013-11-21 Rohde & Schwarz Gmbh & Co. Kg Messgerät und Verfahren zur verbesserten Abbildung von Spektralverläufen
US9992490B2 (en) * 2012-09-26 2018-06-05 Sony Corporation Video parameter set (VPS) syntax re-ordering for easy access of extension parameters
US20140162628A1 (en) * 2012-12-07 2014-06-12 Apple Inc. Methods for Validating Radio-Frequency Test Systems Using Statistical Weights
US9704478B1 (en) * 2013-12-02 2017-07-11 Amazon Technologies, Inc. Audio output masking for improved automatic speech recognition
WO2015093668A1 (ko) * 2013-12-20 2015-06-25 김태홍 오디오 신호 처리 장치 및 방법
GB2522644A (en) * 2014-01-31 2015-08-05 Nokia Technologies Oy Audio signal analysis
US9852722B2 (en) 2014-02-18 2017-12-26 Dolby International Ab Estimating a tempo metric from an audio bit-stream
WO2016027366A1 (ja) * 2014-08-22 2016-02-25 パイオニア株式会社 振動信号生成装置及び振動信号生成方法
CN104299621B (zh) * 2014-10-08 2017-09-22 北京音之邦文化科技有限公司 一种音频文件的节奏感强度获取方法及装置
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
US9372881B1 (en) 2015-12-29 2016-06-21 International Business Machines Corporation System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset
WO2018129418A1 (en) * 2017-01-09 2018-07-12 Inmusic Brands, Inc. Systems and methods for selecting the visual appearance of dj media player controls using an interface
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
JP6946442B2 (ja) * 2017-09-12 2021-10-06 AlphaTheta株式会社 楽曲解析装置および楽曲解析プログラム
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110585730B (zh) * 2019-09-10 2021-12-07 腾讯科技(深圳)有限公司 游戏的节奏感测试方法、装置以及相关设备
CN110688518B (zh) * 2019-10-12 2024-05-24 广州酷狗计算机科技有限公司 节奏点的确定方法、装置、设备及存储介质
CN110853677B (zh) * 2019-11-20 2022-04-26 北京雷石天地电子技术有限公司 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质
CN111785237B (zh) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 音频节奏确定方法、装置、存储介质和电子设备
CN112866770B (zh) * 2020-12-31 2023-12-05 北京奇艺世纪科技有限公司 一种设备控制方法、装置、电子设备及存储介质
WO2022227037A1 (zh) * 2021-04-30 2022-11-03 深圳市大疆创新科技有限公司 音频处理、视频处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006037366A1 (en) 2004-10-08 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
JP2007272118A (ja) 2006-03-31 2007-10-18 Fujifilm Corp 楽曲テンポ抽出方法、装置及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US6240379B1 (en) * 1998-12-24 2001-05-29 Sony Corporation System and method for preventing artifacts in an audio data encoder device
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7447639B2 (en) 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
US7013269B1 (en) 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
JP4646099B2 (ja) * 2001-09-28 2011-03-09 パイオニア株式会社 オーディオ情報再生装置及びオーディオ情報再生システム
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
WO2006050512A2 (en) * 2004-11-03 2006-05-11 Plain Sight Systems, Inc. Musical personal trainer
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US20070036228A1 (en) * 2005-08-12 2007-02-15 Via Technologies Inc. Method and apparatus for audio encoding and decoding
US7518053B1 (en) 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4949687B2 (ja) 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法
US20080059154A1 (en) * 2006-09-01 2008-03-06 Nokia Corporation Encoding an audio signal
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
JP4799333B2 (ja) 2006-09-14 2011-10-26 シャープ株式会社 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN100462878C (zh) 2007-08-29 2009-02-18 南京工业大学 智能机器人识别舞蹈音乐节奏的方法
JP5098530B2 (ja) 2007-09-12 2012-12-12 富士通株式会社 復号化装置、復号化方法および復号化プログラム
JP5008766B2 (ja) 2008-04-11 2012-08-22 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006037366A1 (en) 2004-10-08 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
JP2007272118A (ja) 2006-03-31 2007-10-18 Fujifilm Corp 楽曲テンポ抽出方法、装置及びプログラム

Also Published As

Publication number Publication date
RU2012117702A (ru) 2013-11-20
JP2013225142A (ja) 2013-10-31
CN102754147B (zh) 2014-10-22
TWI484473B (zh) 2015-05-11
JP2013508767A (ja) 2013-03-07
CN104157280A (zh) 2014-11-19
EP2494544B1 (en) 2015-09-02
US9466275B2 (en) 2016-10-11
JP5295433B2 (ja) 2013-09-18
RU2013146355A (ru) 2015-04-27
BR112012011452A2 (pt) 2016-05-03
KR20120063528A (ko) 2012-06-15
EP2494544A1 (en) 2012-09-05
KR101612768B1 (ko) 2016-04-18
HK1168460A1 (en) 2012-12-28
JP5543640B2 (ja) 2014-07-09
US20120215546A1 (en) 2012-08-23
EP2988297A1 (en) 2016-02-24
TW201142818A (en) 2011-12-01
RU2507606C2 (ru) 2014-02-20
WO2011051279A1 (en) 2011-05-05
KR20140012773A (ko) 2014-02-03
CN102754147A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
KR101370515B1 (ko) 복합 확장 인지 템포 추정 시스템 및 추정방법
US9697840B2 (en) Enhanced chroma extraction from an audio codec
US9317561B2 (en) Scene change detection around a set of seed points in media data
Mitrović et al. Features for content-based audio retrieval
CN103582913B (zh) 有效内容分类及响度估计
JP2009511954A (ja) モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器
JP2004530153A (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2004326113A (ja) 類似する圧縮オーディオ・ファイルの自動分類および識別のための装置および方法
US20040068401A1 (en) Device and method for analysing an audio signal in view of obtaining rhythm information
Rizzi et al. Genre classification of compressed audio data
Hollosi et al. Complexity Scalable Perceptual Tempo Estimation from HE-AAC Encoded Music
Norvell Gaussian mixture model based audio coding in a perceptual domain

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee