KR101249024B1 - 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스 - Google Patents

콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스 Download PDF

Info

Publication number
KR101249024B1
KR101249024B1 KR1020077030947A KR20077030947A KR101249024B1 KR 101249024 B1 KR101249024 B1 KR 101249024B1 KR 1020077030947 A KR1020077030947 A KR 1020077030947A KR 20077030947 A KR20077030947 A KR 20077030947A KR 101249024 B1 KR101249024 B1 KR 101249024B1
Authority
KR
South Korea
Prior art keywords
content item
percussion
determining
sounds
genre
Prior art date
Application number
KR1020077030947A
Other languages
English (en)
Other versions
KR20080019031A (ko
Inventor
얀토 슈코브로넥
마틴 에프. 맥킨니
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20080019031A publication Critical patent/KR20080019031A/ko
Application granted granted Critical
Publication of KR101249024B1 publication Critical patent/KR101249024B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

콘텐트 아이템의 특성을 결정하는 방법은 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하는 단계(1), 상기 데이터에 의해 다수의 사운드들 각각의 특성을 결정하는 단계(3)를 포함하고, 상기 각각의 특성은 다수의 사운드들 중 하나의 크기의 시간 양태를 나타내고, 및 다수의 결정된 특성들에 기초하여 콘텐트 아이템의 특성을 결정하는 단계(5)를 포함한다. 콘텐트 아이템의 특성 및/또는 상기 콘텐트 아이템의 특성에 기초하여 장르 및/또는 무드는 속성값으로서 콘텐트 아이템과 연관될 수 있다. 만약 콘텐트 아이템이 콘텐트 아이템들의 수집부의 일부이면, 속성값은 콘텐트 아이템들의 수집부에서 콘텐트 아이템을 검색하는 방법에 사용될 수 있다. 본 발명의 전자 디바이스는 전자 회로를 포함한다. 전자 회로는 본 발명의 하나의 방법 또는 양쪽 방법들을 수행하도록 동작한다.
콘텐트 아이템, 퍼커션 측정, 사운드, 전자 회로, 엔벨로프

Description

콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스{Method and electronic device for determining a characteristic of a content item}
본 발명은 콘텐트 아이템의 특성을 결정하는 방법에 관한 것이다.
본 발명은 또한 다수의 콘텐트 아이템들에서 콘텐트 아이템을 검색하는 방법에 관한 것이다.
본 발명은 또한 프로그램 가능한 디바이스가 콘텐트 아이템의 특성을 결정하는 방법 및/또는 다수의 콘텐트 아이템들에서 콘텐트 아이템을 검색하는 방법을 수행하도록 동작하게 하는 소프트웨어에 관한 것이다.
본 발명은 또한 전자 회로를 포함하는 전자 디바이스에 관한 것이고, 상기 전자 회로는 콘텐트 아이템의 특성을 결정하도록 동작한다.
본 발명은 또한 전자 회로를 포함하는 전자 디바이스에 관한 것이고, 상기 전자 회로는 다수의 콘텐트 아이템들에서 콘텐트 아이템을 검색하도록 동작한다.
본 발명은 또한 전자 디바이스에 사용하기 위한 전자 회로에 관한 것이고, 상기 전자 회로는 콘텐트 아이템의 특성을 결정하거나 또는 다수의 콘텐트 아이템들에서 콘텐트의 아이템을 검색하도록 동작한다.
상기 방법의 일례는 US 5,918,223으로부터 알려져 있다. 상기 특허에 기술된 방법은 음량(loudness), 음높이(pitch), 선명도, 대역폭 및 MFCC 계수들 중 적어도 하나로 구성된 그룹으로부터 선택된 사운드 파일의 다수의 음향 특징들을 측정한다. 이들 특징들에 기초하여 계산된 측정치들은 사운드 파일들을 그룹화하기 위하여 사용된다. 이 방법의 단점은 낮은 레벨의 특징들이 사용자로 하여금 그의 선호도와 매칭하는 모든 노래들을 검색 및 발견하기에 충분하지 않다는 것이다.
US 6,476,308 B1은 곡 내에 포함된 다수의 음색(note)들 각각에 대하여 결정된 특성들에 기초하여 곡을 분류하는 방법을 개시한다. 예들은 음악의 연속적인 곡에서, 음색의 시작 및 종료 포인트들이 이전 음색들, 다음 음색, 또는 하나 또는 그 이상의 악기들에 의하여 동시에 연주되는 음색들과 겹쳐질 수 있다는 사실을 포함한다. 이것은 상이한 악기들이 매우 상이한 특성들을 가진 음색들을 발생시킨다는 부가적인 사실에 의해 복잡해진다. 예를 들면, 트럼펫 또는 플룻에 의해 생성되는 것과 같은 유지 단계를 가진 음색들은 상기 유지 단계의 중간에서 높은 에너지를 가지며, 피아노 또는 기타에 의해 생성되는 것과 같은 유지 단계가 없는 음색들은 음색이 첫 번째 생성될 때 어택(attack) 단계에서 높은 에너지를 가진다.
본 발명의 제 1 목적은 사용자의 선호도들과 매칭하는 보다 많은 노래들을 검색 및 발견하기 위하여 사용될 수 있는 특성을 결정하는 도입부에 기술된 종류의 방법을 제공하는 것이다.
본 발명의 제 2 목적은 사용자의 선호도들과 매칭하는 보다 많은 노래들을 검색 및 발견하기 위하여 사용될 수 있는 특성을 결정할 수 있는 도입부에 기술된 종류의 전자 디바이스를 제공하는 것이다.
제 1 목적은 본 발명에 따라 상기 방법이 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하는 단계, 악기와 같은 사운드들의 소스 타입을 결정하지 않고 상기 데이터를 분석함으로써 다수의 사운드들 각각의 특성을 결정하는 단계로서, 각각의 특성은 다수의 사운드들 중 하나의 시간 엔벨로프(temporal envelope)의 양태를 나타내는 상기 결정 단계, 및 다수의 결정된 특성들에 기초하여 콘텐트 아이템의 퍼커션 측정치(percussiveness measure)를 결정하는 단계를 포함한다. 상기 방법은 예를 들면 MP3 파일, 뮤직 비디오, 또는 영화의 오디오 트랙과 같은 콘텐트 아이템의 퍼커션(percussiveness)의 측정치를 결정한다. 본 발명자들은 악기가 울리는지 울리지 않는지 여부만을 소비자들이 인식할 수 없지만, 또한 전체 콘텐트 아이템에 대한 퍼커션의 측정을 인식할 수 있다는 것을 인식하였다. 퍼커션 측정치가 높은 레벨의 특징이기 때문에, 상기 퍼커션 측정치는 예를 들면 템포와 같은 다른 특징들 대신 또는 다른 특징들에 부가하여 사용자의 선호도들과 매칭하는 노래들을 검색하고 발견하기 위하여 사용되는데 적합하다. 게다가, 이런 퍼커션의 측정은 근원적 노래(seed song)에 기초하여 유사한 음악을 발견하고 및/또는 리미터들/압축기들/볼륨 제어부와 같은 오디오 동적 조정 알고리즘들의 파라미터들을 자동으로 설정하기 위하여 사용될 수 있다.
본 발명의 방법의 실시예에서, 콘텐트 아이템의 퍼커션 측정치를 결정하는 단계는 백분율을 결정하는 단계를 포함한다. 예를 들면, 콘텐트 아이템은 75% 울림 및 25% 비울림(non-percussive), 또는 50% 울림 및 비화성(non-harmonic), 30% 울림 및 화성 및 20% 비울림일 수 있다. 이런 백분율이 검색 질의들에 사용될 때, 우선 사용자는 이러한 퍼커션 측정을 갖는 콘텐트 아이템들 및 퍼커션 간의 관계를 알 수 없다. 그러나, 사용자가 이런 검색 기준으로 실험할 때, 그는 빠르게 이 관계를 배울 것이다.
대안적으로 또는 부가적으로, 콘텐트 아이템의 퍼커션 측정치를 결정하는 단계는 주된 악기를 결정하는 단계를 포함한다. 사용자에 의해 선택된 주된 악기는 다수의 콘텐트 아이템들에서 콘텐트 아이템을 검색하기 위하여 사용될 수 있는 퍼커션 범위로 번역될 수 있다. 비록 이런 범위에서 퍼커션을 가진 콘텐트 아이템들을 검색하는 것은 아마도 특정된 주된 악기를 갖는 모든 콘텐트 아이템을 발견할 수 없고 또 다른 주된 악기를 갖는 콘텐트 아이템들이 발견된 콘텐트 아이템 중에서 또한 리스팅되지만, 주된 악기를 선택하는 것은 백분율을 선택하는 것보다 사용자들이 보다 더 잘 이해할 수 있다.
상기 방법은 콘텐트 아이템의 퍼커션 측정치에 기초하여 콘텐트 아이템의 장르 및/또는 무드를 결정하는 단계를 더 포함할 수 있다. 실험들은 다른 것들에서 하나의 음악 장르를 검출하고 두 개의 음악 장르들 간을 구별할 때 이런 퍼커션 측정치가 우수한 결과들을 갖는 장르 검출에 사용될 수 있다는 것을 나타낸다. 무드를 결정하는 방법이 장르를 결정하는 방법과 유사하기 때문에, 이런 퍼커션 측정치는 또한 무드 검출을 위하여 사용될 때 우수한 결과들을 도출할 것으로 기대된다. 콘텐트 아이템의 다른 특성들은 부가적으로 장르 및/또는 무드 검출에 사용되지만, 필수적인 것은 아니다.
콘텐트 아이템의 퍼커션 측정치를 결정하는 단계는 콘텐트 아이템의 제 1 특성 및 제 2 특성을 결정하는 단계를 포함하고, 콘텐트 아이템의 장르 및/또는 무드를 결정하는 단계는 제 1 장르 또는 무드의 특성과 제 1 특성을 비교하는 단계 및 제 2 장르 또는 모드의 특성과 제 2 특성을 비교하는 단계를 포함할 수 있다. 콘텐트 아이템의 퍼커션의 측정치는 하나 이상의 퍼커션 특징들에 기초할 수 있다. 몇몇 퍼커션 특징들은 다른 것에서 제 1 음악 장르를 검출하거나 또는 제 1 음악 장르 및 제 2 음악 장르 간을 식별하기에 보다 적절하고, 다른 퍼커션 특징들은 다른 것들에서 제 2 장르를 검출하거나 또는 제 2 음악 장르 및 제 3 음악 장르 간을 식별하기에 보다 적절하다.
다수의 사운드들 각각의 특성을 결정하는 단계는 다수의 사운드들 각각의 제 1 위상의 특성 및 다수의 사운드들 각각의 제 2 위상의 특성을 결정하는 단계를 포함할 수 있다. 실험들은 신시사이저 기술(synthesizer technology)(어택(Attack), 감쇠(Decay), 유지 및 보수(Release))에 사용된 위상들과 유사하게 적어도 하나의 어택 위상(attack phase) 및 하나 이상의 다른 위상들로 사운드를 분할하는 단계, 및 상기 분할 위상들 각각에 대해 퍼커션 특징들을 결정하는 단계는 보다 우수한 퍼커션 특징들이 된다는 것을 설명한다.
제 2 목적은 본 발명에 따라 전자 디바이스가 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하고, 악기와 같은 사운드들의 소스 타입을 결정하지 않고 상기 데이터를 분석함으로써 다수의 사운드들 각각의 특성을 결정하는 것으로, 상기 각각의 특성은 다수의 사운드들 중 하나의 시간 엔벨로프의 양태를 나타내는 각각의 특성을 나타내도록 결정하고, 다수의 결정된 특성들에 기초하여 콘텐트 아이템의 퍼커션 측정치를 결정하도록 동작하는 전자 회로를 포함하는 것으로 달성된다.
본 발명의 방법 및 전자 디바이스의 이들 및 다른 양태들이 또한 열거되고 도면들을 참조하여 기술될 것이다.
도 1은 콘텐트 아이템의 특성을 결정하는 방법의 흐름도.
도 2는 도 1의 방법의 실시예의 흐름도.
도 3은 3 위상들로 분할된 사운드들의 예들을 도시하는 도면.
도 4는 도 3의 사운드들 중 하나에 대해 결정된 특성들의 예를 도시하는 도면.
도 5는 도 2의 실시예에 사용된 방정식들을 도시하는 도면.
도 6은 두 개의 장르들 사이를 구별한 결과를 도시하는 도면.
도 7은 본 발명의 전자 장치의 블록도.
도면들 내에서 대응 요소들은 동일한 참조 번호에 의해 식별된다.
도 1 및 2를 참조하여, 본 발명의 방법은 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하는 단계 1, 상기 데이터를 분석함으로써 다수의 사운드들 각각의 특성을 결정하는 단계 3으로서, 각각의 특성은 다수의 사운드들 중 하나의 진폭의 시간 양태를 나타내는, 상기 단계 3, 및 다수의 결정된 특성들에 기초하여 콘텐트 아이템의 특성을 결정하는 단계 5를 포함한다. 상기 방법은 콘텐트 아이템의 특성에 기초하여 콘텐트 아이템의 장르 및/또는 무드를 결정하는 단계 7을 더 포함할 수 있다.
콘텐트 아이템의 결정된 특성 및/또는 결정된 장르 및/또는 무드는 속성값으로서 콘텐트 아이템과 연관될 수 있다. 이런 속성값은 예를 들면, 플레이리스트, 파일 디스크립션 또는 서비스 제공자 데이터베이스 내에 저장될 수 있다. 이런 속성값은 다수의 콘텐트 아이템들에서 콘텐트 아이템을 검색하는 방법에 사용될 수 있고, 다수의 콘텐트 아이템들에서 각각의 콘텐트 아이템은 속성값과 연관된다. 상기 방법은 원하는 속성값과 유사한 속성값과 연관되는 콘텐트 아이템들을 발견한다. 다수의 콘텐트 아이템들은 몇몇 콘텐트 아이템들이 속성값과 연관되지 않은 보다 큰 콘텐트 아이템들의 콜렉션의 일부일 수 있다. 상기 방법은 예를 들면 서비스 제공자 또는 소비자 전자 디바이스에 의해 수행될 수 있다.
결정된 사운드의 특성은 사운드의 음색(timbre) 측정치, 특히 사운드의 퍼커션 측정치이다. 음색의 정의는 미국 표준화 기구(ANSI)에 의해서, 유사하게 제공되고 동일한 음량 및 음높이를 가진 두 개의 사운드들이 다르다는 것을 청취자가 판단할 수 있는 청각 감각의 속성이라고 주어진다. 이런 정의의 공통 해석은 음질은 동일한 레벨에서 동일한 음조(note)를 연주하는 두 개의 타입들의 악기들로부터 발생하는 사운드들을 구별하도록 돕는 것이라는 것이다.
상기 정의 및 해석 모두는 하나의 단일 특성을 가진 음색을 기술하는 것은 오히려 어렵다는 것을 지적한다. 음색 검색시 적어도 두 개의 주요 동작들이 있는데, 이는 다음을 확인한다:
1. 음질 지각: 지각 실험을 사용하여, 다수의 연구들은 음질 지각에 기여하는 그들의 단일 특성들을 식별하였다. 어택 시간과 같은 시간적 파라미터들 뿐만 아니라 스펙트럼 성분들의 수 및 구성과 같은 몇몇 스펙트럼 특성들은 가장 중요한 것들이다.
2. 사운드 모델링: 상기된 연구들에게서 지정된 파라미터들은, 오디오 신호들로부터 추출되어 모델링을 위하여 사용된다. 이들 모델들은 사운드들을 (재)합성하거나 사운드들을 분류 및 식별하기 위하여 공통으로 사용된다.
음색 파라미터들에 기초하여 사운드들의 자동 분류 및 식별이 행해지는 몇몇 연구들이 있다. 그러나 대부분의 공개물들은 단일 화성 또는 퍼커션의 악기 사운드들의 분류를 다룬다. 게다가, 간단한 다중 음색 위상들에 대해 이들 방식들을 사용하고자 하는 첫 번째 시도들이 있다. 그러나, 다중 화성 음악 오디오 스트림(polyphonic music audio stream)에서 악기의 자동 식별은 현재 해결되지 않았다. 그 이유는 다중 화성 음악에서, 사람은 중첩하는 악기들과 직면하고, 또한 현대 음악에서 연주 동안 음색이 변하는, 합성되거나 또는 조정된 사운드들과 직면하기 때문이다. 알려진 음색 특징들은 일반적으로 모노포닉(monophonic) 악기들이라 하고 상기 사운드들에 쉽게 적용되지 않는다. 이것은 소스 타입(예를 들면, 음악 악기) 자체를 결정하지 않고 임의의 사운드 기조(texture)의 음색을 기술하는 보다 일반적인 특징들이 필요하다는 것을 의미한다. 본 발명의 방법은 사운드의 음색을 기술하기 위해 사운드의 퍼커션을 사용한다. 퍼커션은 반드시 퍼커션 악기로부터 발생하는 악기만을 의미하지는 않는다. 오히려 반음 높은 어택-감쇠 특성(sharp attack-decay characteristic)을 갖는 짧은 사운드들(short sounds)에 사용되는 용어이다. 상기 용어 퍼커션의 용어 의미는 다음 4개의 예들로 예시될 수 있다:
1. 플룻-사운드(flute-sound): 일반적으로 비퍼커션 사운드(non-percussive sound)로서 이를 분류한다.
2. 스네어 드럼(snare drum): 일반적인 울림 사운드로서 이를 분류한다.
3. 유지되어 연주하는 첼로(현은 활로 퉁겨짐): 일반적인 비커퍼션 사운드로서 이를 분류한다.
4. 동일한 첼로이지만, 이 때는 피치카토(pizzicato)를 연주(손가락들로 현을 퉁긴다): 사운드가 최종 사운드보다 많은 퍼커시브를 갖는 것과 같다. 그 이유는 사운드가 다른 시간적 특성을 갖는 반면, 스펙트럼 구조가 기본적으로 동일하게 유지되기 때문이다. 신호 이론(signal theory)은 시간 도메인 변조들(time domain moculations)이 고정 톤의 스펙트럼에 영향을 미치는 것을 언급한다. 그러므로, 이런 문장들은 양쪽 신호들(현 유지 및 튕김)이 스펙트럼 성분들의 동일 기초 구성(예를 들면, 규칙성)을 가지는 방식을 의미한다.
이들 예들은 퍼커션이 신호 엔벨로프(signal envelope)에 대해 일반화된 디스크립션으로서 정의될 수 있다는 것을 보여준다. 따라서 이것은 순수 시간 도메인 특징이다. 이런 정의에서, 퍼커션은 사운드의 엔벨로프를 말하고 목표된 특징들은 상기 엔벨로프의 파라미터적 디스크립션을 형성한다. 방법의 실시예에서, 우선 신시사이저 기술(어택, 감쇠(Decay), 유지 및 릴리즈(Release))로부터 알려진 신호 엔벨로프의 4-위상 근사화가 적용된다. 그러나 계산상 이유로, 엔벨로프의 감쇠 및 유지를 결합하여, 3 위상들 어택(A), 감쇠 & 유지(D&S) 및 해제(R)로 한다. 둘째, 몇몇 특징들은 계산되고, 이것은 시간 기간들, 레벨 차이들 및 이들 위상들의 곡선 형태라 한다. 도 3은 두 개의 상이한 사운드들의 엔벨로프들에 대한 원리를 개략적으로 도시한다.
원하는 A-D&S-R 근사화를 결정하는 제 1 단계는 위상들의 시작 및 종료 지점들을 결정하는 것이다. 이들 시간 인스턴스들은 젠슨(Jensen)(Timbre Models of Musical Sounds, PhD. Dissertation, Department of Datalogy, University of Copenhagen, DIKU Report 99/7, 1999)에 의해 제안된 방법과 유사한 방법으로 검출될 수 있다. 기본적인 생각은 두 단계 프로세스이다: 첫째는 매우 부드러운 엔벨로프를 계산하고 원하는 시작 및 종료 지점들을 결정한다; 둘째 부드럽지 않은 경우가 달성될 때까지 엔벨로프의 점점 더 적고 부드러워지는 버전들을 사용하여 단계적으로 이들 지점들을 조절한다.
매우 부드러운 엔벨로프의 시간 인스턴스들을 검출하는 젠슨 절차는 사운드의 단일 화성 성분들에 대하여 전개되었다. 젠슨은 부드러운 엔벨로프의 1차 도함수를 계산하였고 원하는 시작 지점 및 종료 지점에 대한 우수한 후보들을 발견하기 위하여 상이한 도함수 임계치들을 사용하였다. 젠슨은 이런 도함수 방법이 레벨 임계치들(최대치의 10%가 어택 시작이고, 90%가 어택의 종료이고 등)을 사용하여 보다 간단한 방식과 달리 악기들(피아노들 같은)을 감쇠하기 위한 실제 R 위상의 보다 우수한 검출을 허용한다는 것을 나타냈다. 그러나, 젠슨의 방식은 광대역 신호들과 작업하기 위하여 변경될 필요가 있다: 첫째, 부드러운 엔벨로프는 낮은 컷오프 주파수로 저역 통과 필터링한 다음, 신호의 절대 값들(반파 및 전체파 정류 모두가 사용될 수 있다)을 계산함으로써 도출될 필요가 있다. 게다가, 원하는 시간 인스턴스들을 검출하기 위한 방법의 확장은, 엔벨로프의 나머지 미세 구조가 잘못된 검출을 이끌기 때문에 필요하다. 그러므로 1차 도함수 및 엔벨로프 자체에 대한 임계치들의 결합들이 사용될 필요가 있다(도 4 참조):
1. A 위상의 시간 인스턴스들을 검색:
(a) '어택 중간(middle of attack)'(moa)을 검색:
'어택 중간'은 엔벨로프 env(t)가 가파른 레벨 증가를 가지는 지점이고, 1차 도함수 d/dt env(t)가 로컬 최대값을 가지는 것을 의미하고, 여기서 엔벨로프는 합리적인 값을 가진다. 합리적인 엔벨로프 값은 하기와 같이 정의된다: 엔벨로프의 로컬 최대값이 제 1 시간 동안 특정 임계치보다 크기 전의 최종 후보: local_max(env(t))≥env critmoa = 0.25*max(env(t)).
(b) 어택 시작(soa)을 검색:
moa로부터의 시작은, 도함수 및 엔벨로프 기준이 충족될 때까지 후방으로 진행한다. 도함수 조건: d/dt env(t)≤d_critsoa = 0.1*max(d/dt env(t)). 엔벨로프 조건: env(t)≤env_critsoa = 0.25*max(env(t)).
(c) 어택 종료(eoa)를 검색:
moa으로부터의 시작은, 도함수 및 엔벨로프 기준이 충족될 때까지 전방으로 진행한다. 도함수 조건: d/dt env(t)≤d_critsoa = 0.1*max(d/dt env(t)). 엔벨로프 조건: env(t)≥env_critsoa = 0.75*max(env(t)).
2. R-위상의 시간 인스턴스들 검색:
(a) '해제 중간'(mor)을 검색:
'해제 중간'은 엔벨로프가 가파른 레벨 감소를 가지는 지점이고, 1차 도함수가 영(zero) 아래의 로컬 최소값을 가지는 것을 의미하고, 여기서 엔벨로프는 합리적인 값을 가진다. 합리적인 엔벨로프 값은 하기와 같이 정의된다: 엔벨로프의 로컬 최대값이 최종 시간 동안 특정 임계치 이상인 후의 제 1 후보: local_max(env(t))≥env_critmor = 0.3*max(env(t)).
(b) 해제 시작(sor)을 검색:
mor로부터의 시작은, 도함수 및 엔벨로프 기준이 충족될 때까지 후방으로 진행한다. 도함수 조건: d/dt env(t)≥d_critsor = 0.2*min(d/dt env(t)). 엔벨로프 조건: env(t)≥env_critsor = 0.25*max(env(t)).
(c) 해제 종료(eor)를 검색:
moa로부터의 시작은, 도함수 및 엔벨로프 기준이 충족될 때까지 전방으로 진행한다. 도함수 조건: d/dt env(t)≥d_critsor = 0.1*max(d/dt env(t)). 엔벨로프 조건: env(t)≤env_critsor = 0.1*min(env(t)).
3. D&S 위상의 시간 인스턴스들을 정의:
D&S의 시작은 어택(eoa)의 종료이고 D&S의 종료는 해제(sor)의 시작이다.
기준들의 값들이 약 40개의 상이한 악기 사운드들에 관한 알고리즘을 검사함으로써 발견될 수 있다는 것을 주의한다. 그러나, 부가적인 검사 자료를 사용하여, 기준들에 대한 다른 값들은 보다 우수한 검출 성능을 이끌 수 있다는 것이 발견될 수 있다.
제 2 단계에서, 부드럽지 않은 경우에 대한 발견된 시간 인스턴스들의 조절, 즉 반복 과정이 사용된다. 엔벨로프의 덜 부드러운 버전의 반복에 의한 반복은 엔벨로프 계산 동안 저역 통과 필터의 상이한 컷오프 주파수들(cutoff frequency)을 사용하여 계산된다(상이한 필터들에 의해 도입된 엔벨로프들의 상이한 시간 지연들을 방지하기 위해, 필터들에 의해 도입된 지연들을 방지하는 정기적인 필터링(non-casual filtering)이 적용된다). 그 후, 시간 인스턴스들(soa, eoa, sor, eor)은 시간 및 레벨 기준을 사용하여 조절된다: 새로운 후보는 이전 시간 인스턴스(|tnew-toldj|≤1024 샘플들 ≒23ms)에서 너무 멀리 떨어지지 않아야하고 그것의 새로운 엔벨로프 값은 이전 엔벨로프 값(0.9*envold≤envnew<1.5*envold)에서 너무 멀리 있지 않아야 한다. 다시 이들 기준들은 상기 언급된 악기 사운드들을 가진 알고리즘을 검사함으로써 도출되고 상기 기준들에 대한 다른 값들은 보다 우수한 검출 성능을 이끌 수 있다는 것이 발견될 수 있다.
일단 상기된 시작 및 종료 지점들이 발견되면, 신호 엔벨로프의 3-위상 근사화가 적용될 수 있다. 엔벨로프의 효율적인 파라미터 디스크립션을 발견하기 위하여, 젠센에 의해 제안된 곡선 형태 근사화는 각각의 위상에 대해 적용되고, 이것은 하나의 단일 파라미터 n으로 기술된다. 도 5의 방정식(2.1)을 참조하라.
경계 조건들 υ0 및 υ1은 위상의 시작 및 종료 지점들에 대한 엔벨로프 값들이다. 변수 x는 0 및 1 사이에서 정규화된 시간이다(t=시작→x=0, t=종료→x=1). 스칼라 파라미터 n은 곡선 형태를 결정한다: 만약 n이 1과 같으면, 곡선 형태는 선형이고; 만약 n이 1보다 작으면, 곡선 형태는 지수 특성을 가지며; 만약 n이 1보다 크면, 곡선 형태는 로그(logarithmic)이다. 파라미터 nopt로부터의 최적의 곡선은 결과적인 곡선 형태 및 엔벨로프 사이의 최소 자승법 에러를 최소화함으로써 발견된다. 도 5의 방정식들 2.2 및 2.3 참조.
상기 결과는 11개의 파라미터들을 가진 엔벨로프의 3-위상 파라미터 디스크립션이다:
시간 인스턴스들: soa, eoa, sor, eor
레벨 값들: env(soa), env(eoa), env(sor), env(eor)
각각의 위상에 대한 최적의 곡선형 파라미터들: nA, nD&S, nR.
상기된 A-D&S-R 근사화는 전체 주파수 범위상에서 하나의 대역내 파라미터 엔벨로프 디스크립션을 계산하기 위하여 설계되지만, 이 방법은 다중 대역 분석에 또한 사용될 수 있다.
젠센 방식에서, 파라미터 엔벨로프 디스크립션은 신호의 단일 스펙트럼 성분들에 대하여 계산되었다. 이 방법은 피아노, 플룻, 바이올린 등과 같은 (유사(quasi-)) 화성 악기들에 집중되었기 때문에 그것의 작업(task)에 대하여 최적화되었다. 그러나 비화성 또는 혼합 화성 및 비화성 사운드들에 직면될 때, 보다 넓은 대역들을 사용하는 다중 대역 분석이 적용되고, 여기서 모든 대역들은 함께 0 내지 22050 Hz의 전체 주파수 범위를 커버한다. 상기 목적을 위하여, 알고리즘 필터들은 필터 뱅크(filter bank)로 신호들을 필터링하고(ERB 레이트 스케일링된 대역폭들 및 대략 사각형 대역들을 가진 선형 위상 FIR 필터들) 개별적으로 각각의 필터 출력에 대한 A-D&S-R 파라미터들을 계산한다.
구현된 특징 추출 알고리즘(feature extraction algorithm)은 우수한 결과들을 갖는 몇몇 예비 실험들에서 단일 악기 사운드들로 검사되었다. 다성부 음악(polyphonic music)을 가진 실행된 특징이 추출된 알고리즘을 사용하기 위하여, 다음 단계들은 수행될 필요가 있다:
1. 연속적인 음악 또는 오디오 스트림을, 시작부에서 발생하여 시작하고 차후 시작에서 종료하는 부분들로 분할.
2. A-D&S-R 근사화를 적용하고 각각의 오디오 부분에 대한 퍼커션을 평가하기 위한 특징들을 계산.
연속적인 오디오를 유용한 부분들로 분할하기 위하여, 확장된 알고리듬은 오디오 스트림의 시작부에서 검출하여야 하고 그 다음 근사화가 적절하게 작동할 수 있는 방식으로 이들 시작부들 즈음에서 중단하여야 한다. 시작부 검출을 위하여, 시작부들에 시간 인스턴스들을 제공하는 쉬레이더(Scharader)(다성부 음악, 마스터 논제, 전기 엔지니어링 부서, TU Eindhoven, 2003에서 음악적 음색 시작부들의 검출 및 해석)에 의해 실행되는 이용가능한 방법을 사용한다. 검출된 시간 인스턴스들이 종종 시작부의 중간에서 보다 자주 지적되기 때문에, 알고리즘은 이전 적절한 시점에서 오디오 스트림을 중단하여야 한다. 이런 목적을 위하여, 관심있는 신호 영역의 부드러운 엔벨로프를 계산하고 원하는 중단 지점에서 다음 최소치를 선택한다.
상기 분할 기능을 실행하는 것 외에, 단일 악기 사운드들의 제 1 버전이 추출된 오디오 부분들과 함께 어려움들을 가지기 때문에 근사화 알고리즘은 변경되어야 한다. 그 이유는 soa 및 eoa의 검출에 사용되는 엔벨로프 기준들이 오디오 부분들에 적용가능하지 않기 때문이다. 기준들이 구조 '중지-사운드-중지(pause-sound-pause)'를 가진 오디오 파일들의 도움으로 도출되었다는 것을 고려하자. 결과적으로, soa 및 eor 시점들에서 엔벨로프의 레벨들은 최대 사운드 레벨에 비해 상당히 낮다. 그러나, 추출된 오디오 부분들에 대해, soa 및 eor 시점들에서 레벨들은 상당히 높은데, 그 이유는 다성부 음악에서 최소한 단지 하나의 대역이 전체 주파수 범위에 사용되면 두 개의 인접한 시작부들 사이에서 신호 중지들이 거의 없기 때문이다. 그러므로, 엔벨로프 기준들은 오디오 부분의 최소 엔벨로프 레벨을 고려한 수정 기간으로 확장된다.
유도된 A-D&S-R 파라미터들로부터, 분류 임무들을 위하여 약속된 확장된 특징들의 리스트가 계산되었다:
그룹 1: A-D&S-R 위상(단일 대역 계산) 당 낮은 레벨 특징들:
- 위상의 시간 기간('t')
- 위상의 시작 및 종료 지점 사이의 레벨 차('d')
- 위상의 가파름('d/t')
그룹 2: A-D&S-R 위상(단일 대역 계산) 당 곡선 형태 디스크립션:
- 위상의 곡선형 파라미터 n
- 근사화 곡선 및 실제 신호 엔벨로프 사이의 에러를 기술하는 추가 파라미터: 도 5의 방정식 2.3에서 에러 함수의 자동 상관 함수(ACF)에 기초하는 파라미터임. 상기 파라미터는 ACF의 영 래그 지점(zero-lag point) 이외의 제 1 피크의 높이이다. 에러 함수의 주기성의 "강도"를 기술하고 그러므로 "에러 규칙성(error regularity)"이라 불린다.
그룹 3: 대역 당 위상들의 시작 지점 및 종료 지점들의 비동시성(asynchrony)을 기술하는 특징들(다중 대역 계산): 비동시성은 모든 대역들상에서 평균값으로부터 하나의 대역의 시간 인스턴스들 sao, eoa, sor 및 eor의 도함수로서 정의되었다(필터 뱅크의 모든 필터들은 동일한 순서를 가진 선형 위상 FIR 필터들이고, 이들 모두는 동일한 상수 지연을 야기한다는 것을 의미한다). 그러므로 여기서 측정된 비동시성은 실제로 신호 성분들의 비동시성이다). 상기에서 2개의 스칼라 특징들 당 계산된 비동시성 값들이 계산된다:
°대역들상에서 비동시성 평균
°대역들상에서 비동시성 분산
그룹 4: 대역당 사전 계산된 그룹 1 특징들의 대역들에 걸친 평균값들(다중 대역 계산)
그룹 5: 대역당 미리 계산된 그룹 2 특징들의 대역들에 걸친 평균값들(다중 대역 계산)
그룹 6: 대역당 미리 계산된 그룹 1 특징들의 대역들에 걸친 분산값들(다중 대역 계산)
그룹 7: 대역당 미리 계산된 그룹 2 특징들의 대역들에 걸친 분산값들(다중 대역 계산)
그룹 8: 모든 대역들상 그룹 1 특징값들의 "모양"을 기술하는 특징들: 모양은 모양이 청각 대역의 함수로서 도시될 때 대역 특징값들 당 분포를 의미한다. 모양은 상기 언급된 곡선 형태 파라미터 및 에러 규칙성 파라미터와 유사한 두 개의 파라미터들에 의해 기술된다:
- 선형 곡선을 사용하는 모양의 근사화를 기술하는 하나의 파라미터. 상기 파라미터는 선형 근사화 기울기(m)이다.
- 모양 및 선형 근사화 사이의 에러 규칙성을 기술하는 하나의 파라미 터. 상기 파라미터의 계산은 에러 규칙성 파라미터와 유사하고, 선형 근사화 및 실제 모양 사이의 ACF에 기초한다.
그룹 9: 그룹 2 특징들에 대한 모양 파라미터들.
D&S-위상 및 R-위상(예를 들면, 플룻 사운드) 사이의 명확한 구별을 허용하는 사운드들을 잘 처리할 수 있는 이전에 기술된 3-위상 근사화 대신, 2-위상 근사화가 또한 사용될 수 있다. 이 근사화는 감쇠하는 엔벨로프만을 가진 사운드들에 바람직하고, 이것은 D&S-위상 및 R-위상이 적당하게 분리될 수 없다는 것을 의미한다(예를 들면, 드럼 사운드). 그러므로 만약 D&S-위상 및 R-위상이 하나의 위상으로 결합되면 특징 추출이 작동하는 방법을 아는 것에 관심이 있다. 하나의 결합은 보다 간단하고: 결과적인 위상은 어택(eoa)의 종료시 시작하고 해제(eor)의 종료 때까지 진행한다. 이런 단계가 A-위상 후 신호의 나머지를 기술하기 때문에, 이러한 위상은 어택-잔류-위상(Attack-Residual-Phase; AR)이라 불린다.
이런 2-위상 근사화를 적용할 때, 상기된 시간 특징 그룹들의 변화들이 얻어진다. D&S-위상 및 R-위상에 관한 모든 특징들은 AR-위상의 대응 특징들과 교환된다. 본래 3-위상 근사화로부터 이들을 구별하기 위하여, 이들 그룹들은 별표(asterisk)로 표시된다: "그룹 1*", "그룹 2*" 등. 이들 새로운 그룹들에서 A-위상 관련 특징들이 이전과 같이 동일하고, 그러므로 이들이 다시 계산되지 않는 것을 주의한다.
게다가, 모든 다중 대역 특징들은 대역들의 3개의 상이한 번호들:4, 12 및 24에 대해 양쪽 근사화 방법들(그룹 3, 그룹 4 내지 9, 그룹들 4* 내지 9*)을 사용하여 계산되었다. 대역들의 수가 상기된 특징 그룹에 속하는 것을 가리키기 위하여, 각각의 그룹은 다음 방식으로 표시된다: 4개의 대역들에 대해 "그룹 X.1", 12개의 대역들에 대해 "그룹 X.2" 및 24개의 대역들에 대해 "그룹 X.3".
본 발명의 방법의 실시예에서, 2-단계 프로세스는 콘텐트 아이템의 장르 및/또는 무드를 결정하기 위하여 사용된다:
1. 오디오 스트림(도 2의 단계 21)으로부터 사운드 이벤트들 추출하고 적합하게 트레이닝된 분류기(도 2의 단계 23 및 25)를 사용하여 퍼커션을 추정.
2. 고려된 오디오 파일(도 2의 단계 27)에서 이들 퍼커션 추정시 제 2 특징들(예를 들면, 통계치들) 계산 및 오디오 파일(도 2의 단계 29)의 최종 분류를 위하여 제 2 특징들 사용.
예를 들면, 만약 하나의 오디오 스트림이 약 80% 퍼커시브 사운드들로 구성되고, 다른 하나가 약 30%의 퍼커시브 사운드들로 구성되면, 제 1 퍼커시브 사운드들은 아마도 라틴 음악이고 제 2 퍼커시브 사운드는 클래식 음악일 수 있다.
이런 2-단계 프로세스는 실제로 두 개의 분류 단계들로 구성된 일종의 계층적 분류 알고리즘이다: 퍼커션 예측 및 오디오 등급 예측. 물론 제 1 단계는 스킵되고 퍼커션 특징들은 오디오 등급을 위하여 직접 사용될 수 있다. 그러나 이것은 추출된 사운드 이벤트들의 퍼커션의 요약된 표현을 유도한다. 퍼커션이 오디오 분류를 위한 실체적 특징으로 의도되기 때문에, 대안적인 일 단계 분류 방법은 생략된다.
다음 테이블은 14개 퍼커션 예측기들, 즉 단일 추출된 사운드들의 퍼커션을 예측하는 분류기들을 리스트한다:
예측기 번호 퍼커션 등급 번호 특징 세트
1 3





그룹 1
2 그룹 2
3 그룹 4.3
4 그룹 5.3
5 그룹들 1&2
6 그룹들 4.3&5.3
7 그룹들 1,2,4.3&5.3
8 2





그룹 1
9 그룹 2
10 그룹 4.3
11 그룹 5.3
12 그룹들 1&2
13 그룹들 4.3&5.3
14 그룹들 1,2,4.3&5.3
14개의 예측기들은 미리 선택된 특징 세트들 및 두 개의 상이한 방식의 등급 라벨링들의 상이한 결합들을 사용한다. 오디오 파일당 퍼커션 예측들에 기초하여, 제 2 특징들은 최종 오디오 분류를 결정하기 위하여 계산될 필요가 있다. 도 2의 2-단계 프로세스는 다음 단계들에 의해 실행될 수 있다:
1. 오디오 파일의 대략 6초 길이 부분으로부터 사운드 이벤트들 추출.
2. 상기 예측기들을 사용하여 각각의 추출된 사운드의 퍼커션 예측.
3. 얼마나 자주 사운드들이 다른 등급의 퍼커션에 할당되는가를 오디오 파일당 백분율 계산. 예를 들면 50% 퍼커시브 및 비화성, 30% 퍼커시브 및 비-화성, 20% 논-퍼커시브).
4. 제 3 특징이 선택된 두 개의 선형 결합(특징1 + 특징2 + 특징3 = 1, 항상 유지)을 따르기 때문에 제 2 특징들로서 3개의 백분율 중 두 개를 사용.
실험들은 이들 제 2 특징들이 다음 방법들 중 하나가 사용되면 우수한 결과들을 가진 콘텐트 아이템의 장르를 결정하기 위하여 사용될 수 있다는 것을 도시한다:
1. 다른 것 중에서 하나의 음악 장르 검출.
이것은 하나의 음악 장르의 오디오 파일들이 등급 1에 할당되고, 나머지 13개의 장르들의 오디오 파일들이 등급 2에 할당되는 것을 의미한다. 이것은 이들 실험들에서 고려된 모두 14개의 장르들에서 반복될 수 있다.
2. 두 개의 음악 장르들 사이의 구별.
이것은 두 개의 음악 장르들이 분류되고, 다른 오디오 파일들이 배제되는 것을 의미한다. 이것은 모든 음악 장르 결합들에 대해 반복될 수 있다.
다음 테이블은 다른 것들 중에서 하나의 음악 장르의 검출 정확성을 나타낸다:
음악 장르 가장 우수한 예측기 평균 성능
클래식 11 86.00±6.17%
재즈 11 68.86±8.28%
8 65.23±6.87%
컨츄리 3 63.24±13.83%
포크 13 65.75±10.32%
뉴 에이지 6 77.29±12.07%
엘렉트리카 13 70.73±8.69%
라틴 12 71.86±10.95%
R&B 6 74.44±7.94%
3 64.72±9.97%
7 77.76±8.85%
레게 3 79.81±9.78%
보컬 8 84.29±8.34%
이지 리스닝 8 74.18±13.48%
이 테이블은 클래식 및 보컬 음악이 85% 정확도로 검출되고, 뒤이어 거의 80%로 레게가 검출될 수 있는 것을 가리킨다. 대조하여 팝, 컨츄리, 포크 및 락 음악은 60% 내지 65%의 정확도가 상기 기회보다 약간 위이기 때문에 기술된 퍼커션 알고리즘으로 합리적으로 검출될 수 없다.
도 6은 판별 성능(discrimination performance)을 가진 행렬을 도시한다. 메인 대각선 아래 필드들에 도시된 수들은 각각의 등급 쌍의 평균 판별 정확도이고, 메인 대각선 위의 수들은 각각의 등급 쌍에 대한 가장 우수한 예측기를 나타낸다. 달성된 판별 정확도들은 매우 다르다. 몇몇 음악 장르 결합들에서 판별은 거의 가능하지 않다. 예를 들면 클래식과 뉴 에이지 또는 보컬, 랩과 일렉트로니카(electronica), 라틴 또는 R&B는 거의 식별되지 않는다. 그러나, 다른 등급 쌍들에 대해서는 매우 우수한 결과들이 달성되며(90% 내지 99%), 예를 들면 클래식 또는 뉴에이지와 랩, 레개, 또는 일렉트로니카(electronica)이다.
클래식 또는 보컬 같은 음악 장르들이 단지 몇몇 퍼커션 사운드들로 구성되기 때문에, 랩 또는 일렉트로니카와 같은 장르들은 매우 리듬성 있고(많은 퍼커시브 악기들), 검출 및 식별 결과들은 합리적이다. 결과적으로, 기술된 퍼커션 알고리즘은 적어도 몇몇 음악 장르들 사이에서 검출 및 차별화할 수 있다. 명료성 및 가시성을 유지하기 위하여, 각각의 경우 가장 우수하게 수행하는 예측기의 결과들만이 리스트되고/도시된다.
도 7을 참조하여, 본 발명의 전자 디바이스(51)는 전자 회로(53)를 포함한다. 전자 회로(53)는 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하고, 상기 데이터를 분석하여 다수의 사운드들 각각의 특징을 결정하고, 각각의 특성은 다수의 사운드들 중 하나의 진폭의 시간 양태를 나타내고, 및 다수의 결정된 특성들에 기초하여 콘텐트 아이템의 특성을 결정한다.
부가적으로 또는 선택적으로, 전자 회로(53)는 다수의 콘텐트 아이템들에서 콘텐트 아이템을 검색하도록 동작하고, 다수의 콘텐트 아이템들에서 각각의 콘텐트 아이템은 속성값과 연관되고 발견된 콘텐트 아이템은 원하는 속성값과 유사한 속성 값과 연관된다. 상기 각각의 콘텐트 아이템의 속성값은 상기 각각의 콘텐트 아이템의 특성이거나 상기 각각의 콘텐트 아이템의 특성에 기초한다. 상기 콘텐트 아이템의 특성은 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하고, 상기 데이터를 분석하여 다수의 사운드들 각각의 특성을 결정하고, 각각의 특성이 다수의 사운드들 중 하나의 진폭의 시간 양태를 나타내고, 결정된 특성들에 기초하여 콘텐트 아이템의 특성을 결정함으로써 결정된다.
비록 검색 질의를 수신한 후 다수의 콘텐트 아이템들을 분석하는 것이 가능하지만, 검색은 검색 질의가 수신되기 전에 특성 결정되는 것을 보장함으로써 보다 빨리 수행될 수 있다. 이것은 만약 검색이 개인 수집부에서 수행될 뿐 아니라, 만약 검색이 서비스 제공자(예를 들면, 온라인 저장소) 수집부에서 수행되면 편리하다. 사용자가 다수의 콘텐트 아이템들을 검색할 수 있게 하는 제 1 서비스 제공자는 콘텐트 아이템들의 특성을 결정하기 위하여 제 2 서비스 제공자(또는 콘텐트 제공자)를 요청할 수 있다.
전자 디바이스(51)는 서버 PC, 홈 PC, 미디어 서버, 오디오/비디오(예를 들면 하드 디스크 기반) 레코더 또는 휴대용 미디어 플레이어일 수 있다. 전자 회로(53)는 범용 처리기(예를 들면, 인텔 펜티엄 또는 AMD 애슬론) 또는 애플리케이션 특정 처리기(예를 들면, 필립스 넥스페리어 IC)일 수 있다. 전자 디바이스(51)는 저장 수단(55), 입력(57) 및 출력(59)을 더 포함할 수 있다. 저장 수단(55)은 예를 들면 휘발성 또는 비휘발성 RAM, 하드 디스크, 광학 디스크 및/또는 홀로그래픽 저장 매체를 포함할 수 있다. 특성이 결정된 콘텐트 아이템 및/또는 콘텐트 아이템의 결정된 특성 자체는 저장 수단(55) 상에 저장될 수 있다. 입력(57)은 오디오뿐 아니라 비디오를 수신하기 위하여 광학 또는 전자(디지털 또는 아날로그) 입력일 수 있다. 출력(59)은 오디오뿐 아니라 비디오를 전송하기 위한 광학 또는 전자(디지털 또는 아날로그) 출력일 수 있다. 출력(59)은 또한 선택된 콘텐트 아이템을 재생하기 위한 재생 수단일 수 있다. 입력(57) 및/또는 출력(59)은 홈 네트워크 및/또는 인터넷에 접속된 하나 이상의 네트워크 어댑터들을 포함할 수 있다. 예를 들면, 서버 PC의 출력(59)은 소비자 전자 디바이스, 예를 들면 홈 PC의 입력(57)에 노래(예를 들면, MP3 파일)를 전달하기 위하여 사용될 수 있다.
본 발명이 바람직한 실시예와 관련하여 기술되었지만, 상기된 원리들 내의 변형들이 당업자에게 명백하고, 따라서 본 발명이 바람직한 실시예들로 제한되는 것이 아니고 상기 변형들을 포함하는 것이 의도된다는 것이 이해될 것이다. 본 발명은 각각 및 모든 신규의 특징적인 특성 및 각각 및 모든 특징적인 특성들의 결합이 있다. 청구항들에서 참조 번호들은 보호 범위를 제한하지 않는다. 동사 "포함하는 것" 및 그의 어형 변화의 사용은 청구항들에 언급된 것과 다른 요소들의 존재를 배제하지 않는다. 요소에 선행하는 단수 조사의 사용은 다수의 상기 요소들의 존재를 배제하지 않는다.
당업자에게 명백한 '수단'은 동작을 수행하거나 특정 기능을 수행하기 위하여 설계되고, 유일하게 또는 다른 기능들과 결합하고, 독립적으로 또는 다른 요소들과 협동하는 임의의 하드웨어(독립된 또는 집적된 회로들 또는 전자 요소들 같은) 또는 소프트웨어(프로그램들 또는 프로그램들의 일부 같은)를 포함하는 것으로 의미된다. 본 발명은 몇몇 별개의 요소들을 포함하는 하드웨어, 및 적당하게 프로그램된 컴퓨터에 의해 실행될 수 있다. '소프트웨어'는 플로피 디스크 같은 컴퓨터 판독 가능 매체에 저장되고, 인터넷 같은 네트워크를 통하여 다운로드할 수 있고, 또는 임의의 다른 방식으로 판매되는 임의의 소프트웨어 제품을 의미하는 것으로 이해된다.

Claims (11)

  1. 콘텐트 아이템의 퍼커션 측정치(percussiveness measure)를 결정하는 방법에 있어서,
    상기 콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하는 단계(1);
    상기 데이터를 분석함으로써 상기 다수의 사운드들 각각의 특성을 결정하는 단계(3)로서, 각각의 특성은 상기 다수의 사운드들 중 하나의 시간 엔벨로프의 양태를 나타내는, 상기 결정 단계(3);
    상기 다수의 결정된 특성들에 기초하여 상기 콘텐트 아이템의 퍼커션 측정치를 결정하는 단계(5)로서, 상기 퍼커션 측정치는 시간 도메인에서 상기 다수의 사운들의 시간 엔벨로프의 파라미터적 디스크립션(parametric description)에 기초하는, 상기 결정 단계(5); 및
    상기 콘텐트 아이템의 퍼커션 측정치에 기초하여 상기 콘텐트 아이템의 장르 및/또는 무드를 결정하는 단계(7)를 포함하고,
    상기 콘텐트 아이템의 퍼커션 측정치를 결정하는 상기 결정 단계(5)는 상기 콘텐트 아이템의 제 1 퍼커션 특징 및 제 2 퍼커션 특징을 결정하는 단계를 포함하고,
    상기 콘텐트 아이템의 장르 및/또는 무드를 결정하는 상기 결정 단계(7)는 상기 제 1 퍼커션 특징과 제 1 장르 또는 무드의 특성을 비교하고, 상기 제 2 퍼커션 특징과 제 2 장르 또는 무드의 특성을 비교하는 단계를 포함하는, 퍼커션 측정치 결정 방법.
  2. 제 1 항에 있어서,
    상기 콘텐트 아이템의 퍼커션 측정치를 결정하는 단계(5)는 퍼커션의 백분율을 결정하는 단계를 포함하는, 퍼커션 측정치 결정 방법.
  3. 제 1 항에 있어서,
    상기 다수의 사운드들 각각의 특성을 결정하는 단계(3)는 상기 다수의 사운드들 각각의 어택 위상(A)의 특성 및 상기 다수의 사운드들 각각의 감쇠 및 유지 혹은 보수(D&S, R)의 특성을 결정하는 단계를 포함하는, 퍼커션 측정치 결정 방법.
  4. 다수의 콘텐트 아이템들에서 하나의 콘텐트 아이템을 검색하는 방법에 있어서,
    상기 다수의 콘텐트 아이템들에서 각각의 콘텐트 아이템은 속성값과 연관되고, 발견된 콘텐트 아이템은 원하는 속성값에 대응하는 속성값과 연관되고, 상기 각각의 콘텐트 아이템의 속성값은 상기 각각의 콘텐트 아이템의 장르 및/또는 무드이거나 상기 각각의 콘텐트 아이템의 장르 및/또는 무드에 기초하고,
    상기 각각의 콘텐트 아이템의 상기 장르 및/또는 무드는 제 1항의 방법에 의해서 결정되는, 콘텐트 아이템 검색 방법.
  5. 프로그램 가능한 디바이스가 제 1 항 또는 제 4 항의 방법을 수행하도록 동작하게 하기 위한 소프트웨어를 기록한 컴퓨터 판독가능한 기록 매체.
  6. 전자 회로(53)를 포함하는 전자 디바이스(51)에 있어서,
    상기 전자 회로(53)는:
    콘텐트 아이템으로부터 다수의 사운드들을 나타내는 데이터를 선택하고;
    상기 데이터를 분석함으로써 상기 다수의 사운드들 각각의 특성을 결정하고, 각각의 특성은 상기 다수의 사운드들 중 하나의 시간 엔벨로프의 양태를 나타내고;
    상기 다수의 결정된 특성들에 기초하여 상기 콘텐트 아이템의 퍼커션 측정치를 결정하고, 상기 퍼커션 측정치는 시간 도메인에서 상기 다수의 사운드들의 시간 엔벨로프의 파라미터적 디스크립션에 기초하고;
    상기 콘텐트 아이템의 퍼커션 측정치에 기초하여 상기 콘텐트 아이템의 장르 및/또는 무드를 결정하도록 동작하며,
    상기 콘텐트 아이템의 퍼커션 측정치를 결정하는 것은 상기 콘텐트 아이템의 제 1 퍼커션 특징 및 제 2 퍼커션 특징을 결정하는 것을 포함하고,
    상기 콘텐트 아이템의 장르 및/또는 무드를 결정하는 것은 상기 제 1 퍼커션 특징과 제 1 장르 또는 무드의 특성을 비교하고, 상기 제 2 퍼커션 특징과 제 2 장르 또는 무드의 특성을 비교하는 것을 포함하는, 전자 디바이스(51).
  7. 제 6 항에 있어서,
    상기 전자 회로(53)는 또한,
    다수의 콘텐트 아이템들에서 하나의 콘텐트 아이템을 검색하도록 동작하고, 상기 다수의 콘텐트 아이템들에서 각각의 콘텐트 아이템은 속성값과 연관되고, 발견된 콘텐트 아이템은 원하는 속성값에 대응하는 속성값과 연관되고, 상기 각각의 콘텐트 아이템의 속성값은 상기 각각의 콘텐트 아이템의 장르 및/또는 무드이거나 상기 각각의 콘텐트 아이템의 장르 및/또는 무드에 기초하는, 전자 디바이스(51).
  8. 제 6 항 또는 제 7 항의 전자 회로(53).
  9. 삭제
  10. 삭제
  11. 삭제
KR1020077030947A 2005-06-01 2006-05-30 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스 KR101249024B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05104740.5 2005-06-01
EP05104740 2005-06-01
PCT/IB2006/051719 WO2006129274A1 (en) 2005-06-01 2006-05-30 Method and electronic device for determining a characteristic of a content item

Publications (2)

Publication Number Publication Date
KR20080019031A KR20080019031A (ko) 2008-02-29
KR101249024B1 true KR101249024B1 (ko) 2013-03-29

Family

ID=36930199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077030947A KR101249024B1 (ko) 2005-06-01 2006-05-30 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스

Country Status (7)

Country Link
US (1) US7718881B2 (ko)
EP (1) EP1891548B1 (ko)
JP (1) JP5112300B2 (ko)
KR (1) KR101249024B1 (ko)
CN (1) CN101189610B (ko)
RU (1) RU2419859C2 (ko)
WO (1) WO2006129274A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
EP2031581A1 (de) * 2007-08-31 2009-03-04 Deutsche Thomson OHG Verfahren zum Erkennen eines akustischen Ereignisses in einem Audio-Signal
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
CN107426579B (zh) * 2011-06-24 2020-03-10 Lg 电子株式会社 图像信息编码和解码方法
GB201119206D0 (en) 2011-11-07 2011-12-21 Canon Kk Method and device for providing compensation offsets for a set of reconstructed samples of an image
CN102930865B (zh) * 2012-09-21 2014-04-09 重庆大学 一种波形音乐粗情感软切割分类方法
US9123353B2 (en) * 2012-12-21 2015-09-01 Harman International Industries, Inc. Dynamically adapted pitch correction based on audio input
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
US9671862B2 (en) * 2014-10-15 2017-06-06 Wipro Limited System and method for recommending content to a user based on user's interest
WO2016102737A1 (en) * 2014-12-22 2016-06-30 Nokia Technologies Oy Tagging audio data
CN108648767B (zh) * 2018-04-08 2021-11-05 中国传媒大学 一种流行歌曲情感综合与分类方法
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6201176B1 (en) 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US7022905B1 (en) * 1999-10-18 2006-04-04 Microsoft Corporation Classification of information and use of classifications in searching and retrieval of information
EP1143409B1 (en) * 2000-04-06 2008-12-17 Sony France S.A. Rhythm feature extractor
US7075000B2 (en) * 2000-06-29 2006-07-11 Musicgenome.Com Inc. System and method for prediction of musical preferences
US6545209B1 (en) * 2000-07-05 2003-04-08 Microsoft Corporation Music content characteristic identification and matching
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
EP1244033A3 (en) * 2001-03-21 2004-09-01 Matsushita Electric Industrial Co., Ltd. Play list generation device, audio information provision device, system, method, program and recording medium
US6993532B1 (en) * 2001-05-30 2006-01-31 Microsoft Corporation Auto playlist generator
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US6426456B1 (en) * 2001-10-26 2002-07-30 Motorola, Inc. Method and apparatus for generating percussive sounds in embedded devices
US6987221B2 (en) * 2002-05-30 2006-01-17 Microsoft Corporation Auto playlist generation with multiple seed songs
EP1378912A3 (en) * 2002-07-02 2005-10-05 Matsushita Electric Industrial Co., Ltd. Music search system
GB0229940D0 (en) * 2002-12-20 2003-01-29 Koninkl Philips Electronics Nv Audio signal analysing method and apparatus
DE10313875B3 (de) 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7227072B1 (en) * 2003-05-16 2007-06-05 Microsoft Corporation System and method for determining the similarity of musical recordings
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
US7193148B2 (en) * 2004-10-08 2007-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded rhythmic pattern
US20060254409A1 (en) * 2005-05-11 2006-11-16 Withop Ryan L Sorting media files using dynamic passive recognition techniques
US7672916B2 (en) * 2005-08-16 2010-03-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for music classification
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
US7888582B2 (en) * 2007-02-08 2011-02-15 Kaleidescape, Inc. Sound sequences with transitions and playlists

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
JP2003140647A (ja) 2001-08-17 2003-05-16 Hewlett Packard Co <Hp> 複数の音を含む楽曲を分類する方法

Also Published As

Publication number Publication date
WO2006129274A1 (en) 2006-12-07
RU2007144711A (ru) 2009-06-10
EP1891548B1 (en) 2017-04-26
EP1891548A1 (en) 2008-02-27
JP2008542835A (ja) 2008-11-27
CN101189610B (zh) 2011-12-14
RU2419859C2 (ru) 2011-05-27
JP5112300B2 (ja) 2013-01-09
CN101189610A (zh) 2008-05-28
KR20080019031A (ko) 2008-02-29
US20080202320A1 (en) 2008-08-28
US7718881B2 (en) 2010-05-18

Similar Documents

Publication Publication Date Title
KR101249024B1 (ko) 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스
KR100717387B1 (ko) 유사곡 검색 방법 및 그 장치
JP3433818B2 (ja) 楽曲検索装置
US20080300702A1 (en) Music similarity systems and methods using descriptors
Yoshii et al. Automatic Drum Sound Description for Real-World Music Using Template Adaptation and Matching Methods.
EP1579419B1 (en) Audio signal analysing method and apparatus
JP2006106754A (ja) メタデータマッピング音再生装置及びこれに使用可能なオーディオサンプリング/サンプル処理システム
JP2004530153A (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
WO2017058365A1 (en) Automatic music recording and authoring tool
Eggink et al. Instrument recognition in accompanied sonatas and concertos
Zhu et al. Music key detection for musical audio
WO2009104269A1 (ja) 楽曲判別装置、楽曲判別方法、楽曲判別プログラム及び記録媒体
Niyazov et al. Content-based music recommendation system
US20040255758A1 (en) Method and device for generating an identifier for an audio signal, method and device for building an instrument database and method and device for determining the type of an instrument
Marolt On finding melodic lines in audio recordings
US20040158437A1 (en) Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal
Skowronek et al. Features for audio classification: Percussiveness of sounds
Cremer A system for harmonic analysis of polyphonic music
Rodríguez et al. Automatic transcription of Flamenco guitar falsetas
Eley et al. A custom feature set for analyzing historically informed baroque performances
Wegener et al. On the robustness of audio features for musical instrument classification
Yoshii et al. Drum sound identification for polyphonic music using template adaptation and matching methods
Wieczorkowska et al. Quality of musical instrument sound identification for various levels of accompanying sounds
Bodo Music similarity models applied to cover song identification and classification
Wieczorkowska et al. Training of classifiers for the recognition of musical instrument dominating in the same-pitch mix

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160317

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180323

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190322

Year of fee payment: 7