KR20070004891A

KR20070004891A - 오디오 신호의 분류를 위한 방법 빛 시스템

Info

Publication number: KR20070004891A
Application number: KR1020067022133A
Authority: KR
Inventors: 디르크 브리바르트; 마틴 맥킨니
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-04-29
Filing date: 2005-04-21
Publication date: 2007-01-09
Also published as: DE602005008041D1; JP2007534995A; CN1998044A; WO2005106844A1; US20080243512A1; TW200606816A; CN1998044B; EP1745463B1; ATE400870T1; EP1745463A1

Abstract

본 발명은 오디오 입력 신호(1)를 분류하는 방법으로서, 상기 방법은 오디오 입력 신호(1)의 다수의 특성(2)을 추출하는 단계, 이들 특성(2)에 기초하여 오디오 입력 신호(1)에 대한 특성 벡터(3)를 유도하는 단계 및 각각 특정 배포-일자 정보에 대응하는 오디오 입력 신호(1)에 대한 특성 벡터(3)가 다수의 등급(C1,C2,..,Cn) 중 어느 것에 해당하는 가능성을 결정하는 단계를 포함한다.

Description

오디오 신호의 분류를 위한 방법 빛 시스템{METHOD OF AND SYSTEM FOR CLASSIFICATION OF AN AUDIO SIGNAL}

본 발명은 일반적으로 오디오 입력 신호, 특히 음악 트랙을 식별하기 위한 시스템 및 방법에 관한 것이며, 오디오 입력 신호, 특히 음악 트랙을 분류하기 위한 오디오 처리 디바이스에 관한 것이다.

방송 기술, 전송 대역 및 인터넷의 발전의 결과, 그리고 소비자 저장 디바이스의 계속 증가하는 용량으로 인해, 소비자들은 이제 급격히 증가하는 양의 멀티미디어 컨텐츠에 대해 액세스한다. 10,000곡 이상의 음악 모음집도 예외는 아니다. 이러한 증가와 함께 컨텐츠의 자동 필터링, 처리 및 저장에 대한 필요성이 대두된다. 이러한 큰 음악 데이터베이스로부터의 음악의 정리 및 선택은 어렵고 시간-소비적이다. 문제는 메타데이터의 포함에 의해 부분적으로 다루어질 수 있으며, 이는 실제 오디오 데이터 파일에 일정한 방법으로 부착된 추가적 정보 태그로 이해될 수 있다. 메타데이터는 가끔 서비스 제공자에 의해 오직 이들 서비스의 이용에 제공되며, 소비자는 검색된 데이터에 대해 고객에게 또한 대부분 비용을 부과하게될 서비스 제공자로의 온-라인 접속을 종종 요구한다. 그러므로, 외부 서비스 제공자로부터의 메타데이터의 검색은 항상 소비자에게 매력적인 것은 아닐 수 있다.

오디오의 자동 분류에 대한 현재 기술은 일반적으로 분석이 기초될 수 있는 오디오로부터 추출된 관련 특성에 의존한다. 예를 들어, WO01/20483 A2는 음악의 첫 곡과 유사한 음악의 두 번째 곡에 대한 데이터베이스의 검색 방법을 기술한다. 여기에서, 데이터베이스는 노래의 모음집으로 구성되며, 각각은 노래는 파라미터의 형태로 일종의 메타데이터와 연관된다. 파라미터는 음악의 첫 곡 내에 식별되며 데이터베이스 내의 파라미터의 매칭 세트의 위치를 알기 위해 분석된다. 이 방법은 첫 번째 노래와 유사한 두 번째 노래의 위치를 알아내기 위해 한정되며, 그러므로 모두 같은 노래를 듣고 싶지 않은 사용자에게는 매우 제한된 관심이 될 수 있다.

최근 연구에 따르면 사람들의 음악 선호도는 이들이 10 내지 20세 사이일 때 인기가 있었던 음악과 일치한다는 것을 보여준다. 이는, 많은 사람들이 특정 년대(예, 80년대)로부터의 음악에 대해 선호한다는 것을 의미한다. 특정 시대의 노래, 또는 이 시대의 것으로 유래하는 것처럼 들리는 노래를 찾는 것은 어렵다. 노래의 배포 일자(release date)를 나타내는 메타데이터는 모음집의 모든 노래에 대해 항상 이용가능한 것은 아닌데, 이는 메타데이터의 사용이 비교적 최근의 개발이며, 더 오래된 모음집은 이를 이용하지 않기 때문이다.

그러므로, 본 발명의 목적은 메타데이터를 사용하지 않고 오디오 구간의 배포 일자를 쉽게 식별하는데 사용될 수 있는 방법 및 시스템을 제공하는 것이다.

이를 위해, 본 발명은 이러한 배포 일자에 따른 오디오 입력 신호를 분류하는 방법을 제공하며, 이 방법은 다음의 단계, 즉, 오디오 입력 신호의 적어도 한 특성을 추출하는 단계, 적어도 하나의 특성에 기초하여 입력 오디오 신호에 대한 특성 벡터를 유도하는 단계 및 입력 오디오 신호에 대한 특성 벡터가, 각각이 특정 배포-일자 정보에 해당하는, 다수의 등급 중 어느 것에 해당하는 가능성을 결정하는 단계를 포함한다. 여기에서, "오디오 입력 신호"는 오디오 데이터 파일, 음악 트랙, 사운드트랙, MP3 음악 파일 등에서 유래할 수 있는 신호이다. 오디오 입력 신호는 예컨대 마이크로폰으로부터 아날로그 신호가 될 수 있으며, 이는 또한 반드시 그런 것은 아니지만, 추가적 디지털 신호 처리를 위해 디지털 형태로 전환되는 것이 바람직하다. 오디오 신호의 짧은 인용(excerpt)은 본 발명에 따른 방법을 사용하여 그 배포 일자의 평가를 위해 충분하다.

전술한 방법에 따른 오디오 입력 신호의 배포 일자를 분류하는 적절한 시스템은 다음의 수단, 즉, 오디오 입력 신호의 적어도 하나의 특성을 추출하기 위한 특성 추출 유닛, 적어도 하나의 특성에 기초한 입력 오디오 신호에 대한 특성 벡터를 유도하는 유도 유닛 및 입력 오디오 신호에 대한 특성 벡터가 각각이 특정 배포-일자 정보에 대응하는, 다수의 등급 중 어느 것에 해당하는 가능성을 결정하는 가능성 결정 유닛을 포함한다.

따라서 상기 방법 및 시스템은 오디오 입력 신호의 배포-일자를 자동적으로 평가하는 쉬운 방법을 제공한다. 이에 따라, 배포 일자(release date)라는 말은 특정 달력 연도를 나타내기 위한 것일 수도 있지만, 또한 "70년대 초", 또는 "1998년 즈음"과 같은 시간, 또는 특정 일자와 같은 임의의 다른 시점기간을 나타내기 위한 것일 수 있다. 예컨대, 배포 일자는 배포 년도일 수 있으며, 이는 부정확한 기간을 한정하는, 시간 기간이 선행되고 후속될 수 있는 년도로 한정되며, 이 기간 내에 오디오 신호는 배포되었을 가능성이 가장 크다. 특정 오디오 신호에 대한 식별된 배포 기간의 범위를 지정하는 시간-범위의 전체 길이는 오디오 신호의 일자가 지정될 수 있는 정확성의 정도로서 해석될 수 있다. 따라서, 식별된 년도의 범위를 지정하는 비교적 짧은 시간-범위는 대응하는 오디오 신호가 식별된 배포 기간으로부터 유래하도록 확실하게 가장될 수 있음을 나타내는 반면, 장기 시간-범위는 오디오 신호의 기원의 제안된 일자에 관한 불확실성의 정도를 허용할 것이다.

본 발명의 적절한 적용을 통해, 실제 배포-일자와 인식된 배포-일자 간의 구별이 또한 만들어질 수 있다. 실제 배포-일자는 실제로 특정 곡이 배포된 년도인 반면, 인지된 배포-일자는 대부분의 청취자들이 노래를 연관시키는 년도이다. 실제 배포-일자 정보는 커버 버전과 오리지널 모두에 대해 다르며, 추출된 특성에 기초하여 정확히 평가될 수 있다. 커버 버전이 장르 특성, 스타일 등이 오리지널과 상당히 다르지 않지만, 상당히 나중에 배포된, 오리지널과 매우 유사한 커버 버전의 경우, 커버 버전은 원하는 경우, 인지된 배포-일자로 분류될 수 있다.

종속 청구항과 이후 설명은 특히 본 발명의 유리한 실시예와 특성을 개시한다.

"특성"은 신호 대역폭, 신호 에너지, 스펙트럼 롤-오프(roll-off) 주파수, 스펙트럼 중심 등과 같은, 오디오 입력 신호의 설명 특성이다. 특성을 추출하기 전에, 오디오 신호는 대개 디지털 형태로 변환된다. 이후, 특성은 예를 들어 오디오 샘플의 중복 프레임으로부터 계산될 수 있다. 전력 스펙트럼의 계산, 전력 스펙트럼의 표준화 및 다수의 분리 에너지 대역에 대한 에너지 계산과 같은 추가적 처리는 다수의 추가적 특성을 제공하기 위해 추출된 특성 상에서 수행된다. 마지막으로, 특정의 전체 집합 중에서, 특성의 선정물은 오디오 입력 신호에 대한 특성 벡터를 제공하기 위해 종합된다.

입력 오디오 신호에 대해 이렇게 유도된 특성 벡터는 이후 오디오 신호를 분류하는데 사용될 수 있다. 이러한 목적을 위해, 분석은 각각이 특정 배포-일자 정보에 해당하는 다수의 가능한 등급 중 어느 하나에 해당하는 가능성을 결정하기 위해 특성 벡터에 대해 수행된다. 등급들은, 각 지점이 특성 벡터에 의해 표시된, 지점의 군에 의해 그래프로 표현될 수 있다. 군들은 n-차원 특성 공간으로 배열되는 것으로 이해될 수 있으며, 이 때 n은 각 특성 벡터를 계산하는데 사용된 특성의 수에 대응한다. 각 군은 특정 배포-일자에 대해 오디오 신호의 분류를 나타내는 오디오 신호 집합으로부터 오디오 신호에 대해 이전에 계산된 특성 벡터에 기초하여 형성된다. 분류의 높은 성공률을 보장하기 위해, 오디오 신호 집합은 모든 원하는 배포-일자 등급에 대해 분포된 충분히 많은 수의 오디오 신호를 포함하는 것이 바람직하다.

본 발명의 바람직한 실시예에서, 특정 배포-일자 정보를 나타내는 등급(또는 대응하는 군)은 이러한 배포-일자 정보와 연관된 이전에 계산된 특성 벡터의 집합으로부터 유도된 모델에 의해 설명될 수 있다. 이러한 모델은 예를 들어, 고유 평균 벡터와 고유 공분산(covariance) 행렬을 가진 각 등급을 구비한 가우스 다변수 모델일 수 있다. 최고의 가능한 분류 결과를 보장하기 위해, 모델 공간의 차원은 가능한 낮게 유지되는 한편, 최종 모델의 등급과 군 사이의 가장 가능한 식별을 제공하는 특성을 선택한다. 특성 등급화와 차원 감소의 알려진 방법은 사용할 특성의 최적 집합을 얻기 위해 적용될 수 있다. 이러한 특성 집합은 오디오 신호의 집합에 기초한 등급 모델을 제작하고, 나중에 모델을 사용하여 분류될 입력 오디오 신호에 대한 특성 벡터를 계산하기 위해 사용된다.

다수의 알려진 방법들은 특정 등급 내에 해당하는 오디오 입력 신호의 특성 벡터의 가능성(probability)을 계산하고, 즉, 특성 벡터를 분류하는데 이용가능하다.

본 발명에 바람직한 실시예에서, 판별 분석 방법이 적용된다. 이러한 분석의 방법을 이용하여, 특성 벡터는, 예를 들어, 특정 등급이 이 특성 벡터를 포함하는 가능성을 결정하기 위해 Bayes 규칙을 사용하여 그리고 각 등급에 대한 평균값 및 공분산 행렬에 기초하여, 각 등급에 대해 이전에 계산되어 왔던 가능성 밀도를 적용하여, 분류할 수 있다. 공분산 행렬이 등급에 대해 다른 경우, 판별 함수는 2차식이며, 따라서 결과 경계는 특성 공간 내의 2차식 표면을 형성한다. 이 방법은 이러한 경우 2차식 판별 분석이라고 한다. 공분산 행렬이 등급에 대해 일정한 경우, 결정 경계는 특성 공간 내의 선형 표면을 형성하며, 분석 방법은 선형 판별 분석이라고 알려져 있다.

이들 분석 방법을 사용하여, 특성 공간 내의 특성 벡터의 위치는 "지역화"될 수 있으며, 따라서 가장 밀접하게 연관되는 등급이 결정될 수 있다. 특성 벡터가 특정 배포-일자와 연관된 특정 등급의 중심을 향해 명확히 위치하는 경우, 연관된 오디오 입력 신호는 "1970"과 같이, 대응하는 일자에 배포되었던 것으로 가정될 수 있다. 그러나, 특성 벡터가, 더욱 군의 에지 또는 경계를 향해 위치한 경우, 부정확성은 배포-일자의 범위를 한정짓는 시간-범위에 반영된다. 예를 들어, 오디오 입력 신호에 대한 배포-일자 또는 배포-년도, 각각은 "1970±2"로 기록될 수 있다.

특성의 선택은 분류 방법의 성공에 상당한 영향을 미칠 수 있다. 그러므로, 본 발명의 특정한 바람직한 실시예에서, 오디오 입력 신호를 분류하는데 사용된 특성 벡터는 오디오 입력 신호의 청각 필터 시간 엔블로프 변조 특성 및/또는 정신-음향 특성을 포함한다.

청각 필터 시간 엔블로프(AFTE) 변조 특성은 감마톤 필터로 알려진 특정 유형의 다수의 필터를 사용하여 입력 오디오 신호를 필터링함으로써 얻어지며, 필터의 스펙트럼 형태는 인간의 청각 기관의 주파수 감도한계(resolution)와 유사하다. 추가적인 처리는 AFTE 특성의 세트를 제공하기 위해 필터링된 신호 상에서 수행된다. AEFE 특성 집합의 강력한 속성은 분류를 위해 관련 정보를 포함하는 파형 주파수 스펙트럼 및 엔블로프 주파수 스펙트럼의 해당 부분의 식별을 허용한다는 점이다. 분류를 위한 표준 가우스 프레임워크를 사용하여, 특성의 시간 행동은 자동 오디오 분류에 중요하다는 결과를 보여준다. 더욱이, 표준 특성보다는 청각 인지의 모델로부터의 특성에 근거한다면, 분류가 평균적으로 더 낫다.

정신-음향 특성은 거침(roughness), 날카로움(sharpness), 시끄러움(loudness) 등의 인지에 기초한다. 거침은 대략 20-150Hz의 범위에서 시간 엔블로프 변조의 인지이며 대략 70Hz의 변조에 대한 그 최대값을 나타낸다. 시끄러움은 세기의 지각이며 날카로움은 고주파수 에너지의 스펙트럼 밀도와 상대적 강도에 관한 인지이다. 이들 특성들은 특히 배포 년도 분류에 유용할 수 있는데, 이는 음악 제작의 일부 품질들이 레코딩 및 믹싱 장비의 발달에 대응하여 수년에 걸쳐 변화하며, 이들 품질은 부분적으로 정신-음향 특성에 의해 반영된 것으로 보이기 때문이다. 예컨대, 음악의 시끄러움은 수년에 걸쳐 꾸준히 증가해왔으며, 따라서 시끄러움은 음악 작품의 저장 일자에 양호한 효과를 줄 수 있다.

이로써 본 명세서에 기술된 시스템은 실제 그리고 인지된 배포-일자 분류에 사용될 수 있다. 이미 언급한 것처럼, 음악 작품은 상당히 나중에 생성되고 배포되었다고 해도, 특정 시간의 일자로 인지될 수 있다. 실제 배포-일자는 전술한 방법을 사용하여 식별될 수 있다.

바람직하게, 시끄러움 등과 같은 특성의 일부를 반복적으로 조정하고 분류 프로세스를 수행함으로써, 인지된 배포-일자는 또한 쉽게 식별될 수 있다. 조정은 특성 또는 일부 유사한 절차에 대한 가중 계수를 적응시키는 단계를 포함할 수 있다. 예컨대, 아바 수(Abba number)의 커버 버전, 또는 90년대에 배포되었다고 해도, 아바 스타일을 복제하고자 의도된 음악 작품은 시끄러움 등으로부터 유도된 특성들이 70년대를 대표하는 레벨을 반영하도록 조정된 경우 70년대 후반으로 여전히 올바르게 식별될 수 있다. 반면, 본 발명은 상당히 나중 시점에 배포되었다고 해도, 과거의 장르의 전형적인 특성을 보이는 음악 작품의 정확한 배포-일자를 인식할 수 있다.

본 발명은 다양한 오디오 처리 애플리케이션에 대해 유용할 수 있다. 예를 들어, 바람직한 실시예에서, 전술한 것과 같은 오디오 입력 신호의 배포 년도를 추정하는 분류 시스템은 배포 일자의 특정 년도에 따라 오디오 샘플을 선택하기 위한 오디오 처리 디바이스에 결합될 수 있다. 오디오 처리 디바이스는 배포-일자에 기초하여 데이터베이스로부터 하나 이상의 음악 데이터 파일을 선택하기 위한 음악 조회 시스템을 포함할 수 있다. 오디오 처리 디바이스는 배포-일자를 평가하기 전에 음악 데이터 파일로부터 추출된 오디오 신호의 특성에 대해 임의의 처리 단계가 수행되도록 결정하기 위해 사용자 입력을 해석할 수 있다. 예컨대, 디바이스의 사용자는 음악 작품이 그들의 실제 배포-일자를 기초로 선택되는지 여부 또는 그들이 인지된 배포-일자에 기초하여 선택되어야 하는지 여부를 지정하는 파라미터를 입력할 수 있다. 이렇게 하여, 사용자는 특정 년대 또는 시간-범위로부터의 하나 이상의 장르 중에서, 음악의 모음집을 쉽게 종합할 수 있거나, 실제 배포 년도와 무관하게, 60년대 풍을 락-앤-롤과 같은 특정 유형의 음악을 지정하는 것을 선호할 수 있다. 일단, 특정 음악 작품에 대해 평가되면, 오디오 처리 디바이스는 나중에 사용하기 위해 로컬 또는 외부 데이터베이스 내에 실제 및/또는 인지된 배포-일자 정보를 저장할 수 있다.

오디오 처리 디바이스의 다른 실시예는 원하는 시퀀스에 따라 음악 데이터베이스로부터 음악 작품을 선택하기 위한 자동 DJ 장치를 포함한다. 이러한 자동 DJ 장치는 레코드 스튜디오, 라디오 또는 TV 방송국, 디스코테크 등에서의 전문 디바이스일 수 있거나, PC, 홈 엔터테인먼트 디바이스, PDA, 휴대폰 등에 결합될 수 있다. 자동 DJ 장치는 선정된 음악 작품을 재생하기 위한 오디오 출력을 포함할 수 있거나, 분리된 음악 재생 수단에 연결될 수 있다. 인터넷에서와 같은, 원격 음악 데이터베이스, 또는 홈 엔터테인먼트 디바이스 상의 MP3 파일의 목록과 같은, 로컬 음악 데이터베이스에 연결되는 수단을 구성할 수 있다. 사용자는, 예컨대, 70년대 풍의 디스코와 같은 다른 장르가 후속되는, 60년대 풍의 락-앤-롤을 지정할 수 있다. 자동 DJ 장치는 지정된 장르의 음악에 대한 실제 및 인지된 배포-일자 정보에 대한 음악 데이터베이스를 검색하며 원하는 순서로 음악 작품의 목록을 컴파일한다.

본 발명에 따른 분류 시스템은 컴퓨터 프로그램으로서 상당히 경제적으로 실현될 수 있다. 필터-뱅크, 공진기 필터-뱅크, 에너지 합산 유닛, 랭킹 유닛, 템포 구조 컴파일기 등과 같은 음악 입력 신호에 대한 모호성의 정도를 결정하기 위한 모든 구성 요소는, 컴퓨터 프로그램 모듈의 형태로 실현될 수 있다. 임의의 필요한 소프트웨어 또는 알고리즘은 하드웨어 디바이스의 프로세서 상에 인코딩될 수 있어서, 기존의 하드웨어 디바이스는 본 발명의 특성의 혜택을 받도록 적응될 수 있다. 대안적으로, 음악 입력 신호에 대한 모호성의 정도를 결정하기 위한 구성요소는 적어도 부분적으로 하드웨어 모듈을 사용하여 동등하게 실현될 수 있으며, 따라서 본 발명은 디지털 및/또는 아날로그 음악 입력 신호에 적용될 수 있다.

본 발명의 일 실시예에서, 음악 데이터베이스는 설명된 방법을 사용하여 이전에 컴파일된 관련 배포-일자 정보의 목록과 분리된 저장 디바이스 내에 있을 수 있거나, 이들은 모두, 예를 들어, PC, CD 또는 DVD 등과 같은 동일한 디바이스에 저장될 수 있다. 음악 데이터베이스는 한 장소에 저장될 수 있거나 예를 들어 음악 CD의 모음집과 같은, 여러 디바이스에 분포될 수 있다. 본 발명의 바람직한 실시예에서, 음악 데이터베이스와 음악 데이터베이스의 요소에 대한 배포-일자 정보는 최소의 노력이 특정 음악 작품에 대한 배포 일자 정보를 우선 검색하는데 요구되는 방식으로 저장된다.

본 발명의 다른 목적과 특성은 첨부한 도면과 연관하여 고려된 다음의 상세한 설명으로부터 명백해질 것이다. 그러나, 도면들은 오직 설명을 위해 설계되었으며 본 발명의 제한을 정의하기 위한 것이 아님을 이해할 것이다.

도 1은 본 발명의 일 실시예에 따른 음악 작품의 배포 년도를 결정하기 위한 시스템의 개략적인 블록도.

도 2는 2차원 특성의 벡터 공간으로 다수의 등급을 그래프로 표시한 도면.

도 1에서, 오디오 입력 신호(1), 이 경우 음악 데이터 파일, 음악 트랙, MP3 등에서 유래한 디지털 음악 입력 신호(1)는 분류 시스템(4)으로 입력된다.

특성 추출 유닛(5)에서, 특성(2)은 오디오 입력 신호 샘플의 10개의 743ms 프레임으로부터 추출된다. 샘플들은 트랙 또는 음악 데이터 파일의 중간을 향한 위치에서 취해지는 것이 바람직한데, 이는 음악 트랙의 시작부와 종료부가 종종 주요부에 대해 다소 다르게 들릴 수 있기 때문이다.

다음의 유도 유닛(6)에서, 하나의 특성 벡터(3)는 입력 오디오 신호(1)의 10개의 프레임 각각의 특성(2)에 대해 계산된다.

각 특성 벡터(3)는 이후 가능성 결정 유닛(7)에서 분류 처리를 수행하며, 이 때 분석 단계는 특성 벡터(3)가 다수의 가능한 등급 중 하나의 특정한 등급에 해당하는 가능성을 결정하기 위해 행해진다.

그러므로, 분류 시스템(4)은 분류 프로세스에 필요한 정보를 포함하는 데이터베이스(9)에 대한 액세스를 갖는다. 데이터베이스(9)는 예를 들어, 2명의 청취자가 많은 노래들을 청취하도록 하고, 또 이들이 "1966-1970", "1970-1974" 등과 같이, 각각이 특정 배포-일자 정보에 대응하는, 미리 한정된 등급(C1,C2,...,Cn) 목록에 따라 독립적으로 이들을 분류하도록 하여 만들어지고 교육되어 왔다. 각 노래 또는 트랙은 그 등급(C1,C2,..,Cn)에 대해 이들이 얼마나 좋은 예인지에 관한 점수로 랭킹될 수 있다. 이들 노래로부터, 감소된 모음집이 식별되며, 이는 다음의 기준을 충족하는 모든 트랙들로 구성된다:

■ 이들 청취자에 의해 식별된 등급(C1,C2,..,Cn)은 트랙에 대해 동일하다;

■ 각 트랙의 등급 또는 점수는 소정의 최소값보다 크다;

■ 각 가수 또는 앨범의 트랙의 최대수는 2이다.

특성 벡터는 입력 신호의 특성 벡터의 계산과의 유사하게 감소된 모음집의 트랙 각각에 대해 계산된다. 청취자가 제공한 이들 특성 벡터와 분류 정보를 사용하여, 등급(C1,C2,..,Cn)을 나타내는 모델이 구성될 수 있다. 이 정보는 분류 과정에서 사용하기 위한 데이터베이스(9)에 저장된다. 데이터베이스를 교육(training)하기 위해 특성 벡터를 유도하는데 포함된 처리 단계는 분류를 위해 입력 오디오 신호(1)로부터 특성 벡터를 유도할 때 나중에 사용된 단계와 동일하다.

분류 프로세스를 완료한 후, 분류 시스템(4)은, 도면에 도시되지 않은, 디스플레이로 출력과 같은 적절한 방법으로 결과(8)를 기록한다. 출력은 "트랙 ABC: 배포 년도 1990±2"의 형태일 수 있으며, "ABC"로 표시된 트랙은 1990년에 배포되었을 수 있지만 2년의 불확실성 계수는 고려되어야 한다는 것을 표시한다.

도 2는 2차원 특성의 벡터 공간에서 군(cluster)으로 표시된 다수의 등급(C1,C2)의 그래프 표시를 도시한다. 일반적으로, 특성 벡터의 수와 벡터 공간의 차원(dimensionality)은 상당히 더 클 것이지만, 2차원 표시로 쉽게 도시되지 않을 것이다. 그러므로, 단순화를 위해, 그래프는 2개의 특성(f1 및 f2)으로 구성된 2차원 특성 공간으로 제한되어 있다.

설명을 위해, 분류 시스템(4)은 2개의 음악 트랙 "X"와 "Y"로 분류하는데 사용되고 있다고 가정하자. 분류 시스템(4)은 2개의 등급(1 또는 2) 중의 하나로 분류할 수 있으며, 이 때 등급 C1은 70년 초반 음악("1970-1974")를 나타내며 C2는 70년대 후반 음악("1975-1979")을 나타낸다고 더 가정하자. 음악 트랙 "X" 및 "Y"에 대한 특성 벡터(Fx, Fy)는 이미 설명한 대로 계산되며, 가능성 유도 유닛(7)은 이제 이들 2개의 특성 벡터(Fx,Fy)가 가장 속할 것 같은 등급의 위치를 찾기 위해 진행한다. Fx가 명확히 등급 C1 내에 위치되어 있으므로, 가능성 결정 유닛은 음악 트랙 "X"이 등급 C1으로 표시된 시간-범위의 중간에서 기원하며, "1972±1"를 이 음악 트랙에 대한 분류 결과로서 기록한다고 자신있게 결론지을 수 있다. Fy는 반면에 등급 C1와 등급 C2 사이에 위치하지만, C2보다는 C1에 더 가깝다. 그러므로, 가능성 결정 유닛(7)은 이들 특성 벡터가 계산되어 왔던 음악 트랙은 이들 등급 사 이의 특정 시점에서 기원하며, 추정된 배포 년도를 "1974±4"로 기록하며, 이는 트랙이 1974년 즈음에 배포되었을 가능성이 높지만, 대략 4년 전 또는 후에 배포되었을 수도 있다는 것을 표시한다. 불확실성은 특성 벡터(Fx,Fy)와 등급(C1,C2)의 중심 사이의 거리의 크기이다.

입력 신호(1)에 대해 계산된 특성 벡터(3)를 분류할 때, 가능성 결정 유닛(7)은 더 나은 분류 결과가 특성(2)의 일부가 변경되었을 경우 달성될 수 있다고 일부 경우에 결론 내릴 수 있다. 적절한 신호(10)를 사용하여, 가능성 결정 유닛(7)은 특성 추출 유닛(5)에 필요한 변경을 알린다. 변경을 수행한 후, 특성 추출 유닛(5)은 새로 계산된 특성(2)을 유도 유닛(6)으로 전송하여 분류 과정은 새로운 특성 벡터(3)를 사용하여 다시 수행될 수 있다. 이러한 반복 과정은 가능성 결정 유닛(7)이 결과(8)가 만족스럽다는 결론을 내릴 때까지 반복될 수 있다.

본 발명이 바람직한 실시예와 그 변형예의 형태로 개시되었지만, 다수의 추가적인 변경과 변형은 본 발명의 범위를 이탈하지 않고 이루어질 수 있음을 이해할 것이다. 예를 들어, 무선 방송, 음악 사운드트랙 등과 같은, 임의의 유형의 오디오는 전술한 방법을 사용하여 일자가 지정될 수 있다. 게다가, 본 발명은 설명한 분석 방법을 사용하는 것으로 제한되지 않지만, 임의의 적절한 분석 방법을 적용할 수 있다.

명확성을 위해, 본 명세서 전체에서 단수 요소의 사용은 복수 요소의 존재를 배제하지 않으며, "포함하다"는 다른 단계 또는 요소를 배제하지 않는다는 점을 이해할 것이다. "유닛"은 단일 구성체로서 명시적으로 기술되지 않은 경우, 다수의 블록 또는 디바이스를 포함할 수 있다.

본 발명은 일반적으로 오디오 입력 신호, 특히 음악 트랙 식별을 위한 시스템 및 방법에 관한 것으로서, 오디오 입력 신호를 분류하기 위한 분류 시스템 및 방법 등에 이용가능하다.

Claims

오디오 입력 신호(1)를 분류하는 방법으로서, 상기 방법은 다음 단계, 즉

-오디오 입력 신호(1)의 적어도 한 가지 특성(2)을 추출하는 단계;

-적어도 하나의 추출된 특성(2)에 기초하여 입력 오디오 신호(1)를 위한 특성 벡터(3)를 유도하는 단계;

-입력 오디오 신호(1)를 위한 특성 벡터(3)가 각각 특정 배포-일자 정보에 대응하는, 다수의 등급(C1,C2,..,Cn) 중 어느 것 내에 해당할 가능성을 결정하는 단계

를 포함하는, 오디오 입력 신호를 분류하는 방법.
제 1항에 있어서, 특정 배포-일자 정보를 나타내는 등급(C1,C2,..,Cn)은 오디오 신호 집합으로부터의 오디오 신호에 대해 이전에 계산된 특성 벡터에 기초하여 한정되며 배포-일자 정보와 연관되는, 오디오 입력 신호를 분류하는 방법.
제 2항에 있어서, 특정 배포-일자 정보를 나타내는 등급(C1,C2,...,Cn)은 이 배포-일자 정보와 관련된 이전에 계산된 특성 벡터의 집합으로부터 유도된 모델로 설명된, 오디오 입력 신호를 분류하는 방법.
제 1항 내지 제 3항 중 어느 한 항에 있어서, 특정 등급(C1,C2,...,Cn) 내에 있는 오디오 입력 신호(1)에 대한 특성 벡터(3)의 가능성의 결정은 특성 벡터(3)에 대한 판별 분석(discriminant analysis)을 수행하는 단계를 포함하는, 오디오 입력 신호를 분류하는 방법.
제 1항에 있어서, 특성 벡터(3)는:

- 오디오 입력 신호(1)의 정신-음향 특성(2) 및/또는

- 오디오 입력 신호(1)의 시간 포락선의 청각 모델 표시를 설명하는 특성(2)

을 포함하는, 오디오 입력 신호를 분류하는 방법.
제 1항 또는 제 2항에 있어서, 특성(2)의 추출은 각 특성(2)에 대한 전력 스펙트럼을 계산하는 단계, 전력 스펙트럼을 정규화하는 단계 및 다수의 별도의 에너지 대역에 대한 에너지를 계산하는 단계를 포함하는, 오디오 입력 신호를 분류하는 방법.
제 1항 내지 제 6항 중 어느 한 항에 있어서, 입력 오디오 신호(1)의 특성(2)은 입력 오디오 신호(1)의 최적 분류를 위한 특성 벡터(3)를 얻기 위해 분류 프로세스 동안에 반복적으로 조정되는, 오디오 입력 신호를 분류하는 방법.
오디오 입력 신호(1)를 분류하기 위한 분류 시스템(4)으로서, 상기 분류 시스템은 다음 수단, 즉:

- 오디오 입력 신호(1)의 적어도 하나의 특성(2)을 추출하기 위한 특성 추출 유닛(5);

- 적어도 하나의 추출된 특성(2)에 기초하여 입력 오디오 신호(1)에 대한 특성 벡터(3)를 유도하기 위한 유도 유닛(6);

- 입력 오디오 신호(1)에 대한 특성 벡터(3)가 각각 특정 배포-일자 정보에 대응하는, 다수의 등급(C1,C2,...,Cn) 중 어느 하나 내에 해당하는 가능성을 결정하는, 가능성 결정 유닛(7)

을 포함하는, 오디오 입력 신호를 분류하기 위한 분류 시스템.
제 8항에 따른 분류 시스템을 포함하는, 특정 배포-일자에 따른 오디오 항목을 선택하기 위한 오디오 처리 디바이스.
제 9항에 있어서, 실제 또는 인지된 배포-일자에 따른 음악의 그룹화가 달성되도록 배포-일자 정보의 사용자-한정된 시퀀스에 따른 음악 데이터베이스로부터 음악 작품을 선택하기 위한 자동 DJ 장치를 포함하는, 오디오 처리 디바이스.
컴퓨터 프로그램 제품으로서, 상기 프로그램이 오디오 처리 디바이스 상에서 실행될 때 제1항 내지 제7항에 따른 방법의 단계를 수행하기 위한 소프트웨어 코드 부분을 포함하는 프로그래밍가능한 오디오 처리 디바이스의 메모리로 직접 로딩가능한 컴퓨터 프로그램 제품.