KR20050085765A

KR20050085765A - 오디오 신호 분석 방법 및 장치

Info

Publication number: KR20050085765A
Application number: KR1020057011341A
Authority: KR
Inventors: 크리스토퍼 토론; 리차드 에스. 코울
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-12-20
Filing date: 2003-12-10
Publication date: 2005-08-29
Also published as: WO2004057569A1; EP1579419B1; ATE459073T1; CN1729506B; CN1729507A; GB0229940D0; GB0303970D0; CN1729506A; JP2006510944A; CN1729685A; AU2003285629A1; DE60331475D1; US20060075883A1; EP1579419A1

Abstract

음악 트랙과 같은 오디오 신호의 키를 결정하는 방법. 오디오 신호의 부분들(106)이 음악적 노트와 각 부분 내의 그의 연관된 강도(110)를 식별하기 위해(108) 분석된다(104). 부분에서 식별된 일부 노트들은 키와 관련된 노트들이 보다 쉽게 구별될 수 있도록 무시될 수 있다(118). 제 1 노트는 이후 그들 각각의 강도들의 함수로서 식별된 음악적 노트들로부터 결정된다(124). 식별된 음악적 노트들로부터, 적어도 두 개의 다른 노트들이 제 1 노트의 함수로서 선택된다(128). 오디오 신호의 키가 이후 선택된 노트들의 각각의 강도들의 비교에 기초하여 결정된다(130).

Description

오디오 신호 분석 방법 및 장치{Audio signal analysing method and apparatus}

본 발명은 오디오 신호의 특성, 특히 음악적 키를 결정하는 방법 및 장치에 관한 것이다.

보다 저렴한 저장 장치와 인터넷으로의 액세스의 출현으로, 소비자들은 비디오, 오디오, 텍스트 및 그래픽들을 포함하는 거대한 양의 정보 및 컨텐트를 액세스하고 모을 수 있다. 소비자들에 의해 이러한 컨텐트의 검색 및 액세스를 용이하게 하기 위한 분류(classification)의 필요가 인식된다. 오디오 환경에서, 분류는 음악 장르, 예술가, 작곡가 등에 기초하여 수행될 수 있다. 그러나 이들 분류들은 선택이 무드 또는 다른 감정적으로 특정한 기준들에 기초한다는 제한이 있을 수 있다. 예를 들어, 로맨틱한 음악은 작곡가들과 음악적 스타일들의 범위를 클래식, 대중 및 다른 음악적 전통들 내에 이르도록 고려될 수 있다. 감정적인 음악은 각각이 특정 장르, 작곡가 또는 유사한 분류화에 독립적인 레벨, 템포 및 키를 포함하는 그의 고유의 음악적 특징들에 대하여 특징될 수 있다.

Tsuruta 등의 미국 특허 제 5,038,658 호에서, 음향학적 신호들의 키를 결정할 수 있는 자동 음악 전사 방법 및 장치가 기술된다. 사용된 방법의 단점은 얻어진 파워 정보에서의 변화들에 기초하고, 표준 노트 길이들에 기초하고, 연속체의 식별된 세그먼트들(segments)의 음악적 간격이 식별되는지 여부에 기초하는 분할(segmentation)을 포함하는, 키를 결정하는데 필요한 음악적 간격들을 결정하기 위하여 음향학적 신호의 많은 분할을 수행해야 할 필요가 있다는 것이다. 방법의 다른 단점은 자동 상관(autocorrelation)에 의해 시간 영역에서 피치 정보(pitch information)를 추출할 필요가 있다는 것이다.

논문 "Querying Large Collections of Music for Similarity"(Welsh et al, UC Berkeley Technical Report UCB/CSD-00-1096, November, 1999)에서, 디지털 음악의 커다란 보관소(archive)에 대하여 질문을 수행할 수 있는 시스템이 음악 보관소를 전 처리하는 특성 추출기들의 세트에 기초한 기술을 사용하여 제공된다. 한 특징 추출기는 음악 스케일의 노트들을 가로지르는 주파수 진폭들의 히스토그램(histogram)을 생성하며, 특정 노트(예를 들면 C 샵)의 평균 진폭에 대응하는 히스토그램의 각 버킷(bucket)은 분석된 음악 샘플에 대하여 5 옥타브들을 가로지른다. 이러한 정보는 음악이 재생되는 키를 결정하는데 도움을 주도록 사용될 수 있다는 점이 서술되어 있으나, 방법은 기술되어 있지 않다. 이러한 접근의 다른 단점은 음악의 키와 관련되는 이러한 노트들을 평균 노트 데이터로부터 구별하는 것에 대한 잠재적인 어려움이다.

도 1은 오디오 신호의 키를 결정하는 방법의 순서도.

도 2는 오디오 신호의 부분을 분석하기 위한 도 1의 방법의 단계의 순서도.

도 3a는 오디오 신호의 부분의 주파수 영역 표현의 예를 도시하는 일련의 그래프들.

도 3b는 도 3a에 표현된 부분을 포함하는 오디오 신호의 부분들에 대응하는 데이터 기록들의 세트를 도시하는 표.

도 4a는 오디오 신호의 부분들에 대응하는 데이터 기록들의 세트를 도시하는 표.

도 4b는 도 4a의 표 내의 데이터로부터 도출되는 식별된 노트들과 연관된 총 강도들을 도시하는 표.

도 5는 오디오 신호의 키를 결정하는 장치의 개략적인 표현도.

본 발명의 목적은 종래 기술을 개선시키는 것이다.

본 발명의 한 양상에 따라, 오디오 신호의 키를 결정하는 방법이 제공되며, 상기 방법은:

- 복수의 신호 부분들의 각각에 대하여, 음악적 노트(musical note)를 식별하기 위하여 상기 부분을 분석하는 단계로서, 적어도 하나의 음악적 노트는:

- 상기 또는 각각의 음악적 노트와 연관된 강도를 결정하고,

- 상기 또는 각각의 음악적 노트의 아이덴티티(identity), 상기 또는 각각의 음악적 노트와 연관된 상기 강도 및 상기 부분의 상기 아이 덴티티를 포함하는 데이터 기록을 생성하여 식별되는, 상기 부분 분 석 단계;

- 상기 데이터 기록들의 각각에 대하여, 상기 데이터 기록들 내에 포함된 임 의의 식별된 음악적 노트와 연관된 상기 최대 강도의 미리 결정된 비율 (fraction)보다 상기 강도가 작은 식별된 음악적 노트와 연관된 상기 강도 를 무시하는 단계;

- 상기 식별된 음악적 노트들로부터 그들 각각의 강도들의 함수로서 제 1 노 트를 결정하는 단계;

- 상기 식별된 음악적 노트들로부터 상기 제 1 노트의 함수로서 적어도 제 2 및 제 3 노트를 선택하는 단계; 및

- 상기 적어도 제 2 및 제 3 노트들의 상기 각각의 강도들의 비교에 기초하 여 상기 키를 결정하는 단계를 포함한다.

본 발명의 제 2 양상에 따라, 오디오 신호의 키를 결정하는 장치가 제공되며, 상기 장치는:

- 신호를 수신하도록 동작할 수 있는 입력 디바이스;

- 데이터 처리 장치로서:

- 복수의 신호 부분들의 각각에 대하여, 음악적 노트를 식별하기 위하 여 상기 부분을 분석하고, 적어도 하나의 음악적 노트는:

- 상기 또는 각각의 음악적 노트와 연관된 강도를 결정하고,

- 상기 또는 각각의 음악적 노트의 아이덴티티, 상기 또는 각각 의 음악적 노트와 연관된 상기 강도 및 상기 부분의 상기 아 이덴티티를 포함하는 데이터 기록을 생성하여 식별되며;

- 상기 데이터 기록들의 각각에 대하여, 상기 데이터 기록들 내에 포 함된 임의의 식별된 음악적 노트와 연관된 상기 최대 강도의 미리 결정된 비율보다 상기 강도가 작은 식별된 음악적 노트와 연관된 상 기 강도를 무시하고;

- 상기 식별된 음악적 노트들로부터 그들 각각의 강도들의 함수로서 제 1 노트를 결정하고;

- 상기 식별된 음악적 노트들로부터 상기 제 1 노트의 함수로서 적어 도 제 2 및 제 3 노트를 선택하고;

- 상기 적어도 제 2 및 제 3 노트들의 상기 각각의 강도들의 비교에 기초하여 상기 키를 결정하도록 동작할 수 있는, 상기 데이터 처리 장치를 포함한다.

본 발명으로 인하여, 효율적이고 정확한 방법으로 오디오 신호의 키를 결정할 수 있다. 오디오 신호는 음악의 일부의 디지털 또는 아날로그 기록일 수 있다.

바람직하게 각 부분은 동일한 크기이며, 각 부분은 동일한 길이의 시간을 포함한다. 유익하게, 부분의 크기는 오디오 신호의 템포의 함수이다. 부분들은 인접할 수 있다. 바람직하게, 미리 결정된 비율은 오디오 신호의 컨텐트에 의존하여 결정된다. 이상적으로, 미리 결정된 비율은 십분의 일 내지 이분의 일의 범위에 놓이며, 미리 결정된 비율의 유익한 실시예에서는 칠분의 일이다.

유익하게, 음악적 노트를 식별하기 위해 부분을 분석하는 단계는:

- 상기 부분을 주파수 영역 표현(frequency domain representation)으로 변환하는 단계;

- 상기 주파수 영역 표현을 복수의 옥타브들로 세분하는 단계;

- 최대의 진폭을 포함하는 각 옥타브에 대하여,

- 상기 최대 진폭에서의 주파수 값을 결정하고;

- 상기 주파수 값에 의존하여 음악적 스케일(musical scale)의 노트 이름을 선택하는 단계; 및

- 하나 이상의 옥타브에서 선택되는 상기 동일한 노트 이름에 따라 음악적 노트를 식별하는 단계를 포함한다.

본 실시예에서, 주파수 영역 표현으로의 상기 부분의 변환은 바람직하게 푸리에 변환에 의해 수행된다. 음악적 스케일은 이상적으로 동등 평균율 스케일(Equal Tempered Scale)이다.

바람직한 실시예에서, 음악적 노트와 연관된 강도를 결정하는 단계는:

- 상기 음악적 노트의 각 주파수 성분의 상기 진폭을 결정하는 단계;

- 상기 진폭들을 합하는 단계를 포함한다.

유익하게, 제 1 노트를 결정하는 단계는:

- 각각의 식별된 음악적 노트에 대하여, 상기 데이터 기록들에서 상기 음악적 노트와 연관된 상기 강도들을 합하는 단계; 및

- 상기 최대 합산된 강도를 갖는 상기 식별된 음악적 노트가 되도록 상기 제 1 노트를 결정하는 단계를 포함한다.

바람직한 실시예에서, 제 1 노트는 상기 키의 주음(tonic)이다.

본 발명의 장점은 분석을 위해 사용된 오디오 신호의 부분들이 임의로 선택될 수 있으며 이러한 선택은 따라서 오디오 신호의 컨텐트에 독립적이라는 것이다. 또한, 본 발명의 방법은 오디오 신호의 키에 관련된 음악적 노트들의 존재의 검출, 바람직하게는 특정 타입의 음악적 소스(예를 들면, 악기)로부터 발생한 노트들의 검출을 신뢰한다. 유익하게, 음악적 노트들의 타이밍 및 지속 기간을 결정하는 것은 방법과 관련없다. 다른 장점은 다른 한편으로 흥미있는 노트들의 아이덴티티들을 결정하는 프로세스를 혼란시키는 무의미한 노트들(및 노이즈)로부터의 기여들을 제거하기 위하여 필터링이 적용된다는 것이다. 또한, 본 발명의 방법은 낮은 가격의 하드웨어 및/또는 소프트웨어에서의 구현을 위해 적절하며 따라서 높은 부피의 소비자 제품들에서의 배치를 가능하게 한다.

본 발명의 실시예들이 처부하는 도면들을 참조하여 예로써만 여기에 설명될 것이다.

도 1은 오디오 신호의 키를 결정하는 방법의 순서도를 도시한다. 전형적으로, 오디오 신호는 본 방법을 수행하는 장치(500, 도 5)의 입력 디바이스(510, 도 5)에 의해 수신된다. 일반적으로 (100)에 도시된 방법은 (102)에서 시작하고 (이하에서 보다 상세하게 설명될 바와 같이) 음악적 노트를 식별하기 위해 오디오 신호의 부분을 분석한다(104). 바람직하게, 키는 식별된 베이스 음악적 노트들(identified bass musical notes)을 사용하여 결정된다. 이러한 노트들은 베이스 레지스터(bass register) 내에 위치하고 하나 이상의 조화적으로 관련된 주파수 성분들을 갖는 그들의 기본적인 성분들에 의해 특징될 수 있으며, 성분들은 인정된 음악적 스케일과 상호관련된다. 이러한 노트들은 조정된 악기(즉, 음악적 스케일에 따라 하나 이상의 노트들을 소리나게 할 수 있는 악기), 예를 들면, 베이스 기타 또는 더블 베이스에 의해 소리가 날 수 있다. 적어도 하나의 음악적 노트가 부분에 대하여 식별되는 경우(108), 방법은 이후 음악적 노트 또는 노트들과 연관된 강도를 결정한다(110). 강도는 식별된 음악적 노트의 하나 이상의 주파수 성분들의 진폭의 함수로 결정된다. 부분 내의 각 음악적 노트와 연관된 강도가 한번 결정되었으면, 음악적 노트 또는 노트들의 아이덴티티, 각 음악적 노트와 연관된 강도 및 부분의 아이덴티티를 포함하는 데이터 기록(120)이 생성된다(112). 방법은 이후 단계들(104, 108, 110, 112)이 처리되는 오디오 신호의 모든 부분들에 대하여 수행되는지(106)를 확실하게 하기 위해 체크한다(116). 부분들은 총 수신된 오디오 신호의 일부만을 포함할 수 있으며, 부분들은 인접하거나 인접하지 않을 수 있다는 것이 주의된다. 데이터 기록들의 결과적인 세트(114)의 각 데이터 기록(120)이 데이터 기록들의 세트내의 임의의 기록에 포함된 임의의 식별된 음악적 노트와 연관된 최대 강도의 미리 결정된 비율(예를 들면, 칠분의 일)보다 작은 기록 내의 임의의 강도를 무시하기 위해(118) 리뷰된다. 이러한 강도들은 데이터 기록들로부터 삭제될 수 있다(122). 목적은 키와 관련되는 오디오 신호 내의 노트들의 식별에 악영향을 미칠 수 있는 이러한 노트 강도들을 걸러내는 것이다. 다음, 방법이 필터링된 데이터(126)를 사용하여 그들의 각각의 강도들의 함수로서 식별된 음악적 노트들로부터 제 1 노트를 결정한다(124). 이후, 적어도 제 2 및 제 3 노트가 다시 필터링된 데이터(126)를 사용하여 제 1 노트의 함수로서 식별된 음악적 노트들로부터 선택된다(128). 선택된 노트들은 분석에 사용된 음악적 스케일에 의존한다. 바람직하게, 동등 평균율 스케일(Equal Tempered Scale)이 사용된다. 이러한 스케일 시스템을 위하여, 제 1 노트는 스케일의 주음(tonic)을 제공하고, 제 2 및 제 3 노트들은 각각이 키의 메이저 모드 및 마이너 모드에 대응하는 대안의 음정 노트들을 각각 제공할 수 있다. 부가적인 노트들이 결정되는 키의 양식에 따라 선택될 수 있다. 키는 이후 적어도 제 2 및 제 3 노트들의 각각의 강도들의 비교에 기초하여 결정된다(130). 방법은 (132)에서 종결된다.

도 2는 오디오 신호의 부분을 분석하는 도 1의 방법에서 단계(104)를 보다 상세하게 설명하는 순서도를 도시한다. 방법은 (202)에서 시작하며 주파수 영역 표현으로 부분을 변환하도록 진행한다(204). 변환의 임의의 적절한 수단이 사용될 수 있으며; 바람직하게, 변환은 푸리에 변환에 의해 수행된다. 다음, 음악적 스케일들이 옥타브들을 사용하여 구성될 수 있으므로 주파수 표현은 다수의 옥타브들로 세분된다(206). 임의의 적절한 음악적 스케일이 사용될 수 있으며; 바람직하게는 동등 평균율 스케일이 사용되는데, 이 음악적 스케일이 많은 음악 장르들 및 스타일들의 공통적인 기초이기 때문이다. 최대 진폭 주파수 성분가 각 옥타브 내에서 검색된다. 이러한 최대가 최대 진폭에서의 주파수 값으로 존재하는지가 결정된다(208). 음악적 스케일의 노트 이름(예를 들면, 동등 평균율 스케일)이 이후 결정된 주파수 값에 따라 선택된다(210). 결정된 주파수 값은 규정된 노트 이름 내의 음악적 스케일 노트의 기준 주파수 값과 정확히 대응하거나, 적어도 그의 미리 결정된 범위(예를 들면, +/- 10%) 내에 대응하여야 한다.

선택된 특별한 미리 결정된 범위는 오디오 신호 내의 음악적 노트들의 주파수 허용 오차에 의존할 수 있으며; 주파수 허용 오차는 차례로 예를 들면 음악적 스케일의 기준 튜닝(reference tuning)과 맞추어지지 않은 음악적 소스 또는 소스들에 의해 영향받을 수 있다. 튜닝에서의 차이는 측정될 수 있으며 따라서 미리 결정된 범위가 보정되도록 선택된다. 음악적 소스들로부터 키 결정 방법 및 장치로의 경로에서 왜곡들이 발생할 수 있다. 경로의 왜곡의 타입들은 흐트러짐 및 파동, 데이터 변조 및 노이즈를 포함한다. 이러한 왜곡들이 시간에 따라 변할 수 있으므로, +/-10%와 같은 명목상의 미리 결정된 범위가 선택될 수 있으며 또는 보다 복잡한 구성이 왜곡을 지속적으로 측정하거나 미리 결정된 범위를 동적으로 맞추는데 사용될 수 있다.

음악적 스케일의 노트 이름은 몇 배의 옥타브의 표현으로 관련된 모든 노트들을 설명하고(즉, 동일한 이름 내의 노트들은 조화적으로 관련된다); 스케일 내의 특정 노트는 노트 이름 및 특별 옥타브에 의해 특징될 수 있다. 방법은 부분의 주파수 영역 표현의 모든 옥타브들이 단계들(208, 210)에 의해 처리되는 것을 확실히 하도록 체크한다(212). 옥타브들에서 선택된 노트 이름들은 이후 비교된다(214); 둘 이상의 동일한 노트 이름들이 발생하면 그들은 음악적 노트를 식별하는 것으로(216) 간주된다. 이는 성악가들 및 악기들과 같은 음악적 소스들이 조화적으로 관련되는 주파수 성분들의 세트에 의해 특징지어지는 소리들을 생성할 수 있기 때문이며; 즉, 이러한 음악적 소스에 의해 소리가 나는 노트의 주파수 성분들은 다른 것의 몇 배로 위치될 수 있다. 방법은 (218)에서 종결한다.

본 방법은 부분에 대하여 잠재적으로 아무것도 식별하지 않을 수 있거나 하나 이상의 음악적 노트들을 식별할 수 있다는 것이 당업자에게 명백할 것이다. 부분의 주파수 영역 표현이 다수의 옥타브들로 세분화되는 경우에, 하나 이상의 음악적 노트를 식별하기 위한 능력은 부분의 주파수 영역 표현이 세분화되는 옥타브들의 수에 의존하며; 둘 또는 셋의 옥타브들이 하나의 음악적 노트까지 식별할 수 있고; 넷 또는 다섯의 옥타브들이 두 개의 음악적 노트들까지 식별할 수 있으며; 이와 같은 식이다. 음악적 소스에 의해 생성된 노트들의 범위는 옥타브들의 수에 영향을 미칠 수 있으며 부분의 주파수 영역 표현은 이들로 세분화되어야 한다. 예로써, 오디오 신호는 주파수 범위 27Hz 내지 4.1kHz 내에 존재하는 음악적 노트들(예를 들면, 동등 평균율 스케일의 A0 내지 C8의 노트들의 소리를 낼 수 있는 피아노)을 포함할 수 있다. 이 예에서, 방법은 피아노의 높은 피치 노트들을 식별하기 위하여 오디오 신호의 부분의 주파수 영역 표현을 즉, 적어도 하나 또는 두 개의 다른 옥타브들(예를 들면, 동등 평균율 스케일의 총 옥타브들(0 내지 10)의 11 옥타브들)로 세분할 것이다. 그러나, 이러한 전체적인 접근은 키 결정의 목적을 위해서는 필요하지 않으며 옥타브들의 서브세트가 바람직하게 사용된다. 예를 들어, 특별한 레지스터의 음악적 소스가 키를 결정하는데 사용될 수 있다. 바람직하게, 오디오 신호는 베이스 노트들을 포함하며 방법은 베이스 노트들을 식별하기 위하여 오디오 신호의 부분의 주파수 영역 표현을 다섯개의 옥타브들(예를 들면, 동등 평균율 스케일의 옥타브들(1 내지 5))로 세분할 수 있다.

도 3a는 오디오 신호의 부분의 주파수 영역 표현(300)의 예를 도시하는 일련의 그래프이다. 주파수 영역 표현은 다수의 옥타브들로 세분화된다. 도 3a에서 다섯개의 진폭-주파수 그래픽적 표현들(301, 302, 303, 304, 305)이 도시되며, 각각은 스케일당 하나의 옥타브를 나타낸다(수평 주파수축에서 대수적으로). 소리난 음악적 노트들의 적절한 성분들이 부분 내에 존재한다면, 그들이 존재할 주파수들의 범위를 포함하도록 옥타브들이 선택된다. 바람직하게, 베이스의 음악적 노트들이 식별되며; 그러므로 적절한 옥타브들, 예를 들면 동등 평균율 스케일의 경우에 옥타브 넘버들(1 내지5)이 베이스 악기들에 의해 생성된 노트들의 기본적이고 조화적인 성분들을 포함하는 베이스의 음악적 노트들을 포함한다. 각 옥타브 내의 부분의 주파수 성분들의 진폭 아웃라인은 (306, 308, 310, 312, 314)로 도시된다. 이들 아웃라인들의 각각은 (존재한다면) 최대를 검출하도록 리뷰된다. 도시된 예에서, 각 옥타브는 각각 (316, 318, 320, 322, 324)로 도시된 최대를 갖는다. 도 3a에서, 각 진폭-주파수 그래픽적 표현(301 내지 305)은 동등 평균율 스케일의 하나의 옥타브에 대하여 동일한 노트 시퀀스를 커버하도록 배열되고; 예를 들어 노트 C에 대한 (옥타브의) 주파수 값은 하나의 옥타브를 커버하는 주파수 축 스케일을 갖는 원점에 놓인다. 최대들(316, 320, 324) 모두는 모든 옥타브들에 공통인 동일한 노트 이름(E)을 표현하는 선(326)에 의해 지시되는 바와 같은, 동일한 노트 이름인, E와 관련된다(각 옥타브는 대수적인 주파수 축을 사용하여 묘사되며 표현들(301 내지 305)은 도시된 바와 같이 수직으로 배열된다). 그러므로 노트 E가 하나 이상의 옥타브(실질적으로 세 개의 옥타브들)에서 발생한다(즉, 최대 주파수 성분이다). 노트 E는 그러므로 식별된 것으로 간주된다. 식별된 노트 E와 연관된 강도는 이후 노트 이름이 최대 진폭에 대응하는 옥타브들의 주파수 성분들의 진폭을 합하는 것에 의해 결정된다. 본 예에서, 강도는 각 옥타브들의 노트의 관련 (최대) 주파수 성분들의 진폭 값들(e1, e3, e5)의 합을 포함한다. 다른 옥타브들을 리뷰하면, 최대들(318, 322)의 동일한 노트 대응들이 없으며, 이들은 각각 노트 D의 주파수 구성 성분(진폭 d2를 갖는)과 노트 A의 주파수 구성 성분(주파수 a4를 갖는)이 된다는 것이 보여질 수 있다.

도 3b는 도 3a에 표현된 부분을 포함하는 오디오 신호의 부분들에 대응하는 데이터 기록들의 세트를 포함하는 표를 도시한다. 데이터 기록들(327)의 세트가 오디오 신호의 부분들의 분석동안 생성된다. 각 기록은 노트(328), 노트와 연관된 강도(330) 및 노트가 식별된 부분(332)을 식별하기 위해 필드들을 포함한다. 앞서 설명된 바와 같이, 부분 내에서 하나 이상의 노트가 식별될 수 있으며; 도 3b는 2로 숫자가 붙은 부분에 대한 데이터 기록들의 경우의 이러한 예시를 제공한다. 도 3a에 표현된 부분에 대한 데이터 기록이 도시되며 식별된 노트의 아이덴티티(334), 노트와 연관된 계산된 강도(336) 및 부분의 아이덴티티(338)를 포함한다.

노트들이 동등 평균율 스케일의 5개의 옥타브들(1 내지 5) 내에서 식별되는 예를 고려하면, 이는 가장 강력할 수 있으며, 임의의 부분에서 발생하는 식별된 음악적 노트는 다음에 기인한다:

a) 다섯개의 옥타브들의 대부분에서 상당한 진폭들을 갖는 성분들을 갖는 베이스 노트, 및/또는

b) 상부 옥타브들(예를 들면, 옥타브 4 및 옥타브 5)에서 큰 진폭 구성 요소들을 갖는 높게 피칭된 노트.

부분 크기의 적절한 선택은 이들 노트들 사이의 식별을 도울 수 있다. 부분 크기가 증가함에 따라, 부분 내의 식별될 수 있는 노트들의 수가 증가할 수 있다. 부분에 대하여 하나 이상의 음악적 노트를 식별하기 위한 재호출(recalling)은 그 부분의 주파수 영역 표현이 세분화되는 옥타브들의 수에 의존하며, 이후 주어진 수의 옥타브들에 대하여, 보다 큰 부분 크기가 존재하는 모든 음악적 노트들을 식별하는 능력을 감소시킨다. 거꾸로, 베이스 레지스터의 보다 높은 부분(예를 들면, 옥타브들 4 및 5)에서 강한 노트들의 영향을 최소화하기 위하여, 부분 크기는 베이스 노트들 및 강한 보다 높은 노트들이 동일한 부분을 덜 자주 점유할 수 있도록 적절하게 선택되어야 한다. 부분들의 크기는 가변 또는 고정될 수 있다. 고정된 부분 크기를 사용하는 것의 장점은 감소된 처리 요청이다(보다 빠른 수행의 결과). 바람직하게, 각 부분은 동일한 크기이며, 예를 들어 각 부분은 동일한 길이의 시간을 포함한다. 부분 크기의 선택은 오디오 신호의 템포(비트 레이트)의 함수일 수 있다. 템포가 알려지지 않았을 때, 부분 크기는 최대의 예상된 템포의 함수, 예를 들면 분당 240 비트로 선택될 수 있다. 또한, 이는 비트 당 명백하게 연주된 노트들의 최대 수를 가정하는 것에 의해 개선될 수 있다. 예를 들어, 초당 44100 개의 샘플들을 포함하는 오디오 신호는 비트당 두 개의 명백하게 연주된 노트들(즉, 8분음표)의 최대를 갖는 분당 240 비트의 템포에 대응하는 제 2의 팔분의 일을 제공하는 각각이 5512 개의 샘플들의 크기를 갖는 부분들에서 분석될 수 있다. 이러한 예에서, 편의를 위해 부분 크기는 5000 개의 샘플들로 잘라버릴 수 있다.

도 4a는 오디오 신호의 부분들에 대응하는 데이터 기록들의 세트를 도시하는 표이다. 데이터 기록(402)은 하나 또는 두 개의 노트들이 식별된 부분을 식별하기 위한 필드와 각 노트와 연관된 강도를 포함한다. 데이터 기록(404)은 부분(1)에 관한 것이며 연관된 강도(30)를 갖는 하나의 노트(E)를 식별한다. 유사하게, 데이터 기록(406)은 부분(4)과 관한 것이고 연관된 강도들(각각 100 및 10)을 갖는 두 개의 노트들(C 및 F 샵, F#)을 식별한다.

데이터 기록들의 세트는 다수의 부분들에 대한 기록들을 포함하며, 각각의 데이터 기록은 논의된 바와 같이 특별 부분에 대한 노트 및 강도 데이터를 포함한다. 방법은 이제 데이터 기록들 내의 어떠한 식별된 음악적 노트들을 예를 들면, 임의의 부분에서 발생한 가장 강한 식별된 음악적 노트의 미리 결정된 비율보다 작은 부분의 노트와 연관된 강도를 무시하는 것에 의해 필터링한다. 필터링은 예를 들면 오디오 신호 내의 보다 강한 노트들을 강조하며, 이러한 노트들은 키와 더욱 관련된 것으로 의도된다. 베이스 노트들이 식별되는 예의 경우에서, 부분의 노트와 연관된 무시된 강도는 상대적으로 작은 베이스 컨텐트를 갖는 노트(예를 들면 부분의 주파수 영역 표현의 보다 높은 옥타브들 내에만 기여도를 갖는) 또는 전체적으로 작은 기여도를 갖도록 상대적으로 작은 베이스 레벨을 갖는 노트(예를 들면, 상대적으로 조용한 노트, 또는 노이즈)를 포함할 수 있다. 미리 결정된 비율은 임의의 부분의 가장 강한 식별된 노트의 십분의 일 내지 이분의 일의 범위에 놓일 수 있다. 미리 결정된 비율은 오디오 신호의 컨텐트에 의존하여 결정될 수 있으며, 예를 들면 베이스 레지스터 내에서 연주하는 보다 많은 악기들을 갖는 음악의 제 1 조각(음악의 제 2 조각과 비교하여)은 제 2 조각과 비교하여 상이한 필터링(비율)을 요구할 수 있다. 선택된 미리 결정된 비율은 음악 장르에 의존할 수 있으며; 예를 들면 대중 음악에 대한 적절한 미리 결정된 비율은 칠분의 일이다. 바람직하게, 미리 결정된 비율에 대한 디폴트 값으로 칠분의 일이 사용된다. 칠분의 일의 디폴트 값이 키를 정하는 것에 관련하여 나쁜 결과들을 주는 경우들에서, 대안적인 필터링이 상이한 비율 값을 사용하여 수행될 수 있다. 적절한 비율 값의 선택은 경험적으로 생성될 수 있으며 또는 위에서 논의된 바와 같이 오디오 신호의 컨텐트 또는 장르에 따라 기초될 수 있다.

도 4a의 예에서, 오디오 신호는 대중 음악으로 공지되어, 칠분의 일의 미리 결정된 비율이 사용된다. 데이터 기록들(400)의 세트에서의 최대 강도는 100이다(부분(4)에서 식별된 노트 C와 연관된 강도(410)). 따라서, 데이터 기록들(400)의 세트 내의 강도들(414, 416, 418, 420)은 각각 100/7보다 작고 예를 들면, 데이터 기록들(400)의 세트 내의 그들의 각각의 데이터 기록들로부터 삭제되는 것에 의해(도 4a에는 도시되지 않음) 후속하는 처리에서 무시될 것이다. 제 1 음악적 노트가 이후 그들의 각각의 강도들의 함수로 식별된 노트들로부터 결정된다. 예는 동일한 노트 이름을 갖는 각 부분의 식별된 노트들의 강도들을 취하는 것과 모든 부분들을 가로지르는 음악적 스케일의 각각의 식별된 노트의 총 강도를 계산하는 것을 포함할 수 있다.

도 4b는 도 4a의 표 내의 데이터로부터 파생되는 식별된 노트들과 연관된 총 강도들을 도시하는 표이다. 계산된 각각의 총 강도는 동등 평균율 스케일의 반음계의 스케일의 12개의 노트들(452) 중 하나에 대응한다. 가장 높은 총 강도를 갖는 식별된 노트는 오디오 신호의 음악적 키와 관련된 제 1 노트(본 예에서는 주음)인 것으로 간주된다. 제 2 및 제 3 노트들은 주음에 대한 그들의 관계에 의해 선택되어 그들의 각각의 강도가 키의 모드가 메이저인지 마이너인지를 나타내게 한다. 예를 들어, 주음이 키 노트인 스케일에 대하여, 스케일의 제 3 단계(간격)가 검토될 수 있다. 오디오 신호의 분석된 부분들이 주로 메이저 키이면 주음으로부터 제 4 의 반음(semitone) 높아진 보다 강한 사건들이 있을 것이다(예를 들어, 주음이 노트 C이면, C 메이저의 제 4 의 반음은 본래의 E로 이름된 노트이다). 대안적으로, 오디오 신호의 분석된 부분들이 주로 마이너 키이면 주음으로부터 제 3 의 반음 높아진 보다 강한 사건들이 있을 것이다(예를 들어 주음이 노트 C이면, C 마이너의 제 3 의 반음은 D 샵, D#으로 이름된 노트이다). 그러므로, 본 예에 대하여, 주음으로부터 제 4 및 제 3 반음 높인 식별된 노트들의 상대적인 총 강도들을 비교하는 것은 키가 메이저인지 마이너인지를 나타낸다(C의 키에 대하여, 식별된 노트들 E 및 D#을 비교). 대안적인 노트들이 제 6 간격의 노트들을 포함하는 메이저 및 마이너를 결정하기 위해 검사될 수 있다(예를 들어, C의 키에 대하여 식별된 노트들 A 본래와 G 샵, G#을 비교). 도 4b에서, 식별된 노트 C(454)는 가장 높은 총 강도(466)를 갖고(강도들(408, 410, 412)의 부가를 비교), 따라서 제 1 노트(및 주음)가 되는 것으로 간주된다. 데이터 기록들(400)의 세트에 포함되는 다른 식별된 노트들은 대응하는(필터링된) 강도들(468, 470, 472, 474, 476)을 갖는 노트들(456, 458, 460, 462, 464)을 포함한다. 예를 들어, 노트(458)의 총 강도(470)가 무의미한 노트 또는 노이즈로 간주되기 때문에 기여도(420;contribution)를 배제하므로 필터링된다(무시된다). 상기 논의된 바와 같이, 다른 식별된 노트들이 이후 주음의 함수, 예를 들면, 제 3 및 제 6 음악적 간격들로 선택된다. 방법은 주음에 기초한 제 3(또는 제 6) 음악적 간격들에 대응하는 식별된 음악적 노트들(456, 478)(또는 대안적으로 (464, 480))을 선택한다. 각 선택된 식별된 음악적 노트의 총 강도(468, 482(또는 대안적으로 476, 484))의 비교가 오디오 신호의 음악적 키의 메이저 또는 마이너 모드를 결정하는데 사용된다. 도 4b의 예에서, 키의 주음은 C이고(160의 가장 큰 총 강도); 각각의 메이저 및 마이너의 총 강도들(468, 482)을 제 3 간격 노트들(456, 478)과 비교하면, 키가 C 메이저라는 것이 결정될 수 있다. 키는 키의 모드를 전체적으로 결정하기 위하여 서술된 것으로 부가적으로 또는 대안적으로 식별된 노트들의 선택을 요구하는 타입의 양식을 가질 수 있다는 것이 관찰된다.

도 5는 오디오 신호의 키를 결정하기 위하여 일반적으로 500으로 도시된, 장치의 개략적인 표현이다. 장치는 오디오 신호를 수신하도록 사용되는 입력 디바이스(510)를 포함한다. 입력 디바이스는 물리적인 미디어(자기 테이프, 자기 또는 광학 디스크 등)를 판독하거나 유선 및/또는 무선 네트워크로 인터페이스할 수 있도록 하는 인터페이스를 포함할 수 있으며, 따라서 인터넷 소스들을 포함하는 로컬 및 원격 네트워크 소스들에 액세스할 수 있다. 특히 적절한 유선 시스템들의 예들은 이더넷, RS232 및 USB를 포함하며; 적절한 무선 시스템들의 예들은 WiFi, 802.11b, 저전원 라디오 및 블루투스(Bluetooth)를 포함한다. 오디오 신호는 임의의 적절한 아날로그 또는 디지털 포맷을 포함할 수 있다. 수신된 오디오 신호는 기저대역(baseband)이거나 또는 변조될 수 있다. 적절한 디지털 오디오 신호 포맷들의 예들은 AES/EBU, CD 오디오, WAV 및 AIFF를 포함한다. 입력 디바이스는 장치의 데이터 처리 장치(502) 섹션에 적절한 형식으로 오디오 신호를 제공하기 위하여 처리를 수행할 수 있다. 장치는 또한 버스(512)를 통해 입력 디바이스(510)와 상호연결되고 통신하는 CPU(504), 프로그램 ROM(506), RAM(508)을 포함한다(함께 데이터 처리 장치(502)를 구성한다). 프로그램 ROM은 CPU에 의해 수행될 때 방법 단계들을 실행시키도록 동작할 수 있는 코드를 포함한다. 프로그램 코드는 입력 디바이스를 통해 원격 소스로부터 장치로 차례로 다운로드될 수 있고 RAM(508)과 같은 로컬 저장 장치에 저장된다. RAM은 일반적으로 일시적인 결과들을 저장하는데 사용된다. 입력 디바이스(510) 및/또는 데이터 처리 장치(502)는 하드웨어 또는 소프트웨어 또는 이들의 임의의 조합에서 구현될 수 있다. 예를 들어, ASIC가 입력 디바이스 및/또는 데이터 처리 장치의 기능들을 수행할 수 있다. 다른 예에서, 입력 디바이스는 무선 인터페이스 및 종래의 CPU, ROM 및 RAM을 사용하여 구현된 데이터 처리 장치일 수 있다. 사용자 인터페이스(514)는 버스(512)를 통해 데이터 처리 장치와 연결될 수 있고, 이러한 인터페이스는 이후 사용자가 방법을 형성할 수 있도록, 예를 들면 찾고자 하는 어떠한 음악적 키들을 수립하는데 선택이 사용될 수 있는 음악 무드의 필요한 타입(슬픈, 행복한, 등)을 선택하는데 사용될 수 있다. 저장 장치(516)는 오디오 신호 식별자들의 리스트(예를 들면 오디오 신호들의 위치들을 나타내는 데이터) 또는 오디오 신호 파일들(예를 들면 음악 트랙들)을 그들의 음악적 키들과 함께 포함할 수 있다(예를 들면 장치에 의해 앞선 분석으로부터 결정된 바와 같이). 사용자 입력에 응답하여 또는 다른 임의의 방법에 의하여, 장치는 오디오 신호들을 액세스하고 분석하며 및/또는 재생 리스트를 컴파일링하는 것과 같은 목적을 위하여 하나 이상의 결정된 키들에 기초하여 오디오 신호들을 선택하고, 재생 리스트는 무드, 상황 등을 포함하는 입력 정보에 따라 컴파일 된다. 장치는 입력 정보에 따라 트랙들을 제공하도록 원격 소스들로부터 오디오 신호들을 액세스하고 분석할 수 있다. 다른 경우에, 장치는 다른 장치 또는 시스템에 의한 사용을 위하여 음악적 키 및 오디오 신호 정보를 출력 디바이스(518)를 통하여 출력할 수 있다. 출력 디바이스는 물리적인 매체 및/또는 네트워크 엔티티들과 인터페이스하기 위하여, 입력 디바이스에 관하여 상기 언급된 것들을 포함하여, 임의의 적절한 장치를 포함할 수 있다.

본 발명은 전용 키 추출 장치로서 구성된 임의의 적절한 장치 내에 포함될 수 있거나, 주요 제품 또는 응용 내에 키 추출 특성들을 제공할 수 있다. 적절한 장치의 예들은 오디오 쥬크박스, 인터넷 라디오 및 재생리스트 생성기들(예를 들면, 라디오국 사용을 위하여)을 포함한다. 오디오 쥬크박스들은 이동가능한 미디어(자기 테이프/디스크 및/또는 광디스크를 사용하는)를 사용하거나 및/또는 유선이나 무선 상호연결에 의한 네트워킹 기술들(인터넷 등을 포함하는 지역 및 광 영역)을 통해 오디오 신호들을 액세스할 수 있다.

전술한 방법 및 장치는 단지 예로써 제공되며 본 발명이 장점들을 개발하는 당업자에 의해 쉽게 인식될 수 있는 방법들 및 장치들의 범위의 선택을 나타낸다.

상술한 명세서에서 그리고 도 1을 참조하여, 음악 트랙과 같은 오디오 신호의 키를 결정하는 방법이 개시된다. 오디오 신호의 부분들(106)은 음악적 노트 및 각 부분 내의 그의 연관된 강도(110)를 식별하도록(108) 분석된다(104). 부분에서 식별된 일부 노트들은 키와 관련된 노트들이 보다 쉽게 식별될 수 있도록 무시될 수 있다(118). 제 1 노트는 이후 식별된 음악적 노트들로부터 그들의 각각의 강도들의 함수로 결정된다(124). 식별된 음악적 노트들로부터, 적어도 두 개의 다른 노트들이 제 1 노트의 함수로 선택된다(128). 오디오 신호의 키가 이후 선택된 노트들의 각각의 강도들의 비교에 기초하여 결정된다(130).

Claims

오디오 신호의 키를 결정하는 방법에 있어서, 상기 방법은:

- 복수의 신호 부분들의 각각에 대하여, 음악적 노트(musical note)를 식별하기 위하여(108) 상기 부분을 분석하는 단계(104)로서, 적어도 하나의 음악적 노트는:

- 상기 또는 각각의 음악적 노트와 연관된 강도를 결정하고(110),

- 상기 또는 각각의 음악적 노트의 아이덴티티(identity), 상기 또는 각각의 음악적 노트와 연관된 상기 강도 및 상기 부분의 상기 아이덴티티를 포함하는 데이터 기록을 생성하여(112) 식별되는, 상기 부분 분석 단계;

- 상기 데이터 기록들의 각각에 대하여, 상기 데이터 기록들 내에 포함된 임의의 식별된 음악적 노트와 연관된 상기 최대 강도의 미리 결정된 비율(fraction)보다 상기 강도가 작은 식별된 음악적 노트와 연관된 상기 강도를 무시하는 단계(118);

- 상기 식별된 음악적 노트들로부터 그들 각각의 강도들의 함수로서 제 1 노트를 결정하는 단계(124);

- 상기 제 1 노트의 함수로서 상기 식별된 음악적 노트들로부터 적어도 제 2 및 제 3 노트를 선택하는 단계(128); 및

- 상기 적어도 제 2 및 제 3 노트들의 상기 각각의 강도들의 비교에 기초하여 상기 키를 결정하는 단계(130)를 포함하는, 오디오 신호의 키 결정 방법.
제 1 항에 있어서, 각 부분은 동일한 크기인, 오디오 신호의 키 결정 방법.
제 1 항에 있어서, 각 부분은 동일한 시간 길이를 포함하는, 오디오 신호의 키 결정 방법.
제 1 항에 있어서, 상기 부분의 크기는 상기 오디오 신호의 템포(tempo)의 함수인, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 부분들은 인접하는, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 상기 미리 결정된 비율은 상기 오디오 신호의 컨텐트에 의존하여 결정되는, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 미리 결정된 비율은 십분의 일 내지 이분의 일의 범위에 놓이는, 오디오 신호의 키 결정 방법.
제 7 항에 있어서, 상기 미리 결정된 비율은 칠분의 일인, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 음악적 노트를 식별하기 위해 상기 부분을 분석하는 상기 단계는:

- 상기 부분을 주파수 영역 표현(frequency domain representation)으로 변환하는 단계(204);

- 상기 주파수 영역 표현을 복수의 옥타브들(octaves)로 세분하는 단계(206);

- 최대의 진폭을 포함하는 각 옥타브에 대하여,

- 상기 최대 진폭에서의 주파수 값을 결정하는 단계(208); 및

- 상기 주파수 값에 의존하여 음악적 스케일(musical scale)의 노트 이름을 선택하는 단계(210); 및

- 하나 이상의 옥타브에서 선택되는 상기 동일한 노트 이름에 의존하여 음악적 노트를 식별하는 단계(216)를 포함하는, 오디오 신호의 키 결정 방법.
제 9 항에 있어서, 주파수 영역 표현으로의 상기 부분의 변환(conversion)은 푸리에 변환에 의해 수행되는, 오디오 신호의 키 결정 방법.
제 9 항 또는 제 10 항에 있어서, 상기 음악적 스케일은 동등 평균율 스케일(Equal Tempered Scale)인, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서, 상기 또는 각각의 음악적 노트와 연관된 강도를 결정하는 상기 단계는:

- 상기 음악적 노트의 각 주파수 성분의 진폭을 결정하는 단계; 및

- 상기 진폭들을 합하는 단계를 포함하는, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 제 1 노트를 결정하는 상기 단계는:

- 각각의 식별된 음악적 노트에 대하여, 상기 데이터 기록들에서 상기 음악적 노트와 연관된 상기 강도들을 합하는 단계; 및

- 상기 최대 합산된 강도를 갖는 상기 식별된 음악적 노트가 되도록 상기 제 1 노트를 결정하는 단계를 포함하는, 오디오 신호의 키 결정 방법.
제 1 항 내지 제 13 항 중 어느 한 항에 있어서, 상기 제 1 노트는 상기 키의 주음(tonic)인, 오디오 신호의 키 결정 방법.
오디오 신호의 키를 결정하는 장치에 있어서, 상기 장치는:

- 신호를 수신하도록 동작할 수 있는 입력 디바이스(510);

- 데이터 처리 장치(502)로서:

- 복수의 신호 부분들의 각각에 대하여, 음악적 노트를 식별하기 위하 여 상기 부분을 분석하고, 적어도 하나의 음악적 노트는:

- 상기 또는 각각의 음악적 노트와 연관된 강도를 결정하고,

- 상기 또는 각각의 음악적 노트의 아이덴티티, 상기 또는 각각 의 음악적 노트와 연관된 상기 강도 및 상기 부분의 상기 아 이덴티티를 포함하는 데이터 기록을 생성하여 식별되며;

- 상기 데이터 기록들의 각각에 대하여, 상기 데이터 기록들 내에 포 함된 임의의 식별된 음악적 노트와 연관된 상기 최대 강도의 미리 결 정된 비율보다 상기 강도가 작은 식별된 음악적 노트와 연관된 상기 강도를 무시하고;

- 상기 식별된 음악적 노트들로부터 그들 각각의 강도들의 함수로서 제 1 노트를 결정하고;

- 상기 식별된 음악적 노트들로부터 상기 제 1 노트의 함수로서 적어 도 제 2 및 제 3 노트를 선택하고;

- 상기 적어도 제 2 및 제 3 노트들의 상기 각각의 강도들의 비교에 기초하여 상기 키를 결정하도록 동작할 수 있는, 상기 데이터 처리 장치를 포함하는, 오디오 신호의 키 결정 장치.
제 15 항에 있어서, 상기 미리 결정된 비율은 상기 오디오 신호의 컨텐트에 의존하여 결정되는, 오디오 신호의 키 결정 장치.
제 16 항에 있어서, 상기 미리 결정된 비율은 십분의 일 내지 이분의 일의 범위에 놓이는, 오디오 신호의 키 결정 장치.
제 17 항에 있어서, 상기 미리 결정된 비율은 칠분의 일인, 오디오 신호의 키 결정 장치.
제 15 항 내지 제 18 항 중 어느 한 항에 있어서, 복수의 신호 부분들의 각각에 대하여, 음악적 노트를 식별하기 위한 상기 부분을 분석하기 위해, 상기 데이터 처리 장치는:

- 상기 부분을 주파수 영역 표현으로 변환하고;

- 상기 주파수 영역 표현을 복수의 옥타브들로 세분하고;

- 최대 진폭을 포함하는 각 옥타브에 대하여,

- 상기 최대 진폭에서 주파수 값을 결정하고;

- 상기 주파수 값에 의존하여 음악적 스케일의 노트 이름을 선택하고;

- 하나 이상의 옥타브에서 선택되는 상기 동일한 노트 이름에 의존하여 음악적 노트를 식별하도록 동작할 수 있는, 오디오 신호의 키 결정 장치.
제 19 항에 있어서, 상기 데이터 처리 장치는 푸리에 변환을 수행하는 것에 의해 상기 부분을 주파수 영역 표현으로 변환하도록 동작할 수 있는, 오디오 신호의 키 결정 장치.
제 19 항 또는 제 20 항에 있어서, 상기 음악적 스케일은 동등 평균율 스케일인, 오디오 신호의 키 결정 장치.
제 15 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 또는 각각의 음악적 노트와 연관된 강도를 결정하기 위하여 상기 데이터 처리 장치는:

- 상기 음악적 노트의 각 주파수 성분의 상기 진폭을 결정하고;

- 상기 진폭들을 합하도록 동작할 수 있는, 오디오 신호의 키 결정 장치.
제 15 항 내지 제 22 항 중 어느 한 항에 있어서, 상기 제 1 노트를 결정하기 위하여 상기 데이터 처리 장치는:

- 각각의 식별된 음악적 노트에 대하여, 상기 데이터 기록들내의 상기 음악적 노트와 연관된 상기 강도들을 합하고;

- 상기 최대 합산된 강도를 갖는 상기 식별된 음악적 노트가 되도록 상기 제 1 노트를 결정하도록 동작할 수 있는, 오디오 신호의 키 결정 장치.
제 15 항 내지 제 23 항 중 어느 한 항에 있어서, 상기 오디오 신호의 상기 키에 대응하는 데이터를 전송하도록 동작할 수 있는 출력 디바이스(518)를 더 포함하는, 오디오 신호의 키 결정 장치.
제 1 항 내지 제 14 항 중 어느 한 항의 상기 방법을 행하도록 동작할 수 있는 소프트웨어를 포함하는 기록 캐리어.
제 1 항 내지 제 14 항 중 어느 한 항의 상기 방법 단계들을 행하도록 구성된 소프트웨어 유틸리티.
데이터 프로세서를 포함하는 쥬크박스(jukebox)에 있어서, 상기 데이터 프로세서의 동작은 제 26 항의 소프트웨어 유틸리티에 의해 제어되는, 쥬크박스.