KR20100029779A

KR20100029779A - 오디오 썸네일 생성 방법

Info

Publication number: KR20100029779A
Application number: KR1020097027356A
Authority: KR
Inventors: 통 장
Original assignee: 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피.
Priority date: 2007-06-29
Filing date: 2008-06-27
Publication date: 2010-03-17
Also published as: WO2009005735A2; US8208643B2; WO2009005735A3; CN101689225A; US20090005890A1; EP2162844A4; EP2162844A2; CN101689225B

Abstract

뮤직 피스에 대한 오디오 썸네일을 생성하는 시스템, 방법 및 소프트웨어 프로그램 및 기술이 제공되는데, 입력된 뮤직 피스(70) 내의 상이한 반복 세그먼트(72,73)의 위치가 식별된다(13). 또한, 노래하는 부분이 존재하는 시점을 표시하는 계산된 노래하는 메트릭(110, 120, 130)에 기초하여 뮤직 피스(70) 내의 노래하는 세그먼트(15)가 검출된다. 고유 뮤직 구조를 참조하여 오디오 썸네일의 위치를 정의하는 썸네일 기준이 획득되고(17), 복수의 여러 반복 세그먼트(72,73) 중 적어도 하나의 위치 및 노래하는 세그먼트의 적어도 일부의 위치와 함께, 썸네일 기준에 기초하여 뮤직 피스의 한 세그먼트가 오디오 썸네일(201)로서 선택된다(18). 그 후, 적어도 상기 오디오 썸네일은 재생 및/또는 추후 재생을 위해 저장된다(19).

Description

오디오 썸네일 생성 방법{GENERATING MUSIC THUMBNAILS AND IDENTIFYING RELATED SONG STRUCTURE}

본 발명은 뮤직 썸네일, 즉, 전체 뮤직 피스(musical piece)의 대표로서 지정되는 뮤직 피스의 선택된 세그먼트를 생성하고, 뮤직 썸네일의 후속 생성을 위해, 뮤직 피스의 구조를 식별하는 시스템, 방법 및 기술에 관한 것이다.

현재 뮤직 썸네일을 생성하기 위한 자동화 기술의 수는 매우 적다. 이러한 기술 중 하나는 본 발명자에 의해 출원되어 공동으로 양도된 미국 특허 출원 제 10/259,572 호 "System and Method for Generating an Audio Thumbnail of an Audio Track"에 설명되어 있으며, 본 명세서에서 그 전체를 참조한다. 그러나, 특히 전체 뮤직 피스를 더 적합하게 나타내는 뮤직 썸네일을 신속하게 생성하는 관점에서 개선점은 그대로 유지된다.

본 발명은, 특히, 오디오 썸네일을 생성하거나 (가령, 추후 오디오 썸네일을 생성하기 위해 사용될 수 있는) 뮤직 피스에 대한 라벨링된 구조를 생성하는 시스템, 방법, 소프트웨어 프로그램 및 기술을 제공함으로써 이 필요성을 해결한다.

따라서, 대표적인 실시예에서, 본 발명은 뮤직 피스에 대한 오디오 썸네일을 생성하는 것에 관한 것인데, 입력된 뮤직 피스 내의 상이한 반복 세그먼트의 위치가 식별된다. 또한, 노래하는 부분이 존재하는 시점을 표시하는 계산된 노래하는 메트릭에 기초하여 뮤직 피스 내의 노래하는 세그먼트가 검출된다. 고유 뮤직 구조를 참조하여 오디오 썸네일의 위치를 정의하는 썸네일 기준이 획득되고, 복수의 여러 반복 세그먼트 중 적어도 하나의 위치 및 노래하는 세그먼트의 적어도 일부의 위치와 함께, 썸네일 기준에 기초하여 뮤직 피스의 한 세그먼트가 오디오 썸네일로서 선택된다. 그 후, 적어도 상기 오디오 썸네일은 재생 및/또는 추후 재생을 위해 저장된다.

다른 대표적 실시예에서, 본 발명은 뮤직 피스를 추출하는 것에 관한 것인데, 입력된 뮤직 피스 내의 상이한 반복 세그먼트의 위치가 식별된다. 또한, 노래하는 부분이 존재하는 시점을 표시하는 계산된 노래하는 메트릭에 기초하여 뮤직 피스 내의 노래하는 세그먼트가 검출된다. 그 후, 상이한 반복 세그먼트 중 적어도 하나의 위치 및 노래하는 세그먼트의 적어도 일부의 위치에 기초하여 뮤직 피스에 대해 라벨링된 구조가 생성되고, 뮤직 피스에 대한 라벨링된 구조가 저장된다.

전술한 요약은 본 발명의 소정 측면을 간략히 설명하는 것일 뿐이다. 본 발명의 보다 완전한 이해는 첨구범위 및 첨부된 도면을 참조하여 바람직한 실시예의 다음의 상세한 설명을 참조함으로써 얻어질 수 있다.

이하, 첨부된 도면을 참조하여 본 발명을 설명한다. 그러나, 본 발명의 도면은 대표적 및/또는 예시적 실시예 및 특징을 도시하고 있을 뿐이며 어떤 방식으로 본 발명의 범위를 한정하기 위한 것이 아니다. 다음은 첨부된 도면 각각에 대한 간단한 설명이다.

도 1은 뮤직 썸네일을 생성하는 예시적 프로세스를 도시하는 흐름도이다.

도 2는 뮤직 피스 내의 반복 세그먼트를 최초로 식별하는 예시적 프로세스를 도시하는 흐름도이다.

도 3은 뮤직 피스 내의 유사 또는 반복 세그먼트를 최초로 식별하는 예시적 템포 곡선을 도시하고 있다.

도 4는 뮤직 피스 내의 반복 세그먼트 쌍을 최초로 식별하는 프로세스로부터 얻어지는 예시적 세트를 도시하고 있다.

도 5는 예시적 단시간 평균 제로-크로싱 레이트 곡선을 도시하고 있다.

도 6은 예시적 단시간 에너지 곡선을 도시하고 있다.

도 7은 예시적 단시간 피치 곡선을 도시하고 있다.

도 8은 뮤직 피스에 대한 구조적 정보를 세분화하고 라벨링하는 예시적 프로세스를 도시하는 흐름도이다.

도 9는 전주, 간주, 후주가 라벨링된 뮤직 피스에 대한 시간 간격을 도시하고 있다.

도 10은 소정 발견적 학습법 규칙의 최초 적용에 따라 반복 쌍을 조합함으로 써 얻어지는 예를 도시하고 있다.

도 11은 모든 적용 가능한 발견적 학습법 규칙을 적용한 후의 뮤직 피스에 대한 최종 구조의 예를 도시하고 있다.

도 12는 뮤직 피스에 대한 구조 및 오디오 썸네일 시퀀스를 도시하고 있다.

도 1은 본 발명의 대표적 실시예에 따른 뮤직 썸네일을 생성하는 프로세스(10)를 도시하는 흐름도이다. 바람직한 실시예에서, 전체 프로세스(10)는 트리거링 이벤트에 응답하여 자동적으로 수행되어, 소프트웨어 또는 본 명세서에서 설명되는 다른 방식 중 하나로 프로세스(10)가 구현될 수 있다.

우선, 단계(12)에서 썸네일이 생성될 뮤직 피스가 입력된다. 가령, 사용자가 대표 샘플을 듣고자 하는 특정 뮤직 피스를 선택하는 이벤트에서 사용자에 의해 수동적으로 프로세스(10)가 개시된다는 것을 유의하자. 이와 달리, 프로세스(10)는, 가령, 특정 컴퓨터 시스템 폴더로 새로운 뮤직 파일이 복사될 때마다 자동적으로 수행될 수 있다. 일반적으로, 입력된 뮤직 피스는 하나의 시간 도메인 오디오 세기 신호에 의해 표현된다고 가정한다. 특정 뮤직 피스가 실제로 다수의 채널을 포함하는 이벤트에서, 이러한 채널 중 하나가 사용되거나 여러 채널이 하나의 신호로 조합되거나 개별 채널이 개별적으로 처리되어 결과가 조합될 수 있다.

바람직한 실시예에서, 입력된 뮤직 피스의 오디오 프로세싱은 반복 세그먼트를 식별하는 단계(13)와, 노래하는 세그먼트(노래하는 부분이 존재하는 것으로 검 출되는 뮤직 피스 세그먼트)를 검출하는 단계(15)인 2개의 주요 단계를 포함한다. 소정 실시예에서, 단계(13 및 15)는 서로에 대해 독립적이므로, 순서대로 수행되거나 병렬적으로 수행될 수도 있다. 다른 실시예에서, 가령, (한 소절(a verse) 또는 후렴(refrain)으로서 시작되는 것과 같은) 반복되는 세그먼트에서 노래를 시작하는 것을 검출하는 데에만 관심이 있는 경우, 반복 정보가 사용되어 프로세스가 노래하는 부분을 검출하는 곳을 한정한다.

단계(13)에서, 반복 세그먼트가 식별된다. 바람직하게는, 이러한 식별은 주파수 도메인 메트릭의 분석에 기초하며, 특정 최소 구간(가령, 최소 12초)을 갖는 반복 세그먼트만이 식별된다. 반복 세그먼트를 최초로 식별하는 하나의 기술을 주로 도 2를 참조하여 설명할 것이지만, 다양한 다른 기술이 대신 사용될 수도 있다는 것을 이해해야 한다.

우선, 도 2의 단계(31)에서, 뮤직 피스에 대한 오디오 신호가 프레임들로 분할된다. 바람직한 실시예에서, 각 프레임은 250밀리초(ms) 길이이며 인접 프레임이, 가령, 프레임 크기의 절반(즉, 이 경우에는 125ms)을 중첩한다.

단계(32)에서, 주파수 변환이 프레임마다 수행된다. 바람직하게는, 변환은 고속 푸리에 변환(FFT)이지만 다른 주파수 변환이 대신 사용될 수도 있다.

단계(34)에서, 프레임마다 "색도 특성 벡터(chroma feature vector)"가 생성된다. 바람직하게는, 이러한 색도 특성 벡터는 다음과 같이 결정된다. 먼저, FFT 크기가 계산된 후, 다음 주파수-대-음색(note) 번호 변환 공식을 사용하여 FFT 빈(bins)이 12 피치 클래스로 할당된다.

바람직하게는, 33Hz에서 4000Hz에 걸치는 7 옥타브가 선택되고, 상이한 옥타브에서 대응하는 음색에 대한 크기를 합산하여 12 피치 클래스 각각에 대해 값이 결정된다. 따라서, 각 프레임은 하나의 12-요소 색도 특성 벡터에 의해 표현된다.

단계(35)에서, 중첩 프레임 그룹의 시퀀스가 정의된다. 바람직한 실시예에서, 각 그룹은 5초 간격 내의 모든 프레임을 포함하며 그룹은 길이의 3/4만큼 중첩하여, 각 그룹의 시작은 이전 그룹의 시작으로부터 1/4초만큼 오프셋된다. 그러나, 본 발명의 다른 실시예에서, 다른 구간 및/또는 오프셋이 사용될 수 있다. 바람직하게는 이 구간은 의미 있는 비교를 허용하기에 충분하며, 바람직하게는 오프셋은 정확도와 프로세싱 속도 사이의 절충점으로서 선택된다.

단계(37)에서, 유사한 그룹이 식별된다. 일반적으로, 각 그룹이 각 후속 그룹에 대해 비교되는 바람직한 실시예에서, (세그먼트가 뮤직 피스의 진행과정에서 최대 5회 반복된다고 가정하면) 4개의 이러한 후속 그룹의 최대값이 식별된다. 더 많거나 적은 수의 반복이 예상되면, 이러하나 최대 횟수는 적합하게 조절되는 것이 바람직하다.

더 구체적으로, 본 실시예는 다음 방식으로 유사한 그룹을 식별한다. 각 그룹에 대해, 이 그룹과 이어지는 모든 그룹 사이에 (다른 거리 측정이 대신 사용될 수도 있지만) 유클리디안 거리(Euclidean distance)를 나타내는 템포 곡선이 생성된다. 즉, 곡선의 x축은 시간을 나타내고 y축은 거리 값을 나타낸다. 그 후, 곡선의 4개의 최저 최소값이 선택되는데, 각 최소값은 소정 크기 및 경사 도(sharpness) 기준(후술함)을 만족시키고, 또한 반복되는 쌍은 서로로부터 최저 5초라고 가정된다. 2 그룹 사이의 시간 차인 이들 최소값 각각의 x축 값 T가 노트된다.

이러한 템포 곡선(50)의 예가 도 3에 도시되어 있다. 4개의 선택된 최소값(51-54)마다, 위치(최소값(51-54)에 대해 각각 T=11, 38, 43 및 55) 및 경사도(최소값(51-54)에 대해 각각 1.1, 1.1, 1.2 및 1.0) 값이 도시되어 있다. 바람직하게는, 경사도는 다음과 같이 계산된다.

여기서, d(i)는 그룹(i)과 관련되는 거리 값이고, 경사도 임계는 바람직하게는 최대값 0.2이고, 크기 임계는 바람직하게는 최대값 10이다. 그러나, 경사도 및/또는 다른 임계를 계산하는 다른 방법이 대신 사용될 수도 있다.

각 그룹에 대한 요구되는 기준을 만족하는 최소값이 식별된 후, 적어도 하나의 동일한 T 값을 공유하는 연속적인 그룹이 서로 링크된다. 예를 들어, 그룹 M으로부터 시작하여 그룹 M+N+1에서 종료되는 N개의 연속적인 그룹이 존재하며, 이들 각각이 x축값 S(즉, T=S)인 거리 곡선의 식별된 최소값을 갖는 경우, 이들 N개의 그룹은 서로 링크되어 하나의 세그먼트를 형성한다. 유사하게, M+S로부터 시작하여 M+S+N-1에서 종료되는, N개의 그룹도 포함하는 매칭 세그먼트가 형성된다. 이들 2개의 세그먼트는 반복 세그먼트 쌍으로서 식별된다. 전술한 바와 같이, 바람직한 실시예에서, 특정 최소 구간보다 짧은 세그먼트는 무시되는 것이 바람직하다. 본 실시예에서, 이러한 쌍의 각 세그먼트는 최저 12초 구간이어야 한다.

이 방식에서, 최소 5초 구간인 반복 세그먼트는 1과 1/4초의 증분으로 구성된다. 그러나, 전술한 바와 같이, 이들 값은 다른 실시예에서 조절될 수 있다.

전술한 프로세스로부터 얻어지는 예시적 세트가 도 4에 도시되어 있다. 이 예에서, 7쌍의 반복 세그먼트(P1-P7)가 식별되며, 식별된 세그먼트 각각(가령, 세그먼트 72, 73, 75, 81, 83, 85, 86 및 88)이 수평적으로 정렬되는 뮤직 피스(70)의 연속적인 부분을 표시한다. 도 4에 도시된 바와 같이, 세그먼트(72)는 세그먼트(73(P1))와 쌍을 이루며 세그먼트(75(P2))와도 쌍을 이룬다. 이와 별도로, 세그먼트(73)는 세그먼트(75(P3))와 쌍을 이룬다. 세그먼트(81)는 세그먼트(83(P4))와 쌍을 이룬다. (세그먼트(81)의 일부로 보일 수 있는) 세그먼트(85)는 세그먼트(86(P5))와 쌍을 이루며 세그먼트(88(P6))와 쌍을 이루고, 이와 유사하게 세그먼트(86)는 별도로 세그먼트(88(P7))와 쌍을 이룬다.

전술한 바와 같이, 전술한 반복 세그먼트를 최초로 식별하는 방안은 단지 예시적인 것이다. 예를 들어, 다양한 체험적 규칙(heuristic rules) 세트가 사용되어 전술한 절차를 안내하고 반복되는 세그먼트에서의 중요치 않은 변동에 대해 견고하다.

도 1로 돌아가서, 단계(15)에서 노래하는 세그먼트의 검출을 위한 바람직한 방안을 이제 설명한다. 먼저, 여러 상이한 메트릭 및 기준이 계산되어 뮤직 피스 내의 노래하는 세그먼트가 존재하는지를 표시할 수 있다는 것을 유의해야 한다. 바람직한 노래하는 메트릭은 다음과 같이 설명된다.

노래하는 부분을 표시하는데 유용하게 사용될 수 있는 메트릭의 한 클래스는 오디오 신호에 의해 구성되는 제로 크로싱의 횟수 또는 레이트를 본다. 제로 크로싱이 발생하는 레이트는 신호의 주파수 성분의 간단한 측정으로서 해석될 수 있다. 특히, 단시간 평균 제로 크로싱 레이트(ZCR)는 본 명세서에서 다음과 같이 정의된다.

즉, ZCR은 이전 N개의샘플을 포함하는 슬라이딩 윈도우 위의 제로 크로싱의 횟수의 카운트이다(여기서, N은 25ms의 시간 간격에 대응하도록, 즉, N = 샘플레이트 * 25로 선택되는 것이 바람직하다). 노래하는 음성 중 무성음 성분은 통상적으로 더 높은 주파수이므로 더 높은 ZCR이며, 유성음 성분은 통상적으로 더 낮은 주파수이므로 더 낮은 ZCR이고, 뮤직 피스의 음성 부분 동안에 ZCR 곡선에 가파른 피크가 존재하는 것이 보통이다.

종래 기술에 따르면, 본 명세서에서 사용되는 바와 같이, "유성음"은 성대가 진동하는 것이고, 무성음은 성대가 진동하지 않는 것이다. 예를 들어, 영어에서 "sss" 소리는 무성음인 반면 "zzz" 소리는 유성음이다. 영어에서, 전술한 예에서와 같이, 모음은 대부분 항상 유성음이고, 자음은 유성음 또는 무성음일 수 있다.

노래하는 부분이 없는 순수 뮤직 섹션 동안에, ZCR 값은 비교적 작은 범위 내에서 존재하는 것이 통상적인 반면, 음성 부분에서는 ZCR의 동적 범위가 훨씬 크며 피크가 가파르고 높다. 바람직한 실시예에서, 노래하는 세그먼트는 소정 기준 을 만족시키는 ZCR 곡선의 피크로 표시된다. 보다 바람직하게는, ZCR 곡선의 피크가 먼저 위치된다. 각 피크의 좌측 하단 및 우측 하단이 식별된다. 그 후, 피크의 크기, 좌측 암(arm)의 길이와 우측 암의 길이가 사전 결정된 임계값과 비교된다. 각 값이 대응하는 임계값 위인 경우, 피크는 "중요한 피크"로 간주된다. 바람직한 실시예에서, 피크 크기에 대한 임계값은 80이며, 좌측 암의 길이 및 우측 암의 길이에 대한 임계값은 60이다.

ZCR 곡선(100)의 예가 도 5에 도시되어 있다. 여기서, 피크(105)는 좌측 풋(foot)(107) 및 우측 풋(108)과, 좌측 풋(107로부터 피크(105)로 연장되는) 대응 좌측 암(110) 및 (우측 풋(108)로부터 피크(105)로 연장되는) 우측 암(111)을 갖는다. 피크(105)에 대한 ZCR이 80보다 크고 좌측 암(110) 및 우측 암(111)의 길이가 모두 60보다 크기 때문에, 피크(105)는 이 실시예에서 중요한 피크로 간주된다. 추가 중요 피크(113-115) 또한 도 5에 도시되어 있다.

어떠한 중요 피크도 없으며 동적 범위가 임계값보다 작은 섹션은 음성이 없는 것으로 가정된다. 바람직하게는, 노래하는 음성의 시작은 (피크 크기와 그 100개의 이전 ZCR 값들의 평균 및 편차의 합 사이의 비율로서 정의되는) "독립 비율"이 특정 임계값(가령, 2.0)보다 높은 첫 번째 중요 피크를 발견함으로써 검출될 수 있다. 소정 세부 실시예에서, 전술한 기준은 만족되지 않지만 두 번째 기준이 만족되는 경우, 그럼에도 불구하고 피크는 노래하는 부분의 시작으로서 결정된다. 이러한 실시예에서, 두 번째 기준은 독립 비율이 1.5보다 높고, 피크 크기가 100보다 높으며, 좌측 암 및 우측 암 모두가 80보다 긴 것이다.

또 다른 실시예에서, 피크의 경사도 또한 (또는 대신에) 계산되어 중요 피크를 정의하는 기준 및/또는 노래하는 부분의 시작을 결정하는 기준에 포함될 수 있다. 이러한 경우에, 바람직하게는, 경사도는 전술한 경사도 메트릭에 대한 유사한 방식으로 정의되고 사전 결정된 임계값 위일 것이 요구된다.

노래하는 세그먼트를 구분하는 다른 툴은 단시간 에너지 함수인데, 이는 다음과 같이 정의된다.

즉, 이전 N개의 샘플로 구성되는 슬라이딩 윈도우에 걸친 평균 신호 에너지(여기서, 다시, N은 25MS의 시간 간격에 대응하도록 선택된다). 음성 섹션에서는, (유성음 및 무성음 성분에 의해 각각 생성되는) 경사도 피크 및 저레벨 최소값은 에너지 함수 곡선에서 교대로 나타나는 반면, 비음성 섹션에서는 일반적으로 경사도 피크가 존재하지 않거나 부분적 최소값이 연속적으로 높은 레벨에 존재한다. 따라서, 본 발명의 바람직한 실시예에서, 중요 피크가 검출되고 부분적 최소값이 체크되어 뮤직 피스의 음성 세그먼트의 위치를 파악한다.

노래하는 부분의 시작은, 가령, 전주 또는 간주 후, 에너지 곡선의 급격한 상승을 야기한다. 따라서, 바람직하게는, 가파른 피크 및 저레벨 최대값을 갖는 세그먼트가 검출된 후, 그 세그먼트 내의 노래하는 부분의 실제 시작은 이러한 에너지 곡선의 급격한 상승을 발견함으로써 검출된다.

가파른 피크를 검출하기 위해, 바람직하게는, ZCR 곡선의 중요 피크를 검출 하기 위해 전술한 유사한 방법이 사용된다. 즉, 피크 크기, 좌측 암의 길이, 우측 암의 길이 및 경사도가 사전 결정된 임계값과 비교된다. 바람직하게는, 피크 크기에 대한 임계값은 전체 뮤직 피스에 걸친 평균 및 편차에 기초하는 적응적인 것이다. 예를 들어, 일 실시예에서, 임계값은 평균+std*c로서 설정되는데, 여기서 c는 2 또는 3일 수 있다. 전술한 바와 같이, 팔 길이에 대한 임계값과 경사도는 ZCR 곡선에 대한 것과 동일하다.

저레벨 최소값을 검출하기 위해, 바람직하게는, 적응적 임계값은 뮤직 피스의 부분적 세그먼트의 에너지 곡선의 평균 및 편차에 기초하여 결정된다. 바람직하게는, 이러한 적응적 임계값은 에너지 곡선의 전체적 및 부분적 평균 및 편차 값에 기초하여 결정된다. 바람직하게는, 적응적 임계값은 전체 평균 및 편차, 가령, 평균-std*c(c=2)에 기초하여 우선 결정되고, 임계값보다 낮은 샘플을 갖지 않는 세그먼트는 비음성으로 라벨링된다. 바람직하게는, 노래의 나머지 부분동안, 슬라이딩 윈도우 내의 각 세그먼트(가령, 2-5 초 길이) 동안, 부분적 평균 및 편차에 기초하여 임계값이 계산되고, 세그먼트내의 샘플이 이 임계값에 대해 체크되며, 최소값의 크기가 임계값과 비교되며, 임계값보다 낮은 것이 있으면 검출된다.

전술한 검출에 기초하여, 노래의 음성 세그먼트, 가령, 가파른 피크 및 저레벨 최소값을 갖는 세그먼트가 식별된다. 바람직하게는, (전두 또는 간주 후) 그 세그먼트 내의 노래하는 부분의 실제 시작은 에너지 곡선의 전체적 및/또는 부분적 평균 및 편차 값에 기초하여 에너지 곡선의 급격한 상승을 검출함으로써 식별된다. 보다 바람직하게는, 부분적 세그먼트(가령, 5-10 초 길이)의 평균 및 표준 편 차(std)가 계산된 후, 임계 t1 = 평균 + std*c가 결정되는데, 여기서 c는 상수(가령, 일 실시예에서 c=2)이다. 다음으로, 부분적 세그먼트에서, t1보다 큰 제 1 포인트 A가 식별되고 노래하는 부분의 시작으로서 지정된다. 이와 달리, 첫 번째 에너지 곡선에서 검출이 수행될 수 있으며, a(i)이 에너지 곡선이면 그 첫 번째 차는 b(i) = a(i+1) - a(i)이다. 검출에 대한 신용 점수(confidence score)가 추정될 수도 있으며, 바람직하게는, 신용 점수는 부분적 세그먼트의 A 이후 또는 이전의 최대값들 사이의 비율이고, 이러한 경우에, 신용 점수에 기초하여, a(i)로부터 결과를 취할지 또는 b(i)로부터 결과를 취할지에 대한 결정이 내려지는 것이 바람직하다.

단시간 에너지 함수 곡선(120)의 예가 도 6에 도시되어 있다. 여기서, 세그먼트(121)는 노래하는 부분이 없는 전주이고, 세그먼트(122)는 노래하는 부분을 포함하고 세그먼트(123)는 간주이다. 전술한 바와 같이, 노래하는 부분(124)의 시작은 에너지의 급격한 상승에 의해 표시된다.

노래하는 세그먼트를 식별하는 추가 툴은 단시간 피치 곡선이다. 일반적으로, 피치는 오디오 신호의 기본 주파수가 존재한다면 이에 대응한다. 피치의 템포 곡선에서, 고조파 오디오 신호는 (인접 지점들 사이의 크기의 차가 작으며) 피치 값을 천천히 변경하는 세그먼트에 의해 특징지어진다. 이와 반대로, 비고조파 성분에 대응하는 피치 곡선의 세그먼트는 매우 급격히 변화하기 쉽다. 일반적으로 연속적인 고조파인 뮤직은 통상적으로 연속적으로 검출 가능하지만 피치를 변하는 피치를 제시한다.

바람직한 실시예에서, 피치는 시간 도메인 및 스펙트럼 도메인의 자동수정을 개별적으로 계산함으로써 추정된 후, 사전 결정된 가중치를 사용하여 이들을 합산한다. 가령, 2001년도 5월 Salt lake City의 Proc. of ICASSP'01 제2권에 수록된 W.Chou, L. Gu의 "Robust sining detection in speech/music discriminator design"을 참조하자. 피치 계산에 대한 이 방안은 배경 잡음에 대해 견고하다는 것이 입증되었지만, 가령, 정확도 및 효율성의 관점에서의 원하는 절충점에 기초하여 다른 실시예에서 사용될 수 있다.

기악(instrumental music)에 대한 피치 곡선은 보통 음성 신호보다 평평한데, 피치 값은 흔히 노래하는 세그먼트 내의 작은 편차(가령, 개별적인 음색 동안의 진동)를 가지며, 많은 기악 세그먼트 내에서 피치는 더 자주 일관적이다. 그러므로, 세그먼트 내의 피치 값의 변동은, 바람직하게는, 순수 기악으로부터 노래하는 부분을 구분하는 메트릭으로서 사용된다.

또한, 노래하는 음성의 피치는 120 내지 500Hz의 범위를 가지는 것이 보통이지만 기악에 대한 피치 범위는 더 넓다. 따라서, 바람직한 실시예에서, 크기를 천천히 변경했고 진동을 가지며 특정 피치 범위 내에 존재하는 피치 곡선의 세그먼트가 노래하는 부분이 존재한다는 표시로서 검출된다.

천천히 변하는 피치 크기를 검출하기 위해, 인접 피치 값들 사이의 차가 체크된다. 천천히 변하는 피치의 세그먼트에 있어서, 바람직하게는, 인접 피치들의 각 쌍들 사이의 차는 특정 임계값(가령, 5)보다 낮으며, 세그먼트의 길이는 사전 결정된 임계값(가령, 3 또는 4 오디오 프레임)보다 길다.

진동을 검출하기 위해, 세그먼트의 피치 값들의 편차가 계산되고, 이는 사전 결정된 임계값과 비교된다. 노래하는 음성의 기본 주파수는 통상적으로 120 내지 500Hz 범위에 존재하기 때문에, 샘플링 레이트 16000Hz의 오디오 신호에 있어서, 피치 범위는 32 내지 133이다. 따라서, 바람직한 실시예에서, 세그먼트의 피치 값은 이 범위 내에 해당해야 한다. 더 바람직하게는, 노래하는 부분을 포함하는 것으로 검출된 세그먼트에 대해, 모든 3개의 기준(천천히 변하는 크기, 진동 및 특정 피치 범위 내)이 만족되어야 한다.

Beatles의 노래 "Yesterday"의 일부에 대한 단시간 피치 곡선(130)의 예가 도 7에 도시되어 있다. 여기서, x축은 시간이고 y축은 피치 값이다. 120 내지 500 Hz의 정상적인 노래하는 범위는 2개의 수평 라인(132)에 의해 둘러싸인 대역에 대응하며, 노래하는 부분(135)의 시작은 피치 값이 그 범위 내에 해당하기 시작한다는 사실에 의해서뿐만 아니라 피치(130)의 진동(137)의 출현에 의해서도 확인된다.

요약하면, 입력된 뮤직 피스의 노래하는 부분을 검출하기 위해 사용되는 메트릭은, 바람직하게는 ZCR, 단시간 에너지 함수 및 단시간 피치 곡선에 기초한다. 이들 함수 각각은 계산되면 바람직하게는 매 20ms마다 연산되고, 윈도우 크기는 25ms이다. 이들 3개의 메트릭으로부터의 결과를 조합함으로써, 흔히 더 정확한 결과를 얻는 것이 가능하다. 예를 들어, 강한 타악기는 높은 ZCR 피크를 일으킬 수 있는데, 이는 그렇지 않으면 노래하는 음성으로서 잘못 검출될 수 있다. 그러나, 이러한 비고조파 사운드는 피치 곡선의 음성의 특성을 갖지 못한다.

피치 추정은 연산적으로 가장 고가이므로, 바람직한 실시예에서, ZCR 및 에너지 함수만이 전체 뮤직 피스에 대해 계산된다. 즉, ZCR 및 에너지 특성은 뮤직 피스에서 후보 음성 부분을 검출하기 위해 먼저 사용된다. 바람직하게는, (가령, 전술한 바와 같은) ZCR 또는 단시간 에너지 함수의 사용을 통해 검출되는 임의의 후보 음성 부분은 후보 음성 세그먼트 세트를 생성하도록 조합된다. 그 후, 후보 음성 세그먼트마다 세그먼트의 시작으로부터 피치가 계산되어, 특정 피치 노래하는 부분 기준(가령, 전술한 3개의 피티 기준)을 만족시키는 세그먼트의 일부가 발견될 때까지 계속된다. 이러한 피치 분석으로부터의 결과에 기초하여, 노래하는 부분이 시작 위치가 조절된다. 음성 성분이 후보 섹션에서 검출되지 않는 경우, 비음성으로서 라벨링된다.

도 1로 돌아가서, 단계(16)에서 소정 실시예에서 추후 사용을 위해 저장된 전술한 바와 같이 유도된 정보에 기초하여 뮤직 피스에 대한 구조가 생성된다. 이 단계(16)의 구현은 이러한 정보, 가령, 반복 쌍 각각의 위치 및 노래하는 세그먼트의 위치에 기초하여 뮤직 피스의 다른 부분을 라벨링하는 것처럼 간단할 수 있다. 그러나, 바람직한 실시예에서, 이 단계(16)에서 추가 프로세싱이 수행되어 이전 단계에서 식별된 구조 정보를 세분화한다.

이러한 프로세싱을 수행하는 하나의 예시적 방법(150)을 도 8을 참조하여 설명할 것이다. 먼저, 단계(151)에서, 각 뮤직 피스의 각각의 반복되지 않는 세그먼트가 전주(시작부분에서 발생하는 경우), 간주(중간부분에서 발생하는 경우) 또는 후주로서 라벨링된다. 따라서, 도 4에 도시된 예에 계속하여, 도 9의 라벨링된 전 주(171), 간주(172) 및 후주(173)는 어떠한 반복도 보이지 않았던 뮤직 피스(70)의 부분에 대응한다.

단계(152)에서, 도 1의 단계(13)에서 식별된 반복 쌍은 (필요한 경우에) 시간 순서로 저장되며 구조 정보를 세분화하려 시도할 때 처리된다. 일반적으로, 이러한 프로세싱은 사전 정의된 체험적 규칙에 따라 알맞게 어떤 중첩 세그먼트를 합체 및/또는 분할하는 단계를 포함하는 것이 바람직하다.

이러한 프로세싱의 결과로서, 일부 중첩 세그먼트는 병합될 수 있으며, 일부는 분할될 수 있고, 일부는 제거될 수 있다. 예를 들어, 2개의 쌍 사이의 충돌이 존재하는 경우(즉, 이들 중 하나만이 유효할 수 있는 경우), 바람직한 실시예에서는 통상적으로 더 오래된 것이 유지되고 더 짧은 것이 폐기된다. 다른 한편, 더 긴 것이 너무 길면(가령, 특정 임계값보다 길면), 더 긴 것은 분할된다. 다음은 대표적 실시예에서 사용되는 체험적 규칙의 특정 예이다.

ㆍ 쌍 A가 세그먼트 A1 및 A2를 포함하고, 쌍 B가 세그먼트 B1 및 B2를 포함하며, A1이 B1과 중첩하고, A2는 B2와 중첩하지 않는 경우, 다음 규칙이 적용된다: A1이 B1보다 길면 A1, A2, B2는 반복되는 세그먼트로서 라벨링되고, 그렇지 않으면 B1, A2, B2가 반복되는 세그먼트로서 라벨링된다.

ㆍ A1과 B1이 중첩하고, A2가 B2가 중첩하며 쌍 A의 길이가 특정 임계값(가령, 30 또는 40초)보다 길면, 쌍 A는 2 또는 3개의 쌍으로 분할될 수 있다. 분할 후에 각 쌍이 사전 결정된 임계값(가령, 12초)보다 긴 경우, 한 쌍이 쌍 B와 동일하고, B 이전 및/또는 이후에 새로운 쌍이 존재한다.

도 4의 예에서, 개별적인 반복 쌍은 도 4에서 시간 순서대로 이미 배열되어, 추가 분류가 수행될 필요가 없다. 도 10은 전술한 첫 번째로 게시된 체험적적 규칙에 따른, 서로 전체적으로 공동 확장적인 중첩 세그먼트를 최초로 조합한 후의 결과를 도시하고 있다. 도 10에 도시된 바와 같이, 관련 쌍은 2개 이상의 세그먼트를 갖는 그룹으로 간단히 조합되었다.

그 후, 도 11은 모든 중첩 세그먼트가 분해된 후의 최종 결과를 도시하고 있다. 더 구체적으로, 도 11을 참조하면, 전술한 두 번째로 게시된 체험적 규칙에 따른, 세그먼트(81)는 세그먼트(73)와의 중첩에 기초하여 세그먼트(81A 및 81B)로 분할되었고, 유사하게, 세그먼트(83)는 세그먼트(75)와의 중첩에 기초하여 세그먼트(83A 및 83B)로 분할되었다. 이들 부분은 이미 커버되므로, 세그먼트(81A 및 83A)는 더 이상 고려하지 않는다. 또한, 세그먼트(81)는 완전히 중첩하고 세그먼트(85)보다 커서 세그먼트(85)는 더 이상 고려하지 않는다. 유사하게, 세그먼트(83B)는 완전히 중첩하고 세그먼트(86)보다 커서 세그먼트(86)는 더 이상 고려하지 않는다.

이러한 프로세싱의 완료에 따라, 단계(154)에서 최종 세그먼트가 라벨링된다. 바람직한 실시예에서, 예비 구조가 반복 단독에 기초하여 식별된다. 그 후, 노래라는 정보에 기초하여 예비 구조가 알맞게 수정된다. 보다 바람직하게는, 예비 구조는 체험적적 규칙을 사용하여 직접적인 방식으로 생성된다. 예를 들어, 3개의 반복 세그먼트가 단계(152)에서 식별된 경우, 모든 3개의 세그먼트에 동일한 라벨이 할당된다. 2개의 반복 세그먼트 그룹이 존재하는 경우, 하나는 다른 것보 다 긴 세그먼트를 가지고 둘 중 긴 것이 "소절"로 라벨링되고 둘 중 짧은 것이 "후렴"으로 라벨링되는 것이 바람직하다. 이와 달리, 반복 세그먼트의 한 그룹의 각 세그먼트는 A로 간단히 라벨링될 수 있고, 다른 밤복 그룹의 각 세그먼트는 B로 라벨링되는 식이다.

그 후, 노래하는 부분 검출 정보가 사용되어 예비 구조를 수정하는데, 가령, 더 정밀하게 한다. 예를 들어, 노래하는 부분을 포함하지 않는 어떤 반복되는 세그먼트는 전주, 간주 또는 후주로 알맞게 다시 라벨링되는 것이 바람직하다. 이에 추가하거나 이를 대신하여, 이전에 라벨링된 전주, 간주 또는 후주의 일부 또는 전부가 노래하는 부분을 갖는 것으로 검출되면, 소정 실시예에서 이는 새로운 유형의 소절 세그먼트로서 라벨링된다(가령, A 및 B로서 이미 라벨링된 소절이 존재하면, 이 세그먼트는 C로서 라벨링된다). 이와 유사하게, (어느 곳에도 노래하는 부분이 없는) 순수 기악 피스가 (가령, 동일한 기술을 사용하여) 적합하게 구분되어 표시된다.

또한, 단계(155)에서 노래하는 정보는 반복 정보와 함께 사용되어 바로 인접한 세그먼트들 사이의 경계의 어떤 불일치를 조절하는 것이 바람직하다. 예를 들어, 검출된 전주의 끝부분과 검출된 첫 번째 소절의 시가부분 사이의 간격이 존재하는 경우, 오디오 특성 및 반복 쌍의 추가 체크가 수행되어 이들이 만나도록 위치를 조절하는 것이 바람직하다. 다른 실시예에서, 근사 전이 지점(가령, 두 번째 또는 2개 내에서)이 적합하고, 썸네일의 시작부분이 전이의 초기 지점으로서 간단히 설정된다.

도 11에 도시된 예를 다시 참조하면, 최종 결과는, 후렴(81B 및 83B)의 일부에 대해 반복된다는 관점에서, 세그먼트(72, 73 및 75)는 소절로서 라벨링되고, 세그먼트(81B 및 83B)는 후렴으로 라벨링되며, 세그먼트(88)는 단축된 후렴으로서 라벨링된다. 이 예에서, 각 세그먼트(72,73,75,81B,83B 및 88)는 적어도 노래하는 부분으로 시작한다고 가정한다. 다르게 검출되는 경우, 이러한 세그먼트는 전주, 간주 또는 후주로서 알맞게 다시 라벨링되는 것이 바람직하다.

이 실시예에서, 대부분의 썸네일 기준이 노래하는 부분의 시작에만 기초한다는 가정에서는, (노래하는 세그먼트가 충분한 구간이면) 노래하는 세그먼트의 정확한 종료가 검출되지 않는다는 것을 유의해야 한다. 이 목적을 위해, ZCR 및 단시간 에너지 함수 노래하는 메트릭 단독에 기초하여 결정되는 근사 후주가 통상적으로 적합할 것이다. 다른 실시예에서, 하나 이상의 노래하는 세그먼트의 정확한 종료는, 가령, 전술한 피치-기반 노래하는 부분 메트릭을 사용하여 발견된다.

입력된 뮤직 피스에 대한 최종 구조가 일단 식별되면, 이러한 구조는 즉시 처리되거나(가령, 하나 이상의 오디오 썸네일을 생성하거나) (가령, 하나 이상의 오디오 썸네일의 후속 생성을 위해) 저장될 수 있다.

도 1로 다시 돌아가서, 단계(17)에서 뮤직 피스에 대한 오디오 썸네일을 식별하는 기준이 획득된다. 바람직한 실시예에서, 이러한 기준은 직접 또는 간접적으로 멜로디 반복 및/또는 노래하는 부분의 존재에 기초한다. 즉, 사용자(또는 자동화 시스템)이 이러한 고려사항에 기초하여 기준을 정의할 수 있는 것이 바람직하다. 보다 바람직하게는, 썸네일 기준은 구조 라벨에 대한 고유 기준으로서 정의될 수 있다. 예를 들어, 이 기준은 뮤직 피스의 노래하는 부분의 시작으로부터 20초, 반복 세트의 일부인 전체 제 1 세그먼트, 반복 세트의 일부인 세그먼트 내의 노래하는 부분의 첫 번째 발생으로서 정의될 수 있다. 이러한 기준은 각 뮤직 피스에 대해 개별적으로 지정될 수 있다. 그러나, 바람직한 실시예에서, 하나 이상의 디폴트 썸네일 정의가 사용되어 넓은 범위의 여러 뮤직 피스에 걸친 썸네일을 생성하기 위해 사용된다.

전술한 바와 같이, 소정 실시예에서, 검출된 멜로디 반복 및 노래하는 부분의 존재 여부가 방법(10)에서 사용되어 입력된 뮤직 피스에 대한 라벨링된 구조를 자동적으로 생성한다. 이러한 실시예에서, 오디오 썸네일은 이러한 구조에 대해 상대적으로 정의되는 것이 바람직하다. 또한, 본 발명의 소정 실시예에서, 개별적인 뮤직 피스에 대해 다수의 썸네일이 생성된다. 이렇게 함으로써 사용자가 뮤직 피스의 짧은 세그먼트를 듣을 수 있고, 썸네일에 기초하여 그 피스가 사용자가 관심을 갖는 것으로 보이는 경우, 하나 이상의 추가 썸네일을 들음으로써 보다 우수한 품질의 전체 뮤직 피스를 얻도록 한다.

예를 들어, 첫 번째 썸네일이 노래의 첫 번째 소절일 수 있으며, 두 번째 썸네일은 가장 많이 반복된 후렴/코러스일 수 있다. 썸네일의 길이는 고정(가령, 첫 번째 소정의 시작으로부터 15초)되거나 세그먼트의 길이와 동일(가령, 전체 후렴, 첫 번째 발생)할 수 있다. 뮤직 피스(70)에 대한 구조 및 뮤직 피스(70)에 대한 5개의 썸네일(201-205)이 도 12에 도시되어 있으며, 썸네일(201)은 첫 번째로 재생되고, 202가 두 번째로 재생되며, 203이 세 번째로 재생되며, 204가 네 번째로 재 생되고, 205가 다섯 번째로 재생된다.

도 1에 도시된 단계 시퀀스는 단지 예시적이라는 것을 이해해야 한다. 예를 들어, 단계(17)는 프로세스(10)의 임의의 곳에 위치될 수 있다.

단계(18)에서, 오디오 썸네일이 단계(17)에서 획득된 기준에 대응하는 뮤직 피스의 세그먼트로서 선택되는데, 그 뮤직 피스에 대해 생성된 멜로디 반복 및 노래하는 부분 정보에 기초한다. 단계(18)의 구현은 통상적으로 이러한 정보 및/또는 이러한 기준에서 지정되는 뮤직 피스의 어떤 다른 특징에 이러한 기준을 직접적으로 적용할 것이다.

단계(19)에서, 선택된 썸네일은 추후 재생을 위해 재생 및/또는 저장된다. 예를 들어, 하나의 대표적 실시예에서, 썸네일은 동시에 생성되어 즉시 재생된다. 이와 달리, 썸네일은 뮤직 피스의 큰 수집에 대해 생성되고 이들 피스들과 함께 저장되어 원하는 때에 재생될 수 있다.

예를 들어, 전술한 바와 같이 오디오 썸네일을 생성하는 방법은 뮤직을 브라우징하는 더 큰 시스템으로 통합될 수 있다. 이러한 시스템의 일례가 2006년도 7월 31일자로 출원된 미국 특허 출원 제 11/496,999 호 "Method and System for Browsing Music"에 설명되어 있으며, 본 명세서에서 그 전체를 참조한다. 일례에서, 썸네일이 사용자에게 제공되며 사용자가 대응 뮤직 피스를 선택하면 사용자 재생목록에 추가된다. 그 후, 무작위적으로 또는 사용자의 재생목록에 이미 존재하는 뮤직 피스에 대한 근사도에 기초하여 추가 썸네일이 제공된다.

시스템 환경

일반적으로, 명시적으로 다르게 표시되는 곳을 제외하고, 본 명세서에서 설명되는 시스템, 방법 및 기술 모두가 하나 이상의 프로그래밍 가능한 범용 연산 장치를 사용하여 실시될 수 있다. 통상적으로, 이러한 장치는 가령, 버스를 통해 서로 상호접속되는 다음의 구성요소 중 적어도 일부를 포함할 수 있는데, 예를 들면, 하나 이상의 중앙 처리 장치(CPU); RAM(read only memory); ROM(random access memory); 입력/출력 소프트웨어 및 (가령, 직렬 포트, 병렬 포트, USB 접속 또는 파이어와이어 접속과 같은 하드와이어드 접속을 사용하거나, 블루투스 또는 802.11 프로토콜과 같은 무선 프로토콜을 사용하여) 다른 장치들과 인터페이싱하는 회로; (가령, 이더넷 카드와 같은 하드와이어드 접속 또는 CDMA, GSM 블루투스, 802.11 프로토콜 또는 임의의 다른 셀룰러-기반 또는 비 셀룰러 기반 시스템과 같은 무선 프로토콜을 사용하여) 본 발명의 많은 실시예에서 인터넷 또는 임의의 다른 네트워크에 접속하는 하나 이상의 네트워크를 접속하는 소프트웨어 및 회로; (음극선관 디스플레이, 액정 디스플레이, 유기발광 디스플레이, 폴리머 발광 디스플레이 또는 임의의 다른 박막 디스플레이과 같은) 디스플레이; (하나 이상의 스피커, 헤드폰 셋 및 프린터와 같은) 기타 출력 장치; (마우스, 터치패드, 타블릿, 터치-감지 디스플레이 또는 기타 포인팅 장치, 키보드, 키패드, 마이크로폰 및 스캐너와 같은) 하나 이상의 입력 장치; (하드 디스크 드라이브와 같은) 대용량 저장 장치; 실시간 클록; (RAM으로부터의 판독 및 기록을 위한 자기 디스크, 자기 테이프, 광-자기 디스크, 광 디스크 등과 같은) 제거 가능한 저장 판독/기록 장치; 및 (가령, 팩스를 전송하거나 다이얼 업 접속을 통해 인터넷 또는 임의의 다른 컴퓨터 네트워크에 접속하는) 모뎀이 있다. 동작에서, 이러한 범용 컴퓨터에 의해 수행되는 범위에서, 통상적으로 처음에는 대용량 저장장치(가령, 하드 디스크)에 저장되는 전술한 방법 및 기능을 구현하는 처리 단계는, RAM으로 다운로딩된 후 CPU에 의해 RAM으로부터 실행된다. 그러나, 어떤 경우에는 처리 단계가 처음부터 RAM 또는 ROM에 저장된다.

본 발명을 구현하는 데에 사용되는 적합한 장치는 다양한 판매자로부터 얻어질 수 있다. 다양한 실시예에서, 작업의 크기 및 복잡도에 의존하여 여러 종류의 장치가 사용된다. 적합한 장치는, 메인프레임 컵퓨터, 멀티프로세서 컴퓨터, 워크스테이션, 개인용 컴퓨터 및 PDA, 무선 전화 또는 임의의 다른 애플라이언스 또는 장치와 같은 훨씬 작은 컴퓨터를 포함하며, 독립형이거나, 네트워크로의 하드와이어드 또는 네트워크로의 무선 접속일 수 있다.

또한, 범용 프로그래밍 가능한 장치를 설명하였지만, 다른 실시예에서 하나 이상의 특수 목적 프로세서 또는 컴퓨터가 대신(또는 추가로) 사용된다. 일반적으로, 명시적으로 다르게 표시되는 것을 제외하고, 전술한 기능은 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있으며, 특정 구현이 알려진 공학 절충방안에 기초하여 선택된다는 것을 유의해야 한다. 보다 구체적으로, 전술한 기능은 고정되거나 사전 결정되거나 논리 방식으로 구현되며, 이는 프로그래밍(가령, 소프트웨어 또는 펌웨어), 적합한 논리 성분(하드웨어) 배열 또는 둘의 임의의 조합을 통해 달성될 수 있으며, 이는 당업자에게 쉽게 인식될 것이다.

또한, 본 발명은 본 발명의 방법 및 기능을 수행하기 위한 프로그램 인스트럭션이 저장된 기계-판독 가능한 매체에 관한 것이라는 것을 이해해야 한다. 이러한 매체는, 예시적으로, 자기 디스크, 자기 테이프, CD ROM 및 DVD ROM과 같은 광학적으로 판독 가능한 매체, PCMCIA 카드와 같은 반도체 메모리, 다양한 종류의 메모리 카드, USB 메모리 장치 등을 포함한다. 각 경우에, 매체는 소형 디스크 드라이브 또는 소형 디스크, 디스켓, 카세트, 카트리지, 카드, 스틱 등과 같은 휴대용 아이템의 형태를 취하거나, 컴퓨터 또는 기타 장치에 제공되는 하드 디스크 드라이브, ROM 또는 RAM과 같은 상대적으로 크거나 이동 불가능한 아이템의 형태를 취할 수 있다.

전술한 설명은 주로 전자 컴퓨터 및 장치를 강조하였다. 그러나, 전자, 광, 생물학 및 화학 프로세싱의 임의의 조합을 사용하는 장치와 같은 임의의 다른 컴퓨터 또는 기타 유형의 장치가 대신 사용될 수 있다는 것을 이해해야 한다.

추가 고려사항

전술한 설명은 특정 사용자 인터페이싱 메커니즘 및/또는 특정 방식을 통해 사용자-인터페이스 버튼을 클릭 또는 더블 클릭하거나, 사용자-인터페이스 아이템을 드래그하거나, 명령 또는 정보를 입력하는 것을 지칭한다. 이러한 기준 모두는 예시적으로만 의도된 것이며, 본 발명은 동일 또는 임의의 다른 사용자-인터페이스 메커니즘을 사용하여 임의의 다른 방식으로 사용자에 의한 대응하는 명령 또는 정보의 입력을 포함한다는 것을 이해해야 한다. 이에 추가하여 또는 이를 대신하여, 이러한 명령 또는 정보는 자동화(가령, 컴퓨터-실행) 프로세스에 의해 입력될 수 있다.

본 발명의 여러 상이한 실시예를 설명하였고, 이러한 실시예 각각이 소정의 특징을 포함하는 것으로 설명하였다. 그러나, 어떤 하나의 실시예의 설명과 관련하여 설명되는 특징이 그 실시예에만 한정되는 것은 아니며 다른 실시예 중 하나의 다양한 조합에 포함 및/또는 배열될 수 있으며, 당업자는 이를 인식할 것이다.

이와 유사하게, 전술한 바와 같이, 특정 모듈 또는 부품에 기능이 속하는 것으로 설명되었다. 그러나, 일반적으로 기능은 어떤 다른 모듈 또는 부품들 사이에서 원하는 대로 재분배될 수 있으며, 어떤 경우에는 특정 부품 또는 모듈에 대한 필요를 완전히 배체하거나 새로운 부품 또는 모듈의 추가를 요구할 수 있다. 바람직하게는, 본 발명의 특정 실시예를 참고하여 알려진 공학 절충안에 따라 기능이 적확히 분배되며, 당업자는 이를 인식할 것이다.

따라서, 실시예와 첨부된 도면을 참조하여 본 발명을 상세히 설명하였지만, 본 발명의 다양한 개조 및 변형이 본 발명의 사상과 범위를 벗어나지 않고 달성될 수 있다는 것은 당업자에게 명백할 것이다. 따라서, 본 발명은 도면과 상세한 설명에 설명된 구체적인 실시예에 한정되지 않는다. 오히려, 본 발명의 사상을 벗어나지 않는 모든 이러한 변형은 첨부된 청구범위에 의해서만 제한되는 본 발명의 범위 내에 존재하는 것으로 고려된다.

Claims

뮤직 피스(a musical piece)에 대한 오디오 썸네일(an audio thumbnail)을 생성하는 방법으로서,

뮤직 피스(70)를 입력하는 단계(12)와,

상기 뮤직 피스(12) 내의 복수의 상이한 반복 세그먼트(72, 73)의 위치를 식별하는 단계(13)와,

노래하는 부분이 존재하는 시점을 표시하는 계산된 노래하는 메트릭(110, 120, 130)에 기초하여, 상기 뮤직 피스(70) 내에서 노래하는 세그먼트(15)를 검출하는 단계와,

포괄적인 뮤직 구조를 참조하여 오디오 썸네일의 위치를 정의하는 썸네일 기준(17)을 획득하는 단계와,

상기 복수의 상이한 반복 세그먼트(72,73) 중 적어도 하나의 위치 및 상기 노래하는 세그먼트의 적어도 일부의 위치와 함께, 상기 썸네일 기준에 기초하여 상기 뮤직 피스의 한 세그먼트를 상기 오디오 썸네일(201)로서 선택하는 단계(18)와,

상기 오디오 썸네일을 재생하는 단계 및 추후 재생을 위해 상기 오디오 썸네일을 저장하는 단계 중 적어도 하나를 수행하는 단계(19)를 포함하는

오디오 썸네일 생성 방법.
제 1 항에 있어서,

상기 복수의 상이한 반복 세그먼트(72,73)의 위치 및 상기 노래하는 세그먼트의 적어도 일부의 위치에 기초하여, 상기 뮤직 피스(70)에 대한 라벨링된 구조를 생성하는 단계를 더 포함하는

오디오 썸네일 생성 방법.
제 2 항에 있어서,

상기 라벨링된 구조는, 상기 뮤직 피스 내의 복수의 상이한 반복 세그먼트의 위치를 사용하여 예비 구조를 우선 생성한 후, 상기 노래하는 세그먼트의 적어도 일부의 위치를 사용하여 상기 예비 구조를 수정함으로써 생성되는

오디오 썸네일 생성 방법.
제 2 항에 있어서,

상기 썸네일 기준은 상기 라벨링된 구조 내에서 식별되는 라벨을 참조하여 상기 오디오 썸네일의 위치를 정의하는

오디오 썸네일 생성 방법.
제 1 항에 있어서,

상기 노래하는 메트릭은, 제로 크로싱에 관한 제 1 메트릭(100)과, 논리 에너지에 관한 제 2 메트릭(120)과, 상기 뮤직 피스에 대한 오디오 신호의 적어도 일부 내의 피치의 평가에 관한 제 3 메트릭(130) 중 적어도 하나를 포함하는

오디오 썸네일 생성 방법.
제 1 항에 있어서,

제 2 썸네일 기준과, (1) 상기 복수의 상이한 반복 세그먼트 중 적어도 하나의 위치 및 (2) 상기 노래하는 세그먼트와 상기 계산된 노래하는 메트릭에 기초하여 검출된 두 번째 노래하는 세그먼트 중 적어도 하나의 적어도 일부의 위치 중 적어도 하나에 기초하여, 상기 뮤직 피스의 제 2 세그먼트를 제 2 오디오 썸네일(202)로서 선택하는 단계를 더 포함하는

오디오 썸네일 생성 방법.
제 1 항에 있어서,

상기 뮤직 피스 내의 상기 복수의 상이한 반복 세그먼트는 최초 반복 세그먼트 세트를 식별한 후, 특정 규칙에 기초하여 최초 세트의 세그먼트에 관해 조 합(39, 152) 및 분할(152) 동작을 수행하여 함으로써 식별되는

오디오 썸네일 생성 방법.
제 7 항에 있어서,

시간에 따른 주파수 도메인 메트릭(50)을 비교함으로써 상기 최초 반복 세그먼트가 식별되는(37)

오디오 썸네일 생성 방법.
제 1 항에 있어서,

상기 노래하는 세그먼트는 상기 뮤직 피스에 대한 오디오 신호의 적어도 일부 내의 피치(130)의 평가에 관한 메트릭에 기초하여 검출되는

오디오 썸네일 생성 방법.
제 9 항에 있어서,

상기 피치의 평가에 관한 메트릭은 상이한 메트릭 계산을 사용하여 먼저 식별된 뮤직 피스의 일부에 대해 선택적으로 계산되는

오디오 썸네일 생성 방법.