KR20030017522A

KR20030017522A - 가사/시각정보와 오디오 재생의 동기화

Info

Publication number: KR20030017522A
Application number: KR1020027015884A
Authority: KR
Inventors: 동제 리; 카렌 트로바토; 무랄리드하만 라마스와미
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-03-23
Filing date: 2002-03-22
Publication date: 2003-03-03
Also published as: US20020163533A1; US7058889B2; WO2002077966A2; JP2004521385A; TW550539B; WO2002077966A3; CN1463419A; EP1374219A2

Abstract

오디오 재생에 시각정보를 동기시키는 방법은, 표시장치에 연관된 메모리에 기억된 리스트로부터 원하는 오디오 파일을 선택하는 단계; 원격장치가 원하는 오디오 파일의 재생을 시작하게 표시장치에서 원격장치로 신호를 보내는 단계; 상기 시각정보가 상기 원하는 오디오 파일의 재생에 동기하여 표시되게, 타임스탬프 데이터에 따라 상기 원하는 오디오 파일에 연관된 시각정보를 표시장치에 표시하는 단계를 포함하고, 상기 원하는 오디오 파일의 재생 시작과 상기 표시단계의 시작은 표시장치로부터의 신호의 함수이다.

Description

가사/시각정보와 오디오 재생의 동기화{Synchronizing text/visual information with audio playback}

많은 시스템들이 음악이 연주될 때 표시장치에 곡의 가사를 보여줄 수 있다. 가라오케와 관련된 종래의 표시장치는 예들 들면, 통상적으로, 기록된 리릭 데이터(lyric data)에 따라 곡의 가사들을 나타내는 표시장치를 마련한다. 리릭 데이터는 사전설정된 구(phrase) 단위의 형태로 기록되고, 이 구의 세그먼트 위치는 곡의 가사들의 표시된 라인을 다른 라인으로 변경하도록 적응된다.

가라오케 시스템들에서의 문제는 고가의 수동 편집을 요한다는 것이다. 그러므로, 곡의 가사 파일 생성 비용을 보장할만큼 곡이 상업적으로 인기 있지 않다면, 원하는 곡의 가사 파일을 사용자가 얻을 수 없다. 더욱이, 가라오케 시스템들은 통상 휴대형이 아니어서 대형화면을 요한다. 또한, 리릭 표시에 있어서는 통상 특정의 표시장치에 맞추어 표시된다. 이에 따라, 특정의 표시장치에 사용되게 제작된 리릭 데이터가 다른 표시장치(예를 들면, 더 작은 화면을 구비한 다른 표시장치)에 사용한다면, 한 구의 가사들이 1라인 상에 표시되지 않을 수도 있다.

미국특허 6,062,867은 악곡이 진행됨에 따라 표시장치 상에 곡의 가사들의 표시상태가 점차로 변경되는 리릭 표시장치를 개시하고 있다. 리릭의 표시상태는 사전설정된 시간간격에서 사전설정된 분량으로 곡의 단어들 각각에 대해 기억시켜 둔 생성 타이밍 데이터에 근거하여 변경된다.

미국특허 6,053,740은 한 라인 상에 표시할 사전설정된 개수의 단어들을 정의하는 제1 라인 변경 코드와, 라인 상에 표시된 단어들의 세그먼트 위치를 정의하는 제2 라인 변경 코드를 포함하는 리릭 데이터를 기억시킨 리릭 표시장치를 제공한다.

기술의 진보에도 불구하고, 가사 혹은 그 외 다른 시각적 정보를 이에 연관된 오디오에 동기시키는 정확하고 효과적인 장치 및 방법에 대한 필요성이 여전히 존재한다. 단어들의 오디오 버전에 동기하여 곡의 단어들을 나타냄으로써 사용자가 따라 갈 수 있게 하는 표시장치에 대한 필요성도 존재한다.

본 발명은 일반적으로 가라오케 시스템들 등에서 사용하기 위한 곡들의 가사를 시간에 맞추어 표시하는 것에 관한 것으로, 특히 가사 및 시각정보를 오디오 재생에 동기시키는 장치 및 방법에 관한 것이다.

도 1은 일반적인 오디오 데이터의 분류를 도시한 블록도이다.

도 2는 오디오 신호들의 다수의 서로 다른 유형들로부터의 파형 세그먼트들을 도시한 것이다.

도 3은 오디오 특징 추출을 위한 도구들의 구성을 도시한 블록도이다.

도 4a는 2차원 구획된 공간을 도시한 그래프이다.

도 4b는 도 4a에 대응하는 판정 트리를 도시한 블록도이다.

도 5는 휴지부 검출 프로세스의 여러 단들에서의 오디오 신호를 도시한 것이다.

도 6은 본 발명에 따른 분할 프로세스를 도시한 것이다.

도 7은 곡의 음성부분과 비-음성부분을 그래픽으로 나타낸 것이다.

도 8은 샘플 곡의 가사를 도시한 것이다.

도 9a 및 도 9b는 연관된 타임스탬프 파일의 대응하는 버전과 함께 샘플 곡의 가사를 도시한 것이다.

도 10은 본 발명에 따른 타임스탬프 생성 프로세스의 전반적인 개요를 도시한 흐름도이다.

도 11은 본 발명에 따른 타임스탬프 생성 프로세스를 수행하기 위한 기반으로서 사용될 수 있는 각종 입력 요소들을 도시한 흐름도이다.

도 12는 타임스탬프 값들의 조정을 도시한 그래픽도이다.

도 13은 본 발명에 따라 사용하기 위한 휴대 표시장치를 도시한 것이다.

도 14는 본 발명에 따라 가사 및/또는 시각정보를 오디오 재생에 동기시키는 방법을 도시한 흐름도이다.

본 발명의 목적은 오디오 처리 기술을 사용하여 오디오(구체적으로, 음악) 재생에 연관된 가사 혹은 그 외 시각정보를 동기화시킨다. 본 발명은 사용자의 개시에서 얻을 수 있는 단어들 혹은 리릭을 취하고, 단어들이 적용되는 곳을 정하기 위해 곡들을 세그먼트하고, 각 세그먼트의 시작 및 종료 시간을 추출하고, 각 세그먼트에 타임스탬프 값들을 할당하고, 사용자가 따라갈 수 있게 동기하여 단어들을 표시할 수 있다.

본 발명은 가라오케 유형의 응용에 특히 적용할 수 있고, 이 경우 오디오 파일은 곡이며 시각정보는 곡의 가사이다. 타임스탬프 데이터는 시각정보를 대응하는 보이스 및 비-보이스 세그먼트들에 상관시키기 위해서 할당된다. 표시장치는 오디오 파일을 재생할 수 있는 원격장치에서 시작 시퀀스를 개시하고, 오디오 파일의 재생에 동기하여 시각정보를 표시하도록 구성된다. 또한, 휴대장치에 시각정보의 출력을 제공함으로써, 각자는 서로 상이한 뷰를 가질 수 있고, 이에 따라 편리하게 이동할 수 있다.

본 발명의 일 면에서, 표시장치에 연관된 메모리에 기억된 리스트로부터 원하는 오디오 파일을 선택하는 단계; 원격장치가 원하는 오디오 파일의 재생을 시작하게 표시장치에서 원격장치로 신호를 보내는 단계; 상기 시각정보가 상기 원하는 오디오 파일의 재생에 동기하여 표시되게, 타임스탬프 데이터에 따라 상기 원하는 오디오 파일에 연관된 시각정보를 표시장치에 표시하는 단계를 포함하고, 상기 원하는 오디오 파일의 재생 시작과 상기 표시단계의 시작은 표시장치로부터의 신호의 함수이다.

본 발명은 오디오 처리 기술을 사용하여 오디오 재생에 연관된 가사 혹은 그 외 다른 시각 정보를 동기시키는 효과적인 방법을 제공한다. 본 발명의 일 면에 따라서, 오디오 파일은 보이스 구간과 비-보이스 구간으로 세그먼트함으로써 오디오 파일에 연관된 시각정보간에 동기화를 향상시킨다.

이하의 설명은 다음과 같이 구성되어 있다. 먼저, 오디오 신호들의 분류에 사용되는 다양한 시간영역 특징과 스펙트럼 영역 특징에 대해 배경설명을 한다. 이어서, 도 1의 오디오 분류 시스템(40)에 의해 수행되는 각종의 처리단계들 각각에 대해서 개별적으로 설명한다.

구체적으로, 오디오 분류 시스템(40)은 도 2 및 도 3에 관련하여 후술되는 특징 추출 단계(42), 도 4a, 도 4b, 도 5에 관련하여 후술되는 휴지부 검출 단계(44), 도 6에 관련하여 후술되는 오디오 분할 단계 46, 및 도 6에 관련하여 후술되는 오디오 세그먼트 분류 단계(48)로 구성된다.

마지막으로, 가사 및 시각적 정보를 오디오 재생에 동기시키는 것에 대한 설명으로 설명을 마친다.

시간 및 스펙트럼 영역 특징 용어

먼저 도 2 및 도 3에서, 단시간 평균 에너지를 계산하는 도구를 AvgEnergy라 칭한다. AvgEnergy의 식은 다음과 같이 표현된다.

여기서,

W는 처리 윈도우의 크기이고, s(i)는 이산 시간 오디오 보이스이다.

다음의 몇 가지 스펙트럼 특징들처럼, 스펙트럼 중심은 시간축을 따라 프레임 단위로 수행되는 단시간 프리에 변환에 기초하여 계산된다.이 제i 프레임의 단시간 푸리에 변환을 나타낸다고 하면, 이 경우 M은 가장 큰 주파수 대역에 대한 지수(index)이다. 프레임 i의 스펙트럼 중심은 다음과 같이 하여 계산된다.

프레임 i의 FFT의 대역폭은 다음과 같이 하여 계산될 수 있다.

스펙트럼의 롤오프(Rolloff) 주파수(SRF)는 통상 낮은 에너지의 무성음의 음성 구간들에 대해선 매우 높으며 비교적 높은 에너지를 가진 음성 구간들에 대해선 훨씬 낮다. 그러나, 음악과 잡음은 서로 유사한 특성이 없어, 이 때문에 이러한 특징은 음성과 다른 유형들의 오디오 보이스들간을 분별하는데 있어 잠재적으로 유용한 특징이다. SRF의 정의는 다음과 같이 주어진다.

여기서 TH는 0과 1 사이의 임계값이다.

대역 에너지 비(BER)가 서로 상이한 방법들로 정의될 수 있을지라도, 근본적으로 여러 가지 정의들간에는 큰 차이는 없다. BER은 다음과 같이 하여 계산된다.

여기서 h=M/4이다.

델타 스펙트럼 크기는 음성/음악 판별기에 있어서는 매우 적합한 특징이다. 이것은 다음과 같이 주어진다.

제로-크로싱 레이트(ZCR)는 스펙트럼 중심의 상관도이다. 이것은 처리 윈도우 내의 시간영역 제로 크로싱들의 개수로서 정의된다.

이를테면 화자(speaker) 식별, 음성분석, 및 오디오 정보 검색과 같은 많은 응용들에선 피치 윤곽선(pitch contour) 정보가 사용된다. 많은 사용가능한 피치 검출 알고리즘들 중에서도, 고전적인 자기상관 기반의(auto-correlation based) 피치 추적기는 확실성이 있으므로 이것이 이용될 것이다. 대부분의 불필요한 시간 소비적인 자기상관 계산을 피하고 검출 정확도를 최적으로 하기 위해서, 피치 검출 방식에 일련의 수정 방법들이 채택된다.

몇 가지 분류 방법들을 사용하여 13가지 시간 및 스펙트럼 특징들을 여러 가지로 조합한 것들을 평가하였다. 이들 평가에 따르면 2-웨이 음성/음악 판별기의 경우 분류 정확도가 90% 이상인 것으로 나타났으나, 음성, 음악, 및 공존의 음성과 음악을 판별하기 위해 동일 세트의 특징들을 사용하는 3-웨이 분류기의 경우엔 약65%뿐인 것으로 나타났다. 음성 인식 분야에서 널리 사용되는 켑스트럼 기반의 특징들도 조사되었다. 멜-켑스트럼(Mel-cepstral)의 자기상관(AC-Mel) 파라미터들은 음성 내 강세 상태의 분류에 적합한 특징들인 것으로서 제안되었다. 14개의 멜-주파수 켑스트럼 계수들(MFCC)을 사용해서, 오디오 데이터를 7개의 카테고리로 분류할 수 있다. 카테고리는 스튜디오 음성, 필드 음성, 배경음악이 있는 음성, 잡음이 섞인 음성, 음악, 묵음, 및 나머지 오디오 패턴들을 포괄하는 가비지(garbage)이다.

오디오 분류 시스템(40)은 오디오 신호를 각종의 카테고리의 세그먼트들로 분리하도록 오디오 신호를 처리한다. 본 발명에 관련하여 사용되는 연속 GAD를 위한 7가지 오디오 카테고리는 묵음, 단일 화자 음성, 음악, 주변 잡음, 복수 화자들의 음성, 공존하는 음성과 음악, 및 음성과 잡음으로 구성된다. 배경 잡음 카테고리는 전경 사운드가 없는 잡음을 지칭한다. 공존의 음성과 음악 카테고리는 배경음악과 함께 한 노래와 음성을 모두 포함한다. 본 발명에 의해 고찰되는 (묵음을 제외한) GAD의 7개 카테고리에 대한 대표적인 파형들을 도 2에 도시하였다.

쉽게 재사용이 가능하고 확장이 가능한 설계를 용이하게 하고 특징 평가 작업을 보다 쉽게 하기 위해서, 도 3에 도시한 청각 툴박스(20)를 개발하였다. 청각 툴박스(20)는 두 다스(dozen) 이상의 도구들을 구비한다. 각 도구는 오디오 데이터 분석 중에 빈번하게 필요로 되는 하나의 기본 동작을 맡는다. 툴박스(20)를 사용함으로써, 버퍼 관리 및 최적화, 상이한 처리 과정들간의 동기화, 및 제외 처리와 같은 스트림 오디오 데이터의 처리에 관계된 많은 까다로운 작업들이 사용자들에게 아무런 부담이 되지 않게된다. 툴박스(20)에 현재 구현된 연산들은 주파수 영역 연산들, 시간 영역 연산들, 및 이를테면 단시간 평균화, 로그 연산, 윈도우 처리 및 클리핑과 같은 기본적인 수학적 연산들을 포함한다. 모든 도구들 간에는 공통되는 통신협약이 정의되므로, 한 도구로부터의 결과들을 제한없이 다른 유형들의 도구들이 공유할 수 있다. 따라서, 툴박스 내 도구들은 각종의 응용 및 요건을 수용하도록 매우 유통성 있게 구성될 수 있다.

특징추출(42)

도 3은 특징 추출 단계(42)(도 1)에서 6 세트의 음향적 특징들을 추출하는데 사용되는 도구들의 구성을 도시한 것이다. 이러한 구성의 도구들은 MFCC(22), 선형 예측 계수들(LPC)(24), 델타 MFCC(26), 델타 LPC(28), 자기상관 MFCC(30), 및 몇몇의 시간 및 스펙트럼 특징들을 포함한다. 계속되는 3개의 단계 44, 46, 48에서 사용되는 음향적 특징들은 입력된 오디오 원시 데이터(raw data)로부터 시간축을 따라 프레임 단위로 추출됨에 유념한다.

MFCC들(22)은 필터 뱅크 고속 프리에 변환(FFT) 스펙트럼들의 이산 코사인 변환(DCT)을 사용하여 추출된다. 계산은 시간축을 따라 윈도우 내 입력 데이터에 대해 프레임 단위로 수행된다. 스퀘어 및 해밍 윈도우들을 포함하여 몇 가지 유형들의 윈도우들이 사용될 수 있다.

LPC들(24)의 추출은 자기상관 방법을 사용하여 구현된다. 각 처리 단계에서, 12개의 계수들이 추출된다.

델타 MFCC(26), 델타 LPC(28), 및 자기상관 MFCC(30) 특징들은 MFCC(22) 혹은 LPC(24)의 이동에 대한 정량적인 측정들을 제공한다. 이들은 음성 분야에서 일부 응용들에서 채택되었다. 이들 특징들의 정의들은 다음과 같이 주어진다.

여기서,및는 각각 프레임 i의 v번째의 MFCC 및 LPC를 나타낸다. L은 상관 윈도우 길이이다. 첨자 l은 상관 래그(correlation lag)의 값이다. 상기 음향적 특징들에 기초하여, 오디오 세그먼트들의 분류에 사용되는 보다 많은 특징들이 인접한 프레임들의 음향적 특징들을 분석함으로써 더 추출될 수 있다.

실험결과에 따르면, 보다 긴 기간, 예를 들면 600ms에 걸친 오디오 데이터의 특성에 대응하는 이들 특징들은 오디오 세그먼트들의 분류에 더 적합하다. 오디오 세그먼트 분류에 사용되는 특징들은, (i) 해당 프레임을 중심으로 어떤 수의 연속한 프레임들에 대한 음향적 특징들의 평균과 편차; (ii) 휴지 레이트(pause rate)(임계치보다 낮은 에너지를 가진 프레임 수와 고찰되는 레임 총 수 간의 비); (iii) 조화성(harmonicity)(유효한 피치값을 갖는 프레임 수와 고찰되는 프레임 총 수 간의 비); 및 (iv) MFCC, 델타 MFCC, 자기상관 MFCC, LPC, 및 델타 LPC의 에너지의 합을 포함한다.

휴지부 검출(44)

휴지부 검출(44)은 입력된 오디오 클립을 비-보이스 세그먼트들과 보이스 세그먼트들로 분리하는 것이다. 여기서, 휴지부는 파열 자음이나 약간 머뭇거림에 의해 야기되는 것이 아니라, 청취자가 사운드 부재 기간인 것으로 판단하는 시간 구간을 의미한다. 따라서 휴지부 검출기가 사람이 인지하는 것과 일치하는 결과를 발생하는 것이 매우 중요하다.

GAD로부터 휴지부 기간들을 검출하는 단계 44에서 3단계 과정이 구현될 수 있다. 구체적으로, 휴지부 검출 프로세스(44)는 (i) 오디오 데이터의 각 프레임을 보이스 혹은 휴지부로서 구획하는 것과, 이에 이어서 (ii) 필-인 프로세스(fill-in process)와, (iii) 스루웨이 프로세스(throwaway process)로 구성된다. 단계 42에서 툴박스에 의해 추출된 특징들에 근거하여, 입력 오디오 데이터는 먼저 프레임별로 보이스 혹은 휴지 프레임으로서 마킹되어 초벌적인 경계들을 얻는다. 프레임별 분류는 도 4b에 도시한 판정 트리 알고리즘을 사용하여 행해질 수도 있다. 판정 트리는 계층적 특징 공간 구획 방법에 기초하여 얻어진다. 도 4a 및 도 4b에, 2차원 특징 공간에 대한 구획결과와 휴지부 검출을 위한 이의 대응하는 판정 트리를 도시하였다. 제1 단계에서 얻어진 결과들은 대개는 비-보이스 음성 및 약간의 머뭇거림도 반영하므로, 휴지부에 대해 사람의 인지에 더 일관되는 결과를 발생하기 위해서 계속되는 두 단계에서 필-인 및 스루웨이 프로세스들이 적용된다.

필-인 프로세스에서, 휴지구간, 즉 필-인 임계치보다 작은 길이를 가진 휴지 프레임들의 연속한 시퀀스는 보이스 세그먼트(voice segment)로서 재표시(relabelling)되고 이웃한 보이스 세그먼트들과 병합된다. 스루웨이 프로세스에서는, 임계 강도 값보다 작은 강도 값을 갖지만 보이스로 표시된 세그먼트는 비-보이스 세그먼트로서 다시 표시된다. 보이스 세그먼트의 강도(strength)는 다음과 같이 정의된다.

여기서 L은 보이스 세그먼트의 길이이고 T_i는 도 4a에 도시한 가장 낮은 보이스 레벨에 대응한다. 곧바로 세그먼트의 길이를 사용하는 대신에 세그먼트 강도를 정의하는 기본적인 생각은, 일시적인 사운드 버스트의 세그먼트들이 스루웨이 프로세스 동안에 비-보이스로서 재표시되지 않도록 보이스의 에너지를 고려하는 것이다.

도 5는 휴지부 검출 알고리즘의 3 단계를 도시한 것이다. 도 5에 4개의 서로 다른 라인 그래프를 도시하였다. 그래프 62는 소스로부터 수신된 원시 오디오 입력신호를 도시한 것이다. 그래프 64는 원시 데이터를 정규화한 것을 도시한 것으로 강한 오디오 신호들의 부분들을 사각파로 나타내었다. 그래프 66에, 사각파들을 전체로서 평가하여 최소 이격된 이웃한 사각파(square wave)들은 합쳐졌다. 그 다음, 그래프 66 내지 68로부터, 각각의 특정의 오디오 신호의 강도가 평가되었으며 그래프 66의 중앙에 있는 한 피크는 오디오 신호가 약하기 때문에 제거되었다.

전술한 바와 같이, 휴지부 검출단(44)은 보이스와 비-보이스이라는 두 종류의 세그먼트들을 제공한다. 비-보이스 세그먼트들은 이미 분류되었으므로 어떤 다른 처리는 필요없다. 그러나, 보이스 세그먼트는 천이점들, 즉 분류 전에 현 신호의 카테고리가 바뀌는 위치들을 마크하기 위해서 추가 처리가 필요하다.

분할(46)

천이점들을 찾기 위해서, 분할 방법(46)은 브레이크 검출 및 브레이크 병합이라는 두 연속한 단계들의 프로세스를 사용한다. 브레이크 검출 단계에서, 보이스 세그먼트에 걸친 큰 검출 윈도우를 이동시키고 각각의 슬라이딩 위치에서 윈도우의 서로 다른 반쪽 부분들의 평균 에너지를 비교한다. 이에 따라 두 유형들의 브레이크가 검출된다.

온셋 브레이크 :인 경우

오프셋 브레이크 :인 경우

여기서및는 각각 검출 윈도우의 제1 반 부분과 제2 반 부분의 평균 에너지이다. 온셋 브레이크는 증가된 신호 에너지로 인한 오디오 카테고리의 변경 가능성을 나타낸다. 마찬가지로, 오프셋 브레이크는 에너지가 낮아짐에 기인한 현 신호의 카테고리의 변경을 암시한다. 브레이크 검출 윈도우가 신호를 따라 슬라이딩되기 때문에, 현 신호의 오디오 카테고리의 단일 천이가 몇 개의 계속되는 브레이크들을 발생한다. 이러한 일련의 브레이크들의 병합은 분할 프로세스의 제2 단계에서 달성된다. 이 단계에서, 동일한 유형의 이웃한 브레이크들은 단일의 브레이크로 병합된다. 오프셋 브레이크는 그 바로 다음의 온셋 브레이크가 가까이 있다면 그 온셋 브레이크와 병합된다. 이것은 한 신호의 끝부분과 또 다른 신호의시작 부분사이의 임의의 작은 갭을 메꾸기 위해 행해진다.

도 6은 신호 브레이크들의 검출 및 병합기에 의한 분할 프로세스(46)를 도시한 것이다. 분류기는 오디오 데이터의 연속한 비트-스트림을 겹치지 않는 서로 상이한 세그먼트들로 파싱하되, 각 세그먼트가 그 클래스 면에서 동질의 것이 되도록 파싱한다. 분할-풀링(pooling) 방법은 경계 효과를 감소시키고 사람이 인지하는 것과 일치되는 분류 결과들을 생성하는 효과적인 방법이다. 한 카테고리에서 다른 카테고리로의 천이는 분류 오류를 야기할 수 있기 때문에, 분할-풀링 방법은 이러한 오류를 감소시키는 효과적인 방법을 제공한다. 분할-풀링 방법의 분할 부분은 한 유형의 오디오에서 다른 유형의 오디오로의 천이가 일어나고 있는 보이스 세그먼트들 내 경계들을 찾는데 사용된다. 이 부분은 입력에서 보이스 세그먼트들 내 경계들을 찾기 위해서, 보이스가 얼마나 빨리 변하고 있나를 나타내는 것인, 온셋 및 오프셋 측정들을 사용한다. 분할 처리(46)의 결과는 보다 작은 동질의 보이스 세그먼트들을 제공한다. 분할-풀링 방법의 풀링 성분은 분류(48)에서 사용된다. 이것은 분할된 보이스 세그먼트를 분류하기 위해서 프레임별 분류의 풀링을 포함한다.

오디오 세그먼트 분류(48)

오디오 세그먼트를 분류하기 위해서, 먼저 세그먼트의 각각과 모든 프레임을 분류한다. 프레임들은 도 6에 도시한 바와 같이, 신호에 의해 생성된 에너지 파형(72)을 따라 점차로 이동되는 슬라이딩 윈도우(70)에 의해 정의된다. 그 다음, 프레임 분류 결과들을 통합하여 전체 세그먼트에 대한 분류 라벨을 얻는다.이 통합은 각각의 오디오 카테고리에 할당된 프레임 수를 카운트하는 풀링 프로세스에 의해 수행된다. 카운트할 때 가장 빈번히 나타난 카테고리를 세그먼트에 대한 오디오 분류 라벨로서 취한다. 프레임을 분류하는데 사용되는 특징들은 그 프레임으로부터 올뿐만 아니라 언급한 다른 프레임들로부터도 온다. 분류는 각 카테고리가 다차원 가우스 분포를 갖는다는 가정하에 베이시안 분류기(Bayesian classifier)를 사용하여 수행된다. 프레임 분류를 위한 분류 규칙은 다음과 같이 나타낼 수 있다.

여기서 C는 후보 카테고리들의 총 수이다(이 예에서 C는 6임). 그러나, 바람직한 실시예에서, 후보 카테고리들의 총 수는 2이다. 첫 번째는 "보이스"(단어들 혹은 노래")을 나타낸다. 두 번째는 "비-보이스"(악기, 잡음, 묵음 등과 같은 보이스 이외의 신호). c^*는 분류 결과이고, x는 분석되고 있는 프레임의 특징벡터이다. 양m _c,S _c, 및 p_c는 각각 클래스 c의 평균벡터, 공분산 행렬, 및 확률을 나타내며, D²(x,m _c,S _c)는x와m _c간 마할라노비스 거리(Mahalanobis distance)를 나타낸다.m _c,S _c, 및 p_c는 알려져 있지 않기 때문에, 이들은 최대 귀납적(MAP) 추정기를 사용하여 결정된다.

분류 알고리즘은 가장 가능성 있는 종별을 정하기 위해서 최소 증분의 시간(예를 들면, 초)을 사용한다. 이것은 보다 짧은 증분으로 발생할 수도 있을 과도적인 종별들의 수를 감소시킨다. 근본적으로, 분류 알고리즘은 평활화 함수(smoothing function)이다.

음성 매핑은 입력된 가사를 확인된 음성 세그먼트들에 매핑시키는 프로세스이다. 가사는 이를테면 각각의 절(verse)의 끝에서와 같이 긴 휴지부들이 발생하는 가외의 공백 라인에서 얻어질 수 있는 것이 이상적이다. 도 7의 예에서는 두 개의 음성 세그먼트들, S1, S2이 있다. 사용자는 도 8과 같이 각 절의 끝을 나타내는 공백 라인(102)과 더불어 가사(100)를 입력하였다. 이어서 단어들에는 후술하는 바와 같이, 도 9a 혹은 도 9b처럼 타임스탬프가 할당될 것이다.

가장 단순한 경우에, "파라그래프"들의 수는 도 7에 도시한 바와 같이 곡의 "음성 유" 부분들이 될 것이다. 따라서, 절 내의 각 라인들을 보기 위한 "타임스탬프"는 선형형태로 제공될 것이다. 분류 변경을 나타내는 타임스탬프는 한 카테고리의 끝과 다른 카테고리의 시작을 정의할 것이다. 곡의 끝에, 표시 화면들을 소거하기위해서 공백의 텍스트, 혹은 예를 들면 "~끝~"과 같은 텍스트 표시자가 있는 타임스탬프를 갖게 하는 것이 바람직하다. 공백 라인들 없이 가사가 입력되었다면, 가사는 활용가능한 음성-세그먼트들에 걸쳐 선형으로 분포된다.

타임스탬프 파일들의 예를 도 9a 및 도 9b에 도시하였다. 도 9a 및 도 9b의 타임스탬프(110)(일반적으로 초로 측정됨)는 곡의 가사(112)의 좌측에 도시되었다.

도 9a에서 타임스탬프들(110)은 실제 경과되는 시간으로서 나타내었다. 즉, 제1 타임스탬프 값이 15이므로, 마이송 시작 후 15초에서, 가사의 첫째 라인이 표시될 것이다. 제1 라인은 5초 동안, 즉 15초의 경과시간부터 20초의 경과시간까지표시될 것이다. 경과시간이 20초가 되면, 가사의 제2 라인이 표시될 것이다. 곡의 나머지 라인들이 나머지 타임스탬프 값들에 따라 순차적으로 표시될 것이다.

대안으로서의 실시예에서, 도 9b에서 타임스탬프들(110)은 지연 시간들로서 도시되었다. 결과는 동일할지라도, 이 경우엔 10초 동안 표시되는 공백 라인이 있고 가사의 제1 라인의 표시는 5초간 표시된다. "표시 후 지연" 루프로 동작하는 시스템들의 경우, 지연들이 즉시 사용될 수 있게 지연들로서 시간들이 산출된다.

가사 표시 타이밍은 표시장치의 능력에 따라 다를 것이다. 즉, 절이 너무 길거나, 화면 길이가 너무 짧다면, 전체 화면이 표시될 수 없고, '누적된 지연'(즉, 지연들의 합)은 단어들이 한번에 전체 페이지로 표시될 경우 다음 페이지로 넘어가기 전에 지연된 시간량과 같다.

본 발명에 따라 타임스탬프 정보를 결정함에 있어 몇 가지 기술들이 사용될 수도 있다. 먼저 도 10은 본 발명에 따른 타임스탬프 생성 프로세스의 전반적인 개요를 도시한 흐름도를 도시한 것이다.

타임스탬프 파일을 생성시키는데에 연관된 두 가지 기본적인 동작이 있다. 첫 번째는 음악(200)을 검색하여 이를 관계된 카테고리들로 분할하는 것이다. 두 번째는 음악(200)에 연관된 가사(210)를 검색하여 선택적으로 가사를 패턴화하는 것이다. 이어서 타임스탬프 파일(230)을 형성하기 위해서 타임스탬프 생성기(220)을 통해 음악(200)을 가사(210)에 매치시킨다. 타임스탬프 파일(230)이 한번 생성될 수 있고, 그러면 선택적으로 다른 사용자들과 공유될 수 있다(예를 들면, 인터넷을 통해서). 타임스탬프 파일(230)은 여기서는 표시 시스템(240)이라 하는 표시장치를 갖춘 장치에 로딩된다.

곡이 선택되었을 때, 표시 시스템(240)은 곡(200)과 동기하여 가사(210)를 표시한다. 표시 시스템(240)은 예를 들면 필립스 전자에서 제작한 Pronto(등록상표)일 수 있다. Pronto(등록상표)는 음악 및 가사와 함께 디스플레이 시퀀스를 동시에 시작되게 하는 적외 방사(IR) 명령을 송신한다. 동시 시작 능력에 의해서, 예를 들면 콤팩트 디스크(CD) 플레이어와 같은 별도의 기존의 원격장치가 제어될 수 있으나 Pronto(등록상표) 상에 표시되는 단어들은 그렇지 않다. 이것은 새로운 재생 시스템을 구입하지 않고도 가사의 동시 표시가 달성될 수 있으므로 잇점이 있다.

타임스탬프 생성 프로세스에 음악의 가사를 제공하는 많은 수단들이 있다. 단어들의 가사 파일이 제공되는 것이 바람직하다. 가사를 배송하는 수단들은 데이터를 읽는 배송 메카니즘, 수동입력, 네트워크에 의한 전송, 무선송신, 착탈가능 기억장치 기술 및 그 외 이 기술에 통상의 지식을 가진 자에게 알려진 수단을 포함한다. 예를 들면, 리릭은 CD-롬 상에 데이터 트랙들로부터의 리릭, 디지털 텔레비전 송신에 포함된 것으로 RDS FM 서브-캐리어, 페이저를 통해 배송되는 데이터, 인터넷으로부터 검색되는 데이터, 스마트미디어, 콤팩트플래시 메모리 카드들 혹은 메모리 스틱스와 같은 착탈가능 매체를 통해 데이터의 전송에 의해 음악을 듣는 자에 의해 수동으로 타입핑된 데이터를 읽고 저장함으로써 배송될 수 있다.

타임스탬프 생성은 각 단어에 문장 혹은 파라그래프의 총 길이에 근거하여 타임스탬프 값을 할당하는 것만큼이나 간단할 수 있다. 더 특징적인 정보를 사용할 수 있게 됨으로써, 이 프로세스는 더 정확한 타임스탬프 정보를 제공할 수도 있다.

음악 리릭의 분석과 같이, 본 발명에 따른 타임스탬프 프로세스의 복잡한 애플리케이션들은 바람직하게는 컴퓨터로 수행된다. 간단한 타임스탬프 생성은 컴퓨터를 필요로 하지 않는다. 결과는 인터넷 서비스 제공자를 통해 서버에 포스트되어 공유될 수 있다.

파싱하는 것과 가사를 분할하는 것은 예를 들면 단어들간 서로 다른 기호들 혹은 간격들 등의 각종의 표시자들에 따라 리릭을 문장들 혹은 파라그래프들로 분할하는 데 사용될 수 있는 두 가지 기술들이다. 대안으로, 파라그래프들을 분류-타임스탬프들에 매핑함에 있어, 컴파일러 기술에서 사용되는 바와 같은 구문 메카니즘이 사용될 수도 있다. 이에 따라 타이밍 안내에 구두점을 사용할 수 있게 된다.

이를 지원하는 저렴한 집적회로 칩을 사용해서, 음악 플레이어들에 의해 직접 타임스탬프 생성 프로세스가 수행될 수도 있을 것으로 생각된다.

본 발명에 따라 타임스탬프 생성 프로세스(154)를 수행하는 기반으로서 사용될 수 있는 여러 가지 방법들을 예시한 흐름도를 도 11에 도시하였다.

가사 세그먼트들(146)과 보이스/비-보이스 세그먼트 타이밍 정보(140)만을 사용할 때, 타임스탬프 값들을 결정하는 알고리즘은 다음과 같이 나타낼 수 있다.

여기서 Ti는 타임스탬프들 생성대상의 세그먼트 내 단어 i에 대한 타임스탬프이고, S 및 E는 음악 분석으로부터 얻어진 세그먼트들에 대한 시작시간 및 종료시간이고, N은 세그먼트 내 단어들의 총 수이다.

발음 사전 세그먼트(150)는 단어들 대신 음절들의 수를 카운트함으로써 보다 정확하게 타임스탬프 값들이 생성되게 한다. 이 경우, N은 음절들의 총 수이고 i는 현재의 단어 전의 음절 수이다.

음악 세그먼트(148)의 노트 트랜스크립션을 사용하면, 세그먼트 시작부터 지나온 전체 노트들의 수를 카운트함으로써(노트들은 음악 세그먼트들의 도입부와 천이부, 즉 보이스가 없는 음악의 세그먼트들을 정상적으로 나타내지 못하기 때문에 전체 노트 자체만을 카운트하는 것은 정확하진 않을 것이다) 타임스탬프 값들이 보다 정확하게 생성될 수 있는데, 이것은 버전마다 크게 바뀔 수 있다. 그러므로, 이 경우, N은 세그먼트 내 전체 노트들의 수가 되고 i는 현재 단어 전의 전체 노트들의 수이다.

자동 음성 인식 소프트웨어(ASR)의 도움으로, 음악에 나타나는 키워드들을 검출하는 것이 가능하다.

템포 및 키워드 기술들(142, 144)은 다른 방법들을 사용하여 위에서 얻어진 결과들을 검증 및 수정하는데 사용될 수 있다. 예를 들면, 템포 및 전체 노트들 방법들은 보이스 세그먼트들이 얼마나 길 수 있는지 검출할 수 있고 나머지 세그먼트들은 비-보이스 세그먼트들인 것으로 취해진다.

특정 방법의 사용은 선택적이며 애플리케이션 요건 및 자원 사용가능성에 달려있다. 예를 들면, 소형 칩에 타임스탬프 생성 프로세스(154)를 구현할 때, 간단한 알고리즘을 사용하고 점선 박스들로 도시된 방법들(142, 144, 148, 150)은 필요로 하지 않은 것이 바람직하다. 그러나, 자원 사용가능성엔 관계가 없고 목적이 가능한 한 정확하게 정보를 생성하는 것이라면(예를 들면, 인터넷 서비스 제공자를 위해서 혹은 상용 가라오케 콤팩트 디스크들을 자동으로 생성하기 위해서), 방법들(142, 144, 148, 150)이 필요할 수도 있다.

도 12는 곡의 실제 단어들에 확실히 대응하도록 타임스탬프 데이터를 리파인하는 방법을 도시한 것이다. 도시된 바와 같이, 도 11에 도시한 방법(144)에 따라 곡으로부터 추출되는 키워드 위치들을 체크하여 이들이 트랜스크립트 내 실제 키워드 위치들에 대응하는지 여부를 판정한다. 타임스탬프 데이터 내 키워드 위치가 트랜스크립트 내 키워드의 실제 위치와 정확하게 맞지 않으면, 그에 따라서 타임스탬프 데이터를 옮길 수도 있다.

구체적으로, 도 12는 곡의 음악/보이스(여기서는 비-음성/음성이라고 함)를 나타내는 3개의 바를 도시한 것이다. 바(160)는 단순히 분석되는 곡의 원시 데이터를 지칭한다. 바(162)는 실제 키워드 위치와 타임스탬프 생성 프로세스에 의해 추출된 키워드 위치간 오일치를 도시한 것이다. 키워드들(K1, K2)의 실제 위치들은 각각 점선으로 표시한 수직선들(166, 168)로 도시되었다. 수직선들(170, 172)은 타임스탬프 데이터에 따른 키워드들(K1, K2)의 위치들을 나타낸다. 따라서, 타임스탬프 데이터의 정확도를 향상시키기 위해서, 키워드들(K1, K2)의 위치들은 바(162)를 참조로 도 12에 도시한 화살표들의 방향들로 조정되어야 한다. 바(164)는 조정 프로세스의 최종 결과를 도시한 것이다. 따라서, 키워드들(K1, K2)에 대한 타임스탬프 데이터는 각각 174, 176으로서 확인된 실제 K1 및 K2 위치들에 대응한다.

일단 가사의 각 부분에 연관된 정확한 타임스탬프가 있으면, Pronto(등록상표)와 같은 휴대형 표시 시스템은 적합한 시간에 가사를 표시할 수 있다.

가사는 가독성, 미려함, 혹은 엔터테인먼트 향상을 위해, 다양한 형태로 화면에 표시될 수 있다. 예를 들면, 문장들은 이들이 표시하기가 보다 쉽도록 워드-랩핑될 수도 있고, 가사는 새로운 라인들이 나타날 때 덮어씌여질 수도 있고, 혹은 화면은 화면 크기에 따라 매 N라인마다 클리어될 수도 있다. 또한 화면의 하부에서 상부로 가사를 워드-랩핑하는 방법도 있다. 예를 들면, 화면은 번갈아 리프레쉬되는 두 개의 반으로 상부와 하부로 분할될 수도 있다. 이것은 사용자에게 현재의 반 페이지를 보는 중에 이전의 반 페이지의 끝부분을 보게 한다. 가사를 이동시키는 스크롤을 갖추게 하는 것이 가능하겠지만, 이것은 디스플레이에서 읽기가 종종 어렵다.

남성과 여성이 함께 부른 리릭을 갖는 곡들에서, 남성이 부른 특정의 단어들과 여성이 부른 특정의 단어들간의 구별이 행해질 수도 있을 것이라 생각된다. 따라서, 리릭을 표시할 때, 여성 혹은 남성이 노래할 차례가 되었을 때 이에 대해 남성 혹은 여성에게 알리기 위해서(예를 들면, 가라오케 상황에서) 폰트 혹은 색 변경과 같은 표시가 표시장치에서 행해질 수 있다.

대안으로, 논리상의 휴지부들(이를테면 마침표 혹은 콤마 다음)에"뉴라인(newline)"(혹은 캐리지 리턴) 문자가 자동으로 첨부되게 할 수도 있다. 마침표의 경우, 문장의 끝을 나타내기 위해 2개의 뉴라인들을 넣을 수도 있는데, 이것은 작곡의 경우 흔히 곡의 절의 끝이기도 하다. 파서 기술에서, 이와 같이 포맷하는 것은 삭제될 수도 있고, 이에 의해서 정확한 삽입 및 포맷이 용이해진다.

비-단어 아이템들(이를테면 화상들)이 디스플레이에 제공될 수도 있다. 비-단어 아이템들은 가사가 없는 타이밍에 기초하여 적합하게 표시될 것이다. 대안으로, 특별한 검출이 사용될 수 있다면(이를테면 드럼 검출) 특별한 비-단어 식별자들(예를 들면, 화상 혹은 드럼의 동화) 혹은 "드럼 솔로"와 같은 특별한 구가 표시될 수도 있다.

또한, 단어들은 이들에 산재된 특별한 사운드들, 화상들, 동화들 혹은 비디오들을 가질 수도 있다. 이들 특별한 "비-단어" 아이템들은 "키 워드"가 검출될 때마다, 특정한 아이템이 삽입될 수 있게 포맷하는 부분으로서 생성될 수 있다. 예를 들면, "소녀"라는 단어가 사용될 때마다, 이 단어에 맞추어 소녀 그림을 표시한다. 비-단어 아이템이 키 워드를 대신할 수도 있고 혹은 단어에 부가하여 표시될 수도 있다.

많은 다른 표현방법들이 이 기술에 숙련된 자에 의해 가능할 수 있다.

도 13에 도시한 바와 같이, 필립스 Pronto(등록상표) 디스플레이(180)는 6행의 가사(182)를 표시할 수 있다. 그러므로, Pronto(등록상표)에 있어서, 한번에 절 전체가 표시될 수 있다. 공백의 라인들은 화면의 끝을 채운다.

Pronto(등록상표)와 같은 휴대형 표시장치들을 이용함으로써, 2인 이상의 사람들이 오디오의 가사를 따라갈 수 있게 복수의 장치들에 같은 시간에 곡의 가사를 표시하는 것이 가능하게 된다. 이 실시예에서, 각각의 동기된 장치는 서버로서 동작하는 장치로부터 "고(go)" 메시지를 수신할 수 있다. 대안으로, 서버는 다른 동기되는 장치들이 가사를 저장할 필요가 없게 하여 귀중한 메모리 공간을 절약하도록 동적으로 모든 다른 동기된 장치들에 가사 및 타이밍을 보낼 수도 있다.

도 14는 본 발명에 따른 오디오 재생에 가사 및/또는 시각정보를 동기시키는 방법을 도시한 흐름도이다. 단계(1405)에서, 사용자는 휴대장치 내 메모리에 기억된 곡들의 리스트로부터 곡명을 선택한다. 선택은 예를 들면 버튼 누름이나 터치-감응 화면을 통해 사용자로부터 휴대장치로 전송될 수 있다. 사용자는 선택으로서 "무작위"를 선택할 수도 있고, 이때 시스템은 한 세트의 알려진 곡들 내에서 무작위로 곡들을 선택할 것이라는 것도 생각된다. 무작위 선택은 한번에 하나, 서로 다른 곡들을 선택하기 위해 난수 발생기를 사용할 수도 있다. 이것은 사용자가 시스템을 정지시키거나 리셋할 때까지 이 단계에서 사용자의 입력을 대신할 수 있다.

휴대장치 내 프로세서는 사용자로부터의 요청을 처리하여 신호(예를 들면, 적외 신호)를 원격장치에 보낸다. 이 신호는 사용자에 의해 선택된 원하는 곡에 대응하는 원하는 오디오 트랙에 맞출 것을 원격장치에 명령한다. 대안으로, 원격장치가 특정의 원하는 오디오 트랙에 자동으로 동조되는 능력이 없다면(예를 들면 트랙 5로 가는 것), 휴대장치는 원격장치를 리셋시키기 위해서 원격장치에 신호를 보낼 것이다. 즉, 원격장치는 정지하여, 재기동한 후 원하는 트랙까지 카운트하라는 명령을 받을 것이다. 이 단계에 의해서 원격장치는 확실하게 휴대장치에 동기할 수 있다.

하나 이상의 파일들이 단일의 휴대장치에 로딩되어 이에 저장되는 것을 생각해 볼 수 있다. 휴대장치는 파일들을 명칭, 분류, 주제, 날짜, 혹은 그 외 다른 기준별로 분류하는 능력을 갖추고 있을 것이다. 휴대장치에 파일들을 로딩하는 것은 장치는 독크함으로써, 아니면 이 기술에 통상의 지식을 가진 자에게 알려진 바와 같은 유선 혹은 무선 기술을 통해 통신함으로써 발생할 수 있다.

일단 원격장치가 원하는 트랙에 도달하면, 휴대장치에 실제로 선택된 곡의 연주를 시작하게 하기 위해서 재생 신호가 휴대장치에 의해 보내진다. 단계(1415)에 나타낸 바와 같이, 원격장치가 선택된 곡의 연주를 실제로 시작하게 하는 짧은 지연 후에, 휴대장치는 연주되는 오디오 버전에 동기하여 가사를 원격장치에 표시하기 시작할 것이다.

단계(1420)는 초기화 단계로서 표시에 사용할 어떤 가사 라인이든 있는지 여부를 판정하기 위해서 휴대장치를 체크하고, 표시 라인 카운터를 제로로 설정하고 표시라인들의 수를 N으로 설정한다. 다음에, 단계(1425)에서, 원하는 곡의 곡명을 표시한다.

단계(1430)에서, 추가 가사 세그먼트들이 있는지 체크한다. 표시목적의 더 이상의 가사 세그먼트들이 없다면, 단계(1435)에 나타낸 바와 같이 방법은 종료한다. 표시한 추가 가사 세그먼트들이 있다면, 방법은 단계(1440)으로 진행하여 가사 세그먼트 및 연관된 지연시간(타임스탬프)을 읽는다. 단계(1445 및 1450)에서, 지연시간이 제로보다 크다면, 지연시간이 지나는 동안 방법을 대기할 것이다. 이지연시간 동안, 가사는 표시장치의 화면에 표시될 것이다.

일단 지연시간이 경과되면, 각각 단계(1455 및 1460)에 나타낸 바와 같이, 모든 표시된 라인들은 화면에서 소거될 것이며, 표시라인 카운터는 제로로 리셋될 것이다.

단계(1445)에서 지연시간이 제로와 같게되면, 방법은 바로 단계들(1465 및 1470)으로 진행할 것이며 여기서 카운터가 표시되고 증분된다.

마지막으로, 단계(1475)에서, 마지막 가사 세그먼트에 도달하였는지 여부에 대해 판정이 행해진다. 마지막 가사 세그먼트에 도달하였다면, 방법은 단계(1480)으로 진행하여 더 이상 표시할 가사가 없음을 나타낸다. 단계(1480)부터, 방법은 단계(1430)에서 표시할 가사가 있는지 여부를 판정하기 위해 또 다른 체크를 수행한다. 추가 가사가 더 이상 없으므로, 단계(1430)에서 질문에 대한 응답은 아니오가 되고 방법은 단계(1435)에서 종료할 것이다.

대신에, 마지막 가사 세그먼트에 도달하지 않았으며 따라서 단계(1475)에서 취해진 질문에 대한 응답이 아니오이면, 방법은 단계(1430)에서 다시 시작을 개시할 것이다.

본 발명의 예시된 실시예들을 첨부한 도면을 참조하여 기술하였으나, 이들 상세한 실시예들에 본 발명은 한정되지 않으며 본 발명의 범위 혹은 정신으로부터 일탈함이 없이 이 기술에 숙련된 자에 의해 각종의 다른 변경 및 수정이 행해질 수 있음을 알 것이다. 예를 들면, 가사에 현재의 위치를 표시하기 위해 이를테면 마커(예를 들면, 바운싱 볼 혹은 음악 노트)와 같은 특징이 디스플레이 부가될 수도있고 혹은 가사가 다양한 언어들로 표시될 수도 있을 것이다. 또한, 이를테면 인터넷 상의 타 사용자들이 타임스탬프된 가사를 사용할 수 있게 할 수도 있다. 모든 이러나 변경 및 수정은 첨부한 청구범위에 정한 바와 같은 본 발명의 범위 내에 포함되게 한 것이다.

Claims

오디오 재생에 시각정보(visual information)를 동기시키는 방법에 있어서,

원하는 오디오 파일의 사용자 선택을 수신하는 단계(1410);

상기 원하는 오디오 파일의 재생을 개시하는 단계(1415); 및

상기 시각정보가 상기 원하는 오디오 파일의 재생에 동기하여 표시되게, 타임스탬프 데이터(230)에 따라 상기 원하는 오디오 파일에 연관된 시각정보를 표시장치(240)에 표시하는 단계(1465)를 포함하고, 상기 원하는 오디오 파일의 재생 시작과 상기 표시단계의 시작은 상기 표시장치로부터의 신호의 함수인, 오디오 재생 및 시각정보의 동기화 방법.
제1항에 있어서, 상기 표시장치는 휴대장치(180)를 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
제1항에 있어서, 상기 신호는, 원격장치가 상기 원하는 오디오 파일을 재생하기에 앞서, 상기 원격장치를 턴 오프 및 턴온하는, 오디오 재생 및 시각정보의 동기화 방법.
제1항에 있어서, 상기 오디오 파일을 분석하고 상기 오디오 파일에 연관된 시각정보에 대응하는 타임스탬프 데이터(220)를 생성하는 단계를 더 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
제4항에 있어서, 상기 타임스탬프 데이터는 가사 기반의 프로세스(text based process, 146)를 이용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
제4항에 있어서, 상기 타임스탬프 데이터는 발음 사전 프로세스(pronunciation dictionary process, 150)를 이용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
제4항에 있어서, 상기 타임스탬프 데이터는 음악의 노트 트랜스크립션 프로세스(148)를 이용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
제4항에 있어서, 상기 타임스탬프 데이터는 음악으로부터 추출된 템포정보(142)를 사용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
제4항에 있어서, 상기 원하는 오디오 파일로부터 추출된 키워드의 위치와 상기 타임스탬프 데이터 내 키워드의 실제 위치를 비교하여, 타임스탬프 데이터 내 키워드의 위치에 매칭되게 상기 추출된 키워드의 위치를 조정하는 단계(160-170)를 더 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
제1항에 있어서, 원격장치가 기동되도록 상기 표시장치로부터 상기 원격장치로 신호를 전송하는 단계를 더 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
오디오 소스로부터 타임스탬프 데이터를 생성하는 방법에 있어서,

상기 소스로부터 보이스 및 비-보이스 데이터를 추출하는 단계(140);

보이스 및 비-보이스 데이터 내 선택된 정보를 확인하기 위해 보이스 및 비-보이스 데이터를 분석하는 단계로서, 상기 선택된 정보는 타임스탬프들을 생성하는 기초를 제공하는, 상기 분석하는 단계; 및

상기 선택된 정보 각각에 연관된 타임스탬프 값들을 생성하는 단계(154)를 포함하는, 타임스탬프 데이터 생성방법.
오디오 재생에 연관된 시각 정보를 동기화시키는 장치에 있어서,

오디오 데이터로부터 음향적 특징들(acoustic features)을 추출하는 특징 추출장치(42);

상기 오디오 데이터내 휴지부들을 검출하는 휴지부 검출기 장치(44);

각 세그먼트가 그 클래스에 대하여 동질이 되도록 오디오 데이터의 연속된 비트-스트림을 서로 다른 비중첩 세그먼트들로 파싱하는 분류기 장치(46); 및

타임스탬프 값들을 각 세그먼트에 할당하는 타임스탬프 장치(220)를 포함하는, 오디오 재생 및 시작정보 동기화 장치.