KR20050094416A

KR20050094416A - 오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템

Info

Publication number: KR20050094416A
Application number: KR1020057012070A
Authority: KR
Inventors: 데이비드 에이. 에비스; 리차드 에스. 코울; 크리스토퍼 토른
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-12-24
Filing date: 2003-12-10
Publication date: 2005-09-27
Also published as: DE60308904T2; ATE341381T1; US7689422B2; US20060100882A1; EP1579422B1; WO2004059615A1; DE60308904D1; AU2003303419A1; EP1579422A1

Abstract

오디오 신호를 처리하는 방법은, 오디오 신호를 수신하는 단계, 상기 오디오 신호로부터 특징들을 추출하는 단계, 및 상기 추출된 특징들을 메타데이터로 변환하는 단계를 포함한다. 상기 메타데이터는 마크업 언어의 명령 세트를 포함한다. 상기 오디오 신호를 처리하기 위한 시스템은 또한 상기 오디오 신호를 수신하는 입력 디바이스 및 상기 오디오 신호로부터 특징들을 추출하고 상기 추출된 특징들을 상기 메타데이터로 변환하는 프로세서를 포함하는 것으로 개시된다.

Description

오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템{Method and system to mark an audio signal with metadata}

본 발명은 오디오 신호의 추출된 특징들에 따라 오디오 신호를 처리하는 방법 및 시스템에 관한 것이다. 본 발명은, 배타적인 것은 아니지만, 템포(tempo) 및 키(kety)와 같은 오디오 신호의 음악적 특징들을 결정하고 추출하는 시스템들을 갖는 특정 어플리케이션들을 갖는다. 추출된 특징들은 메타데이터로 변환된다.

환경을 제어하는 주위 환경 시스템(ambient environment system)은 예를 들어, 디바이스들의 세트를 포함하는 실세계 표현 시스템(real-world representation system)을 개시하는 미국 특허 출원 공보 제 US 2002/0169817호로부터 알려져 있고, 각각의 디바이스는 하나 이상의 실세계 파라미터들, 예를 들어 오디오 및 시각적 특징들을 제공하도록 구성되어있다. 디바이스들 중 적어도 하나는 마크업 언어(markup language)의 명령 세트의 형태인 실세계 디스크립션을 수신하도록 구성되었고, 디바이스들은 상기 디스크립션에 따라 동작한다. 언어로 표현된 일반적 용어들은 디바이스들이 실세계 경험을 사용자에게 렌더링(render)하도록 동작하는 로컬 서버 또는 배포된 브라우저 중 어느 하나에 의해 해석될 수 있다.

미국 특허 출원 공보 제 US 2002/0169012는 컴퓨터 프로그램으로부터 신호, 예를 들어 게임 월드 모델의 적어도 일부를 수신하는 것을 포함하는 디바이스들의 세트를 동작하는 방법을 개시한다. 신호는 실세계 디스크립션을 마크업 언어의 명령 세트의 형태로 생성하기 위해 분석되고, 디바이스들의 세트는 상기 디스크립션에 따라 동작한다.

오디오 신호로부터 마크업 언어의 명령 세트를 자동적으로 발생하는 방법을 제공하는 것이 바람직하다.

도 1은 오디오 신호를 처리하는 시스템의 개략적 표현을 도시하는 도면.

도 2는 오디오 신호 처리 방법의 흐름도.

도 3은 관련 시간 데이터와 함께 메타데이터의 저장을 개략적으로 도시하는 도면.

본 발명의 제 1 양상에 따라, 오디오 신호를 수신하는 단계, 오디오 신호로부터 특징을 추출하는 단계, 및 추출된 특징들을 마크업 언어의 명령 세트를 포함하는 메타데이터로 변환하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다.

본 발명의 제 2 양상에 따라, 오디오 신호를 수신하는 입력 디바이스 및 상기 오디오 신호로부터 특징들을 추출하고, 추출된 특징들을 마크업 언어의 명령 세트를 포함하는 메타데이터로 변환하는 프로세서를 포함하는 오디오 신호 처리 시스템이 제공된다.

본 발명으로 인해, 오디오 신호의 컨텐트에 기초하고 주위 환경 시스템을 제어하기 위해 사용될 수 있는 메타데이터를 오디오 신호로부터 자동적으로 발생하는 것이 가능하다.

상기 방법은 바람직하게 메타데이터를 저장하는 단계를 더 포함한다. 이는, 예를 들어, 오디오 신호로부터의 특징 추출을 수행하기 위한 처리 능력을 갖지 않는 위치에 메타데이터를 전송함으로써 사용자로 하여금 출력된 메타데이터의 재사용을 선택할 수 있게 한다. 바람직하게, 저장 단계는, 수신된 오디오 신호와 관련하여, 상기 명령 세트내의 마크업 언어 용어의 각각의 시작 시간 및 지속기간을 규정하는 관련 시간 데이터와 함께 메타데이터를 저장하는 단계를 포함한다. 원 오디오 신호(original audio signal)와 동기화된 메타데이터와 함께 시간 데이터를 저장함으로써, 오디오 신호가 재사용될 때 메타데이터는 시간 의존적이며 원 오디오 신호와 일치하는 익스피리언스(experience)를 규정한다.

바람직하게, 상기 방법은 명령 세트를 브라우저에 전송하는 단계를 더 포함하고, 마크업 언어 어셋들(mark up language assets)을 수신하는 단계를 또한 더 포함한다. 바람직하게 상기 방법은 또한 수신된 오디오 신호와 동기하여 마크업 언어 어셋들을 렌더링하는 단계를 더 포함한다. 이러한 방식으로, 메타데이터는 주위 환경을 제공하기 위해 직접적으로 사용된다. 브라우저는 명령 세트 및 마크업 언어 어셋들을 수신하고, 명령 세트에 의해 직접적으로, 출력된 오디오와 동기하여 어셋들을 렌더링한다.

바람직한 실시예에서, 오디오 신호로부터 추출된 특징들은 템포, 키 및 볼륨 중 하나 이상을 포함한다. 이러한 특징들은 넓은 의미로 오디오 신호의 양상들을 규정한다. 이는 오디오 신호를 증대시키기 위해 주위 환경을 결정하는 메타데이터를 규정하기 위해 사용될 수 있는 것들을 나타낸다.

본 발명은 첨부 도면들을 참조하여 단지 예시적 방법으로 설명된다.

도 1은 오디오 신호의 처리를 위한 시스템(100)의 개략적 표현을 도시한다. 시스템(100)은 범용 데이터-버스(108)를 통해 메모리(ROM)(104) 및 메모리(RAM)(106)에 접속되는 프로세서(CPU)(102)로 구성되어 있다. 캐리어(112)상의 컴퓨터 코드 또는 소프트웨어(110)는 RAM(106)에 로드(또는 대안적으로 ROM(104)에 제공)될 수 있고, 코드는 프로세서(102)로 하여금 처리 방법을 실시하는 명령들을 수행하도록 한다. 부가하여, 프로세서(102)는 스토어(114), 출력 디바이스들(116, 118), 및 입력 디바이스(122)에 접속되어 있다. 사용자 인터페이스(UI)(120)가 또한 제공된다.

시스템(100)은 컴퓨터 모니터 또는 디스플레이의 형태를 취하는 출력 디바이스(116)를 갖는 종래 가정용 개인 컴퓨터(PC)로서 구현될 수 있다. 스토어(114)는 네트워크 접속을 통해 이용가능한 원격 데이터베이스일 수 있다. 대안적으로, 시스템(100)이 홈 네트워크로 구현되는 경우, 출력 디바이스들(116, 118)은 집 둘레에 배포될 수 있고, 예를 들어, 벽면에 설치된 평면 패널 디스플레이, 컴퓨터 제어 홈 광 유닛들, 및/또는 오디오 스피커들을 포함할 수 있다. 프로세서(102)와 출력 디바이스들(116, 118) 사이의 접속들은 무선(예를 들어, 무선 표준들 WiFi 또는 블루투스를 통한 통신들) 및/또는 유선(예를 들어, 유선 표준들 이더넷, USB를 통한 통신들)일 수 있다.

시스템(100)은 추출된 음악적 특징들로부터 (CD로부터의 음악 트랙과 같은) 오디오 신호의 입력을 수신한다. 본 실시예에서, 오디오 신호는 CD/DVD 또는 하드 디스크 드라이브와 같은 PC의 인터넷 입력 디바이스(122)를 통해 제공된다. 대안적으로, 오디오 신호는 네트워킹된 홈 엔터테인먼트 시스템(Hi-Fi, 홈 시네마 등)에 대한 접속을 통해 수신될 수 있다. 당업자들은 정확한 하드웨어/소프트웨어 구성 및 오디오 신호의 준비 메커니즘이 중요하지 않고, 오히려 상기 신호들이 시스템(100)에 대해 이용가능해지는 것이 중요함을 이해할 것이다.

오디오 신호로부터의 음악적 특징들의 추출은 1999년 11월, 매트 웰시 등(Matt Welsh et al)의 UC 버클리 기술 보고서 UCB/CSD-00-1096, "유사성에 대한 큰 음악 집합들의 질의(Querying large collections of music for similarity)" 문서에 개시되어있다. 상기 문서는 평균 템포, 볼륨, 노이즈, 및 음색 변화들과 같은 특징들이 입력 오디오 신호 분석으로부터 결정될 수 있는 방법을 개시하고 있다. 오디오 신호의 음악적 키를 결정하는 방법은 미국특허 제 US 5038658에 개시되어 있다.

입력 디바이스(122)는 오디오 신호의 수신을 위한 것이고, 프로세서(102)는 오디오 신호로부터 특징들을 추출하고 추출된 특징들을 메타데이터로 변환하기 위한 것이며, 메타데이터는 마크업 언어의 명령 세트를 포함한다. 프로세서(102)는 오디오 신호를 수신하고, 상기 참조에서 설명한 바와 같이 볼륨, 템포, 및 키와 같은 음악적 특징들을 추출한다. 일단 프로세서(102)가 오디오 신호로부터 음악적 특징들을 추출하면, 프로세서(102)는 이러한 음악적 특징들을 메타데이터로 변환한다. 상기 메타데이터는 <여름> 또는 <꿈꾸는 연못>과 같은 매우 광범위한 표현들의 형태가 될 것이다. 프로세서(102)내의 변환 엔진은 메타데이터를 발생하기 위한 규정된 일련의 알고리즘들 또는 추출된 특징들로부터 메타데이터를 생성하도록 구성된 "신경 네트워크(neural network)"의 형태로 동작한다. 결과적 메타데이터는 마크업 언어의 명령 세트 형태가 된다.

시스템(100)은 디바이스들의 세트 사이에 배포되는 브라우저(124)(도 2에 개괄적으로 도시됨)를 더 포함하고, 브라우저(124)는 마크업 언어의 명령 세트를 수신하고 마크업 언어 어셋들을 수신하며 그에 따라 디바이스들의 세트를 제어하도록 구성된다. 브라우저(124)에 의해 제어되는 디바이스들의 세트는 출력 디바이스들(116 및 118) 및/또는 시스템으로부터의 다른 원격 디바이스들을 포함할 수 있다. 이러한 디바이스들은 주위 환경 시스템을 함께 구성하고, 다양한 출력 디바이스들(116, 118)은 실세계 경험들을 전달하도록 설계된 명령 세트 및 마크업 언어에 부합한다.

상기 언어의 예는 상기 참조한 출원인의 동시-계류중인 출원에서 기술된 물리적 마크업 언어(PML)이다. PML은 최종 사용자가 실제 물리적 공간내에서 특정 레벨의 집중(immersion)을 경험하도록 최종 사용자에 대한 경험들을 제작(author), 통신 및 렌더링하는 수단을 포함한다. 예를 들어, 오디오 시스템 및 조명 시스템과 같은 소비자 디바이스들에 인에이블된 PML은 호스트 네트워크 디바이스로부터 명령들(예를 들어 DVD 비디오 스트림 내에 임베딩될 수 있는 명령들)을 수신할 수 있고, 이는 디바이스들로부터의 조명들 또는 사운드 출력이 변경되도록한다. 그에 따라, 영화에서의 어두운 장면은 소비자 집의 조명들이 적절히 어두워지도록 한다.

일반적으로 PML은 실세계 이벤트들 예를 들어 <숲>과 연관된 디스크립터들(descriptors)을 갖는 XML로 실현될 수 있는 고레벨의 설명적 마크업 언어이다. 그에 따라, PML은 표준화된 방식으로 집 둘레의 디바이스들이 소비자의 경험을 증대시키도록한다.

그러므로, 브라우저(124)는 예를 들어, <여름> 및 <저녁>을 포함할 수 있는 명령 세트를 수신한다. 브라우저는 또한 명령 세트의 각각의 구성요소(member)에 대한 적어도 하나의 어셋일 수 있는 마크업 언어 어셋들(126)을 수신한다. 그러므로 <여름>에 대해, 정지 영상(still image)을 포함하는 비디오 파일 및 색상 정의를 포함하는 파일이 존재할 수 있다. <저녁>에 대해, 색상, 정지 영상 및/또는 동영상에 대한 데이터를 포함하는 유사한 파일들이 존재할 수 있다. 원 음악(original music)이 플레이(또는 재생)됨에 따라, 브라우저(124)는 관련 마크업 언어 어셋들(126)을 렌더링하여, 상기 세트 내의 각각의 디바이스의 성능에 따라 색상들 및 영상들이 각각의 디바이스에 의해 렌더링되도록 한다.

도 2는 오디오 신호를 수신하는 단계(200), 오디오 신호로부터 특징들을 추출하는 단계(202), 및 추출된 특징들을 마크업 언어의 명령 세트를 포함하는 메타데이터로 변환하는 단계(204)를 포함하는 오디오 신호 처리 방법을 요약한다. 오디오 신호는 도 1의 입력 디바이스(122)를 통해 CD로부터 수신된다. 오디오 신호의 음악적 특징들을 추출하는 단계(202) 및 특징들을 적절한 메타데이터로 변환하는 단계(204)는 도 1의 시스템의 프로세서(102) 내에서 수행된다. 특징 추출(202)의 출력은 수신된 오디오 신호의 메타-디스크립션(meta-description)이다. 메타-디스크립션의 구조는 프로세서(102)에 의해 사용되는 추출 시스템의 특징에 따른다. 상대적으로 간단한 추출 시스템은 키(A 단조(minor)), 중간 볼륨(8/10), 볼륨의 표준 편향(+/-2)과 같은 디스크립션을 반환(return)한다. 더욱 복잡한 시스템은 처리되고 있는 음악의 일부에서의 시간에 따른 특징들의 변화들을 포함하는 오디오 신호에 대한 매우 상세한 정보를 반환할 수 있다.

이러한 방법은 메타데이터를 저장하는 단계(206)를 더 포함할 수 있다. 이는 도 3에 도시된다. 저장 단계는 관련 시간 데이터(304)와 함께 메타데이터(302)를 저장하는 단계를 포함할 수 있다. 시간 의존적 데이터를 반환하는 개선된 특징 추출 시스템이 단계(202)에서 사용되는 상황에서, 변환기로부터 출력된 메타데이터 또한 시간 의존적일 수 있다.

예를 들어, 오디오 신호를 구성하는 음악의 일부에서의 분위기의 규정된 변화가 존재할 수 있다. 변환기는 <여름>이 음악을 끝내고 <가을>이 시작하는 규정된 포인트와 함께, 이를 용어 <여름> 및 <가을>로 표현할 수 있다. 저장된 시간 데이터(146)는 수신된 오디오 신호에 대해, 명령 세트 각각의 마크업 언어 용어의 시작 시간 및 지속기간을 규정할 수 있다. 도 3에서 사용된 예에서, 용어<여름>은 음악의 일부의 시작 후의 수초의 시간을 나타내는 0의 시작 시간(S) 및 120 초의 기간(D)을 도시한다. 도시된 다른 두 용어들은 변환기에 의해 규정된 다른 시작 및 기간 시간을 갖는다. 도 3에서, 화살표(306)는 변환기로부터의 출력을 나타낸다.

방법은 명령 세트를 브라우저(124)에 전송하는 단계(208)를 더 포함할 수 있다. 도 1의 시스템과 관련하여 기술한 바와 같이, 브라우저(124)는 또한 마크업 언어 어셋들(126)을 수신한다(단계 210). 브라우저(124)는 수신된 오디오 신호와 동기하여 마크업 언어 어셋들(126)을 렌더링하도록 구성된다(단계 212).

Claims

오디오 신호를 처리하는 방법에 있어서,

상기 오디오 신호를 수신하는 단계(200),

상기 오디오 신호로부터 특징들을 추출하는 단계(202), 및

상기 추출된 특징들을 메타데이터(metadata)로 변환하는 단계(204)를 포함하며,

상기 메타데이터(302)는 마크업 언어(markup language)의 명령 세트를 포함하는, 오디오 신호 처리 방법.
제 1 항에 있어서, 상기 메타데이터(302)를 저장하는 단계(206)을 더 포함하는, 오디오 신호 처리 방법.
제 2 항에 있어서, 상기 저장 단계(206)는 관련 시간 데이터(304)와 함께 상기 메타데이터(302)를 저장하는 단계(206)를 포함하는, 오디오 신호 처리 방법.
제 3 항에 있어서, 상기 시간 데이터(304)는 수신된 오디오 신호와 관련하여 상기 명령 세트내의 마크업 언어 용어(302)의 각각의 시작 시간 및 지속기간을 규정하는, 오디오 신호 처리 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 명령 세트를 브라우저(124)에 전송하는 단계(208)를 더 포함하는, 오디오 신호 처리 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 마크업 언어 어셋들(markup language assets; 126)을 수신하는 단계(210)를 더 포함하는, 오디오 신호 처리 방법.
제 5 항 또는 제 6 항에 있어서, 상기 수신된 오디오 신호와 동기하여 상기 마크업 언어 어셋들(126)을 렌더링(rendering)하는 단계(212)를 더 포함하는, 오디오 신호 처리 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 오디오 신호로부터 추출된 상기 특징들은 템포, 키 및 볼륨 중 하나 이상을 포함하는, 오디오 신호 처리 방법.
오디오 신호 처리 시스템에 있어서,

오디오 신호를 수신하는 입력 디바이스(122), 및

상기 오디오 신호로부터 특징들을 추출하고 상기 추출된 특징들을 메타데이터(302)로 변환하는 프로세서(102)를 포함하며,

상기 메타데이터(302)는 마크업 언어의 명령 세트를 포함하는, 오디오 신호 처리 시스템.
제 9 항에 있어서, 상기 메타데이터를 저장하는 저장 디바이스(114)를 더 포함하는, 오디오 신호 처리 시스템.
제 9 항 또는 제 10 항에 있어서, 상기 수신된 오디오 신호를 출력하는 출력 디바이스(116, 118)를 더 포함하는, 오디오 신호 처리 시스템.
제 9 항, 제 10 항 또는 제 11 항 중 어느 한 항에 있어서, 디바이스들의 세트 사이에 배포된 브라우저(124)를 더 포함하며, 상기 브라우저(124)는 상기 마크업 언어의 명령 세트를 수신하고 마크업 언어 어셋들(126)을 수신하며 그에 따라 상기 디바이스들의 세트를 제어하도록 구성된, 오디오 신호 처리 시스템.