KR20090103959A

KR20090103959A - 입력 미디어 샘플로부터 특징 추출을 위해 구성된 이동국과 인터페이스

Info

Publication number: KR20090103959A
Application number: KR1020097017843A
Authority: KR
Inventors: 토니 코프라; 미코 마키파; 마우리 바나넨
Original assignee: 노키아 코포레이션
Priority date: 2004-03-26
Filing date: 2005-03-22
Publication date: 2009-10-01
Also published as: EP1743285B1; BRPI0509544A; ATE510271T1; CA2561147A1; JP2007531933A; WO2005093622A1; KR20070005696A; CA2561147C; EP1743285A1

Abstract

본 발명에서는 미디어 파일로부터 일부의 특징으로 통해 미디어 파일을 식별하는 수단을 제공한다. 본 발명에 따른 장치는 프로세서; 상기 프로세서가 디지털 미디어 샘플로부터 제 1 특징 및 제 2 특징을 추출하도록 구성되는 사용자 입력 메커니즘을 포함하되, 상기 제 1 특징 및 제 2 특징은 상기 디지털 미디어 샘플 컨텐트의 정체(identity)를 기술(descriptive)하고, 상기 사용자 입력 메커니즘은 상기 추출과 동시에 리모트 미디어 인식 서비스와 무선 통신 링크를 확립하도록 구성되고; 상기 디지털 미디어 샘플의 스펙트럴 슬라이스 중 하나 또는 상기 디지털 미디어 샘플로부터의 상기 제 2 특징을 요청하는 요청 메시지를 수신하도록 구성된 수신기를 포함하되, 상기 프로세서는 상기 요청된 스펙트럴 슬라이스를 생성하고 제 2 특징을 검색하기 위해 상기 요청 메시지에 자동적으로 응답하며; 및 상기 사용자 입력 메커니즘의 동작에 응답하여 제 1 세트를 포함하는 제 1 메시지를 전송하고, 상기 사용자 입력 메커니즘의 추가 동작없이 상기 생성된 스펙트럴 슬라이스 또는 상기 검색된 제 2 특징을 포함하는 제 2 메시지를 자동적으로 전송하도록 구성된 전송기;를 포함하는 것을 특징으로 한다.

Description

입력 미디어 샘플로부터 특징 추출을 위해 구성된 이동국과 인터페이스{Mobile station and interface adapted for feature extraction from an input media sample}

본 발명은 입력 미디어 샘플의 디지털 처리를 수행하도록 구성된 무선 전화 장치 분야에 관련되어 있다. 대중적 노래의 단편같은 입력 미디어 샘플로부터 특징 추출을 할 수 있도록 구성된 장치와 그러한 장치들의 사용자 인터페이스와 특별히 관련된다.

대중 음악 소유자들은 최근에서야 인터넷과 같은 전자통신망을 통해 그들의 저작물의 디지털 복사복을 다운로드하는 것을 받아들였다. 이렇게 할 수 있는 잘 알려진 웹 사이트가 http://www.apple.com/itunes/인데, 여기서 사용자는 PC 등을 통해 웹사이트를 방문하고, 직접 곡명을 수동으로 선택하고, 웹 사이트를 방문하기 위해 그들이 사용한 PC로 선택한 곡들의 디지털 버전(예를 들면 MP3, AAC)을 다운로드한다. 사용자는 그러고 난 후 PC 상에서 음악을 실행하거나 iPod®나 다른 전용 디지털 뮤직 플레이어같은 이동 장치로 전송한다.

최근 음악 다운로드 기술의 제2세대가 시장에 등장했는데, 사용자는 웹 페이지 상에서 곡명에 의해 노래를 손으로 직접 선택할 필요가 없게 되었다. 그 대신, 노래는 서버나 혹은 웹 페이지에 연관된 다른 컴퓨터에 의해 '청취되고', 디지털 뮤직 데이터베이스로부터 그 특정 노래를 식별하도록 디지털적으로 해석된다. 예를 들면, http://shazam.com/uk/do/help_faqs_shazam#4 웹 사이트는 다음과 같은 동작을 설명한다. 사용자가 술집이나 자동차 같은 곳에서 음악을 듣고 음악이 연주되는 동안 자신의 이동국(MS)에 코드를 입력한다. 상기 음악은 마치 보이스(voice) 입력이 보내지는 것 같이 표준 MS 링크를 통해 shazam.com과 같은 호스팅 웹 사이트로 보내진다. 즉, MS로부터 shazam.com 사이트로 전송된 메시지는 모든 마이크로폰으로의 입력이 변환되는 것 같이 MS의 보코더(vocoder)에 의해 변환된 입력 아날로그 뮤직 샘플이다. 호스팅 웹 사이트는 (변환된) 생음악 입력을 수신하고, 그것을 해석하고, 자신의 데이터베이스 내의 음악 중 하나와 일치시킨다. Shazam.com 기술은 이동국을 단지 아날로그 입력을 디지털로 변환하고 변환된 신호를 패킷화하는 통로로만 사용하여 서버에서 음악을 식별하고 상기 이동국으로 결과를 되돌려 주는 데 한정된 것처럼 보인다. 더욱이, Shazam.com 기술이 무선 링크가 확립된 후 까지는 식별 목적을 위해 샘플을 처리하지 않는 것처럼 여겨지므로, 노래의 뒷 부분 만을 듣는 사용자는 노래가 끝나기 전에 확립된 링크를 가질 수 없다.

대부분의 음악 다운로드 서비스는 개인 컴퓨터(PC)를 통해 액세스되지만, 이동 무선(Over-The-Air) 다운로드 서비스 역시 소개되었다. 이동 장치는 작은 스크린 크기, 제한된 파워 서플라이, 신뢰성 및 데이터 접속 속도에 관한 제한을 가지고 있는데, 이러한 것들은 음악 탐색과 음악 서비스로부터 이동 단말기로의 음악 전송을 힘들게 한다. 보통 실제 음악 서비스는 최소 500,000 곡의 컬렉션을 가진다. 순차적인 프레젠테이션이 스크린 컨텐트와 부합해야만 하는, 이동 장치 사용자 인터페이스를 사용하는 경우에 있어서는 음악 카탈로그를 탐색하는 것이 힘든 일이다. 이는 계층 분류가 복잡해지고 음악 탐색을 힘들게 만든다.

사람들이 술집이나 콘서트 홀 혹은 자동차 같은 공공장소에서 음악을 듣는 것은 일상적인 일이 되었다. 전통적으로, 사람들은 음악의 어느 특정 부분에 관심을 갖게 되나 정작 음악의 제목은 모른다. 그러면 친구에게 묻거나, 레코드 가게 점원, 혹은 라디오 방송으로부터 노래 제목을 우연히 듣게 되고 노래를 구별할 수 있도록 가수와 노래 제목을 알게 된다. 몇몇 개인들은 관련된 서비스 번호를 호출하고 라이브 '방송'으로 그들의 이동 단말기를 통해 음악을 듣는 것에 의해 음악 제목을 알 수 있도록 Shazam.com 사이트를 이용할 수 있다. 그러고 나서 이 사람은 레코드 가게로 가서 Shazam.com이나 유사한 식별 서비스에 의해 되돌려받은 식별에 기초하여 인터넷 서비스로부터 상기 노래를 구입한다. 하지만, 항상 다음과 같은 단계가 따른다. 1) 음악 샘플 청취; 2) 음악 식별; 3) (식별에 기초하여) 구입을 위해 음악 찾기; 4) 노래 복사본 구입; 5) 구입된 복사본의 전달 및 개인 음악 컬렉션에 추가.

1)부터 3)까지의 단계는 전통적인 방법에서는 수동이다. 인터넷 기반 음악 구입은 4), 5) 단계를 자동화한다. Shazam.com 같은 서비스는 단계 1)에서 전자적 '청취'에 기반하여 단계 2)를 자동화한다. 하지만, 상기 단계를 수행하기 위해 발명자에게 알려진 모든 선행기술 접근 방식은 노래 복사복을 식별하고 구입하기 원하는 개인에 의한 수동 단계를 필요로 한다. 본 발명은 능률을 추구하고 위의 프로세스를 좀더 자동화한다.

막대한 양의 디지털 파일들이 생성되고 저장되고 있기 때문에, 디지털 파일들이 식별되는 방식을 표준화할 필요가 발생하였다. MPEG-7은 멀티미디어 파일의 컨텐트를 식별하는 정보 표시를 표준화하기 위해 Moving Pictures Expert Group(MPEG)에 의해 개발되고 있다. 이는 데이터베이스 내에서의 카테고리화 및 탐색에 덜 순응적인 컨텐트 그 자체인 정보와는 반대이다. MPEG-7이 표준화된 접근 방식이 되건 그렇지 않던, 멀티미디어 파일을 효과적으로 분류, 탐색 및 검색하는 발전된 도구 세트를 기술한다. 이러한 도구는 본 발명이 어떻게 식별 및 음악 혹은 다른 미디어 구입을 자동화하는지 아래에서 설명하는 데 있어 예시적 방식으로 사용된다.

본 발명은 사용자가 라디오 방송에서 들리는 것과 같은 미디어 파일의 정체불명의 미디어 샘플 만을 가지고 있을 때 디지털 음악 파일과 같은 미디어 파일의 식별 및 구입을 구현하도록 특별히 설정된 이동국 혹은 다른 이동 전자 장치 및 사용자 인터페이스를 제공한다.

한 측면에서, 본 발명은 프로세서 및 사용자 입력 메커니즘을 포함하는 이동국에 구현된다. 이하에서 설명되는 바와 같이 샘플 식별 및 파일 구입에 관련된 기능을 위해 지정된 전용 버튼과 같은 사용자 입력 메커니즘은 프로세서로 하여금 디지털 미디어 샘플로부터 하나 이상의 특징을 추출하도록 동작할 수 있다. 디지털 샘플이 전자우편을 통해 수신되거나 단문 메시지 서비스(SMS) 메시지에 첨부되어 있는 것처럼 디지털 미디어 샘플은 이동국의 외부로부터 기인할 수 있으며, 혹은 이동국에서 FM 라디오 방송으로부터 마이크로폰에 입력을 받는 것처럼 이동국이 디지털 미디어 샘플로 변경시키는 아날로그 미디어 샘플에서 기인할 수도 있다. 특징(feature)은 미디어 샘플 컨텐트의 정체(identity)를 묘사하고, 그러한 방법으로 미디어 샘플을 한 형태에서 다른 형태로 단지 변환하기만 하는 보코더(vocoder)를 통해 구별한다. 여기서 설명되는 특징의 예는 무엇보다도 파형 엔벨로프(waveform envelope), 하모닉 주파수(harmonic frequency), 스펙트럴 센트로이드(spectral centroid), 및 휴지(休止) 음대역(silence)이다. 바람직하게는, 이동국은 전송기를 또한 포함하고, 상기 이동국은 입력 메커니즘에서 단일 사용자 입력이 네트워크로 무선 링크를 시작하기위해 프로세서로 하여금 특징을 추출하도록 그리고 전송기로 하여금 링크를 통해 프로세서에 의해 추출된 특징을 전송하도록 동작하게 구성된다. 유익하게는, 상기 이동국은 바람직하게는 미디어 샘플을 위한 텍스트 식별자가 표시되도록 디스플레이 인터페이스 혹은 스크린을 포함한다. 이러한 디스플레이는 네트워크로부터 링크를 통해 수신기에서 응답 메시지를 수신하는데 응하는데, 상기 응답 메시지는 추출된 특징의 전송에 응하고 상기 응답 메시지는 미디어 샘플과 일치하는 미디어 파일의 식별자를 포함한다. 더욱 추가적인 발명적 측면이 이하에서 설명된다.

다른 실시예에서 본 발명은 이동 전장 장치의 사용자 인터페이스이다. 사용자 인터페이스는 이동 전자 장치에 내재된 프로세서가 사용자 입력 메커니즘에서 단일 사용자 입력일 때 두가지 동작을 일으키게 할 수 있는 사용자 입력 메커니즘을 가진다. 이러한 단일 사용자 입력은 디지털 미디어 샘플로부터 다수의 특징이 추출되도록 하고 다수의 추출된 특징들이 장치 외부로 전송되도록 한다. 디지털 디미어 샘플이 장치로 입력될 수 있고 혹은 장치는 입력이 아날로그 미디어 샘플일 때 디지털로 변환할 수 있다. 사용자 인터페이스는 미디어 샘플과 일치하는, 즉, 추출된 특징이 아래의 식별자를 위해 다수의 추출, 전송되는 특징과 정확히 일치하는 미디어 파일을 형성하는, 미디어 파일의 텍스트 식별자를 표시하기 위한 디스플레이 스크린을 더 포함한다. 하지만, 이것이 이동국이 실제로 미디어 파일로부터 특징을 추출하고 그들을 디지털 미디어 샘플로부터 추출된 특징에 견주는 것을 의미하지는 않는다. 텍스트 식별자는 전송된 특징에 응답 그 자체인 응답 메시지를 수신하는 것에 응답으로 표시되는 것이다. 바람직하게는, 사용자 입력 메커니즘은 응답 메시지 수신 후에 장치 외부로 인증 메시지가 전송되도록 할 수 있다. 인증 메시지는 응답 메시지에서 수신된 미디어 파일 식별자 및 이동 전자 장치로 미디어 파일의 복사본을 다운로드하도록 하는 요청을 포함한다. 하지만, 바람직스럽게는 이러한 인증 메시지가 특징 추출과 전송을 시작하라는 사용자 입력 때에 또한 시작되지는 않는다.

본 발명의 실시예에서의 이런 저런 측면과 이익이 첨부된 도면과 연결된 이하의 설명을 참조하여 더욱 명확해 질 것이다. 하지만 도면은 예시적인 것으로 주어질 뿐 본 발명의 제한을 정의하기 위해서가 아님이 인식되어야 한다.

본 발명은 사용자가 라디오 방송에서 들리는 것과 같은 미디어 파일이 어떤 것인지를 알아내고 싶은 경우, 다양한 형태의 단지 그 미디어 파일의 일부 만을 알고 있는 경우 그 미디어 파일의 일부를 통해 전체 미디어 파일을 식별할 수 있는 방법이나 장치가 요구된다.

상기 과제를 해결하기 위해 프로세서; 상기 프로세서가 디지털 미디어 샘플로부터 제 1 특징 및 제 2 특징을 추출하도록 구성되는 사용자 입력 메커니즘을 포함하되, 상기 제 1 특징 및 제 2 특징은 상기 디지털 미디어 샘플 컨텐트의 정체(identity)를 기술(descriptive)하고, 상기 사용자 입력 메커니즘은 상기 추출과 동시에 리모트 미디어 인식 서비스와 무선 통신 링크를 확립하도록 구성되고; 상기 디지털 미디어 샘플의 스펙트럴 슬라이스 중 하나 또는 상기 디지털 미디어 샘플로부터의 상기 제 2 특징을 요청하는 요청 메시지를 수신하도록 구성된 수신기를 포함하되, 상기 프로세서는 상기 요청된 스펙트럴 슬라이스를 생성하고 제 2 특징을 검색하기 위해 상기 요청 메시지에 자동적으로 응답하며; 및 상기 사용자 입력 메커니즘의 동작에 응답하여 제 1 세트를 포함하는 제 1 메시지를 전송하고, 상기 사용자 입력 메커니즘의 추가 동작없이 상기 생성된 스펙트럴 슬라이스 또는 상기 검색된 제 2 특징을 포함하는 제 2 메시지를 자동적으로 전송하도록 구성된 전송기;를 포함하는 것을 특징으로 하는 장치가 제공된다.

상기의 과제 해결 수단을 통해 사용자가 불현듯 라디오 방송 등에서 듣는 미디어 파일을 전체를 알고자 할 경우, 그 미디어 파일의 특징 중 일부를 통해서 전체를 효율적으로 식별할 수 있도록 한다.

도 1은 본 발명이 동작하는 통신 시스템의 개략도이다.

도 2a 내지 2b는 이동국과 서버 각각에 분배된 미디어 샘플의 특징 추출을 나타내는 블럭도이다.

도 3a 내지 3d는 도 1의 통신 시스템에서 취해지는 상세한 동작을 나타내는 연속 흐름도의 일부이다. 도 3a는 이동국 내에서의 단계를 나타내고, 도 3b에서는 서버 내에서의 단계를 나타내며, 도 3c는 구입을 위한 미디어 파일 다운로드를 제공하는 서버 내에서의 단계를 나타내고, 도 3d는 서버에 응답하여 이동국에서의 추가적인 단계를 나타낸다.

도 4a는 본 발명의 가르침에 따라 특별히 구성된 이동국의 블럭도이다.

도 4b는 본 발명에 따라 전용 미디어 샘플 인식 버튼을 포함하는 사용자 인터페이스를 상세하게 표현한 이동국의 평면도이다.

도 5는 이동국에서 입력을 연속 버퍼링하는 이익을 보여주는 시계열도이다.

본 발명은 이동 전화 능력을 가진 이동국(혹은 다른 이동 전자 장치) 및 그것의 사용자 인터페이스에 맞추어져 있다. 사용자 인터페이스는 사용자로 하여금, 마이크로폰을 통한 아날로그 샘플 입력 혹은 전자 우편으로 수신되는 혹은 PC와의 케이블 연결을 통해 업로드 되는 디지털 샘플 입력 같이 어떠한 방식에 의해서 미디어 스테이션(media station)으로 입력되는 미디어 샘플을 손쉽게 식별가능하게 해준다. 도 1과 3a 내지 3d 및 관련된 텍스트는 MS가 바람직스럽게 동작하게되는 시스템을 설명하며, 함께 출원되고 소유된, 2004년 3월 26일 출원 미국특허출원번호 10/810,924의 주제이다. 도 2a 내지 2b는 주 미디어 샘플을 식별하기 위한 목적상 분배된 특징 추출을 설명하고 도 2a는 MS 부분을 설명한다. 도 4a 내지 4b 및 5는 본 발명의 MS 및 사용자 인터페이스에 가장 구체적으로 관련된다.

여기서 사용된 용어 설명은 이하 상세한 설명을 더욱 명확히 할 것이다. 미디어 샘플은 해석이 이루어지는 어떠한 길이의 음성, 영상 혹은 동영상 신호의 일부이다. 상기 미디어 샘플은 (사람이 구별가능한 MS 변환기에 수신된 음악 일부 혹은 MS에 통합된 아날로그 라디오 신호에서 수신된 FM 방송 라디오 신호같은) 아날로그이거나 (케이블이나 무선 링크를 통해 MS에 다운로드된 혹은 업로드된) 디지털일 수 있다. 아래의 설명은 예를 들어 전통적인 FM 라디오를 통해 일반적으로 흘러나오는 노래의 연속적이고 일관적인 10초 부분과 같은 노래의 시간 제한 부분 상황에서 이루어진다. 그 샘플의 특징, 혹은 그것의 디지털 버전은 샘플의 디지털 해석으로부터 수집되거나 추출될 수 있는 샘플 컨텐트의 디지털 마커(marker), 기술자(descriptor), 혹은 다른 식별자(identifier)이다. 타임포인트(timepoint)는 샘플내의 시간적 일순간이다. 특징은 종종 타임포인트와 관련된다. 예를 들면, 샘플에서 최대치는 오직 한 타임포인트에서만 일어나거나 반복적인 주파수 패턴은 동등한 간격을 사이에 둔 타임포인트에서 시작할 것이다. 특징적인 음향 시퀀스는 식별가능한 베이스 시퀀스의 종단으로부터 고정된 오프셋 타임(offset time)에서만 발생할 것이다. 좀더 상세한 특징 설명이 아래에 제시된다. 샘플의 다양한 특성들을 정량화하기 위해 샘플들로부터 특징들이 추출된다. 음악을 예로 들면, 음악 데이터베이스를 탐색하고 수천 혹은 수백만 노래 가운데 샘플된 곡명(혹은 버전, 가수 등)을 찾아내기 위해 노래 샘플의 특징이 추출된다. 데이터베이스가 전체 노래들로부터 사전에 추출되어진 특징을 포함하는 경우에는, 현재 샘플로부터 추출된 특징과 사전에 추출된 특징 간에 일대일 비교가 이루어질 것이다. 이러한 방식으로, 비교적 전체 중 적은 샘플만으로 노래가 찾아질 수 있다. 특징이 미디어 샘플 혹은 그 샘플의 디지털 버전으로부터 추출될 수 있는 반면에, 추가적인 특징들은 이미 추출된 특징에서 추출될 수 있다. 예를 들어, 미디어 샘플 혹은 그 샘플의 디지털 버전으로부터 추출된 제1 특징 세트는 그들간에 일정한 자동 상호연관(autocorrelation)을 보여줄 것이다. 그러한 자동 상호연관은 오직 추출된 특징의 제1 세트의 해석에 의해서만 결정된다.

본 발명이 동작되는 통신 시스템(20)이 도 1에 나타난다. FM 라디오 같은 미디어 소스(22)는 노래의 일부와 같은 미디어 샘플(24)을 제공한다. 무선 통신 능력을 가진, 특별히 무선 전화 통신 능력을 가진 이동국 MS(26) 혹은 유사한 이동 장치는 디지털화 처리 및 전송을 위해 미디어 샘플(24)을 수신한다. 비록 MS(26)가 노래 전체를 수신할 수 있음에도 불구하고, 미디어 샘플 혹은 그것의 디지털화된 버전은 본 발명에 따라 MS(26)가 동작하게 되는 노래의 일부이다. MS(26)는 미디어 샘플(24)의 적어도 일부의 디지털 버전을 생성하고, 그것으로부터 하나 이상의 특징을 추출하고 무선 링크(28)을 통해 통신 서버(30B)와 통신 중인 기지국(base station)(30A)을 포함하는 통신 서비스(30)로 상기 특징들을 전송한다.

통신 서비스(30)는 기지국(30A)에서 MS(26)로부터의 호출을 수신하고 그 호출을 추적하고 MS(26)로부터의 전송을 상업 음악 인식 서비스(34)로 방향을 전환시킨다. 통신 서비스는 MS(26)로부터 수신된 바로 그 신호를 사용되는 통신 방식에 따라 (디코드, 압출 풀기, 에러를 찾아내고 정정하는 등과 같이) 변경할 수도, 하지 않을 수도 있으나, 근본적으로 중요한 데이터, 전송된 특징을 변경하지는 않는다. 더불어, 통신 서비스(30)는 아래에 설명되는 바와 같이 MS(26)가 받을 수 있도록 단문 응답 메시지를 작성하는 것을 수행한다.

상업 음악 인식 서비스(34)는 통신 서비스(30)를 통해 MS(26) 전송을 수신한다. 이 전송은 바람직하게는 상업 음악 인식 서비스(34)에서 좀더 상세히 해석되는 미디어 샘플(24)의 특징을 포함한다. 선택적으로, MS-추출 특징은 샘플의 다른 부분으로부터 상업 음악 인식 서비스(34)가 추가적인 특징을 추출하는 그러한 샘플의 다른 부분과 함께 전송된다. MS 내의 프로세싱 파워와 배터리 효율성이 증가함에 따라, MS(26)으로부터의 전송은 상업 음악 인식 서비스(34)에 의한 더 이상의 특징 추출이 필요하지 않을 정도로 충분히 종합적인 특징 세트를 포함할 수 있다. 어떠한 경우에도 상기 전송이 MS(26)를 통해 단지 전화상으로 전체 미디어 샘플을 라이브 전송하는 것은 아니다. 그와 상관없이, 상업 음악 인식 서비스(34)는 상기 전송을 수신하고, MS(26)로부터 수신된 메시지로부터 더 많은 관련 특징을 추출할 것이며, 이들을 상기 메시지로부터 수신된 MS-추출 특징과 결합시킨다.

음악 인식 서비스(34)와 함께 하나일 수도 아닐 수도 있는 음악 시그내쳐 데이터베이스(song signature database)(36)는 (MS(26)와 상업 음악 인식 서비스(34) 모두에 의해) 미디어 샘플(34)로부터 추출된 특징의 전체 세트와 비교되는 데이터베이스를 제공한다. 이 데이터베이스는 바람직하게는 각각의 수많은 파일을 위해, 기초가 되는 미디어 파일이나 그것의 샘플로부터 추출된 다수의 특징을 저장한다. 이러한 저장된 특징 세트는 음악 시그내쳐 데이터베이스(36)에 있는 모든 다른 파일 중에서 미디어 샘플(24)이 꺼내진 기초가 되는 파일을 고유하게 식별하기 위해 사용될 수 있다. 선택적으로, 음악 시그내쳐 데이터베이스(36)는 각각의 파일 혹은 곡들을 위해 여러 개의 추출된 고유하지 않은 특징과 (기준 샘플과의 조합이 기초가 되는 파일이나 노래를 고유하게 식별하는 그러한) 기준 샘플, 혹은 다른 노래나 파일로부터 데이터베이스에 있는 노래나 파일을 고유하게 식별할 수 있는 어떠한 다른 방법을 저장할 수 있다.

음악 인식 서비스(34)는 원래의 샘플과 음악 시그내쳐 데이터베이스(36)에 저장된 샘플을 비교하고 음악 시그내쳐 데이터베이스(36)에서 MS(26)에서 전송된 특징과 일치하는 것만을 찾기 위해 탐색한다. MS(26)와 인식 서비스(36) 각각이 특징을 추출하는 데 있어서, 음악 인식 서비스(34)는 두가지 별개의 기능을 수행한다. 추출된 특징을 사용하여 데이터베이스를 탐색하는 것과 전송된 미디어 샘플의 일부로부터 더 많은 특징을 추출하는 것이다. 바람직하게는, 인식 서비스(34)는 이 두 기능을 병렬적으로 수행한다. 음악 인식 서비스(34)가 초기에 MS(26)에 의해 사전에 추출된 특징만을 사용하여 시그내쳐 데이터베이스(36)를 탐색할 때, 특정 노래가 찾아지지 않을 수 있지만 이러한 초기 탐색에 사용된 특징의 수에 따라 시그내쳐 데이터베이스(36)에서 잠재적으로 일치하는 것들은 상당히 작은 서브세트(subset)로 줄여질 수 있다. 동시에, 인식 서비스(34)는 MS(26)에 의해 보내진 미디어 샘플(24)의 부분으로부터 추가적인 특징을 추출한다. 각각의 추가적인 특징이 추출됨에 따라, 잠재적으로 일치하는 서브세트는 오직 한 개의 일치만이 찾아질 때까지 줄어든다. 그 시점에서, 인식 서비스(34)는 추가적 추출을 종료하고, 시그내쳐 데이터베이스(36)의 미디어 파일로 미디어 샘플(24)을 일치시키기 위해 필요한 전체 프로세스가 최소화된다.

선택적으로, 인식 서비스(34)는 대신 일단 MS(26)로부터 전송된 메시지로부터 추가적인 특징을 추출하고, MS(26)로부터 수신된 메시지와 추출된 특징을 컴파일하고, 특정 일치를 찾기 위해 전체 시그내쳐 데이터베이스(36)의 탐색을 오직 한번 수행할 수도 있다. 선택은 사용자에의 응답성(데이터베이스 탐색 시간)과 많은 MS로부터의 수많은 동시다발적 메시지에서 추가적인 특징을 추출하기 위해 인식 서비스에서 이용가능한 프로세싱 파워 간의 시장 주도적 밸런스에 달려있다.

일단 정확한 일치가 발견되면, 인식 서비스(34)는 샘플 식별 메시지(만일 일치된 것이 발견되지 않으면 식별된 것이 없음 메시지)를 통신 서비스(30)를 통해 MS(26)로 보낸다. MS(26)는 사용자에게 노래 이름 혹은 다른 미디어 파일을 알려주기 위해 디스플레이 사용자 인터페이스 상에 곡명과 가수를 표시한다.

바람직하게는, 본 발명은 단지 노래나 미디어 파일을 식별하는 것을 넘어서 MS(26)에서 고객에게 다운로드되어 식별된 미디어 파일의 복사본을 사용자가 구입하도록 하는 링크도 자동적으로 제공한다. 선택적으로, 본 발명은 MS(26)에게 제1 복사본을 제공하고, 개인 컴퓨터(44) 같은 다른 장치에 제2 복사본을 제공하도록 구성될 수 있는데, 각각의 복사본은 다운로드 상 이용될 수 있는 링크 28, 46 형식에 맞추어진다. 이는 제1 복사본이 MS(26)에서 (대역폭을 고려하는 것과 함께) 좀더 제한된 저장 및 사운드 재생 능력을 위해 최적화하는 코덱으로 압축된 식별된 미디어 파일일 수 있고, 동일한 기초가 되는 미디어 파일 제2 복사본이 PC(44)로의 링크(46)에서 사용가능한 더 큰 대역폭을 위해 최적화하는 제2 코덱으로 압축될 수 있다는면에서 이점이 있다. 그리고 난 후 고객은 제2 복사본을 높은 재생 충실도의 이동 음악을 위한 Rio® 혹은 iPod® 같은 전용 이동 음악 장치로 업로드할 수 있다. 이러한 두 복사본 다운로드 대안에 대한 상세한 기술은 공통으로 소유되고 2004년 3월 2일 출원된 미국 특허출원번호 10/792,547의 주제이기도 하고 여기에 참조로 결합되어 있다.

사용자에게 식별된 미디어 파일 복사본을 제공하는 것은 다운로드되어야 하는 실제 파일이나 노래를 저장하는 파일 혹은 음악 데이터베이스(40)과의 협력을 필요로 한다. 시그내쳐 데이터베이스(36)가 (일치하는 것이 찾아지면 MS(26)로 보내져야 되는 곡명/작곡자와 같은) 특징 및 파일/노래 식별을 저장하는 데 있어, 파일/노래 저장 데이터베이스(40)는 시그내쳐 데이터베이스(36)에서 일치된 특징과 일치하는 실제의 파일/노래를 저장한다. 두 데이터베이스(36, 40)는 비록 꼭 그럴 필요는 없으나 하나로 합쳐질 수도 있다. 시그내쳐 데이터베이스(36)로부터의 식별은 구별된 파일/음악 데이터베이스(40)로부터 특정 파일/노래를 손쉽게 선택하는데 사용될 수 있다. 후자의 데이터베이스(40)로부터의 파일/노래는 본 발명이 앞에서 처럼 바람직하게는 파일 압축 이후 MS(26)의 사용자에게 노래의 복사본과 그 식별을 제공하도록 확장된 때에 사용자에게 다운로드 되는 것이다.

노래가 그러한 식으로 다운로드 된 때에, 바람직하게는 네트워크(32)에서 음악 데이터베이스(40)에 연결된 음악 서비스(38)는 MS(26)로부터 요청을 수신하고 요청된 파일(노래, 이미지, 텍스트 등) 및 파일을 기술된 형식(스타일, 템플릿, 스크립트 등)으로 제시하기 위한 메타데이터로 응답한다. 음악 서비스(38)는 노래 저장 데이터베이스(40)로부터 데이터를 문의한다. MS(26)가 통신 서비스(30)를 통해 네트워크(32)에 연결되어 있으므로, MS(26)로 가는 도중에 그곳을 거쳐가게 된다.

다운로드 서비스(42)는 음악 서비스(38)를 통해 MS(26)에서 시작된 모든 개인적인 다운로드 트랜잭션을 관리하기 위해 포함될 수 있다. 다운로드 서비스(42)는 저작권 제한과 부합되고 금액청구를 하기 위해 저장 데이터베이스(40)로부터 파일 각각의 다운로드를 추적한다. 본 발명은 버튼이나 소프트 키를 한 번 누름과 같이 MS(26)의 사용자 인터페이스 UI에서 한 번의 입력으로 자동적으로 실행되는 종단간(end-to-end) 트랜잭션을 꾀한다. 이러한 종단 간 실시예에서, 단일 입력은 미디어 샘플의 포착, 특징 추출 및 MS(26)에서 호출 확립 그리고 MS(26)로부터 추출된 특징과 미디어 샘플 부분의 전송을 개시한다. 노래는 (어떤 것은 MS(26)에 의해 추출되고, 어떤 것은 인식 서비스(34)에 의해 추출된) 추출된 특징에 의해 시그내쳐 데이터베이스(36)를 사용하여 식별되고, 음악 서비스(38) 혹은 인식 서비스(34) 중 하나는 MS(26)로 MS 사용자에게 노래를 식별하는(예를 들어 곡명 및 가수) 메시지를 보낸다.

메시지는 또한 음악 서비스(38)로의 링크를 제공하여 사용자가 바람직하게는 MS(26)에서 한번 더 단일 입력으로 MS(26)로 노래를 다운로드하도록 요청할 수 있다. 음악 서비스는 (음악 데이터베이스(40)로부터 노래를 디지털적으로 선택하도록 사용되는 바와 같은 곡명/가수일 수도 혹은 아닐 수도 있는)노래 식별자를 저장하거나 그 식별자를 다운로드 서비스(42)로 전송하여 다운로드 서비스(42)가 그것을 저장한다. MS(26)가 노래 다운로드를 요청하는 때에, 음악 서비스(38)는 음악 데이터베이스(40)로부터 일치하는 노래를 선택하고, 통신 서비스 서버(30B)를 통해 MS(26)의 사용자에게 금액청구를 준비하는 다운로드 서비스(42)에게 통보하고, 음악 서비스(38)는 MS(26)에 다운로드되도록 음악 데이터베이스(40)로부터 식별된 노래를 제공한다. 사용자는 식별 메시지에서 제공된 링크를 이용하여 MS(26)로부터 직접 음악 서비스(38)를 액세스할 수 있거나 혹은 현재 실행 상 무선 이동 전화 링크(28)같이 대역폭에서 일반적으로 그렇게 제한적이지 않은 광대역폭 혹은 다른 PC 링크를 통해 노래가 다운로드될 것이기 때문에 사용자는 더 높은 재생 충실도 버전(다른 압축 코덱)의 음악을 얻을 수 있도록 PC(44)로부터 링크를 사용할 수 있다.

도 2a 내지 2b는 통신 시스템(20)의 분배된 성분 가운데서 미디어 샘플의 해석을 광범위하게 설명한다. 도 2a는 블럭도에서 MS(26) 내의 동작을 보여준다. 미디어 샘플(24)은 MS(26)로의 다른 어떤 입력처럼 디지털화되고, MS(26)는 음악 인식 서비스(34)에 의해 동작되는 것과 같은 서버로의 (예를 들면 무선 링크(28) 및 네트워크(32)를 통해서와 같이) 데이터 접속을 확립한다. MS(26)는 디지털화된 오디오 입력 신호(201) 전처리를 시작하고 그 신호로부터 특징을 추출하는데, 상기 입력 신호는 추후에 데이터 패킷으로 서버에 보내질 것이다. 선택적으로 MS(26)는 전처리(202)가 프로세스를 시작하기 위한 인식키 누름 혹은 다른 사용자 입력에 앞선 시점에서 입력이되는 신호에서 시작할 수 있도록 지속적으로 오디오 입력을 버퍼링해온다. 대부분의 경우 사용자는 인식키 누름 이전에 어느 정도 노래를 이미 듣고 있다.

인식을 위한 특징은 예를 들면 스펙트럴 편평성(spectral flatness), 스펙트럴 센트로이드, 리듬 및/또는 음정일 수 있다. 특징들은 파일을 분류하고 식별할 수 있도록 미디어 파일이나 샘플의 내용을 특징지우지만, 이들은 MS(26)로의 입력이 되는 (아날로그) 미디어 샘플(24)의 단순한 디지털 재형상화는 아니다. 비록 MS(26)가 보코더를 사용함에 의해서와 같이 입력 미디어 샘플(24)을 디지털화하지만 그것만으로는 특징 추출이 아니다. 바람직하게는, 특징들은 재구성할 수 있는 것이 아니다. 즉, 원래의 미디어 샘플은 단지 재처리 혹은 샘플로부터 추출된 특징들을 솜씨있게 조작해서 재구성될 수 있는 것은 아니다. 재구성 불가 특징들은 미디어 파일 컨텐트를 기술하고 식별하지만 컨텐트를 재생성하지는 못한다. 모든 특징들이 재구성 불가일 필요는 없지만, MS(26)에서 재구성 불가 특징을 추출하는 것은 항상 그렇지는 않다고 하더라도 대부분의 경우 유선 링크에 넘겨주기 위해 재구성 특징보다 더 작은 패킷화된 메시지를 만들어내게 된다.

적절한 특징들이 예를 들면 참조로 결합되어 있는 MPEG-7 표준(ISO/IEC 15938, 여기에서 오디오 관련 실시예를 위해 특별히 ISO/IEC 15938-4, INFORMATION TECHNOLOGY - MULTIMEDIA CONTENT DESCRIPTION INTERFACE - PART 4: AUDIO)에 설명되었다. MPEG-7에 관련된 문헌들은 본 발명에 따라 MS(26)에 의해 수행되는 바와 같이 미디어 샘플로부터 직접 추출되는 특징을 표시하기 위해 기술자(descriptor) 용어를 사용한다. 기술자(descriptor)가 미디어 샘플 디지털 버전의 저레벨 해석인 경우, 서술 체계(description scheme)는 (즉, 샘플로부터 직접 나온 것이 아닌 기술자(descriptor) 간에 상호 관계로부터 나온) 고레벨 해석이다. MPEG-7는 현재 개선 중에 있고, 이하는 현재 상기 표준에서 계획된 특정 기술자(descriptor) 및 기술 체계의 요약이다.

기술자(descriptor)는 신호 크기의 통계학적 모델, 신호의 기본 주파수, 신호에 존재하는 소스 수의 계산, 스펙트럼 틸트(tilt), 감성적 컨텐트, 외부 음향 효과 모델 그리고 모든 경우의 구체적인 혹은 추상적인 특징과 같은 저레벨 특징, 동영상 컨텐트의 기본적인 품질을 나타낸다. 본 발명의 바람직한 실시예에서 MS(26)은 기술자(descriptor)를 추출한다.

서술 체계(DS, description scheme)는 기술자(descriptor)의 구조적 조합이다. 이 구조는 문서의 구조를 직접적으로 표현하기 위해 문서에 주석을 달거나 혹은 고수준 개념의 더욱 풍성한 표현을 형성하는 특징의 조합을 생성하기 위해 사용된다. 예를 들면, 클래식 음악 DS는 소나타 형태의 음악 구조를 (예외를 허용하면서) 암호화한다. 다양한 스펙트럼 및 시간 기술자(descriptor)는 음색이나 짧은 음향 효과를 기술하기 위해 적절한 DS를 형성하도록 결합된다. 본 발명의 바람직한 실시예에서, 네트워크(32) 상의 서버는 DS를 추출한다.

기술자(descriptor)는 미디어 샘플 컨텐트의 특정한 특성 표시의 구성과 의미를 정의하는 것으로 여겨질 수 있다. 예를 들면, 이미지 파일의 색은 하나의 특성(characteristic)이다. 기술자(descriptor)가 둘 중에 좀더 기본(basic)이고 특정한 특성이 여러 개의 기술자(descriptor)에 의해만 완벽하게 설명될 수 있을 때에, 특징은 기술자(descriptor) 혹은 특성일 것이다. '컬러' 특성과 연관된 가능한 기술자(descriptor)는 컬러 히스토그램, RGB 벡터 혹은 스트링을 포함하다. MS(26)은 주어진 값 세트에 대한 기술자(descriptor)의 표시, 특정 기술자(descriptor)에 대한 값을 추출한다. 예를 들면, RGB = (255, 255, 255), 컬러 스트링 = "red"이다. 어떤 기술자(descriptor)는 어떤 종류의 미디어 파일과 관련되거나 유효하지만 다른 것은 그렇지 않다. 예를 들면, 시각적 미디어 샘플에 대한 기술자(descriptor)는 기본적 구조적 특성 내에서는 격자형 레이아웃과 히스토그램; 컬러 특성 내에서는 컬러 스페이스, 주요 컬러, 컬러 히스토그램과 컬러 양자화; 질감 특성 내에서는 공간적 이미지 밀도 분포와 균질 질감; 형상 특성 내에서는 물체 경계 박스, 영역-기반 형상, 윤곽-기반 형상 및 3D형상 기술자; 동작 특성 내에서는 카메라 모션, 오브젝트 모션 궤도, 파라미터적 오브젝트 모션, 모션 액티비티 및 모션 궤도 양상(속도, 방향, 가속도)을 포함할 수 있을 것이다. 오디오 샘플에 관련된 기술자(descriptor)는 음색 주해 특성에서는 단어와 음운의 격자와 메타데이터; 음질 특징에서는 우수(even) 하모닉에 대한 기수(odd) 하모닉 비율 및 하모닉 어택 간섭성(harmonic attack coherence); 멜로디 특성에서는 콘투어(contour) 및 리듬을 포함할 수 있다.

현재 MPEG-7에는 오디오 샘플을 기술하기 위한 17가지 시간적(temporal) 그리고 공간적(spatial) 기술자(descriptor)가 있다. 이들은 기본(basic), 기본 스펙트럴(basic spectral), 신호 파라미터(signal parameters), 음색 시간(timbral temporal), 음색 스펙트럴(timbral spectral), 스펙트럴 기저(spectral basis)들이다. 더불어, 휴지(休止) 기술자(silence descriptor)는 오디오 샘플의 컨텐트를 식별하는데 있어 상당히 유용한 것으로 증명되었다. 두가지 기본 오디오 기술자(descriptor)는 모든 종류의 오디오 샘플에 적용가능한, 일반적 사용을 위해 시간적으로 샘플링된 스칼라 값들이다. 파형 기술자(descriptor)는 전형적으로는 디스플레이 목적 상 (최소 및 최대) 오디오 파형 엔벨로프(envelope)를 기술한다. 파워 기술자는 시간적으로 평탄화된 순간 파워인데, 신호 및 샘플의 핵심 개요로서 유용하고, 파워 스펙트럼과 연관되어 있다.

4가지 기본적 스펙트럼 오디오 기술자는 모두가 오디오 신호 또는 샘플의 단일 시간-주파수 해석으로부터 유도되는 기본적인 공통 기반을 갖는다. 이들 모두는 제 1 기술자인 오디오 스펙트럼 엔벨로프 기술자(AudioSpectrumEnvelope Descriptor)에 의해 제공되는데, 제1 기술자는 로그-주파수 스펙트럼이고, 이차 제수 혹은 다중 옥타브(octave)에 의해 구분된다. 이 오디오 스펙트럼 엔벨로프는 오디오 샘플의 단기간 파워 스펙트럼을 기술하는 벡터이다. 이것은 스펙트로그램(분광 사진)을 디스플레이한다든가, 데이터의 정제되지 않은 청각화(auralization)를 합성하는데 사용되거나, 탐색과 비교를 위한 일반적 목적의 기술자로서 사용된다. 다른 스펙트럼 오디오 기술자는 로그-주파수 파워 스펙트럼의 중심(중심(centroid) 혹은 형상), 중심 주변 스펙트럼 분포, 여러가지 주파수 밴드나 빈(bin)에 대한 스펙트럼 편평도를 표시한다.

두가지 신호 파라미터 기술자는 주로 주기적 혹은 반주기적 신호에 적용된다. 이들은 오디오 샘플의 기본 주파수(신뢰도(confidence measure))와 (예를 들면 음악 톤과 목소리 연설, 금속성음과 벨소리, 'f' 음과 같은 마찰음과 악기들의 조밀한 혼합들을 구별하기 위한) 하모닉을 기술한다.

두가지 음색 시간 기술자는 사운드 세그먼트의 시간적 특성을 기술하고, 특별히 음악적 음색, 피치(pitch) 및 소리 세기와 독립된 톤의 질(質)에 유용하다. 한 기술자는 사운드의 "어택(attack)" 특성(신호가 휴지(休止) 상태에서 최대치로 상승하는데 걸리는 시간)을 기술화하고, 다른 기술자는 신호가 어느 정도 시간 안에 어디로 신호가 집중되는지를 나타내는 신호 엔벨로프 혹은 센트로이드 특성을 기술화한다. 예를 들면, 후자의 기술자는 두 음조의 길이와 어택이 동등할 때 감쇠하는 피아노 음조와 유지되는 오르간 음조를 구별할 수 있다.

다섯 가지 스펙트럴 기술자는 특별히 음악 음색 인지에 적용가능한 선형 주파수 공간에서의 스펙트럴 특징이다. 하나는 선형 파워 스펙트럼에서 빈의 주파수 지수 가중 평균(power-weighted average)이고, 이는 앞에서 명시된 센트로이드 기술자와 유사하지만 다른 악기에 대한 사운드의 "높은 가락"을 구별한다. 나머지 음색 스펙트럴 기술자는 신호나 샘플의 하모닉 일정 간격 컴포넌트 상에서 동작한다. 이러한 이유로, 기술자(descriptor)는 선형 주파수 공간에서 계산되고, 스펙트럴 센트로이드, 스펙트럴 편차 및 스펙트럴 확산 기술자를 포함한다.

두가지 스펙트럴 기저 기술자는 간결성과 인식을 돕기 위해 고차원 스펙트럴 공간의 저차원 투사(投射)를 나타낸다. 그러한 한가지 기술자는 정규화된 파워 스펙트럼의 특이값 분해(singular value decomposition)로부터 유도되는 일련의 (잠재적으로 시변(time-varying) 및/또는 통계적으로 독립된) 기본 함수이다. 다른 하나는 (앞에 것과 결합된) 감소된 랭크 기저(rank basis)로의 투사 이후 스펙트럼의 저차원 특징을 나타낸다. 휴지(休止) 세그먼트는 "휴지(silence)"의 단순 의미를 오디오 세그먼트에 단순히 덧붙인다. 비록 이것이 아주 단순하기는 하지만, 매우 효과적인 기술자이다. 이것은 오디오 스트림의 추가적 분할을 돕는데 사용되거나 분할 프로세스를 하지 않도록 하는 힌트로 사용될 수 있다.

더불어, 기술자들은 스펙트로그램의 독립적인 서브스페이스를 관찰하고 간결하게 표시하는데 사용될 수 있다. 종종 이러한 독립 서브스페이스(혹은 그것의 그룹들)는 다른 사운드 소스와 강하게 상호연관된다. 그래서 더 적은 스페이스를 사용하면서도 스펙트로그램으로부터 좀더 돌출된 특징과 구조를 얻는다.

서술 체계(Description Schemes : DS)는 다수개의 주파수 빈(bins) 혹은 스펙트럴 슬라이스(slice)에 대해 동일 종류의 기술자 중에 혹은 기술자들 간에 상호연관성을 반영한다. 그러한 방법으로, DS는 기술(記述)적 풍족함을 위해 어느 정도의 보편성을 희생한다. 일단 MS(26)에서 샘플이나 샘플의 세그먼트로부터 충분한 수의 기술자가 추출되면, 디지털화된 오디오 샘플을 전송할 필요가 없다. 인식 서비스(34)는 단지 그것으로부터 추가적인 특징을 추출할 수 있는 추출된 특징만 있으면 된다. 본 발명의 어떤 실시예에서 이러한 추가적인 특징들은 MPEG7의 DSs와 유사하다. 예를 들면, 오디오 시그내쳐 DS는 스펙트럴 편평도 기술자를 통계적으로 간략화한다. 이는 오디오 샘플의 강건성(robust) 자동 식별 목적을 위한 고유한 컨텐트 식별자를 제공할 수 있다.

음색 DSs는 악기 사운드의 지각적 특징을 기술하는데 목적을 두고 있다. 음색은 동일한 피치와 소리 세기 사운드를 가진 두 사운드가 다르게 만드는 지각적 특징이다. 음색 DSs는, 사운드의 "어택(attack)," "선명도(brightness)," "풍요로움(richness)" 과 같은 관념, 특정 악기 혹은 악기 그룹(타악기) 등에 대한 하모닉, 간섭적인, 지속적인 사운드 및 비지속적 사운드와 관련될 수 있는 감소된 기술자 세트로 이러한 지각적 특징을 기술한다. 다른 음색 DS는 음색 시간 기술자를 거리 측량을 이용하여 스펙트럴 센트로이드와 비교한다.

멜로디 DSs는 효율적이고, 강건(robust)하며, 표현적인 멜로디 유사성 매칭(matching)을 구현하기 위한 단(單) 선율 멜로디 정보를 위해 풍부한 표현을 포함하고, 극도의 간결함에 대해 멜로디 콘투어(contour) DS(5-단계 콘투어는 인터벌이 대(大) 혹은 소(小) 인터벌, 위, 아래 혹은 동일로 양자화된 경우에 인접한 음(音)들 간의 인터벌 차이를 나타낸다), 효율적인 멜로디 콘투어 표시 및 좀더 장황하고, 완전하며, 표현적인 멜로디 표시를 위한 멜로디 시퀀스 DS(확장된 기술자 세트이고 고정밀 피치 인터벌 인코딩)를 포함한다. 어느 하나 혹은 양자는 멜로디에 대한 보완 정보를 포함하도록 확장될 수 있다. 애플리케이션에 의해 원하는 바대로 사용되도록 가사, 키, 박자 및 개시음과 같은 일련의 선택적 보완 기술자들이 이러한 핵심 기술자 주변에 배열된다.

몇몇 "인식" DSs는 근원적인 미디어 파일을 탐색하고 색인하는데 있어 보탬이 되고, 히든 마르코프(hidden Markov) 혹은 가우시안 혼합 모델과 같이 그것으로부터 통계학적 모델이 형성된 토대(foundation)로서 저레벨 스펙트럴 기본 기술자를 사용한다. 결론적인 개연적(probabilistic) 분류자는 연설과 음악과 같은 폭넓은 사운드 클래스를 인식할 수 있거나, 남성, 여성, 트럼펫 혹은 바이올린과 같은 좀더 좁은 카테고리를 식별하도록 훈련될 수 있을 것이다. 다른 애플리케이션은 장르 분류와 목소리 인식을 포함한다. 추가적인 DSs는 오디오 스트림 내에서 발성(spoken)된 컨텐트를 상술한다.

추출될 수 있는 특징에 관한 더 자세한 것은 본 원에 참조로 결합된 2002년 6월 27일에 공개된 미국 특허출원 번호 US 2002/0083060에서 찾을 수 있다. MS(26)에서의 전처리(202)의 양은 그 범위가 전혀 없는 것에서부터 특징 벡터의 완전한 추출까지 변동한다. 각각의 특징에 대한 전체 특징 추출은 바람직하게는 여러 단계로 나누어 지는데, 그중 몇몇은 비(非)추출 신호(예를 들면 MS(26)에서 수신된 '라이브' 음악 샘플(24))에 비교하여 나중에 보내진 데이터의 양을 줄여준다. 예를 들면, 스펙트럴 특징에 대한 첫번째 단계는 순간 자기상관(autocorrelation) 벡터를 계산하고 일정 주기동안 이들을 평균함으로써 디지털화된 입력 신호(201)의 자기상관(autocorrelation) 추정이 될 것이다. 다음 단계는 푸리에 변환 및 추가적인 프로세스를 수행할 수 있다. 전체적인 특징 추출 프로세스는 MS(26)와 서버(34) 간에 나누어진다. MS(26)는 수행하는 단계의 갯수를 선택하고, 전처리의 결과(MS 추출 특징)와 함께, 사이드 정보로서 수행된 단계의 수 M을 패킷화(203)한다. 바람직하게는, MS(26)는 미디어 샘플(오디오, 비디오, 이미지 등) 및/또는 채널 특징을 통해 추출된 특징을 전송할, 채널 특징의 타입(type)에 기초하는 추출 특징의 종류 및/또는 상기 수(number M)를 순응적으로 선택한다. MS(26)에 의해 아무런 특징도 추출되지 않은 미디어 샘플(24)의 세그먼트 역시 인식 서비스(34)에서 더 상세한 분석을 위해 위에서와 같이 MS(26)로부터 전송될 것이다. 패킷은 전형적인 무선 프로토콜(컨스텔레이션 맵핑, 에러 정정 등)에 의거해 암호화된다. 액세스 네트워크(32) 및 MS(26)의 성능에 기초하여 프로세싱 파워와 전송 대역간의 적절한 밸런스가 선택된다. 암호화된 패킷은 하나 이상의 채널을 거쳐 무선 링크(28)를 통해 전송된다.

도 2b에서 보는 바와 같이, 패킷이 수신되고 복호화된다(205). 무선 링크(28)에 특화된 복호화는 통신 서버(30B)에 의해 이루어지고 개별 패킷의 오프닝(206)은 단 대 단(end-to-end) 인터넷전화 합의에서 음악 인식 서비스(34)에 의해 이루어질 수 있다. 음악 인식 서비스 서버(34)는 노래 식별을 위해 요구되는 추가적인 파라미터를 추출하는데(207), 이러한 추가적인 파라미터는 MS(26)로부터 수신된 특징 및/또는 MS(26)로부터 수신된 디지털화된 미디어 샘플의 세그먼트로부터 추출될 수 있다. 도 2a 내지 2b의 예에서, 총 N>M 특징이 미디어 샘플의 궁극적인 식별이 가능하도록 추출된다. M이 더 낮은 레벨의 특징을 우선적으로 나타내고 N-M이 미디어 샘플의 디지털화된 버전으로부터가 아닌 더 낮은 레벨의 특징으로부터 추출되는 더 높은 레벨의 특징을 나타내는 경우에, 많은 M 특징이 MS(26)에 의해 추출되고, 남은 N-M특징이 서버(34)에 의해 추출된다. 음악 인식 서비스 서버(34)는, 각각 근원적인 미디어 파일을 대표하고 음악 시그내쳐 데이터베이스(36)에 저장된 특징 세트와 추출된 특징 간에 비교(208)를 행한다. 이상적으로는, 한 특징과 데이터베이스 내의 한 특징 세트만이 추출된 특징 그룹과 일치할 것이고 일치하는 특징 세트는 미디어 샘플이 취해진 파일을 대표할 것이다. 추출된 특징에 기초하여, 미디어 샘플(24)은 음악 시그내쳐 데이터베이스(36)에 의해 제공된 근원 파일에 대한 특징 벡터 혹은 특징 세트에 대한 N개의 추출 특징을 비교함으로써 인식된다.

도 3a 내지 3d는 본 발명의 실시예에 따라 흐름도 형태로 다양한 단계 혹은 바람직한 방법 실시를 예시하는데, 각각의 흐름도는 보이는 것과 같이 다른 곳에 연결되어 있다. 도 3a는 미디어 샘플(24)이 초기에 수신되고 처리될 때에 MS(26) 내에서의 방법을 기술한다. 이 실시예에서, 미디어 샘플은 두 세그먼트로 구문분석(parse)되고, 버퍼에 저장된다. 이 저장은 어떤 사용자 입력이 MS에게 가르침에 따라 해석을 수행하던지 혹은 입력을 처리하라고 알려주지 않는 한 계속된다. 사용자가 인식키(304)를 누르면 MS(26)로 하여금 바람직하게는 동시에 다음 기능들을 수행하도록 트리거시킨다. MS(26)는 기지국(30A)로의 무선 링크(28)를 확립하고, MS(26)는 버퍼링된 제 1 미디어 샘플(24)의 세그먼트로부터 낮은 레벨의 특징을 추출(308)하며 MS(26)는 미디어 샘플의 제 2 세그먼트를 수신하고, 디지털화하며 그것으로부터 낮은 레벨 특징을 추출(310)한다. 제 2 세그먼트는 잠시간 저장될 것이다. MS(26)는 추출된 특징(및 앞에서 명시한 바와 같이 만일 적용 가능하다면 특정 특징을 추출하는데 있어 MS(26)에 의해 수행된 단계의 수)를 306 단계에서 확립된 무선 링크(28)를 통해 전송(312)한다. 선택적으로, 특징들은 제 1 세그먼트, 혹은 제 2 세그먼트로부터 추출되고, 추출된 특징들은 제 2 세그먼트와 함께 전송되는데, 상기 제 2 세그먼트는 단지 디지털화된 미디어 샘플의 스펙트럴 슬라이스 혹은 일련의 스펙트럴 슬라이스일 것이다. 방법 단계는 도 3b에서 계속된다(314).

도 3b는 시스템(20)의 네트워크(32) 측면에서의 단계를 상술한다. 서버(34)는 MS(26)로부터 도 3a의 단계 312에서 전송된 메시지를 수신(316)한다. 통신 서버(30B)는 패킷화된 메시지의 무선 특정 부분을 복호화할 것이고, 중요 데이터를 운반하는 개방되지 않은 패킷을 네트워크(32)를 통해 단지 우선적으로 재전송할 것이다. 음악 인식 서비스(34)는 패킷을 개방하고, 이미 추출된 저레벨 특징을 수신하고, 정확한 일치(unique match)(320)를 위해 MS(26)로부터 받은 저레벨 특징과 일치하는 특징 세트를 가지는 파일을 찾기 위해 시그내쳐 데이터베이스(36)를 검색(318)한다. 그 검색 결과는 일시적으로 저장된다. 오직 MS-추출 특징을 사용하여 정확한 일치가 찾아지지 않는다면, (블럭 316에서 일시적으로 저장된)인덱스 K가 최대값에 견주어 비교되고, 만일 넘지 않았다면, 하나 이상의 상위 레벨 특징이 블럭 326에서 수신된 하위 레벨 특징으로부터 추출된다. 블럭 328에서는, (블럭 318에서 일시적으로 저장되고) MS-추출 특징과 일치하는, 데이터베이스로부터 나온 특징 세트가 K번째 서버-추출 특징을 사용하여 검색되며, 그 결과 전체 데이터베이스(36)는 현재의 검색 수행 반복에서 다시 검색될 필요가 없게 된다. K번째 검색의 결과는 블럭 322에 일시적으로 저장되고, K는 블럭 330에서 인덱스되며, 만일 320 블럭에서 정확한 일치가 또다시 찾아지지 않는다면, K가 최대값을 넘어서 "일치하는 것 없음" 메시지가 MS로 보내질(334) 때까지 추가적인 추출 특징을 위해 루프를 반복한다. 일단 정확한 일치가 블럭 320에서 발견되면, 음악(노래)의 제목(혹은 다른 식별자), 혹은 추출된 특징과 일치하는 데이터베이스 특징 세트와 유일무이하게 일치하는 파일을 담고 있는 응답 메시지(336)가 MS(26)로 보내진다. 응답 메시지(336)는 또한 일치되는 파일로 직접 연결되는 링크를 우선적으로 운반하는데, 일치되는 파일은 시그내쳐 데이터베이스(36)와 함께 있을 수도 있고 그렇지 않을 수도 있는 음악 또는 파일 저장 데이터베이스(40)에 있게 된다.

MS(26)와 음악 인식 서비스(34)간의 통신 링크는 바람직하게는 MS(26)가 일단 그것의 추출된 특징을 전송하는 때와 인식 서비스(34)가 고유 파일 식별자를 담은 응답 메시지(336)를 전송하는 때 사이에 개방된 채로 남아 있게 된다. 한 실시예에서는, MS(26)는 추출된 특징의 제 1 세트와 함께 제 1 메시지를 전송하고, 인식 서비스(34)는 그것의 데이터베이스를 검색한다(추가적인 특징을 추출할 수도 그렇지 않을 수도 있다). 어떤 정확한 일치도 발견되지 않는 때에는, 인식 서비스(34)는 MS(26)에 요청 메시지를 보내게 되는데, 요청 메시지는 MS(26)가 추출하도록 요청하는 추가적인 특징의 수 및/또는 타입(type)을 상술할 수 있다(MS(26)은 버퍼에 저장된 미디어 샘플의 디지털 버전으로부터 추출할 수 있다). 예를 들면, 인식 서비스(34)가 데이터베이스로부터 4 개의 일치 결과를 되돌려준다고 가정해 보자. 인식 서비스는 그것이 신호 엔벨로프 혹은 센트로이드 같은 저레벨 특징이든, 음색 시간 센트로이드 간의 음색 시간 차이 같은 고레벨 특징이든 간에 4개의 특징이 특정 특징에 의해 고유하게 구별될 수 있는 그러한 하나 이상의 특정한 특징을 결정할 수 있다. 전자에서, 인식 서비스(34)는 4가지 가운데서 직접적으로 구별할 특정 스펙트럴 슬라이스에 대한 센트로이드 특징을 특별히 요청할 것이다. 후자에서는, 인식 서비스가 4가지를 구별할 (예를 들어 센트로이드 간의 거리) 추가적인 특징을 추출할 수 있도록 필요한 음색 시간 센트로이드를 요청할 것이다. MS(26)는 제 2 추출에서 추출된 제 2 특징 세트와 함께 다른 메시지를 전송하고, 인식 서비스(34)는 데이터베이스를 다시금 검색한다. 이 데이터베이스의 제 2 검색은 추출된 특징의 제 2 세트를 사용할 수 있고, 제 2 세트로부터 추출된 추가 특징들의 제 2 세트 혹은 이들의 조합을 사용할 수 있을 것이다. 이러한 방법으로, 데이터베이스 검색이 정확한 일치를 되돌려주는데 실패할 때마다 인식 서비스(34)가 추가적인 특징을 요청하는 MS(26)와 인식 서비스(34) 간의 '대화'는 계속될 것이다. 바람직하게는, 이들 간의 통신 링크는 개방된 채로 유지된다. 왜냐하면, 패킷 전환 네트워크는 패킷이 전송되지 않고 있기 때문에 인식 서비스가 데이터베이스를 검색하는 동안 상당한 대역폭을 쓸 필요가 없다.

바람직하게는, 음악 혹은 파일 식별과 상응하는 음악 서비스 URI는 통신 서비스 30A-B로 되돌려지는데, 통신 서비스는 MS(26)로의 응답 메시지를 작성하고 MS(26)로 SMS/MMS 혹은 유사한 형태의 메시지를 보낸다. 인식 서비스 서버(34)는 또한 (음악 서버가 인식 서비스 서버로부터 독립적인 경우) 음악 서버(38)에게 MS(26)의 고유 식별자와 일치 파일에의 링크와 함께 메시지(338)를 보낸다.

블럭 342는 도 3c 음악 서버(38)로 이끈다. MS(26)가 즉각 일치되는 파일 혹은 노래의 다운로드를 요청하지 않을 것이므로, 음악 서버(38)는 도 3b의 블럭 338로부터 메시지를 수신(344)하고 다운로드 관리자(346)에서 정보를 저장(346)한다. 일단 음악 서버(38)가 MS(26)로부터 요청을 수신하면(도 3d를 참조), 바람직하게는 MS(26)가 인식 서비스 서버(346)로부터 응답 메시지(336)를 수신한 바로 다음에, 음악 서버(38)는 MS(26)의 고유 식별자를 다운로드 관리자(346)에 저장된 MS ID로 일치(350)시키고 일치된 파일로의 관련 링크를 꺼내온다. 지불 정보가 (바람직하게는 MS(26)로부터 첫번째 구입 이후에 파일에 보유되어 있고 MS ID와 일치한다) 승인되고 일치된 파일 혹은 음악은 MS(26)로 다운로드된다. 구매 인보이스(invoice)는 MS(26)의 통신 서버(30B)로 전송(354)되고, 방법의 네트워크 측면에 있어서 프로세스가 종료(356)된다.

도 3b의 블록 340는 MS(26) 관점으로부터 더 진행하는 도 3d로 진행된다. MS(26)는 블럭 336(도 3b)로부터 응답 메시지와 링크를 수신하고 링크와 함께 음악 혹은 파일 제목 혹은 다른 식별자를 디스플레이(360)한다. 사용자는 링크를 선택한 후에, 동시에 디스플레이되도록 사용자가 여러 개를 저장해 놓은, 그리고 도 3c의 블럭 348에서 표시된 파일 혹은 음악에 대한 요청을 전송(364)하고 더불어 미리 개시된 계좌에서 인출 혹은 신용 거래에 대한 인증을 구성하는, 다운로드 키를 누른다(362). 사용자는 MS(26)에서 다운로드된 파일 혹은 음악을 수신(366)하고, 트랜잭션 측면에서 MS(26)에 대한 방법이 종료된다.

MS(26)의 특정 컴포넌트는 도 4a 내지 도 4b를 참조하여 상술될 것이다. 아날로그 오디오 입력(앞에서 언급된 미디어 샘플(24))을 수신하기 위한 제1 변환기 혹은 마이크로폰(48)은 프로세서(50)에 연결된다. 마이크로폰(48)은 아날로그 미디어 샘플(24)을 디지털 버전으로 변환하고, 이 디지털 버전으로부터 프로세서(50)는 컴퓨터 가독 주기억 장치(54)에 저장된 특징을 추출하기 시작한다. 특징 추출을 위해 사용되는 특정 알고리즘은 컴퓨터 가독 명령 형태로 기억장치(54)에 저장되어 있을 것이고, 주기억 장치(54)는 단일한 인접 저장 매체일 필요는 없고 여러 개의 다른 저장 컴포넌트 가운데 분포될 수 있다. 미디어 샘플은 프로세스 되기 전에 샘플의 한정된 데이터 볼륨을 지속적으로 저장하는 버퍼 저장 장치(52)를 통과한다. 버퍼 저장 장치(52)는 마이크로폰(48)에서 가장 최근에 수신된 신호를 저장하고 그 결과, 미디어 샘플이 사용자 명령에 추출된 특징을 가져야 할때, 프로세서(50)가 현재 버퍼 저장 장치(52) 내에 있는 미디어 샘플의 일부로부터 즉시 특징을 추출하기 시작한다. 이러한 방법으로, 음악이나 파일의 식별 혹은 링크의 확립을 위한 사용자 입력 명령에 앞서 MS로의 입력인 샘플의 일부 혹은 세그먼트로부터 특징이 추출될 수 있을 것이다. 사용자 명령이 프로세스를 요구하지 않는 한, 그리고 요구할 때까지, 추가적인 버퍼 메모리에 저장된 신호에 어떠한 프로세싱도 이루어지지 않으므로, 최소한의 전력만이 소비된다.

MS(26)에서 프로세서(50)와 모든 컴포넌트는 재충전 가능한 배터리(56) 혹은 착탈식 연료 전지와 같은 휴대용 파워 소스에 의해 전력을 공급받는다. 사용자 인터페이스(58)는 프로세서의 출력으로부터 사용자가 인식할 수 있는 텍스트 메시지나 이미지로 변화하기 위한 디스플레이 인터페이스(58A), 그리고 (다수의 버튼,디스플레이 스크린(58A) 내의 터치 혹은 압력 센서, 혹은 주 기억 장치(54)에 저장된 음성 인식 소프트웨어를 가진 마이크로폰(48)과 같은) 사용자가 프로세서(50)로 명령/요청을 입력할 수 있게 해 주는 사용자 입력 메커니즘(58B)을 포함한다. 프로세서(50)는 전송과 수신이 동시에 일어나지 않도록 스위치(64)를 통해 전송기(60)와 수신기(62)에 연결된다. 각각의 전송기(60)와 수신기(62)는 안테나(66)에 연결되어 있는데, 안테나는 프로세서를 담고 있는 본체에 내장될 수도 외장될 수도 있다. 프로세서는 제2 변화기 혹은 스피커(68)에서 사용자에게 출력을 제공할 수도 있다. 비디오 수신을 위해, MS(26)는 프로세서(50)에 비쥬얼 미디어 샘플을 제공하기 위한 카메라(70) 혹은 다른 이미지-캡쳐 장치를 포함할 수 있다. 비록 도시되지는 않았으나, 카메라(70)는 또한 마이크로폰(48)과 연관된 버퍼 메모리(52)와 유사하게 동작하는 비디오 버퍼 메모리(도시되지 않음)로 입력을 제공할 수 있다.

본 발명에 따른 MS(26)의 사용자 인터페이스의 특정 측면이 도 4b에 상술되어 있다. 특별히 디스플레이 인터페이스(58A)는 사용자에게 인식가능한 출력을 제공하고, 신호 강도, 링크 종류 및/또는 배터리 전압을 표시하는 상태 아이콘(74)을 포함할 수 있다. 디스플레이 스크린(58A)은 또한 사용자에 의해 선택될 수 있고 하이라이팅, 쉐이딩(shading), 배경 전환 등에 의해 표시되는 텍스트(76)와 심볼(78)을 표시한다. 사용자 입력 메커니즘(58B)는 알파벳/숫자 키패드(80), 네비게이션 버튼(80), 소프트 키(84) 혹은 바람직하게는 미지의 미디어 샘플과 관련된 실행을 식별하기 위해 따로 떼어놓은 전용키(86)와 같은 하나 이상의 몇몇 다른 형태를 취할 것이다. 대안적인 사용자 입력 메커니즘(58B)이 아래에 상술되어 있다. 알파벳/숫자 키패드(80)는 선행 기술에서 알려져 있고 주로 MS(26)로 텍스트와 숫자를 입력하는데 사용된다. 네비게이션 버튼(82)은 디스플레이 스크린(58A) 상에서 다른 포인트로 커서나 다른 지시자를 옮기는 동작을 한다. 소프트키(84)는 다중 기능이고 전형적으로 소프트키(84)에 바로 인접한 디스플레이 스크린(58A) 상에 표시되는 명령을 실행하도록 동작한다.

도 4b의 예시와 일맥상통하게, 예시된 MS(26)가 첨부 형태로 미디어 샘플의 디지털 복사본을 포함하는 수신된 전자우편을 가지고 있다고 가정해보자. 그러한 경우에, 미디어 샘플을 수신하기 위한 방법은 이동 전화 수신기(62)를 포함한다. 미디어 샘플을 수신하기 위한 다른 방법은 (1) 마이크로폰(48), (2) 카메라(70), (3)혹은 미디어 샘플이 업로드되는 PC, 서버 혹은 유사 장치로 링크시키는 데이터 케이블 소켓, (4) 미디어 샘플이 무선으로 다운로드 되는 통로가 되는 (예로써 적외선 같은) 광링크, 로컬 영역 네트워크 혹은 개인 영역 네트워크(블루투스)를 위한 수신기를 포함한다. 별개로, 예시된 전자우편 요청 식별 텍스트(76) 및 미디어 파일 첨부가 심볼(78)로서 디스플레이 스크린 상에 표시된다. 선택된 심볼(78)의 쉐이딩(shading)에 의해 디스플레이 스크린(58A) 상에 표시된 바와 같이 사용자가 미디어 파일을 선택하면, 관련된 사용자 입력 메커니즘에서의 추가적 입력은 프로세서(50)가 미디어 샘플로부터 특징 추출을 시작하도록 한다(미디어 샘플은 이 예에서는 디지털 버전으로서 이로부터 특징이 추출된다).

도 4b는 사용자가 프로세서(50)로 하여금 미디어 샘플로부터 특징을 추출하게 하는 세 개의 다른 사용자 입력 메커니즘을 예시한다. 전용 버튼(86)이 관련된 사용자 입력 메커니즘으로 사용되는 경우에, 그 전용 버튼(86)을 누르는 것은 프로세서(50)로 하여금 특징 추출을 시작하도록 한다. 선택적으로, 소프트키(84)는 사용자가 심볼(78)을 선택하는 때에 동일하게 동작할 수 있고(이 때 기능 표시자(86)는 관련된 소프트키(84)와 인접한 디스플레이 스크린(58A) 상에서 표시될 것이다), 네비게이션 버튼(82)은 사용자가 네비게이션 버튼(82)의 주변부에서의 입력을 거쳐 심볼(78)을 선택한 후 네비게이션 버튼(82)의 센터부를 누를 때 프로세서로 하여금 특징을 추출하도록 한다. 소프트키(84)는 소프트키(84)가 미디어 샘플 식별 및 미디어 파일 구입 이상의 기능을 할 수 있도록 되어있다는 면에서 전용 버튼(86)과 구별된다. 도시되지는 않았지만, 디스플레이 스크린(58A)의 터치-센서티브 부분은 사용자 입력 메커니즘으로 동작할 수 있다. 이상에서 위의 모든 것들은 청구항에서 사용된 바와 같이 버튼으로 여겨질 수 있다. 음성 인식 컴퓨터 프로그램 명령과 연결되어 있는 마이크로폰(48)은 또한 음성 명령(예를 들면 "인식") 시에 프로세서가 미디어 샘플로부터 특징을 추출하도록 하고 바람직하게는 또한 식별되어야 하는 미디어 파일에 상응하는 심볼(78)을 선택하는 관련 사용자 입력 메커니즘으로 이용될 수 있다.

앞에서 명시한 데로, 버퍼 메모리(52)는 MS(26) 내부에 채용될 수 있다. 어떤 실시예에서는, 프로세서(50)가 특징을 추출하게 하는 동일한 사용자 입력이 미디어 샘플이 마이크로폰(48)이나 카메라(70)를 통해 수신된 경우 추가적으로 버퍼(52)로 하여금 저장을 시작하도록 할 수 있다. 입력 메커니즘이 변환기나 광전자적 수단(예를 들면 데이터 케이블, 무선 전자 혹은 광 링크)인 실시예에서, 입력 메커니즘은 프로세서로 하여금 상응하는 심볼(78) (혹은 다른 저장된 미디어 샘플의 표시)이 디스플레이 스크린 상에서 선택되어 진 때에 주기억 장치 혹은 저장 매체(54)에 저장된 미디어 샘플로부터, 그리고 아무런 심볼(78)이 선택되지 않았을 때는 변환기 입력으로부터 특징을 추출하도록 한다. 이것은 사용자가 다중 입력 시에 프로세서가 적절한 미디어 샘플로 향하도록 해줄 필요를 없게 만든다.

바람직하게는, MS(26)는 프로세서로 하여금 특징을 추출하도록 한 동일한 사용자 입력에 응답하여 무선 전화기 링크(28)를 통해 추출된 특징과 함께 메시지를 전송한다. 앞에서 기술한 네트워크(32)와 서버들(30B, 34, 38, 42) 및 데이터베이스(36, 40)가 있는 전체적인 시스템을 고려하면, 추출된 특징을 가진 이 메시지는 인식 서비스 서버(34)의 네트워크 어드레스(예를 들면 웹 페이지)로 보내진다. 디스플레이 스크린(58A)은 그 서버(34)로부터 미디어 샘플을 식별하는 (예를 들면, 미디어 샘플과 일치하는 미디어 파일을 식별하는) 응답 메시지 수신에 대한 응답으로 미디어 샘플 식별자를 자동적으로 표시한다. 이 식별자는 바람직하게는 응답 메시지로부터 직접 가져오고, 음악 제목, 가수/제목 조합, 트랙 번호 및 CD 타이틀 조합, 앨범 발매 날짜, 장르, 가수 신상 명세 등과 같은 텍스트 식별자일 수도 있다. 유사한 텍스트 식별자들이 음악이나 음성 관련 미디어 파일과 일치하지 않는 (이미지 샘플 같은) 다른 식별된 미디어 샘플을 위해 표시될 수 있다. 식별자는 선택적으로 혹은 추가적으로 앨범 커버 아트, 가수 이미지, 미디어 파일에서 나온 벨 톤에 연결되는 아이콘 등과 같은 이미지를 포함할 수 있다. 디지털 미디어 샘플이 특징과 서버를 거쳐 단일 미디어 파일로 정확하게 일치되어야 하는 반면에, 식별자가 미디어 샘플을 정확하게 식별하는 것이 바람직하지만 강제적인 것을 아니다. 예를 들면, 만일 서버가 디지털 미디어 샘플로부터 추출된 모든 특징과 모두 일치하는 오직 세 개의 미디어 파일을 되돌려준다면, 이 셋에 대한 식별자는 잠재적으로 각각의 식별자에 첨부된 미디어 파일 자신의 샘플 클립과 함께 MS(26)로 보내지고, 그 후 사용자는 클립을 듣고 사용자가 다운로드 하고픈 하나의 미디어 파일을 선택한다.

일단 식별자가 디스플레이 스크린(58A) 상에 표시되기만 하면, 사용자 입력 메커니즘(82, 84, 86, 48(음성 인식))에서 다른 사용자 입력은 전송기가 응답 메시지에서 식별되고, 앞에서 기술된 바와 같이 파일 저장 데이터베이스(40)에 저장되어 있을 수 있는, 미디어 샘플의 근원을 이루는 미디어 파일 복사복 구입을 인증하는 메시지를 전송하도록 한다. 응답 메시지 전송자는 또한 미디어 파일이 구입되는 링크, 구입 세부 사항 및 조건, 가격 및 무선 구매 거래를 용이하게 하기 위한 다른 정보를 포함한다. 전송자는 사용자가 일단 이전 교환에서 이러한 거래의 좀더 일반적인 측면에 대해 동의하였다면 이러한 정보의 일부 만을 전송할 것이다. 이러한 인증 메시지가 전송되도록 하는 사용자 입력 메커니즘은 전용 버튼(86) 혹은 소프트키(84)일 것인데, 관련 버튼 86, 84의 기능은 식별자의 응답 메시지 및/또는 디스플레이를 받은 때에 자동적으로 전환될 것이다. 이러한 방법으로, 관련 버튼(86, 84)은 적어도 두가지 기능을 활성화한다. 특징 추출(그리고 바람직하게는 그들의 전송), 그리고 식별된 미디어 파일 복사본을 구입하라는 인증 전송이다. 전용 버튼(86)이 채용된 경우에, 바람직하게는 그것의 기능들이 오직 (예를 들면 특징 추출과 전송 같은) 미디어 샘플의 식별 및 미디어 파일의 구입에만 할당된다. 전용 버튼은 식별을 샘플링하는 네비게이션 버튼(82) 혹은 소프트키(84)의 현재 기능을 설정하기 위해 사용자가 여러 번 입력할 필요가 없다는 점에서 더 낫다. 이는 실시간으로 들려지는 식별되지 않는 미디어 샘플(예를 들면 마이크로폰을 거쳐 방송 라디오 입력을 통해 들려지는 노래)이 그 본질 상 순간적으로 지나가기 때문이다. 이러한 전용 버튼(86)은 버튼 자체에 혹은 제한된 기능을 구별하기 위해 전용 버튼(86) 바로 가까이에 있는 위치의 MS(26) 본체 위에 영구적 마킹(90)을 더 포함할 수 있다.

바람직하게는, 인증 메시지는 (응답 메시지에서 수신된, 시그내쳐(36) 혹은 저장(40) 데이터베이스에서 단지 어드레스일 뿐인) 미디어 파일의 식별자 및 신용 혹은 현금 카드의 기초가 되는 현금 혹은 신용 인출 계좌에 대한 인증을 포함한다. 구매 거래를 달성하는데 필수적인 계좌의 세부사항(예를 들면, 신용 카드 번호, 사용 기한, 청구 주소 등)은 인증 메시지 혹은 서버(42)에 저장될 것이고 인증 메시지 내에 포함된 보안 코드를 사용하여 다시 불려질 수 있다. 바람직하게는, 비록 인증 메시지(및 그것의 원 사용자 입력)가 입력 메시지를 수신한 후에 바로 개시될 필요는 없음에도 불구하고, 인증 메시지는 MS(26)로 식별된 미디어 파일의 즉각적 다운로드를 인증한다. 여기서 응답 메시지와 텍스트 식별자는 사용자에 의해 주 기억 장소(52)에 저장된 전자우편과 같이 저장될 수 있을 것이고 미디어 파일의 구매를 위해 다시 불려올 수 있을 것이다.

도 5는 MS(26)의 입력 버퍼링에서 얻을 수 있는 이득을 도시하는 타이밍 다이어그램이다. 미디어 샘플(501)은 502 시점에서 시작하는 MS(26)에서 수신된다. 사용자는 시작점 502에서 청취를 시작하고, 사용자가 복사복을 갖고 싶은 그 노래 혹은 파일이라고 결정이 되면, 사용자는 예를 들어 요청 시간에 전용 인식 버튼(86)을 누른다(504). MS(26)가 전처리를 수행하기 위해서 최소 (시간 제한) 미디어 샘플 △T가 필요하다고 가정해보자. 이는 처리 시간이 아니라 전체 곡이나 파일을 식별하기 위한 충분한 특징을 추출하기 위해 필요한 (예를 들면 10초) 음악 분량이라고 할 수 있을 것이다. 버퍼(52)가 채용된 경우, △T는 사용자 요청 시간 504에 앞서는 506 시점에서 시작하고 필요한 최소 샘플 타임을 버퍼링 샘플 엔드 타임(buffered sample end time) 508까지로 늘인다. 버퍼가 없을 때는 미디어 샘플이 캡쳐되는 최초의 시간이 요청 타임 504가 된다. 필요한 최소 샘플 타임은 버퍼링 샘플 엔드 타임(508)보다 늦은 시점에 끝나야만 한다(510). MS(26)가 미디어 샘플(24)의 버퍼링된 세그먼트를 처리하는데 걸리는 시간의 양에 따라서, 508과 510 두 엔트 타임 간의 차이(512)는 미디어 샘플 시작 타임 506, 504 간의 차이만큼 될 것이다. MS(26)가 바람직하게는 전처리된 특징의 전송으로부터 계속적인 무선 링크(28)를 유지하기 때문에, 이 차이(512)는 지연을 줄임으로써 사용자 경험을 강화할 수 있을 뿐이다.

요약하면, 본 발명은 입력이 아날로그이건 디지털이건 간에 입력 미디어 샘플로부터 특징 추출을 수행하도록 특별하게 구성된 사용자 인터페이스와 이동국을 포함한다. 전용 버튼(86)이든 아니든(84, 82) 간에 미디어 샘플의 식별이 MS(26)의 단일 버튼으로 이루어지는데 중점을 두는 새로운 기능이 있다. 버튼을 누르는 것은 MS(26)에서 특징 추출과 전송을 초래하고, 응답 메시지를 받은 때에, (이전에 식별되지 않은) 미디어 샘플의 근간을 이루는 미디어 파일의 텍스트 식별자를 자동적으로 디스플레이하게 한다. 더 나아가, 동일한 혹은 독립된 버튼은 응답 메시지가 미디어 파일이 수신되었음을 확인하고 텍스트 식별자가 디스플레이되면 미디어 파일의 구매를 수행하는데 사용될 수 있을 것이다.

현재 청구되는 발명의 바람직한 실시예가 무엇인지 예시되고 설명되었지만, 당업자에게 다양한 변경과 수정이 가해질 수 있음이 인식되어야 한다. 덧붙여진 청구항에서는 본 발명의 사상과 범위에 속하는 그러한 모든 변경과 수정을 포함하는 것으로 의도되었다.

Claims

프로세서;

상기 프로세서가 디지털 미디어 샘플로부터 제 1 특징 및 제 2 특징을 추출하도록 구성되는 사용자 입력 메커니즘을 포함하되, 상기 제 1 특징 및 제 2 특징은 상기 디지털 미디어 샘플 컨텐트의 정체(identity)를 기술(descriptive)하고, 상기 사용자 입력 메커니즘은 상기 추출과 동시에 리모트 미디어 인식 서비스와 무선 통신 링크를 확립하도록 구성되고;

상기 디지털 미디어 샘플의 스펙트럴 슬라이스 중 하나 또는 상기 디지털 미디어 샘플로부터의 상기 제 2 특징을 요청하는 요청 메시지를 수신하도록 구성된 수신기를 포함하되, 상기 프로세서는 상기 요청된 스펙트럴 슬라이스를 생성하고 제 2 특징을 검색하기 위해 상기 요청 메시지에 자동적으로 응답하며; 및

상기 사용자 입력 메커니즘의 동작에 응답하여 제 1 세트를 포함하는 제 1 메시지를 전송하고, 상기 사용자 입력 메커니즘의 추가 동작없이 상기 생성된 스펙트럴 슬라이스 또는 상기 검색된 제 2 특징을 포함하는 제 2 메시지를 자동적으로 전송하도록 구성된 전송기;를 포함하는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 사용자 입력 메커니즘은 다른 시점에 다른 기능을 시작 가능하도록 되어 있되, 이러한 기능 중 하나는 상기 프로세서가 상기 제 1 특징 및 제 2 특징을 추출하도록 하는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 사용자 입력 메커니즘은 상기 프로세서가 상기 제 1 특징 및 제 2 특징을 추출하도록 하는 단일 기능을 위한 전용 버튼을 포함하는 것을 특징으로 하는 장치.
미디어 샘플을 수신하고,

원격 미디어 인식 서비스와 무선 통신 링크를 확립하는 것과 사용자 입력 실행에 응답하여 상기 미디어 샘플의 디지털 버전으로부터 제 1 및 제 2 특징을 추출하는 것을 동시에 하되, 상기 제 1 및 제 2 특징은 상기 미디어 샘플의 내용의 식별(identity)을 기술(descriptive)하고,

상기 무선 통신 링크를 통해 상기 추출된 제 1 특징을 무선으로 전송하고,

상기 전송된 제 1 특징에 응답하는 메시지를 수신하되, 상기 응답 메시지는 상기 미디어 샘플로부터 적어도 하나의 스펙트럴 슬라이스 및 제 2 특징을 요청하고,

사용자 입력에서의 추가 사용자 입력없이 상기 요청 메시지에 자동으로 응답하여 상기 요청된 스펙트럴 슬라이스 혹은 상기 제 2 특징을 생성하고, 및

상기 응답 메시지 전에 제 1 특징을 전송하고 사용자 입력에서 추가 사용자 입력없이 상기 요청 메시지 이후에 상기 요청된 스펙트럴 슬라이스 혹은 상기 제 2 특징을 전송하는 방법.
제1항에 있어서, 상기 제 1 메시지는 상기 디지털 미디어 샘플을 재구성하기에는 불충분한 정보를 담고 있는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 무선 통신 링크는 음악 인식 서비스의 네트워크 주소 연결되어 있고, 상기 네트워크 주소는 상기 장치의 저장 매체에 저장되어 있는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 장치는 상기 프로세서를 통해 상기 수신기와 통신하도록 구성된 디스플레이 인터페이스를 더 포함하되, 상기 디스플레이 인터페이스는 네트워크로부터 상기 무선 통신 링크를 통해 상기 수신기에서 응답 메시지를 수신하는 것에 응답하여 상기 미디어 샘플의 식별자를 디스플레이하도록 구성되고, 상기 응답 메시지는 상기 제 2 메시지에 응답하는 메시지인 것을 특징으로 하는 장치.
제7항에 있어서, 상기 식별자는 텍스트 식별자인 것을 특징으로 하는 장치.
제7항에 있어서, 상기 사용자 입력 메커니즘은 제 1 사용자 입력 메커니즘을 포함하고, 상기 장치는 상기 응답 메시지에서 참조된 미디어 파일의 복사복을 구입하도록 지시된 인증 메시지를 상기 링크를 통해 사용자가 제 2 사용자 입력 메커니즘을 통해 보낼 수 있도록 하는 상기 제2 사용자 입력 메커니즘을 더 포함하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 인증 메시지는 상기 응답 메시지를 수신하는 것에 응답하여 자동적으로 컴파일되는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 제 1 및 제 2 사용자 입력 메커니즘이 서로 다른 시간에 각각 제 1 및 제 2 기능을 달성하는 단일 입력 메커니즘을 포함하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 단일 입력 메커니즘이 상기 응답 메시지 수신 후 상기 제 1 기능에서 제 2 기능으로 변환시키는 버튼을 포함하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 단일 입력 메커니즘은 오직 제 1 및 제 2 기능 만을 달성할 수 있도록 하는 단일 버튼을 포함하는 것을 특징으로 하는 이동국.
제1항에 있어서, 상기 장치는 저장 매체와 디스플레이 인터페이스를 더 포함하되 상기 저장 매체에 저장된 디지털 미디어 샘플이 상기 저장 매체와 디스플레이 인터페이스에 의해 선택되어질 수 있고, 상기 사용자 입력 메커니즘이 상기 프로세서로 하여금 상기 저장 매체에 저장된 디지털 미디어 샘플로부터 상기 제 1 세트 특징을 추출하고 또한 상기 스펙트럴 슬라이스를 생성하거나 제 2 세트 특징을 검색하도록 하는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 미디어 샘플을 수신하는 수단은 상기 디지털 미디어 샘플이 아날로그 미디어 샘플에서 유도되는 이러한 상기 아날로그 미디어 샘플을 수신하도록 구성된 변환기를 더 포함하는 장치.
제15항에 있어서, 상기 변환기와 상기 프로세서 사이에 위치하되 상기 디지털 미디어 샘플의 적어도 일부를 한시적으로 저장하는 버퍼 메모리를 더 포함하되, 상기 사용자 입력 메커니즘은 상기 프로세서로 하여금 상기 버퍼 메모리에 한시적으로 저장된 적어도 상기 일부로부터 상기 제 1 세트 특징을 추출하도록 동작할 수 있는 것을 특징으로 하는 장치.
제15항에 있어서, 상기 변환기와 상기 프로세서 사이에 위치하되 상기 디지털 미디어 샘플의 적어도 일부를 한시적으로 저장하는 버퍼 메모리를 더 포함하되, 상기 프로세서는 상기 사용자 입력 메커니즘으로부터 명령 입력없이 상기 버퍼 메모리로부터 적어도 상기 제 1 세트 특징의 일부를 추출하는 것을 특징으로 하는 장치.
제1항에 있어서,

상기 디지털 미디어 샘플을 수신하기 위한 수신수단; 및

상기 수신된 디지털 미디어 샘플에 대응되는 심볼을 디스플레이하도록 구성된 디스플레이 인터페이스를 더 포함하는 장치.
제18항에 있어서,

상기 수신수단은 상기 프로세서와 통신하도록 구성된 변환기를 더 포함하되, 상기 프로세서와 상기 변환기는 아날로그 미디어 샘플을 수신하여 제 2 디지털 미디어 샘플로 변환하도록 구성되고,

상기 사용자 입력 메커니즘은 상기 프로세서로 하여금 상기 디스플레이된 심볼이 상기 장치의 사용자에 의해 선택되었을 때는 상기 수신된 디지털 미디어 샘플로부터 상기 제 1 세트 특징을 추출하고, 사용자에 의해 디스플레이된 심볼이 선택되지 않았다면 상기 제 2 디지털 미디어 샘플로부터 상기 제 1 세트 특징을 추출하도록 하는 것을 특징으로 하는 장치.
휴대용 전자기기의 사용자 인터페이스로서,

단일한 제 1 사용자 입력 시에 상기 전자기기 내부 프로세서로 하여금 동시에 리모트 미디어 인식 서버와 무선 통신 링크를 확립하는 것과 디지털 미디어 샘플로부터 제 1 및 제 2 특징을 추출하는 것과, 상기 제 1 특징이 사용자 입력 메커니즘에서의 단일 사용자 입력 시 상기 전자기기 외부로 전송되도록 구성된 사용자 입력 메커니즘; 및

전송되어 온 추출된 제 1 특징, 그리고 만일 추출된 제 2 특징이 전송되어 오면 상기 제 2 특징에 응답하는 응답 메시지를 수신하는 상기 전자기기에 응답하여 상기 응답 메시지를, 그리고 상기 제 1 및 제 2 특징과 정확히 일치하는 특징을 갖는 미디어 파일의 텍스트 식별자를 자동으로 디스플레이 하도록 구성된 디스플레이 화면을 포함하되,

상기 추출된 제 1 및 제 2 특징은 상기 미디어 샘플의 내용의 식별(identity)을 기술(descriptive)하는 것을 특징으로 하는 사용자 인터페이스.
제20항에 있어서, 상기 사용자 입력 메커니즘은 단일 제 2 사용자 입력 시에 상기 응답 메시지 수신에 이어 상기 전자기기 외부로 인증 메시지가 전송되도록 구성되고, 상기 인증메시지는

상기 응답 메시지에서 수신된 미디어 파일 식별자, 및

상기 전자기기로 상기 미디어 파일의 복사본을 다운로드하는 요청을 포함하는 것을 특징으로 하는 사용자 인터페이스.
제20항에 있어서, 상기 추출된 제 1 특징은 메시지로부터 상기 디지털 미디어 샘플이 재구성 불가일 수 있는 그러한 상기 메시지 내에서 전송되는 것을 특징으로 하는 사용자 인터페이스.
미디어 샘플을 수신하기 위한 입력 수단;

사용자 입력 수단;

동시에 원격 미디어 인식 서비스와 무선 통신 링크를 확립하는 것과 상기 사용자 입력 수단의 동작에 응답하여 상기 미디어 샘플의 디지털 버전으로부터 제 1 및 제 2 특징을 추출하기 위한 처리 수단을 포함하되, 상기 제 1 및 제 2 특징은 상기 미디어 샘플의 컨텐트의 정체(identity)를 기술하고;

상기 전송된 제 1 특징에 응답하는 응답 메시지를 수신하기 위한 수신 수단을 포함하되, 상기 응답 메시지는 상기 미디어 샘플로부터 적어도 하나의 스펙트럴 슬라이스와 상기 제 2 특징을 요청하는 것을 특징으로 하고; 상기 처리 수단은 상기 사용자 입력 수단에서 추가의 사용자 입력 없이 상기 요청 메시지에 응답하여 자동으로 상기 요청된 스펙트럴 슬라이스 혹은 제 2 특징을 검색하기 위한 것을 포함하고; 및

상기 응답 메시지 이전에 상기 제 1 특징을 전송하고, 또한 상기 사용자 입력 수단에서 추가적인 사용자 입력 없이 상기 요청 메시지 후에 상기 요청된 스펙트럴 슬라이스 또는 상기 제 2 특징을 전송하기 위한 전송 수단을 포함하는 것을 특징으로 하는 장치.
제23항에 있어서, 상기 처리 수단이 컴퓨터 프로세서를 포함하는 것을 특징으로 하는 장치.
장치로서,

적어도 하나의 프로세서,

컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하되, 상기 적어도 하나의 메모리와 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금 적어도:

미디어 샘플을 수신하고,

동시에 원격 미디어 인식 서비스와 무선 통신 링크를 확립하고 사용자 입력 실행에 응답하여 상기 미디어 샘플의 디지털 버전으로부터 제 1 및 제 2 특징을 추출하되, 상기 제 1 및 제 2 특징은 상기 미디어 샘플의 내용의 식별(identity)을 기술(descriptive)하고,

상기 무선 통신 링크를 통해 상기 추출된 제 1 특징을 무선으로 전송하고,

상기 전송된 제 1 특징에 응답하는 메시지를 수신하되, 상기 응답 메시지는 상기 미디어 샘플로부터 적어도 하나의 스펙트럴 슬라이스 및 제 2 특징을 요청하고,

사용자 입력에서의 추가 사용자 입력없이 상기 요청 메시지에 자동으로 응답하여 상기 요청된 스펙트럴 슬라이스 혹은 상기 제 2 특징을 생성하고, 및

상기 응답 메시지 전에 제 1 특징을 전송하고 사용자 입력에서 추가 사용자 입력없이 상기 요청 메시지 이후에 상기 요청된 스펙트럴 슬라이스 혹은 상기 제 2 특징을 전송하는 것을 포함하는 것을 특징으로 하는 장치.
컴퓨터 가독의 컴퓨터 프로그램이 탑재된 컴퓨터 가독 매체로서, 상기 컴퓨터 프로그램은,

디지털 데이터 프로세서에 의해 실행가능하고, 미디어 샘플을 해석하도록 하는 실행명령을 수행하되, 상기 실행명령은,

사용자 입력에 응답하여, 동시에 원격 미디어 인식 서비스와 무선 통신 링크를 확립하고 미디어 샘플의 디지털 버전으로부터 제 1 및 제 2 특징으로 추출하고 및 전송기로 하여금 상기 무선 통신 링크를 통해 추출된 제 1 특징으로 무선으로 전송하도록 하고, 및

적어도 하나의 스펙트럴 슬라이스 및 제 2 특징에 대한 요청을 무선으로 수신하는 것에 대한 응답으로, 상기 요청된 스펙트럴 슬라이스를 생성하거나 상기 디지털 버전으로부터 상기 추출된 제 2 특징으로 검색하고 상기 전송기로 하여금 상기 생성된 스펙트럴 슬라이스 혹은 상기 검색된 제 2 특징을 무선으로 전송하도록 하는 것을 특징으로 하는 컴퓨터 가독 매체.
제26항에 있어서, 상기 실행명령은 단일 사용자 입력에 의해 개시되는 것을 특징으로 하는 컴퓨터 가독매체.