KR102436168B1

KR102436168B1 - 청취 로그 및 음악 라이브러리를 생성하기 위한 시스템 및 방법

Info

Publication number: KR102436168B1
Application number: KR1020177020859A
Authority: KR
Inventors: 현오 오
Original assignee: 피씨엠에스 홀딩스, 인크.
Priority date: 2014-12-31
Filing date: 2015-11-25
Publication date: 2022-08-24
Also published as: CN107111642A; US20190042647A1; CN107111642B; WO2016109069A1; KR20170100007A; JP2018505442A; EP3241124A1; US10860645B2

Abstract

사용자 컨텍스트 및 음악에의 주의를 모니터링하고 기록하기 위한 시스템 및 방법이 설명된다. 예시적인 방법에서, 사용자 장치는 예를 들어 마이크를 통해 사용자의 오디오 환경의 오디오 입력을 수신한다. 오디오 입력으로부터 사용자의 오디오 환경에서 재생되는 노래가 사용자 장치에 의해 식별된다. 이것은 오디오 특징(audio features)의 데이터베이스를 참조함으로써 수행할 수 있다. 사용자 장치는 사용자 컨텍스트 및/또는 노래에 대한 사용자의 주의 레벨을 결정한다. 컨텍스트에는 노래가 재생되고 있던 시간 및 위치가 포함될 수 있다. 주의 레벨은, 예를 들어, 사용자가 노래에 맞춰 춤을 추거나 아니면 다른 방식으로 움직였는지 여부, 사용자가 노래에 맞춰 노래를 불렀는지 여부 및/또는 사용자가 노래의 볼륨을 올렸는지 여부를 모니터링함으로써 결정될 수 있다.

Description

청취 로그 및 음악 라이브러리를 생성하기 위한 시스템 및 방법

<관련 출원과의 교차 참조>

본 출원은 2014년 12월 31일에 출원된 미국 가특허출원 번호 62/098,750으로부터 미국 특허법 119조(e) 하의 이익을 주장하는 정규 출원이며, 전체 개시가 여기에 참조로 포함된다.

<배경>

음악은 문화와 일상 생활에서 중요한 부분이다. 음악은 많은 다양한 설정에서 다수의 다양한 매체를 사용하여 널리 재생된다. 음악은 라디오를 통해 재생되고 인터넷을 통해 스트리밍되며 자동차, 엘리베이터 및 체육관에서 들을 수 있다. 음악은 자동차 여행이나 결혼식 밤과 같은 특별한 장소나 순간의 추억을 불러올 수 있다. 음악을 듣는데 다양한 방법이 가능하고 일상 생활에서 음악이 전반적으로 중요하기 때문에, 사람들의 삶에 중요한 음악을 인식하고 저장하는 시스템과 방법이 필요하다.

본 개시는 청취 로그(listening log) 및 음악 라이브러리(music library)를 생성하기 위한 시스템 및 방법을 설명한다. 예시적인 실시 예에서, 음악이 검출되고, 검출된 음악이 특정 노래로서 식별되며, 추가 컨텍스트 정보가 식별된 노래와 연관되고, 노래의 아이덴티티(identity) 및 추가 컨텍스트 정보가 저장된다. 다양한 실시 예들에서, 음악이 검출되고 추가 컨텍스트 정보는 스마트폰 및 그 부속품와 같은 모바일 컴퓨터 처리 시스템에 의해 감지된다.

본 개시는 검출된 음악과 관련된 정보를 기록하기 위한 청취 로그의 생성을 기술한다. 청취 카운트 포인트(listens count point, LCP) 스코어가 노래에 대한 사용자의 주의력 레벨(level of attentiveness)을 나타내기 위해 개발되었다. 일부 실시 예들에서, LCP는 음악과 관련된 컨텍스트 데이터에 의존한다. 검출된 음악은 스마트폰, 컴퓨터 또는 자동차 오디오 시스템과 같은 사용자의 컴퓨터 처리 시스템을 통해 재생되거나, 라디오, 콘서트 등과 같은 외부 소스로부터 재생되는 것으로 사용자의 컴퓨터 처리 시스템에 의해 검출될 수 있다. 추가적인 주의력 인자들은 사용자의 행동, 주변 조건 및 사용자의 생체 데이터를 측정함으로써 결정되는 음악에 대한 사용자의 인식을 검출하는 것을 포함한다.

외부 소스로부터 재생된 음악을 검출하고 식별하기 위해, 일부 실시 예들에서는 오디오 지문(audio fingerprint) 기술이 사용된다. 일부 실시 예들은 오디오 지문 기술의 2단계 구현을 사용하여 동작하며, 오디오 지문은 마스터 청취 로그(master listens log)로부터의 추가적인 데이터에 의해 보충된다. 추가적인 데이터는 노래를 식별하기 위해 오디오 지문 데이터베이스와 비교되는 단일 오디오 지문을 생성하기 위해 다수의 오디오 지문을 결합하는 것을 포함할 수 있다.

식별된 노래와 연관된 추가적인 컨텍스트 정보는 또한 사용자 및 음악 산업을 위한 추가적인 서비스를 제공하기 위해 마스터 청취 로그와 공유된다. 추가적인 서비스에는 검출된 음악과 관련된 프리젠테이션 제작, 음악 서비스를 위한 마케팅 정보, 동일한 노래의 대체 버전 재생을 지원하는 오디오 전환 서비스 및 불법적으로 배포된 음악 검출이 포함된다.

일부 실시 예들에서, 청취 로그에 포함된 데이터는 다양한 애플리케이션에서 사용하기 위해 이메일, 캘린더 이벤트, 소셜 네트워크 등을 비롯한 다른 소스부터의 데이터와 결합된다.

도 1은 사용자 주의 레벨(level of engagement)을 추적하는 청취 로그를 생성하기 위한 시스템 내의 사용자 장치의 기능적 아키텍처의 개략도이다.
도 2는 사용자 주의 레벨을 추적하는 청취 로그를 생성하기 위한 예시적인 시스템의 시스템 아키텍처의 개략도이다.
도 3은 청취 로그를 업데이트하기 위해 일부 실시 예들에서 채용된 방법을 나타내는 흐름도이다.
도 4는 재생되는 노래를 식별하기 위해 일부 실시 예들에서 채용된 방법을 나타내는 흐름도이다.
도 5는 하나 이상의 노래에의 사용자 주의에 기초하여 재생 리스트를 생성 및 업데이트하기 위한 일부 실시 예들에서 사용되는 방법을 나타내는 흐름도이다.
도 6은 하나 이상의 노래에의 사용자 주의에 기초하여 음악 슬라이드 쇼를 생성하기 위한 일부 실시 예들에서 사용되는 방법을 나타내는 흐름도이다.
도 7은 예시적인 청취 카운트 포인트 데이터베이스에 포함된 테이블을 도시한다.
도 8은 음악 재생 품질을 향상시키기 위해 일부 실시 예들에서 수행되는 방법을 도시한다.
도 9는 일부 실시 예들에서 사용자 장치로서 채택된 무선 송수신 유닛(wireless transmit-receive unit, WTRU)의 기능적 아키텍처를 나타내는 블록도이다.
도 10은 노래 식별 및/또는 청취 카운트 포인트 데이터베이스의 유지를 위해 일부 실시 예들에서 사용될 수 있는 네트워크 엔티티의 기능적 아키텍처를 나타내는 블록도이다.

도 1은 사용자 주의 레벨을 추적하는 청취 로그를 생성하기 위한 시스템 내의 사용자 장치의 기능적 아키텍처의 개략도이다. 도 1의 예에서, 사용자에게는 스마트폰(102)과 같은 사용자 컴퓨팅 장치가 제공된다. 예시적인 사용자 장치는 셀폰(cell phone), 스마트폰, MP3 플레이어, 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 차량 오디오 시스템, 라디오 등을 포함한다. 사용자 장치는 또한 하나 이상의 부속품에 통신 가능하게 결합될 수 있다. 예시적인 부속품은 마이크, 카메라, 위치 센서, 생체 측정 센서, 스마트 시계, 스마트 안경, 시계 등을 포함한다.

도 1의 예에서, 뮤직 플레이어 소프트웨어가 사용자 장치 상에 제공되며 엘튼 존(Elton John)에 의해 "Your Song"이라는 노래를 재생하는데 사용되고 있다. 사용자 장치에 의해 재생되는 음악은 (예를 들어, 저장된 MP3 음악 파일 또는 콤팩트 디스크를 통해) 컴퓨터 처리 시스템에 로컬로 저장되거나 외부 연결을 통해 수신될 수 있다(데이터 연결을 통해 스트리밍되거나 라디오 튜너를 통해 수신됨). 사용자 장치에 의해 재생된 검출된 음악은 음악에 첨부된 메타 데이터에 의해 식별될 수 있다. 예시적인 메타 데이터는 파일 이름, MP3 데이터의 노래 제목 및 아티스트 필드, 라디오 신호(예를 들어, 라디오 방송 데이터 시스템)를 수반하는 디지털 신호를 통해 전송된 노래 정보 등을 포함한다.

사용자 장치는 노래의 재생에 관한 컨텍스트 정보를 수집할 수 있다. 예를 들어, 일부 실시 예들에서, 사용자 장치는 노래가 재생되고 있는 시간 및/또는 위치에 관한 정보를 포함하는 시공간적 정보를 수집한다. 내부 및/또는 네트워크 클록이 시간적 정보(106)를 제공하기 위해 사용될 수 있다. GPS(Global Positioning System) 칩셋 또는 다른 위치 결정 회로가 사용되어 노래의 재생 동안 사용자의 위치에 관한 지리적 위치(공간적) 정보(108)를 제공할 수 있다. 다른 컨텍스트 정보(110)가 또한 제공될 수 있다. 예를 들어, (로컬로 저장되거나 네트워크 기반의 캘린더일 수 있는) 사용자의 캘린더가 액세스될 수 있으며, 캘린더 정보에 기초하여 사용자가 휴가 중이거나, 출퇴근 중이거나, 집에 있거나, 체육관에 있거나 등이 결정될 수 있다. 컨텍스트 정보는 사용자의 전자 메일, 텍스트 메시지 등과 같은 다른 소스로부터 수집될 수 있다. 다양한 실시 예에서, 시선 추적 정보, EEG 판독 값, 심박수, 체온 등과 같은 정보를 포함하는 생체 정보(112)가 수집될 수 있다.

사용자 장치는 또한, 사용자 장치(102) 상의 "좋아요" 및 "싫어요" 버튼을 통해 제공될 수 있는 사용자 입력(114)을 수집한다. 사용자 장치(102)에 제공될 수 있는 다른 사용자 입력(114)은 재생되고 있는 노래의 볼륨을 증가시키거나 감소시키는 볼륨 제어에 대한 사용자 입력을 포함할 수 있다. 또한, 움직임 정보(116)가 사용자 장치(102) 내의 하나 이상의 가속도계 및/또는 자이로스코프에 의해 수집되어 노래 동안 사용자의 움직임에 관한 정보, 예를 들어, 사용자가 노래에 맞춰 춤을 추거나 깡충깡충 뛰고 있는지, 가만히 앉아 있는지 또는 조깅하고 있는지 등을 제공할 수 있다. 일부 실시 예들에서, 주변 사운드 정보(118)는 하나 이상의 마이크로부터 수집된다. 이 사운드 신호는 예를 들어 사용자가 노래에 맞춰 노래하고 있는지(sing along with the song) 여부 또는 노래가 재생되는 동안 사용자가 별도의 대화에 참여하고 있는지 여부를 결정하는데 사용될 수 있다.

시공간적 및 컨텍스트 입력(106, 108, 110, 112)을 사용하여, 사용자 장치(102)는 예를 들어 사용자가 겨울 휴가 동안 2002년 1월 2일에 시드니에서 "Your Song"을 들었다고 결정할 수 있다. 관련된 컨텍스트 정보(또는 그로부터 도출된 정보)와 함께, 사용자가 노래를 들었다는 것을 나타내는 정보는 청취 카운트 포인트 데이터베이스(104)에 저장되며, 이는 아래에서 더 자세히 기술한다.

일부 실시 예들에서, 사용자 장치(102) 자체가 (예를 들어, 미디어 플레이어 또는 스트리밍 뮤직 애플리케이션을 통해) 노래를 재생하고 있지 않을 때, 사용자의 환경에서 재생되고 있는 노래는 주변 사운드 정보(118)에 기초하여 식별된다. 사운드 신호는 오디오 지문 또는 해시(hash)로 변환되고 노래를 식별하기 위하여 오디오 지문 데이터베이스(120)(로컬로 또는 원격으로 저장된 데이터베이스일 수 있음)의 정보와 비교된다.

일부 실시 예들에서, 음악을 검출하는 것은 여러 단계로 발생한다. 첫 번째 단계에서 사용자 장치는 대기 모드 또는 절전 모드에서 작동하고 있다. 사용자 장치는 음악 톤 또는 비트와 같은 음악의 특성을 검출한다. 후속 단계에서, 사용자 장치는 초기에 검출된 특정 노래의 완전한 식별을 허용하는 활성 모드로 전환한다. 노래의 식별은 음악 검출 알고리듬을 사용하여 수행된다. 예시적인 음악 검출 알고리듬은 오디오 지문(audio fingerprint)의 비교를 포함한다. 오디오 지문 인식(audio fingerprinting)에 기초한 예시적인 노래 검출 시스템은 예를 들어 Avery Li-chun Wang의 2003년 10월 "고성능 오디오 검색 알고리듬(Industrial-Strength Audio Search Algorithm)", 및 Avery Li-Chun Wang 및 Julius O. Smith, III의 2002년 2월 7일 WIPO 공개 WO0211123A3, "오디오 데이터베이스에서의 검색 방법(Method for Search in an Audio Database)"에 설명되어 있다. 오디오 지문 기술은 음악 발췌 부분을 질의(query)하고 음악 발췌 부분을 데이터베이스와 비교함으로써 음악을 식별한다. 지문 데이터베이스는 사용자 장치, 원격 서버 또는 컴퓨터 처리 시스템과 원격 서버의 조합에 저장될 수 있다.

음악을 식별하는 것과 동시에, 사용자 장치는 추가적인 컨텍스트 정보를 검출한다. 추가적인 컨텍스트 정보의 예는 위치 데이터, 시간 데이터, 속도, 근처 무선 장치, 컴퓨터 처리 시스템에 의해 액세스 가능한 캘린더에 저장된 이벤트, (눈 위치, EEG, 심박수, 체온 등과 같은) 생체 측정 데이터를 포함한다. 추가적인 컨텍스트 정보는 식별된 음악에 링크되고, 청취 카운트 포인트 데이터베이스와 같은 데이터베이스의 청취 로그에 저장된다.

예를 들어, 사용자의 스마트폰은 마이크를 통해 음악을 검출할 수 있다. 스마트폰은 음악을 샘플링하고 샘플을 지문 데이터베이스와 비교하여 그 노래가 Lorde의 "Royals"이라고 식별한다. 식별(identification)은 로컬로 저장된 지문 데이터베이스 또는 클라우드 기반 지문 데이터베이스로부터일 수 있다. 추가적인 컨텍스트 정보를 사용하여 사용자 장치는 사용자(또는 그의 스마트폰)가 캘리포니아주 페블 비치 근처에 위치하고 있으며 시간은 2014년 1월 19일 오후, 구체적으로 15시 27분임을 결정할 수 있다. 추가적인 컨텍스트 정보는 다른 사람이 사용자와 함께 있음을 나타내는 정보를 포함할 수 있다. 이것은 근처의 무선 신호에 의해 결정되거나, 수동으로 입력되거나, 다른 소셜 미디어 네트워크로부터 수집되거나, 아니면 다른 유사한 방법이 사용될 수 있다. 또한, 컴퓨터 처리 시스템은 사용자가 자동차 안에 위치한다고 결정할 수 있다. 사용자가 자동차에 있다고 결정하는데 사용될 수 있는 예시적인 정보는 사용자의 위치, 가속, 자동차의 전자 시스템과의 동기화 등을 포함할 수 있다. 다른 예들에서, 컴퓨터 처리 시스템은 항공기(높은 고도, 고속, 비행기 탑승 모드 등으로 이동하는 것) 또는 열차(알려진 열차 경로를 따라 이동하는 것, 사용자의 캘린더와 비교하는 것 등)와 같은 다른 운송 방법을 검출할 수 있다. 사용자의 스마트폰은 또한 스마트 시계, 스마트 안경, 심박수 모니터, 블루투스 헤드셋 등과 같은 통신 가능하게 연결된 다른 주변 장치로부터의 정보에 액세스할 수 있다. 이들 접속된 주변 장치는 사용자의 시선, EEG 데이터, 심박수, 체온, 움직임 등을 검출할 수 있다. 식별된 노래는 추가적인 컨텍스트 정보와 함께 청취 카운트 포인트 데이터베이스와 같은 데이터베이스에 저장된다.

도 2는 사용자 주의 레벨을 추적하는 청취 로그를 생성하기 위한 예시적인 시스템의 시스템 아키텍처의 개략도이다. 도 2의 예에서는, 노래가 위치(204)에서 음악 소스(202)로부터 재생되고 있다. 위치(204)는 예를 들어 소스(202)로부터의 음악이 하나 이상의 스피커(206)를 통해 재생되고 있는 가게, 레스토랑, 바일 수 있다. 제1 사용자 "사용자 A"가 휴대하는 스마트폰(208) 및 제2 사용자 "사용자 B"가 휴대하는 스마트폰(210)과 같은 다수의 사용자 장치가 그 위치에 존재할 수 있다. 사용자 장치(208) 및 사용자 장치(210) 모두는 음악을 검출하고 노래를 식별한다. 사용자 장치(208) 및 사용자 장치(210) 모두는 또한 추가적인 컨텍스트 정보를 검출하고, 추가적인 컨텍스트 정보를 식별된 노래와 함께 각 사용자의 청취 로그, 구체적으로 사용자 A와 관련된 청취 로그(212) 및 사용자 B와 연관된 청취 로그(214)에 저장한다. 각 사용자의 청취 로그로부터의 데이터는 청취 로그(216)의 마스터 컬렉션과 공유된다. 마스터 컬렉션(216)에 저장된 수집 정보는 인기 음악 차트(popular music chart)를 개발하고, 불법 음악 배포를 검출하고, 추가적인 음악 마케팅 및 기타 유사한 용도로 사용될 수 있다.

인기 음악 차트(218)를 개발하기 위해, 마스터 컬렉션 로그는 상이한 사용자들이 그 음악을 들은 횟수를 결정하는데 사용될 수 있다. 예를 들어, 전송(재생) 끝보다는 수신(청취) 끝을 사용하는 전통적인 방법보다 더 나은 청취자의 근사치를 얻을 수 있다. 청취 횟수를 기록하는 것 외에도 예를 들어, 대화중인 배경 음악 및 함께 불려지는 노래를 구별하면서 추가적인 컨텍스트 정보를 분석하여 음악에의 청취자 주의 레벨을 결정할 수 있다. 음악이 라우드 스피커를 통해 재생되는 예시적인 시나리오에서, 이 개시의 방법은 청중 중에 얼마나 많은 사람들이 노래를 듣고 있는지를 결정하는데 사용될 수 있다.

불법 음악 배포를 검출하기 위해, 마스터 컬렉션 로그(216)는 공공 장소에서 음악을 재생하는 영역을 강조 표시(highlight)하는데 사용될 수 있다. 일반적으로 공개적으로 음악을 공연하기 위해서는 공공 장소는 허가 및/또는 계약이 있어야 한다. 검출된 공개 공연(다른 방법들 중에서 공공 장소에서 몇몇 참가자에 의한 노래를 식별함으로써 표시됨)과 허용된 공개 공연의 데이터베이스 사이의 불법 배포 검출 모듈(illegal distribution detection module, 220)에 의한 비교는 불법 공개 배포의 의심스러운 사례를 강조 표시할 수 있다.

음악 마케팅을 돕기 위해, 마스터 컬렉션 로그는 청취자의 생체 프로파일, 노래가 들려오는 위치, 청취자가 음악에 갖는 주의 레벨 등과 같은 청취 컨텍스트 정보를 제공하는데 사용될 수 있다. 음악 마케팅 모듈(music marketing module, 222)은 적절한 음악 광고 및/또는 사용자로의 제안을 제공하기 위해 이 정보에 기초하여 동작할 수 있다.

도 3은 청취 로그를 업데이트하기 위해 일부 실시 예들에서 채용된 방법을 나타내는 흐름도이다. 단계(302)에서, 사용자 장치는 최소 전력 및 컴퓨팅 자원을 사용하여 휴면 상태(sleep condition)에 있다. 단계(304)에서, 사용자 장치는 사운드를 검출하고, 단계(306)에서 사운드가 주변 소음이었는지 여부를 결정한다. 사운드가 주변 소음인 경우 장치는 휴면 상태를 유지한다. 사운드가 주변 소음이 아니었다면, 컴퓨터 처리 시스템은 단계(308)에서 활성 모드(웨이크-업 및 청취)로 전환하여 오디오를 녹음(record)한다. 단계(310)에서, 컴퓨터 처리 시스템은 녹음된 오디오로부터 오디오 지문과 같은 데이터를 추출한다. 단계(312)에서, 사용자 장치는 오디오 지문에 기초하여 노래를 식별하고 청취 로그에 노래의 식별을 기록함으로써 청취 로그를 업데이트한다. 컴퓨터 처리 시스템은 휴면 상태로 되돌아가기 위해서 아니면, 음악 및 부가적인 컨텍스트 정보를 계속해서 모니터링하기 위해서 검출 프로세스를 빠져나간다.

음악을 식별하는 예시적인 방법에서, 사용자 장치는 음악을 검출하고 그 노래의 오디오 지문을 생성한다. 오디오 지문은 로컬로 저장된 지문 데이터베이스와 비교된다. 검출된 음악의 오디오 지문이 로컬 지문 데이터베이스 내의 알려진 노래와 연관성이 있으면 노래가 식별된 것이다. 음악 데이터베이스에 저장된 지문은 가장 인기있는 노래, 사용자가 선택한 노래 또는 비슷한 음악 취향을 가진 사용자들 사이에서 인기 있는 노래를 포함한다. 오디오 지문이 로컬 오디오 지문 데이터베이스에 저장된 노래와 연관성이 없으면, 사용자는 선택적으로 오디오 지문을 클라우드 기반 오디오 지문 데이터베이스로 전송할 수 있다. 사용자는 특정 Wi-Fi 연결을 통해 자동으로 이 검사를 수행하는 것과 같이 이러한 선택을 미리 선택적으로 하거나, 매번 이 요청을 수동으로 시작할 수 있다. 그렇지 않으면, 오디오 지문은 나중에 전송할 수 있도록 로컬 대기열에 버퍼링된다. 나중에, 자동적으로 또는 사용자 개시에 의해, 컴퓨터 처리 시스템은 오디오 지문을 클라우드 기반 지문 데이터베이스에 전송한다. 컴퓨터 처리 시스템은 클라우드 기반 지문 데이터베이스로부터 일치(match)를 수신한다. 일부 실시 예들에서, 컴퓨터 처리 시스템은 원음(raw sound)을 원격 서버에 전송하여, 오디오 지문 및 노래 식별 알고리듬을 계산한다.

도 4는 재생되는 노래를 식별하기 위해 일부 실시 예들에서 채용된 방법을 나타내는 흐름도이다. 단계(402)에서, 사용자 장치는 하나 이상의 마이크를 사용하여 오디오 신호를 획득한다. 단계(404)에서, 사용자 장치는 오디오 신호로부터 오디오 지문을 생성한다. 단계(406)에서, 사용자 장치는 생성된 오디오 지문이 로컬 데이터베이스에 저장된 오디오 지문과 일치하는지 여부를 결정하도록 동작한다. 로컬 데이터베이스는 오디오 지문과 대응하는 노래 제목 및 아티스트 이름 사이의 연관성, 또는 노래를 식별하는데 사용될 수 있는 (무작위의 인덱스 번호들을 포함하는) 다른 식별자들을 포함할 수 있다. 단계(408)에서, 노래가 로컬 데이터베이스에서 식별되었다면, 노래의 아이덴티티가 사용자로의 통지 및/또는 청취 로그에 대한 업데이트를 통해 보고된다. 노래가 로컬 데이터베이스를 사용하여 식별될 수 없는 경우, 사용자 장치는 단계(410)에서 오디오 지문이 네트워크화된 데이터베이스의 지문과 일치하는지 여부를 판정한다. 단계(410)는 오디오 지문을 포함하는 질의를 네트워크 서버에 전송하는 단계 및 네트워크 서버로부터 노래의 아이덴티티를 나타내거나 일치가 발견되지 않았음을 나타내는 응답을 수신하는 단계를 포함할 수 있다. 일부 실시 예들에서, 오디오 신호 자체를 나타내는 데이터는 네트워크 서버로 전송되고, 네트워크 서버는 데이터베이스와의 비교를 위해 지문을 생성하도록 동작한다. 노래가 네트워크화된 데이터베이스에 기초하여 식별되면, 노래의 식별은 단계(408)에서 사용자에 대한 경고(alert)로서 및/또는 청취 로그에 대한 업데이트로서 보고된다.

생성된 지문에 기초하여 단계(410)에서 지문 일치가 발견되지 않으면, 상이한 (그러나 근처의) 사용자 장치로부터 획득된 또 다른 지문을 사용하여 노래의 아이덴티티를 결정하는 시도가 이루어질 수 있다. 예로서, 사용자 A와 사용자 B는 실질적으로 동일한 위치에 있다고 결정된다. 사용자 A 및 사용자 B의 공통 위치(colocation)는 예를 들어 사용자들의 GPS 좌표, 특정 Wi-Fi 네트워크 범위 내의 사용자들의 존재, 또는 그들이 특정 위치에 있다는 소셜 미디어상의 사용자 표시(예를 들어, "체크인")에 기초하여 결정될 수 있다. 사용자 A가 수집한 지문 정보 X 자체만으로는 사용자 A가 그 환경에서 재생 중인 노래를 식별하기에 충분하지 않았고 사용자 B가 수집한 지문 정보 X' 자체만으로는 사용자 B가 그 노래를 식별하기에 충분하지 않은 상황을 고려해보자. 결과적으로, 지문 정보 X 및 X'는 청취 로그 마스터 컬렉션 프로세스로 보내지며, 지문 정보 X 및 X'의 결합을 사용하여 노래가 식별될 수 있다. 지문 X 및 X'는 청취자 로그 마스터 컬렉션 프로세스가 사용자 A 및 사용자 B가 동일한 노래를 청취하고 있을 가능성이 있다고 결정하기에 충분한 각각의 컨텍스트 데이터와 함께 청취자 로그 마스터 컬렉션 프로세스로 전송될 수 있다.

예를 들어, 사용자 A의 사용자 장치는 2014년 5월 20일 16시 33분 03초에서 16시 33분 13초까지 지문 X'를 검출한다. 그러나 지문 X'의 중간에 있는 일부는 오디오 품질이 좋지 않아 손상될 수 있으며 시스템은 검출된 열악한 오디오 품질에 기초하여 오디오를 식별할 수 없다. 오디오 지문 품질이 좋지 않은 원인으로는 배경 잡음, 오류 등이 있을 수 있다. 사용자 B의 사용자 장치는 사용자 A와 동일한 시간 및 위치에서 지문 X'를 검출한다. 그러나, 오디오 지문 X'의 상이한 부분이 품질이 좋지 않을 수 있으며, X'만에 기초하여 식별을 할 수 없다. 그러나, 지문 X 및 지문 X'로부터 도출되는 결합된 지문 Y는 사용자 A 및 사용자 B 둘 다의 부근에서 재생되는 음악을 식별하기에 충분할 수 있다.

오디오 지문(X 및 X')을 결합하는 예시적인 방정식은 다음과 같다:

여기서, a² + b² = 1이고, a 및 b의 값은 상대적인 전력 및 품질 인자들에 기초하여 결정될 수 있다. 결합된 지문 Y를 생성하는 다른 예시적인 방정식에서는

여기서

이다.

결합된 오디오 지문 Y는 노래를 식별하는데 사용될 수 있고, 노래의 식별은 사용자 장치들로 다시 전달될 수 있다. 대안적으로, 결합된 오디오 지문 Y는 사용자 장치들로 다시 전달될 수 있고, 사용자 장치들은 결과적으로 오디오 지문 Y를 사용하여 노래를 식별할 수 있다.

도 4에 도시된 바와 같이, 사용자 장치가 그 사용자 장치로부터 생성된 오디오 지문에 기초하여 노래를 식별할 수 없는 경우, 단계(412)에서, 인접한 사용자 장치에 의해 획득된 동시 발생 지문(contemporaneous fingerprint)이 이용 가능한지 여부가 결정된다. 이웃하는 지문이 이용 가능하다면 (그리고 아직 시도되지 않았다면), 지문은 단계(414)에서 결합되고, 결합된 지문을 네트워크화된 데이터베이스의 지문과 일치시키려는 시도가 단계(410)에서 이루어진다. 사용할 수 있는 가능한 인접 지문이 하나보다 많은 경우, 시스템은 이용 가능한 지문을 사용하여 결합을 반복하거나(cycle through combinations) 두 개보다 많은 지문의 조합을 생성할 수 있다.

예시적인 실시 예에서, 라디오 방송국과 같은 음악 방송국 또는 콘서트 프로모터(concert promoter)는 방송 음악에 관한 정보를 제공한다. 방송 음악에 관한 정보는 오디오 지문, 재생된 시간 및 음악이 재생되는 위치를 포함할 수 있다. 방송 음악에 관한 정보는 부분 오디오 지문에 기초하여 검출된 노래를 식별하는데 사용될 수 있다. 이 예에서, 사용자는 라디오 방송국을 청취하고 있고, 사용자 장치는 재생된 음악을 검출하고 지문 데이터베이스와 비교하기 위해 오디오 지문을 기록한다. 부분 지문은 사용자가 위치한 해당 위치의 방송 음악과 비교될 수 있다. 또한, 이 기능은 방송 라디오 방송국의 청취자 청중 규모를 추정하는 역할을 할 수 있다. 개인 컴퓨터가 오디오 음악을 스트리밍하는 것 및 사람의 전화기가 스트리밍된 오디오 음악을 검출하는 것을 포함하는 유사한 방법이 또한 구현될 수 있다. 예를 들어, 컴퓨터에서 스트리밍 서비스를 통해 음악을 스트리밍하는 사람은 방을 나갈 수 있다. 셀폰이 스트리밍된 음악을 듣지 않을 때 스트리밍 뮤직 애플리케이션은 음악 재생을 계속하기 위해 버튼을 누르라고 사용자에게 프롬프트(prompt)할 수 있다. 사용자가 버튼을 누르기 위해 존재하지 않으면, 음악 스트림은 멈춘다.

도 5는 하나 이상의 노래에의 사용자 주의에 기초하여 재생 리스트를 생성 및 업데이트하기 위한 일부 실시 예들에서 사용되는 방법을 나타내는 흐름도이다. 단계(502)에서, 시스템(예를 들어, 스스로 동작하거나 하나 이상의 네트워크 서버와 통신하는 사용자 장치)은 재생 중인 노래를 식별한다. 노래가 사용자 장치의 환경에서 재생되고 있는 경우, 오디오 지문 인식을 사용하여 식별이 이루어질 수 있다. 노래가 사용자 장치 자체에 의해 재생되고 있는 경우, 노래의 식별은 노래를 재생하는 애플리케이션에 의해 제공될 수 있다. 단계(504)에서, 시스템은 식별된 노래를 재생하는 동안 사용자의 하나 이상의 행동을 결정한다. 예를 들어, 시스템은 마이크로부터의 입력에 기초하여 사용자가 노래에 맞춰 노래하고 있는지 또는 사용자가 별도의 대화에 참여하는지 여부를 결정할 수 있다. 시스템은 사용자 장치 내의 하나 이상의 가속도계 및/또는 자이로스코프로부터의 입력을 사용하여 사용자가 노래에 따라 춤추고 있는지 아니면 노래의 박자에 맞춰 움직이고 있는지(move in time with the song) 여부를 결정할 수 있다. 사용자 장치가 생체 인식 센서를 내부적으로 또는 주변 장치로서 포함하는 경우, 시스템은 예를 들어 심박수 또는 체온의 상승에 기초하여 노래에의 사용자 주의를 결정할 수 있다. 시스템은 사용자가 노래의 볼륨을 높이거나 (또는 낮추거나) "좋아요(Like)" (또는 "싫어요(Dislike)") 버튼을 선택하는 것과 같이 노래에의 주의 레벨을 나타내는 다른 행동들을 취했는지 여부를 또한 결정할 수 있다. 노래가 사용자 장치에 의해 재생되고 있는 경우, 사용자 장치상의 볼륨 버튼과의 사용자 상호 작용에 기초하여 사용이 노래의 볼륨을 변경했다는 결정이 이루어질 수 있다. 노래가 외부 장치에 의해 재생되고 있는 경우에, 사용자 장치는 사용자 장치의 마이크에 도달하는 노래의 사운드 레벨의 변화에 기초하여 볼륨 변화를 식별할 수 있다.

단계(506)에서, 사용자 행동 또는 행동들에 기초하여, 시스템은 노래에의 사용자 주의 레벨을 결정한다. 노래에의 사용자 주의 레벨을 나타내는 스코어는 여기에서 청취 카운트 포인트(listens count point, LCP)로서 일컬어진다. LCP는 검출, 관심의 정도, 청취 품질, 청취 시간 및/또는 기타 컨텍스트 정보의 함수로서 계산된다. 일부 실시 예들에서, LCP는 0(사용자가 청취하지 않음)에서 1.0(사용자가 컨텐츠의 전체 실행 시간에 걸쳐 최고 품질 컨텐츠에 완전히 집중됨)의 범위의 십진수로 주어지지만, 다른 스케일이 사용될 수도 있다. 일부 실시 예들에서, 검출된 음악과 관련된 LCP는 영역 내의 다른 사용자에 의해 곱해지면 최대 스케일보다 클 수 있다. 사용자의 컴퓨터 처리 시스템이 다른 청취자들이 존재함을 검출하면 LCP를 곱할 수 있다. 추가 사용자들은 노래에 대한 사용자의 LCP 스코어를 높이지 않을 수 있지만 마스터 청취 로그에 저장된 정보의 집합(aggregate)에 포함될 수 있다. 예를 들어, 사용자의 장치가 세 사람이 식별된 음악을 듣는 것을 검출하고 나머지 세 사람 중 아무도 청취 카운트 포인트를 마스터 LCP 데이터베이스에 보고하지 않는다면, 그 추가 사용자들은 노래를 들은 것으로 카운트될 수 있다. 추가 청취자들은 시력, 무선 신호 검출 및 기타 유사한 방법에 의해 검출될 수 있다.

예시적인 방법에서, LCP는 다음 유형의 정보 입력, 즉 재생 모드, 사용자의 주의력(user's attention), 소리의 크기(loudness) 및 음질, 및/또는 시선 방향, EEG, 체온, 심박수, 타임 스탬프, GPS, 스케쥴 등과 같은 다른 컨텍스트 데이터 중 하나 이상에 기초하여 계산될 수 있다. 예시적인 실시 예에서, 사용자의 주의력이 측정된다. 사용자가 재생되는 음악에 더 많은 관심을 기울일수록, 해당 검출된 노래에 대한 LCP가 높아진다. 예를 들어, 사용자가 헤드폰을 착용하고 있고 음악을 듣고 있을지라도, 사용자가 동시에 책을 읽고 있다면, 사용자는 재생되는 음악에 주의하지 않을 수 있다. 그러나 사용자가 웹 서핑이나 문자 메시지 보내기와 같은 다른 단순한 작업들을 수행할 때 재생되는 음악에의 사용자 주의 레벨이 더 높아질 수 있다. 예시적인 실시 예들에서, 사용자의 주의 레벨은 검출된 시선에 의해 적어도 부분적으로 결정된다. 사용자 장치는 사용자의 시선을 포착할 수 있다. 이 경우, 장치는 시선을 분석하고 사용자가 다른 자료를 읽거나 보고 있다고 결정한다.

예시적인 실시 예들에서, 사용자의 주의 레벨은 사용자가 음악을 재생하는 장치를 모니터링하는 정도에 적어도 부분적으로 기초하여 결정된다. 터치 스크린, 키보드, 마우스 등을 통한 장치로의 연속적인 입력 신호는 사용자의 활동으로서 분석된다. 노래에의 주의는 장치의 사용을 관찰함으로써 측정될 수도 있다. 장치가 음악을 재생하고 있는 동안 사용자가 장치에서 게임을 하고 있다면, LCP가 낮아질 수 있다.

예시적인 실시 예들에서, 사용자의 주의 레벨은 하나 이상의 인근 대화의 검출에 적어도 부분적으로 기초하여 결정된다. 사용자가 다른 사람들과의 대화에 참여하는 것은 사용자가 음악을 듣지 않는다는 증거가 될 것이다. 말하는 사람들의 존재는 사운드와 카메라 정보의 획득에 의해 검출될 수 있다. 청취 로그에 대한 동일한 마이크 입력이 사용될 수 있다. 사람이 사용자에게 직접 말하고 있는지 여부를 결정하는 것은 LCP의 계산에서 고려될 것이다. 스피커 다이어리제이션(speaker diarisation) 기술은 또한 상황을 결정하기 위해 통합될 수 있다. 구체적으로, 적어도 2개의 상이한 방향으로부터 오는 사운드를 식별하는데 적어도 2개의 스피커가 존재함을 나타내는 마이크 어레이가 사용될 수 있다. 또한, 헤드 트래킹(head tracking)은 또한 대화가 일어나고 있고, 사용자가 음악에 주의하지 않음을 표시하여, LCP를 낮출 수 있다.

예시적인 실시 예들에서, 사용자의 주의 레벨은 사용자가 운동하거나 운전하고 있다는 검출에 적어도 부분적으로 기초하여 결정된다. 일부 실시 예들에서, 사용자가 운동 또는 운전을 수행한다는 결정에 응답하여, LCP가 상승된다. 사용자가 운전 또는 운동 중임을 검출하는 것은 위치 기록 장치(location logging device), 차량과의 무선 연결, 웨어러블 장치로부터의 입력 등을 통해 수행될 수 있다.

예시적인 실시 예들에서, 사용자의 주의 레벨은 사용자가 음악에 맞춰 노래를 부르거나 음악에 맞춰 비트를 유지하고 있다는 결정에 적어도 부분적으로 기초하여 결정된다. 사용자가 재생되는 음악에 맞춰 노래를 부르거나 음악에 맞춰 비트를 유지하고 있다는 것은, 사용자가 재생되는 음악에 상당히 주의하고 있다는 것을 나타내어, LCP를 상승시킨다. 사용자가 검출된 음악에 맞춰 노래하고 있다고 검출하는 것은, 활성 마이크 수신에 의해 이루어질 수 있다. 끄덕임(nodding)이나 비트를 따라 몸을 리드미컬하게 움직이는 것과 같이 사용자가 비트를 유지하는 것은, 여러 방법으로 검출될 수 있다. 마이크는 두드림(tapping)에 의해 생성되는 사운드를 검출할 수 있다. 또한 스마트폰의 관성 센서는 사용자가 춤을 추거나, 두드리거나, 노래를 맞춰 비트를 유지하는 것을 검출할 수 있다. 마이크의 수신된 신호로부터, 두드림 펄스는 다른 주위 잡음 및 사운드로부터 고유하게 파싱(parsing)된다. 스마트 손목 밴드는 손으로부터 두드림을 검출할 수도 있다. 끄덕임 또는 다른 리드미컬한 몸의 움직임은 카메라 및/또는 다른 관성 센서를 사용하여 검출될 수 있다. 예를 들어, 스마트 유리에 설치된 카메라와 관성 센서는 관성 센서의 움직임과 이미지의 흔들림(wobble)에 의해 사용자의 머리가 움직이는 것을 검출할 수 있다.

마이크 입력 신호로부터 사용자가 노래를 따라 부르는 사건, 또는 사용자가 두드리거나 노래에 맞춰 움직이는 사건을 결정하기 위하여 상이한 기술들이 사용될 수 있다. 청취 및 파싱 후에, 입력 신호 s(n)은 먼저 지문 추출 모듈(fingerprint extraction module)로 제공된다. 추출된 지문 f(i)는 전술한 방법들 중 하나에 기초하여 지문 데이터베이스와 비교될 수 있고, 그 다음, 목표(target) 음악 콘텐츠 t(n)을 결정할 수 있다. 목표 소스 신호 t(n) 및 수신 신호 s(n)을 사용하여, 사용자 행동 특징들이 추출될 수 있다. 수학식 1(equation 1)은 s(n)을 근사화하는데 사용될 수 있다.

수학식 1에서 r1(n), r2(n), r3(n)은 사운드 소스에서 수신 마이크로의 전달 함수(transfer function)이며 일반적으로 실내 임펄스 응답(room impulse response)에 의해 좌우된다. 수학식 1에서, u(n)은 사용자에 의해 여기되는 노래 또는 두드림 신호이고, a(n)은 임의의 다른 주변 사운드 및 잡음일 수 있다. 더 단순화하기 위해, r1(n) = r2(n) = r3(n) = r(n)이라 하자. 이러한 실내 전달 함수를 맹목적으로 분리/제거하는 몇 가지 방법이 있다(여기서는 잔향 제거(de-reverberation) 함수 D( )라고 함). D( )를 사용하여 r(n)의 영향(effect)을 성공적으로 제거하고, 공지된 신호 t(n)의 기여를 이어서 제거할 때, 추출된 특징 신호 e(n)는 수학식 2에서 구해진다.

수학식 2에서, e(n)은 t(n)과 비교되고 사용자가 노래하고 음악에 맞춰 움직이는 예들을 추출한다. 교차 상관 관계(cross-correlation)는 주변 사운드 a(n)을 제거하는데 사용될 수 있다. 상관 계수는 유사성 척도(similarity measure)로서 기능할 수 있다. v(n)이 목표 음악(t(n))으로부터 추출된 비트 특징(beating feature)일 때, 유사성 지수는 수학식 3에서 결정된다.

수학식 3에서.

이고

일 때, 리듬 두드림 t(n)이 음악과 일치한다고 결정된다.

예시적인 실시 예에서, 노래에 대한 사용자의 주의 레벨은 사용자가 음악의 볼륨을 높이거나 낮추는 것에 적어도 부분적으로 기초하여 결정된다. 사용자가 음악 볼륨을 높이는 것은 더 높은 LCP와 연관성이 있으며 반대로 음악 볼륨을 낮추는 것은 더 낮은 LCP와 연관성이 있다. 일부 실시 예들에서, 사용자의 볼륨 제어는 소스 음악의 소리 크기에 대하여 판단된다. 녹음된 일부 음악은 마스터링되어 노래마다 상이한 소리 크기로 녹음된다. 따라서, 볼륨을 높이거나 낮추는 사용자는 한 노래의 소기 크기를 다음 곡과 일치시키는 경우가 있을 수 있으며 노래의 상대적인 사용자 즐거움을 반드시 반영하지 않을 수도 있다. 소스 신호의 소기 크기를 측정하는 것은 볼륨을 높이거나 낮추는 사용자가 소리 크기를 일치시키는 것을 보상한다.

예시적인 실시 예에서, 노래에 대한 사용자의 주의 레벨은 사용자가 헤드폰을 착용하고 있는지 여부에 적어도 부분적으로 기초하여 결정된다. 근접 센서가 장착된 헤드폰을 사용하여 사용자가 헤드폰을 착용하고 있음을 확인할 수 있다. 노래가 헤드폰을 통해 사용자에게 재생되고 있다는 결정은 더 높은 LCP를 초래한다.

예시적인 실시 예에서, 노래에의 사용자 주의 레벨은 검출된 음악의 품질, 소리 크기, 또는 둘 모두에 적어도 부분적으로 기초하여 결정된다. 음악의 품질은 마이크를 통해 검출된다. 마이크는 음악의 해상도(비트 심도, 샘플링 주파수 등)를 검출한다. 더 높은 품질은 더 높은 LCP에 해당한다. 소리 크기는 또한 마이크를 통해 검출된다. 이러한 일부 실시 예들에서, 음질의 부가적인 인자는 3D 공간 해상도 또는 서라운드 사운드와 같이 몰입형 오디오(immersive audio)로 재생되고 있는 음악이다. 몰입형 오디오는 마이크 수신 사운드를 사용하거나 오디오 채널 수, 라우드 스피커 수 및 객체 수 등을 계산함으로써 검출된다.

음질과 관련된 또 다른 인자는 주변 소음의 레벨이다. 신호 대 잡음비(signal-to-noise-ratio, SNR)와 비슷한 수신 품질 측정치는 청취자의 노래 주의 레벨을 검출하는 인자로서 사용된다. 추가적인 인자는 측정된 오디오 품질 지각 평가(perceptual evaluation of audio quality, PEAQ)를 포함할 수 있다. 일부 실시 예들에서, 음악 품질 및 소리 크기의 이러한 모든 인자가 존재한다. 예를 들어 사용자가 리스닝 룸에 설치된 22개의 라우드 스피커의 스윗 스팟(sweet spot)에 앉아 있고 음악이 70dB SPL로 재생되는 경우, LCP는 1.0 근처와 같이 매우 높게 설정될 수 있다. 반대로, 주변 소음이 높은 환경에서 40dB SPL의 전화기에 내장된 소형 라우드 스피커를 통해 사용자가 음악을 재생하는 경우, LCP는 0.1 근처와 같이 낮다.

예시적인 실시 예에서, 사용자의 주의 레벨은 검출된 생체 측정 데이터에 적어도 부분적으로 기초하여 결정된다. 서로 다른 스타일의 음악이 청취자의 생체 측정 데이터에 여러 가지 방식으로 영향을 미친다. 예를 들어, HRV(Heart Rate Variability)는 일반적으로 헤비메탈 록 음악을 듣는 사용자의 경우와 클래식 음악을 듣는 사용자의 경우가 다르다. HRV는 사용자 장치에 통신 가능하게 연결된 웨어러블 부속품으로 검출된다. HRV와 같은 검출된 생체 측정 데이터가 재생되는 음악의 유형에 대응할 때, 이는 사용자가 음악에 주의를 기울이고 있음을 나타내는 LCP를 상승시킨다. 생체 측정 데이터의 추가 유형은 심박수, 체온, EEG 등이다.

예시적인 실시 예에서, 사용자의 주의 레벨은 특정 장소 및/또는 사람들과의 식별된 음악의 연관성에 적어도 부분적으로 기초하여 결정된다. 사용자의 위치는 수동 입력, 스마트폰의 위치 추적 기능 등에 의해 결정될 수 있다. 다른 사람들에의 근접성은 다른 사용자의 모바일 장치의 존재를 감지하거나, 수동 입력, 소셜 네트워크로부터 수신한 정보 등에 의해 결정된다. 예를 들어 처음으로 방문한 매우 떨어진 곳에서 음악이 들리면 그 노래는 사용자에게 더 큰 의미가 있다. 이것은 LCP를 상승시키기고, 추후에 기억해내기 위해 노래에 태깅하는 것을 지원한다.

단계(508)에서, 청취 카운트 포인트 데이터베이스는 주의 레벨에 기초하여 업데이트된다. 예를 들어, 데이터베이스는 노래를 식별하고 노래의 그 인스턴스에 대해 계산된 청취 카운트 포인트를 포함하는 항목(entry)을 포함하도록 업데이트될 수 있다. LCP 데이터베이스는 특정 노래에 대한 LCP의 누계를 포함할 수 있다. 총 LCP는 모든 사용자, 개별 사용자, 사용자 그룹 또는 이들의 조합에 대한 합계가 될 수 있다. 일부 실시 예들에서, 개별적인 LCP 및 집합적인 LCP에 대해 상이한 데이터베이스가 유지된다.

일부 실시 예들에서, LCP 데이터베이스는 LCP 상의 정보뿐만 아니라, 노래가 사용자(또는 사용자 그룹)에 의해 청취된 총 횟수에 관한 정보를 저장한다. 일부 실시 예들에서, LCP가 미리 결정된 임계 값, 예를 들어 0.1을 초과하는 경우, 사용자는 노래를 청취한 것으로서만 카운트된다. 일부 실시 예들에서, 총 LCP 대 사용자가 노래를 들었던 횟수의 비율은 노래에 대한 사용자의 관심 레벨의 표시를 제공한다.

일부 실시 예들에서, LCP 정보는 노래의 재생 리스트를 생성하는데 사용된다. 재생 리스트는 예를 들어 도 5의 단계(510)에서 생성된다. 예를 들어 특정 사용자 또는 사용자 그룹에 대해 총 LCP가 가장 높은 노래들을 선택함으로써 재생 리스트를 선택할 수 있다. 재생 리스트 내의 노래의 수는 선택된 수일 수 있거나, 예를 들어, 다른 가능성들 중에서 음악의 선택된 지속 기간을 채우기에 충분한 수의 노래일 수 있다. 재생 리스트는 사용자가 듣고 있는 동안 추가적인 노래가 추가되며 확장 가능(open-ended)할 수 있다. 가장 높은 총 LCP를 갖는 노래의 선택은 특정한 시구간 예를 들어, "지난 6개월" 또는 "2010년대" 동안 축적된 총 LCP가 가장 높은 노래의 선택일 수 있거나, 노래의 선택은 다양한 기간 각각, 예를 들어, "매년 당신의 최고의 노래(your top songs of each year)"로부터 가장 높은 LCP를 가진 노래를 포함할 수 있다. LCP 정보에 기초하여 재생 리스트를 선택하기 위해 다른 기술이 대안적으로 사용될 수도 있다.

단계(512)에서, 재생 리스트 상의 노래가 사용자를 위해 재생된다. 재생 리스트 상의 노래를 재생하는 동안의 사용자의 행동은 단계(504)에서 검출될 수 있고 노래에 대한 사용자의 계속적인 주의 레벨을 결정하는데 사용될 수 있다(단계 506). 이는 재생 리스트의 기반이 되는 LCP 정보의 업데이트(단계 508)를 허용한다. 노래가 너무 자주 재생되면 노래에 대한 사용자의 관심 - 따라서 노래에 대한 사용자의 측정 주의 레벨 - 이 줄어들 가능성이 있다. 따라서 감소되는 LCP와 관련된 노래들은 재생 리스트에서 삭제되거나 덜 자주 재생될 수 있다.

일부 실시 예들에서, LCP 데이터는 음악 슬라이드 쇼의 생성에 사용되며, 여기서 음악은 이벤트(예를 들어, 특정 장소 또는 시간 주기)의 사진들과 함께 재생되도록 선택된다. 단계(602)에서, 시스템은 노래를 식별한다. 단계(604)에서, 시스템은 하나 이상의 사용자 행동을 검출하고, 단계(606)에서 시스템은 사용자 행동 또는 행동들에 기초하여 노래에 대한 사용자 주의 레벨을 결정한다. 단계(608)에서, 시스템은 노래에 대한 사용자의 측정 주의 레벨에 기초하여 청취 카운트 포인트 데이터베이스를 업데이트한다. 시스템은 또한 단계(610)에서 사용자가 노래를 들은 시간(예를 들어, 날짜) 및 단계(612)에서 사용자가 노래를 들은 위치(예컨대, GPS 좌표들)를 저장한다.

또한, 사용자는 예를 들어, 사용자 장치상의 카메라를 사용하여 하나 이상의 이미지를 수집하고, 단계(614)에서 이미지들을 캡처하고, 단계(616)에서 이미지들을 저장한다. 이미지들 자체와 함께, 시스템은 이미지 캡처 시간(단계 618) 및 이미지 캡처 위치(단계 620)에 관한 정보를 저장한다. 이미지 캡처 시간 및/또는 위치에 대한 시공간적 정보는 이미지 파일 자체에 메타 데이터로서 저장될 수 있거나 이미지 데이터베이스와 같은 별도의 데이터 저장소에 저장될 수 있다.

음악 슬라이드 쇼의 생성을 시작하기 위해, 단계(622)에서 사용자는 관심 있는 이벤트를 선택하는데, 여기에는 시간 및/또는 위치의 선택이 포함될 수 있다. 사용자 선택은 다양한 방법으로 제출될 수 있다. 예를 들어 사용자는 디지털 사진 저장소에서 특정 앨범이나 폴더를 선택하거나, 디지털 캘린더에서 캘린더 이벤트를 선택하거나, 날짜 범위 또는 특정 위치(예를 들어, 도시, 주, 국가)를 명시적으로 입력함으로써, 이벤트를 선택할 수 있다. 단계(624)에서, 시스템은 선택된 이벤트(예를 들어, 선택된 시간에 또는 선택된 위치에서 취해진 이미지)에 대응하는 다수의 이미지를 식별한다. 단계(626)에서, 시스템은 선택된 이벤트에 대응하는 복수의 노래를 식별한다. 예를 들어, 이들은 선택된 기간 동안 가장 높은 총 LCP를 갖는 노래들 또는 선택된 위치에서 가장 높은 총 LCP를 갖는 노래들, 또는 이 둘의 조합이 될 수 있다.

단계(628)에서, 선택된 노래들 및 선택된 이미지들은 음악 슬라이드 쇼로서 함께 제시된다. 예를 들어, 선택된 노래들을 포함하는 재생 리스트가 재생되고 있는 동안, 사용자 장치상의 디스플레이는 선택된 이미지들을 순환시킬 수 있다(예를 들어, 10초와 같은 미리 결정된 시간량 동안 각각의 이미지를 디스플레이하고, 다음 이미지로 전환, 예를 들어, 디졸브(dissolve)됨).

전술한 단계들 또는 그 변형들을 이용하여, 슬라이드 쇼를 수반하는 자동 배경 음악이 생성된다. 예시적인 프로세스에서 스마트폰은 특정 이벤트에 해당하는 사진들을 디스플레이한다. 이벤트는 자동차 여행, 휴가, 출장, 결혼식 밤 등이 될 수 있다. 사진들은 스마트폰에 로컬로 저장되거나 소셜 네트워크를 통해 액세스 가능하거나 친구의 소셜 네트워크로부터 공유될 수 있다. 자동 생성된 배경 음악은 특정 이벤트에서 보낸 시간과 연관성 있는 노래들을 포함한다. 연관성 있는 노래들은 사용자가 높은 수준의 주의력으로 들었던 노래들, 이벤트 중에 자주 재생된 노래들 또는 높은 LCP를 갖는 노래들과 높은 유사성을 가지는 다른 유사한 노래들일 수 있다.

일부 실시 예들에서, 음악 슬라이드 쇼는 사용자가 슬라이드 쇼에 포함시킬 이미지들을 선택하는 것에 응답하여 생성되며, 음악은 이미지들의 시공간적 정보(위치 및/또는 시간 정보)에 기초하여 선택된다. 역으로, 다른 실시 예들에서, 음악 슬라이드 쇼는 사용자가 슬라이드 쇼에 포함시킬 노래들을 선택하는 것에 응답하여 생성되며, 이미지들은 노래와 관련된 시공간적 정보에 기초하여 선택된다. 사용자가 이용 가능한 노래 리스트로부터 특정 음악을 선택하는 것에 기초하여 자동 생성 슬라이드 쇼가 생성될 수 있다. 슬라이드 쇼는 또한 자동 생성된 캡션을 포함할 수 있고, 슬라이드 쇼의 사진에 묘사된 사람, 장소 및 이벤트에 라벨을 붙일 수 있다. 자동 생성된 캡션에는 수집된 컨텍스트 데이터를 기초로 선택한 사진들과 함께 나타나는 미리 생성된 이미지들이 포함될 수도 있다. 예를 들어 행복한 순간에 해당하는 사진들 위에 행복한 얼굴 이모지를 그리는 것이다.

예시적인 청취 카운트 포인트 데이터베이스가 도 7에 도시된다. 데이터베이스는 테이블(702) 및 테이블(704)과 같은 하나 이상의 테이블을 포함할 수 있다. 예시적인 테이블(702)은 각각의 노래에 대해 하나의 항목을 포함한다. 테이블(702)는 이들 노래에 대한 총 청취 카운트 포인트와 함께 노래를 식별하는데 사용되는 정보를 저장한다. (다양한 실시 예에서, 총 청취 카운트 포인트는 특정 사용자에 대한 합계 또는 사용자 그룹에 대한 마스터 합계일 수 있다). 테이블(702)은 각 노래에 대해 무작위의 고유 식별자를 제공하는 Song_Index 열(column)을 포함한다. 각각의 열 Song_Title 및 Song_Artist는 노래의 제목과 아티스트를 식별한다. Plays 열은 노래가 재생된 횟수를 식별한다(여기에 설명된 시스템 및 방법을 사용하여 검출됨). Tot_LCP 열은 각각의 노래에 대한 총 청취 카운트 포인트 값을 나타낸다.

일부 실시 예들에서, 별도의 테이블(704)이 보다 상세한 정보를 제공하기 위해 사용될 수 있다. 일부 실시 예들에서, 테이블(704)은 청취 로그로서 일컬어진다. 예시적인 테이블(704)은 노래의 재생이 검출될 때마다 하나의 항목을 포함한다. 테이블(704)은 검출된 노래에 대한 고유한 식별자를 제공하는 Song_Index 열을 포함한다. Listen_Time 열은 노래가 검출된 시간에 대한 정보를 저장하고, Loc_Lat 열은 노래가 검출된 위치의 경도 및 위도를 식별한다. 테이블(704)에서, LCP 열은 노래에의 사용자 주의 레벨을 나타내는 하나 이상의 사용자 행동에 기초하여, 검출된 노래의 재생에 대해 결정된 청취 카운트 포인트 값을 저장한다. 이 예에서, LCP 값들 중 일부는 1.0보다 크고, 0.0-1.0 스케일 이외의 스케일에 기초한 실시 예들에서 발생할 수 있거나, 노래의 재생 시에 복수의 사용자들이 존재했다는 것을 시스템이 검출할 때 발생할 수 있다. 테이블(704)의 예에서, Source 열은 노래가 어떻게 재생되었는지에 대한 정보를 제공한다. 예를 들어, 노래가 라이브로 공연되었다는 것을 나타내는데 표시자(indicator) LIV가 사용될 수 있다. 일부 실시 예들은 원래 아티스트의 라이브 퍼포먼스와 다른 아티스트들의 라이브 퍼포먼스를 구별할 수 있다. 표시자 LIB는 노래가 사용자 자신의 음악 라이브러리(예를 들어, MP3 파일 모음)로부터 재생되었음을 나타낼 수 있다. 표시자 STR은 노래가 스트리밍 미디어 애플리케이션을 사용하여 재생되었음을 나타낼 수 있다. 표시자 AUD는 노래가 다른 오디오 시스템에 의해 재생되는 것으로 검출되었음을, 예를 들어, 사용자 장치가 아닌 시스템에 의해 재생되어 사용자의 장치의 마이크에 의해 검출되었음을 나타낼 수 있다. 일부 실시 예들에서, 테이블(704)은 사용자에 의해 수동으로 입력되거나, 예를 들어 사용자의 디지털 캘린더 또는 소셜 미디어 정보로부터의 정보를 사용하여 채워질 수 있는 추가 정보를 포함하는 Notes 필드를 포함할 수 있다. 청취 카운트 포인트 데이터베이스에 대해 도 7에 도시된 것 이외의 다른 데이터베이스 및 테이블 구조가 사용될 수 있다는 것을 이해해야 한다.

일 실시 예에 따라, 데이터베이스에 저장된 정보의 예로서, 데이터베이스는 노래, 아티스트, 재생 수, 청취 수 및 강조 표시된 순간(highlighted moment)에 대한 정보를 포함할 수 있다. 예를 들어, 사용자의 컴퓨터 처리 시스템은 289번의 재생이 검출되고, 노래는 관심 있는 사용자의 경우 357.31의 청취 카운트 포인트(LCP) 스코어를 가지고 있다는 것을 나타내는 정보를 저장할 수 있다. 강조 표시된 순간에는 다른 아티스트들에 의해 연주되는 라이브 노래 듣기, 원래 아티스트들에 의해 연주되는 라이브 노래 듣기, 휴가 중일 때, 사용자의 생일 파티에서 라디오를 통해, 및 다른 시간들이 포함된다. LCP는 음악에 대한 사용자의 주의를 나타낸다. LCP의 한 인자는 사용자의 주의력이다. 주의력 레벨이 높을수록 LCP 레벨이 높아진다.

일부 실시 예들에서, 사용자 장치는 재생되는 노래에 대한 그 사용자의 관심(또는 주의) 레벨을 수동으로 입력할 수 있는 사용자 인터페이스를 제공한다. 일단 검출되고 식별되면, 사용자는 식별된 노래에 대하여 좋음 또는 싫음을 수동으로 입력할 수 있다. 도 1을 참조하면, 사용자의 스마트폰은 엘튼 존(Enton John)에 의한 Your Song을 검출하고 스마트폰의 터치 스크린 상의 버튼을 누름으로써, 노래를 "좋아요(Like)"하거나 "싫어요(Dislike)"하는 옵션이 표시된다. LCP는 "좋아요"를 누르는 사용자에 대하여 긍정적으로 조정되고, "싫어요"를 누르는 사용자에 대하여 부정적으로 조정된다.

예시적인 실시 예에서, 재생 카운트, 청취 카운트 및 연관된 컨텍스트 데이터를 포함하는 청취 카운트 포인트 데이터베이스에 포함된 데이터는 더 상위 레벨의 애플리케이션에 의해 사용된다. 관련 컨텍스트 데이터는 본 개시 내용 전체에서 설명된 바와 같이 검출된 컨텍스트 데이터를 포함하며 소셜 네트워크(Facebook, MySpace, Friendster, Photobucket 등), 사용자의 디지털 사진 앨범, 비디오, 이메일, 캘린더 약속 등으로부터 또한 얻어질 수 있다. 이 정보는 컴퓨터 처리 시스템에 로컬로 저장되거나, 네트워크 연결을 통해 액세스 가능하거나, (사용자의 Facebook 페이지 상에서) 사용자와 제휴되거나, (친구의 Facebook 페이지로부터) 사용자와 공유될 수 있다. 더 높은 레벨의 어플리케이션을 통해 다중 모드 정보로부터 추가적인 컨텐츠를 개발하기 위해, 딥 뉴럴 네트워크(deep neural network) 및 머신 러닝(machine learning) 접근법과 같은 기술이 사용될 수 있다.

도 8은 일 실시 예에 따라, 예를 들어 검출된 노래의 대체 버전을 재생함으로써 음악 재생의 품질을 향상시키기 위해 일부 실시 예들에서 수행되는 방법을 도시한다. 단계(802)에서, 시스템은 재생 중인 노래를 식별한다. 단계(804)에서, 시스템은 노래의 대체 버전이 더 높은 품질로 이용 가능한지 여부를 결정한다. 만일 그렇다면, 단계(806)에서, 시스템은 현재 재생 중인 노래의 재생 지점을 식별하고, 예를 들어 노래의 시작부터 몇 초가 경과했는지를 결정한다. 일단 재생 지점이 결정되었으면, 단계(808)에서 예를 들어 더 고품질 버전의 노래로 페이딩(fading)함으로써 재생 지점에서 더 고품질 버전의 노래의 재생이 개시된다.

도 8의 방법과 같은 방법은, 음악을 검출하고, 음악을 식별하며, 식별된 음악의 상이한 버전을 재생하는데 사용될 수 있다. 일 예에서, 사용자는 FM 라디오를 통해 특정 품질로 방송되는 노래를 청취하고 있을 수 있다. 사용자의 셀폰, 스마트폰, 또는 차량에 내장된 오디오 시스템을 포함할 수 있는 사용자 장치가 재생되는 음악을 검출한다. 본 개시의 방법에 기초하여, 사용자 장치는 음악을 식별하고 식별된 노래의 대체 버전을 검색한다. 대체 버전에는 더 고품질의 버전, 상이한 아티스트의 버전, 명시적인 가사가 포함된 버전, 동일한 아티스트이지만 콘서트에서 "라이브"로 연주되는 버전 등이 포함될 수 있다. 대체 버전은 무료 또는 사용자 지불로 이용 가능할 수 있다. 무료 음악의 예는 이미 구입한 음악, 로컬 장치에 이미 저장된 음악, 구독 서비스를 통해 이용 가능한 음악 등이 될 것이다. 유료로 이용 가능한 음악에는 일회성 재생 요금(one-time play fee), 음악에 대한 장기 라이센스 또는 디지털 다운로드 구매가 포함될 수 있다. 고품질 노래 포맷의 한 버전은 MQS(Mastering Quality Sound) 포맷이지만, 분명히 다른 노래 버전이 리스트될 수 있다.

사용자 장치는 그 후 오디오 재생을 식별된 노래의 대체 버전으로 전환(transition)한다. 전환은 자동 또는 수동으로 시작될 수 있다. 자동 전환의 예는 FM 라디오 방송국에서 노래를 재생하는 것으로부터 사용자 스마트폰에 저장된 더 고품질 버전의 노래를 재생하는 것으로의 전환을 포함한다. 수동 전환의 예는 FM 라디오를 통해 재생되는 음악을 검출하고 식별하는 것, 다른 옵션 중에서 최근 콘서트에서 아티스트가 연주한 노래의 대체 버전을 사용자 장치가 제안하는 것, 사용자가 대체 라이브 버전 및 지불 방법을 선택하는 것, 및 사용자 장치가 대체 라이브 버전으로의 오디오 전환을 완료하는 것을 포함한다.

대체 버전으로의 전환은 많은 형태를 취할 수 있다. 노래의 대체 버전은 스마트폰과 같은 사용자 장치에서, 원격 서버에서, 예를 들어, 클라우드 저장 장치를 통해서, 오디오 시스템에 연결된 CD 플레이어 내의 CD에서 이용 가능하거나, 스트리밍 서비스 등을 통해 이용 가능하다. 사용자 장치는 통신 링크를 통해 오디오 시스템(예를 들어 자동차의 오디오 시스템)으로 직접 음악 파일을 스트리밍하거나 자체 오디오 시스템을 통해 음악을 재생할 수 있다. 또한, 사용자 장치는 오디오 시스템에 대해 원격 서버로부터 음악 파일을 검색하도록 지시할 수 있다.

일부 실시 예들에서, 대체 버전으로의 전환은 사용자가 전환을 검출할 수 없도록 동기화된다. 예를 들어, 오디오 시스템이 DJ 이야기 및 노래 시작을 포함하여 FM 방송국을 재생하고 있을 수 있다. 이 노래는 여기에 설명된 개시를 사용하여 검출되고 식별된다. 음악은 FM 방송국과 개인 음악 라이브러리를 통해 재생될 음악 간에 동기화된다. 더 고품질의 버전과 같은 대체 버전의 음악이 재생된다. 그런 다음 음악이 노래의 끝 부분에 FM 방송국으로 다시 전환된다. 사용자가 향상된 품질을 제외하고는 전환을 감지하지 못할 수도 있다.

예시적인 실시 예에서, 음악은 대체 버전으로 전환되지만 원본 소스로부터의 컨텐츠에 믹스된다. 이 예에서 재생된 주요 음악은 고품질 버전이다. 그러나 DJ 이야기와 같이 원본 소스에서 추가 오디오가 검출되면, DJ의 음성이 고품질 오디오 재생으로 믹스된다. 예시적인 실시 예에서, 라디오 DJ는 노래를 말하고 트래픽 업데이트를 제공하는 것과 같이, 음악을 선택하고 추가적인 컨텍스트를 제공할 수 있으며, 노래의 고품질 또는 대체 버전으로의 전환은 자동으로 매끄럽게 발생한다.

일 실시 예에 따르면 대체 버전으로의 음악 전환의 예시적인 방법에서, 그러한 실시 예에서, 음악 인식 엔진(music recognition engine)은 본 명세서에서 기술된 기술들을 사용하여 중간 품질의 FM 방송국을 통해 재생되는 음악을 검출하고 식별한다. 자동으로 또는 사용자 입력으로 재생할 노래의 버전을 결정하기 위해 재생 제어 모듈(play control module)이 제공된다. 동기화된 디졸버 모듈(synchronized dissolver module)은 재생될 오디오 버전을 매끄럽게 전환한다. 예시적인 방법에서 동기화된 디졸버는 다른 옵션들 중에서 FM 방송국 또는 클라우드 서비스로부터 음악을 재생한다.

일부 실시 예들에서, 동기화된 디졸버 특징은 상이한 버전들 간의 상이한 실행 시간을 보상한다. 상이한 실행 시간을 보상하는데 사용될 수 있는 예시적인 기술은 오디오 신호에 대한 시간 스케일(time scale)을 연장하거나 압축하는 시간 스케일 변경을 포함한다.

일부 실시 예들에서, 재생 제어 모듈은 상이한 소스의 이용 가능성에 기초하여 재생될 노래의 버전을 결정한다. 예를 들어, FM 방송국이 일시적으로 범위를 벗어나거나 사용자가 불량 수신 영역을 통과하여 이동하고 있는 경우, 재생 제어 모듈은 클라우드 기반 버전의 노래를 선택할 수 있다. 대안적으로, 만일 클라우드 기반 음악과 오디오 재생 사이의 데이터 연결이 중단되면, 재생 제어 모듈은 노래의 버퍼링된 버전을 재생하는 것, 아니면 FM 버전으로 다시 전환하는 것을 선택할 수 있다.

예시적인 실시 예에서, 인터넷 기반 라디오 방송국에서 재생되는 음악이 검출되고 식별된다. 이러한 실시 예에서, 음악은 스트리밍된 음악에 포함된 메타 데이터를 판독함으로써 식별될 수 있다. 식별된 노래는 음악 라이브러리에서 이용 가능한 노래와 비교된다. 재생 제어 모듈은 재생할 노래의 버전을 결정한다. 동기화된 디졸버는 인터넷 라디오 방송국과 음악 라이브러리로부터 재생된 음악 사이를 전환한다.

아래에서 더 상세하게 설명되는 바와 같이, 다양한 다른 특징들이 본 명세서에 개시된 전술한 실시 예들에 개별적으로 또는 보완적인 특징들로서 구현될 수도있다. 예를 들어, 일부 실시 예들에서, 지리적 위치(geo-location) 기반 음악 재생이 가능해진다. 음악 재생은 수집된 데이터를 기반으로 추천 음악의 재생 리스트를 생성한다.

일부 실시 예들에서, 사용자는 친구의 소셜 네트워크 업데이트를 보고 친구의 소셜 미디어 게시물에서 위치 메타 데이터를 만난다. 사용자 장치는 친구의 소셜 미디어 게시물에서 검출된 위치 데이터를 공유하는 사용자의 콘텐츠를 추가할 것을 추천한다.

일부 실시 예들에서, 사용자 장치는 내장형 뮤직 플레이어를 포함하고, 사용자는 재생할 노래 또는 앨범을 선택한다. 선택된 음악에 응답하여, 사용자 장치는 컨텍스트 믹서(mixer) 정보에 기초하여 사진 및 비디오를 디스플레이한다. 컨텍스트 믹서 정보는 위치 태그, 관련 감정 상태, 이벤트 등을 포함한다. 이러한 실시 예에서, 컴퓨터 처리 시스템은 항상 사진을 디스플레이하거나 뷰어들이 검출될 때 단지 사진을 디스플레이하도록 구성될 수 있다.

예시적인 실시 예에서, 사용자의 컴퓨터 처리 시스템은 사용자가 위치로 돌아오는 것에 기초하여 음악, 이미지 또는 둘 모두를 제안한다.

예시적인 실시 예에서, 컨텍스트는 수동으로 입력된 위치에 기초하여 믹스된다. 수동으로 입력된 위치는 사용자가 그 위치와 관련된 콘텐츠를 생성하기를 원하는 임의의 위치일 수 있다. 예를 들어 원격 사무실 시설에서 프리젠테이션을 준비할 때 여행 관리자(travelling manager)는 원격 사무실의 위치를 선택하여 원격 사무실의 위치를 기반으로 콘텐츠를 생성할 수 있다. 프리젠테이션의 콘텐츠는 원격 사무실과 관련된 음악, 사진 및 비디오가 될 것이다. 이러한 일부 실시 예들에서, 프리젠테이션은 미디어를 시간순으로 나열하는 타임 라인 유형의(timeline-type) 프리젠테이션이다.

예시적인 실시 예에서, 사용자는 공유된 데이터를 제어한다. 음악과 관련된 데이터가 포함된 청취 로그는 각 개별 노래의 메타 데이터 필드에 저장되거나 별도의 장치에 저장될 수 있다. 예로서, 클라우드 음악 서비스 시나리오에서, 청취 로그는 네트워크 저장 장치의 개인 영역에 저장될 수 있다. 대안적으로 청취 로그 데이터는 익명으로 데이터를 분석하는 것을 포함할 수 있는 포괄적인 방식으로 분석될 수 있다.

예시적인 실시 예에서, 사용자는 사용자가 노래를 구입하지 않은 것에 기초하여 청취 로그에 저장된 제한된 데이터에만 액세스할 수 있다. 사용자는 노래를 구매한 것 또는 전체 데이터에 대한 구독 서비스를 기반으로 청취 로그 데이터에 전체 액세스 권한을 받는다.

예시적인 실시 예에서, 사용자는 청취 로그의 민감한 정보를 제어한다. 사용자는 전화 또는 원격 네트워크의 개인 영역에 저장된 데이터에 대한 분석을 수행함으로써 청취 로그의 민감한 정보를 제어한다. 청취 로그의 미가공(raw) 데이터로부터 민감한 정보가 삭제된다(sanitized). 삭제된 후의 정보(sanitized information)에는 LCP 수의 결정 인자가 없는 LCP 수만 포함될 수 있다.

일부 실시 예들에서, 청취 로그 데이터는 익명으로 공유된다. 예를 들어, 상이한 사용자들의 청취 로그 데이터는 개인 정보 보호를 위해 익명의 브리지 모듈(anonymous bridge module)에 제공될 수 있다. 브리지 모듈은 청취 로그 데이터로부터 민감한 정보를 제거하고 청취 로그 마스터 컬렉션 프로세스와 데이터를 공유한다. 청취 로그 마스터 컬렉션 프로세스는 여러 사용자 장치로부터 검출된 음악을 일치시키는 것을 용이하게 하고 청취 로그 정보를 저장한다. 브리지는 원격 서버 또는 사용자의 컴퓨터 처리 시스템에 위치할 수 있다.

설명된 하나 이상의 실시 예의 다양한 하드웨어 요소들은 각각의 모듈과 관련하여 본 명세서에 설명된 다양한 기능들을 이행(carry out)(즉, 수행(perform), 실행(execute) 등)하는 "모듈(module)"로서 일컬어진다는 것을 유의해야 한다. 여기서 설명된 바와 같이, 모듈은 주어진 구현에 대해 당업자가 적당하다고 생각하는 하드웨어(예를 들어, 하나 이상의 프로세서, 하나 이상의 마이크로 컨트롤러, 하나 이상의 마이크로 칩, 하나 이상의 ASIC(application-specific integrated circuit), 하나 이상의 FPGA(field programmable gate array), 하나 이상의 메모리 장치)를 포함한다. 각각의 설명된 모듈은 또한 각각의 모듈에 의해 이행되는 것으로 기술된 하나 이상의 기능을 이행하기 위해 실행 가능한 명령어들을 포함할 수 있으며, 이들 명령어들은 하드웨어(즉, 배선에 의해 접속된(hardwired)) 명령어들, 펌웨어 명령어들, 소프트웨어 명령어들 및/또는 기타의 형태를 취하거나 포함할 수 있으며, 통상적으로 RAM(random-access memory), ROM(read-only memory) 등으로 일컬어지는 임의의 적절한 비-일시적(non-transitory) 컴퓨터 판독 가능 매체(medium) 또는 매체들(media)에 저장될 수 있음을 유의해야 한다.

여기에 개시된 예시적인 실시 예는 무선 송수신 유닛(wireless transmit/recevie unit, WTRU) 또는 다른 네트워크 엔티티와 같은 하나 이상의 유선 및/또는 무선 네트워크 노드를 사용하여 구현된다.

도 9는 여기에 설명된 실시 예들에서 사용자 장치로서 사용될 수 있는 예시적인 WTRU(902)의 시스템 다이어그램이다. 도 9에 도시된 바와 같이, WTRU(902)는 프로세서(918), 트랜시버(920)를 포함하는 통신 인터페이스(919), 송신/수신 요소(922), 스피커/마이크(924), 키패드(926), 디스플레이/터치 패드(928), 비-분리형 메모리(930), 분리형 메모리(932), 전원 장치(934), GPS(global positioning system) 칩셋(936) 및 센서(938)를 포함할 수 있다. WTRU(902)는 실시 예와 일관성을 유지하면서 전술한 요소들의 임의의 하위 조합을 포함할 수 있다.

프로세서(918)는 범용 프로세서, 특수 목적 프로세서, 종래 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 복수의 마이크로프로세서, DSP 코어와 관련된 하나 이상의 마이크로프로세서, 제어기, 마이크로 제어기, ASIC, FPGA 회로, 임의의 다른 유형의 집적 회로(integrated circuit, IC), 상태 머신(state machine) 등일 수 있다. 프로세서(918)는 WTRU(902)가 무선 환경에서 동작할 수 있게 하는 신호 코딩, 데이터 처리, 전력 제어, 입력/출력 처리 및/또는 임의의 다른 기능을 수행할 수 있다. 프로세서(918)는 트랜시버(920)에 연결될 수 있으며, 트랜시버(920)는 송신/수신 요소(922)에 연결될 수 있다. 도 9는 프로세서(918) 및 트랜시버(920)를 별개의 구성 요소로 도시하지만, 프로세서(918) 및 트랜시버(920)는 전자 패키지 또는 칩 내에 함께 통합될 수 있음을 알 것이다.

송신/수신 요소(922)는 무선 인터페이스(915)를 통해 기지국에 신호를 송신하거나 기지국으로부터 신호를 수신하도록 구성될 수 있다. 예를 들어 일 실시 예에서 송신/수신 요소(922)는 RF 신호를 송신 및/또는 수신하도록 구성된 안테나일 수 있다. 다른 실시 예에서, 송신/수신 요소(922)는 예로서 적외선(IR), 자외선(UV) 또는 가시광 신호를 송신 및/또는 수신하도록 구성된 이미터(emitter)/검출기(detector)일 수 있다. 또 다른 실시 예에서, 송신/수신 요소(922)는 RF 및 광 신호 모두를 송신 및 수신하도록 구성될 수 있다. 송신/수신 요소(922)는 무선 신호들의 임의의 조합을 송신 및/또는 수신하도록 구성될 수 있음을 알 것이다.

또한, 송신/수신 요소(922)가 도 9에서 단일 요소로서 묘사되었지만, WTRU(902)는 임의의 수의 송신/수신 요소(922)를 포함할 수 있다. 더욱 구체적으로, WTRU(902)는 MIMO 기술을 사용할 수 있다. 따라서, 일 실시 예에서, WTRU(902)는 무선 인터페이스(915)를 통해 무선 신호를 송신 및 수신하기 위한 2개 이상의 송신/수신 요소(922)(예를 들어, 다중 안테나)를 포함할 수 있다.

트랜시버(920)는 송신/수신 요소(922)에 의해 송신될 신호를 변조하고 송신/수신 요소(922)에 의해 수신되는 신호를 복조하도록 구성될 수 있다. 전술한 바와 같이, WTRU(902)는 다중 모드 기능을 가질 수 있다. 따라서, 트랜시버(920)는 예로서 WTRU(902)가 UTRA 및 IEEE 802.11과 같은 다수의 RAT를 통해 통신할 수 있게 하는 다수의 트랜시버를 포함할 수 있다.

WTRU(902)의 프로세서(918)는 스피커/마이크(924), 키패드(926), 및/또는 디스플레이/터치 패드(928)(예를 들어, LCD(liquid crystal display) 디스플레이 유닛 또는 OLED(organic light-emitting diode) 디스플레이 유닛)에 연결되어 이들로부터 사용자 입력 데이터를 수신할 수 있다. 또한, 프로세서(918)는 사용자 데이터를 스피커/마이크(924), 키패드(926) 및/또는 디스플레이/터치 패드(928)로 출력할 수 있다. 또한, 프로세서(918)는 비-분리형 메모리(930) 및/또는 분리형 메모리(932)와 같은 임의의 유형의 적절한 메모리로부터 정보를 액세스하고, 메모리에 데이터를 저장할 수 있다. 비-분리형 메모리(930)는 RAM, ROM, 하드 디스크 또는 임의의 다른 유형의 메모리 저장 장치를 포함할 수 있다. 분리형 메모리(932)는 가입자 식별 모듈(subscriber identity module, SIM) 카드, 메모리 스틱, SD(secure digital) 메모리 카드 등을 포함할 수 있다. 다른 실시 예들에서, 프로세서(918)는 서버 또는 가정용 컴퓨터(도시되지 않음)와 같은 WTRU(902) 상에 물리적으로 위치하지 않는 메모리로부터 정보를 액세스하고 메모리에 데이터를 저장할 수 있다.

프로세서(918)는 전원 장치(934)로부터 전력을 수신할 수 있고, WTRU(902) 내의 다른 부품들에 전력을 분배 및/또는 제어하도록 구성될 수 있다. 전원 장치(934)는 WTRU(902)에 전력을 공급하기 위한 임의의 적절한 장치일 수 있다. 예로서 전원 장치는 하나 이상의 건전지 배터리(예를 들어, 니켈-카드늄(NiCd), 니켈-아연(NiZn), 니켈 수소 전지(NiMH), 리튬-이온(Li-ion) 등), 태양 전지, 연료 전지 등을 포함할 수 있다.

또한, 프로세서(918)는 WTRU(902)의 현재 위치에 관한 위치 정보(예를 들어, 경도 및 위도)를 제공하도록 구성될 수 있는 GPS 칩셋(936)에 연결될 수 있다. WTRU(902)는 GPS 칩셋(936)으로부터의 정보에 추가하여 또는 그 정보 대신에, 기지국으로부터 무선 인터페이스(915)를 통해 위치 정보를 수신하고/하거나 둘 이상의 인근 기지국으로부터 수신되는 신호의 타이밍에 기초하여 그 위치를 결정할 수 있다. WTRU(902)는 실시 예와 일관성을 유지하면서, 임의의 적절한 위치 결정 방법에 의해 위치 정보를 획득할 수 있다는 것을 알 것이다.

또한, 프로세서(918)는 추가적인 특징들, 기능 및/또는 유선 또는 무선 연결성을 제공하는 하나 이상의 소프트웨어 및/또는 하드웨어 모듈을 포함할 수 있는 다른 주변 장치(938)에 연결될 수 있다. 예를 들어, 주변 장치(938)는 가속도계와 같은 센서들, 전자 나침반, 위성 트랜시버, 디지털 카메라(사진 또는 비디오용), USB 포트, 진동 장치(vibration device), 텔레비전 트랜시버, 핸즈프리 헤드셋, 블루투스(Bluetooth®) 모듈, FM 라디오 유닛, 디지털 뮤직 플레이어, 미디어 플레이어, 비디오 게임 플레이어 모듈, 인터넷 브라우저 등을 포함할 수 있다.

도 10은 예를 들어 청취 카운트 포인트를 추적하고/하거나 검출된 오디오 지문을 오디오 지문 데이터베이스와 비교하기 위해 사용되는 네트워크 서버로서, 본 개시의 실시 예들에서 사용될 수 있는 예시적인 네트워크 엔티티(1090)를 도시한다. 도 10에 도시된 바와 같이, 네트워크 엔티티(1090)는 버스, 네트워크 또는 다른 통신 경로(1098)에 의해 통신 가능하게 연결된 통신 인터페이스(1092), 프로세서(1094) 및 비-일시적 데이터 저장 장치(1096)를 포함한다.

통신 인터페이스(1092)는 하나 이상의 유선 통신 인터페이스 및/또는 하나 이상의 무선 통신 인터페이스를 포함할 수 있다. 유선 통신과 관련하여, 통신 인터페이스(1092)는 예로서 이더넷 인터페이스와 같은 하나 이상의 인터페이스를 포함할 수 있다. 무선 통신과 관련하여, 통신 인터페이스(1092)는 하나 이상의 안테나, 하나 이상의 유형의 무선(예를 들어, LTE) 통신을 위해 설계되고 구성된 하나 이상의 트랜시버/칩셋과 같은 부품, 및/또는 당업자에 의해 적절하다고 여겨지는 임의의 다른 부품을 포함할 수 있다. 또한, 무선 통신에 관해서는, 통신 인터페이스(1092)가 무선 통신(예를 들어, LTE 통신, Wi-Fi 통신 등)의 네트워크 측 - 클라이언트 측과 반대됨 - 에서 동작하기에 적합한 스케일 및 구성으로 구비될 수 있다. 따라서, 통신 인터페이스(1092)는 다수의 이동국들, UE들, 또는 커버리지 영역 내의 다른 액세스 단말기들에 서비스하기 위한 적절한 장비 및 회로(아마도 다수의 트랜시버들을 포함함)를 포함할 수 있다.

프로세서(1094)는 범용 마이크로프로세서 및 전용 DSP를 포함하는, 당업자에게 적합한 것으로 여겨지는 임의의 유형의 하나 이상의 프로세서를 포함할 수 있다.

데이터 저장 장치(data storage, 1096)는 몇 가지 예만 들면, 플래시 메모리, ROM, RAM을 포함하는 비-일시적 컴퓨터 판독 가능 매체 또는 이러한 매체의 조합의 형태를 취할 수 있지만, 당업자에 의해 적합한 것으로 간주되는 임의의 하나 이상의 유형의 비-일시적 데이터 저장 장치가 사용될 수 있다. 도 10에 도시된 바와 같이, 데이터 저장 장치(1096)는 여기에 기술된 다양한 네트워크-엔티티 기능들의 다양한 조합을 이행하기 위해 프로세서(1094)에 의해 실행 가능한 프로그램 명령어들(1097)을 포함한다.

비록 특징들 및 요소들이 특정 조합으로 설명되었지만, 당업자는 각각의 특징 또는 요소가 단독으로 또는 다른 특징들 및 요소들과 임의의 조합으로 사용될 수 있다는 것을 이해할 것이다. 또한, 여기에 설명된 방법은 컴퓨터 또는 프로세서에 의한 실행을 위해 컴퓨터 판독 가능 매체에 통합된 컴퓨터 프로그램, 소프트웨어 또는 펌웨어로 구현될 수 있다. 컴퓨터 판독 가능 저장 매체의 예는 ROM, RAM, 레지스터, 캐시 메모리, 반도체 메모리 장치, 내부 하드 디스크 및 분리형 디스크와 같은 자기 매체(magnetic media), 광-자기 매체, 및 CD-ROM 디스크 및 DVD와 같은 광학 매체를 포함한다. 소프트웨어와 관련된 프로세서는 WTRU, UE, 단말기, 기지국, RNC 또는 임의의 호스트 컴퓨터에서 사용하기 위한 무선 주파수 트랜시버를 구현하는데 사용될 수 있다.

Claims

방법에 있어서,
휴대용 사용자 장치를 동작시켜 재생 중인 노래를 식별하는 단계 ― 상기 재생 중인 노래를 식별하는 단계는 샘플 오디오 지문(audio fingerprint)을 저장된 오디오 지문들의 데이터베이스와 비교하는 단계를 포함하고, 상기 샘플 오디오 지문은 마이크(microphone)에 의해 검출된 오디오 신호로부터 생성되며, 상기 재생 중인 노래를 식별하는 단계는, 상기 휴대용 사용자 장치와 보조 사용자 장치가 서로 근접해 있는지 여부를 결정하는 단계와, 상기 보조 사용자 장치 상의 제2 마이크에 의해 검출된 제2 오디오 신호로부터 제2 오디오 지문을 생성하는 단계를 더 포함함 ―;
상기 휴대용 사용자 장치를 동작시켜 사용자가 상기 재생 중인 노래의 볼륨을 증가시켰는지 여부를 검출하는 단계;
사용자가 상기 재생 중인 노래의 볼륨을 증가시켰는지 여부에 적어도 부분적으로 기초하여 상기 노래에 대한 청취 메트릭(listening metric)을 결정하는 단계;
상기 노래에 대한 결정된 청취 메트릭에 기초하여 상기 노래에 대한 청취 메트릭 데이터베이스 엔트리를 업데이트하는 단계; 및
상기 노래에 대한 청취 메트릭에 적어도 부분적으로 기초하여 노래 추천(song recommendation)을 생성하는 단계
를 포함하는 방법.
제1항에 있어서, 상기 노래 추천을 생성하는 단계는, 상기 청취 메트릭 데이터베이스에서 가장 높은 총(total) 청취 메트릭을 가지는 노래들 중에서 노래의 재생 리스트를 생성하는 단계를 포함하는, 방법.
제2항에 있어서, 사용자를 위해 상기 재생 리스트를 재생하는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 청취 메트릭 데이터베이스 엔트리는 상기 노래에 대한 총 청취 메트릭이고, 상기 청취 메트릭을 업데이트하는 것은 상기 결정된 청취 메트릭을 상기 총 청취 메트릭에 추가하는 것을 포함하는, 방법.
제1항에 있어서, 상기 휴대용 사용자 장치를 동작시켜 사용자가 상기 재생 중인 노래의 볼륨을 증가시켰는지 여부를 검출하는 단계는, 상기 마이크에 도달하는 상기 노래의 사운드 레벨의 증가를 검출하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 샘플 오디오 지문을 저장된 오디오 지문들의 데이터베이스와 비교하는 단계는,
상기 샘플 오디오 지문과 상기 제2 오디오 지문을 조합하여 조합된 오디오 지문을 생성하는 단계; 및
상기 조합된 오디오 지문을 저장된 오디오 지문들의 데이터베이스와 비교하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 노래는 상기 휴대용 사용자 장치에 의해 재생 중이고, 상기 휴대용 사용자 장치를 동작시켜 사용자가 상기 재생 중인 노래의 볼륨을 증가시켰는지 여부를 검출하는 단계는, 상기 휴대용 사용자 장치 상의 볼륨 버튼과의 사용자의 상호 작용을 검출하는 단계를 포함하는, 방법.
방법에 있어서,
제1 사용자 장치 및 제2 사용자 장치가 서로 근접해 있다고 결정하는 단계;
상기 제1 사용자 장치에 의해 캡처된 제1 오디오 신호에 기초하여 제1 오디오 지문을 결정하는 단계;
상기 제2 사용자 장치에 의해 캡처된 제2 오디오 신호에 기초하여 제2 오디오 지문을 결정하는 단계; 및
상기 제1 오디오 지문 및 상기 제2 오디오 지문에 기초하여 노래를 식별하는 단계
를 포함하고,
상기 제1 오디오 지문 및 상기 제2 오디오 지문에 기초하여 노래를 식별하는 단계는,
상기 제1 오디오 지문과 상기 제2 오디오 지문을 조합하여 조합된 오디오 지문을 생성하는 단계; 및
상기 조합된 오디오 지문에 기초하여 상기 노래를 식별하는 단계를 포함하는 것인, 방법.
삭제
제8항에 있어서, 상기 노래를 식별하는 단계는, 상기 조합된 오디오 지문을 저장된 오디오 지문들의 데이터베이스와 비교하는 단계를 포함하는, 방법.
제8항에 있어서, 상기 제1 오디오 지문을 결정하는 단계는 상기 제1 오디오 신호를 나타내는 데이터를 수신하는 단계와 상기 제1 오디오 신호를 나타내는 데이터로부터 상기 제1 오디오 지문을 생성하는 단계를 포함하는, 방법.
제8항에 있어서, 상기 제1 오디오 지문을 결정하는 단계는 상기 제1 사용자 장치로부터 상기 제1 오디오 지문을 수신하는 단계를 포함하는, 방법.
제8항에 있어서, 상기 노래를 식별하는 정보를 적어도 상기 제1 사용자 장치에 전달(convey)하는 단계를 더 포함하는, 방법.
프로세서를 포함한 장치에 있어서,
상기 프로세서는 적어도,
제1 사용자 장치 및 제2 사용자 장치가 서로 근접해 있다고 결정하는 것;
상기 제1 사용자 장치에 의해 캡처된 제1 오디오 신호에 기초하여 제1 오디오 지문을 결정하는 것;
상기 제2 사용자 장치에 의해 캡처된 제2 오디오 신호에 기초하여 제2 오디오 지문을 결정하는 것; 및
상기 제1 오디오 지문 및 상기 제2 오디오 지문에 기초하여 노래를 식별하는 것
을 수행하도록 구성되고,
상기 제1 오디오 지문 및 상기 제2 오디오 지문에 기초하여 노래를 식별하는 것은,
상기 제1 오디오 지문과 상기 제2 오디오 지문을 조합하여 조합된 오디오 지문을 생성하는 것; 및
상기 조합된 오디오 지문에 기초하여 상기 노래를 식별하는 것을 포함하는 것인, 장치.
삭제
제14항에 있어서, 상기 노래를 식별하는 것은, 상기 조합된 오디오 지문을 저장된 오디오 지문들의 데이터베이스와 비교하는 것을 포함하는, 장치.
제14항에 있어서, 상기 제1 오디오 지문을 결정하는 것은 상기 제1 오디오 신호를 나타내는 데이터를 수신하는 것과 상기 제1 오디오 신호를 나타내는 데이터로부터 상기 제1 오디오 지문을 생성하는 것을 포함하는, 장치.
제14항에 있어서, 상기 제1 오디오 지문을 결정하는 것은 상기 제1 사용자 장치로부터 상기 제1 오디오 지문을 수신하는 것을 포함하는, 장치.
제14항에 있어서, 상기 프로세서는 또한, 상기 노래를 식별하는 정보를 적어도 상기 제1 사용자 장치에 전달하도록 동작하는, 장치.
삭제