KR20210148916A - 오디오 개인화를 지원하기 위한 오디오 트랙 분석 기술 - Google Patents

오디오 개인화를 지원하기 위한 오디오 트랙 분석 기술 Download PDF

Info

Publication number
KR20210148916A
KR20210148916A KR1020210068056A KR20210068056A KR20210148916A KR 20210148916 A KR20210148916 A KR 20210148916A KR 1020210068056 A KR1020210068056 A KR 1020210068056A KR 20210068056 A KR20210068056 A KR 20210068056A KR 20210148916 A KR20210148916 A KR 20210148916A
Authority
KR
South Korea
Prior art keywords
audio
category
track
audio track
user
Prior art date
Application number
KR1020210068056A
Other languages
English (en)
Inventor
오미드 콘사리포우르
Original Assignee
하만인터내셔날인더스트리스인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만인터내셔날인더스트리스인코포레이티드 filed Critical 하만인터내셔날인더스트리스인코포레이티드
Publication of KR20210148916A publication Critical patent/KR20210148916A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다양한 실시 예들은 오디오 개인화를 가능하게 하기 위한 시스템들 및 기술들을 제시한다. 본 기술들은 오디오 카테고리에 대한 오디오 개인화 설정들을 결정하는 단계, 오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계, 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 오디오 트랙의 제1 부분을 선택하는 단계, 사용자에게 오디오 트랙의 제1 부분을 플레이하는 단계, 및 오디오 트랙의 제1 부분을 플레이백할 때 사용자로부터의 입력에 기초하여, 사용자에 대한 개인화 설정을 조정하는 단계를 포함한다.

Description

오디오 개인화를 지원하기 위한 오디오 트랙 분석 기술{TECHNIQUES FOR AUDIO TRACK ANALYSIS TO SUPPORT AUDIO PERSONALIZATION}
본 개시의 실시 예들은 일반적으로 오디오 디바이스들, 보다 구체적으로는 오디오 개인화를 지원하기 위한 오디오 트랙 분석에 관한 것이다.
개인용 엔터테인먼트 디바이스들은 사용자들로 하여금 전자 미디어 및 오디오 컨텐츠를 개인화할 수 있게 하는 모바일 애플리케이션들 및 컴퓨터 소프트웨어를 포함할 수 있다. 이러한 애플리케이션들은 음악, 비디오들, 비디오 게임들, 온라인 광고들, 및/또는 기타와 같은 오디오 컨텐츠를 청취하는 동안 사용자 경험을 향상시키기 위해 사용자들로 하여금 예를 들어, 선호하는 컨텐츠를 선택 및 청취하거나 설정들을 조정할 수 있게 할 수 있다. 이러한 애플리케이션들은 또한 사용자들로 하여금 특정 오디오 품질들을 향상시키거나 명확하게 하기 위해 오디오 컨텐츠를 디지털 방식으로 조작할 수 있게 할 수 있다.
그러나, 소정의 오디오 컨텐츠에 대한 원하는 오디오 경험을 얻기 위해, 사용자는 통상적으로 다양한 애플리케이션들 및/또는 설정들을 수동으로 조정하는데, 이는 지루하고/거나 시간이 많이 걸리고/거나 수고로울 수 있다. 예를 들어, 사용자는 오디오 트랙 내의 미묘한 차이(nuances) 또는 인공음(artifacts)을 더 잘 듣기 위해 그리고/또는 다른 원하는 목적들을 이루기 위해 개인 선호도들에 기초하여 저음(bass) 또는 고음(treble) 레벨들을 높이거나 낮추고/거나 주파수 대역 필터들을 조정하고/거나 압축 또는 등화를 적용할 필요가 있을 수 있다.
또한, 사용자는 오디오 컨텐츠의 상이한 카테고리들을 바꿀 때 애플리케이션 설정들을 개인화하는 것을 어렵게 여길 수 있다. 특히, 오디오 카테고리에 기초하여 오디오 속성들이 달라질 수 있다. 예를 들어, 제1 오디오 카테고리(예를 들어, 로큰롤)에 특정한 오디오 개인화 설정들이 제2 오디오 카테고리(예를 들어, 클래식)로부터의 오디오 컨텐츠에는 적합하지 않을 수 있다. 따라서, 제1 오디오 카테고리에 대한 오디오 개인화 설정들이 제2 오디오 카테고리로부터의 오디오 컨텐츠에 적용될 때, 오디오 개인화 설정값들이 제2 비디오 카테고리로부터의 비디오 컨텐츠에 제대로 매칭되지 않아, 제2 비디오 카테고리로부터의 오디오 컨텐츠에 대한 청취 경험을 떨어트린다. 이에 따라, 사용자는 카테고리들이 바뀔 때마다 오디오 개인화 설정들을 조정할 수 있다. 이는 특히 오디오 컨텐츠를 스트리밍할 때, 종종 원하는 청취 경험을 지속적으로 얻는 데 어려움을 초래한다. 이러한 개인화 문제들 중 일부는 각 오디오 카테고리마다 사용자에 대한 개인화 설정들을 저장함으로써 해결될 수 있다. 이어서 사용자에 대한 개인화 설정들은 대응하는 오디오 카테고리로부터의 오디오 트랙이 사용자에게 플레이백될 때마다 로딩되고 적용될 수 있다.
그러나, 특정 오디오 카테고리를 나타내는 오디오 샘플 - 이에 의해 해당 특정 오디오 카테고리에 대한 개인화 설정들을 초기 구성한다 - 을 선택하는 것은 어렵다. 예를 들어, 사용자는 특정 오디오 카테고리 내의 상당 수의 오디오 컨텐츠에는 익숙할 수 있지만, 자신들의 개인화된 설정들을 생성하기 위한 대표 샘플로서 선택할 특정 오디오 트랙을 쉽게 결정할 수 없을 수 있다. 또한, 통상적으로 하나의 오디오 컨텐츠 내에서도 오디오 속성들이 달라져, 특정 오디오 트랙이 특정 오디오 카테고리를 나타낼 때에도, 특정 오디오 트랙의 모든 부분들이 특정 오디오 카테고리에 대한 개인화 설정들을 구성하는 데 적합한 것은 아닐 수 있다.
결과적으로, 사용자는 통상적으로 지루하고 시간이 많이 걸리며 착오가 발생하기 쉬운 개인화 절차를 거치게 되며, 이는 각 오디오 카테고리로부터의 여러 가지의 오디오 컨텐츠에 대해 종종 최적이 아닌 개인화 설정들 및 뒤떨어지는 청취 경험을 초래하는 개인화 설정들을 구성하는 데 뒤떨어지는 대표 샘플을 선택할 가능성이 높다.
따라서, 사용자들이 사운드 컨텐츠의 상이한 카테고리들에 대한 개인화 설정들을 구성할 때 사용할 오디오 샘플들을 더 잘 선택할 수 있게 하는 기술들이 필요하다.
다양한 실시 예들은 오디오 카테고리에 대한 오디오 개인화 설정들을 결정하기 위한 컴퓨터 구현 방법을 제시한다. 방법은 오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계, 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 오디오 트랙의 제1 부분을 선택하는 단계, 사용자에게 오디오 트랙의 제1 부분을 플레이하는 단계, 및 오디오 트랙의 제1 부분을 플레이백할 때 사용자로부터의 입력에 기초하여, 사용자에 대한 개인화 설정을 조정하는 단계를 포함한다.
추가 실시 예들은 다른 것들 중에서도, 위에서 제시된 방법을 구현하도록 구성된 시스템 및 하나 이상의 컴퓨터 판독 가능한 저장 매체를 제공한다.
종래 기술에 대한 개시된 기술들의 적어도 하나의 기술적 이점은 개시된 기술들이 사용자로 하여금 특정 오디오 카테고리에 대한 각자 선호하는 개인화 설정들을 얻을 수 있게 하는 오디오 특성들의 알맞은 밸런스를 포함하는 대표 오디오 트랙 및 대표 오디오 트랙으로부터의 대표 오디오 샘플을 사용자로 하여금 더 효율적이고 효과적으로 선택할 수 있게 함으로써 개선된 오디오 개인화를 가능하게 한다는 점이다. 개시된 기술들은 사용자에 의한 선택에 기초하여, 특정 오디오 카테고리에 대한 개인화된 설정들을 생성하는 데 사용할 상이한 대표 오디오 트랙을 제안할 수 있다. 또한, 개시된 기술들은 개인화 설정들을 구성하는 데 사용될 수 있는 오디오 특성들의 카테고리 특정 밸런스를 포함하는 오디오 트랙의 일 부분을 생성하기 위한 더 빠르고 계산적으로 효율적인 수단을 사용자들에게 제공한다.
다양한 실시 예들의 위에서 열거된 특징들이 상세하게 이해될 수 있도록, 위에서 간단하게 요약된 발명의 개념들의 보다 구체적인 설명이 다양한 실시 예들을 참조하여 이루어질 수 있으며, 이들 중 일부가 첨부된 도면들에 도시되어 있다. 그러나, 첨부된 도면들은 단지 본 발명의 개념들의 통상적인 실시 예들을 도시하는 것이고 이에 따라 어떠한 방식으로도 범위를 제한하는 것으로 간주되지 않아야 한다는 것, 그리고 다른 동일하게 효율적인 실시 예들이 있다는 것을 유념해야 한다.
도 1은 본 개시의 하나 이상의 양태를 구현하도록 구성된 오디오 개인화 시스템을 도시하는 개략도이다.
도 2는 본 개시의 다양한 실시 예들의 하나 이상의 양태를 구현하도록 구성된 컴퓨팅 시스템의 개념적 블록도이다.
도 3은 본 개시의 다양한 실시 예들에 따른, 오디오 카테고리에 대한 개인화 설정들을 맞춤화하기 위한 방법 단계들의 흐름도이다.
도 4는 본 개시의 다양한 실시 예들에 따른, 오디오 트랙의 플레이백에 오디오 개인화 설정들을 적용하기 위한 방법 단계들의 흐름도이다.
명확성을 위해, 도면들 간에 공통된 동일한 요소들을 지정하는 데 적용 가능할 경우 동일한 참조 부호들이 사용되었다. 일 실시 예의 특징들이 추가 열거 없이 다른 실시 예들에 통합될 수 있는 것으로 고려된다.
다음의 설명에서, 많은 구체적인 세부 사항들이 다양한 실시 예들에 대한 보다 철저한 이해를 제공하기 위해 제시된다. 그러나, 해당 기술분야의 통상의 기술자에게 본 발명의 개념들은 이러한 구체적인 세부 사항들 중 하나 이상 없이도 실시될 수 있다는 것이 분명할 것이다.
도 1은 본 개시의 하나 이상의 양태를 구현하도록 구성된 오디오 개인화 시스템(100)을 도시하는 개략도이다. 오디오 개인화 시스템(100)은 제한 없이, 하나 이상의 오디오 환경(110), 사용자 프로필 데이터베이스(120), 오디오 프로필 데이터 베이스(130), 및 컴퓨팅 디바이스(140)를 포함한다. 오디오 개인화 시스템(100)은 사용자로 하여금 대응하는 오디오 카테고리에 대한 각자 선호하는 개인화 설정들을 얻을 수 있게 하는 대표 오디오 트랙 및 대표 오디오 트랙으로부터의 대표 오디오 샘플을 사용자로 하여금 더 효율적이고 효과적으로 선택할 수 있게 하도록 구성된다. 일부 실시 예들에서, 오디오 개인화 시스템(100)은 사용자로 하여금 복수의 오디오 카테고리들에 대한 개인화 설정들을 맞춤화할 수 있게 하도록 구성된다.
일부 실시 예들에서, 오디오 경험을 할 오디오 컨텐츠는 컴퓨팅 디바이스(140)에 로컬 저장되고, 다른 실시 예들에서, 이러한 오디오 컨텐츠는 클라우드 기반 인프라스트럭처(105)에서 구현되는 스트리밍 서비스(104)에 의해 제공된다. 오디오 컨텐츠는 음악, 비디오, 영화, 비디오 게임, 온라인 광고, 오디오 북, 사운드(신호음, 동물 사운드, 합성 사운드), 팟 캐스트, 스포츠 경기, 또는 음향상으로 들리거나 기록될 수 있는 임의의 다른 컨텐츠를 포함할 수 있다.
클라우드 기반 인프라스트럭처(105)는 분산 컴퓨팅 시스템 및/또는 클라우드 기반 저장 시스템과 같은 임의의 기술적으로 실현 가능한 인터넷 기반 컴퓨팅 시스템일 수 있다. 일부 실시 예들에서, 클라우드 기반 인프라스트럭처(105)는 복수의 네트워크들, 복수의 서버들, 복수의 운영 체제들, 복수의 저장 디바이스들, 및/또는 기타를 포함한다. 서버는 독립형 서버, 서버들의 클러스터 또는 "팜(farm)", 하나 이상의 네트워크 기기, 또는 본 개시의 하나 이상의 양태를 구현하는 데 적합한 임의의 다른 디바이스일 수 있다.
하나 이상의 오디오 환경(110) 각각은 특정 사용자에게 오디오 컨텐츠를 플레이하도록 구성된다. 예를 들어, 오디오 환경들(110)은 제한 없이, 하나 이상의 스마트 디바이스(111), 헤드폰(112), 스마트 스피커(113), 및/또는 기타 입력/출력(I/O)디바이스(119)를 포함할 수 있다.
도 1에 도시된 실시 예들에서, 오디오 환경(110)은 무선 또는 유선 점대점 또는 네트워크 통신 링크들의 임의의 기술적으로 실현 가능한 조합을 통해 컴퓨팅 디바이스(140)로부터 수신되는 오디오 컨텐츠를 플레이한다. 네트워크 통신 링크들은 제한 없이, 블루투스 통신 채널, 무선 및 유선 LAN(Local Area Network), 인터넷 기반 WAN(Wide Area Network), 셀룰러 네트워크, 및/또는 기타를 포함하여, 아닌 원격 또는 로컬 컴퓨터 시스템들 및 컴퓨팅 디바이스들 간의 통신을 가능하게 하는 임의의 적합한 통신 링크들을 포함한다. 결과적으로, 오디오 환경들(110)은 가정 내의 "덤(dumb)" 스피커, 차량 내의 스테레오 시스템, 종래의 헤드폰, 및/또는 기타와 같이, 직접 컴퓨팅 디바이스(140)로부터 오디오 컨텐츠를 수신할 수 있는 임의의 오디오 디바이스를 포함할 수 있다. 나아가, 도 1에 도시된 실시 예에서, 오디오 환경(110)은 내부적으로 오디오 신호 처리를 수행하거나 클라우드 기반 인프라스트럭처(105)에 구현되는 엔티티들로부터 오디오 컨텐츠 또는 다른 정보를 수신할 수 있는 능력에 의존하지 않는다.
스마트 디바이스들(111)은 제한 없이, 개인용 컴퓨터, 개인용 정보 단말기, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 미디어 플레이어, 모바일 디바이스, 또는 본 발명의 하나 이상의 양태를 구현하는 데 적합한 임의의 다른 디바이스일 수 있는 컴퓨팅 디바이스를 포함할 수 있다. 스마트 디바이스들(111)은 제한 없이, 전화 서비스들, 내비게이션 서비스들, 인포테인먼트 서비스들, 및/또는 기타를 포함하여, 다양한 서비스들을 제공함으로써 오디오 개인화 시스템(100)의 기능을 증대시킬 수 있다. 나아가, 스마트 디바이스들(111)은 센서들로부터 데이터를 획득하고 데이터를 오디오 개인화 시스템(100)에 전송할 수 있다. 스마트 디바이스들(111)은 오디오 입력 디바이스를 통해 사운드 데이터를 획득하고 사운드 데이터를 처리를 위해 오디오 개인화 시스템(100)으로 전송할 수 있다. 마찬가지로, 스마트 디바이스들(111)은 오디오 개인화 시스템(100)으로부터 사운드 데이터를 수신하고 오디오 개인화 시스템(100)으로부터 생기는 오디오를 사용자가 들을 수 있도록 사운드 데이터를 오디오 출력 디바이스에 전송할 수 있다.
헤드폰(112)은 오디오 개인화 시스템(100)으로부터 수신되는 하나 이상의 오디오 신호에 기초하여 사운드를 생성할 수 있는 오디오 출력 디바이스 및/또는 대안적인 오디오 디바이스, 이를테면 오디오 개인화 시스템(100)과 연관된 전력 증폭기를 포함할 수 있다. 보다 구체적으로, 오디오 출력 디바이스는 하나 이상의 전기 신호를 음파들로 변환하고 음파들을 물리적 환경으로 지향시킬 수 있다.
스마트 스피커(113)는 주변 환경으로부터 사용자의 음성과 같은 음향 데이터를 획득하고 음향 데이터와 연관된 신호들을 오디오 개인화 시스템(100)에 전송할 수 있는 오디오 입력 디바이스를 포함할 수 있다.
헤드폰(112) 및 스마트 스피커(113) 각각은 하나 이상의 스피커(117), 및 일부 실시 예들에서, 하나 이상의 센서(118)를 포함한다. 스피커(들)(117)는 컴퓨팅 디바이스(140)로부터 수신되는 맞춤형 오디오 신호에 기초하여 사운드 출력을 생성하도록 구성된 오디오 출력 디바이스들이다. 센서(들)(118)는 사용자로부터 생체 데이터(예를 들어, 심박수, 피부 전도도, 및/또는 기타)를 획득하고 생체 데이터와 연관된 신호들을 컴퓨팅 디바이스(140)에 전송하도록 구성된다. 이어서 센서(들)(118)에 의해 획득된 생체 데이터는 컴퓨팅 디바이스(140) 상에서 실행되는 개인화 애플리케이션(145)에 의해 특정 사용자의 하나 이상의 개인 오디오 선호도를 결정하도록 처리될 수 있다. 다양한 실시 예들에서, 센서(들)(118)는 예를 들어 그리고 제한 없이, 카메라, 전극, 마이크로폰, 및/또는 기타를 포함하는 생체 데이터를 획득할 수 있는 임의의 유형의 이미지 센서, 전기 센서, 생체 센서, 및/또는 기타를 포함할 수 있다.
기타 I/O 디바이스들(119)은 제한 없이, 입력 디바이스들, 출력 디바이스들, 및 입력 데이터를 수신하고 출력 데이터를 생성할 수 있는 디바이스들을 포함한다. 기타 I/O 디바이스들(119)은 제한 없이, 스마트 디바이스들(111), 헤드폰(112), 스마트 스피커(113), 스피커들(117), 센서(들)(118), 원격 데이터베이스들, 다른 컴퓨팅 디바이스들, 및/또는 기타로 데이터를 보내고/거나 이로부터 데이터를 수신하는 유선 및/또는 무선 통신 디바이스들을 포함할 수 있다. 또한, 일부 실시 예들에서, 기타 I/O 디바이스들(119)은 푸시투토크(push-to-talk; PTT) 버튼, 이를테면 차량 내에, 모바일 디바이스 상에, 스마트 스피커 상에, 및/또는 기타에 포함되는 PTT 버튼을 포함할 수 있다.
사용자 프로필 데이터베이스(120)는 특정 사용자에 대한 임의의 오디오 환경(110)에서 개인화된 오디오 경험이 생성될 수 있게 하는 사용자 특정 정보를 저장한다. 도시된 바와 같이, 사용자 프로필 데이터베이스(120)는 클라우드 기반 인프라스트럭처(105)에 구현될 수 있고, 이에 따라 컴퓨팅 디바이스(140)가 네트워크 통신 링크에 액세스할 때마다 컴퓨팅 디바이스(140)에 의해 액세스될 수 있다. 일부 실시 예들에서, 특정 사용자와 연관되고 사용자 프로필 데이터베이스(120)에 저장된 정보는 또한 해당 특정 사용자와 연관된 컴퓨팅 디바이스(140)에 로컬로도 저장된다. 이러한 실시 예들에서, 사용자 선호도 프로필(들)(121) 및/또는 개인화 설정(들)(122)이 컴퓨팅 디바이스(140)의 로컬 사용자 프로필 데이터베이스(143)에 저장된다. 사용자 프로필 데이터베이스(120)에 저장되는 사용자 특정은 사용자 선호도 프로필(들)(121) 및 개인화 설정(들)(122) 중 하나 이상을 포함할 수 있다.
사용자 선호도 프로필(들)(121)은 특정 사용자에 대한 개인화된 오디오 경험을 생성하는 데 이용되는 사용자 특정 정보를 포함할 수 있다. 일부 실시 예들에서, 사용자 선호도 프로필(들)(121)은 특정 사용자와 연관된 음향 필터들 및/또는 EQ 커브들을 포함한다. 일부 실시 예들에서, 사용자 선호 프로필(들)(121)은 동적 범위(dynamic range) 압축, 동적 확장, 오디오 제한, 오디오 신호의 공간 처리, 및/또는 기타와 같은 다른 사용자 선호 신호 처리를 포함한다. 일부 실시 예들에서, 사용자 선호도 프로필(들)(121)은 사용자에 의한 선호 청취 설정들의 셋업 동안 선택된 사전 설정된 EQ 커브를 포함할 수 있다. EQ 커브는 사용자에 의한 선호 청취 설정들의 셋업 동안 사용자에 의해 수행되는 한 번 이상의 별개의 진폭 조정을 포함할 수 있다. 사전 설정된 EQ 커브는 주지의 음악가 또는 유명인과 같은 상이한 사용자와 연관될 수 있다. 일부 실시 예들에서, EQ 커브는 특정 사용자에 특정한 헤드 관련 전달 함수(head-related transfer function; HRTF) 정보를 포함할 수 있다.
개인화 설정(들)(122)은 대응하는 오디오 카테고리의 플레이백 동안 특정 사용자에 대한 개인화된 오디오 경험을 생성하는 데 이용되는 정보를 포함할 수 있다. 일부 실시 예들에서, 각 개인화 설정(122)은 특정 오디오 카테고리를 나타내는 하나 이상의 오디오 속성을 갖는 오디오 트랙의 플레이백 동안 사용자에 의해 설정된 설정들에 기초하여 생성될 수 있다. 일부 실시 예들에서, 각 개인화 설정(122)은 오디오 트랙의 일 부분의 플레이백 동안 수신되는 사용자 입력으로부터 결정될 수 있으며, 여기서 오디오 트랙의 해당 부분은 특정 오디오 카테고리를 나타내는 하나 이상의 오디오 속성을 가지는 것이다.
일부 실시 예들에서, 각 특정 오디오 카테고리는 음악 또는 비음악 오디오 컨텐츠의 임의의 분류를 포함할 수 있다. 예를 들어, 오디오 카테고리는 음악 장르들(클래식, 컨트리, 힙합, 락, 및/또는 기타)을 포함할 수 있다. 오디오 카테고리는 또한 비디오, 음악, 비디오 게임, 온라인 광고, 오디오 북, 사운드(신호음, 동물 사운드, 합성 사운드), 팟캐스트, 스포츠 경기, 또는 청각적으로 들리거나 기록될 수 있는 임의의 다른 컨텐츠의 임의의 분류를 포함할 수 있다. 일부 실시 예들에서, 각 특정 오디오 카테고리는 리듬, 하모니, 악기, 조성, 템포, 및/또는 기타와 같은 속성들의 조합에 기초한 임의의 분류를 포함할 수 있다.
일부 실시 예들에서, 특정 사용자에 의해 선택되고 오디오 환경들(110) 중 하나에서 플레이백되는 오디오 컨텐츠는 대응하는 오디오 카테고리로부터의 오디오 트랙의 플레이백 동안 해당 사용자의 개인 청취 선호도들에 적합하도록 수정된다. 대안적으로 또는 추가적으로, 일부 실시 예들에서, 개인화 설정(들)(122)은 대응하는 오디오 카테고리의 플레이백 동안 적용될 다른 사용자 선호 및 카테고리 특정 신호 처리, 이를테면 카테고리 특정 동적 범위 압축, 카테고리 특정 동적 확장, 카테고리 특정 오디오 제한, 카테고리 특정 오디오 신호 공간 처리, 및/또는 기타를 포함한다. 일부 실시 예들에서, 이러한 카테고리 특정 신호 처리는 또한 오디오 컨텐츠가 사용자에 의해 오디오 환경들(110) 중 하나에서 플레이백될 때 오디오 처리 애플리케이션(146)에 의해 오디오 컨텐츠를 수정하는 데 이용될 수 있다.
컴퓨팅 디바이스(140)는 스마트 폰, 전자 태블릿, 랩탑 컴퓨터, 개인용 컴퓨터, 개인용 정보 단말기, 모바일 디바이스, 또는 본 개시의 하나 이상의 양태를 구현하는 데 적합한 임의의 다른 디바이스를 포함하여, 본 명세서에 설명된 본 개시의 적어도 하나의 양태를 구현하도록 구성될 수 있는 임의의 컴퓨팅 디바이스일 수 있다. 일반적으로, 컴퓨팅 디바이스(140)는 제한 없이, 개인화 애플리케이션(145) 및/또는 오디오 처리 애플리케이션(146)과 연관된 명령어들을 포함하는 애플리케이션 프로그램들을 실행할 수 있는 임의의 유형의 디바이스일 수 있다. 일부 실시 예들에서, 컴퓨팅 디바이스(140)는 사용자 선호도 프로필(들)(121) 및/또는 개인화 설정(들)(122) 중 하나 이상을 포함할 수 있는 로컬 사용자 프로필 데이터베이스(143)를 저장하도록 추가 구성된다. 일부 실시 예들에서, 컴퓨팅 디바이스(140)는 오디오 컨텐츠(144), 이를테면 오디오 컨텐츠의 디지털 기록들을 저장하도록 추가 구성된다.
개인화 애플리케이션(145)은 컴퓨팅 디바이스(140)와 사용자 프로필 데이터베이스(120), 오디오 프로필 데이터베이스(130), 및 오디오 환경들(110) 간의 통신을 수행하도록 구성된다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 또한 대응하는 오디오 카테고리로부터의 오디오 트랙의 플레이백 동안 사용자 사운드 선호도 테스트, 셋업 동작, 및/또는 기타를 가능하게 하는 사용자 인터페이스(도시되지 않음)를 사용자에게 제시하도록 구성된다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 사용자 특정 오디오 처리 정보 및 카테고리 특정 오디오 처리 정보에 기초하여 오디오 신호에 대한 맞춤형 오디오 개인화 절차를 생성하도록 추가 구성된다.
오디오 처리 애플리케이션(146)은 초기 오디오 신호를 개인화 애플리케이션(145)에 의해 생성된 맞춤형 오디오 개인화 절차로 처리함으로써 맞춤형 오디오 신호를 동적으로 생성할 수 있다. 예를 들어, 오디오 처리 애플리케이션(146)은 초기 오디오 신호를 특정 오디오 카테고리의 플레이백과 연관된 하나 이상의 적용 가능한 사용자 개인화 설정(122)에 기초하여 수정함으로써 맞춤형 오디오 신호를 생성할 수 있다.
오디오 프로필 데이터베이스(130)는 오디오 컨텐츠의 복수의 카테고리들 각각에 대해 하나 이상의 오디오 메트릭(131)을 저장한다. 특정 오디오 카테고리와 연관된 오디오 메트릭들(131) 각각은 특정 오디오 카테고리들 내에 속하는 오디오 샘플들을 나타낸다. 이러한 하나 이상의 오디오 메트릭(131)은 대응하는 오디오 카테고리들에 대한 개인화 설정들(122)을 설정하는 데 사용되는 대표 오디오 트랙들 및/또는 오디오 샘플들을 선택하는 것을 돕기 위해 개인화 애플리케이션(145)에 의해 사용 가능하다. 도시된 바와 같이, 오디오 프로필 데이터베이스(130)는 클라우드 기반 인프라스트럭처(105)에 구현될 수 있고, 이에 따라 컴퓨팅 디바이스(140)가 네트워크 통신 링크에 액세스할 때마다 컴퓨팅 디바이스(140)에 의해 액세스될 수 있다. 오디오 프로필 데이터베이스(130)는 오디오 메트릭들(131)과 같은 정보를 저장할 수 있다.
일부 실시 예들에서, 오디오 메트릭들(131)은 오디오 카테고리들 각각을 나타내는 오디오 컨텐츠의 분석에 기초하여 생성될 수 있다. 일부 실시 예들에서, 오디오 메트릭들(131)은 동적 속성들, 저음 또는 고음 레벨들, 주파수 스펙트럼들, 에너지, 템포, 및/또는 기타와 같은 하나 이상의 오디오 속성과 연관된 데이터를 포함할 수 있다.
일부 실시 예들에서, 오디오 카테고리들 각각에 대한 오디오 메트릭들(131)을 결정하는 데 사용되는 오디오 샘플들은 오디오 카테고리가 사전 라벨링되고/거나 분류된 오디오 샘플들의 큐레이팅된 컬렉션으로부터 선택될 수 있다. 일부 실시 예들에서, 하나 이상의 오디오 카테고리는 오디오 샘플들의 사전 라벨링 또는 분류들과 일치하는 오디오 샘플들의 다양한 오디오 속성들 간의 하나 이상의 경계를 결정하는 알고리즘을 사용하여 결정될 수 있다. 일부 실시 예들에서, 하나 이상의 경계는 클러스터링 기술(예를 들어, k 평균 클러스터 분석), 기계 학습 기술들, 및/또는 기타를 사용하여 결정될 수 있다.
일부 실시 예들에서, 오디오 메트릭들(131)은 각 오디오 카테고리마다 개별적으로 저장된다. 일부 실시 예들에서, 오디오 메트릭들(131)은 집합 오디오 컨텐츠의 통계적 모델링, 데이터 마이닝, 및/또는 다른 알고리즘 분석에 기초하여 생성될 수 있다. 일부 실시 예들에서, 오디오 메트릭들(131)은 오디오 카테고리들 각각에 대한 오디오 컨텐츠의 하나 이상의 오디오 속성의 평균값들, 표준 편차, 값들의 범위, 중앙값들, 및/또는 기타와 같은 하나 이상의 통계적 속성을 포함할 수 있다. 비제한적인 예로서, 오디오 메트릭들(131)은 오디오 카테고리들 각각에 대한 사전 정의된 주파수 대역들 각각에서의 통상적인 스펙트럼 에너지량을 나타내는 사전 정의된 일련의 주파수 대역들 각각에서의 스펙트럼 에너지의 평균 및 표준 편차를 포함할 수 있다. 다른 비제한적인 예로서, 오디오 메트릭들(131)은 연속적인 템포 펄스 신호들, 에너지 플럭스, 에너지 스파이크들, 다운비트 위치들, 및/또는 기타 간의 시간적 간격들의 평균 및 표준 편차를 포함할 수 있다. 일부 실시 예들에서, 오디오 메트릭들(131)은 템포 펄스 신호들, 에너지 플럭스, 에너지 스파이크들, 다운비트 위치들, 및/또는 기타의 주파수의 평균 및 표준 편차를 포함할 수 있다. 일부 실시 예들에서, 오디오 메트릭들(131)은 사전 결정된 시간 기간 동안 템포 펄스 신호들, 에너지 플럭스, 에너지 스파이크들, 다운비트 위치들, 및/또는 기타의 수의 평균 및 표준 편차를 포함할 수 있다.
일부 실시 예들에서, 오디오 메트릭들(131)은 각 오디오 카테고리와 연관된 허용 오차 영역(tolerance window)을 포함할 수 있다. 허용 오차 영역은 대응하는 오디오 카테고리에 대한 오디오 컨텐츠의 하나 이상의 오디오 속성에 대한 사전 결정된 범위의 기댓값들일 수 있다. 일부 실시 예들에서, 허용 오차 영역은 하나 이상의 오디오 속성에 대한 편차에 대한 한계들을 포함할 수 있다.
일부 실시 예들에서, 오디오 메트릭들은 오디오 샘플이 대응하는 오디오 카테고리와 얼마나 잘 매칭되는지와 연관될 복합 또는 집합 오디오 메트릭의 계산에서 오디오 속성들 각각에 할당될 상대적 또는 절대적 가중치 또는 스코어를 포함할 수 있다. 일부 실시 예들에서, 집합 오디오 메트릭은 대응하는 오디오 카테고리에 대한 선호하는 개인화 설정들을 구성하는 데 사용 가능한 오디오 속성들의 밸런스와 연관될 수 있다.
일부 실시 예들에서, 오디오 메트릭들(131)은 사용자에 의해 오디오 카테고리에 대한 개인화 설정들(122)을 맞춤화하는 데 사용될 대표 오디오 트랙 및 대표 오디오 샘플을 선택하는 데 있어서 사용자를 돕기 위해 개인화 애플리케이션(145)에 의해 사용될 수 있다. 일부 실시 예들에서, 사용자는 사용자에 대한 개인화 설정들(122)을 설정할 때 사용할 가능한 후보 오디오 트랙으로서 오디오 트랙의 전체 길이, 오디오 트랙의 일 부분, 또는 하나 이상의 오디오 트랙의 하나 이상의 부분의 집합, 및/또는 기타를 선택할 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙의 오디오 속성들을 선택된 오디오 트랙과 연관된 오디오 카테고리의 오디오 메트릭들(131)과 비교한다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 사용자에 의해 선택된 오디오 트랙과 연관된 분류 데이터 및/또는 다른 메타 데이터(예를 들어, 장르, 하위 장르, 아티스트, 제목, 및/또는 기타) 및/또는 오디오 카테고리의 식별 정보로부터 결정될 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 연관된 오디오 카테고리를 결정하기 위해 하나 이상의 온라인 데이터베이스에 대해 분류 데이터 및/또는 다른 메타 데이터의 실시간 검색을 수행할 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙에서의 하나 이상의 악기를 식별하고 하나 이상의 오디오 패턴 매칭 기술을 수행하여 대응하는 오디오 카테고리를 결정할 수 있다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 선택된 오디오 트랙의 하나 이상의 오디오 속성 이를테면 동적 속성들, 저음 또는 고음 레벨들, 주파수 스펙트럼들, 에너지, 템포, 및/또는 기타를 결정한다. 일부 실시 예들에서, 오디오 트랙의 에너지는 다양한 주파수 부대역들에서의 진폭(dB 레벨)을 포함한다. 일부 실시 예들에서, 오디오 트랙의 주파수 범위는 주파수 부대역들로 분할될 수 있다. 일부 실시 예들에서, 부대역들은 사전 결정된 주파수 범위들과 연관된다. 일부 실시 예들에서, 부대역들 각각에서의 스펙트럼 에너지에 대응하는 부대역 계수들은 MDCT(modified discrete cosine transform), FFT(fast Fourier transform) 및 QMF(quadrature mirror filter banks), CQMF(conjugated quadrature mirror filter banks), 및/또는 기타와 같은 시간 주파수 도메인 변환 기술들을 사용하여 결정될 수 있다.
일부 실시 예들에서, 템포는 마딧줄(bar line) 검출 기술들 이를테면 에너지 플럭스와의 임펄스 신호 상관, 반복적인 에너지 스파이크들, 다운비트 위치들, 및/또는 기타를 찾는 것을 사용하여 결정될 수 있다. 일부 실시 예들에서, 템포는 에너지 스파이크들, 다운비트 위치들, 및/또는 기타 간의 평균 지속 기간으로서 결정될 수 있다. 일부 실시 예들에서, 템포는 에너지 스파이크들, 다운비트 위치들, 및/또는 기타의 평균 주파수로서 결정될 수 있다. 일부 실시 예들에서, 템포는 사전 결정된 시간 기간 동안 발생한 에너지 스파이크들, 다운비트 위치들, 및/또는 기타의 수의 카운트로서 결정될 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 STFT(Short time Fourier transforms) 및/또는 기타와 같은 기술들을 사용하여 에너지 플럭스를 결정한다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 선택된 오디오 트랙의 오디오 속성들을 대응하는 오디오 카테고리와 연관된 하나 이상의 오디오 메트릭(131)과 비교함으로써 선택된 오디오 트랙이 대응하는 오디오 카테고리를 나타내는지 여부를 결정한다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙의 오디오 속성들을 대응하는 오디오 카테고리와 연관된 통계적 속성들 및/또는 허용 오차 영역들 중 하나 이상의 조합과 비교한다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 선택된 오디오 트랙의 오디오 속성들의 전부 또는 사전 결정된 퍼센티지(예를 들어, 90 퍼센트, 80 퍼센트, 75 퍼센트, 및/또는 기타)이 오디오 메트릭들(131)에서의 각 오디오 속성에 대한 대응하는 범위들 내에 있는지 여부를 결정한다. 일부 실시 예들에서, 범위들은 각 오디오 메트릭(131)에 대한 대응하는 평균으로부터의 사전 결정된 수의 표준 편차들, 각 오디오 메트릭(131)에 대한 허용 오차 영역, 및/또는 기타에 기초하여 결정된다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 속성들과 대응하는 오디오 카테고리의 대응하는 오디오 메트릭들(131) 간의 총 차이가 임계 차이 미만인지 여부를 결정한다. 일부 실시 예들에서, 오디오 속성과 대응하는 오디오 메트릭(131) 간의 차이는 오디오 속성이 대응하는 오디오 메트릭(131)에 대한 평균과 얼마나 많이 차이가 나는지에 기초한다. 일부 실시 예들에서, 이 차이는 오디오 속성의 표준 편차들이 대응하는 오디오 메트릭의 평균으로부터 얼만큼인지를 나타내는 z 스코어를 결정함으로써 측정된다. 일부 실시 예들에서, 오디오 속성들과 대응하는 오디오 메트릭들(131) 간의 차이들은 거리 함수(예를 들어, 유클리디안 거리), 가중합, 및/또는 기타를 사용하여 합쳐질 수 있다. 일부 실시 예들에서, 가중합에서 사용되는 가중치들은 대응하는 카테고리와 연관된 개인화 설정들을 결정하는 데 있어서 다른 오디오 속성들에 대한 오디오 속성의 중요도를 나타내는 각 오디오 속성에 할당된 가중치 또는 스코어에 대응할 수 있다.
일부 실시 예들에서, 개인화 애플리케이션(145)이 하나 이상의 오디오 속성이 하나 이상의 오디오 메트릭을 충족하지 않는다고 결정할 때, 개인화 애플리케이션(145)은 대체 오디오 트랙을 제안할 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 메트릭들(131)에 사용되는 오디오 샘플들의 큐레이팅된 라이브러리로부터의 오디오 샘플들 중 하나 이상, 스트리밍 서비스(104)를 통해 플레이되는 오디오 콘텐츠, 오디오 콘텐츠(144), 웹 기반 프로그램, 컴퓨팅 디바이스(140) 상에 로컬 저장된 프로그램, 플레이리스트, 및/또는 기타로부터 오디오 트랙을 선택한다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 대응하는 오디오 카테고리의 오디오 속성들과 유사한 오디오 속성들을 갖는 오디오 샘플을 제안한다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 대응하는 오디오 카테고리에 대한 대체 오디오 트랙의 제안을 동적으로 생성할 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 메트릭들(131)에 사용되는 오디오 샘플들의 큐레이팅된 라이브러리에서의 오디오 샘플들 중 하나 이상을 분석하는 것에 기초하여 대응하는 오디오 카테고리를 나타내는 오디오 트랙을 제안할 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 대응하는 오디오 카테고리의 오디오 속성들과 유사한 오디오 속성들을 갖는 복수의 오디오 트랙들을 분석함으로써 대체 오디오 트랙의 제안을 동적으로 생성한다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 대응하는 오디오 카테고리의 하나 이상의 오디오 메트릭(131)에 대한 하나 이상의 오디오 샘플의 하나 이상의 오디오 속성의 동적 분석에 기초하여 상이한 대표 트랙을 자동으로 선택하도록 사전 구성된 알고리즘을 사용한다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 관련된 오디오 카테고리에서 사용자에 의한 대표 트랙들의 선택에 대한 이력 데이터, 오디오 카테고리에 대한 대표 오디오 트랙들에 대한 데이터, 유사한 사용자들에 의해 선택된 하나 이상의 대표 트랙을 나타내는 인구 통계학적 데이터(demographic data), 및/또는 기타에 기초하여 상이한 오디오 트랙을 제안할 수 있다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 대응하는 오디오 카테고리를 나타내는 오디오 트랙의 부분을 결정하기 위해 오디오 트랙의 하나 이상의 부분의 오디오 속성들을 하나 이상의 오디오 메트릭(131)과 비교한다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 선택된 오디오 트랙을 하나 이상의 프레임으로 분할한다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙의 하나 이상의 부분의 오디오 속성들을 대응하는 오디오 카테고리와 연관된 통계적 속성들 및/또는 허용 오차 영역들 중 하나 이상의 조합과 비교한다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 선택된 오디오 트랙이 대응하는 오디오 카테고리를 나타내는지 여부를 결정하는 것에 대해 위에서 설명된 기술들과 유사한 기술들을 사용하여 대응하는 오디오 카테고리의 가장 대표적인 오디오 트랙의 부분을 결정한다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙의 부분에 기초하여 오디오 샘플을 생성한다. 일부 실시 예들에서, 오디오 샘플은 오디오 트랙의 부분으로부터 생성되는 오디오 컨텐츠의 사전 정의된 길이를 포함할 수 있다. 예를 들어, 오디오 샘플은 오디오 트랙의 부분으로부터 선택되는 15-25초 샘플일 수 있다. 일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙의 부분으로부터 오디오 샘플을 사전 선택하거나 사용자 입력에 기초하여 오디오 샘플을 생성한다. 일부 실시 예들에서, 오디오 샘플은 오디오 트랙의 부분으로부터 생성되는 반복 루프이다. 일부 실시 예들에서, 오디오 샘플은 오디오 트랙의 부분의 다수의 반복들을 포함한다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 트랙의 부분의 반복들을 함께 오디오 샘플로 끊김없이 편집함으로써 오디오 샘플을 생성한다. 일부 실시 예들에서, 개인화 애플리케이션은 오디오 트랙의 부분의 제1 반복의 끝과 오디오 트랙의 제2 반복의 시작 간에 템포의 불연속성이 생성되지 않도록 오디오 트랙의 부분의 길이를 단축 또는 연장시킨다. 일부 실시 예들에서, 단축 또는 연장은 제1 반복에서의 마지막 템포 펄스 신호, 에너지 스파이크, 다운비트 위치, 및/또는 기타와 제2 반복에서의 처음 템포 펄스 신호, 에너지 스파이크, 다운비트 위치, 및/또는 기타 간의 시간 지속 기간이 오디오 트랙의 부분에 대한 전체 템포와 일치하도록 선택된다. 일부 실시 예들에서, 오디오 트랙의 다수의 부분들이 오디오 샘플을 생성하기 위해 함께 조합될 때 유사한 기술이 사용될 수 있다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 샘플의 하나 이상의 오디오 속성의 동적 분석에 기초하여 오디오 샘플의 하나 이상의 특정 섹션을 연속적으로 플레이백한다. 일부 실시 예들에서, 오디오 샘플의 플레이백은 오디오 샘플의 오디오 속성들을 대응하는 오디오 카테고리와 연관된 하나 이상의 오디오 메트릭(131)과 비교하는 것에 기초한다. 일부 실시 예들에서, 오디오 샘플의 플레이백은 사용자의 포커스를 대응하는 오디오 카테고리에 대한 하나 이상의 오디오 메트릭(131)에 대한 가장 작은 총 차이를 갖는 오디오 샘플의 하나 이상의 특정 섹션으로 바꾼다.
일부 실시 예들에서, 개인화 애플리케이션(145)은 오디오 샘플을 플레이백할 때 사용자 입력에 기초하여 사용자에 대한 하나 이상의 개인화 설정을 조정할 수 있다. 일부 실시 예들에서, 사용자는 저음 또는 고음 레벨들을 높이거나 낮추고/거나, 주파수 대역 필터들을 조정하고/거나, 압축 또는 등화를 적용하고/거나, 별개의 진폭 조정들을 수행하고/거나, 사전 설정된 음향 필터들을 선택 또는 수정하고/거나, 오디오 카테고리에 대한 선호 신호 처리(이를테면 동적 범위 압축, 동적 확장, 오디오 제한, 오디오 신호의 공간 처리)를 선택하고/거나, 기타를 행할 수 있다. 일부 실시 예들에서, 사용자는 관련된 오디오 카테고리에 대한 이력 개인화 설정들을 시작점으로서 선택하고 오디오 샘플의 플레이백 동안 개인화 설정들을 업데이트할 수 있다.
일부 실시 예들에서, 이어서 개인화 애플리케이션(145)은 오디오 카테고리에 대한 하나 이상의 개인화 설정을 저장한다. 일부 실시 예들에서, 개인화 설정들은 사용자 프로필 데이터베이스(120)에서의 개인화 설정들(122)에 저장된다.
일부 실시 예들에서, 오디오 처리 애플리케이션(146)은 오디오 트랙의 플레이백에 개인화 설정들을 적용할 수 있다. 일부 실시 예들에서, 사용자는 오디오 트랙의 전체 길이, 오디오 트랙의 부분, 또는 하나 이상의 오디오 트랙의 하나 이상의 부분의 집합, 및/또는 기타를 선택할 수 있다. 일부 실시 예들에서, 오디오 처리 애플리케이션(146)은 개인화 애플리케이션(145)에 대해 위에서 설명된 기술들과 유사한 기술들을 사용함으로써 오디오 트랙의 오디오 카테고리를 결정할 수 있다. 일부 실시 예들에서, 오디오 처리 애플리케이션(146)은 선택된 오디오 트랙과 연관된 분류 데이터 및/또는 다른 메타 데이터로부터, 사용자 입력으로부터, 그리고/또는 기타로부터 선택된 오디오 트랙에 대한 오디오 카테고리를 결정한다.
일부 실시 예들에서, 오디오 처리 애플리케이션(146)은 특정 오디오 카테고리에 개인화 설정들이 이용 가능한지 여부를 결정한다. 일부 실시 예들에서, 오디오 처리 애플리케이션(146)이 특정 오디오 카테고리에 개인화 설정들이 이용 가능하지 않다고 결정하는 경우, 오디오 처리 애플리케이션(146)은 개인화 애플리케이션(145)을 사용하여 개인화 설정들을 생성하기 위한 옵션을 제공한다. 일부 실시 예들에서, 오디오 처리 애플리케이션(146)이 오디오 카테고리에 개인화 설정들이 이용 가능하다고 결정하는 경우, 오디오 처리 애플리케이션(146)은 오디오 카테고리에 대한 개인화 설정들을 로딩한다. 일부 실시 예들에서, 오디오 처리 애플리케이션(146)은 사용자 프로필 데이터베이스(120)에서의 저장된 개인화 설정들(122)로부터 오디오 카테고리에 대한 개인화 설정들을 로딩한다. 일부 실시 예들에서, 오디오 처리 애플리케이션(146)은 오디오 트랙의 플레이백에 개인화 설정들을 적용한다.
도 2는 다양한 실시 예들의 하나 이상의 양태를 구현하도록 구성된 컴퓨팅 디바이스(200)의 개념적 블록도이다. 일부 실시 예들에서, 컴퓨팅 디바이스(200)는 컴퓨팅 디바이스(140)와 일치한다. 컴퓨팅 디바이스(200)는 제한 없이, 개인화 애플리케이션(145), 오디오 처리 애플리케이션(146), 및/또는 기타와 연관된 명령어들을 포함하는 애플리케이션 프로그램들을 실행할 수 있는 임의의 유형의 디바이스일 수 있다. 예를 들어, 그리고 제한 없이, 컴퓨팅 디바이스(200)는 전자 태블릿, 스마트 폰, 랩탑 컴퓨터, 차량에 통합된 인포테인먼트 시스템, 홈 엔터테인먼트 시스템, 및/또는 기타일 수 있다. 대안적으로, 컴퓨팅 디바이스(200)는 마이크로 처리기와 같은 독립형 칩으로서, 또는 주문형 반도체(application-specific integrated circuit; ASIC), 시스템 온 칩(system-on-a-chip; SoC) 등으로서 구현되는 보다 포괄적인 솔루션의 일부로서 구현될 수 있다. 본 명세서에서 설명된 컴퓨팅 시스템은 예시적인 것이고 임의의 다른 기술적으로 실현 가능한 구성들이 본 발명의 범위 내에 속한다는 점에 유념한다.
도시된 바와 같이, 컴퓨팅 디바이스(200)는 제한 없이, 처리기(250), 도 1의 오디오 환경(110)에 결합되는 입력/출력(I/O) 디바이스 인터페이스(260), 메모리(210), 저장 장치(230), 및 네트워크 인터페이스(270)를 연결하는 인터커넥트(버스)(240)를 포함한다. 처리기(250)는 중앙 처리 장치(central processing unit; CPU), 주문형 반도체(application-specific integrated circuit; ASIC), 현장 프로그래밍 가능한 게이트 어레이(field programmable gate array; FPGA), 임의의 다른 유형의 처리 장치, 또는 상이한 처리 장치들의 조합, 이를테면 디지털 신호 처리기(digital signal processor; DSP)와 함께 동작하도록 구성된 CPU로서 구현되는 임의의 적합한 처리기일 수 있다. 예를 들어, 일부 실시 예들에서, 처리기(250)는 CPU 및 DSP를 포함한다. 일반적으로, 처리기(250)는 본 명세서에서 설명되는 바와 같이, 컴퓨팅 디바이스(200)의 동작을 가능하게 하기 위해 데이터를 처리하고/거나 명령어들을 실행할 수 있는 임의의 기술적으로 실현 가능한 하드웨어 장치일 수 있다. 나아가, 본 개시와 관련하여, 컴퓨팅 디바이스(200)에 제시되는 컴퓨팅 요소들은 물리적 컴퓨팅 시스템(예를 들어, 데이터 센터에서의 시스템)에 대응할 수 있거나 컴퓨팅 클라우드 내에서 실행되는 가상 컴퓨팅 인스턴스일 수 있다.
I/O 디바이스 인터페이스(260)는 처리기(250)와 도 1의 오디오 환경(110)의 통신을 가능하게 한다. I/O 디바이스 인터페이스(260)는 일반적으로 처리기(250)에 의해 생성되는 오디오 환경(110)에 대응하는 어드레스들을 해석하기 위한 필수 로직을 포함한다. I/O 디바이스 인터페이스(260)는 또한 처리기(250)와 오디오 환경(110) 간의 핸드셰이킹(handshaking)을 구현하고/하거나, 오디오 환경(110)과 연관된 인터럽트들을 생성하도록 구성될 수 있다. I/O 디바이스 인터페이스(260)는 임의의 기술적으로 실현 가능한 CPU, ASIC, FPGA, 임의의 다른 유형의 처리 장치 또는 디바이스로서 구현될 수 있다.
네트워크 인터페이스(270)는 처리기(250)를 통신 네트워크(205)에 연결하는 컴퓨터 하드웨어 구성요소이다. 네트워크 인터페이스(270)는 독립형 카드, 처리기, 또는 다른 하드웨어 디바이스로서 컴퓨팅 디바이스(200)에 구현될 수 있다. 일부 실시 예들에서, 네트워크 인터페이스(270)는 셀룰러 통신 능력, 위성 전화 통신 능력, 무선 WAN 통신 능력, 또는 통신 네트워크(205) 및 컴퓨팅 디바이스(200) 외부의 다른 컴퓨팅 디바이스들과의 통신을 가능하게 하는 다른 유형들의 통신 능력들로 구성될 수 있다.
메모리(210)는 랜덤 액세스 메모리(random access memory; RAM) 모듈, 플래시 메모리 장치, 또는 임의의 다른 유형의 메모리 장치 또는 이들의 조합을 포함할 수 있다. 처리기(250), I/O 디바이스 인터페이스(260), 및 네트워크 인터페이스(270)는 메모리(210)로부터 데이터를 판독하고 이에 데이터를 기록하도록 구성된다. 메모리(210)는 처리기(250)에 의해 실행될 수 있는 다양한 소프트웨어 프로그램들 및 개인화 애플리케이션(145), 오디오 처리 애플리케이션(146), 및/또는 기타를 포함하여, 상기한 소프트웨어 프로그램들과 연관된 애플리케이션 데이터를 포함한다.
저장 장치(230)는 비일시적인 컴퓨터 판독 가능한 매체, 이를테면 비휘발성 저장 디바이스를 포함할 수 있다. 일부 실시 예들에서, 저장 장치(230)는 로컬 사용자 프로필 데이터베이스(143)를 포함한다.
도 3은 본 개시의 다양한 실시 예들에 따른, 오디오 카테고리에 대한 개인화 설정들을 맞춤화하기 위한 방법 단계들의 흐름도이다. 방법 단계들이 도 1의 시스템에 대하여 설명되지만, 해당 기술분야의 통상의 기술자는 방법 단계들을 임의의 순서로 수행하도록 구성된 임의의 시스템이 다양한 실시 예들의 범위 내에 속한다는 것을 이해할 것이다. 일부 실시 예들에서, 도 3의 방법의 단계들 중 일부 또는 전부는 개인화 애플리케이션(145)에 의해 수행될 수 있다.
도시된 바와 같이, 방법(300)은 사용자가 오디오 트랙을 선택하는 단계(301)로 시작된다. 일부 실시 예들에서, 사용자는 오디오 트랙의 전체 길이, 오디오 트랙의 부분, 또는 하나 이상의 오디오 트랙의 하나 이상의 부분의 집합, 및/또는 기타를 선택할 수 있다. 일부 실시 예들에서, 사용자는 스트리밍 서비스(104)를 통해 플레이되는 오디오 컨텐츠로부터 또는 컴퓨팅 디바이스(140) 상에 로컬 저장된 오디오 컨텐츠(144)로부터 오디오 트랙을 선택할 수 있다. 일부 실시 예들에서, 사용자는 웹 기반 프로그램 또는 컴퓨팅 디바이스(140) 상에 로컬 저장된 프로그램을 사용하여 오디오 트랙을 선택할 수 있다. 일부 실시 예들에서, 오디오 트랙은 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 선택될 수 있다. 예를 들어, 오디오 트랙은 사용자 음성 선택, 오디오 트랙의 선택과 연관된 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타를 센서가 캡처하는 것에 기초하여 선택될 수 있다. 일부 실시 예들에서, 오디오 트랙은 플레이리스트로부터 선택될 수 있다.
단계 302에서, 오디오 트랙의 오디오 속성들이 결정된다. 일부 실시 예들에서, 선택된 오디오 트랙의 하나 이상의 오디오 속성, 이를테면 동적 속성들, 저음 또는 고음 레벨들, 주파수 스펙트럼들, 에너지, 템포, 및/또는 기타가 결정된다. 일부 실시 예들에서, 오디오 트랙의 주파수 범위는 주파수 부대역들로 분할될 수 있다. 일부 실시 예들에서, 도 1에서의 개인화 애플리케이션(145)에 대해 위에서 설명된 기술들과 유사한 주파수 도메인 기술들이 부대역들 각각에서의 스펙트럼 에너지에 대응하는 부대역 계수들을 결정하는 데 사용된다.
단계(303)에서, 오디오 트랙의 오디오 카테고리가 결정된다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 선택된 오디오 트랙과 연관된 분류 데이터 및/또는 다른 메타 데이터로부터 결정될 수 있다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 하나 이상의 온라인 데이터베이스에 대해 분류 데이터 및/또는 다른 메타 데이터의 실시간 검색을 수행함으로써 결정될 수 있다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 오디오 트랙에서의 하나 이상의 악기를 식별하고 하나 이상의 오디오 패턴 매칭 기술들을 수행함으로써 결정될 수 있다.
일부 실시 예들에서, 오디오 카테고리는 사용자 선택에 기초하여 결정된다. 일부 실시 예들에서, 오디오 카테고리는 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 선택될 수 있다. 예를 들어, 오디오 카테고리는 센서(들)(118)가 오디오 카테고리 선택을 식별해주는 음성 커맨드, 오디오 카테고리의 선택을 식별해주는 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타를 캡처하는 것에 기초하여 선택될 수 있다.
단계(304)에서, 오디오 트랙의 오디오 속성들이 선택된 오디오 트랙이 대응하는 오디오 카테고리를 나타내는지 여부를 결정하기 위해 오디오 카테고리에 대한 하나 이상의 오디오 메트릭(131)과 비교된다. 일부 실시 예들에서, 오디오 트랙의 오디오 속성들은 대응하는 오디오 카테고리와 연관된 통계적 속성들 및/또는 허용 오차 영역들 중 하나 이상의 조합과 비교된다.
일부 실시 예들에서, 오디오 트랙의 오디오 속성들은 오디오 속성들의 몇 퍼센티지가 대응하는 범위들 내에 있는지, 대응하는 평균으로부터의 사전 결정된 수의 표준 편차들 내에 있는지, 대응하는 오디오 메트릭들(131)에 대한 허용 오차 영역 내에 있는지, 및/또는 기타를 결정하기 위해 대응하는 오디오 메트릭들(131)에 대한 범위들 또는 평균과 비교된다. 일부 실시 예들에서, 오디오 트랙의 오디오 속성들과 대응하는 오디오 메트릭들(131) 간의 총 차이가 임계 차이와 비교된다. 일부 실시 예들에서, 총 차이는 거리 함수(예를 들어, 유클리디안 거리), 가중합, 및/또는 기타에 기초한다. 일부 실시 예들에서, 오디오 속성들과 대응하는 대응하는 오디오 메트릭들(131) 간의 차이는 대응하는 오디오 메트릭(131)에 대한 평균으로부터 측정되거나 오디오 속성의 표준 편차들이 대응하는 오디오 메트릭의 평균으로부터 얼만큼인지를 나타내는 z 스코어를 결정함으로써 측정된다.
오디오 속성들이 대응하는 오디오 카테고리에 대한 오디오 메트릭들(131)과 일치하지 않을 때(예를 들어, 너무 많은 오디오 속성들이 대응하는 범위들 밖에 있고/있거나 총 거리 임계 거리를 초과할 때), 단계(305)에서 대체 오디오 트랙이 제안된다. 오디오 속성들이 오디오 트랙의 오디오 카테고리에 대한 오디오 메트릭들(131)과 일치할 때, 단계(306)로 시작하여 선택된 오디오 트랙이 추가 처리된다.
단계(305)에서, 대체 오디오 트랙이 제안된다. 일부 실시 예들에서, 관련된 오디오 카테고리에서의 대표 트랙들의 사용자에 의한 선택에 대한 이력 데이터, 오디오 카테고리에 대한 대표 오디오 트랙들에 대한 데이터, 유사한 사용자들에 의해 선택된 하나 이상의 대표 트랙을 나타내는 인구 통계학적 데이터, 및/또는 기타에 기초하여 상이한 오디오 트랙이 제안된다. 이어서 사용자로 하여금 또 다른 오디오 트랙을 선택할 수 있게 하여 또 다른 오디오 트랙이 오디오 카테고리와 일치하는지 여부를 결정하기 위해 단계들(301-304)이 반복된다.
단계(306)에서, 오디오 카테고리를 나타내는 오디오 트랙의 일 부분이 선택된다. 일부 실시 예들에서, 오디오 트랙은 하나 이상의 프레임 또는 세그먼트로 분할된다. 일부 실시 예들에서, 프레임들 및/또는 세그먼트들 중의 어느 프레임 및/또는 세그먼트가 단계(303)동안 결정된 오디오 카테고리를 가장 잘 나타내는지를 결정하기 위해 단계(304)에서 사용된 기술들과 유사한 기술들이 사용된다. 이어서 가장 대표적인 프레임 또는 세그먼트가 오디오 트랙의 부분으로서 선택된다. 일부 실시 예들에서, 오디오 카테고리에 대한 하나 이상의 오디오 메트릭(131)에 대해 가장 작은 총 차이를 갖는 프레임 및/또는 세그먼트가 오디오 트랙의 부분으로서 선택된다.
단계(307)에서, 오디오 샘플이 오디오 트랙의 부분에 기초하여 생성된다. 일부 실시 예들에서, 오디오 샘플은 오디오 트랙의 부분으로부터 생성되는 오디오 컨텐츠의 사전 정의된 길이(예를 들어, 15-25초 샘플)를 포함할 수 있다. 일부 실시 예들에서, 오디오 샘플은 오디오 트랙의 부분으로부터 생성되는 반복 루프이다. 일부 실시 예들에서, 오디오 샘플은 제1 오디오 트랙의 제1 부분의 다수의 반복들을 포함한다. 일부 실시 예들에서, 오디오 샘플은 오디오 트랙의 제1 부분의 임의의 두 개의 반복들 간에 템포의 불연속성이 생성되지 않도록 오디오 트랙의 부분의 반복들을 함께 오디오 샘플로 끊김없이 편집함으로써 생성된다.
단계(308)에서, 오디오 샘플이 사용자에게 플레이백된다. 오디오 샘플은 제한 없이, 하나 이상의 스마트 디바이스(111), 헤드폰(112), 스마트 스피커(113), 및 기타 입력/출력(I/O)디바이스들(119)을 포함하는 오디오 환경(110)에서의 임의의 디바이스들을 사용하여 플레이백될 수 있다. 일부 실시 예들에서, 오디오 샘플은 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 플레이백될 수 있다. 예를 들어, 오디오 샘플은 센서가 사용자 음성 플레이 커맨드, 오디오 샘플의 플레이백의 개시와 연관된 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타를 캡처하는 것에 기초하여 플레이백될 수 있다.
단계 309에서, 오디오 샘플을 플레이백할 때 사용자 입력에 기초하여 사용자에 대한 하나 이상의 개인화 설정이 조정된다. 일부 실시 예들에서, 사용자는 저음 또는 고음 레벨들을 높이거나 낮추고/거나, 주파수 대역 필터들을 조정하고/거나, 압축 또는 등화를 적용하고/거나, 별개의 진폭 조정들을 수행하고/거나, 사전 설정된 음향 필터들을 선택 또는 수정하고/거나, 오디오 카테고리에 대한 선호 신호 처리(이를테면 동적 범위 압축, 동적 확장, 오디오 제한, 오디오 신호의 공간 처리)를 선택하고/거나, 기타를 행할 수 있다. 일부 실시 예들에서, 사용자는 관련된 오디오 카테고리에 대한 이력 개인화 설정들을 시작점으로서 선택하고 오디오 샘플의 플레이백 동안 개인화 설정들을 업데이트할 수 있다.
일부 실시 예들에서, 개인화 설정(들)은 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 조정된다. 예를 들어, 개인화 설정(들)은 센서가 설정을 올리거나 낮추거나 선택하거나 수정하거나 또는 조정하기 위한 사용자 음성 커맨드를 캡처하는 것에 기초하여 조정될 수 있다. 일부 실시 예들에서, 개인화 설정(들)은 센서가 설정의 조정과 연관된 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타에 기초하여 조정될 수 있다.
단계(310)에서, 오디오 카테고리에 대한 개인화 설정(들)이 저장된다. 일부 실시 예들에서, 사용자는 개인화 설정(들)을 새로운 개인화 설정(들)으로서 저장하거나 오디오 컨텐츠의 하나 이상의 관련된 카테고리에 대한 이전에 저장된 개인화 설정(들)을 업데이트할 수 있다. 일부 실시 예들에서, 개인화 설정(들)은 오디오 카테고리와 연관된다. 일부 실시 예들에서, 개인화 설정(들)은 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 저장될 수 있다. 예를 들어, 개인화 설정(들)은 센서가 사용자 음성 저장 또는 업데이트 커맨드, 개인화 설정들을 저장하거나 업데이트하는 것의 개시와 연관된 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타를 캡처하는 것에 기초하여 저장될 수 있다. 일부 실시 예들에서, 개인화 설정(들)은 사용자 프로필 데이터베이스(120)에서의 개인화 설정들(122)에 저장된다.
도 4는 오디오 트랙의 플레이백에 오디오 개인화 설정들을 적용하기 위한 방법 단계들의 흐름도이다. 방법 단계들이 도 1의 시스템에 대하여 설명되지만, 해당 기술분야의 통상의 기술자는 방법 단계들을 임의의 순서로 수행하도록 구성된 임의의 시스템이 다양한 실시 예들의 범위 내에 속한다는 것을 이해할 것이다. 일부 실시 예들에서, 도 3의 방법의 단계들 중 일부 또는 전부는 오디오 처리 애플리케이션(146)에 의해 수행될 수 있다.
도시된 바와 같이, 방법(400)은 사용자가 플레이백할 오디오 트랙을 선택하는 단계(401)로 시작된다. 일부 실시 예들에서, 사용자는 오디오 트랙의 전체 길이, 오디오 트랙의 일 부분, 또는 하나 이상의 오디오 트랙의 하나 이상의 부분의 집합, 및/또는 기타를 선택할 수 있다. 사용자는 스트리밍 서비스(104)를 통해 플레이되는 오디오 컨텐츠로부터 또는 컴퓨팅 디바이스(140) 상에 로컬 저장된 오디오 컨텐츠(144)로부터 오디오 트랙을 선택할 수 있다. 사용자는 웹 기반 프로그램 또는 컴퓨팅 디바이스(140) 상에 로컬 저장된 프로그램을 사용하여 오디오 트랙을 선택할 수 있다. 오디오 트랙은 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 선택될 수 있다. 예를 들어, 오디오 트랙은 사용자 음성 선택, 오디오 트랙의 선택과 연관된 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타를 센서가 캡처하는 것에 기초하여 선택될 수 있다.
단계 402에서, 오디오 트랙의 오디오 카테고리가 결정된다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 선택된 오디오 트랙과 연관된 분류 데이터 및/또는 다른 메타 데이터로부터 결정될 수 있다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 하나 이상의 온라인 데이터베이스에 대해 분류 데이터 및/또는 다른 메타 데이터의 실시간 검색을 수행함으로써 결정될 수 있다. 일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리는 오디오 트랙에서의 하나 이상의 악기를 식별하고 하나 이상의 오디오 패턴 매칭 기술을 수행함으로써 결정될 수 있다.
일부 실시 예들에서, 오디오 카테고리는 사용자 선택에 기초하여 결정된다. 일부 실시 예들에서, 오디오 카테고리는 센서(들)(118) 또는 스마트 디바이스(들)(111) 상에 위치된 센서들로부터 획득되는 데이터에 기초하여 자동으로 선택될 수 있다. 예를 들어, 오디오 카테고리는 센서(들)(118)가 오디오 카테고리 선택을 식별해주는 음성 커맨드, 오디오 카테고리의 선택을 식별해주는 사용자에 의한 모션 및/또는 제스처, 입력 디바이스와의 사용자 상호 작용, 및/또는 기타를 캡처하는 것에 기초하여 선택될 수 있다.
일부 실시 예들에서, 선택된 오디오 트랙에 대한 오디오 카테고리를 결정하기 위해 단계(304)에서 사용된 기술들과 유사한 기술들이 사용된다. 일부 실시 예들에서, 하나 이상의 오디오 메트릭(131)이 선택된 트랙의 오디오 속성들과 가장 잘 매칭되는 오디오 카테고리를 찾기 위해 선택된 오디오 트랙의 오디오 속성들을 하나 이상의 오디오 카테고리와 연관된 하나 이상의 오디오 메트릭(131)과 비교함으로써 오디오 카테고리가 결정된다.
단계(403)에서, 개인화 설정들이 특정 오디오 카테고리에 이용 가능한지 여부에 대한 결정이 이루어진다. 일부 실시 예들에서, 소프트웨어 애플리케이션은 저장된 개인화 설정(들)(122)이 특정 오디오 카테고리에 대한 개인화 설정들을 포함했는지 여부를 결정하기 위해 사용자 프로필 데이터베이스(120)에 질의한다. 일부 실시 예들에서, 특정 오디오 카테고리에 대해 개인화 설정들이 발견되지 않을 때, 단계(404)에서 개인화 설정들을 생성하기 위한 옵션이 제공된다. 일부 실시 예들에서, 개인화 설정들이 특정 오디오 카테고리에 이용가능할 때, 단계(405)로 시작하여 선택된 오디오 트랙이 추가 처리된다.
단계(404)에서, 개인화 설정들을 생성하기 위한 옵션이 제공된다. 일부 실시 예들에서, 특정 오디오 카테고리에 대한 개인화 설정들에 대한 제안 옵션들이 생성됨으로써, 사용자로 하여금 오디오 카테고리에 대한 개인화 설정들을 선택할 수 있게 한다. 일부 실시 예들에서, 사용자에게 관련된 오디오 카테고리에 대한 이력 개인화 설정들을 선택하고 특정 오디오 카테고리에 대한 개인화 설정들을 저장하는 옵션이 주어진다. 일부 실시 예들에서, 사용자에게는 도 3에 개시된 방법과 같은 오디오 카테고리에 대한 개인화 설정들을 맞춤화하기 위한 절차를 개시하는 옵션이 주어진다.
단계(405)에서, 오디오 카테고리에 대한 개인화 설정들이 로딩된다. 일부 실시 예들에서, 오디오 카테고리에 대한 개인화 설정들은 단계(310)동안 저장된 개인화 설정들에 대응한다.
단계(406)에서, 개인화 설정들이 오디오 트랙의 플레이백에 적용된다. 일부 실시 예들에서, 맞춤형 오디오 신호는 단계(401)동안 선택된 오디오 트랙으로부터의 오디오를 단계(405)동안 로딩된 개인화 설정들에 따라 수정함으로써 생성된다.
요약하면, 다양한 실시 예들은 대표 오디오 트랙 및 대표 오디오 샘플을 선택하기 위한 효율적이고 편리한 수단을 제공함으로써 오디오 개인화를 가능하게 하기 위한 시스템들 및 기술들을 제시한다. 개시된 실시 예들에서, 소프트웨어 애플리케이션은 오디오 트랙을 분석하여 이의 오디오 속성들을 결정하고 오디오 트랙의 오디오 속성들을 대응하는 오디오 카테고리와 연관된 하나 이상의 오디오 메트릭과 비교함으로써 오디오 트랙이 대응하는 오디오 카테고리를 나타내는지 여부를 결정한다. 오디오 트랙이 대응하는 오디오 카테고리를 충분히 나타낼 때, 소프트웨어 애플리케이션은 오디오 트랙의 하나 이상의 부분의 오디오 속성들을 하나 이상의 오디오 메트릭과 비교하여 대응하는 오디오 카테고리를 나타내는 오디오 트랙의 부분을 결정한다. 이어서 소프트웨어 애플리케이션은 오디오 트랙의 해당 부분에 기초하여 오디오 샘플을 생성한다. 일부 실시 예들에서, 이어서 소프트웨어 애플리케이션은 오디오 샘플을 플레이백할 때 사용자 입력에 기초하여, 사용자에 대한 하나 이상의 개인화 설정을 조정할 수 있다. 일부 실시 예들에서, 하나 이상의 개인화 설정은 대응하는 오디오 카테고리로부터의 오디오 트랙의 플레이백에 적용될 수 있다.
종래 기술에 대한 개시된 기술들의 적어도 하나의 기술적 이점은 개시된 기술들이 사용자로 하여금 특정 오디오 카테고리에 대한 각자 선호하는 개인화 설정들을 얻을 수 있게 하는 오디오 속성들의 알맞은 밸런스를 포함하는 대표 오디오 트랙을 사용자로 하여금 더 효율적이고 효과적으로 선택할 수 있게 함으로써 개선된 오디오 개인화를 가능하게 한다는 점이다. 개시된 기술들은 사용자에 의한 선택에 기초하여, 특정 오디오 카테고리에 대한 개인화된 설정들을 생성하는 데 사용할 상이한 대표 오디오 트랙을 제안할 수 있다. 또한, 개시된 기술들은 개인화 설정들을 구성하는 데 사용될 수 있는 오디오 특성들의 카테고리 특정 밸런스를 포함하는 오디오 트랙의 일 부분을 생성하기 위한 더 빠르고 계산적으로 효율적인 수단을 사용자들에게 제공한다.
1. 일부 실시 예들에서, 오디오 카테고리에 대한 오디오 개인화 설정들을 결정하기 위한 컴퓨터 구현 방법은: 오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계; 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 오디오 트랙의 제1 부분을 선택하는 단계; 사용자에게 오디오 트랙의 제1 부분을 플레이하는 단계; 및 오디오 트랙의 제1 부분을 플레이백할 때 사용자로부터의 입력에 기초하여, 사용자에 대한 개인화 설정을 조정하는 단계를 포함한다.
2. 조항 1에 있어서: 오디오 트랙의 제1 부분의 다수의 반복들을 포함하는 오디오 샘플을 생성하는 단계를 더 포함하되, 오디오 트랙의 제1 부분을 플레이하는 단계는 오디오 샘플을 플레이하는 단계를 더 포함하는 것인, 컴퓨터 구현 방법.
3. 조항 1 또는 2에 있어서, 오디오 샘플을 생성하는 단계는 오디오 샘플에서의 오디오 트랙의 제1 부분의 반복들 간에 템포의 불연속성을 생성하는 것을 회피하기 위해 오디오 트랙의 제1 부분의 지속 기간을 단축 또는 연장시키는 단계를 포함하는 것인, 컴퓨터 구현 방법.
4. 조항 1-3 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하기 전에 그리고 하나 이상의 오디오 속성에 기초하여, 오디오 트랙이 오디오 카테고리를 나타내는지 여부를 결정하는 단계를 더 포함하는, 컴퓨터 구현 방법.
5. 조항 1-4 중 어느 하나에 있어서, 결정에 기초하여, 오디오 카테고리를 나타내는 제2 오디오 트랙을 제안하는 단계를 더 포함하는, 컴퓨터 구현 방법.
6. 조항 1-5 중 어느 하나에 있어서, 하나 이상의 오디오 속성은 저음 레벨들(bass levels), 고음 레벨들(treble levels), 주파수 스펙트럼들, 에너지, 또는 템포 중 적어도 하나를 포함하는 것인, 컴퓨터 구현 방법.
7. 조항 1-6 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하는 단계는 하나 이상의 오디오 속성 각각을 오디오 카테고리와 연관된 대응하는 오디오 메트릭과 비교하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
8. 조항 1-7 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하는 단계는 하나 이상의 오디오 속성 각각과 오디오 카테고리와 연관된 대응하는 오디오 메트릭 간의 총 차이가 임계 차이 미만인지 여부를 결정하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
9. 조항 1-8 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하는 단계는 하나 이상의 오디오 속성 각각을 오디오 카테고리와 연관된 대응하는 오디오 메트릭에 대한 범위와 비교하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
10. 조항 1-9 중 어느 하나에 있어서, 오디오 트랙과 연관된 메타 데이터 또는 사용자 선택에 기초하여 오디오 트랙에 대한 오디오 카테고리를 결정하는 단계를 더 포함하는, 컴퓨터 구현 방법.
11. 일부 실시 예들에서, 시스템은: 하나 이상의 소프트웨어 애플리케이션을 저장하는 메모리; 및 처리기로서, 하나 이상의 소프트웨어 애플리케이션을 실행할 때: 오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계; 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 오디오 트랙의 제1 부분을 선택하는 단계; 사용자에게 오디오 트랙의 제1 부분을 플레이하는 단계; 및 오디오 트랙의 제1 부분을 플레이백할 때 사용자로부터의 입력에 기초하여, 사용자에 대한 개인화 설정을 조정하는 단계를 수행하도록 구성된, 처리기를 포함한다.
12. 조항 11에 있어서, 처리기는 오디오 트랙의 제1 부분을 선택하기 전에 그리고 하나 이상의 오디오 속성에 기초하여, 오디오 트랙이 오디오 카테고리를 나타내는지 여부를 결정하는 단계를 수행하도록 더 구성되는 것인, 시스템.
13. 조항 11 또는 12에 있어서, 처리기는 결정에 기초하여, 오디오 카테고리를 나타내는 제2 오디오 트랙을 제안하는 단계를 수행하도록 더 구성되는 것인, 시스템.
14. 조항 11-13 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하는 단계는 하나 이상의 오디오 속성 각각을 오디오 카테고리와 연관된 대응하는 오디오 메트릭과 비교하는 단계를 포함하는 것인, 시스템.
15. 조항 11-14 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하는 단계는 하나 이상의 오디오 속성 각각과 오디오 카테고리와 연관된 대응하는 오디오 메트릭 간의 총 차이가 임계 차이 미만인지 여부를 결정하는 단계를 포함하는 것인, 시스템.
16. 조항 11-15 중 어느 하나에 있어서, 오디오 트랙의 제1 부분을 선택하는 단계는 하나 이상의 오디오 속성 각각을 오디오 카테고리와 연관된 대응하는 오디오 메트릭에 대한 범위와 비교하는 단계를 포함하는 것인, 시스템.
17. 일부 실시 예들에서, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체는 명령어들을 저장하며, 명령어들은 하나 이상의 처리기에 의해 실행될 때, 하나 이상의 처리기로 하여금: 오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계; 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 오디오 트랙의 제1 부분을 선택하는 단계; 사용자에게 오디오 트랙의 제1 부분을 플레이하는 단계; 및 오디오 트랙의 제1 부분을 플레이백할 때 사용자로부터의 입력에 기초하여, 사용자에 대한 개인화 설정을 조정하는 단계를 수행하게 하는 것이다.
18. 조항 17에 있어서, 오디오 트랙의 제1 부분을 선택하기 전에 그리고 하나 이상의 오디오 속성에 기초하여, 오디오 트랙이 오디오 카테고리를 나타내는지 여부를 결정하는 단계를 더 포함하는, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
19. 조항 17 또는 18에 있어서, 개인화 설정을 오디오 카테고리와 연관시키는 단계; 및 개인화 설정을 저장하는 단계를 더 포함하는, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
20. 조항 17-19 중 어느 하나에 있어서, 플레이백할 제2 오디오 트랙의 선택을 수신하는 단계; 제2 오디오 트랙에 대한 제2 오디오 카테고리를 결정하는 단계; 제2 오디오 카테고리와 연관된 제2 개인화 설정을 로딩하는 단계; 제2 개인화 설정에 따라 제2 오디오 트랙으로부터의 오디오를 수정함으로써 맞춤형 오디오 신호를 생성하는 단계; 및 사용자에게 맞춤형 오디오 신호를 플레이백하는 단계를 더 포함하는, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
임의의 청구항들에 나열된 임의의 청구항 요소들 및/또는 본 출원에 설명된 임의의 요소들의 임의의 방식으로이루어지는 임의의 그리고 모든 조합들이 본 발명의 고려되는 범위 및 보호 범위 내에 속한다.
다양한 실시 예들에 대한 설명은 예시의 목적들로 제시되었고, 완전하다거나 개시된 실시 예들로 제한되는 것으로 의도되지 않는다. 설명된 실시 예들의 범위 및 사상으로부터 벗어나지 않고 많은 수정 및 변형이 해당 기술분야의 통상의 기술자들에게 분명할 것이다.
본 실시 예들의 양태들은 시스템, 방법 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 개시의 양태들은 완전히 하드웨어 실시 예, 완전히 소프트웨어 실시 예(펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함함) 또는 소프트웨어 및 하드웨어 양태들 - 이것들은 모두 본 명세서에서 "모듈", "시스템", 또는 "컴퓨터"로서 총칭될 수 있다 - 을 조합하는 실시 예의 형태를 취할 수 있다. 또한, 본 개시에서 설명 된 임의의 하드웨어 및/또는 소프트웨어 기술, 절차, 기능, 구성요소, 엔진, 모듈, 또는 시스템은 회로 또는 회로들의 세트로서 구현될 수 있다. 뿐만 아니라, 본 개시의 양태들은 컴퓨터 판독 가능한 프로그램 코드가 내장된 하나 이상의 컴퓨터 판독 가능한 매체(들)에 내장된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 이상의 컴퓨터 판독 가능한 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어, 전기, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 디바이스, 또는 선행하는 것들의 임의의 적합한 조합일 수 있지만, 이에 제한되는 것은 아니다. 컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예들(완전한 리스트는 아님)은 다음: 하나 이상의 와이어를 갖는 전기 접속부, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(random access memory; RAM), 판독 전용 메모리(read-only memory; ROM), 소거 가능 프로그래밍 가능한 판독 전용 메모리(erasable programmable read-only memory; EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(compact disc read-only memory; CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 선행하는 것들의 임의의 적합한 조합을 포함할 수 있다. 본 문서의 맥락에서, 컴퓨터 판독 가능한 저장 매체는 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 이와 관련하여 사용할 프로그램을 포함하거나 또는 저장할 수 있는 임의의 유형적인 매체일 수 있다.
본 개시의 양태들은 본 개시의 실시 예들에 따른 방법들, 장치(시스템들) 및 컴퓨터 프로그램 제품들의 흐름도들 및/또는 블록도들을 참조하여 상술되었다. 흐름도들 및/또는 블록도들의 각 블록 및 흐름도들 및/또는 블록도들에서의 블록들의 조합들이 컴퓨터 프로그램 명령어들에 의해 구현될 수 있다는 것이 이해될 것이다. 이러한 컴퓨터 프로그램 명령들은 범용 컴퓨터, 전용 컴퓨터, 또는 기계를 생산하기 위한 다른 프로그래밍 가능한 데이터 처리 장치의 처리기에 제공될 수 있다. 명령어들은 컴퓨터 또는 다른 프로그래밍 가능한 데이터 처리 장치의 처리기를 통해 실행될 때, 흐름도 및/또는 블록도 블록 또는 블록들에 특정된 기능들/동작들의 구현을 가능하게 한다. 이러한 처리기들은 제한 없이, 범용 처리기들, 전용 프처리기들, 특수 용도 처리기들, 또는 필드 프로그래밍 가능한 게이트 어레이들일 수 있다.
도면들에서의 흐름도 및 블록도들은 본 개시의 다양한 실시 예들에 따른 시스템들, 방법들, 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능, 및 동작을 도시한다. 이러한 점에서, 흐름도 또는 블록도들에서의 각 블록은 특정된 논리 함수(들)를 구현하기 위한 하나 이상의 실행 가능한 명령어를 포함하는 모듈, 세그먼트, 또는 코드의 부분을 나타낼 수 있다. 일부 대안적인 구현들에서, 블록에 언급된 기능들이 도면들에 언급된 순서와 다르게 발생할 수 있다는 것 또한 유념해야 한다. 예를 들어, 연속하여 도시된 두 개의 블록들이 실제로는, 실질적으로 동시에 실행될 수 있거나, 또는 블록들은 때때로 수반되는 기능에 따라, 반대 순서로 실행될 수 있다. 블록도들 및/또는 흐름도의 각 블록, 및 블록도들 및/또는 흐름도에서의 블록들의 조합들이 특정된 기능들 또는 동작들, 또는 전용 하드웨어 및 컴퓨터 명령어들의 조합들을 수행하는 전용 하드웨어 기반 시스템들에 의해 구현될 수 있다는 것 또한 유념될 것이다.
전술한 내용은 본 개시의 실시 예들에 관한 것이지만, 본 개시의 다른 그리고 추가 실시 예들이 본 개시의 기본 범위로부터 벗어나지 않고 고안될 수 있고, 본 개시의 범위는 다음의 청구항들에 의해 결정된다.

Claims (20)

  1. 오디오 카테고리에 대한 오디오 개인화 설정들을 결정하기 위한 컴퓨터 구현 방법으로서,
    오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계;
    상기 하나 이상의 오디오 속성에 기초하여, 상기 오디오 카테고리를 나타내는 상기 오디오 트랙의 제1 부분을 선택하는 단계;
    사용자에게 상기 오디오 트랙의 상기 제1 부분을 플레이하는 단계; 및
    상기 오디오 트랙의 상기 제1 부분을 플레이백할 때 상기 사용자로부터의 입력에 기초하여, 상기 사용자에 대한 개인화 설정을 조정하는 단계를 포함하는, 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    상기 오디오 트랙의 상기 제1 부분의 다수의 반복들을 포함하는 오디오 샘플을 생성하는 단계를 더 포함하되,
    상기 오디오 트랙의 상기 제1 부분을 플레이하는 단계는 상기 오디오 샘플을 플레이하는 단계를 더 포함하는 것인, 컴퓨터 구현 방법.
  3. 제2항에 있어서, 상기 오디오 샘플을 생성하는 단계는 상기 오디오 샘플에서의 상기 오디오 트랙의 상기 제1 부분의 상기 반복들 간에 템포의 불연속성을 생성하는 것을 회피하기 위해 상기 오디오 트랙의 상기 제1 부분의 지속 기간을 단축 또는 연장시키는 단계를 포함하는 것인, 컴퓨터 구현 방법.
  4. 제1항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하기 전에 그리고 상기 하나 이상의 오디오 속성에 기초하여, 상기 오디오 트랙이 상기 오디오 카테고리를 나타내는지 여부를 결정하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  5. 제4항에 있어서, 상기 결정에 기초하여, 상기 오디오 카테고리를 나타내는 제2 오디오 트랙을 제안하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  6. 제1항에 있어서, 상기 하나 이상의 오디오 속성은 저음 레벨들(bass levels), 고음 레벨들(treble levels), 주파수 스펙트럼들, 에너지, 또는 템포 중 적어도 하나를 포함하는 것인, 컴퓨터 구현 방법.
  7. 제1항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하는 단계는 상기 하나 이상의 오디오 속성 각각을 상기 오디오 카테고리와 연관된 대응하는 오디오 메트릭과 비교하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
  8. 제1항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하는 단계는 상기 하나 이상의 오디오 속성 각각과 상기 오디오 카테고리와 연관된 대응하는 오디오 메트릭 간의 총 차이가 임계 차이 미만인지 여부를 결정하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
  9. 제1항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하는 단계는 상기 하나 이상의 오디오 속성 각각을 상기 오디오 카테고리와 연관된 대응하는 오디오 메트릭에 대한 범위와 비교하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
  10. 제1항에 있어서, 상기 오디오 트랙과 연관된 메타 데이터 또는 사용자 선택에 기초하여 상기 오디오 트랙에 대한 상기 오디오 카테고리를 결정하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  11. 시스템으로서,
    하나 이상의 소프트웨어 애플리케이션을 저장하는 메모리; 및
    처리기로서, 상기 하나 이상의 소프트웨어 애플리케이션을 실행할 때:
    오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계;
    상기 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 상기 오디오 트랙의 제1 부분을 선택하는 단계;
    사용자에게 상기 오디오 트랙의 상기 제1 부분을 플레이하는 단계; 및
    상기 오디오 트랙의 상기 제1 부분을 플레이백할 때 상기 사용자로부터의 입력에 기초하여, 상기 사용자에 대한 개인화 설정을 조정하는 단계;를 수행하도록 구성되는, 상기 처리기를 포함하는, 시스템.
  12. 제11항에 있어서, 상기 처리기는 상기 오디오 트랙의 상기 제1 부분을 선택하기 전에 그리고 상기 하나 이상의 오디오 속성에 기초하여, 상기 오디오 트랙이 상기 오디오 카테고리를 나타내는지 여부를 결정하는 단계를 수행하도록 더 구성되는 것인, 시스템.
  13. 제11항에 있어서, 상기 처리기는 상기 결정에 기초하여, 상기 오디오 카테고리를 나타내는 제2 오디오 트랙을 제안하는 단계를 수행하도록 더 구성되는 것인, 시스템.
  14. 제11항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하는 단계는 상기 하나 이상의 오디오 속성 각각을 상기 오디오 카테고리와 연관된 대응하는 오디오 메트릭과 비교하는 단계를 포함하는 것인, 시스템.
  15. 제11항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하는 단계는 상기 하나 이상의 오디오 속성 각각과 상기 오디오 카테고리와 연관된 대응하는 오디오 메트릭 간의 총 차이가 임계 차이 미만인지 여부를 결정하는 단계를 포함하는 것인, 시스템.
  16. 제11항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하는 단계는 상기 하나 이상의 오디오 속성 각각을 상기 오디오 카테고리와 연관된 대응하는 오디오 메트릭에 대한 범위와 비교하는 단계를 포함하는 것인, 시스템.
  17. 명령어들을 저장하는 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체로서, 상기 명령어들은 하나 이상의 처리기에 의해 실행될 때, 상기 하나 이상의 처리기로 하여금:
    오디오 트랙의 하나 이상의 오디오 속성을 결정하는 단계;
    상기 하나 이상의 오디오 속성에 기초하여, 오디오 카테고리를 나타내는 상기 오디오 트랙의 제1 부분을 선택하는 단계;
    사용자에게 상기 오디오 트랙의 상기 제1 부분을 플레이하는 단계; 및
    상기 오디오 트랙의 상기 제1 부분을 플레이백할 때 상기 사용자로부터의 입력에 기초하여, 상기 사용자에 대한 개인화 설정을 조정하는 단계;를 수행하게 하는 것인, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
  18. 제17항에 있어서, 상기 오디오 트랙의 상기 제1 부분을 선택하기 전에 그리고 상기 하나 이상의 오디오 속성에 기초하여, 상기 오디오 트랙이 상기 오디오 카테고리를 나타내는지 여부를 결정하는 단계를 더 포함하는, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
  19. 제17항에 있어서,
    상기 개인화 설정을 상기 오디오 카테고리와 연관시키는 단계; 및
    상기 개인화 설정을 저장하는 단계를 더 포함하는, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
  20. 제17항에 있어서,
    플레이백할 제2 오디오 트랙의 선택을 수신하는 단계;
    상기 제2 오디오 트랙에 대한 제2 오디오 카테고리를 결정하는 단계;
    상기 제2 오디오 카테고리와 연관된 제2 개인화 설정을 로딩하는 단계;
    상기 제2 개인화 설정에 따라 상기 제2 오디오 트랙으로부터의 오디오를 수정함으로써 맞춤형 오디오 신호를 생성하는 단계; 및
    상기 사용자에게 상기 맞춤형 오디오 신호를 플레이백하는 단계를 더 포함하는, 하나 이상의 비일시적인 컴퓨터 판독 가능한 매체.
KR1020210068056A 2020-06-01 2021-05-27 오디오 개인화를 지원하기 위한 오디오 트랙 분석 기술 KR20210148916A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/889,535 US12010495B2 (en) 2020-06-01 2020-06-01 Techniques for audio track analysis to support audio personalization
US16/889,535 2020-06-01

Publications (1)

Publication Number Publication Date
KR20210148916A true KR20210148916A (ko) 2021-12-08

Family

ID=75825508

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210068056A KR20210148916A (ko) 2020-06-01 2021-05-27 오디오 개인화를 지원하기 위한 오디오 트랙 분석 기술

Country Status (5)

Country Link
US (2) US12010495B2 (ko)
EP (1) EP3920049A1 (ko)
JP (1) JP2021189450A (ko)
KR (1) KR20210148916A (ko)
CN (1) CN113766307A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11930328B2 (en) * 2021-03-08 2024-03-12 Sonos, Inc. Operation modes, audio layering, and dedicated controls for targeted audio experiences
CN118538235A (zh) * 2024-05-15 2024-08-23 盐城工学院 一种音频数据的聚类分类方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7826911B1 (en) * 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US20070261537A1 (en) * 2006-05-12 2007-11-15 Nokia Corporation Creating and sharing variations of a music file
US7842876B2 (en) * 2007-01-05 2010-11-30 Harman International Industries, Incorporated Multimedia object grouping, selection, and playback system
US20100229094A1 (en) * 2009-03-04 2010-09-09 Apple Inc. Audio preview of music
US9311309B2 (en) * 2009-08-05 2016-04-12 Robert Bosch Gmbh Entertainment media visualization and interaction method
US20120128173A1 (en) * 2010-11-24 2012-05-24 Visteon Global Technologies, Inc. Radio system including terrestrial and internet radio
US9111519B1 (en) * 2011-10-26 2015-08-18 Mixwolf LLC System and method for generating cuepoints for mixing song data
JP6011064B2 (ja) * 2012-06-26 2016-10-19 ヤマハ株式会社 自動演奏装置及びプログラム
US9031244B2 (en) 2012-06-29 2015-05-12 Sonos, Inc. Smart audio settings
US9372925B2 (en) 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
US8767996B1 (en) * 2014-01-06 2014-07-01 Alpine Electronics of Silicon Valley, Inc. Methods and devices for reproducing audio signals with a haptic apparatus on acoustic headphones
EP3284212B1 (en) 2015-04-17 2022-01-19 Hewlett-Packard Development Company, L.P. Adjusting speaker settings
US10855241B2 (en) * 2018-11-29 2020-12-01 Sony Corporation Adjusting an equalizer based on audio characteristics

Also Published As

Publication number Publication date
US20240314499A1 (en) 2024-09-19
US20210377662A1 (en) 2021-12-02
CN113766307A (zh) 2021-12-07
JP2021189450A (ja) 2021-12-13
US12010495B2 (en) 2024-06-11
EP3920049A1 (en) 2021-12-08

Similar Documents

Publication Publication Date Title
US11605393B2 (en) Audio cancellation for voice recognition
US20200313782A1 (en) Personalized real-time audio generation based on user physiological response
US20240314499A1 (en) Techniques for audio track analysis to support audio personalization
US11829680B2 (en) System for managing transitions between media content items
JP2010020133A (ja) 再生装置、表示方法および表示プログラム
WO2011035626A1 (zh) 音频播放方法及音频播放装置
US11574627B2 (en) Masking systems and methods
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
CN114067827A (zh) 一种音频处理方法、装置及存储介质
CN110853606A (zh) 一种音效配置方法、装置及计算机可读存储介质
CN113781989B (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
Wilson et al. Perception & evaluation of audio quality in music production
KR20160056104A (ko) 사용자 음색 분석 장치 및 음색 분석 방법
CN111859008A (zh) 一种推荐音乐的方法及终端
US10819884B2 (en) Method and device for processing multimedia data
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
CN105632523A (zh) 调节音频数据的音量输出值的方法和装置及终端
US20240213943A1 (en) Dynamic audio playback equalization using semantic features
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
JP2023539121A (ja) オーディオコンテンツの識別
WO2020152264A1 (en) Electronic device, method and computer program
US20240223951A1 (en) Systems, methods and computer program products for selecting audio filters
KR101426763B1 (ko) 음원 서비스 시스템 및 그 방법, 그리고 이에 적용되는 장치
US20230135778A1 (en) Systems and methods for generating a mixed audio file in a digital audio workstation
WO2014142201A1 (ja) 分離用データ処理装置およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination