KR102477001B1 - 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치 - Google Patents

오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치 Download PDF

Info

Publication number
KR102477001B1
KR102477001B1 KR1020217015219A KR20217015219A KR102477001B1 KR 102477001 B1 KR102477001 B1 KR 102477001B1 KR 1020217015219 A KR1020217015219 A KR 1020217015219A KR 20217015219 A KR20217015219 A KR 20217015219A KR 102477001 B1 KR102477001 B1 KR 102477001B1
Authority
KR
South Korea
Prior art keywords
audio signal
frequency
audio
volume
equalization
Prior art date
Application number
KR1020217015219A
Other languages
English (en)
Other versions
KR20210129032A (ko
Inventor
로버트 쿠버
카메론 오브리 서머스
토드 호지스
조세프 레너
마커스 크레머
Original Assignee
그레이스노트, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 그레이스노트, 인코포레이티드 filed Critical 그레이스노트, 인코포레이티드
Priority to KR1020227043033A priority Critical patent/KR20230003293A/ko
Publication of KR20210129032A publication Critical patent/KR20210129032A/ko
Application granted granted Critical
Publication of KR102477001B1 publication Critical patent/KR102477001B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B31/00Arrangements for the associated working of recording or reproducing apparatus with related apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • H04N21/44224Monitoring of user activity on external systems, e.g. Internet browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/02Manually-operated control
    • H03G5/025Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4524Management of client data or end-user data involving the geographical location of the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03FAMPLIFIERS
    • H03F3/00Amplifiers with only discharge tubes or only semiconductor devices as amplifying elements
    • H03F3/181Low-frequency amplifiers, e.g. audio preamplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

오디오 특성의 분석에 기초하여 오디오 재생 설정을 조정하는 방법, 장치, 시스템 및 제조물품이 개시된다. 본 명세서에 개시된 예시적인 장치는 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하는 등화(EQ) 모델 쿼리 생성기; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하고, 상기 복수의 오디오 재생 설정에 기초하여 오디오 신호에 적용할 필터 계수를 결정하는 EQ 필터 설정 분석기; 및 상기 필터 계수를 제 1 기간에 상기 오디오 신호에 적용하기 위한 EQ 조정 구현자를 포함한다.

Description

오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
본 출원은 2018년 10월 24일에 출원된 미국 가출원 제62/750,113호; 2019년 3월 11일에 제출된 미국 가출원 제62/816,813호; 2019년 3월 11일에 출원된 미국 가출원 제62/816,823호; 및 2019년 5월 20일에 출원된 미국 가출원 제62/850,528호의 우선권을 주장한다. 미국 가출원 제62/750,113호; 미국 가출원 제62/816,813호; 미국 가출원 제62/816,823호; 및 미국 가출원 제62/850,528호도 그 전체가 본 명세서에 참고로 포함된다. 미국 가출원 제62/750,113호; 미국 가출원 제62/816,813호; 미국 가출원 제62/816,823호; 및 미국 가출원 제62/850,528호에 대한 우선권도 여기에 주장한다.
본 개시는 일반적으로 오디오 재생 설정에 관한 것으로, 보다 상세하게는 오디오 특성의 분석에 기초하여 오디오 재생 설정을 조정하는 방법 및 장치에 관한 것이다.
최근 몇년 동안, 늘어난 채널 수를 이용해 다양한 특성의 다수의 미디어가 전달되고 있다. 미디어는 보다 전통적인 채널(예를 들어, 라디오, 휴대폰, 등)을 사용하거나 인터넷에 연결된 스트리밍 디바이스를 사용하는 것과 같이 보다 최근에 개발된 채널을 사용하여 수신될 수 있다. 이러한 채널이 개발됨에 따라, 여러 소스에서 오디오를 처리 및 출력할 수 있는 시스템도 또한 개발되었다. 이들 오디오 신호는 다른 특성(가령, 동적 범위, 볼륨 등)을 가질 수 있다. 예를 들어, 일부 자동차 미디어 시스템은 컴팩트 디스크(CD), 블루투스 연결 디바이스, 범용직렬버스(USB) 연결 디바이스, Wi-Fi 연결 디바이스, 보조 입력장치 및 기타 소스에서 미디어를 전달할 수 있다.
본 발명의 내용에 포함됨.
본 발명의 내용에 포함됨.
본 발명의 내용에 포함됨.
도 1은 미디어 특성의 실시간 분석에 기초한 동적 재생 설정 조정을 위해 본 개시의 교시에 따라 구성된 예시적인 환경을 예시하는 블록도이다.
도 2는 본 개시 내용의 교시 중 적어도 하나의 제 1 구현, 제 2 구현 및 제 3 구현에 따라 오디오 등화를 위한 기술을 수행하기 위한 도 1의 미디어 유닛의 추가 세부 사항을 도시한 블록도이다.
도 3은 제 2 구현에 따라 도 1의 콘텐츠 프로파일 엔진의 추가 세부 사항을 도시한 블록도이다.
도 4는 도 1의 오디오 등화(EQ) 엔진의 추가 세부 사항을 도시한 블록도이다.
도 5는 제 1 구현에 따라 미디어 특성의 실시간 분석을 기반으로 미디어 재생 설정을 동적으로 조정하기 위해 도 1 및 도 2의 미디어 유닛을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 6은 등화 설정을 개인화하기 위해 도 1 내지 도 2의 미디어 유닛(106)을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 7은 제 1 구현에 따라 EQ 신경망을 훈련시키도록 오디오 EQ 엔진을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 8a는 제 1 구현에 따라, 평활화 필터 없이, 오디오 특성의 실시간 분석에 기초하여 동적 오디오 재생 설정 조정을 거친 오디오 신호의 제 1 스펙트로그램이다.
도 8b는 도 8a의 제 1 스펙트로그램에 대한 주파수 값에 대한 평균 게인값을 나타내는 도표이다.
도 9a는 제 1 구현에 따라, 평활화 필터를 포함하는 오디오 특성의 실시간 분석에 기초하여 동적 오디오 재생 설정 조정을 거친 오디오 신호의 제 2 스펙트로그램이다.
도 9b는 도 9a의 제 2 스펙트로그램에서 주파수 값에 대한 평균 게인값을 나타내는 도표이다.
도 10은, 제 2 구현에 따라, 콘텐츠 스트림과 함께 프로파일 정보를 재생 디바이스에 전달하기 위해 도 1 및 도 3의 콘텐츠 프로파일 엔진을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 11은, 제 2 구현에 따라, 수정된 재생 설정을 사용하여 콘텐츠를 재생하기 위해 도 1 및 도 2의 미디어 유닛을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 12는, 제 2 구현에 따라, 콘텐츠와 관련된 프로파일 정보를 기반으로 재생 설정을 조정하기 위해 도 1 및 도 2의 미디어 유닛을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 13a 및 도 13b는 본 개시의 교시에 따른 예시적인 콘텐츠 프로파일의 블록도이다.
도 14는 제 3 구현에 따른 실시간 오디오 등화를 수행하기 위해 도 1 및 도 2의 미디어 유닛을 구현하도록 실행될 수 있는 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 15는 제 3 구현에 따라 등화 곡선을 평활하게 하기 위해 도 1 및 도 2의 미디어 유닛을 구현하도록 실행될 수 있는 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 16은 제 3 구현에 따라 참조 오디오 신호를 기반으로 신경망을 훈련 및/또는 검증하도록 데이터 세트를 어셈블리하기 위해 도 1 및 도 4의 오디오 EQ 엔진을 구현하도록 실행될 수 있는 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 17a는 도 15와 관련하여 예시되고 설명된 평활화 기술을 수행하기 전에 등화 오디오 신호의 예시적인 표현이다.
도 17b는, 제 3 구현에 따라, 도 15와 관련하여 예시되고 설명된 평활화 기술을 수행한 후 도 17a의 오디오 신호의 예시적인 표현이다.
도 18은 도 5, 6, 11, 12, 14 및 15의 명령어를 실행하여 도 1 및 도 2의 미디어 유닛을 구현하도록 구성된 예시적인 제 1 처리 플랫폼의 블록도이다.
도 19는 도 7 및 도 16의 명령어를 실행하여 도 1 및 도 4의 오디오 EQ 엔진을 구현하기 위한 예시적인 제 2 처리 플랫폼 구조의 블록도이다.
도 20은 도 10의 명령어를 실행하여 도 1 및 도 3의 콘텐츠 프로파일 엔진을 구현하기 위한 예시적인 제 2 프로세싱 플랫폼 구조의 블록도이다.
전반적으로, 도면(들) 및 첨부해 작성된 명세서 전체에 걸쳐 동일하거나 유사한 부분을 지칭하기 위해 동일한 참조 번호가 사용될 것이다.
종래의 미디어 프로세싱 구현에서, 다른 미디어와 관련된 오디오 신호는 다른 특성을 가질 수 있다. 예를 들어, 서로 다른 오디오 트랙은 다른 주파수 프로파일(예를 들어, 오디오 신호의 다른 주파수에서 다양한 볼륨 레벨), 다른 전체(예를 들어, 평균) 볼륨, 피치, 음색 등을 가질 수 있다. 예를 들어, 하나의 CD에 있는 미디어는 다른 CD의 미디어와 다르게 녹음 및/또는 마스터링된다. 마찬가지로, 스트리밍 장치에서 검색된 미디어는 CD와 같이 압축되지 않은 미디어에서 검색된 미디어와 크게 다른 오디오 특성을 가질 수 있으며 또한 다른 애플리케이션 및/또는 오디오 압축 수준을 통해 동일한 장치에서 검색된 미디어와도 다를 수 있다. 사용자가 다양한 다른 소스와 다양한 장르 및 유형의 미디어를 점점 더 많이 듣게 됨에 따라, 소스 간에 및 동일한 소스의 미디어 간에 오디오 특성의 차이가 매우 눈에 띄고, 어쩌면 청취자를 짜증나게 할 수 있다. 오디오 등화는 오디오 신호에서 서로 다른 주파수의 볼륨 레벨을 조정하는 데 사용되는 기술이다. 예를 들어, 음악 장르, 음악 시대, 사용자 선호도, 오디오 신호가 출력되는 공간 등과 관련된 선호도를 기반으로 저주파 신호, 중주파 신호 및/또는 고주파 신호의 출현을 높이기 위해 등화를 수행할 수 있다. 그러나, 최적 또는 선호하는 등화 설정은 제공되는 미디어에 따라 다를 수 있다. 따라서, 청취자는 미디어의 변화(예를 들어, 장르의 변화, 시대의 변화, 트랙의 전체 볼륨의 변화 등)를 기반으로 청취 경험을 최적화하기 위해 등화 설정을 자주 조정해야 할 수 있다.
몇몇 종래의 접근법에서, 음악의 특정 장르 또는 유형과 관련된 등화 설정이 선택될 수 있다. 예를 들어, 차량의 미디어 디바이스에서, 청취자는 "Rock"에 대해 이퀄라이저를 선택할 수 있다. 이 이퀄라이저는 록 음악의 전형적인 특성을 기반으로 사용자가 더 많이 듣고 싶어할 수 있는 주파수를 높이고 압도적일 수 있는 다른 주파수를 차단하도록 구성되어 있다. 그러나, 이러한 장르별로 광범위하게 적용되는 등화 설정은 서로 다른 노래 간의 중요한 차이점을 해결하지 못하며, 다른 장르의 새로운 트랙을 시작할 때 사용자가 여전히 수동으로 등화 설정을 변경해야 하는 데, 이는 라디오 방송국과 오디오 스트리밍 애플리케이션에서 자주 발생한다.
제 1 구현에서, 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은, 오디오 신호의 실시간 특성에 기초하여 오디오 재생 설정(예를 들어, 등화 설정, 볼륨 설정 등)을 동적으로 조정한다. 본 명세서에 개시된 예는 오디오 신호의 샘플(예를 들어, 3 초 샘플)의 주파수 표현(예를 들어, CQT 표현)을 결정하고, 오디오 신호에 특정한 등화 설정을 결정하기 위해 신경망에 쿼리한다. 본 명세서에 개시된 일부 예에서, 등화 설정은 복수의 필터(예를 들어, 로우 쉘프 필터, 피킹 필터, 하이 쉘프 필터 등)를 포함하고, 이들 중 하나 이상이 오디오 신호에 선택되고 적용될 수 있다. 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품에서, 등화 설정을 출력하는 신경망은 미디어에 최적화된 (예를 들어, 오디오 엔지니어에 의해 결정된) 복수의 등화 프로파일에 대응하는 참조 미디어 라이브러리를 사용하여 훈련된다.
제 1 구현에서, 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 정기적으로 (예를 들어, 1 초마다) 신경망에 대해 (예를 들어, 3 초의 오디오 포함한) 오디오 샘플을 쿼리하여 시간 경과에 따른 오디오 신호의 변화(예를 들어, 다른 특성을 가진 트랙의 다른 부분, 가요의 전환, 장르의 전환 등)를 고려하도록 프로파일의 등화 설정을 결정한다. 본 명세서에 개시된 예시적인 방법, 장치, 시스템, 및 제조물품은 평활화 필터(예를 들어, 지수 평활화 알고리즘, 단극(one-pole) 재귀 평활화 필터 등)를 사용하여 등화 설정시 인지 가능한 변화를 방지하기 위해 필터 설정 사이를 전환한다.
추가로, 전처리된 프로파일 정보를 사용하여 콘텐츠의 재생을 수정하기 위한 예시적인 방법, 시스템 및 제조물품이 제 2 구현에 따라 설명된다. 예시적인 방법, 시스템 및 제조물품은 재생 디바이스로 전달될 콘텐츠 스트림에 액세스하고, 상기 재생 디바이스로 전달될 콘텐츠 스트림 내에서 콘텐츠 피스를 식별하며, 식별된 콘텐츠 피스에 대한 프로파일을 결정하고, 결정된 프로파일을 재생 디바이스에 전달한다. 이러한 작업은 즉석에서 자동으로(예를 들어, 실시간으로) 수행될 수 있다.
제 2 구현에서, 예시적인 방법, 시스템 및 제조물품은 재생 디바이스에서 콘텐츠 스트림을 수신하고, 상기 콘텐츠 스트림과 연관된 프로파일 정보에 액세스하며, 액세스된 프로파일 정보에 기초하여 콘텐츠 스트림의 재생을 수정한다. 예를 들어, 예시적인 방법, 시스템 및 제조물품은 오디오 스트림에 할당된 분위기(mood) 또는 기타 특성을 식별하는 프로파일 정보와 함께 오디오 스트림을 수신 및/또는 액세스하고, 상기 프로파일 정보에 기반하여 재생 디바이스의 재생 설정(예를 들어, 등화 설정)을 수정한다.
따라서, 제 2 구현에서, 예시적인 방법, 시스템 및 제조물품은 콘텐츠 제공자에 의해 제공되는 콘텐츠 스트림을 전처리하여 콘텐츠 스트림에 대한 프로파일을 결정하고, 그 프로파일을 재생 디바이스에 전달할 수 있어, 특히, 조정, 수정 및/또는 최적화된 재생 경험으로 콘텐츠 스트림을 재생할 수 있다.
제 3 구현에서, 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 사용자 입력 또는 조정이 필요없이 (예를 들어, 저장 장치로부터, 라디오로부터, 스트리밍 서비스 등으로부터) 들어오는 오디오 신호를 분석하고 등화한다. 본 명세서에 개시된 기술은 입력 오디오 신호를 분석하여 복수의 주파수 범위에 대한 버퍼 기간 동안의 평균 볼륨값, 복수의 주파수 범위에 대한 버퍼 기간 동안의 표준편차값, 및 유입 오디오 신호의 에너지를 결정한다. 버퍼 기간 동안의 평균 주파수 값을 사용하여, 적용할 등화 곡선을 결정시, 유입 오디오 신호의 갑작스런 단기 변화를 완화하여 등화 설정의 급격한 변화를 방지한다.
제 3 구현에서, 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 복수의 주파수 범위에 대한 버퍼 기간 동안의 평균 볼륨값 및/또는 복수의 주파수 범위에 대한 버퍼 기간 동안의 표준편차값을 포함하는 입력 특징 세트(input feature set)를 생성하고 상기 입력 특성 세트를 신경망에 입력한다. 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 오디오 엔지니어가 생성한 복수의 참조 오디오 신호 및 복수의 등화 곡선에 대해 훈련된 신경망을 이용한다. 일부 예에서, 참조 오디오 신호 및 대응하는 등화 곡선은 신경망이 상이한 오디오 엔지니어들의 상이한 등화 스타일 및 선호도를 학습할 수 있도록 등화 곡선을 생성 한 특정 오디오 엔지니어의 표시와 함께 태그(예를 들어, 연관)된다. 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 신경망으로부터 특정 주파수 범위에 대응하는 게인(gain)/컷(cut)(예를 들어, 볼륨 조정)을 수신한다. 일부 예에서, 게인/컷은 들어오는 오디오 신호의 주파수 표현에 적용되고, 그 후 등화된 주파수 표현이 분석되어 어떤 이상(예를 들어, 주파수에 걸쳐 볼륨 레벨의 급격한 스파이크 또는 딥)이 있는지를 결정한다.
제 3 구현에 따르면, 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 오디오 신호에 적용되는 등화 곡선(예를 들어, 복수의 주파수 범위에 대한 게인/컷)을 마무리하기 전에 등화된 오디오 신호의 이상을 제거하기 위해 스레시홀딩 기법을 사용한다. 일부 예에서, 스레시홀딩 기법은 인접한 주파수 값들의 세트(예를 들어, 3 개 이상의 인접한 주파수 값들)를 분석하고 신경망으로부터 EQ 게인/컷(241)이 적용될 때 (예를 들어, 주파수 범위에 대한 2 차 미분을 계산함으로써 결정되는) 이들 인접한 주파수 값들 간에 볼륨 차이가 임계값을 초과하는지 여부를 결정한다. 일부 예에서, 인접한 주파수 값들 간에 볼륨 차이가 임계값을 초과한다는 결정에 응답하여, 주파수 값들 중 중앙값에 대응하는 볼륨은 인접한 주파수 값들에서 볼륨 레벨들 사이의 중간 지점으로 조정됨으로써, 등화된 오디오 신호의 주파수 표현에 스파이크나 딥을 제거할 수 있다. 이 조정은 스펙트럼 엔벨로프에 걸쳐 딥 및 피크(예를 들어, 로컬 이상치)가 있는 EQ 곡선에 비해 더 쾌적한 EQ 곡선의 주관적인 효과를 갖는다.
제 3 구현에서, 여기에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 유입 오디오 신호에 대한 에너지 값(예를 들어, RMS 값) 및 등화 곡선이 등화 전후의 전체 볼륨을 정규화하도록 시도하기 위해 상기 유입 오디오 신호의 표현에 적용된 후의 에너지 값을 측정한다. 예를 들어, 오디오 신호에 적용되는 등화 곡선이 볼륨을 줄이는 것보다 더 많은 주파수 범위에서 볼륨을 높이면, 등화된 오디오 신호의 전체 에너지가 더 높아질 수 있다. 이러한 일부 예에서, 유입 오디오 신호와 등화된 오디오 신호 사이의 어떤 눈에 띄는 볼륨 변화를 제거하기 위해 등화된 오디오 신호에 대해 볼륨 정규화를 수행할 수 있다.
제 3 구현에서, 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 유입 오디오 신호 또는 상기 유입 오디오 신호에 표현된 미디어의 특성(예를 들어, 장르, 시대, 분위기 등)을 제공하는 소스(예를 들어, 라디오, 모바일 디바이스에 저장된 미디어, 컴팩트 디스크 등)의 변화를 고려하기 위해 등화 설정을 동적으로 조정함으로써 오디오 등화 기법을 개선한다. 본 명세서에 개시된 예시적인 기술은 전문 오디오 엔지니어에 의해 등화된 오디오 신호에 대해 지능적으로 훈련된 신경망을 활용하여 신경망이 다양한 오디오 엔지니어로부터 선호도 및 기술을 배울 수 있도록 한다. 본 명세서에 개시된 예시적인 기술은 최종 등화 곡선이 매끄럽고 인접한 주파수 범위 사이에 큰 볼륨 불일치를 갖지 않도록 스레시홀딩 기법을 수행함으로써 신경망에 의해 제공되는 등화 조정을 더 개선한다.
도 1은 미디어 특성의 실시간 분석에 기초한 동적 재생 설정 조정을 위해 본 개시의 교시에 따라 구성된 예시적인 환경(100)을 예시하는 블록도이다. 예시적인 환경(100)은 오디오 신호를 미디어 유닛(106)으로 전송하는 미디어 디바이스(102, 104)를 포함한다. 미디어 유닛(106)은 오디오 신호를 처리하고(예를 들어, 본 명세서에 개시된 바와 같은 오디오 등화 기술을 수행) 신호를 오디오 증폭기(108)로 전송한다. 이어서 출력 장치(110)를 통해 제시될 증폭된 오디오 신호를 출력한다.
도 1의 예에서, 미디어 디바이스(102, 104) 및/또는 미디어 유닛(106)은 인터넷과 같은 네트워크(112)를 통해 오디오 콘텐츠 및/또는 비디오 콘텐츠와 같은 다양한 유형의 멀티미디어 콘텐츠를 제공하는 예시적인 콘텐츠 제공자(114) 또는 콘텐츠 소스(예를 들어, 방송사, 네트워크, 웹 사이트 등)와 통신한다. 예시적인 콘텐츠 제공자(114)는 지상파 또는 위성 라디오 방송국, 온라인 음악 서비스, 온라인 비디오 서비스, 텔레비전 방송사 및/또는 배포자, 네트워크 컴퓨팅 디바이스(예를 들어, 네트워크상의 모바일 디바이스), 로컬 오디오 또는 음악 애플리케이션 등을 포함할 수 있다. 콘텐츠(예를 들어, 오디오 및/또는 비디오 콘텐츠)는 임의의 소스에서 얻을 수 있다는 점에 유의해야 한다. 예를 들어, "콘텐츠 소스"라는 용어는 사용자 및 기타 콘텐츠 소유자(예를 들어, 아티스트, 레이블, 영화 스튜디오 등)를 포함하는 것으로 의도되어 있다. 일부 예에서, 콘텐츠 소스는 YouTubeTM와 같이 공개적으로 액세스할 수 있는 웹사이트이다.
일부 예에서, 네트워크(112)는 콘텐츠 제공자(114), 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106) 및/또는 기타 네트워크 디바이스 간에 통신을 가능하게하는 임의의 네트워크 또는 통신 매체일 수 있다. 예시적인 네트워크(112)는 유선 네트워크, 무선 네트워크(예를 들어, 모바일 네트워크), 무선 또는 원격 통신 네트워크, 위성 네트워크 등이거나 이를 포함할 수 있다. 예를 들어, 네트워크(112)는 사설망(예를 들어, 케이블 텔레비전 네트워크 또는 위성 라디오 네트워크), 공중망(예를 들어, 공중파 방송 채널 또는 인터넷) 등을 구성하는 하나 이상의 부분을 포함할 수 있다.
도 1의 예시된 예의 예시적인 미디어 디바이스(102)는 휴대용 미디어 플레이어(예를 들어, MP3 플레이어)이다. 예시적인 미디어 디바이스(102)는 콘텐츠 제공자(114)로부터의 미디어에 해당하는 오디오 신호 및/또는 비디오 신호를 저장하거나 수신한다. 예를 들어, 미디어 디바이스(102)는 네트워크(112)를 통해 콘텐츠 제공자(114)로부터 오디오 신호 및/또는 비디오 신호를 수신할 수 있다. 예시적인 미디어 디바이스(102)는 오디오 신호를 다른 디바이스로 전송할 수 있다. 도 1의 예시된 예에서, 미디어 디바이스(102)는 보조 케이블을 통해 오디오 신호를 미디어 유닛(106)으로 전송한다. 일부 예에서, 미디어 디바이스(102)는 임의의 다른 인터페이스를 통해 미디어 유닛(106)에 오디오 신호를 전송할 수 있다. 일부 예에서, 미디어 디바이스(102) 및 미디어 유닛(106)은 동일한 장치일 수 있다(예를 들어, 미디어 유닛(106)은 모바일 디바이스일 수 있으며, 이는 모바일 디바이스에 제공되는 오디오에 대해 본 명세서에 개시된 오디오 등화 기술을 수행할 수 있다).
도 1의 예시된 예의 예시적인 미디어 디바이스(104)는 모바일 디바이스(예를 들어, 휴대폰)이다. 예시적인 미디어 디바이스(104)는 미디어에 해당하는 오디오 신호를 저장 또는 수신하고 상기 오디오 신호를 다른 디바이스로 전송할 수 있다. 도 1의 예시된 예에서, 미디어 디바이스(104)는 오디오 신호를 미디어 유닛(106)에 무선으로 전송한다. 일부 예에서, 미디어 디바이스(104)는 오디오 신호를 미디어 유닛(106)에 전송하기 위해 Wi-Fi, Bluetooth® 및/또는 임의의 다른 기술을 사용할 수 있다. 일부 예에서, 미디어 디바이스(104)는 청취자가 차량에서 프레젠테이션할 미디어를 선택하는 차량의 부품 또는 다른 디바이스와 상호 작용할 수 있다. 미디어 디바이스(102, 104)는 오디오 신호를 저장 및/또는 액세스할 수 있는 임의의 장치일 수 있다. 일부 예에서, 미디어 디바이스(102, 104)(예를 들어, CD 플레이어, 라디오 등)는 차량에 통합될 수 있다.
도 1의 예시된 예의 예시적인 미디어 유닛(106)은 오디오 신호를 수신하고 처리할 수 있다. 도 1의 예시된 예에서, 예시적인 미디어 유닛(106)은 미디어 디바이스(102, 104)로부터 미디어 신호를 수신하고 본 명세서에 개시된 바와 같이 오디오 등화 기술을 수행하도록 상기 미디어 신호를 처리한다. 예시적인 미디어 유닛(106)은 오디오 세그먼트의 평균 볼륨 레벨, 오디오 특성(예를 들어, 주파수, 진폭, 시간 값 등)을 실시간으로 결정하기 위해 출력 장치(110)에 의해 출력되는 오디오를 모니터링할 수 있다. 일부 예에서, 예시적인 미디어 유닛(106)은 소프트웨어로서 구현되고, 직접 연결(예를 들어, 유선 연결)을 통해 또는 (예를 들어, 클라우드에서 이용 가능한) 네트워크를 통해 이용 가능한 다른 디바이스의 일부로서 포함된다. 일부 예에서, 예시적인 미디어 유닛(106)은 오디오 증폭기(108) 및 출력 장치(110)와 통합될 수 있고 오디오 신호의 처리에 이어 오디오 신호 자체를 출력할 수 있다.
일부 예에서, 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)은 네트워크(112)를 통해 콘텐츠 제공자(114) 및/또는 콘텐츠 프로파일 엔진(116)과 통신할 수 있다. 추가 또는 대안적인 예에서, 미디어 디바이스(102) 및/또는 미디어 디바이스(104)는 미디어 디바이스(102) 및/또는 미디어 디바이스(104)와 연관된 사용자에게 오디오 또는 비디오 콘텐츠를 제공하거나 재생하기 위해 오디오 또는 비디오 콘텐츠의 스트림을 수신하며 상기 스트림을 처리하고 미디어 디바이스(102) 및/또는 미디어 디바이스(104)의 디스플레이에 의해 사용 가능한 정보(예를 들어, 디지털 또는 아날로그)를 출력함으로써 오디오 또는 비디오 콘텐츠의 스트림을 재생하도록 구성된 튜너를 포함할 수 있다. 미디어 디바이스(102) 및/또는 미디어 디바이스(104)는 또한 처리된 콘텐츠 스트림 및/또는 관련 메타데이터를 디스플레이하도록 구성된 디스플레이 또는 다른 사용자 인터페이스를 포함할 수 있다. 디스플레이는 평판 스크린, 플라즈마 스크린, 발광 다이오드(LED) 스크린, 음극선관(CRT), 액정 디스플레이(LCD), 프로젝터 등일 수 있다.
일부 예에서, 콘텐츠 제공자(114), 콘텐츠 프로파일 엔진(116), 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)은 콘텐츠에 대한 식별자를 생성하도록 구성된 하나 이상의 핑거프린트 생성기(115)를 포함할 수 있고, 상기 식별자는 콘텐츠 제공자(114)에 의해 전송 또는 방송되고/되거나 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)에 의해 수신 또는 액세스된다. 예를 들어, 핑거프린트 생성기(115)는 참조 핑거프린트 생성기(예를 들어, 콘텐츠의 일부에서 해시값을 계산하는 부품)를 포함할 수 있으며, 상기 참조 핑거프린트 생성기는 특히 수신된 콘텐츠의 참조 핑거프린트 또는 기타 식별자를 생성하도록 구성된다.
일부 예에서, 미디어 유닛(106)은 미디어 디바이스(102) 및/또는 미디어 디바이스(104)에 의해 재생되는 콘텐츠의 재생 경험을 수정하도록 구성될 수 있다. 예를 들어, 미디어 유닛(106)은 컨텐츠의 스트림과 연관된 프로파일에 액세스하고 콘텐츠의 재생을 위한 품질 또는 캐릭터와 관련된 다양한 재생 설정(예를 들어, 등화 설정)을 수정, 조정 및/또는 제어하기 위해 프로파일을 활용할 수 있다. 콘텐츠가 비디오 또는 기타 시각 콘텐츠인 예에서, 재생 설정에는 색상 팔레트 설정, 색상 레이아웃 설정, 밝기 설정, 글꼴 설정, 아트워크 설정 등이 포함될 수 있다.
도 1의 예시된 예의 예시적인 오디오 증폭기(108)는 미디어 유닛(106)에 의해 처리된 (예를 들어, 등화된) 오디오 신호를 수신하고 출력 장치(110)에 출력하기 위해 적절한 재생 설정 조정(예를 들어, 오디오 신호의 특정 대역의 증폭, 사용자 입력에 기초한 볼륨 조정 등)을 수행할 수 있는 디바이스이다. 일부 예에서, 오디오 증폭기(108)는 출력 장치(110)에 통합될 수 있다. 일부 예에서, 오디오 증폭기(108)는 미디어 유닛(106)으로부터의 증폭 출력 값에 기초하여 오디오 신호를 증폭한다. 일부 예에서, 오디오 증폭기(108)는 청취자(예를 들어, 볼륨 선택기를 조정하는 차량 내 승객 또는 운전자)로부터의 입력에 기초하여 오디오 신호를 증폭한다. 추가 또는 대안적인 예에서, 오디오는 증폭기로 전달되는 대신에 미디어 유닛(106)으로부터 직접 출력된다.
도 1의 예시된 예의 예시적인 출력 장치(110)는 스피커이다. 일부 예에서, 출력 장치(110)는 다중 스피커, 헤드폰, 또는 청취자에게 오디오 신호를 제공할 수 있는 임의의 다른 장치일 수 있다. 일부 예에서, 출력 장치(110)는 시각적 요소(예를 들어, 스피커가 달린 텔레비전)도 또한 출력할 수 있다. 일부 예에서, 출력 장치(110)는 미디어 유닛(106)에 통합될 수 있다. 예를 들어, 미디어 유닛(106)이 모바일 디바이스인 경우, 출력 장치(110)는 모바일 디바이스에 (예를 들어, Bluetooth®, 보조 케이블 등을 통해) 통합되거나 다른 방식으로 연결된 스피커일 수 있다. 이러한 일부 예에서, 출력 장치(110)는 모바일 디바이스에 연결된 헤드폰일 수 있다.
일부 예에서, 콘텐츠 프로파일 엔진(116)은 네트워크(112)를 통해 콘텐츠 제공자(114)가 제공한 콘텐츠 스트림에 액세스할 수 있고, 다양한 프로세스를 수행하여 콘텐츠의 스트림에 대한 프로파일 또는 프로파일 정보를 결정, 생성 및/또는 선택할 수 있다. 예를 들어, 콘텐츠 프로파일 엔진(116)은 (예를 들어, 오디오 또는 비디오 핑거프린트 비교를 사용하여) 콘텐츠 스트림을 식별할 수 있고, 식별된 콘텐츠 스트림에 대한 프로파일을 결정할 수 있다. 콘텐츠 프로파일 엔진(116)은 프로파일을 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)에 전달할 수 있으며, 상기 디바이스는 콘텐츠 스트림과 함께 프로파일을 수신하고 특히 수신된 프로파일 내의 정보에 기초하여 연관 및/또는 선택된 특정 재생 설정을 사용하여 콘텐츠 스트림을 재생한다.
도 1의 예에서, 환경은 미디어 유닛(106)에 의해 사용하기 위해 훈련된 모델을 제공할 수 있는 오디오 EQ 엔진(118)을 포함한다. 일부 예에서, 훈련된 모델은 오디오 EQ 엔진(118)에 상주하는 반면, 일부 예에서 훈련된 모델은 직접 사용을 위해 미디어 유닛(106)에 내보내진다. 딥러닝 네트워크든 다른 경험적/관찰적 학습 시스템이든 간에 머신 러닝 기법은, 예를 들어, 결과를 최적화하고, 이미지에서 객체를 찾고, 음성을 이해하고, 음성을 텍스트로 변환하고, 검색 엔진 결과의 관련성을 향상시키는 데 사용될 수 있다.
도 1의 예시된 예시적인 환경(100)은 차량에서의 재생 설정 조정(예를 들어, 오디오 등화) 구현을 참조로 설명되나, 예시적인 환경(100)에 포함된 디바이스의 일부 또는 전부가 임의의 환경 및 임의의 조합으로 구현될 수 있다. 예를 들어, 오디오 증폭기(108) 및/또는 출력 장치(110) 중 어느 하나와 함께 미디어 유닛(106)은 모바일 디바이스로부터 제공되는 임의의 미디어(예를 들어, 스트리밍 음악, 모바일 디바이스에 로컬로 저장된 미디어, 라디오 등)에 대해 여기에 개시된 기술을 활용한 재생 설정 조정(예를 들어, 오디오 등화)을 수행할 수 있는 이동 전화에서 (예를 들어, 전체적으로 또는 부분적으로) 구현될 수 있다. 일부 예에서, 환경(100)은 집의 엔터테인먼트 룸에 있을 수 있으며, 미디어 디바이스(102, 104)는 개인용 스테레오 시스템, 하나 이상의 텔레비전, 랩톱, 기타 개인용 컴퓨터, 태블릿, 기타 모바일 디바이스(예를 들어, 스마트폰), 게임 콘솔, 가상 현실 장치, 셋톱 박스 또는 미디어에 액세스 및/또는 전송할 수 있는 임의의 다른 장치일 수 있다. 추가로, 일부 예에서, 미디어는 시각적 요소(예를 들어, 텔레비전 쇼, 영화 등)도 포함할 수 있다.
일부 예에서, 콘텐츠 프로파일 엔진(116)은 콘텐츠 제공자(114), 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)의 일부일 수 있다. 다른 예로서, 미디어 디바이스(102 및/또는) 미디어 디바이스(104)는 다른 구성 중에 콘텐츠 제공자(114)를 포함할 수 있다(예를 들어, 미디어 디바이스(102) 및/또는 미디어 디바이스(104)는 음악 재생 애플리케이션을 갖는 모바일 디바이스이고 콘텐츠 제공자(114)는 가요 및 기타 오디오의 로컬 스토어이다).
도 2는 본 개시의 교시 중 적어도 제 1 구현, 제 2 구현 및 제 3 구현에 따라 오디오 등화를 위한 기술을 수행하기 위해 도 1의 미디어 유닛(106)의 추가 세부 사항을 보여주는 블록도이다. 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)를 수신하고 상기 신호를 처리하여 오디오 및/또는 비디오 특성을 결정한다. 그런 후, 오디오 및/또는 비디오 특성은 입력 미디어 신호(202)의 특성에 기초하여 적절한 오디오 및/또는 비디오 재생 조정을 결정하는 데 사용된다. 입력 미디어 신호(202)가 오디오 신호일 때, 미디어 유닛(106)은 출력 장치(110)에 의해 출력되기 전에 증폭을 위해 출력 오디오 신호를 오디오 증폭기(108)에 전송한다.
예시적인 미디어 유닛(106)은 예시적인 신호 변환기(204), 예시적인 등화(EQ) 모델 쿼리 생성기(206), 예시적인 EQ 필터 설정 분석기(208), 예시적인 EQ 개인화 매니저(210), 예시적인 디바이스 파라미터 분석기(212), 예시적인 히스토리 EQ 매니저(214), 예시적인 사용자 입력 분석기(216), 예시적인 EQ 필터 선택기(218), 예시적인 EQ 조정 구현자(220), 예시적인 평활화 필터 구성기(222), 예시적인 데이터 스토어(224), 및 예시적인 업데이트 모니터(226)를 포함한다. 예시적인 미디어 유닛(106)은 예시적인 핑거프린트 생성기(227) 및 예시적인 동기화기(228)를 더 포함한다. 예시적인 미디어 유닛(106)은 예시적인 버퍼 매니저(230), 예시적인 시간-주파수 영역 변환기(232), 예시적인 볼륨 계산기(234), 예시적인 에너지 계산기(236), 예시적인 입력 특징 세트 생성기(238), 예시적인 EQ 곡선 매니저(240), 예시적인 볼륨 조절기(242), 예시적인 스레시홀딩 컨트롤러(244), 예시적인 EQ 곡선 생성기(246), 예시적인 볼륨 정규화기(248), 및 예시적인 주파수 시간 영역 변환기(250)를 추가로 포함한다.
예시적인 미디어 유닛(106)은 적어도 3 개의 구현에 따라 동작하도록 구성된다. 제 1 구현에서, 미디어 유닛(106)은 입력 미디어 신호(202)의 주파수 표현을 포함하는 쿼리에 응답하여 신경망으로부터 수신된 필터 설정에 따라 실시간으로 미디어를 등화한다. 제 1 구현에서, 필터 설정을 처리한 후, 미디어 유닛(106)은 필터 설정 중 적어도 일부에 따라 등화되는 출력 미디어 신호(252)를 생성할 수 있다. 제 1 구현의 일부 예에서, 미디어 유닛(106)은 출력 미디어 신호(252)를 출력하기 전에 입력 미디어 신호(202)의 등화된 버전에 하나 이상의 평활화 필터를 추가로 적용할 수 있다.
제 2 구현에서, 미디어 유닛(106)은 콘텐츠 프로파일 엔진(예를 들어, 콘텐츠 프로파일 엔진(116))으로부터 수신된 하나 이상의 프로파일에 따라 동적으로 미디어를 등화한다. 제 2 구현에서, 하나 이상의 프로파일을 처리한 후, 미디어 유닛(106)은 하나 이상의 프로파일 중 적어도 일부에 따라 등화되는 출력 미디어 신호(252)를 생성할 수 있다. 제 2 구현의 일부 예에서, 미디어 유닛(106)은 출력 미디어 신호(252)를 출력하기 전에 입력 미디어 신호(202)에 개인화된 등화를 추가로 적용할 수 있다.
제 3 구현에서, 미디어 유닛(106)은 입력 미디어 신호(202)에 기초한 특징을 포함하는 입력 특징 세트에 응답하여 신경망으로부터 수신된 등화 게인 및 컷 값에 따라 실시간으로 미디어를 등화한다. 제 3 구현에서, 필터 설정을 처리한 후, 미디어 유닛(106)은 게인 및 컷 값 중 적어도 일부에 따라 등화되는 출력 미디어 신호(252)를 생성할 수 있다. 제 3 구현의 일부 예에서, 미디어 유닛(106)은 출력 미디어 신호(252)에서 로컬 이상치(local outliers)를 제거하기 위해 입력 미디어 신호(202)의 등화된 버전에 임계치를 적용할 수 있다.
제 1 구현 : 필터 기반 등화
제 1 구현에서, 예시적인 입력 미디어 신호(202)는 프리젠테이션을 위해 처리 및 출력될 오디오 신호일 수 있다. 입력 미디어 신호(202)는 라디오 신호(예를 들어, FM 신호, AM 신호, 위성 라디오 신호 등), 컴팩트 디스크, (예를 들어, 미디어 디바이스에 연결됨) 보조 케이블, Bluetooth 신호, Wi-Fi 신호 또는 임의의 기타 매체로부터 액세스될 수 있다. 입력 미디어 신호(202)는 신호 변환기(204), EQ 조정 구현자(220) 및/또는 업데이트 모니터(226)에 의해 액세스된다. 입력 미디어 신호(202)는 EQ 조정 구현자(220)에 의해 변환되어 미디어 유닛(106)에 의해 출력 미디어 신호(252)로서 출력된다.
도 2의 예시된 예의 예시적인 신호 변환기(204)는 입력 미디어 신호(202)를 오디오 신호의 주파수 및/또는 특성 표현으로 변환한다. 예를 들어, 신호 변환기(204)는 입력 미디어 신호(202)를 CQT 표현으로 변환할 수 있다. 일부 예에서, 신호 변환기(204)는 푸리에 변환을 사용하여 입력 미디어 신호(202)를 변환한다. 일부 예에서, 신호 변환기(204)는 입력 미디어 신호(202)를 주파수 및/또는 특성 표현으로 계속 변환하는 반면, 다른 예들에서 신호 변환기(204)는 일정한 간격으로 또는 요구에 응답하여(예를 들어, 동적 오디오 재생 설정 조정이 필요할 때마다) 미디어 유닛(106)의 하나 이상의 다른 구성 요소로부터 입력 미디어 신호(202)를 변환한다. 일부 예에서, 신호 변환기(204)는 업데이트 모니터(226)로부터의 신호에 응답하여 (예를 들어, 오디오 재생 설정을 업데이트할 시간임을 나타내며) 입력 미디어 신호(202)를 변환한다. 예시된 예의 신호 변환기(204)는 입력 미디어 신호(202)의 주파수 및/또는 특성 표현을 EQ 모델 쿼리 생성기(206), 핑거프린트 생성기(227) 및/또는 동기화기(228)로 전달한다.
도 2의 예시된 예의 EQ 모델 쿼리 생성기(206)는 입력 미디어 신호(202)의 주파수 및/또는 특성 표현에 기초하여 EQ 쿼리(207)를 생성하고 전달한다. EQ 모델 쿼리 생성기(206)는 입력 미디어 신호(202)의 샘플 시간 프레임(예를 들어, 3 초 샘플)에 대응하는 하나 이상의 주파수 표현(들)을 선택하고, 상기 주파수 표현(들)을 신경망(예를 들어,도 4의 EQ 신경망(402))에 전달한다. 샘플 시간 프레임은 오디오 재생 설정을 결정할 때 고려되어야 하는 입력 미디어 신호(202)의 기간에 해당한다. 일부 예에서, 조작자(예를 들어, 청취자, 오디오 엔지니어 등)가 샘플 시간 프레임을 구성할 수 있다. 일부 예에서, EQ 모델 쿼리 생성기(206)는 (입력 미디어 신호(202)의 주파수 표현(들) 포함하는) 쿼리(207)를 네트워크를 통해 신경망에 전달한다. 일부 예에서, EQ 모델 쿼리 생성기(206)는 (예를 들어, 데이터 스토어(224)에) 저장되고 미디어 유닛(106)에서 실행되는 모델을 쿼리한다. 일부 예에서, EQ 모델 쿼리 생성기(206)는 새로운 쿼리(207)를 생성하여 업데이트 모니터(226)로부터의 신호에 응답하여 업데이트된 오디오 재생 설정을 결정한다.
도 2의 예시된 예의 EQ 필터 설정 분석기(208)는 EQ 필터 설정(209)에 액세스하고 입력 미디어 신호(202)에 적용될 필터 계수를 계산한다. EQ 필터 설정 분석기(208)는 EQ 신경망(예를 들어, 도 4의 EQ 신경망(402))에 의해 출력된 EQ 필터 설정(209)에 액세스하고, 상기 EQ 필터 설정은 하나 이상의 게인값, 주파수 값 및/또는 품질 계수(Q) 값을 포함할 수 있다. 일부 예에서, EQ 필터 설정(209)은 다중 필터(예를 들어, 하나의 로우 쉘프 필터, 4 개의 피킹 필터, 하나의 하이 쉘프 필터 등)를 포함한다. 이러한 일부 예에서, 개별 필터는 하나 이상의 게인값, 하나 이상의 주파수 값 및/또는 하나 이상의 Q 값과 같은 다중 조정 파라미터를 포함한다. 예를 들어, 다중 필터가 적용될 오디오 신호에 대해, 다중 필터는 각각의 게인 값, 각각의 주파수 값 및 각각의 Q 값(예를 들어, 각각의 품질 계수 값)을 포함하는 각각의 조정 파라미터를 포함할 수 있다. 일부 예에서, EQ 필터 설정 분석기(208)는 필터 유형에 기초하여 필터 계수를 계산하기 위해 상이한 수식을 이용한다. 예를 들어, 로우 쉘프 필터에 대한 제 1 필터 계수를 결정하기 위해 제 1 수식이 이용될 수 있고, 하이 쉘프 필터에 대한 제 2 필터 계수를 결정하기 위해 제 2 수식이 이용될 수 있다. EQ 필터 설정 분석기(208)는 EQ 필터 설정 분석기(208)에 의해 수신된 하나 이상의 EQ 필터 설정 세트(209) 중 어느 것이 (예를 들어, 필터 계수를 계산함으로써) 입력 미디어 신호(202)에 적용되어야 하는지를 결정하기 위해 EQ 필터 선택기(218)와 통신한다.
도 2의 예시된 예의 예시적인 EQ 개인화 매니저(210)는 청취자의 개인 선호도를 고려하기 위해 신경망에서 동적으로 생성된 필터 설정과 결합될 수 있는 개인화된 등화 설정(예를 들어, 개인화된 EQ 설정, 개인화된 EQ 설정, 곡선, 필터 설정 등)을 생성한다. EQ 개인화 매니저(210)는 예시적인 디바이스 파라미터 분석기(212), 예시적인 히스토리 EQ 매니저(214) 및 예시적인 사용자 입력 분석기(216)를 포함한다.
디바이스 파라미터 분석기(212)는 미디어 유닛(106) 및/또는 입력 미디어 신호(202)를 제공하는 소스 디바이스와 관련된 파라미터를 분석한다. 예를 들어, 디바이스 파라미터 분석기(212)는 입력 미디어 신호(202)가 시작된 앱을 나타낼 수 있다. 그러한 일부 예에서, 상이한 앱은 상이한 등화 프로파일과 연관될 수 있다. 예를 들어, 오디오 북과 관련된 앱의 오디오 신호는 피트니스와 관련된 앱의 오디오 신호에서 나온 오디오 신호에 대해 다른 최적의 등화 곡선을 가질 수 있다.
일부 예에서, 디바이스 파라미터 분석기(212)는 디바이스의 위치를 결정한다. 예를 들어, 디바이스 파라미터 분석기(212)는 미디어 유닛(106)의 위치 및/또는 입력 미디어 신호(202)를 미디어 유닛(106)에 제공하는 디바이스의 위치를 결정할 수 있다. 예를 들어, 미디어 유닛(106)이 모바일 디바이스에 통합되고 모바일 디바이스의 위치가 체육관인 경우, 모바일 디바이스가 사용자의 집이나 직장에 있는 경우와는 다른 개인화된 등화 곡선이 생성될 수 있다. 일부 예에서, 디바이스 파라미터 분석기(212)는 모바일 디바이스의 위치가 개인화된 등화 설정(예를 들어, 개인화된 EQ 설정)이 결정되는 영역(예를 들어, 체육관, 집, 직장, 도서관 등)의 지오펜스(geofence) 내에 있는지 여부를 결정한다.
일부 예에서, 디바이스 파라미터 분석기(212)는 미디어 유닛(106)의 사용자 및/또는 입력 미디어 신호(202)를 미디어 유닛에 공급하는 디바이스의 사용자를 결정한다. 예를 들어, 미디어 유닛(106)이 모바일 디바이스에 통합된 경우, 디바이스 파라미터 분석기(212)는 사용자 디바이스와 연관된 로그인 및/또는 사용자 디바이스와 연관된 다른 식별자에 기초하여 모바일 디바이스의 사용자를 결정할 수 있다. 일부 예에서, 사용자는 누가 미디어 유닛(106)과 연관된 모바일 디바이스 및/또는 다른 디바이스를 사용하고 있는지 표시하도록 사용자 프로파일을 선택하게 요청받을 수 있다.
예시된 예시의 디바이스 파라미터 분석기(212)는 디바이스 파라미터 분석기(212)가 액세스할 수 있는 임의의 파라미터(예를 들어, 위치, 사용자 식별자, 소스 식별자 등)에 기초하여 개인화된 EQ 곡선을 출력 및/또는 조정한다).
도 2의 예시된 예의 히스토리 EQ 매니저(214)는 연이은 개인화된 EQ 곡선 조정을 가능하게 하는 데 사용된 과거 등화 곡선과 관련된 히스토리 데이터를 유지한다. 예를 들어, 사용자가 록 음악을 자주 듣고 록 음악에 가장 적합한 EQ 곡선을 자주 사용하는 경우, 히스토리 EQ 매니저(214)는 사용자의 전형적인 음악 선호도에 기반하여 개인화된 EQ 곡선을 조정 및/또는 생성하도록 도울 수 있다. 예를 들어, 히스토리 EQ 매니저(214)는 정의된 과거 청취 기간에 기초하여 개인화된 EQ 곡선을 생성할 수 있다. 예를 들어, 히스토리 EQ 매니저(214)는 1 시간 이전의 청취, 지난 24 시간의 청취 및/또는 임의의 다른 기간에 기초하여 개인화된 EQ 곡선을 생성할 수 있다. 다르게 말하면, 히스토리 EQ 매니저(214)는 이전 기간과 관련된 EQ 설정에 기초하여 개인화된 EQ 곡선을 생성 및/또는 조정할 수 있다. 히스토리 EQ 매니저(214)는 실시간으로 생성되고 있는 하나 이상의 프로파일(229)을 취하고 EQ의 각 대역(예를 들어, 5 개 대역 각각)에 대한 이들 설정을 과거 기간 동안 EQ 설정을 평균화한 장기의 개인화 EQ 프로파일에 추가한다. 시스템이 과거 기간 동안 본 평균 곡선이 개인화 EQ 곡선이 된다. 이 곡선은 사용자가 듣고 있었던 음악 유형의 평균 EQ를 반영한다. 예를 들어, 사용자가 지난 60 분 동안 헤비메탈을 듣고 있었다면, 해당 사용자는 지난 60 분 동안 Top 40 Pop을 듣고 있었던 것과는 다른 EQ 곡선이 사용자 프로파일에 저장된 다른 EQ 곡선을 가질 것이다.
평균화 연산은 롤링 평균, IIR 필터, (시간 기간에 걸쳐 평균으로 설정된 계수를 갖는) 전극점 필터(all pole filter), 또는 임의의 다른 평균화 기법일 수 있다. 이 평균화는 버퍼 정보의 장기 보유를 유지해야 하는 필요성을 완화할 수 있다. 히스토리 EQ 데이터를 활용하여, "고착도"를 갖게 EQ 설정을 할 수 있고, 이에 의해 시스템은 시간이 지남에 따라 청취자의 선호도를 점차 학습해 보다 유용한 등화 곡선을 제공한다.
일부 예에서, 히스토리 EQ 매니저(214)는 각 장르(록, 컨트리, 스포큰, 힙합 등)에 대한 주어진 EQ 곡선에 대해 테이블 검색과 함께 사용될 수 있는 장르의 작은 서브 세트를 결정한다. 이 장르의 서브 세트를 기반으로, 사용자는 EQ 곡선을 생성, 조정 또는 선택할 수 있다.
도 2의 예시된 예의 사용자 입력 분석기(216)는 등화 설정에 따른 사용자 입력에 액세스하고 응답한다. 예를 들어, 사용자는 (예를 들어, "좋아요" 버튼을 누르거나, 사용자 평점을 제공함으로써) 특정 등화 설정이 선호되는지 여부에 대한 입력을 제공할 수 있다. 그런 후, 이 입력은 사용자가 이 등화 설정이 좋다고 표시한 등화 설정에 더 많은 가중치를 부여하도록 개인화된 EQ 곡선을 생성할 때 활용될 수 있다. 일부 예에서, 사용자 선호도는 정의된 기간(예를 들어, 몇 달, 1 년 등) 동안 저장된다. 일부 예에서, 사용자 선호도는 특정 사용자 계정(예를 들어, 디바이스 파라미터 분석기(212)에 의해 식별되는 사용자 로그인)과 관련하여 저장된다. 일부 예에서, 사용자 입력 분석기(216)는 청취자로부터 "리셋" 신호를 수신하는데, 상기 리셋 신호는 사용자가 오디오 신호에 적용되는 임의의 자동화된 개인화된 등화를 실행 취소하기를 원한다는 것을 표시한다. 일부 예에서, 사용자 입력 분석기(216)는 청취자로부터 입력된 강도에 기초하여 등화 강도를 조정한다.
도 2의 예시된 예의 예시적인 EQ 필터 선택기(218)는 입력 미디어 신호(1020에 적용될 EQ 필터 설정 분석기(208)가 수신한 EQ 필터 설정에 의해 표현되는 하나 이상의 필터(예를 들어, 로우 쉘프 필터, 피킹 필터, 하이 쉘프 필터 등 중 하나 이상)를 선택한다. 예시된 예의 EQ 필터 선택기(218)는 가장 큰 크기 게인을 갖는(그리고 이에 따라 입력 미디어 신호(202)에 가장 큰 영향을 미칠 것 같은) 하나 이상의 필터를 선택한다. 특정 개수의 필터(예를 들어, 5 개 대역 필터)가 이용될 때와 같은 일부 예에서, EQ 필터 설정에 의해 표현되는 하나 이상의 추가 필터가 폐기될 수 있다. 일부 예에서, EQ 필터 선택기(218)는 청취자가 지각할 정도의 영향이 아주 적을 것 같은 필터를 결정하고 이들 필터를 폐기한다. 예를 들어, EQ 필터 선택기는 하나 이상의 필터의 스펙트럼 엔벨로프를 통합하고 필터 간에 이 출력을 비교하여 EQ 필터 설정으로 표현된 필터들 중 어떤 필터를 폐기해야 할 지 결정할 수 있다. 일부 예에서, EQ 필터 선택기(218)는 필터들 중 어떤 필터가 입력 미디어 신호(202)에 적용되는지를 EQ 필터 설정 분석기(208) 및/또는 EQ 조정 구현자(220)에 전달한다.
도 2의 예시된 예의 EQ 조정 구현자(220)는 EQ 필터 선택기(218)에 의해 선택되고 EQ 필터 설정 분석기(208)에 의해 분석된 필터를 적용한다. 예를 들어, EQ 조정 구현자(220)는 EQ 필터 설정 분석기(208)에 의해 계산된 필터 계수에 기초하여 입력 미디어 신호(202)의 진폭, 주파수 및/또는 위상 특성을 조정할 수 있다. 일부 예에서, EQ 조정 구현자(220)는 평활화 필터 구성기(222)에 의해 표시된 평활화 필터를 사용하여 이전 오디오 재생 설정으로부터 업데이트된 오디오 재생 설정(예를 들어, 새로운 필터 구성)으로 원활하게 전환한다. EQ 조정 구현자(220)는 하나 이상의 등화 필터(들)를 적용한 후에 출력 미디어 신호(252)를 출력한다.
일부 예에서, EQ 조정 구현자(220)는 신경망으로부터의 EQ 필터 설정(209)에 기초하여 생성된 등화 프로파일과 EQ 개인화 매니저(210)로부터 개인화된 EQ 사이를 블렌딩한다. 예를 들어, 사용자 프로파일 EQ 곡선은 신경망에 의해 생성된 실시간 곡선과 블렌딩될 수 있다. 일부 예에서, 가중치는 EQ 곡선을 블렌딩하는 데 사용된다; 여러 가중치를 또한 사용할 수도 있다. 예로서, 사용자가 듣게 되는 오디오를 형성하는 최종 EQ 곡선은 동적으로 생성된 필터 설정에 기초하여 현재 EQ의 0.5 배일 수 있고 개인화된 EQ 곡선의 0.5 배이다. 또 다른 예로, 제 1 숫자는 동적으로 생성된 필터 설정에 따라 현재 EQ에 대해 0.25이고, 개인화된 EQ 곡선에 대해 0.75일 수 있다.
도 2의 예시된 예의 예시적인 평활화 필터 구성기(222)는 오디오 재생 설정들 사이를 원만하게 하기 위한 파리미터를 정의한다. 예를 들어, 평활화 필터 구성기(222)는 오디오 재생 설정을 적용할 때 EQ 조정 구현자(220)에 의한 평활화(예를 들어, 지수 평활 알고리즘, 단극 재귀 평활화 필터 등)를 구현하기 위한 수식 및/또는 파라미터를 제공할 수 있다. 도 9a의 제 2 스펙트로그램(900a)은 평활화 필터를 사용하여 동적 오디오 재생 설정 조정을 거친 오디오 신호의 스펙트로그램을 디스플레이하는 평활화 필터 구현의 이점을 예시한다.
도 2의 예시된 예의 예시적인 데이터 스토어(224)는 입력 미디어 신호(202), 도 4의 EQ 신경망(402)으로부터의 출력 모델, 하나 이상의 프로파일(229), EQ 필터 설정(209), EQ 입력 특징 세트(239), EQ 게인/컷(241), 평활화 필터 설정, 오디오 신호 버퍼 및/또는 미디어 유닛(106)에 의해 구현된 동적 재생 설정 조정 프로세스와 관련된 임의의 기타 데이터를 저장한다. 데이터 스토어(224)는 휘발성 메모리(예를 들어, SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Access Memory), RAMBUS Dynamic Random Access Memory(RDRAM) 등) 및/또는 비휘발성 메모리(예를 들어, 플래시 메모리 등)에 의해 구현될 수 있다. 데이터 스토어(224)는 추가로 또는 대안으로 DDR, DDR2, DDR3, 모바일 DDR(mDDR) 등과 같은 하나 이상의 DDR(double data rate) 메모리에 의해 구현될 수 있다. 데이터 스토어(224)는 추가로 또는 대안으로 하드 디스크 드라이브(들), 컴팩트 디스크 드라이브(들), 디지털 다목적 디스크 드라이브(들) 등과 같은 하나 이상의 대용량 저장 장치에 의해 구현될 수 있다. 예시된 예에서, 데이터 스토어(224)는 단일 데이터베이스로 예시되지만, 데이터는 스토어(224)는 임의의 수 및/또는 유형의 데이터베이스에 의해 구현될 수 있다. 또한, 데이터 스토어(224)에 저장된 데이터는 예를 들어 이진 데이터, 쉼표로 구분된 데이터, 탭으로 구분된 데이터, SQL(structured query language) 구조 등과 같은 임의의 데이터 형식일 수 있다.
예시된 예의 예시적인 업데이트 모니터(226)는 오디오 재생 설정 조정 사이의 기간을 모니터링하고 업데이트 기간 임계값이 충족되는 때를 결정한다. 예를 들어, 업데이트 모니터(226)는 하나의 제 2 업데이트 임계값으로 구성될 수 있으며, 이에 따라 EQ 모델 쿼리 생성기(206)는 새로운 재생 설정을 결정하기 위해 매 1 초마다 EQ 신경망(예를 들어, 도 4의 EQ 신경망(402))에 쿼리한다. 일부 예에서, 업데이트 모니터(226)는 업데이트된 오디오를 재생 설정을 결정하는 프로세스를 시작하기 위해 입력 미디어 신호(202)의 샘플(예를 들어, 3 초 샘플, 5 초 샘플 등)을 단순화하도록 신호 변환기(204)와 통신한다.
동작시, 신호 변환기(204)는 입력 미디어 신호(202)에 액세스하고 상기 입력 오디오 신호를 주파수 및/또는 특성 형태로 변환한 다음 상기 주파수 및/또는 특성 형태는 EQ 모델 쿼리 생성기(206)에 의해 사용되어 신경망에 쿼리하여 EQ 필터 설정(209)을 결정한다. 신경망은 EQ 필터 설정 분석기(208)에 의해 분석되고 처리되는 (예를 들어, 적용 가능한 필터 계수로 변환되는) EQ 필터 설정(209)을 반환한다. EQ 필터 선택기(218)는 입력 미디어 신호(202)에 적용하기 위해 EQ 설정에 의해 표현되는 하나 이상의 필터를 결정한다. EQ 조정 구현자(220)는 평활화 필터 구성기(222)로부터의 파리미터에 기초하여 평활화를 사용하여 선택된 필터를 적용한다. 업데이트 모니터(226)는 이전 오디오 재생 설정이 적용된 이후 기간을 모니터링하고 업데이트 기간 임계값이 충족될 때 오디오 재생 설정을 업데이트한다.
제 2 구현 : 프로파일 기반 등화
제 2 구현에서, 도 2의 예시된 예의 핑거프린트 생성기(227)는 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)에 의해 수신되거나 액세스되는 입력 미디어 신호(202)(예를 들어, 콘텐츠)에 대한 식별자(예를 들어, 핑거프린트 및/또는 시그니처)를 생성한다. 예를 들어, 핑거프린트 생성기(227)는 특히 입력 미디어 신호(202)(예를 들어, 수신된 콘텐츠)의 참조 핑거프린트 또는 다른 식별자를 생성하도록 구성된 참조 핑거프린트 생성기(예를 들어, 콘텐츠의 일부로부터 해시값을 계산하는 구성 요소)를 포함할 수 있다. 일부 예에서, 핑거프린트 생성기(227)는 도 1의 핑거프린트 생성기(115)를 구현한다.
도 2의 예시된 예의 동기화기(228)는 콘텐츠 프로파일 엔진(116)으로부터 입력 미디어 신호(202)로 하나 이상의 프로파일(229)을 동기화한다. 일부 예에서, 미디어 유닛(106)은 미디어(예를 들어, 가요)가 재생되는 순서에 대한 시퀀서를 포함할 수 있다((또는 그 순서를 수정(또는 조정)할 수 있다). 추가 또는 대안적인 예에서, 시퀀서는 미디어 유닛(106)의 외부에 있을 수 있다.
도 2의 예에서, 동기화기(228)는 입력 미디어 신호(202)를 하나 이상의 프로파일(229)에 동기화하기 위해 상기 입력 미디어 신호(202)와 관련된 핑거프린트 또는 핑거프린트들을 이용할 수 있다. 예를 들어, 하나 이상의 프로파일(229)은 하나 이상의 설정을 입력 미디어 신호(202)에 대한 알려진 핑거프린트에 연관시키는 정보를 포함할 수 있어 입력 미디어 신호(202)의 재생 중에 동기화기(228)가 하나 이상의 프로파일(229) 중 하나를 입력 미디어 신호(202)에 동기화하기 위해 입력 미디어 신호(202)의 일부에 상기 설정을 정렬할 수 있다.
일부 예에서, 동기화기(228)는 입력 미디어 신호(202) 및/또는 그 대안적 표현 내에서 다양한 오디오 또는 음향 이벤트(예를 들어, 스네어 히트, 기타 솔로의 시작, 처음 보컬)를 식별하고, 입력 미디어 신호(202)의 재생 동안 하나 이상의 프로파일(229) 중 하나를 입력 미디어 신호(202)에 동기화하기 위해 하나 이상의 프로파일(229) 중 하나를 입력 미디어 신호(202) 내의 이벤트에 대해 정렬할 수 있다. 추가 또는 대안적인 예로, 시퀀서는 현재 렌더링된 미디어(예를 들어, (가령, 프로파일 사용한) 콘텐츠), 사용자 프로파일, 개인화된 최적의 경험을 제공하기 위해 미리 알려진 디바이스 설정 등에 특정한 클라우드(음악 및/또는 비디오)의 적응형 라디오, 재생 목록 추천, 미디어 재생 목록(예를 들어, 콘텐츠)의 일부로 가요 시퀀스를 구성할 수 있다.
제 2 구현에서, 도 2의 예시된 예의 예시적인 EQ 개인화 매니저(210)는 청취자의 개인적 선호도를 고려하기 위해 하나 이상의 프로파일(229)과 결합될 수 있는 개인화된 등화 설정(예를 들어, 개인화된 EQ 설정, 개인화된 EQ 설정 곡선, 필터 설정 등)을 생성한다.
디바이스 파리미터 분석기(212)는 미디어 유닛(106) 및/또는 입력 미디어 신호(202)를 제공하는 소스 디바이스와 연관된 파리미터를 분석한다. 예를 들어, 디바이스 파리미터 분석기(212)는 입력 미디어 신호(202)가 시작된 앱을 나타낼 수 있다. 그러한 일부 예에서, 상이한 앱은 상이한 등화 프로파일과 연관될 수 있다. 예를 들어, 오디오 북과 관련된 앱의 오디오 신호는 피트니스와 관련된 앱의 오디오 신호에서 나온 오디오 신호와 관련하여 다른 최적의 등화 곡선을 가질 수 있다.
일부 예에서, 디바이스 파라미터 분석기(212)는 디바이스의 위치를 결정한다. 예를 들어, 디바이스 파라미터 분석기(212)는 미디어 유닛(106)의 위치 및/또는 입력 미디어 신호(202)를 미디어 유닛(106)에 제공하는 디바이스의 위치를 결정할 수 있다. 예를 들어, 미디어 유닛(106)이 모바일 디바이스에 통합되고 모바일 디바이스의 위치가 체육관인 경우, 모바일 디바이스가 사용자의 집이나 직장에 있는 경우와는 다른 개인화된 등화 곡선이 생성될 수 있다. 일부 예에서, 디바이스 파라미터 분석기(212)는 모바일 디바이스의 위치가 개인화된 등화 설정(예를 들어, 개인화된 EQ 설정)이 결정되는 영역(예를 들어, 체육관, 집, 직장, 도서관 등)의 지오펜스 내에 있는지 여부를 결정한다.
일부 예에서, 디바이스 파라미터 분석기(212)는 미디어 유닛(106)의 사용자 및/또는 입력 미디어 신호(202)를 미디어 유닛에 공급하는 디바이스의 사용자를 결정한다. 예를 들어, 미디어 유닛(106)이 모바일 디바이스에 통합된 경우, 디바이스 파라미터 분석기(212)는 사용자 디바이스와 연관된 로그인 및/또는 사용자 디바이스와 연관된 다른 식별자에 기초하여 모바일 디바이스의 사용자를 결정할 수 있다. 일부 예에서, 사용자는 누가 미디어 유닛(106)과 연관된 모바일 디바이스 및/또는 다른 디바이스를 사용하고 있는지 표시하도록 사용자 프로파일을 선택하게 요청받을 수 있다.
예시된 예시의 디바이스 파라미터 분석기(212)는 디바이스 파라미터 분석기(212)가 액세스할 수 있는 임의의 파라미터(예를 들어, 위치, 사용자 식별자, 소스 식별자 등)에 기초하여 개인화된 EQ 곡선을 출력 및/또는 조정한다).
도 2의 예시된 예의 히스토리 EQ 매니저(214)는 연이은 개인화된 EQ 곡선 조정을 가능하게 하는 데 사용된 과거 등화 곡선과 관련된 히스토리 데이터를 유지한다. 예를 들어, 사용자가 록 음악을 자주 듣고 록 음악에 가장 적합한 EQ 곡선을 자주 사용하는 경우, 히스토리 EQ 매니저(214)는 사용자의 전형적인 음악 선호도에 기반하여 개인화된 EQ 곡선을 조정 및/또는 생성하도록 도울 수 있다. 예를 들어, 히스토리 EQ 매니저(214)는 정의된 과거 청취 기간에 기초하여 개인화된 EQ 곡선을 생성할 수 있다. 예를 들어, 히스토리 EQ 매니저(214)는 1 시간 이전의 청취, 지난 24 시간의 청취 및/또는 임의의 다른 기간에 기초하여 개인화된 EQ 곡선을 생성할 수 있다. 다르게 말하면, 히스토리 EQ 매니저(214)는 이전 기간과 관련된 EQ 설정에 기초하여 개인화된 EQ 곡선을 생성 및/또는 조정할 수 있다. 히스토리 EQ 매니저(214)는 실시간으로 생성되고 있는 하나 이상의 프로파일(229)을 취하고 EQ의 각 대역(예를 들어, 5 개 대역 각각)에 대한 설정을 과거 기간 동안 설정을 평균화한 장기의 개인화 EQ 필터에 추가한다. 시스템이 과거 기간 동안 본 평균 곡선이 개인화 EQ 곡선이 된다. 이 곡선은 사용자가 듣고 있었던 음악 유형의 평균 EQ를 반영한다. 예를 들어, 사용자가 지난 60 분 동안 헤비메탈을 듣고 있었다면, 해당 사용자가 지난 60 분 동안 Top 40 Pop을 듣고 있었던 것과는 다른 EQ 곡선이 사용자 프로파일에 저장될 것이다.
평균화 연산은 롤링 평균, IIR 필터, (시간 기간에 걸쳐 평균으로 설정된 계수를 갖는) 전극점 필터(all pole filter), 또는 임의의 다른 평균화 기법일 수 있다. 이 평균화는 버퍼 정보의 장기 보유를 유지해야 하는 필요성을 완화할 수 있다. 히스토리 EQ 데이터를 활용하여, "고착도"를 갖게 EQ 설정을 할 수 있고, 이에 의해 시스템은 시간이 지남에 따라 청취자의 선호도를 점차 학습해 보다 유용한 등화 곡선을 제공한다.
일부 예에서, 히스토리 EQ 매니저(214)는 각 장르(록, 컨트리, 스포큰, 힙합 등)에 대한 주어진 EQ 곡선에 대해 테이블 검색과 함께 사용될 수 있는 장르의 작은 서브 세트를 결정한다. 이 장르의 서브 세트를 기반으로, 사용자는 EQ 곡선을 생성, 조정 또는 선택할 수 있다.
도 2의 예시된 예의 사용자 입력 분석기(216)는 등화 설정에 따른 사용자 입력에 액세스하고 응답한다. 예를 들어, 사용자는 (예를 들어, "좋아요" 버튼을 누르거나, 사용자 평점을 제공함으로써) 특정 등화 설정이 선호되는지 여부에 대한 입력을 제공할 수 있다. 그런 후, 이 입력은 사용자가 이 등화 설정이 좋다고 표시한 등화 설정에 더 많은 가중치를 부여하도록 개인화된 EQ 곡선을 생성할 때 활용될 수 있다. 일부 예에서, 사용자 선호도는 정의된 기간(예를 들어, 몇 달, 1 년 등) 동안 저장된다. 일부 예에서, 사용자 선호도는 특정 사용자 계정(예를 들어, 디바이스 파라미터 분석기(212)에 의해 식별되는 사용자 로그인)과 관련하여 저장된다. 일부 예에서, 사용자 입력 분석기(216)는 청취자로부터 "리셋" 신호를 수신하는데, 상기 리셋 신호는 사용자가 오디오 신호에 적용되는 임의의 자동화된 개인화된 등화를 실행 취소하기를 원한다는 것을 표시한다. 일부 예에서, 사용자 입력 분석기(216)는 청취자로부터 입력된 강도에 기초하여 등화 강도를 조정한다.
제 2 구현에서, EQ 조정 구현자(220)는 입력 미디어 신호(202)에 대한 하나 이상의 프로파일(229)에 기초하여 입력 미디어 신호(202)의 재생을 수정하도록 구성된다. 이러한 추가적 또는 대안적인 예에서, EQ 조정 구현자(220)는 하나 이상의 프로파일(229)에 기반하여 입력 미디어 신호(202)에서의 재생을 수정하는 조정기를 구현한다. 예를 들어, EQ 조정 구현자(220)는 하나 이상의 프로파일(229) 내의 정보를 적용하여 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)의 재생 동안 등화를 조절 및/또는 조정하도록 등화기 및/또는 미디어 유닛(106), 미디어 디바이스(102) 및/또는 미디어 디바이스(104)의 동적 프로세서의 설정을 수정 또는 조정할 수 있다. 다르게 말하면, 하나 이상의 프로파일(229)은 EQ 조정 구현자(220)로 하여금 입력 미디어 신호(202)의 일부의 등화를 조정하게 하는 정보를 포함한다. 미디어(예를 들어, 콘텐츠)가 비디오인 경우, 하나 이상의 프로파일(229)은 색 온도, 동적 범위, 색상 팔레트, 밝기, 선명도 또는 임의 기타 비디오 관련 설정과 같은 비디오 설정을 조정하는 데 사용될 수 있다.
등화에 더하여, EQ 조정 구현자(220)는 등화 설정, 가상화 설정, 공간화 설정 등과 같은 다양한 다른 재생 설정을 조정할 수 있다. 예를 들어, EQ 조정 구현자(220)는 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)에 할당된 장르를 식별하는 정보에 액세스할 수 있고, 식별된 장르와 관련된 설정에 재생 디바이스의 등화 설정을 조정함으로써 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)의 재생을 수정할 수 있다. 다른 예로서, EQ 조정 구현자(220)는 콘텐츠 스트림의 상이한 주파수에 대한 신호 강도 파라미터를 식별하는 정보에 액세스하고 상기 신호 강도 파라미터를 사용하는 설정에 재생 디바이스의 등화 설정을 조정함으로써 콘텐츠 스트림의 재생을 수정할 수 있다.
제 2 구현의 일부 예에서, EQ 조정 구현자(220)는 콘텐츠 프로파일 엔진(116)에 의해 생성된 하나 이상의 프로파일(229)과 EQ 개인화 매니저(210)로부터의 개인화된 EQ 사이를 블렌딩한다. 예를 들어, 사용자 프로파일 EQ 곡선은 실시간 프로파일과 블렌딩될 수 있다. 일부 예에서, 가중치는 개인화된 EQ 곡선과 하나 이상의 프로파일(229)을 블렌딩하는 데 사용된다; 여러 가중치를 또한 사용할 수 있다. 예를 들어, 사용자가 듣게 되는 오디오를 형성하는 최종 EQ 곡선은 동적으로 생성된 필터 설정에 따라 현재 EQ의 0.5 배일 수 있고 개인화된 EQ 곡선의 0.5 배이다. 또 다른 예로, 제 1 숫자는 동적으로 생성된 필터 설정에 따라 현재 EQ에 0.25 및 개인화된 EQ 곡선에 0.75일 수 있다.
제 3 구현 : 임계값 기반 등화
제 3 구현에서, 도 2의 예시된 예의 예시적인 버퍼 매니저(230)는 입력 미디어 신호(202)를 수신하고 데이터 스토어(224)에 입력 미디어 신호(202)의 일부를 저장한다. 버퍼 매니저(230)는 버퍼(예를 들어, 입력 미디어 신호(202)의 일부)를 임의의 지속 기간(예를 들어, 10 초, 30 초, 1 분 등) 동안 있도록 구성할 수 있다. 데이터 스토어(224)의 버퍼에 저장되는 입력 미디어 신호(202)의 일부는 등화 특징을 결정하는 데 사용되며, 이에 따라 상기 등화 특징은 입력 미디어 신호(202)의 순간적인 특성에 기초하여 특징이 생성된 경우보다 입력 미디어 신호(202)의 더 긴 지속 기간을 나타낼 수 있게 한다. 버퍼의 기간은 등화가 얼마나 응답해야 하는 지에 기초하여 조정될 수 있다. 예를 들어, 매우 짧은 버퍼 기간은 입력 미디어 신호(202)의 스펙트럼 특성이 변할 때(예를 들어, 가요의 다른 부분 동안) 등화 곡선에 급격한 변화를 초래할 수 있는 반면, 긴 버퍼 기간은 입력 미디어 신호(202)에 이러한 큰 변화를 평균하고 보다 일정한 등화 프로파일을 제공한다. 버퍼 매니저(230)는 더 이상 버퍼 기간 내에 있지 않은 입력 미디어 신호(202)의 일부가 폐기되도록 할 수 있다. 예를 들어, 버퍼 기간이 10 초이면, 입력 미디어(202)의 일부가 10 초 동안 버퍼에 있은 다음, 이 부분은 제거될 것이다.
일부 예에서, 미디어 변경(예를 들어, 트랙 변경, 미디어 소스에서의 변경 등)을 식별하기 위해 신경망이 사용되며, 출력은 미디어 변경에 응답하여 등화를 조정하는 데 사용된다. 예를 들어, 새로운 트랙이 신경망에 의해 감지될 때, 단기 순간 볼륨 또는 평균 볼륨(예를 들어, 표준 버퍼 기간보다 짧은 기간 전체의 주파수 범위에서의 볼륨값, 더 짧은 기간 전체의 주파수 범위에서의 표준편차값, 등)이 EQ 입력 특징 세트(239) 및 결과적으로 도 4의 EQ 신경망(402)으로부터 수신된 EQ 게인/컷(241)에서 빠른 조정(예를 들어, EQ 신경망(402)으로부터 출력된 등화 조정)을 야기하도록 계산될 수 있다. 일부 예에서, 미디어 변경 사이에, 트랙 전체의 등화 프로파일에 급격한 변동을 방지하기 위해 더 긴 볼륨 평균화 기술(예를 들어, 30 초 볼륨 평균에 기초한 등화 프로파일 결정, 45 초 볼륨 평균에 기초한 등화 프로파일 결정 등)이 사용된다.
일부 예에서, 미디어 변경을 식별하기 위해 신경망을 이용하는 것에 추가로 또는 대안으로, 히스테리시스 기반 로직이 구현되어 입력 미디어 신호(202)에 표현된 미디어의 특성이 보다 급격하게 변할 때(예를 들어, 저음이 강한 미디어에서 고음이 강한 미디어로 전환할 때) 보다 빠른 등화 변경을 야기하도록 구현될 수 있다.
일부 예에서, 미디어 유닛(106)은 입력 오디오 신호의 소스의 변화를 검출하고 이전 소스와 비교하여 새 소스에서 미디어 차이를 고려하기 위해 (예를 들어, 단기 순간 또는 평균 볼륨을 계산하고 이러한 변화에 기초하여 등화 프로파일을 결정하여) 전술한 바와 같이 단기 등화 업데이트를 트리거할 수 있다.
도 2의 예시된 예의 예시적인 시간 주파수 영역 변환기(232)는 입력 미디어 신호(202)를 시간 영역 표현으로부터 주파수 영역 표현으로 변환한다. 일부 예에서, 주파수 영역 변환기(232)에 대한 시간은 고속 푸리에 변환(FFT)을 이용한다. 일부 예에서, 시간-주파수 영역 변환기(232)는 입력 미디어 신호(202)를 선형 간격 및/또는 로그 간격 주파수 영역 표현으로 변환한다. 시간-주파수 영역 변환기(232)는 입력 미디어 신호(202)를 시간 영역 표현에서 주파수 영역 표현으로 변환하기 위해 임의의 유형의 변환(예를 들어, 단기 푸리에 변환, 상수 -Q 변환, 하틀리 변환(Hartley transform) 등)을 이용할 수 있다. 일부 예에서, 미디어 유닛(106)은 대안으로 시간 영역에서 본 명세서에 개시된 오디오 등화 기술을 수행할 수 있다.
도 2의 예시된 예의 예시적인 볼륨 계산기(234)는 입력 미디어 신호(202)에 대한 주파수 범위에서 볼륨 레벨을 계산한다. 일부 예에서, 볼륨 계산기(234)는 입력 미디어 신호(202)의 선형 간격 주파수 표현(예를 들어, 평균 볼륨 표현)에서 주파수 빈(예를 들어, 주파수 범위)에 대한 버퍼 기간(예를 들어, 10 초, 30 초 등)에 걸쳐 평균 볼륨 레벨을 계산한다. 도 2의 예시된 예의 볼륨 계산기(234)는 버퍼에 저장되는 입력 미디어 신호(202) 부분의 평균 볼륨의 주파수 표현을 생성한다. 추가로 또는 대안으로, 도 2의 예시된 예의 볼륨 계산기(234)는 주파수 빈에 대한 버퍼 기간 전체의 표준편차를 계산한다. 일부 예에서, 볼륨 계산기(2342)는 로그 간격 주파수 빈(예를 들어, 임계 주파수 대역, 바크 대역(Bark bands) 등)에 대한 볼륨 레벨을 계산한다. 일부 예에서, 주파수 빈에 대한 평균 볼륨 레벨을 계산하기 위해, 볼륨 계산기(234)는 입력 미디어 신호(202)의 주파수 표현을 실제 값으로 변환한다.
도 2의 예시된 예의 예시적인 에너지 계산기(236)는 미디어 신호(예를 들어, 오디오 신호)의 에너지 값을 계산한다. 일부 예에서, 에너지 계산기(236)는 (예를 들어, 버퍼에 저장된 입력 미디어 신호(202)의 주파수 표현에 기초하여) 등화 전 및 등화 곡선이 적용된 후(예를 들어, EQ 곡선 생성기(240)가 오디오 신호의 평균 주파수 표현에 등화 게인/컷을 적용한 후)의 오디오 신호의 주파수 표현의 제곱평균제곱근(RMS) 값을 계산한다. 일부 예에서, 에너지 계산기(236)는 (예를 들어, 버퍼 기간 내내 임의의 순간의 볼륨 레벨에 기초하여) 입력 미디어 신호(202)의 단일 주파수 표현의 에너지를 계산하고/하거나 버퍼 기간 내내 입력 미디어 신호(202)의 평균 주파수 표현의 에너지를 계산한다.
일부 예에서, 에너지 계산기(236)는 볼륨 정규화를 가능하게 하고 등화 후 전체 볼륨에서 인지 가능한 변화를 방지하기 위해 등화 전후의 에너지 값을 볼륨 정규화기(248)에 전달한다. 도 2의 예시된 예의 에너지 계산기(236)는 등화된 평균 주파수 표현의 에너지를 계산한다.
도 2의 예시된 예의 예시적인 입력 특징 세트 생성기(238)는 도 4의 EQ 신경망(402)에 입력하기 위해 입력 미디어 신호(202)에 해당하는 특징(예를 들어, 오디오 특징)을 생성한다. 일부 예에서, 입력 특징 세트 생성기(238)는 버퍼 기간 내내 입력 미디어 신호(202)의 주파수 표현의 주파수 빈에 대한 평균 볼륨 측정치 및/또는 버퍼 기간 내내 입력 미디어 신호(202)의 주파수 표현의 주파수 빈에 대한 평균 표준편차 측정치를 포함하는 세트를 생성한다. 일부 예에서, 입력 특징 세트 생성기(238)는 입력 미디어 신호(202)에 이용될 적절한 등화 설정을 결정하는데 있어 도 4의 EQ 신경망(402)을 지원하도록 도 4의 EQ 신경망(402)에 전달되는 상기 세트 내 임의의 이용 가능한 메타데이터를 포함할 수 있다.
도 2의 예시된 예의 예시적인 EQ 곡선 매니저(240)는 입력 미디어 신호(202)를 등화하는데 이용될 등화 곡선을 결정한다. 예시적인 EQ 곡선 매니저(240)는 예시적인 볼륨 조절기(242), 예시적인 스레시홀딩 컨트롤러(244) 및 예시적인 EQ 곡선 생성기(246)를 포함한다.
도 2의 예시된 예의 예시적인 볼륨 조절기(242)는 EQ 게인/컷(241)을 수신하고 입력 미디어 신호(202)의 평균 표현의 주파수 범위에서 볼륨 조정을 한다. 일부 예에서, 볼륨 조절기(242)는 EQ 게인/컷(241)을 오디오 신호의 특정 주파수 범위에 적용될 복수의 값(예를 들어, 스칼라)으로 수신한다. 다른 예에서, 이러한 값은 로그 기반 게인 및 컷(예를 들어, 데시벨)일 수 있다. 이러한 일부 예에서, EQ 게인/컷(241)은 복수의 로그 간격 주파수 빈에 대응한다. 예를 들어, EQ 게인/컷(241)은 바크 대역(Bark Band) 표현에서 사용되는 25 개의 임계 대역에 해당할 수 있다.
일부 예에서, 입력 미디어 신호(202)의 버퍼링된 부분에 EQ 게인/컷(241)을 적용하기 위해, 볼륨 조절기(242)는 (예를 들어, 시간 주파수 영역 변환기(232)에 의해 생성된) 입력 미디어 신호(202)의 선형 간격 주파수 표현을 입력 미디어 신호(202)의 로그 간격 주파수 표현으로 변환한다. 일부 이런 예에서, 볼륨 조절기(242)는 입력 미디어 신호(202)의 버퍼링된 부분의 등화된 로그 간격 주파수 버전을 생성하기 위해 로그 간격 주파수의 볼륨 레벨에 EQ 게인/컷(241)을 데시벨 단위로 추가할 수 있다. 예시된 예의 볼륨 조절기(242)는 입력 미디어 신호(202)의 버퍼링된 부분의 등화된 로그 간격 주파수 버전을 스레시홀딩 컨트롤러(244)로 전달한다. 일부 예에서, EQ 게인/컷(241)은 선형 간격 주파수 표현 및/또는 다른 표현으로 제공될 수 있고, 입력 미디어 신호(202)의 버퍼링된 부분의 공통(즉, 선형 간격) 표현에 적용될 수 있다.
일부 예에서, 볼륨 조절기(242)는 입력 미디어 신호(202)의 소스의 기술적 제한 및/또는 입력 미디어 신호(202)에 속하는 다른 기술적 특성에 관한 정보에 액세스하고 이러한 기술적 제한 또는 특성을 이용하여 어떤 주파수 범위가 볼륨의 변화를 경험하는지 개량한다. 예를 들어, 볼륨 조절기(242)는 (예를 들어, 미디어 유닛(106)의 디코더에 의해 결정되는 바와 같이, 아티팩트 등을 인코딩하기 위해 입력 미디어 신호(202)를 분석함으로써 결정된 바와 같이, 등) 입력 미디어 신호(202)의 인코딩 유형에 관한 정보에 액세스할 수 있다. 이러한 일부 예에서, 볼륨 조절기(242)는 오디오 신호의 품질에 부정적인 영향을 미칠 수 있는 볼륨 조절(예를 들어, 인코딩 아티팩트를 포함하는 주파수 범위에서 볼륨을 높이는 조절)을 방지할 수 있다.
도 2의 예시된 예의 예시적인 스레시홀딩 컨트롤러(244)는 입력 미디어 신호(202)의 버퍼링된 부분의 (예를 들어, 볼륨 조절기(242)로부터의) 등화 버전을 평활화하는 기술을 수행한다. 일부 예에서, 볼륨 조절기(242)가 EQ 게인/컷(241)을 입력 미디어 신호(202)의 버퍼링된 부분에 적용한 후, 등화된 오디오 신호의 주파수 표현에는 상기 등화된 오디오 신호에서 아티팩트를 인지할 수 있는 로컬 이상치(예를 들어, 등화된 오디오 신호의 주파수-볼륨 도표에서 단기 피크 또는 딥으로 나타나는 불규칙성)가 있을 수 있다. 본 명세서에서 사용되는 바와 같이, 로컬 이상치라는 용어는 인접한 주파수 값들 간에 큰 볼륨 차이와 같은 등화된 오디오 신호의 주파수-볼륨 도표의 불규칙성을 의미한다. 일부 예에서, 주파수 범위에 걸친 볼륨의 2 차 미분이 임계값을 초과하는지 여부를 결정함으로써 로컬 이상치가 검출된다.
도 2의 예시된 예의 스레시홀딩 컨트롤러(244)는 스레시홀딩 기법을 개시할 복수의 주파수 값을 선택한다. 스레시홀딩 컨트롤러(244)는 복수의 주파수 값에서 볼륨 레벨을 결정한 다음, 이들 주파수 값 간에 차이의 척도를 계산한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 복수의 주파수 값에 대한 볼륨값의 2 차 미분을 계산한다. 예를 들어, 3 개의 주파수 값 중 중앙값이 로컬 이상치(예를 들어, 불규칙성)에 해당하는지 여부를 결정하기 위해 3 개의 주파수 값이 분석되는 경우, 다음 수식을 사용하여 2 차 미분을 계산할 수 있다. 여기서, 배열 val[]에는 볼륨값이 포함되며 인덱스 "i"는 주파수 값 인덱스에 해당한다:
|(val[i-2]-(2(val[i-1])+val[i])| 수식 1
스레시홀딩 컨트롤러(244)는 수식 1의 출력을 임계값과 비교할 수 있다. 일부 예에서, 수식 1의 출력 또는 주파수 값 중 하나에서의 볼륨과 인접 주파수 값의 볼륨의 상대적 차이를 계산하는 데 사용되는 임의의 다른 수식이 임계값을 충족하면(예를 들어, 임계값을 초과하면), 평활화 계산이 불규칙성을 제거하기 위해 활용될 수 있다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 인접한 주파수 값에서 볼륨 레벨 사이의 중간 지점으로 볼륨을 변경함으로써 볼륨 레벨을 검출된 불규칙성으로 조정한다. 도 17b는 도 17a에 도시된 등화된 오디오 신호에 예시된 로컬 이상치로 이 중간 지점 볼륨 조정을 이용하는 예를 도시한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 검출된 로컬 이상치로 볼륨을 변경하기 위해 임의의 다른 기술을 이용할 수 있다. 예를 들어, 스레시홀딩 컨트롤러(244)는 검출된 로컬 이상치의 볼륨을 인접 주파수 값 또는 일부 다른 값의 볼륨과 동일하게 설정하여 로컬 이상치를 제거하려고 시도할 수 있다.
일부 예에서, 스레시홀딩 컨트롤러(244)는 불규칙성을 나타내는 임의의 볼륨 레벨을 식별하기 위해 등화된 오디오 신호의 주파수 범위를 통해 반복적으로 이동한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 등화된 오디오 신호의 모든 주파수 값/범위를 분석한 후, 임의의 로컬 이상치가 제 1 조정 단계 이후(예를 들어, 감지된 로컬 이상치의 볼륨 레벨이 변경된 후)에 남아 있는지를 결정하기 위해 등화된 오디오 신호 전체에 걸쳐 1 회 이상의 추가 시간을 반복할 수 있다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 불규칙성(예를 들어, 이상) 검출을 위해 훈련된 신경망 및/또는 다른 인공 지능이다. 이러한 일부 예에서, 스레시홀딩 컨트롤러(244)는 추가 반복할 필요없이 한 번의 조정으로 불규칙성을 제거할 수 있다.
스레시홀딩 컨트롤러(244)가 오디오 신호의 등화된 주파수 표현으로부터 로컬 이상치를 제거한 후, 또는 다른 정지 조건(예를 들어, 전체 주파수 범위에 걸쳐 로컬 이상치 검출 및 조정의 10 회 반복 수행)에 도달하면, 스레시홀딩 컨트롤러(244)는 EQ 곡선 생성기(246)가 입력 미디어 신호(202)에 적용할 등화 곡선을 결정할 수 있도록 오디오 신호의 최종 등화된 표현을 EQ 곡선 생성기(246)에 전달할 수 있다.
도 2의 예시된 예의 EQ 곡선 생성기(246)는 입력 미디어 신호(202)의 버퍼링된 부분에 적용할 최종 등화 곡선을 결정한다. 일부 예에서, 도 2의 예시된 예의 EQ 곡선 생성기(246)는 등화를 위해 사용할 최종 등화 곡선을 결정하도록 스레시홀딩 컨트롤러(244)로부터 출력되는 등화 버전으로부터 입력 미디어 신호(202)의 버퍼링된 부분의 원래의 평균 로그 간격 주파수 표현을 뺀다. 이러한 일부 예에서, 이 감산 후에, EQ 곡선 생성기(246)는 최종 등화 곡선을 버퍼링된 오디오 신호의 주파수 영역 표현(예를 들어, 선형 간격 형태)에 적용될 수 있는 형태로 변환한다. 그러한 일부 예에서, 예시된 예의 EQ 곡선 생성기(246)는 최종 EQ 곡선(예를 들어, 최종 EQ 곡선의 선형 간격 주파수 표현)을 대응하는 표현(예를 들어, 버퍼링된 오디오 신호의 선형 간격 주파수 표현)에 적용한다. EQ 곡선 생성기(246)는 결과적인 등화 오디오 신호를 에너지 계산기(236), 볼륨 정규화기(248), 및/또는 주파수 시간 영역 변환기(250)에 전달할 수 있다. 본 명세서에 사용된 바와 같이, EQ 곡선은 오디오 신호의 주파수 범위에 해당하는 게인/컷 및/또는 다른 볼륨 조절을 포함한다.
도 2의 예시된 예의 예시적인 볼륨 정규화기(248)는 입력 미디어 신호(202)의 등화 전후의 에너지 레벨의 변화의 표시에 액세스한다. 도 2의 예시된 예의 볼륨 정규화기(248)는 볼륨 정규화를 수행하여 등화 전후의 오디오 신호의 전체적인 변화를 설명한다. 일부 예에서, 입력 미디어 신호(202)의 등화 전후의 에너지 레벨의 변화가 임계치를 초과하면, 볼륨 정규화기(248)는 에너지 레벨의 변화를 설명하기 위해 스칼라 볼륨 조정을 적용한다. 일부 예에서, 볼륨 정규화기(248)는 동적 범위 압축기를 이용할 수 있다. 일부 예에서, 에너지 계산기(236)는 등화 프로세스 전후의 에너지 비율을 계산할 수 있고, 볼륨 정규화기(248)는 전체 볼륨의 이러한 변화를 제거하기 위해 이 비율을 이용할 수 있다. 예를 들어, 입력 미디어 신호(202)의 오디오 부분의 전체 에너지가 두 배가 되면, 볼륨 정규화기(248)는 전체 볼륨 컷을 적용하여 볼륨을 절반으로 줄일 수 있다. 일부 예에서, 볼륨 정규화기(248)는 에너지의 변화가 볼륨 정규화를 정당화하기에 불충분하다고 결정할 수 있다. 예시된 예의 볼륨 정규화기(248)는 (적용 가능한 경우 볼륨 조정된) 최종 등화된 오디오 신호를 주파수-시간 영역 변환기(250)에 전달한다.
도 2의 예시된 예의 주파수-시간 영역 변환기(250)는 최종적으로 등화된 오디오 신호를 주파수 영역에서 시간 영역으로 변환하여 궁극적으로 미디어 유닛(106)으로부터 출력되게 한다.
도 1의 미디어 유닛(106)을 구현하는 예시적인 방식이 도 2에 도시되어 있으나, 도 2에 도시된 하나 이상의 요소, 프로세스 및/또는 디바이스는 결합, 분할, 재배열, 생략, 제거 및/또는 다른 방식으로 구현될 수 있다. 또한, 예시적인 신호 변환기(204), 예시적인 EQ 모델 쿼리 생성기(206), 예시적인 EQ 필터 설정 분석기(208), 예시적인 EQ 개인화 매니저(210), 예시적인 디바이스 파리미터 분석기(212), 예시적인 히스토리 EQ 매니저(214), 예시적인 사용자 입력 분석기(216), 예시적인 EQ 필터 선택기(218), 예시적인 EQ 조정 구현자(220), 예시적인 평활화 필터 구성기(222), 예시적인 데이터 스토어(224), 예시적인 업데이트 모니터(226), 예시적인 핑거프린트 생성기(227), 예시적인 동기화기(228), 예시적인 버퍼 매니저(230), 예시적인 시간-주파수 영역 변환기(232), 예시적인 볼륨 계산기(234), 예시적인 에너지 계산기(236), 예시적인 입력 특징 세트 생성기(238), 예시적인 EQ 매니저(240), 예시적인 볼륨 조절기(242), 예시적인 스레시홀딩 컨트롤러(244), 예시적인 EQ 곡선 생성기(246), 예시적인 볼륨 정규화기(248), 및/또는 예시적인 주파수 대 시간 영역 변환기(250) 및/또는, 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)은 하드웨어, 소프트웨어, 펌웨어 및/또는 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합으로 구현될 수 있다. 따라서, 예를 들어, 예시적인 신호 변환기(204), 예시적인 EQ 모델 쿼리 생성기(206), 예시적인 EQ 필터 설정 분석기(208), 예시적인 EQ 개인화 매니저(210), 예시적인 디바이스 파라미터 분석기(212), 예시적인 히스토리 EQ 매니저(214), 예시적인 사용자 입력 분석기(216), 예시적인 EQ 필터 선택기(218), 예시적인 EQ 조정 구현자(220), 예시적인 평활화 필터 구성기(222), 예시적인 데이터 스토어(224), 예시적인 업데이트 모니터(226), 예시적인 핑거프린트 생성기(227), 예시적인 동기화기(228), 예시적인 버퍼 매니저(230), 예시적인 시간-주파수 영역 변환기(232), 예시적인 볼륨 계산기(234), 예시적인 에너지 계산기(236), 예시적인 입력 특징 세트 생성기(238), 예시적인 EQ 매니저(240), 예시적인 볼륨 조절기(242), 예시 스레시홀딩 컨트롤러(244), 예시적인 EQ 곡선 생성기(246), 예시적인 볼륨 정규화기(248) 및/또는 예시적인 주파수 시간 영역 변환기(250) 및/또는, 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)는 하나 이상의 아날로그 또는 디지털 회로(들), 논리 회로, 프로그램 가능 프로세서(들), 프로그램 가능 컨트롤러(들), 그래픽 처리 장치(들)(GPU(s)), 디지털 신호 프로세서(들)(DSP(s)), 애플리케이션 특정 집적 회로(ASIC(s)), 프로그래밍 가능 논리 장치(PLD(s)) 및/또는 필드 프로그래밍 가능 논리 장치(FPLD(s))에 의해 구현될 수 있다. 순전히 소프트웨어 및/또는 펌웨어 구현을 포함하기 위해 본 출원의 장치 또는 시스템 청구항 중 어느 하나를 읽을 때, 예시적인 신호 변환기(204), 예시적인 EQ 모델 쿼리 생성기(206), 예시적인 EQ 필터 설정 분석기(208) 중 적어도 하나는 예시적인 EQ 개인화 매니저(210), 예시적인 디바이스 파라미터 분석기(212), 예시적인 과거 EQ 매니저(214), 예시적인 사용자 입력 분석기(216), 예시적인 EQ 필터 선택기(218), 예시적인 EQ 조정 구현자(220), 예시적인 평활화 필터 구성기(222), 예시 데이터 스토어(224), 예시 업데이트 모니터(226), 예시 핑거프린트 생성기(227), 예시 동기화기(228), 예시 버퍼 매니저(230), 예시 시간-주파수 영역 변환기(232), 예시 볼륨 계산기(234), 예시 에너지 계산기(236), 예시 입력 기능 세트 생성기(238), 예시 EQ 매니저(240), 예시 볼륨 조절기(242), 예시 스레시홀딩 컨트롤러(244), 예시 EQ 곡선 생성기(246), 예시적인 볼륨 정규화기(248), 및/또는 예시적인 주파수 시간 영역 변환기(250), 및/또는. 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)은 소프트웨어 및/또는 펌웨어를 수록한 메모리, 디지털 다용도 디스크(DVD), 컴팩트 디스크(CD), 블루레이 디스크 등과 같은 비일시적 컴퓨터 판독 가능 저장 장치 또는 저장 디스크를 포함하도록 명시적으로 정의된다. 또한, 도 1의 예시적인 미디어 유닛(106)은 도 2에 도시된 것들에 추가하거나 그 대신에 하나 이상의 요소, 프로세스 및/또는 디바이스를 포함할 수 있고/있거나 예시된 요소, 프로세스 및 장치 중 어느 하나 이상 또는 모두를 포함할 수 있다. 본 명세서에 사용된 바와 같이, "통신 중"이라는 용어는 그 변형을 포함하여 하나 이상의 중개 구성 요소를 통한 직접 통신 및/또는 간접 통신을 포함하며, 직접적인 물리적(예를 들어, 유선) 통신 및/또는 지속적인 통신을 필요로하지 않고, 오히려 추가로 주기적 간격, 예약된 간격, 비주기적 간격 및/또는 일회성 이벤트에서의 선택적 통신을 포함한다.
도 3은 제 2 구현에 따라 도 1의 콘텐츠 프로파일 엔진(116)의 추가 세부 사항을 보여주는 블록도이다. 예시적인 콘텐츠 프로파일 엔진(116)은 예시적인 콘텐츠 검색기(302), 예시적인 핑거프린트 생성기(304), 예시적인 콘텐츠 식별자(306), 예시적인 프로파일러(308) 및 예시적인 프로파일 데이터 스토어(310)를 포함한다. 본 명세서에 설명된 바와 같이, 일부 예시에서, 시스템 및 방법은 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)에 스트리밍되거나 그렇지 않고 전송되는 미디어(예를 들어, 콘텐츠)를 식별하고 콘텐츠의 분위기, 스타일 또는 다른 속성과 관련된 정보를 제공하는 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)으로 전달할 프로파일을 생성 및/또는 결정한다. 일부 예에서, 프로파일은 콘텐츠 유형을 식별하는 식별자 일 수 있다. 예를 들어, 프로파일은 미디어(예를 들어, 콘텐츠)를 뉴스, 액션 영화, 스포츠 이벤트 등으로 식별할 수 있다. 그런 다음, 프로파일에 따라 TV의 다양한 설정을 실시간으로(예를 들어, 즉석에서) 조정할 수 있다. 마찬가지로, 프로파일은 라디오 토크쇼, 가요, 징글(jingle), 가요 장르 등을 식별할 수 있다. 따라서, 오디오 설정은 청취자에게 전달되는 오디오를 향상시키기 위해 실시간으로(예를 들어, 즉석에서) 조정될 수 있다.
도 3의 예에서, 콘텐츠 검색기(302)는 미디어 유닛(106)(예를 들어, 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106 등)로 전달될 콘텐츠 스트림)에 전달하기 전에 입력 미디어 신호(202)를 액세스 및/또는 그렇지 않으면 검색한다. 예를 들어, 콘텐츠 검색기(302)는 네트워크(112)를 통해 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)를 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106 등)에 제공하고 있는 콘텐츠 제공자(114)로부터의 입력 미디어 신호(202)에 액세스할 수 있다. 다른 예로서, 콘텐츠 검색기(302)는 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106) 등)에 의해 로컬로 저장된 콘텐츠 제공자(114)로부터 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)에 액세스할 수 있다.
도 3의 예에서, 콘텐츠 검색기(302)는 오디오 콘텐츠 스트림, 비디오 스트림 등과 같은 다양한 유형의 미디어(예를 들어, 다양한 유형의 콘텐츠 스트림)에 액세스할 수 있다. 예를 들어, 콘텐츠 검색기(302)는 가요 또는 다른 음악의 스트림, 음성 콘텐츠의 스트림, 팟캐스트, YouTubeTM 동영상 및 클립 등에 액세스할 수 있다.
도 3의 예시된 예의 핑거프린트 생성기(304)는 콘텐츠 프로파일 엔진(116)에 의해 수신되거나 액세스되는 입력 미디어 신호(202)(예를 들어, 콘텐츠)에 대한 식별자(예를 들어, 핑거프린트 및/또는 시그니처)를 생성한다. 예를 들어, 핑거프린트 생성기(304)는 특히 입력 미디어 신호(202)(예를 들어, 수신된 콘텐츠)의 참조 핑거프린트 또는 다른 식별자를 생성하도록 구성된 참조 핑거프린트 생성기(예를 들어, 콘텐츠의 일부로부터 해시값을 계산하는 구성 요소)를 포함할 수 있다. 일부 예에서, 핑거프린트 생성기(304)는 도 1의 핑거프린트 생성기(115)를 구현한다.
도 3의 예시된 예에서, 콘텐츠 식별자(306)는 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106) 등)에 전달될 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림) 내에서 미디어의 일부(예를 들어, 콘텐츠의 일부)를 식별한다. 콘텐츠 식별자(306)는 핑거프린트 생성기(304)에 의해 생성된 참조 핑거프린트와 같이 알려진 미디어(예를 들어, 콘텐츠)의 핑거프린트를 참조하기 위한 입력 미디어 신호(202)(예를 들어, 콘텐츠)의 핑거프린트의 비교를 포함한 다양한 프로세스를 통해 미디어의 일부(예를 들어, 콘텐츠의 일부)를 식별할 수 있다. 예를 들어, 콘텐츠 식별자(306)는 입력 미디어 신호(202) 또는 입력 미디어 신호(202)의 일부의 프레임 또는 프레임 블록에 대한 쿼리 핑거프린트를 생성 및/또는 액세스하고 입력 미디어 신호(202)와 관련된 콘텐츠 피스 또는 콘텐츠 스트림을 식별하기 위해 쿼리 핑거프린트와 참조 핑거프린트의 비교를 수행할 수 있다.
도 3에 예시된 예에서, 프로파일러(308)는 입력 미디어 신호(202)(예를 들어, 스트림 콘텐츠) 내에서 식별된 피스 또는 세그먼트/부분에 대한 하나 이상의 프로파일(229)을 결정하고/하거나 하나 이상의 프로파일(229)을 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106) 등)에 전달한다. 예를 들어, 프로파일러(308)는 입력 미디어 신호(202)에 대한 하나 이상의 특성을 결정하고/하거나 입력 미디어 신호(202)의 프레임 또는 프레임 블록과 같이 입력 미디어 신호(202)의 다수 부분에 대한 하나 이상의 특성을 결정할 수 있다. 일부 예에서, 프로파일러(308)는 하나 이상의 프로파일(229)을 프로파일 데이터 스토어(310)에 저장한다.
예시적인 프로파일러(308)는 다양한 상이한 특성을 갖는 오디오 콘텐츠와 같은 입력 미디어 신호(202)에 대한 하나 이상의 프로파일(229)을 렌더링, 생성, 생성 및/또는 그렇지 않으면 결정할 수 있다. 예를 들어, 하나 이상의 프로파일(229)은 오디오 콘텐츠 내의 상이한 오디오 주파수와 같은 EQ 설정과 관련된 특성을 포함할 수 있다. 하나 이상의 프로파일(229)은 상이한 유형의 정보를 포함할 수 있다. 프로파일 정보의 예는: (1) 음악 스타일(예를 들어, 록, 클래식, 힙합, 악기, 구어, 징글 등)에 대한 카테고리와 같이 가요와 관련된 카테고리를 식별하는 정보; (2) 비디오 스타일(예를 들어, 드라마, 공상 과학, 공포, 로맨스, 뉴스, TV 쇼, 다큐멘터리, 광고 등)과 같은 비디오 세그먼트와 관련된 카테고리를 식별하는 정보; (3) 경쾌한 분위기, 편안한 분위기, 부드러운 분위기 등과 같이 가요 또는 비디오 클립과 관련된 분위기를 식별하는 정보; (4) 저음 및 기타 유사한 톤에 대한 저주파, 발성 또는 가요 톤에 대한 고주파와 같은 콘텐츠 내의 상이한 주파수들에 대한 신호 강도 파리미터를 식별하는 정보; 및/또는 (5) 색상 팔레트, 밝기, 선명도, 동작, 흐릿함, 텍스트 및/또는 자막 또는 클로즈 캡션의 유무, 상기 텍스트 또는 자막이 있는 특정 콘텐츠, 장면 컷, 블랙 프레임, 디스플레이 형식 조정 바/필라의 유무, 얼굴, 풍경 또는 기타 물체의 유무, 특정 회사, 네트워크 또는 방송 로고 등의 유무를 포함할 수 있다.
따라서, 하나 이상의 프로파일(229)은 입력 미디어 신호(202)의 재생 속성(예를 들어, "DNA")을 나타낼 수 있으며, 이는 특히 입력 미디어 신호(202)의 재생 동안 경험을 최적화하거나 향상시키기 위해 미디어 유닛(106)에 의해 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106 등)를 제어하는 데 사용될 수 있다. 도 3에 도시된 바와 같이, 콘텐츠 프로파일 엔진(116)은 미디어 유닛(106)에 하나 이상의 프로파일(229)을 생성 및 전달하여, 특히 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)의 재생 동안 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106), 등)의 재생 설정을 조정한다.
도 3의 예에서, 프로파일 데이터 스토어(310)는 하나 이상의 프로파일, 하나 이상의 참조 핑거프린트, 및/또는 하나 이상의 프로파일(229)을 통해 미디어 유닛(106)에 의해 구현된 동적 재생 설정 조정 프로세스와 관련된 임의의 다른 데이터를 저장한다. 프로파일 데이터 스토어(310)는 휘발성 메모리(예를 들어, SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Access Memory), RAMBUS Dynamic Random Access Memory(RDRAM) 등) 및/또는 비휘발성 메모리(예를 들어, 플래시 메모리 등)에 의해 구현될 수 있다. 프로파일 데이터 스토어(310)는 추가로 또는 대안으로 DDR, DDR2, DDR3, 모바일 DDR(mDDR) 등과 같은 하나 이상의 DDR(double data rate) 메모리에 의해 구현될 수 있다. 프로파일 데이터 스토어(310)는 추가로 또는 대안으로 하드 디스크 드라이브(들), 컴팩트 디스크 드라이브(들) 디지털 다목적 디스크 드라이브(들) 등과 같은 하나 이상의 대용량 저장 장치에 의해 구현될 수 있다. 예시된 예에서, 프로파일 데이터 스토어(310)는 단일 데이터베이스로 예시되어 있으나, 프로파일 데이터 스토어(310)는 임의의 수 및/또는 유형의 데이터베이스에 의해 구현될 수 있다. 또한, 프로파일 데이터 스토어(310)에 저장된 데이터는, 예를 들어, 이진 데이터, 쉼표로 구분된 데이터, 탭 구분된 데이터, SQL(structured query language) 구조 등과 같은 임의의 데이터 포맷일 수 있다.
도 1의 콘텐츠 프로파일 엔진(116)을 구현하는 예시적인 방식이 도 3에 도시되어 있으나, 도 3에 도시된 요소, 프로세스 및/또는 장치 중 하나 이상이 결합, 분할, 재배열, 생략, 제거 및/또는 다른 방식으로 구현될 수 있다. 또한, 예시적인 콘텐츠 검색기(302), 예시적인 핑거프린트 생성기(304), 예시적인 콘텐츠 식별자(306), 예시적인 프로파일러(308), 예시적인 프로파일 데이터 스토어(310) 및/또는, 보다 일반적으로, 도 3의 예시적인 콘텐츠 프로파일 엔진(116)은 하드웨어, 소프트웨어, 펌웨어 및/또는 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합으로 구현될 수 있다. 따라서, 예를 들어, 예시적인 콘텐츠 검색기(302), 예시적인 핑거프린트 생성기(304), 예시적인 콘텐츠 식별자(306), 예시적인 프로파일러(308), 예시적인 프로파일 데이터 스토어(310), 및/또는, 보다 일반적으로, 도 3의 예시적인 콘텐츠 프로파일 엔진(116) 중 어느 하나는 하나 이상의 아날로그 또는 디지털 회로(들), 논리 회로, 프로그램 가능 프로세서(들), 프로그램 가능 컨트롤러(들), 그래픽 처리 장치(들)(GPU(s)), 디지털 신호 프로세서(들)(DSP(s)), 애플리케이션 특정 집적 회로(들)(ASIC(s)), 프로그래밍 가능 논리 장치(들)(PLD(s)) 및/또는 필드 프로그래밍 가능 논리 장치(들)(FPLD(s))에 의해 구현될 수 있다. 순전히 소프트웨어 및/또는 펌웨어 구현을 포함하기 위해 본 출원의 장치 또는 시스템 청구항를 읽을 때, 예시적인 콘텐츠 검색기(302), 예시적인 핑거프린트 생성기(304), 예시적인 콘텐츠 식별자(306), 예시적인 프로파일러(308), 예시적인 프로파일 데이터 스토어(310), 및/또는, 보다 일반적으로, 도 3의 예시적인 콘텐츠 프로파일 엔진(116) 중 적어도 하나는 소프트웨어 및/또는 펌웨어를 수록한 메모리, 디지털 다용도 디스크(DVD), 컴팩트 디스크(CD), 블루레이 디스크 등과 같은 비일시적 컴퓨터 판독 가능 저장 장치 또는 저장 디스크를 포함하도록 명시적으로 정의된다. 또한, 도 3의 예시적인 콘텐츠 프로파일 엔진(116)은 도 3에 도시된 것들에 추가하거나 그 대신에 하나 이상의 요소, 프로세스 및/또는 장치를 포함할 수 있고및/있거나 예시된 요소, 프로세스 및 장치 중 어느 하나 또는 모두를 포함할 수 있다. 본 명세서에 사용된 바와 같이, "통신 중"이라는 문구는 그 변형을 포함하여 하나 이상의 중개 구성 요소를 통한 직접 통신 및/또는 간접 통신을 포함하며 직접적인 물리적(예를 들어, 유선) 통신 및/또는 지속적인 통신을 필요로 하지 않고, 오히려 주기적 간격, 예약된 간격, 비주기적 간격 및/또는 일회성 이벤트에서의 선택적 통신을 포함한다.
도 4는 도 1의 오디오 EQ 엔진(118)의 추가 세부 사항을 보여주는 블록도이다. 예시적인 오디오 EQ 엔진(118)은 적어도 2 개의 구현에 따라 동작하도록 구성된다. 일부 예에서, 훈련 모델은 (예를 들어, EQ 신경망(402)에 있는) 오디오 EQ 엔진(118)에 상주하는 반면, 일부 예에서, 훈련 모델은 미디어 유닛(106)에서 직접 사용하기 위해 내보내진다.
딥러닝 네트워크이든 다른 경험적/관찰적 학습 시스템이든, 머신 러닝 기술은 예를 들면 결과를 최적화하고, 이미지에서 대상을 찾고, 음성을 이해하고, 음성을 텍스트로 변환하고, 검색 엔진 결과의 관련성을 개선하는 데 사용될 수 있다. 많은 머신 러닝 시스템에는 머신 러닝 네트워크의 학습 및 업데이트를 통해 수정될 초기 특징 및/또는 네트워크 가중치가 시드되나, 딥러닝 네트워크는 분석을 위해 "좋은" 특징을 식별하도록 자체적으로 학습한다. 다층 아키텍처를 사용하면, 딥러닝 기술을 사용하는 기계는 기존 머신 러닝 기술을 사용하는 기계보다 로우 데이터(raw data)를 더 잘 처리할 수 있다. 서로 다른 평가 또는 추상화 계층을 사용하여 상관 관계가 높은 값이나 고유한 주제들의 그룹에 대한 데이터를 조사하는 것이 용이하다.
신경망, 딥러닝 네트워크 및/또는 기타 체험/관측 학습 시스템(들)과 같은 머신 러닝 기술을 사용하여 예를 들면 최적의 결과를 생성하고, 이미지에서 대상을 찾고, 음성을 이해하고, 음성을 텍스트로 변환하고, 검색 엔진 결과의 관련성을 개선할 수 있다. 딥러닝은 일련의 알고리즘을 사용하여 선형 및 비선형 변환을 포함한 여러 처리 계층이 있는 딥 그래프를 사용하여 데이터의 고도의 추상화를 모델링하는 머신 러닝의 서브 세트이다. 많은 머신 러닝 시스템에는 머신 러닝 네트워크의 학습 및 업데이트를 통해 수정될 초기 특징 및/또는 네트워크 가중치가 시드되지만, 딥러닝 네트워크는 분석을 위해 "좋은" 특징을 식별하도록 자체적으로 훈련한다. 다층 아키텍처를 사용하면, 딥러닝 기술을 사용하는 기계는 기존 머신 러닝 기술을 사용하는 기계보다 로우 데이터를 더 잘 처리할 수 있다. 서로 다른 평가 또는 추상화 계층을 사용하여 상관 관계가 높은 값이나 고유한 주제들의 그룹에 대한 데이터를 조사하는 것이 용이하다.
예를 들어, 컨볼루션 신경망(CNN)을 이용하는 딥러닝은 컨볼루션 필터를 사용해 데이터를 분할하여 데이터에서 학습되고 관찰가능한 특징을 찾아 식별한다. CNN 아키텍처의 각 필터 또는 레이어는 입력 데이터를 변환하여 데이터의 선택 성과 불변성을 높이다. 이러한 데이터 추상화를 통해 기계가 관련없는 배경 정보를 분류하고 무시하려고 시도하며 데이터의 기능에 집중할 수 있다.
딥러닝은 많은 데이터 세트가 낮은 수준의 특징을 포함하는 높은 수준의 특징을 포함한다는 이해를 바탕으로 작동한다. 예를 들어, 이미지를 조사하는 동안, 대상을 찾는 것보다 찾고 있는 대상을 이루는 부분을 형성하는 모티프를 형성하는 에지를 찾는 것이 더 효율적이다. 이러한 특징의 계층은 다양한 형태의 데이터에서 찾을 수 있다.
학습된 관찰 가능한 특징은 지도 학습 동안 기계에 의해 학습된 객체 및 정량화 가능한 규칙성을 포함한다. 잘 분류된 대규모 데이터 세트가 제공되는 기계는 새로운 데이터의 성공적인 분류와 관련된 특징을 구별하고 추출하는 데 더 적합하다.
전이 학습을 활용하는 딥러닝 머신은 인간 전문가가 확인한 특정 분류에 데이터 특징을 적절하게 연결할 수 있다. 반대로, 동일한 기계는 인간 전문가가 잘못분류한 것을 알면 분류용 파리미터를 업데이트할 수 있다. 예를 들어, 설정 및/또는 기타 구성 정보는 상기 설정 및/또는 기타 구성 정보의 학습된 사용에 의해 안내될 수 있으며, 시스템이 (예를 들어, 반복적으로 및/또는 여러 사용자에 의해) 더 많이 사용됨에 따라, 주어진 상황에 대해 다양한 변형 및/또는 설정 및/또는 기타 구성 정보에 대한 다른 가능성이 감소될 수 있다.
예시적인 딥러닝 신경망은 예를 들어 전문가 분류 데이터 세트에 대해 훈련될 수 있다. 이 데이터 세트는 신경망의 제 1 파리미터를 구축하며, 이는 지도 학습의 단계가 될 것이다. 지도 학습 단계 동안, 원하는 행동이 달성되었는지 신경망을 테스트할 수 있다. EQ 신경망(402)을 훈련하기 위한 기계 판독 가능 명령어를 나타내는 예시적인 흐름도가 도 7 내지 도 16과 관련하여 예시되고 설명된다.
제 1 구현 : 필터 기반 등화
제 1 구현에서, 예시된 예의 예시적인 EQ 신경망(402)은 오디오 재생 설정이 (예를 들어, 오디오 엔지니어링에 의해) 특별히 맞춤화되고 최적화된 참조 오디오 신호의 라이브러리를 사용하여 훈련될 수 있다. 일부 예에서, EQ 신경망(402)은 참조 오디오 신호들(예를 들어, 훈련 데이터(408)) 중 하나의 샘플을 상기 참조 오디오 신호에 대한 알려진 오디오 재생 설정과 연관시킴으로써 훈련된다. 예를 들어, 트랙에 적용되도록 권장되는 하나 이상의 필터에 대한 게인, 주파수 및/또는 Q 값이 트랙의 개별 오디오 신호 샘플과 연관될 수 있으므로, 유사한 오디오 샘플을 최적화된 재생 설정(예를 들어, 하나 이상의 권장 필터에 대한 게인, 주파수 및/또는 Q 값)과 연관시키도록 EQ 신경망(402)을 훈련시킨다. 일부 예에서, 상이한 재생 설정들과 관련된 다양한 바이어스들이 또한 표시될 수 있다. 예를 들어, 제 1 엔지니어에 의해 결정된 첫 번째 10 개의 트랙이 훈련 및 오디오 재생 설정(예를 들어, 오디오 재생 설정에 해당하는 EQ 파리미터)에 사용되고 제 2 엔지니어에 의해 결정된 두 번째 10 개의 트랙이 훈련 및 오디오 재생 설정에 사용되면, EQ 신경망(402)은 추가로 제 1 및 제 2 오디오 엔지니어와 관련된 다른 선호도 및/또는 바이어스를 학습하고 이들을 완화하여 보다 객관적인 모델을 생성하도록 훈련될 수 있다.
일부 예에서, 손실 함수가 EQ 신경망(402)을 훈련하기 위해 이용될 수 있다. 예를 들어, 수식 2는 이용될 수 있는 하나의 예시적인 손실 함수를 나타내며, 여기서 f는 헤르츠 단위의 주파수에 해당하고, g는 데시벨 단위의 게인에 해당하며, q는 Q 계수(단위 없음)에 해당한다:
Figure 112021058088343-pct00001
수식 2
일단 원하는 신경망 행동이 달성되면(예를 들어, 기계가 지정된 임계값 등에 따라 작동하도록 훈련되면), 신경망이 사용을 위해 (예를 들어, "실제" 데이터 등으로 기계를 테스트하기 위해) 배치될 수 있다. 운영 중에, (예를 들어, 전문 사용자, 전문가 시스템, 참조 데이터베이스 등에 의해) 신경망 분류를 확인하거나 거부하여 신경망 행동을 지속적으로 개선할 수 있다. 그런 다음, 신경망 행동을 결정하는 분류용 파리미터가 진행중인 상호 작용을 기반으로 업데이트되므로 예시적인 신경망은 전이 학습 상태가 된다. 특정 예들에서, EQ 신경망(402)과 같은 신경망은 오디오 EQ 스코어링 엔진(404) 등과 같은 다른 프로세스에 직접적인 피드백을 제공할 수 있다. 특정 예에서, EQ 신경망(402)은 (예를 들어, 클라우드 등을 통해) 버퍼링되고 다른 프로세스에 제공되기 전에 (예를 들어, EQ 검증 데이터(410)를 통해) 검증된 데이터를 출력한다.
도 4의 예에서, EQ 신경망(402)은 오디오 재생 설정 훈련 데이터와 관련된 이전 결과 데이터로부터 입력을 수신하고, 오디오 신호와 관련된 오디오 재생 설정을 예측하는 알고리즘을 출력한다. EQ 신경망(402)은 몇 가지 초기 상관 관계로 시드될 수 있으며 그 후 지속적인 경험으로부터 학습할 수 있다. 일부 예에서, EQ 신경망(402)은 적어도 하나의 오디오 재생 설정 훈련 데이터로부터 피드백을 계속 수신한다. 도 4의 예에서, 오디오 EQ 엔진(118)의 작동 수명 내내, EQ 신경망(402)은 피드백을 통해 지속적으로 훈련되고 예시적인 오디오 EQ 엔진 검증기(406)가 필요에 따라 EQ 신경망(402) 및/또는 추가 오디오 재생 설정 훈련 데이터(408)를 기반으로 업데이트될 수 있다. EQ 신경망(402)은 역할, 위치, 상황 등에 따라 학습하고 진화할 수 있다.
일부 예에서, EQ 신경망(402)에 의해 생성된 모델의 정확도 수준은 예시적인 오디오 EQ 엔진 검증기(406)에 의해 결정될 수 있다. 이러한 예에서, 오디오 EQ 스코어링 엔진(404) 및 오디오 EQ 엔진 검증기(406) 중 적어도 하나가 일련의 오디오 재생 설정 검증 데이터(410)를 수신한다. 또한, 이러한 예에서, 오디오 EQ 스코어링 엔진(404)은 오디오 재생 설정 검증 데이터(410)와 연관된 입력(예를 들어, CQT 데이터)을 수신하고 입력과 관련된 하나 이상의 오디오 재생 설정을 예측한다. 예측된 결과는 오디오 EQ 엔진 검증기(406)에 분배된다. 오디오 EQ 엔진 검증기(406)는 추가로 입력과 연관된 알려진 오디오 재생 설정을 수신하고 알려진 오디오 재생 설정을 오디오 EQ 스코어링 엔진(404)으로부터 수신된 예측된 오디오 재생 설정과 비교한다. 일부 예에서, 비교는 EQ 신경망(402)에 의해 생성된 모델의 정확도 수준을 산출할 것이다(예를 들어, 95개 비교가 일치를 산출하고 5개가 오류를 산출하는 경우, 모델은 95 % 정확도이다 등등). EQ 신경망(402)이 원하는 정확도 수준에 도달하면(예를 들어, EQ 신경망(402)이 훈련되고 배치 준비가 되면), 오디오 EQ 엔진 검증기(406)는 오디오 재생 설정을 결정하도록 미디어 유닛(106)이 사용하기 위해 모델(예를 들어, 출력(414))을 도 2의 데이터 스토어(224)에 출력할 수 있다. 일부 예에서, 훈련된 후, EQ 신경망(402)은 충분히 정확한 EQ 필터 설정(예를 들어, EQ 필터 설정(209))을 미디어 유닛(106)에 출력한다.
제 3 구현 : 임계값 기반 등화
제 3 구현에서, 예시된 예의 예시적인 EQ 신경망(402)은 오디오 등화 프로파일(예를 들어, 게인, 컷 등)이 (예를 들어, 오디오 엔지니어에 의해) 결정된 참조 오디오 신호의 라이브러리를 사용하여 훈련될 수 있다. 도 4의 예시된 예에서, EQ 신경망(402)은 예시적인 훈련 데이터(408)(예를 들어, 참조 오디오 신호, EQ 곡선 및 엔지니어 태그)를 수신한다. 엔지니어 태그는 특정 트랙에 대해 복수의 오디오 엔지니어 중 어떤 사람이 트랙에 대한 등화 프로파일을 생성했는지를 나타낸다. 일부 예에서, 엔지니어 태그는 하나의 핫 벡터로 표현될 수 있으며, 여기서 하나의 핫 벡터의 각 엔트리는 엔지니어 태그에 대응한다. 일부 예에서, 트랙에 대한 등화 프로파일을 생성한 엔지니어를 EQ 신경망(402)에 알리지 않고도, EQ 신경망(402)은 궁극적으로 서로 다른 오디오 엔지니어들 간의 상대적 스타일 차이를 평균할 수 있다. 예를 들어, 제 1 참조 오디오 신호 세트에는 전반적으로 저음 주파수 범위를 더 강조하는 오디오 엔지니어가 생성한 EQ 곡선이 있는 반면, 제 2 참조 오디오 신호 세트에는 전반적으로 중간 주파수 범위를 더 강조하는 오디오 엔지니어가 생성한 EQ 곡선이 있는 경우, EQ 신경망(402)은 어떤 오디오 엔지니어가 EQ 곡선을 생성했는지 알지 못하는 경우 훈련 중에 이러한 상대적 차이를 상쇄할 수 있다. 복수의 참조 오디오 신호 및 해당 EQ 곡선 중 하나와 연관된 엔지니어 태그를 제공함으로써, EQ 신경망(402)은 EQ 입력 특징 세트(239)에 응답하여 출력(414)(예를 들어, EQ 게인/컷(241))을 제공할 때 서로 다른 등화 스타일을 인식하고 이러한 스타일을 효과적으로 활용하는 방법을 지능적으로 학습한다. 일부 예에서, EQ 신경망(402)은 훈련 데이터(408) 내의 참조 오디오 신호 중 하나의 샘플을 참조 오디오 신호에 대한 알려진 EQ 곡선과 연관시킴으로써 훈련된다.
일부 예에서, 참조 오디오 신호는 전문적으로 엔지니어링된 트랙을 취하고 전문적으로 엔지니어링되지 않은 (예를 들어, 덜 알려진 아티스트로부터의) 트랙의 스펙트럼 엔벨로프와 매치를 타겟으로 하도록 등화 곡선을 적용해 오디오를 열화시킴으로써 생성될 수 있다. EQ 신경망(402)은 트랙을 원래 품질 수준으로 복원하도록 등화 곡선을 적용함으로써 열화를 되돌리게 훈련될 수 있다. 따라서, 전문적으로 엔지니어링된 모든 트랙을 이 열화 기술과 함께 활용하여 대량 훈련을 할 수 있다.
일부 예에서, 손실 함수가 EQ 신경망(402)을 훈련하기 위해 이용될 수 있다. 예를 들어, 수식 3은 이용될 수 있는 하나의 예시적인 손실 함수를 나타내며, 여기서 gi는 빈 "i"의 실측 게인 값이고,
Figure 112021058088343-pct00002
는 해당 빈에 대한 예측 값이다.
Figure 112021058088343-pct00003
수식 3
일단 원하는 신경망 행동이 달성되면(예를 들어, 기계가 특정 임계값 등에 따라 작동하도록 훈련되면), 신경망이 사용을 위해 (예를 들어, "실제" 데이터 등으로 기계를 테스트하기 위해) 배치될 수 있다. 일부 예에서, 신경망은 신경망 파라미터(예를 들어, 가중치)에 대한 추가 수정 또는 업데이트없이 사용될 수 있다.
일부 예에서, 작동 중에, 신경망 분류는 신경망 행동을 계속 개선하기 위해(예를 들어, 전문가 사용자, 전문가 시스템, 참조 데이터베이스 등에 의해) 확인되거나 거부될 수 있다. 그런 다음, 신경망 행동을 결정하는 분류용 파리미터가 진행중인 상호 작용을 기반으로 업데이트되므로 예시적인 신경망은 전이 학습 상태가 된다. 일부 예에서, EQ 신경망(402)과 같은 신경망이 오디오 EQ 스코어링 엔진(404) 등과 같은 다른 프로세스에 직접 피드백을 제공할 수 있다. 일부 예에서, EQ 신경망(402)은 (예를 들어, 클라우드 등을 통해) 버퍼링되고 다른 프로세스에 제공되기 전에 검증된 데이터를 출력한다.
일부 예에서, EQ 신경망(402)은 몇 가지 초기 상관 관계로 시드될 수 있으며 그 후 지속적인 경험으로부터 학습할 수 있다. 일부 예에서, 오디오 EQ 엔진(118)의 작동 수명 내내, EQ 신경망(402)은 피드백을 통해 지속적으로 훈련되고 예시적인 오디오 EQ 엔진 검증기(406)가 필요에 따라 EQ 신경망(402) 및/또는 추가 오디오 재생 설정 훈련 데이터(408)를 기반으로 업데이트될 수 있다. 일부 예에서, EQ 신경망(402)은 역할, 위치, 상황 등에 따라 학습하고 진화할 수 있다.
일부 예에서, EQ 신경망(402)에 의해 생성된 모델의 정확도 수준은 예시적인 오디오 EQ 엔진 검증기(406)에 의해 결정될 수 있다. 이러한 예에서, 오디오 EQ 스코어링 엔진(404) 및 오디오 EQ 엔진 검증기(406) 중 적어도 하나가 일련의 오디오 재생 설정 훈련 데이터(가령, 훈련 데이터(408))를 수신한다. 도 4의 예시된 예의 오디오 EQ 스코어링 엔진(404)이 입력(412)(예를 들어, EQ 입력 특징 세트(239))에 응답하여 EQ 신경망(402)에 의해 출력된 출력(414)(예를 들어, EQ 게인/컷(241))의 효과를 결정할 수 있다. 일부 예에서, 오디오 EQ 스코어링 엔진(404)은 입력 특징 세트에 응답하여 EQ 신경망(402)의 출력이 입력(412)(예를 들어, EQ 입력 특징 세트(239))에 대해 알려진 EQ 곡선에 얼마나 가깝게 일치하는지를 결정하기 위해 검증 절차 동안 오디오 EQ 엔진 검증기(406)와 통신한다. 예를 들어, EQ 입력 특징 세트(239)는 한 오디오 엔지니어가 EQ 곡선을 제공한 오디오 샘플일 수 있으며, 오디오 EQ 엔진 검증기(406)가 EQ 신경망(402)에 의해 출력된 출력(예를 들어, EQ 게인/컷(241))을 상기 오디오 엔지니어가 제공한 EQ 곡선(예를 들어, 게인/컷)과 비교할 수 있다.
도 4의 예시된 예의 EQ 신경망(402)은, 훈련이 된 후, 출력(414)(예를 들어, EQ 게인/컷(241))을 미디어 유닛(106)에 제공함으로써 입력(412)(예를 들어, EQ 입력 특징 세트(239))에 응답한다. 예를 들어, EQ 신경망(402)은 적어도 참조 오디오 신호, EQ 곡선 및 엔지니어 태그와 관련된 추론에 기초하여 복수의 등화 조정(예를 들어, EQ 게인/컷(241))을 결정할 수 있다. 일부 예에서, EQ 게인/컷(241)은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값(예를 들어, 게인/컷)을 포함한다. 일부 예에서, EQ 게인/컷(241)은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함한다. 예를 들어, EQ 신경망(402)에 의해 출력된 EQ 게인/컷(241)은 24 개의 임계 가청 대역에 대응하는 24 개의 게인 또는 컷 값을 포함할 수 있다.
일부 예에서, EQ 신경망(402)은 사용자의 입력(들)에 기초하여 등화 설정을 학습할 수 있다. 예를 들어, 사용자가 특정 방식(예를 들어, 저음 주파수의 볼륨 증가, 고음 주파수의 볼륨 감소 등)으로 등화를 지속적으로 조정하는 경우, EQ 신경망(402)은 이러한 조정을 학습하고 사용자 선호도를 고려해 EQ 게인/컷(241)을 출력할 수 있다.
일부 예에서, 비교는 EQ 신경망(402)에 의해 생성된 모델의 정확도 수준을 산출할 것이다(예를 들어, 95개 비교가 일치를 산출하고 5개가 오류를 산출하는 경우, 모델은 95 % 정확도이다 등등). 일부 예에서, EQ 신경망(402)이 원하는 수준의 정확도에 도달하면(예를 들어, EQ 신경망(402)이 훈련되고 배치 준비가 되면), 오디오 EQ 엔진 검증기(406)는 오디오 재생 설정을 결정하도록 미디어 유닛(106)에 의해 사용하기 위해 모델을 도 2의 데이터 스토어(224)에 출력할 수 있다.
도 1의 오디오 EQ 엔진(118)을 구현하는 예시적인 방식이 도 4에 도시되어 있으나, 도 4에 도시된 하나 이상의 요소, 프로세스 및/또는 장치는 결합, 분할, 재배열, 생략, 제거 및/또는 다른 방식으로 구현될 수 있다. 또한, 예시적인 EQ 신경망(402), 예시적인 오디오 EQ 스코어링 엔진(404), 예시적인 오디오 EQ 엔진 검증기(406), 및/또는, 보다 일반적으로, 도 4의 예시적인 오디오 EQ 엔진(118)이 하드웨어, 소프트웨어, 펌웨어 및/또는 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합으로 구현될 수 있다. 따라서, 예를 들어, 예시적인 EQ 신경망(402), 예시적인 오디오 EQ 스코어링 엔진(404), 예시적인 오디오 EQ 엔진 검증기(406), 및/또는, 보다 일반적으로, 도 4의 예시적인 오디오 EQ 엔진(118) 중 어느 하나가 하나 이상의 아날로그 또는 디지털 회로(들), 논리 회로, 프로그램 가능 프로세서(들), 프로그램 가능 컨트롤러(들), 그래픽 처리 장치(들)(GPU(들)), 디지털 신호 프로세서(들)(DSP(s)), 애플리케이션 특정 집적 회로(ASIC(s)), 프로그래밍 가능 논리 장치(PLD(s)) 및/또는 필드 프로그래밍 가능 논리 장치(FPLD(s))에 의해 구현될 수 있다. 순전히 소프트웨어 및/또는 펌웨어 구현을 포함하기 위해 본 출원의 장치 또는 시스템 청구항 중 어느 하나를 읽을 때, 예시적인 EQ 신경망(402), 예시적인 오디오 EQ 스코어링 엔진(404), 예시적인 오디오 EQ 엔진 검증기(406) 및/또는, 보다 일반적으로, 도 4의 예시적인 오디오 EQ 엔진(118) 중 적어도 하나는 소프트웨어 및/또는 펌웨어를 수록한 메모리, 디지털 다용도 디스크(DVD), 컴팩트 디스크(CD), 블루레이 디스크 등과 같은 비일시적 컴퓨터 판독 가능 저장 장치 또는 저장 디스크를 포함하도록 명시적으로 정의된다. 또한, 도 4의 예시적인 오디오 EQ 엔진(118)은 도 4에 도시된 것들에 추가하거나 그 대신에 하나 이상의 요소, 프로세스 및/또는 장치를 포함할 수 있고/있거나 예시된 요소, 프로세스 및 장치 중 어느 하나 이상 또는 모두를 포함할 수 있다. 본 명세서에 사용된 바와 같이, "통신 중"이라는 문구는 그 변형을 포함하여 하나 이상의 중개 구성 요소를 통한 직접 통신 및/또는 간접 통신을 포함하며 직접적인 물리적(예를 들어, 유선) 통신 및/또는 지속적인 통신을 필요로하지 않고, 오히려 추가로 주기적 간격, 예약된 간격, 비주기적 간격 및/또는 일회성 이벤트에서의 선택적 통신을 포함한다.
예시적인 하드웨어 로직, 기계 판독 가능 명령어, 하드웨어 구현 상태 머신, 및/또는 도 1 및 도 2의 미디어 유닛(106)을 구현하기 위한 이들의 임의의 조합을 나타내는 흐름도가 도 5, 6, 11, 12, 14, 및 15에 도시되어 있다. 기계 판독 가능 명령어는 도 18과 관련하여 아래에서 논의되는 예시적인 프로세서 플랫폼(1800)에 도시된 프로세서(1812)와 같은 컴퓨터 프로세서에 의해 실행하기 위한 실행 가능한 프로그램 또는 실행 프로그램의 일부일 수 있다. 프로그램은 CD-ROM, 플로피 디스크, 하드 드라이브, DVD, 블루레이 디스크 또는 프로세서(1812)와 관련된 메모리와 같은 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 소프트웨어로 구현될 수 있으나나 전체 프로그램 및/또는 그 일부가 프로세서(1812) 이외의 디바이스에 의해 대안으로 실행되고/되거나 펌웨어 또는 전용 하드웨어로 구현될 수 있다. 또한, 예시 프로그램이 도 5, 6, 11, 12, 14, 및 15에 도시된 흐름도를 참조하여 설명되나, 예시적인 미디어 유닛(106)을 구현하는 많은 다른 방법들이 대안으로 사용될 수 있다. 예를 들어, 블록의 실행 순서가 변경될 수 있고/있거나 설명된 블록 중 일부가 변경, 제거 또는 결합될 수 있다. 추가로 또는 대안으로, 블록 중 어느 하나 또는 전부가 소프트웨어나 펌웨어를 실행하지 않고 해당 작업을 수행하도록 구성된 하나 이상의 하드웨어 회로(예를 들어, 개별 및/또는 통합 아날로그 및/또는 디지털 회로, FPGA, ASIC, 비교기, 연산 증폭기(op-amp), 논리 회로 등)에 의해 구현될 수 있다.
예시적인 하드웨어 로직, 기계 판독 가능 명령어, 하드웨어 구현 상태 머신, 및/또는 도 1 및 도 2의 오디오 EQ 엔진(118)을 구현하기 위한 이들의 임의의 조합을 나타내는 흐름도가 도 7 및 도 16에 도시되어 있다. 기계 판독 가능 명령어는 도 19와 관련하여 아래에서 논의되는 예시적인 프로세서 플랫폼(1900)에 도시된 프로세서(1912)와 같은 컴퓨터 프로세서가 실행하기 위한 실행 가능한 프로그램 또는 실행 가능한 프로그램의 일부일 수 있다. 프로그램은 CD-ROM, 플로피 디스크, 하드 드라이브, DVD, 블루레이 디스크 또는 프로세서(1912)와 관련된 메모리와 같은 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 소프트웨어로 구현될 수 있으나, 전체 프로그램 및/또는 그 일부가 프로세서(1912) 이외의 디바이스에 의해 실행되고/되거나 펌웨어 또는 전용 하드웨어로 구현될 수 있다. 또한, 예시적인 프로그램은 도 7 및 도 16에 도시된 흐름도를 참조하여 설명되나, 예시적인 오디오 EQ 엔진(118)을 구현하는 많은 다른 방법이 대안으로 사용될 수 있다. 예를 들어, 블록의 실행 순서가 변경될 수 있고/있거나 설명된 블록 중 일부가 변경, 제거 또는 결합될 수 있다. 추가로 또는 대안으로, 블록 중 어느 하나 또는 전부가 소프트웨어 나 펌웨어를 실행하지 않고 해당 작업을 수행하도록 구성된 하나 이상의 하드웨어 회로(예를 들어, 개별 및/또는 통합 아날로그 및/또는 디지털 회로, FPGA, ASIC, 비교기, 연산 증폭기(op-amp), 논리 회로 등)에 의해 구현될 수 있다.
예시적인 하드웨어 로직, 기계 판독 가능 명령어, 하드웨어 구현 상태 머신, 및/또는 도 1 및 도 3의 콘텐츠 프로파일 엔진(116)을 구현하기 위한 이들의 임의의 조합을 나타내는 흐름도가 도 10에 도시되어있다. 기계 판독 가능 명령어는 도 20과 관련하여 아래에서 논의되는 예시적인 프로세서 플랫폼(2000)에 도시된 프로세서(2012)와 같은 컴퓨터 프로세서가 실행하는 실행 프로그램 또는 실행 가능한 프로그램의 일부일 수 있다. 프로그램은 CD-ROM, 플로피 디스크, 하드 드라이브, DVD, 블루레이 디스크 또는 프로세서(2012)와 관련된 메모리와 같은 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 소프트웨어로 구현될 수 있으나 전체 프로그램 및/또는 그 일부가 대안으로 프로세서(2012) 이외의 디바이스에 의해 실행되고/되거나 펌웨어 또는 전용 하드웨어에 구현될 수 있다. 또한, 예시 프로그램은 도 10에 도시된 흐름도를 참조하여 설명되나, 예시적인 콘텐츠 프로파일 엔진(116)을 구현하는 많은 다른 방법이 대안으로 사용될 수 있다. 예를 들어, 블록의 실행 순서가 변경될 수 있고/있거나 설명된 블록 중 일부가 변경, 제거 또는 결합될 수 있다. 추가로 또는 대안으로, 블록 중 어느 하나 또는 전부가 소프트웨어 나 펌웨어를 실행하지 않고 해당 작업을 수행하도록 구성된 하나 이상의 하드웨어 회로(예를 들어, 개별 및/또는 통합 아날로그 및/또는 디지털 회로, FPGA, ASIC, 비교기, 연산 증폭기(op-amp), 논리 회로 등)에 의해 구현될 수 있다.
위에서 언급한 바와 같이, 도 5, 6, 7, 10, 11, 12, 14, 15 및 16의 예시적인 프로세스는 비일시적 컴퓨터 및/또는 하드 디스크 드라이브, 플래시 메모리, 읽기 전용 메모리, 컴팩트 디스크, 디지털 다목적 디스크, 캐시, 랜덤 액세스 메모리 및/또는 정보가 임의의 기간 동안 (예를 들어, 확장된 시간 주기 동안, 영구적으로, 짧은 순간 동안, 일시적인 버퍼링 동안 및/또는 정보의 캐싱 동안) 저장되는 기타 저장 장치 또는 저장 디스크와 같은 기계 판독 가능 매체에 수록된 실행 가능 명령어(예를 들어, 컴퓨터 및/또는 기계 판독 가능 명령어)를 사용하여 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, 비일시적 컴퓨터 판독 가능 매체라는 용어는 임의의 유형의 컴퓨터 판독 가능 저장 장치 및/또는 저장 디스크를 포함하고 전파 신호를 배제하고 전송 매체를 배제하도록 명시적으로 정의된다.
"포함하는" 및 "구비하는"(및 이의 모든 형태 및 시제)은 본 명세서에서 개방형 용어로 사용된다. 따라서, 청구항이 "포함하다" 또는 "구비하다"의 어떤 형태(예를 들어, 구비한다, 포함한다, 구비하는, 포함하는, 갖는 등)도 전제부로서 또는 모든 종류의 인용 청구항 내에서 사용할 때마다, 추가 요소, 용어 등이 해당 청구항 또는 인용항의 범위를 벗어나지 않고 있을 수 있음을 알아야 한다. 본 명세서에 사용된 바와 같이, "적어도"라는 어구가 예를 들어 청구항의 전제에서 전환 용어로 사용되는 경우, "구비하는" 및 "포함하는"이라는 용어와 동일한 방식으로 개방형으로 종료된다. 예를 들어, A, B 및/또는 C와 같은 형태로 사용될 때 "및/또는"이라는 용어는(1) A 단독으로,(2) B 단독으로,(3) C 단독으로,(4) A와 B,(5) A와 C,(6) B와 C, 및(7) A와 B 및 C와 같은 A, B, C의 임의의 조합 또는 서브세트를 지칭한다. 구조, 구성 요소, 항목, 객체 및/또는 사물을 설명하는 맥락에서 본원에 사용된 바와 같이, "A 및 B 중 적어도 하나"라는 문구는(1) 적어도 하나의 A,(2) 적어도 하나의 B 및(3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 의미하도록 되어 있다. 마찬가지로, 구조, 구성 요소, 항목, 객체 및/또는 사물을 설명하는 맥락에서 본 명세서에서 사용된 바와 같이, "A 또는 B 중 적어도 하나"라는 문구는(1) 적어도 하나의 A,(2) 적어도 하나의 B,(3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 지칭하도록 의도된다. 프로세스, 명령, 동작, 활동 및/또는 단계의 수행 또는 실행을 설명하는 맥락에서 본 명세서에서 사용된 바와 같이, "A 및 B 중 적어도 하나"라는 문구는(1) 적어도 하나의 A,(2) 적어도 하나의 B 및(3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 의미하도록 되어 있다. 마찬가지로, 프로세스의 성능 또는 실행, 명령, 동작, 활동 및/또는 단계를 설명하는 맥락에서 본 명세서에서 사용된 바와 같이 "A 또는 B 중 적어도 하나"라는 문구는(1) 적어도 하나의 A,(2) 적어도 하나의 B 및(3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 의미하도록 되어 있다.
제 1 구현 : 필터 기반 등화
도 5는 제 1 구현에 따라 미디어 특성의 실시간 분석을 기반으로 미디어 재생 설정을 동적으로 조정하기 위해 도 1 및 도 2의 미디어 유닛(106)을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어(500)를 나타내는 흐름도이다. 앞선 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(500)는 오디오 신호에 액세스하는 예시적인 미디어 유닛(106)으로 시작한다(블록(502). 일부 예에서, 신호 변환기(204)는 입력 미디어 신호(202)에 액세스한다.
블록(504)에서, 예시적인 미디어 유닛(106)은 오디오 신호를 주파수 표현으로 변환한다. 일부 예에서, 신호 변환기(204)는 입력 미디어 신호(202)를 주파수 및/또는 특성 표현(예를 들어, CQT 표현, FFT 표현 등)으로 변환한다.
블록(506)에서, 예시적인 미디어 유닛(106)은 주파수 표현을 EQ 신경망에 입력한다. 일부 예에서, EQ 모델 쿼리 생성기(206)는 입력 미디어 신호(202)의 주파수 표현을 EQ 신경망(402)에 입력한다. 일부 예에서, EQ 모델 쿼리 생성기(206)는 입력 미디어 신호(202)를 EQ에 의해 출력되는 신경망(402)에 의해 출력된 모델에 입력한다.
블록(508)에서, 예시적인 미디어 유닛(106)은 게인, 주파수 및 Q 값을 포함하는 복수의 필터 설정에 액세스한다. 일부 예에서, EQ 필터 설정 분석기(208)는 게인, 주파수 및 Q 값을 포함하는 복수의 필터 설정에 액세스한다. 일부 예에서, EQ 필터 설정 분석기(208)는 EQ 신경망(402)에 의한 출력으로서 게인, 주파수 및 Q 값을 포함하는 복수의 필터 설정(예를 들어, 필터 설정의 세트)에 액세스한다. 일부 예에서, EQ 필터 설정 분석기(208)는 EQ 신경망(402)에 의한 출력으로서 하나 이상의 하이 쉘프 필터, 하나 이상의 로우 쉘프 필터 및/또는 하나 이상의 피킹 필터에 액세스한다.
블록(510)에서, 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)에 적용할 하나 이상의 필터를 선택한다. 일부 예에서, EQ 필터 선택기(218)는 입력 미디어 신호(202)에 적용할 하나 이상의 필터를 선택한다. 예를 들어, 5-밴드 필터를 구현하기 위해, EQ 필터 선택기(218)는 EQ 신경망(402)에 의해 출력된 필터 세트 중에서 하나의 로우 쉘프 필터, 하나의 하이 쉘프 필터 및 3 개의 피킹 필터를 선택할 수 있다.
블록(512)에서, 예시적인 미디어 유닛(106)은 선택된 필터(들)의 설정에 기초하여 필터 계수를 계산한다. 일부 예에서, EQ 필터 설정 분석기(208)는 입력 미디어 신호(202)에 대한 하나 이상의 필터(들)의 적용을 가능하게 하기 위해 선택된 필터(들)의 필터 설정들에 기초하여 필터 계수들을 계산한다.
블록(514)에서, 예시적인 미디어 유닛은 등화 설정을 개인화한다. 일부 예에서, EQ 개인화 매니저(210)는 개인화된 등화 설정(예를 들어, 개인화된 EQ 설정)을 포함한다. 등화 설정을 개인화하기 위한 상세한 예시적인 기계 판독 가능 명령어가도 6과 관련하여 예시되고 설명된다.
블록(516)에서, 예시적인 미디어 유닛(106)은 이전 필터 설정(예를 들어, 이전 오디오 재생 설정)으로부터 전환하기 위해 평활화와 함께 선택된 필터(들)를 적용한다. 일부 예에서, EQ 조정 구현자(220)는 선택된 필터(들)를 적용하고, 평활화 필터 구성기(222)에 의해 표시된 바와 같이 평활화 필터에 기초하여 새로운 재생 설정으로 전환한다. 일부 예에서, EQ 조정 구현자(220)는 평활화 필터 없이 EQ 필터(예를 들어, 오디오 재생 설정)을 구현할 수 있다.
블록(518)에서, 예시적인 미디어 유닛(106)은 업데이트 기간 임계값이 만족되는지를 결정한다. 일부 예에서, 업데이트 모니터(226)는 업데이트 기간 임계값이 만족되는지를 결정한다. 예를 들어, 업데이트 기간 임계값이 1 초로 설정되면, 업데이트 모니터(226)는 이전 오디오 재생 설정이 결정되고 구현된 이후 1 초가 경과했는지 여부를 결정한다. 업데이트 기간 임계값이 충족된 것에 응답해, 처리는 블록(502)으로 이동한다. 반대로, 업데이트 기간 임계값이 충족되지 않은 경우 처리는 블록(520)으로 이동한다.
블록(520)에서, 예시적인 미디어 유닛(106)은 동적 오디오 재생 설정 조정이 가능한지 여부를 결정한다. 동적 오디오 재생 설정 조정이 활성화된 것에 응답하여, 처리는 블록(518)으로 넘어 간다. 반대로, 동적 오디오 재생 설정 조정이 활성화되지 않은 것에 응답해, 처리는 종료된다.
도 6은 등화 설정을 개인화하기 위해 도 1 및 도 2의 미디어 유닛(106)을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어(514) 및/또는 예시적인 기계 판독 가능 명령어(1106)를 나타내는 흐름도이다. 이전 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(514) 및/또는 예시적인 기계 판독 가능 명령어(1106)는 과거 개인화 설정에 액세스하는 예시적인 미디어 유닛(106)으로 시작한다(블록(602).
블록(604)에서, 예시적인 미디어 유닛(106)은 과거 개인화 설정에 기초하여 개인화된 EQ 곡선을 생성하거나 새로운 개인화된 EQ 곡선을 시작한다. 일부 예에서, 히스토리 EQ 매니저(214)는 과거의 개인화 설정에 기초하여 개인화된 EQ 곡선을 생성하거나 새로운 개인화된 EQ 곡선을 시작한다.
블록(606)에서, 예시적인 미디어 유닛(106)은 히스토리 EQ가 활성화되는지 여부를 결정한다. 일부 예에서, 히스토리 EQ 매니저(214)는 히스토리 EQ가 활성화되는지(예를 들어, 히스토리 등화가 활성화되는지) 결정한다. 히스토리 EQ가 활성화된 것에 응답하여, 처리는 블록(608)으로 이동한다. 반대로, 히스토리 EQ가 활성화되지 않은 것에 응답하여, 처리는 블록(610)으로 이동한다.
블록(608)에서, 예시적인 미디어 유닛(106)은 과거 기간으로부터의 EQ 곡선에 기초하여 개인화된 EQ 곡선을 조정한다. 일부 예에서, 히스토리 EQ 매니저(214)는 과거 기간(예를 들어, 지난 1 시간, 지난 1 일 등)으로부터의 EQ 곡선에 기초하여 개인화된 EQ 곡선을 조정한다.
블록(610)에서, 예시적인 미디어 유닛(106)은 사용자 선호도 데이터(예를 들어, 사용자의 선호도를 나타내는 데이터)가 이용 가능한지 여부를 결정한다. 일부 예에서, 사용자 입력 분석기(216)는 사용자 선호도 데이터가 이용 가능한지 여부를 결정한다. 예를 들어, 사용자 입력 분석기(216)는 사용자가 음악을 듣는 동안 "좋아요" 버튼을 누른 인스턴스를 기초로 사용자 EQ 선호도를 결정할 수 있다. 사용자 선호도 데이터가 이용 가능한(예를 들어, 사용자 선호도 데이터의 이용 가능성) 것에 응답하여, 처리는 블록(612)으로 이동한다. 반대로, 사용자 선호도 데이터가 이용 가능하지 않은 경우, 처리는 블록(616)으로 이동한다.
블록(612)에서, 예시적인 미디어 유닛(106)은 과거 사용자 선호도 입력(예를 들어, "좋아요", 평점 등)에 기초하여 EQ 파라미터를 결정한다. 일부 예에서, 사용자 입력 분석기(216)는 과거 사용자 선호도 입력에 기초하여 EQ 파라미터를 결정한다.
블록(614)에서, 예시적인 미디어 유닛(106)은 과거 사용자 선호도 입력에 기초하여 개인화된 EQ 곡선을 조정한다. 일부 예에서, 사용자 입력 분석기(216)는 과거 기간으로부터의 EQ 곡선에 기초하여 개인화된 EQ 곡선을 조정한다.
블록(616)에서, 예시적인 미디어 유닛(106)은 위치 데이터가 이용 가능한지 여부를 결정한다. 일부 예에서, 디바이스 파라미터 분석기(212)는 위치 데이터가 이용 가능한지 여부를 결정한다. 위치 데이터가 이용 가능한(예를 들어, 위치 데이터의 이용 가능성) 것에 응답하여, 처리는 블록(618)으로 이동한다. 반대로, 위치 데이터가 이용 가능하지 않은 경우, 처리는 블록(620)으로 이동한다.
블록(618)에서, 예시적인 미디어 유닛(106)은 디바이스의 위치에 기초하여 개인화된 EQ 곡선을 조정한다. 일부 예에서, 디바이스 파라미터 분석기(212)는 디바이스의 위치에 기초하여 개인화된 EQ 곡선을 조정한다. 예를 들어, 장치가 체육관에 있는 경우, 디바이스가 직장에 있는 경우와 다른 개인화된 EQ 곡선이 생성될 수 있다.
블록(620)에서, 예시적인 미디어 유닛(106)은 사용자 식별이 이용 가능한지 여부를 결정한다. 일부 예에서, 디바이스 파라미터 분석기(212)는 사용자 식별이 이용 가능한지 여부를 결정한다. 사용자 식별이 가능한 (예를 들어, 사용자 식별의 이용가능성) 것에 응답하여, 처리는 블록(622)으로 이동한다. 반대로, 사용자 식별이 가용하지 않은 경우, 처리는 블록(624)으로 이동한다.
블록(622)에서, 예시적인 미디어 유닛(106)은 사용자 식별에 기초하여 개인화된 EQ 곡선을 조정한다. 예를 들어, 디바이스 파라미터 분석기(212)는 주로 록 음악을 듣는 (예를 들어, 히스토리 EQ 매니저(214)에 따른) 히스토리 프로파일을 가진 제 1 사용자가 미디어 유닛(106)을 사용하고 있다고 결정할 수 있다. 이러한 예에서, 디바이스 파라미터 분석기(212)는 록 음악에 더 적합하도록 개인화된 EQ 곡선을 조정할 수 있다. 결과적으로, 히스토리 EQ 매니저(214)에 저장된 데이터는 특정 사용자, 위치, 오디오를 제공하는 앱 등에 기초하여 필터링될 수 있다.
블록(624)에서, 예시적인 미디어 유닛(106)은 소스 정보가 이용 가능한지 여부를 결정한다. 일부 예에서, 디바이스 파라미터 분석기(212)는 소스 정보가 이용 가능한지 여부를 결정한다. 소스 정보가 이용 가능한 (예를 들어, 소스 정보의 이용 가능성) 것에 응답하여, 처리는 블록(626)으로 이동한다. 반대로, 소스 정보가 이용 가능하지 않음에 응답하여, 처리는 블록(628)으로 이동한다.
블록(626)에서, 예시적인 미디어 유닛(106)은 소스 정보에 기초하여 개인화된 EQ 곡선을 조정한다. 일부 예에서, 디바이스 파라미터 분석기(212)는 소스 정보에 기초하여 개인화된 EQ 곡선을 조정한다. 예를 들어, 소스 정보는 모바일 기기의 특정 앱(예를 들어, 음악 앱, 피트니스 앱, 오디오 북 앱 등)을 나타낼 수 있다. 입력 미디어 신호(202)의 소스에 기초하여, 개인화된 EQ 곡선이 조정될 수 있다.
블록(628)에서, 예시적인 미디어 유닛(106)은 동적으로 생성된 필터 출력을 개인화된 EQ 곡선과 블렌딩함으로써 입력 미디어 신호(202)에 적용될 선택된 EQ 필터(들)를 조정한다. 예를 들어, (가령, EQ 신경망에 제출된 쿼리의 출력을 기반으로) 동적으로 생성된 곡선 및 개인화된 EQ 곡선 각각에 가중치를 적용할 수 있으며, 평균 곡선을 생성하여 입력 미디어 신호(202)에 적용할 수 있다. 따라서, 이 평균 곡선은 트랙 간의 차이와 개인 선호도를 모두 설명한다. 블록(628) 이후에, 기계 판독 가능 명령어(514) 및/또는 기계 판독 가능 명령어(1106)는 각각 블록(516)에서 기계 판독 가능 명령어(500) 및 블록(1108)에서 기계 판독 가능 명령어(1100)로 각각 복귀한다.
도 7은 제 1 구현에 따라 EQ 신경망(402)을 훈련시키기 위해 도 4의 오디오 EQ 엔진(118)을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어(700)를 나타내는 흐름도이다. 이전 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(700)는 예시적인 오디오 EQ 엔진(118)이 참조 오디오 신호의 라이브러리에 액세스하는 것으로 시작한다(블록(702). 일부 예에서, EQ 신경망(402)은 참조 오디오 신호의 라이브러리에 액세스한다. 참조 오디오 신호 라이브러리에는 (예를 들어, 전문가에 의해) 오디오 재생 설정이 결정된 오디오 신호가 포함된다.
블록(704)에서, 예시적인 오디오 EQ 엔진(118)은 참조 오디오 신호와 연관된 EQ 파라미터에 액세스한다. 일부 예에서, EQ 신경망(402)은 참조 오디오 신호와 연관된 EQ 파라미터(예를 들어, 오디오 재생 설정)에 액세스한다. 예를 들어, EQ 신경망(402)은 하나 이상의 필터, 하나 이상의 게인값, 주파수 값, Q 값 등에 액세스할 수 있다.
블록(706)에서, 예시적인 오디오 EQ 엔진(118)은 복수의 참조 오디오 신호 중 하나의 참조 오디오 신호를 선택한다. 일부 예에서, EQ 신경망(402)은 복수의 참조 오디오 신호 중 하나의 참조 오디오 신호를 선택한다.
블록(708)에서, 예시적인 오디오 EQ 엔진(118)은 참조 오디오 신호를 샘플링한다. 일부 예에서, EQ 신경망(402)은 오디오 신호(예를 들어, 300, 500 등)로부터 미리 결정된 수의 샘플을 생성함으로써 참조 오디오 신호를 샘플링한다.
블록(710)에서, 예시적인 오디오 EQ 엔진(118)은 참조 오디오 신호의 샘플을 참조 오디오 신호에 대응하는 EQ 파라미터(예를 들어, 오디오 재생 설정)와 연관시킨다. 일부 예에서, EQ 신경망(402)은 참조 오디오 신호의 샘플을 참조 오디오 신호에 대응하는 EQ 파라미터와 연관시킨다.
블록(712)에서 예시적인 오디오 EQ 엔진(118)은 훈련에 사용할 추가 참조 오디오 신호가 있는지 여부를 결정한다. 일부 예에서, EQ 신경망(402)은 훈련에 사용할 추가 참조 오디오 신호가 있는지 여부를 결정한다. 훈련에 사용할 추가 참조 오디오 신호가 있는 것에 응답하여, 처리는 블록(706)으로 이동한다. 반대로, 훈련에 사용할 추가 참조 오디오 신호가 없는 것에 응답하여, 처리는 종료된다.
도 8a는 평활화 필터 없이 오디오 특성의 실시간 분석에 기초하여 동적 오디오 재생 설정 조정을 거친 오디오 신호의 제 1 스펙트로그램(800a)이다. 제 1 스펙트로그램(800a)은 수평축(802)(예를 들어, x-축)에 헤르츠 단위의 주파수 값과 수직축(804)(예를 들어, y-축)상의 오디오 신호의 시간 값을 초 단위로 도시한다. 제 1 스펙트로그램(800a)의 음영은 오디오 신호에 대한 특정 주파수 및 시간에서 오디오 신호의 진폭을 나타낸다. 제 1 스펙트로그램(800a)의 음영은 수많은 주파수에서 오디오 신호 진폭 간의 급격한 전환을 묘사한다. 예를 들어, 제 1 스펙트로그램(800a)의 음영은 적어도 부분적으로는 평활화 필터 없이 구현된 바와 같이 본 명세서에 개시된 동적 오디오 재생 설정 조정 기술에 의해 구현된 오디오 재생 설정 간의 전환으로 인해 개별 주파수 대역 내에서 더 밝은 음영과 더 어두운 음영 사이에서 급격하게 전환된다.
도 8b는 도 8a의 제 1 스펙트로그램(800a)에 대한 주파수 값에 대한 평균 게인값을 나타내는 제 1 도표(800b)이다. 제 1 도표(800b)는 수평축(806)(예를 들어, x-축)상의 헤르츠 단위의 주파수 값 및 수직축(808)(예를 들어, y-축)상의 데시벨 단위의 평균 게인값을 포함한다. 평활화없이 조정된 오디오 재생 설정을 갖는 오디오 신호의 평균 게인값을 나타내는 제 1 도표(800b) 및 평활화로 조정된 오디오 재생 설정을 갖는 오디오 신호의 평균 게인값을 나타내는 제 2 도표(900b)의 비교는 오디오 재생 설정간에 전환시 평활화 필터를 적용하는 이점을 예시한다.
도 9a는 평활화 필터를 포함하는 오디오 특성의 실시간 분석에 기초하여 동적 오디오 재생 설정 조정을 거친 오디오 신호의 제 2 스펙트로그램(900a)이다. 제 2 스펙트로그램(900a)은 수평축(902)(예를 들어, x-축)에 헤르츠 단위의 주파수 값과 수직축(904)(예를 들어, y-축)에 초 단위의 시간 값을 포함한다. 제 2 스펙트로그램(900a)은 제 1 스펙트로그램(800a)(도 8a)의 동일한 원래 입력 오디오 신호에 대응하나, 트랙 전체에 오디오 재생 설정을 적용할 때 평활화 필터가 사용되었다. 제 1 스펙트로그램(800a)에 비해, 제 2 스펙트로그램(900a)은 수많은 주파수에서 오디오 신호 진폭들 간에 평활한(예를 들어, 점진적) 전환을 나타낸다. 예를 들어, 제 1 스펙트로그램(800a)의 음영은 도 8a의 제 1 스펙트로그램(800a)에서 나타난 비교적 급격한 전이와 반대로 개별 주파수 대역 내에서 더 밝은 음영과 어두운 음영 사이에서 부드럽게 전이한다.
도 9b는 도 9a의 제 2 스펙트로그램(900a)에서 주파수 값에 대한 평균 게인값을 나타내는 제 2 도표(900b)이다. 제 2 도표(900b)는 수평축(906)(예를 들어, x-축)상의 헤르츠 단위의 주파수 값 및 수직축(908)(예를 들어, y-축)상의 데시벨 딘위의 평균 게인값을 포함한다. 도 8b의 제 1 도표(800b)에 대해, 제 2 도표(900b)는 다수의 주파수 대역에서 평균 게인값 사이의 더 완만한 전이를 도시한다. 예를 들어, 제 1 도표(800b)에서 약 77Hz에서 볼 수 있는 평균 게인값의 수많은 급격한 전환이 제 2 도표(900b)에는 있지 않으며, 이는 77Hz 주변의 평균 게인값의 점진적이고 완만한 감소를 나타낸다.
제 2 구현 : 프로파일 기반 등화
도 10은 콘텐츠 스트림(예를 들어, 입력 미디어 신호(202))과 함께 프로파일 정보(예를 들어, 하나 이상의 프로파일(229))를 재생 디바이스에 전달하기 위해 도 1 및 도 3의 콘텐츠 프로파일 엔진(116)을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어(1000)를 나타내는 흐름도이다. 본 명세서에 설명된 바와 같이, 일부 예에서, 콘텐츠 프로파일 엔진(116)은 입력 미디어 신호(202)가 특히 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106)으로 전달될 하나 이상의 프로파일(229)을 결정 및/또는 생성한다. 이전 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(1000)는 콘텐츠 프로파일 엔진(116)이 재생 디바이스로 전달될 콘텐츠 스트림에 액세스할 때 시작된다(블록(1002). 예를 들어, 콘텐츠 검색기(302)는 네트워크(112)를 통해 재생 디바이스에 입력 미디어 신호(202)를 제공하는 콘텐츠 제공자(114)로부터의 입력 미디어 신호(202)에 액세스할 수 있다. 다른 예로서, 콘텐츠 검색기(302)는 재생 디바이스에 의해 로컬로 저장된 콘텐츠 제공자(114)로부터의 입력 미디어 신호(202)(예를 들어, 콘텐츠의 스트림)에 액세스할 수 있다. 본 명세서에 설명된 바와 같이, 콘텐츠 검색기(302)는 오디오 콘텐츠 스트림, 비디오 스트림 등과 같은 다양한 유형의 콘텐츠 스트림에 액세스할 수 있다. 예를 들어, 콘텐츠 검색기(302)는 가요 또는 다른 음악의 스트림, 음성 콘텐츠의 스트림, 팟 캐스트 등에 액세스할 수 있다.
블록(1004)에서, 콘텐츠 프로파일 엔진(116)은 재생 디바이스로 전달될 입력 미디어 신호(202)의 일부(예를 들어, 콘텐츠 스트림 내의 콘텐츠의 일부)를 식별한다. 예를 들어, 콘텐츠 식별자(306)는 콘텐츠에 대한 핑거프린트를 알려진 콘텐츠와 연관된 참조 핑거프린트 세트, 예를 들어, 콘텐츠 식별자(202)에 의해 생성된 참조 핑거프린트의 비교를 포함한 다양한 프로세스를 사용하여 입력 미디어 신호(202)의 일부를 식별할 수 있다. 물론, 콘텐츠 식별자(306)는 콘텐츠의 피스와 관련된 메타 데이터(예를 들어, 관련 제목, 아티스트, 장르 등을 식별하는 정보)와 같은 정보, 콘텐츠 제공자(114)와 관련된 정보 등의 다른 정보를 사용하여 콘텐츠의 피스를 식별할 수 있다.
일부 예에서, 콘텐츠 식별자(306)는 입력 미디어 신호(202)의 일부(예를 들어, 콘텐츠의 피스)와 연관된 특정 카테고리 유형 또는 장르를 식별할 수 있다. 예를 들어, 입력 미디어 신호(202)를 특정 콘텐츠(예를 들어, 특정 가요, YouTubeTM 비디오/클립, TV 프로그램, 영화, 팟 캐스트 등)의 피스로 식별하는 대신, 콘텐츠 식별자(306)는 본 명세서에 설명된 기술을 사용하여 입력 미디어 신호(202)의 일부(예를 들어, 콘텐츠의 일부)에 적용되는 장르 또는 카테고리를 식별할 수 있다.
블록(1006)에서, 콘텐츠 프로파일 엔진(116)은 식별된 콘텐츠 피스에 대한 프로파일을 결정한다. 예를 들어, 프로파일러(308)는 콘텐츠의 프레임 또는 프레임의 블록과 같이 콘텐츠 피스의 전체 부분에 대한 하나 이상의 특성을 결정할 수 있고/있거나 입력 미디어 신호(202)의 일부(예를 들어, 콘텐츠의 피스)의 여러 부분에 대한 하나 이상의 특성을 결정할 수 있다. 예를 들어, 하나 이상의 프로파일(229)은 입력 미디어 신호(202)의 제 1 부분(예를 들어, 콘텐츠의 피스)에 대한 하나 이상의 제 1 특성 세트, 입력 미디어 신호(202)(예를 들어, 콘텐츠의 피스)의 제 2 부분에 대한 하나 이상의 제 2 특성 세트 등을 포함할 수 있다.
일부 예에서, 프로파일러(308)는 입력 미디어 신호(202)(예를 들어, 콘텐츠 피스)에 대한 하나 이상의 프로파일(229)을 렌더링, 생성, 형성 및/또는 그렇지 않으면 결정한다. 예를 들어, 결정되거나 생성된 하나 이상의 프로파일(229)은 등화(EQ) 설정, 공간화 설정, 가상화 설정, 비디오 설정 등과 관련된 특성을 포함할 수 있다.
블록(1008)에서, 콘텐츠 프로파일 엔진(116)은 하나 이상의 프로파일(229)을 재생 디바이스에 전달한다. 예를 들어, 프로파일러(308)는 네트워크(112)를 통해 또는 다른 통신 채널을 통해 하나 이상의 프로파일(229)을 재생 디바이스에 전달할 수 있다.
예를 들어, 콘텐츠 프로파일 엔진(116)은 카 스테레오인 재생 디바이스로 스트리밍될 가요인 콘텐츠의 피스에 액세스하고, 그 가요를 "클래식 음악" 장르와 관련된 특정 가요로서 식별하며, 카 스테레오를 통해 가요를 재생할 때 사용될 등화 설정 세트(예를 들어, 가요 내 다른 주파수에 대한 신호 강도 표시기, 스피커 공간화 설정 등)를 포함하는 프로파일을 결정하고, 카 스테레오의 작동을 제어하는 CAN(Car Area Network)과 같은 카 스테레오와 관련된 네트워크에 의해 소비되는 카 스테레오에 대한 프로파일 전달할 수 있다.
다른 예에서, 콘텐츠 프로파일 엔진(116)은 방송 네트워크 또는 인터넷을 통해 TV 세트 또는 셋톱 박스인 재생 디바이스에 스트리밍될 영화인 콘텐츠의 피스에 액세스하여, "액션"장르와 관련된 특정 영화로서의 특정 영화이고 빠른 액션 시퀀스를 많이 보유하고 있는 특정 영화로 그 영화를 식별하며, TV 세트 또는 기타 장치를 통해 영화 재생시 사용되는 이미지 처리 설정(예를 들어, 색상 팔레트 설정, 프레임 속도 업스케일링 설정, 저대비 장면에 대한 대비 향상 설정 등) 세트를 포함하는 프로파일을 결정하고, 렌더링 및 이에 따른 사용자의 컨테츠 경험을 조정하기 위해 TV 세트 또는 기타 장치에 프로파일을 전달할 수 있다.
도 11은 수정된 재생 설정을 사용하여 콘텐츠를 재생하도록 도 1 및 도 2의 미디어 유닛(106)을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어(1100)를 나타내는 흐름도이다. 본 명세서에 설명된 바와 같이, 일부 예에서, 미디어 유닛(106)은 특히 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104) 및/또는 미디어 유닛(106))에 의한 콘텐츠의 재생을 수정하거나 조정한다. 앞선 도면 및 관련된 설명을 참조로, 예시적인 기계 판독 가능 명령어(1100)는 미디어 유닛(106)이 재생 디바이스에서 또는 이와 관련된 콘텐츠 스트림을 수신 및/또는 액세스할 때 시작된다(블록(1102)). 예를 들어, 미디어 유닛(106) 및/또는, 보다 구체적으로, 동기화기(228)는 재생 디바이스에 의해 재생될 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)에 액세스할 수 있다.
블록(1104)에서, 미디어 유닛(106)은 콘텐츠 스트림과 관련된 프로파일 정보에 액세스한다. 예를 들어, 미디어 유닛(106) 및, 보다 구체적으로, 동기화기(228)는 콘텐츠 프로파일 엔진(116)에 의해 생성된 프로파일 또는 프로파일 정보를 수신할 수 있다. 본 명세서에 설명된 바와 같이, 콘텐츠 프로파일 엔진(116)은 콘텐츠 스트림과 관련된 핑거프린트와 알고 있는 콘텐츠와 관련된 핑거프린트 세트의 비교를 기초로 콘텐츠 스트림을 식별함으로써 프로파일을 결정하고, 식별된 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)와 관련된 하나 이상의 프로파일(229)을 선택하거나 결정할 수 있다.
하나 이상의 프로파일(229)은 가요와 관련된 카테고리 또는 장르를 식별하는 정보, 경쾌한 기분, 편안한 기분, 부드러운 분위기 등과 같은 가요와 관련된 분위기를 식별하는 정보, 저음 및 기타 유사한 톤의 저주파, 음성 또는 가요 톤의 고주파와 같은 컨텐츠 내 상이한 주파수에 대한 신호 강도 파리미터를 식별하는 정보, 운율 정보 및/또는 음성 콘텐츠에서 얻은 언어 정보 등과 같은 다양한 유형의 정보를 포함할 수 있다.
추가로 또는 대안으로, 하나 이상의 프로파일(229)은 비디오 또는 비디오 클립의 세그먼트와 연관된 카테고리 또는 장르를 식별하는 정보, 비디오와 연관된 분위기를 식별하는 정보, 밝기, 색상 팔레트, 색상 대비, 휘도 범위, 흐릿함, 디스플레이 포맷, 비디오 장면 정보, 시각적 대상 감지 및/또는 인식으로부터 얻은 정보, 얼굴 감지 및/또는 인식, 또는 방송 로고 감지 및/또는 인식 알고리즘, 텍스트 또는 자막의 유무 및/또는 컨텐츠, 워터 마크의 유무 및/또는 컨텐츠 등을 식별하는 정보를 포함할 수 있다.
블록(1106)에서, 미디어 유닛(106)은 등화 설정을 개인화한다. 일부 예에서, EQ 개인화 매니저(210)는 등화 설정을 개인화한다. 등화 설정을 개인화하기 위한 자세한 지침은 도 6와 관련하여 예시되고 설명된다.
블록(1108)에서, 미디어 유닛(106)은 액세스된 프로파일 정보 및/또는 블록(1106)에서 생성된 개인화된 EQ 프로파일에 기초하여 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)의 재생을 수정한다. 예를 들어, EQ 조정 구현자(220)는 하나 이상의 프로파일(229) 및 개인화된 EQ 프로파일에 기초하여 생성된 블렌딩된 등화에 기초하여 재생 디바이스상의 입력 미디어 신호(202)의 재생을 수정할 수 있다. 다른 예에서, EQ 조정 구현자(220)는 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)의 재생 동안 등화를 조정 및/또는 튜닝하기 위해 하나 이상의 프로파일(229) 내의 정보를 적용하여 재생 디바이스의 등화기의 설정을 수정하거나 조정할 수 있다. 등화 이외에, EQ 조정 구현자(220)는 가상화 설정, 공간화 설정 등과 같은 다양한 다른 재생 설정을 조정할 수 있다.
일부 예에서, 미디어 유닛(106)은 콘텐츠의 상이한 부분과 관련된 다수의 설정을 포함하는 프로파일에 액세스할 수 있다. 예를 들어, 가요는 템포가 다른 부분을 포함할 수 있으며, 상기 가요에 대해 생성된 해당 프로파일에는 특히 설정이 "느림"인 제 1 부분, 설정이 "빠름"인 제 2 부분 및 설정이 "느림"인 제 3 부분이 포함될 수 있다. 재생 디바이스와 다른 플랫폼으로부터 프로파일을 수신할 수 있는 미디어 유닛(106)은 프로파일에 포함된 다중 설정을 사용하여 재생 설정을 정확하게 조정하기 위해 프로파일을 가요에 동기화할 수 있다.
도 12는 콘텐츠와 관련된 프로파일 정보를 기반으로 재생 설정을 조정하도록 도 1 및 도 2의 미디어 유닛(106)을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어(1200)를 나타내는 흐름도이다. 예를 들어, 미디어 유닛(106)은 일부 예에 따라 콘텐츠와 연관된 프로파일 정보에 기초하여 재생 설정을 조정할 수 있다. 앞선 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(1200)는 미디어 유닛(106)이 입력 미디어 신호(202)(예를 들어, 콘텐츠의 피스)에 대한 하나 이상의 프로파일(229)에 액세스할 때 시작된다(블록(1202). 예를 들어, 미디어 유닛(106) 및/또는, 보다 구체적으로, 동기화기(228)는 단일 설정 프로파일, 다중 설정 프로파일 등과 같은 상이한 유형의 프로파일에 액세스할 수 있다.
블록(1204)에서, 미디어 유닛(106)은 하나 이상의 프로파일(229)을 입력 미디어 신호(202)(예를 들어, 콘텐츠의 피스)에 동기화한다. 예를 들어, 동기화기(228)는 입력 미디어 신호(202)(예를 들어, 콘텐츠의 피스)를 하나 이상의 프로파일(229)에 동기화하기 위해 입력 미디어 신호(202)(예를 들어, 콘텐츠의 피스)와 연관된 핑거프린트 또는 핑거프린트들을 이용할 수 있다. 하나 이상의 프로파일(229)은 하나 이상의 프로파일(229)을 입력 미디어 신호(202)의 재생 동안 콘텐츠 피스에 동기화 하기 위해 하나 이상의 설정을 콘텐츠의 피스에 대한 기지(奇智)의 핑거프린트와 관련시키고 설정을 입력 미디어 신호(202)의 일부(예를 들어, 콘텐츠의 피스)에 정렬하는 정보를 포함할 수 있다. 또 다른 예로서, 동기화기(228)는 콘텐츠 피스 내의 다양한 오디오 이벤트(예를 들어, 스네어 히트, 기타 솔로의 시작, 첫 보컬)를 식별하고, 입력 미디어 신호(202)의 재생 동안 하나 이상의 프로파일(229)을 콘텐츠의 피스에 동기화하기 위해 하나 이상의 프로파일(229)을 입력 미디어 신호(202) 내의 이벤트에 정렬할 수 있다.
블록(1206)에서, 미디어 유닛(106)은 입력 미디어 신호(202)에 대한 동기화된 프로파일에 기초하여 재생 디바이스(예를 들어, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106) 등)를 이용하여 입력 미디어 신호(202)의 재생을 수정한다. 예를 들어, EQ 조정 구현자(220)는 입력 미디어 신호(202)(예를 들어, 콘텐츠 스트림)의 재생 동안 등화를 조정 및/또는 튜닝하기 위해 하나 이상의 프로파일(229) 내의 정보를 적용하여 재생 디바이스의 등화기의 설정을 수정하거나 조정할 수 있다. 마찬가지로, 콘텐츠가 비디오인 경우, 하나 이상의 프로파일(229)이 비디오 관련 설정을 조정하는 데 사용될 수 있다.
도 13a-13b는 본 개시의 교시에 따른 예시적인 콘텐츠 프로파일의 블록도이다. 도 13a는 전체 콘텐츠의 피스에 대한 단일 설정(1302) 또는 "mood # 1"을 포함하는 콘텐츠 프로파일(1300a)을 도시한다. 반면에, 도 13b는 콘텐츠의 피스에 대한 다수의 상이한 설정을 포함하는 콘텐츠 프로파일(1300b)을 도시한다. 예를 들어, 콘텐츠 프로파일(1300b)은 다른 설정 중에서 제 1 설정(1304)(예를 들어, "mood # 1"), 제 2 설정(예를 들어, "mood # 2"), 제 3 설정(1308)(예를 들어, "mood # 3"), 및 제 4 설정(1310)(예를 들어, "mood # 4)"을 포함한다. 따라서, 일부 예에서, 미디어 유닛(106)은 특히 콘텐츠의 재생 동안 상이한 시간에 콘텐츠의 재생 경험을 동적으로 조정하기 위해 콘텐츠의 상이한 부분에 적용될 상이한 설정을 포함하는 복잡한 또는 다층 프로파일을 이용할 수 있다.
따라서, 본 명세서에 설명된 시스템 및 방법은 특히 콘텐츠 프로파일을 활용하여 사용자에게 콘텐츠를 재생하는 것과 관련된 재생 경험(예를 들어, 비디오 및/또는 오디오 경험)을 조정하는 프로파일 정보(예를 들어, 콘텐츠 프로파일)의 재생 디바이스로의 실시간 또는 거의 실시간의 처리 및 전달을 용이하게 하는 플랫폼을 제공할 수 있다. 이는 프로파일을 검색하거나 예측할 수 있을 때까지 콘텐츠를 렌더링하기 전에 콘텐츠를 버퍼링해야 할 수 있다. 일 예에서, 특정 프로파일이 사용 히스토리에 기반하여 적용될 수 있다(예를 들어, 사용자가 지난 며칠/주 동안 일/주의 이 시간에 특정 프로파일과 관련된 특정 콘텐츠 유형을 소비했으므로 동일한 프로파일이 사용 패턴 결정 후 다시 적용될 것이다). 다른 예에서, 사용자가 특정 유형의 콘텐츠(예를 들어, TV 드라마로 분류된 비디오 클립)가 있는 특정 프로파일에 대한 선호도를 미리 설정했으므로, 해당 프로파일이 동일하거나 유사한 유형의 콘텐츠에 자동으로 적용될 것이다. 사용자에 대한 프로파일을 예측하는 또 다른 방법은 협업 필터링 방법의 적용을 통해서일 수 있다. 여기서 다른 사용자의 프로파일은 사용 패턴, 인구통계 정보, 또는 사용자나 사용자 그룹에 대한 임의의 기타 정보를 기반으로 특정 사용자에 대해 추론된다. 또 다른 예는 콘텐츠 소스 설정, 가령 프로파일 선택을 결정하거나 영향을주기 위해 셋톱 박스에 연결하는 입력 대 DVD 플레이어 또는 게임 콘솔에 연결된 입력과 같은 TV 세트에서 선택한 입력과 같은 디바이스 설정을 포함하는 것이다.
많은 재생 디바이스는: (1) 온라인, 위성 또는 지상파 라디오 방송국 및/또는 로컬에 저장된 콘텐츠 플레이어(예를 들어, CD 플레이어, MP3 플레이어 등)로부터 콘텐츠를 수신하고 재생하는 카 스테레오 시스템; (2) 온라인, 위성 또는 지상파 라디오 방송국 및/또는 로컬에 저장된 콘텐츠 플레이어(예를 들어, CD 플레이어, MP3 플레이어, TV 세트, 셋톱 박스(STB), 게임 콘솔 등)에서 콘텐츠를 수신하고 재생하는 홈 스테레오 시스템; (3) 온라인, 위성 또는 지상파 라디오 방송국 및/또는 로컬에 저장된 콘텐츠 플레이어(예를 들어, MP3 플레이어)에서 콘텐츠(예를 들어, 비디오 및/또는 오디오)를 수신하고 재생하는 모바일 디바이스(예를 들어, 스마트 폰 또는 태블릿) 등등을 포함하는 이러한 플랫폼을 사용할 수 있다.
일부 예에서, 시스템 및 방법은 저품질 또는 저용량의 레코딩 및 기타 콘텐츠를 향상 및/또는 최적화할 수 있다. 예를 들어, 콘텐츠 프로파일 엔진(116)은 낮은 오디오 품질을 갖는 것으로 콘텐츠 스트림(예를 들어, 홈 메이드 팟캐스트)을 식별할 수 있고, 콘텐츠의 재생을 향상시키기 위한 명령어를 포함하는 콘텐츠의 저품질 스트림에 대한 프로파일을 생성할 수 있다. 미디어 유닛(106)은 특히 저품질 콘텐츠의 재생 충실도를 높이기 위해 재생 디바이스(예를 들어, 모바일 디바이스, 모바일 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106))의 재생 설정을 조정할 수 있다.
일부 예에서, 시스템 및 방법은 콘텐츠 스트림 내의 광고와 같은 특정 유형의 콘텐츠의 품질을 감소시킬 수 있다. 예를 들어, 콘텐츠 프로파일 엔진(116)은 콘텐츠 스트림이 광고 중단을 포함하는 것을 식별하고 광고 중단 동안 재생 품질을 저하시키는 콘텐츠 스트림에 대한 프로파일을 생성할 수 있다. 그 다음, 미디어 유닛(106)은 특히 광고 중단 동안 콘텐츠 재생의 충실도를 낮추기 위해 재생 디바이스(예를 들어, 모바일 디바이스, 미디어 디바이스(102), 미디어 디바이스(104), 미디어 유닛(106))의 재생 설정을 조정할 수 있다. 물론, 다른 시나리오도 가능할 수 있다.
제 3 구현 : 임계값 기반 등화
도 14는 제 3 구현에 따른 오디오 등화를 수행하도록 도 1 및 도 2의 미디어 유닛(106)을 구현하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어(1400)를 나타내는 흐름도이다. 이전 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(1400)는 입력 미디어 신호(202)를 버퍼에 저장하는 예시적인 미디어 유닛(106)으로 시작한다(블록(1402)). 일부 예에서, 예시적인 버퍼 매니저(230)는 데이터 스토어(224)에 입력 미디어 신호(202)를 저장한다. 일부 예에서, 버퍼 매니저(230)는 버퍼에서의 저장 기간(예를 들어, 10 초, 30 초 등)을 초과한 입력 미디어 신호(202)의 일부를 제거한다.
블록(1404)에서, 예시적인 미디어 유닛(106)은 버퍼링된 오디오에 대해 주파수 변환을 수행한다. 일부 예에서, 시간-주파수 영역 변환기(232)는 버퍼의 입력 미디어 신호(202)의 일부에 대해 주파수 변환(예를 들어, FFT)을 수행한다.
블록(1406)에서, 예시적인 미디어 유닛(106)은 버퍼의 지속 기간 내내 선형 간격 주파수 빈에 대한 평균값 및 표준편차 값을 계산한다. 일부 예에서, 볼륨 계산기(234)는 버퍼의 지속 기간 내내 선형 간격 주파수 빈에 대한 평균값 및 표준편차 값을 계산한다. 일부 예에서, 평균 볼륨값은 다른 영역(예를 들어, 시간 영역)에서 또는 다른 단위 간격(예를 들어, 대수 간격)으로 계산될 수 있다.
블록(1408)에서, 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)의 주파수 표현에 기초하여 사전 등화 RMS 값을 계산한다. 일부 예에서, 에너지 계산기(236)는 입력 미디어 신호(202)의 주파수 표현에 기초하여 사전 등화 RMS 값을 계산한다. 일부 예에서, 에너지 계산기(236)는 입력 미디어 신호(202)의 에너지 값을 결정하기 위해 상이한 유형의 계산을 이용한다.
블록(1410)에서, 예시적인 미디어 유닛(106)은 엔지니어 태그의 표현과 함께 선형 간격 빈에 대한 평균값 및 표준편차값을 EQ 신경망(402)에 입력한다. 일부 예에서, 입력 특징 세트 생성기(238) 버퍼의 지속 기간 내내 선형 간격 주파수 빈에 대한 평균값 및 표준편차값을 EQ 신경망(402)에 입력한다. 참조되지 않거나 기타 식별되지 않은 오디오의 경우, 엔지니어 태그는 한 세트의 가능한 한 값들로 설정된다. 예를 들어, 입력 특징 세트 생성기(238)는 오디오가 식별되지 않을 때 엔지니어 태그가 항상 특정 엔지니어 표시로 설정되도록 구성될 수 있다. 일부 예에서, 엔지니어 태그는 벡터 요소 중 하나가 선택된 엔지니어에 대해 "1"로 설정되고 나머지 벡터 요소는 "0"으로 설정되는 벡터로 표현된다. 일부 예에서, 입력 미디어 신호(202)에 대한 평균 및/또는 표준편차 값은 다른 형태(예를 들어, 시간 영역 포맷, 평균 대신 순간 볼륨 등)로 EQ 신경망(402)에 입력될 수 있다.
블록(1412)에서, 예시적인 미디어 유닛(106)은 EQ 신경망(402)으로부터 로그 간격 주파수 빈에 대한 게인/컷 값을 수신한다. 일부 예에서, 볼륨 조절기(242)는 EQ 신경망(402)으로부터 로그 간격 주파수 빈에 대한 게인/컷 값을 수신한다. 일부 예에서, 게인/컷 값은 선형 간격 주파수 표현 및/또는 다른 영역에 있을 수 있다.
블록(1414)에서, 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)의 선형 간격 평균 주파수 표현을 로그 간격 평균 주파수 표현으로 변환한다. 일부 예에서, 볼륨 조절기(242)는 로그 간격 포맷으로 수신된 EQ 게인/컷(241)을 적용하기 위해 입력 미디어 신호(202)의 선형 간격 평균 주파수 표현을 로그 간격 주파수 표현으로 변환한다. 일부 예에서, EQ 게인/컷(241)이 다른 포맷으로 수신되면, 볼륨 조절기(242)는 입력 미디어 신호(202)의 평균 주파수 표현을 EQ 게인/컷(241)과 동일한 포맷에 대응하도록 조정한다.
블록(1416)에서, 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)의 균등화된 로그 간격 주파수 표현을 결정하기 위해 게인/컷을 로그 간격 평균 주파수 표현에 적용한다. 일부 예에서, 볼륨 조절기(242)는 입력 미디어 신호(202)의 등화된 로그 간격 평균 주파수 표현을 결정하기 위해 게인/컷을 로그 간격 평균 주파수 표현에 적용한다. 기계 판독 가능 명령어(1400)의 모든 단계에서와 같이, 일부 예에서, 입력 오디오 신호의 평균 표현에 게인/컷을 적용하는 것은 다른 영역에서 및/또는 다른 단위 간격으로 수행될 수 있다.
블록(1418)에서, 예시적인 미디어 유닛(106)은 등화 곡선을 평활화하기 위해 임계값을 실행한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 등화 곡선을 평활화하기 위해 임계값을 실행한다. 등화 곡선을 평활화하기 위해 임계값을 실행하는 상세한 명령이 도 15와 관련하여 예시되고 설명된다.
블록(1420)에서, 예시적인 미디어 유닛(106)은 사후 등화 RMS 값을 계산한다. 일부 예에서, 에너지 계산기(236)는 스레시홀딩 컨트롤러(244)가 등화 곡선의 평활화를 완료한 후(예를 들어, 불규칙성을 줄인 후) 등화된 오디오 신호에 기초하여 사후 등화 RMS 값을 계산한다. 일부 예에서, 에너지 계산기(236)는 등화된 오디오 신호의 에너지의 다른 측정치를 계산한다. 일부 예에서, 에너지 계산기(236)는 EQ 곡선 생성기(246)가 (예를 들어, 선형 간격 주파수 표현에서) 최종 등화 곡선을 생성하고 입력 미디어 신호(202)에 적용한 다음 사후 등화 RMS 값을 계산한다.
블록(1422)에서, 예시적인 미디어 유닛(106)은 사전 등화 RMS 및 사후 등화 RMS의 계산에 기초하여 볼륨 정규화를 결정한다. 일부 예에서, 에너지 계산기(236)는 사후 등화 RMS 및 사전 등화 RMS의 비(比)(또는 다른 비교 메트릭)를 계산하고 볼륨 정규화기(248)는 이 비(比)가 오디오 신호의 에너지에서 최대 허용 가능한 변화(예를 들어, 허용 가능한 변화)와 관련된) 임계값을 초과하는지 여부를 결정한다. 이러한 일부 예에서, 임계값을 초과하는 비에 응답하여, 볼륨 정규화기(248)는 정규화 전체 게인을 등화된 오디오 신호에 적용한다. 예를 들어, 등화 후 오디오 신호의 전체 에너지가 등화 전 전체 에너지의 두 배이면, 볼륨 정규화기(248)는 오디오 신호의 전체 볼륨을 정규화하기 위해 전체 게인의 1/2을 적용할 수 있다.
블록(1424)에서, 예시적인 미디어 유닛(106)은 최종 등화 곡선을 결정하기 위해 오디오 신호의 등화된 로그 간격 주파수 표현으로부터 평균 주파수 표현을 감산한다. 일부 예에서, EQ 곡선 생성기(246)는 최종 등화 곡선을 결정하기 위해 오디오 신호의 등화된 로그 간격 주파수 표현으로부터 평균 주파수 표현을 감산한다.
블록(1426)에서, 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)의 선형 간격 주파수 표현에 최종 등화 곡선을 적용한다. 일부 예에서, EQ 곡선 생성기(246)는 최종 등화 곡선을 적용하고, 추가로 볼륨 정규화기(248)에 의해 표시된 임의의 전반적인 게인 조절을 한다. 임의의 일부 예에서, 볼륨 정규화기(248)는 EQ 곡선 생성기(246)가 최종 등화 곡선을 적용하기 전후에 볼륨 정규화를 수행할 수 있다.
블록(1428)에서, 예시적인 미디어 유닛(106)은 입력 미디어 신호(202)의 등화된 주파수 표현에 대해 역 주파수 변환을 수행한다. 일부 예에서, 주파수 시간 영역 변환기(250)는 출력 미디어 신호(252)를 생성하기 위해 입력 미디어 신호(202)의 등화된 주파수 표현에 대해 역 주파수 변환을 수행한다.
블록(1430)에서, 예시적인 미디어 유닛(106)은 등화를 계속할지 여부를 결정한다. 계속되는 등화에 응답하여, 처리는 블록(1402)으로 이동한다. 반대로, 등화를 계속하지 않는 것에 응답하여, 처리는 종료된다.
도 15는 제 3 구현에 따라 등화 곡선을 평활하게 하기 위해 도 1 및 도 2의 미디어 유닛(106)을 구현하도록 실행될 수 있는 예시적인 기계 판독 가능 명령어(1500)를 나타내는 흐름도이다. 앞선 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(1500)는 예시적인 미디어 유닛(106)이 복수의 주파수 값을 선택하는 것으로 시작한다(블록(1502)). 일부 예에서, 스레시홀딩 컨트롤러(244)는 볼륨의 불규칙한 변화(예를 들어, 로컬 이상치)를 분석하기 위해 복수의 주파수 값을 선택한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 한 번에 분석하기 위해 한 세트의 인접한 주파수 값들(예를 들어, 3 개의 개별 결과 주파수 값들)을 선택한다.
블록(1504)에서, 예시적인 미디어 유닛(106)은 복수의 주파수 값에서 볼륨을 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 복수의 주파수 값에서 볼륨을 결정한다.
블록(1506)에서, 예시적인 미디어 유닛(106)은 복수의 주파수 값의 볼륨의 2 차 미분을 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 복수의 주파수 값에 걸친 볼륨의 변화량을 결정하기 위해 다른 기술을 이용한다. 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하는 하나의 예시적인 기술은 이 설명에서 도 2과 관련하여 설명된 수식 1을 이용하는 것을 포함한다.
블록(1508)에서, 예시적인 미디어 유닛(106)은 2 차 미분의 절대값이 임계치를 초과하는지 여부를 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 2 차 미분의 절대값이 임계값을 초과하는지 여부를 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 복수의 주파수 값에 걸친 볼륨 변화량의 다른 계산을 임계값과 비교한다. 임계값을 초과하는 2 차 미분의 절대값에 응답하여, 처리는 블록(1510)으로 이동한다. 반대로, 임계값을 초과하지 않는 2 차 미분의 절대값에 응답하여 처리는 블록(1512)으로 이동한다.
블록(1510)에서, 예시적인 미디어 유닛(106)은 인접한 주파수 값에서의 볼륨 레벨 사이의 중간점이 되도록 복수의 값들 중 중앙값의 볼륨 레벨을 조정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 인접 주파수 값에서 볼륨 레벨 사이의 중간점이 되도록 복수의 값들 중 중앙값의 볼륨 레벨을 조정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 인접한 주파수 값들에서 볼륨들과 더 유사하도록 복수의 값들 중 중앙값을 조정하기 위해 다른 방법을 이용하여, 등화 곡선의 불규칙성을 감소시킨다.
블록(1512)에서, 예시적인 미디어 유닛(106)은 분석할 추가 주파수 값이 있는지 여부를 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 분석할 추가 주파수 값이 있는지 여부를 결정한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 모든 주파수 값을 1 회 이상 분석하는 과정을 반복한다. 일부 예에서, 스레시홀딩 컨트롤러(244)는 모든 불규칙성이 제거될 때까지 또는 오직 하나의 불규칙성의 임계값 숫자가 남을 때까지 반복한다. 분석할 추가 주파수 값이 있는 것에 응답하여, 처리는 블록(1502)으로 넘어 간다. 반대로, 분석할 추가 주파수 값이 없는 것에 응답하여, 처리는 도 14의 기계 판독 가능 명령어로 복귀하고 블록(1420)으로 진행한다.
도 16은 제 3 구현에 따라 참조 오디오 신호에 기초하여 신경망을 훈련 및/또는 검증하기 위해 데이터 세트를 어셈블리하도록 도 4의 오디오 EQ 엔진(118)을 구현하게 실행될 수 있는 예시적인 기계 판독 가능 명령어(1600)를 나타내는 흐름도이다. 이전 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(1600)는 예시적인 오디오 EQ 엔진(118)이 참조 오디오 신호의 라이브러리에 액세스하는 것으로 시작한다(블록(1602)). 일부 예에서, EQ 신경망(402)이 참조 오디오 신호의 라이브러리에 액세스한다.
블록(1604)에서, 예시적인 오디오 EQ 엔진(118)은 참조 오디오 신호와 연관된 등화 곡선에 액세스한다. 일부 예에서, EQ 신경망(402)은 참조 오디오 신호와 연관된 등화 곡선에 액세스한다.
블록(1606)에서, 예시적인 오디오 EQ 엔진(118)은 참조 오디오 신호와 연관된 엔지니어 태그 및/또는 다른 메타 데이터에 액세스한다. 일부 예에서, EQ 신경망(402)은 참조 오디오 신호와 관련된 엔지니어 태그 및/또는 다른 메타 데이터에 액세스한다.
블록(1608)에서, 예시적인 오디오 EQ 엔진(118)은 참조 오디오 신호의 샘플을 대응하는 EQ 곡선 및 엔지니어 태그(들)와 연관시킨다. 일부 예에서, EQ 신경망(402)은 참조 오디오 신호의 샘플을 대응하는 EQ 곡선 및 엔지니어 태그(들)와 연관시킨다.
블록(1610)에서, 예시적인 오디오 EQ 엔진(118)은 훈련에 사용할 추가 참조 오디오 신호가 있는지 여부를 결정한다. 일부 예에서, EQ 신경망(402)은 훈련을 위해 활용할 참조 오디오 신호, EQ 곡선, 엔지니어 태그 중 추가 신호가 있는지 여부를 결정한다. 훈련에 사용할 추가 참조 오디오 신호가 있는 것에 응답하여, 처리는 블록(1602)으로 이동한다. 반대로, 훈련에 사용할 추가 참조 오디오 신호가 없는 것에 응답하여, 처리가 종료된다.
도 17a는 도 15와 관련하여 예시되고 설명된 평활화 기술을 수행하기 전에 등화된 오디오 신호의 예시적인 제 1 도표(1700)이다.
예시적인 제 1 도표(1700a)는 예시적인 주파수 축(1702)을 포함하며, 이는 좌측에서 우측으로(예를 들어, x-축을 가로 질러) 증가하는 주파수 값을 예시한다. 제 1 도표(1700a)는 예시적인 볼륨 축(1704)을 포함하며, 볼륨 값이 아래에서 위로(예를 들어, y-축을 가로 질러) 증가하는 것을 예시한다. 일반적으로, 제 1 도표(1700a)는 오디오 신호가 더 낮은 주파수 값에서 더 높은 볼륨 레벨을 가지며 일반적으로 주파수 값이 증가함에 따라 볼륨이 감소함을 예시한다. 그러나, 제 1 도표(1700a)는 예시적인 불규칙성(1706)을 포함한다.
제 1 도표(1700a)는 예시적인 제 1 주파수 값(1708), 예시적인 제 2 주파수 값(1710) 및 예시적인 제 3 주파수 값(1712)을 포함한다. 제 1 주파수 값(1708)은 예시적인 제 1 볼륨(1714)에 대응하고, 제 2 주파수 값(1710)은 예시적인 제 2 볼륨(1716)에 대응하며, 제 3 주파수 값(1712)은 예시적인 제 3 볼륨(1718)에 대응한다. 미디어 유닛(106)이 제 1 도표(1700a)에 예시된 신호에 대해 (예를 들어, 스레시홀딩 컨트롤러(244)를 통한) 스레시홀딩 절차를 실행한다면, 볼륨이 제 1 주파수 값(1708)과 제 2 주파수 값(1710) 사이뿐만 아니라 제 2 주파수 값(1710)과 제 3 주파수 값(1712) 사이에서 크게 변하기 때문에, 불규칙성(1706)(예를 들어, 로컬 이상치)을 검출할 수 있다. 스레시홀딩 컨트롤러(244)가 제 1 주파수 값(1708), 제 2 주파수 값(1710) 및 제 3 주파수 값(1712)에서 볼륨 레벨 사이의 볼륨의 2 차 미분(또는 볼륨 변화의 다른 측정값)을 계산하면, 2 차 미분이 임계값을 초과하고 불규칙성(1706)에 대응한다고 결정할 수 있다.
도 17b는 도 15와 관련하여 예시되고 설명된 평활화 기술을 수행한 후의 도 17a의 오디오 신호의 예시적인 제 2 도표(1700b)이다. 도 17b의 예시된 예에서, 불규칙성(1706)을 검출한 후, 스레시홀딩 컨트롤러(244)는 제 2 주파수 값(1710)(예를 들어, 분석 중인 3 개의 주파수 값 중 중앙값)과 관련된 볼륨 레벨을 조정한다. 도 17b의 제 2 도표(1700b)는 제 2 주파수 값(1710)이 이전의 제 2 볼륨(1716) 대신 예시적인 제 4 볼륨(1720)에 대응하는 것을 제외하고는 제 1 도표(1700a)와 실질적으로 동일하다. 예시된 예에서, 스레시홀딩 컨트롤러(244)는 제 2 주파수 값(1710)의 볼륨을 제 1 볼륨(1714) 및 제 3 볼륨(1718)의 중간 지점으로 설정함으로써 제 2 볼륨(1716)을 제 4 볼륨(1720)으로 조정했다. 예시된 예에서, 이들 주파수 값들 사이의 나머지 등화 곡선이 매끄러운 선으로 생성된다. 도 17b의 예시된 예에서, 등화 곡선의 조정된 부분은 제 1 볼륨(1714), 제 4 볼륨(1720) 및 제 3 볼륨(1718)을 연결하는 점선으로 예시된다. 스레시홀딩 컨트롤러(244)는 검출된 불규칙성에서 볼륨 레벨을 조정하기 위해 임의의 다른 기술을 이용할 수 있다.
도 18은 도 1 및 도 2의 미디어 유닛(106)을 구현하기 위해 도 5, 6, 11, 12, 14 및 15의 명령어를 실행하도록 구성된 예시적인 프로세서 플랫폼(1800)의 블록도이다. 프로세서 플랫폼(1800)은 예를 들어 서버, 개인용 컴퓨터, 워크 스테이션, 자가 학습 기계(예를 들어, 신경망), 모바일 디바이스(예를 들어, 휴대폰, 스마트폰, iPadTM와 같은 태블릿), PDA(Personal Digital Assistant), 인터넷 기기, DVD 플레이어, CD 플레이어, 디지털 비디오 레코더, 블루레이 플레이어, 게임 콘솔, 개인용 비디오 레코더, 셋톱 박스, 헤드셋 또는 기타 웨어러블 장치 또는 임의의 기타 유형의 컴퓨팅 장치일 수 있다.
예시된 예의 프로세서 플랫폼(1800)은 프로세서(1812)를 포함한다. 예시된 예시의 프로세서(1812)는 하드웨어이다. 예를 들어, 프로세서(1812)는 임의의 원하는 제품군 또는 제조업체의 하나 이상의 집적 회로, 논리 회로, 마이크로 프로세서, GPU, DSP 또는 컨트롤러에 의해 구현될 수 있다. 하드웨어 프로세서(1812)는 반도체 기반(예를 들어, 실리콘 기반) 디바이스일 수 있다. 이 예에서, 프로세서(1812)는 예시적인 신호 변환기(204), 예시적인 EQ 모델 쿼리 생성기(206), 예시적인 EQ 필터 설정 분석기(208), 예시적인 EQ 개인화 매니저(210), 예시적인 디바이스 파라미터 분석기(212), 예시적인 히스토리 EQ 매니저(214), 예시적인 사용자 입력 분석기(216), 예시적인 EQ 필터 선택기(218), 예시적인 EQ 조정 구현자(220), 예시적인 평활화 필터 구성기(222), 예시적인 데이터 스토어(224), 예시적인 업데이트 모니터(226), 예시적인 핑거프린트 생성기(227), 예시적인 동기화기(228), 예시적인 버퍼 매니저(230), 예시적인 시간-주파수 영역 변환기(232), 예시적인 볼륨 계산기(234), 예시적인 에너지 계산기(236), 예시적인 입력 특징 세트 생성기(238), 예시적인 EQ 매니저(240), 예시적인 볼륨 조절기(242), 예시적인 스레시홀딩 컨트롤러(244), 예시적인 EQ 곡선 생성기(246), 예시적인 볼륨 정규화기(248), 및/또는 예시적인 주파수 대 시간 영역 변환기(250)를 구현한다.
예시된 예의 프로세서(1812)는 로컬 메모리(1813)(예를 들어, 캐시)를 포함한다. 예시된 예의 프로세서(1812)는 버스(1818)를 통해 휘발성 메모리(1814) 및 비휘발성 메모리(1816)를 포함하는 메인 메모리와 통신한다. 휘발성 메모리(1814)는 SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Random Access Memory), RAMBUS® Dynamic Random Access Memory(RDRAM®) 및/또는 임의의 기타 유형의 랜덤 액세스 메모리 장치에 의해 구현될 수 있다. 비휘발성 메모리(1816)는 플래시 메모리 및/또는 임의의 기타 원하는 유형의 메모리 장치에 의해 구현될 수 있다. 메인 메모리(1814, 1816)에 대한 액세스는 메모리 컨트롤러에 의해 제어된다.
예시된 예의 프로세서 플랫폼(1800)은 또한 인터페이스 회로(1820)를 포함한다. 인터페이스 회로(1820)는 이더넷 인터페이스, 범용 직렬 버스(USB), 블루투스 ® 인터페이스, NFC(Near Field Communication) 인터페이스 및/또는 PCI Express 인터페이스와 같은 임의의 유형의 인터페이스 표준에 의해 구현될 수 있다.
예시된 예에서, 하나 이상의 입력 장치(1822)가 인터페이스 회로(1820)에 연결된다. 입력 장치(들)(1822)는 사용자가 데이터 및/또는 명령을 프로세서(1812)에 입력하는 것을 허용한다. 입력 장치(s)는 예를 들어 오디오 센서, 마이크, 카메라(스틸 또는 비디오), 키보드, 버튼, 마우스, 터치 스크린, 트랙 패드, 트랙볼, 아이소포인트 및/또는 음성 인식 시스템에 의해 구현될 수 있다.
하나 이상의 출력 장치(1824)는 또한 예시된 예의 인터페이스 회로(1820)에 연결된다. 출력 장치(1824)는 예를 들어, 디스플레이 장치(예를 들어, 발광 다이오드(LED), 유기 발광 다이오드(OLED), 액정 디스플레이(LCD), 음극선관 디스플레이(CRT), IPS(In-Place Switching) 디스플레이, 터치 스크린 등), 촉각 출력 장치, 프린터 및/또는 스피커에 의해 구현될 수 있다. 따라서, 예시된 예의 인터페이스 회로(1820)는 일반적으로 그래픽 드라이버 카드, 그래픽 드라이버 칩 및/또는 그래픽 드라이버 프로세서를 포함한다.
예시된 예의 인터페이스 회로(1820)는 또한 송신기, 수신기, 트랜시버, 모뎀, 주거용 게이트웨이, 무선 액세스 포인트 및/또는 외부 기계(가령, 임의의 종류의 컴퓨팅 디바이스)와 데이터 교환을 용이하게 하는 네트워크 인터페이스와 같은 통신 장치를 포함한다. 통신은 예를 들어 이더넷 연결, DSL(디지털 가입자 회선) 연결, 전화선 연결, 동축 케이블 시스템, 위성 시스템, 현장 무선 시스템, 휴대 전화 시스템 등을 통해 연결될 수 있다.
예시된 예의 프로세서 플랫폼(1800)은 또한 소프트웨어 및/또는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치(1828)를 포함한다. 이러한 대용량 저장 장치(1828)의 예는 플로피 디스크 드라이브, 하드 드라이브 디스크, 컴팩트 디스크 드라이브, 블루레이 디스크 드라이브, RAID(redundant array of independent disks) 시스템 및 DVD(digital versatile disk) 드라이브를 포함한다.
도 18의 기계 판독 가능 명령어(1832). 도 5의 기계 판독 가능 명령어(500), 도 6의 기계 판독 가능 명령어(514), 도 11의 기계 판독 가능 명령어(1106), 도 12의 기계 판독 가능 명령어(1200), 도 14의 기계 판독 가능 명령어(1400) 및/또는 도 15의 기계 판독 가능 명령어(1418)가 대용량 저장 장치(1828), 휘발성 메모리(1814), 비휘발성 메모리(1816) 및/또는 CD 또는 DVD와 같은 이동식 비일시적 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
도 19는 도 1 및 도 4의 오디오 EQ 엔진(118)을 구현하기 위해 도 7 및 도 16의 명령어를 실행하도록 구성된 예시적인 프로세서 플랫폼(1900)의 블록도이다. 프로세서 플랫폼(1900)은 예를 들어 서버, 개인용 컴퓨터, 워크 스테이션, 자가 학습 기계(예를 들어, 신경망), 모바일 디바이스(예를 들어, 휴대폰, 스마트폰, iPadTM와 같은 태블릿), PDA(Personal Digital Assistant), 인터넷 기기, DVD 플레이어, CD 플레이어, 디지털 비디오 레코더, Blu-ray 플레이어, 게임 콘솔, 개인용 비디오 레코더, 셋톱 박스, 헤드셋 또는 기타 웨어러블 장치 또는 기타 유형의 컴퓨팅 장치일 수 있다.
예시된 예의 프로세서 플랫폼(1900)은 프로세서(1912)를 포함한다. 예시된 예시의 프로세서(1912)는 하드웨어이다. 예를 들어, 프로세서(1912)는 임의의 원하는 제품군 또는 제조업체의 하나 이상의 집적 회로, 논리 회로, 마이크로 프로세서, GPU, DSP 또는 컨트롤러에 의해 구현될 수 있다. 하드웨어 프로세서(1912)는 반도체 기반(예를 들어, 실리콘 기반) 디바이스일 수 있다. 이 예에서, 프로세서(1912)는 예시적인 EQ 신경망(402), 예시적인 오디오 EQ 스코어링 엔진(404) 및/또는 예시적인 오디오 EQ 엔진 검증기(406)를 구현한다.
예시된 예의 프로세서(1912)는 로컬 메모리(1913)(예를 들어, 캐시)를 포함한다. 예시된 예의 프로세서(1912)는 버스(1918)를 통해 휘발성 메모리(1914) 및 비휘발성 메모리(1916)를 포함하는 메인 메모리와 통신한다. 휘발성 메모리(1914)는 SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Access Memory), RAMBUS® Dynamic Random Access Memory(RDRAM®) 및/또는 기타 유형의 랜덤 액세스 메모리 장치에 의해 구현될 수 있다. 비휘발성 메모리(1916)는 플래시 메모리 및/또는 임의의 다른 원하는 유형의 메모리 장치에 의해 구현될 수 있다. 메인 메모리(1914, 1916)에 대한 액세스는 메모리 컨트롤러에 의해 제어된다.
예시된 예의 프로세서 플랫폼(1900)은 또한 인터페이스 회로(1920)를 포함한다. 인터페이스 회로(1920)는 이더넷 인터페이스, 범용 직렬 버스(USB), 블루투스 ® 인터페이스, NFC(Near Field Communication) 인터페이스 및/또는 PCI Express 인터페이스와 같은 임의의 유형의 인터페이스 표준에 의해 구현될 수 있다.
예시된 예에서, 하나 이상의 입력 장치(1922)가 인터페이스 회로(1920)에 연결된다. 입력 장치(들)(1922)는 사용자가 데이터 및/또는 명령을 프로세서(1912)에 입력하도록 허용한다. 입력 장치(s)는 예를 들어 오디오 센서, 마이크, 카메라(스틸 또는 비디오), 키보드, 버튼, 마우스, 터치 스크린, 트랙 패드, 트랙볼, 등점 및/또는 음성 인식 시스템에 의해 구현될 수 있다.
하나 이상의 출력 장치(1924)가 또한 예시된 예의 인터페이스 회로(1920)에 연결된다. 출력 장치(1924)는 예를 들어, 디스플레이 장치(예를 들어, 발광 다이오드(LED), 유기 발광 다이오드(OLED), 액정 디스플레이(LCD), 음극선관 디스플레이(CRT), IPS(In-place Switching) 디스플레이, 터치 스크린 등), 촉각 출력 장치, 프린터 및/또는 스피커에 의해 구현될 수 있다. 따라서, 예시된 예의 인터페이스 회로(1920)는 일반적으로 그래픽 드라이버 카드, 그래픽 드라이버 칩 및/또는 그래픽 드라이버 프로세서를 포함한다.
예시된 예의 인터페이스 회로(1920)는 또한 송신기, 수신기, 트랜시버, 모뎀, 주거용 게이트웨이, 무선 액세스 포인트 및/또는 외부 기계(가령, 임의의 종류의 컴퓨팅 디바이스)와 데이터 교환을 용이하게 하는 네트워크 인터페이스와 같은 통신 장치를 포함한다. 통신은 예를 들어 이더넷 연결, DSL(디지털 가입자 회선) 연결, 전화선 연결, 동축 케이블 시스템, 위성 시스템, 현장 무선 시스템, 휴대 전화 시스템 등을 통해 연결될 수 있다.
예시된 예의 프로세서 플랫폼(1900)은 또한 소프트웨어 및/또는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치(1928)를 포함한다. 이러한 대용량 저장 장치(1928)의 예는 플로피 디스크 드라이브, 하드 드라이브 디스크, 컴팩트 디스크 드라이브, 블루레이 디스크 드라이브, RAID(redundant array of independent disks) 시스템 및 DVD(digital versatile disk) 드라이브를 포함한다.
도 19의 기계 판독 가능 명령어(1932), 도 7의 기계 판독 가능 명령어(700), 및/또는 도 16의 기계 판독 가능 명령어(1600)가 대용량 저장 장치(1928), 휘발성 메모리(1914), 비휘발성 메모리(1916), 및/또는 CD 또는 DVD와 같은 이동식 비일시적 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
도 20은 도 1 및 도 3의 콘텐츠 프로파일 엔진(116)을 구현하기 위해 도 10의 명령어를 실행하도록 구성된 예시적인 프로세서 플랫폼(2000)의 블록도이다. 프로세서 플랫폼(2000)은 예를 들어 서버, 개인용 컴퓨터, 워크 스테이션, 자가 학습 기계(예를 들어, 신경망), 모바일 디바이스(예를 들어, 휴대폰, 스마트폰, iPadTM와 같은 태블릿), PDA(Personal Digital Assistant), 인터넷 기기, DVD 플레이어, CD 플레이어, 디지털 비디오 레코더, Blu-ray 플레이어, 게임 콘솔, 개인용 비디오 레코더, 셋톱 박스, 헤드셋 또는 기타 웨어러블 장치 또는 기타 유형의 컴퓨팅 장치일 수 있다.
예시된 예의 프로세서 플랫폼(2000)은 프로세서(2012)를 포함한다. 예시된 예시의 프로세서(2012)는 하드웨어이다. 예를 들어, 프로세서(2012)는 임의의 원하는 제품군 또는 제조업체의 하나 이상의 집적 회로, 논리 회로, 마이크로 프로세서, GPU, DSP 또는 컨트롤러에 의해 구현될 수 있다. 하드웨어 프로세서(2012)는 반도체 기반(예를 들어, 실리콘 기반) 디바이스일 수 있다. 이 예에서, 프로세서(2012)는 예시적인 콘텐츠 검색기(302), 예시적인 핑거프린트 생성기(304), 예시적인 콘텐츠 식별자(306), 예시적인 프로파일러(308), 및/또는 예시적인 프로파일 데이터 스토어(310)를 구현한다.
예시된 예의 프로세서(2012)는 로컬 메모리(2013)(예를 들어, 캐시)를 포함한다. 예시된 예의 프로세서(2012)는 버스(2018)를 통해 휘발성 메모리(2014) 및 비휘발성 메모리(2016)를 포함하는 메인 메모리와 통신한다. 휘발성 메모리(2014)는 SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Random Access Memory), RAMBUS® Dynamic Random Access Memory(RDRAM®) 및/또는 임의의 기타 유형의 랜덤 액세스 메모리 장치에 의해 구현될 수 있다. 비휘발성 메모리(2016)는 플래시 메모리 및/또는 임의의 다른 원하는 유형의 메모리 장치에 의해 구현될 수 있다. 메인 메모리(2014, 2016)에 대한 액세스는 메모리 컨트롤러에 의해 제어된다.
예시된 예의 프로세서 플랫폼(2000)은 또한 인터페이스 회로(2020)를 포함한다. 인터페이스 회로(2020)는 이더넷 인터페이스, 범용 직렬 버스(USB), 블루투스 ® 인터페이스, NFC(Near Field Communication) 인터페이스 및/또는 PCI Express 인터페이스와 같은 임의의 유형의 인터페이스 표준에 의해 구현될 수 있다.
예시된 예에서, 하나 이상의 입력 장치(2022)가 인터페이스 회로(2020)에 연결된다. 입력 장치(들)(2022)는 사용자가 데이터 및/또는 명령을 프로세서(2012)에 입력하는 것을 허용한다. 입력 장치(s)는 예를 들어 오디오 센서, 마이크, 카메라(스틸 또는 비디오), 키보드, 버튼, 마우스, 터치 스크린, 트랙 패드, 트랙볼, 등점 및/또는 음성 인식 시스템에 의해 구현될 수 있다.
하나 이상의 출력 장치(2024)가 또한 예시된 예의 인터페이스 회로(2020)에 연결된다. 출력 장치(2024)는 예를 들어, 디스플레이 장치(예를 들어, 발광 다이오드(LED), 유기 발광 다이오드(OLED), 액정 디스플레이(LCD), 음극선관 디스플레이(CRT), IPS(In-place Switching) 디스플레이, 터치 스크린 등), 촉각 출력 장치, 프린터 및/또는 스피커로 구현될 수 있다. 따라서, 예시된 예의 인터페이스 회로(2020)는 일반적으로 그래픽 드라이버 카드, 그래픽 드라이버 칩 및/또는 그래픽 드라이버 프로세서를 포함한다.
예시된 예의 인터페이스 회로(2020)는 또한 송신기, 수신기, 트랜시버, 모뎀, 주거용 게이트웨이, 무선 액세스 포인트 및/또는 네트워크(2026)를 통해 외부 기계(가령, 임의의 종류의 컴퓨팅 디바이스)와 데이터 교환을 용이하게 하는 네트워크 인터페이스와 같은 통신 장치를 포함한다. 통신은 예를 들어 이더넷 연결, DSL(디지털 가입자 회선) 연결, 전화선 연결, 동축 케이블 시스템, 위성 시스템, 현장 무선 시스템, 휴대 전화 시스템 등을 통해 연결될 수 있다.
예시된 예의 프로세서 플랫폼(2000)은 또한 소프트웨어 및/또는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치(2028)를 포함한다. 이러한 대용량 저장 장치(2028)의 예는 플로피 디스크 드라이브, 하드 드라이브 디스크, 컴팩트 디스크 드라이브, 블루레이 디스크 드라이브, RAID(Redundant Array of Independent Disks) 시스템 및 DVD(Digital Versatile Disk) 드라이브를 포함한다.
도 20의 기계 판독 가능 명령어(2032) 및/또는 도 10의 기계 판독 가능 명령어(1000)가 대용량 저장 장치(2028), 휘발성 메모리(2014), 비휘발성 메모리(2016) 및/또는 CD 또는 DVD와 같은 이동식 비일시적 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
전술한 내용으로부터, 오디오 신호를 분석하고 신경망을 활용하여 최적의 오디오 재생 설정을 결정함으로써 오디오 신호의 변화에 있어 개별 트랙의 변경, 트랙 간의 변경, 장르의 변경 및/또는 임의의 다른 변경에 적응하기 위해 오디오 재생 설정을 동적으로 조정하는 예시적인 방법, 장치 및 제조물품이 개시되었다는 것을 알 수 있을 것이다. 또한, 볼륨 레벨 또는 등화 설정에서 인지할 수 있는 급격한 변화없이 오디오 재생 설정을 지능적으로 조정하기 위해 평활화 필터를 이용하는 예시적인 방법, 장치 및 제조물품이 개시되었다. 추가로, 본 명세에 개시된 기술은 (개인화된 EQ 프로파일로 표현된) 사용자 선호도뿐만 아니라 트랙 간 동적 조정을 합성하는 등화 접근법을 가능하게 한다.
더욱이, 본 명세서에 개시된 예시적인 방법, 장치 및 제조물품은 오디오 신호의 소스 및/또는 다른 특성(예를 들어, 장르, 존재하는 악기 등)의 차이를 설명하는 오디오 신호를 지능적으로 등화한다. 본 명세서에 개시된 예시적인 기술은 오디오 엔지니어에 의해 등화되고 참조 오디오 신호를 등화한 특정 오디오 엔지니어의 표시와 함께 신경망에 입력된 참조 오디오 신호로 훈련된 신경망을 활용한다. 이러한 훈련을 활용하면 신경망이 전문가의 등화 출력을 제공하고 서로 다른 트랙과 심지어 동일한 트랙 내에서 미묘한 조정을 할 수 있다. 또한, 본 명세서에 개시된 예시적인 기술은 유입 오디오 신호에 적용된 최종 등화 곡선이 매끄럽고 청취자가 인지할 수 있는 최소한의 불규칙성을 갖도록 하기 위해 스레시홀딩 기법을 수행함으로써 신경망의 등화 출력을 개선한다.
오디오 특성의 분석에 기초하여 오디오 재생 설정을 조정하기 위한 예시적인 방법, 장치, 시스템 및 제조물품이 본 명세서에 개시된다. 추가적인 예들 및 이들의 조합은 다음을 포함한다:
예 1은 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하는 등화(EQ) 모델 쿼리 생성기; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하고, 상기 복수의 오디오 재생 설정에 기초하여 오디오 신호에 적용할 필터 계수를 결정하는 EQ 필터 설정 분석기; 및 상기 필터 계수를 제 1 기간에 상기 오디오 신호에 적용하기 위한 EQ 조정 구현자를 포함하는 장치를 포함한다.
예 2는 예 1의 장치를 포함하고, 오디오 신호의 샘플 표현은 상기 오디오 신호의 샘플의 주파수 표현에 해당한다.
예 3은 예 1의 장치를 포함하고, 복수의 오디오 재생 설정은 하나 이상의 필터를 포함하고, 상기 하나 이상의 필터 각각은 하나 이상의 각각의 게인값, 각각의 주파수 값, 또는 상기 오디오 신호의 샘플과 연관된 각각의 품질 계수 값을 포함한다.
예 4는 예 1의 장치를 포함하고, EQ 필터 설정 분석기는 오디오 신호에 적용될 필터 계수와 연관된 필터의 유형에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정한다.
예 5는 예 1의 장치를 포함하고, EQ 조정 구현자는 오디오 신호에 평활화 필터를 적용하여 제 1 지속 시간과 제 2 지속 시간 간의 오디오 신호의 평균 게인값에서 급격한 전환을 감소시킨다.
예 6은 예 1의 장치를 포함하고, 오디오 신호를 상기 오디오 신호의 샘플의 주파수 표현으로 변환하기 위한 신호 변환기를 더 포함한다.
예 7은 예 1의 장치를 포함하고, EQ 조정 구현자는 필터 계수에 기초하여 오디오 신호의 진폭 특성, 주파수 특성 또는 위상 특성 중 적어도 하나를 조정한다.
예 8은 실행시, 하나 이상의 프로세서가 적어도: 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하게 하고; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하게 하며; 상기 복수의 오디오 재생 설정에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정하게 하고; 상기 필터 계수를 제 1 기간에 상기 오디오 신호에 적용하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
예 9는 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 오디오 신호의 샘플 표현은 상기 오디오 신호의 샘플의 주파수 표현에 해당한다.
예 10은 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 복수의 오디오 재생 설정은 하나 이상의 필터를 포함하고, 상기 하나 이상의 필터 각각은 하나 이상의 각각의 게인값, 각각의 주파수 값 또는 상기 오디오 신호의 샘플과 연관된 각각의 품질 계수 값을 포함한다.
예 11은 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 오디오 신호에 적용될 필터 계수와 연관된 필터의 유형에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정하게 한다.
예 12는 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 오디오 신호에 평활화 필터를 적용하여 제 1 지속 시간과 제 2 지속 시간 간의 상기 오디오 신호의 평균 게인값에서 급격한 전환을 감소시키게 한다.
예 13은 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 오디오 신호를 상기 오디오 신호의 샘플의 주파수 표현으로 변환하게 한다.
예 14는 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 필터 계수에 기초하여 오디오 신호의 진폭 특성, 주파수 특성 또는 위상 특성 중 적어도 하나를 조정하게 한다.
예 15는 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하는 단계; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하는 단계; 상기 복수의 오디오 재생 설정에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정하는 단계; 및 상기 필터 계수를 제 1 기간에 상기 오디오 신호에 적용하는 단계를 포함하는 방법을 포함한다.
예 16은 예 15의 방법을 포함하고, 오디오 신호의 샘플 표현은 오디오 신호의 샘플의 주파수 표현에 해당한다.
예 17은 예 15의 방법을 포함하고, 복수의 오디오 재생 설정은 하나 이상의 필터를 포함하고, 상기 하나 이상의 필터 각각은 하나 이상의 각각의 게인값, 각각의 주파수 값, 또는 상기 오디오 신호의 샘플과 관련된 각각의 품질 계수 값을 포함한다.
예 18은 예 15의 방법을 포함하고, 오디오 신호에 적용될 필터 계수와 연관된 필터의 유형에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정하는 단계를 더 포함한다.
예 19는 예 15의 방법을 포함하고, 오디오 신호에 평활화 필터를 적용하여 제 1 지속 시간과 제 2 지속 시간 간의 오디오 신호의 평균 게인값에서 급격한 전환을 감소시키는 단계를 더 포함한다.
예 20은 예 15의 방법을 포함하고, 오디오 신호를 상기 오디오 신호의 샘플의 주파수 표현으로 변환하는 단계를 더 포함한다.
예 21은 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하는 등화(EQ) 모델 쿼리 생성기; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하고, 상기 복수의 오디오 재생 설정에 기초하여 오디오 신호에 적용할 필터 계수를 결정하는 EQ 필터 설정 분석기; 개인화 EQ 설정을 생성하기 위한 EQ 개인화 매니저; 및 상기 EQ 설정과 상기 필터 계수를 블렌딩하여 블렌딩된 등화를 생성하고, 상기 블렌딩된 등화를 제 1 기간에 상기 오디오 신호에 적용하기 위한 EQ 조정 구현자를 포함하는 장치를 포함한다.
예 22는 예 21의 장치를 포함하고, 과거 개인화 설정에 기초하여 개인화된 EQ 설정을 생성하고, 히스토리 등화가 활성화된 것에 응답하여, 이전 기간과 관련된 EQ 설정에 기초하여 개인화된 EQ 설정을 조정하는 히스토리 EQ 매니저를 더 포함한다.
예 23은 예 21의 장치를 포함하고, 사용자의 선호도를 나타내는 데이터의 이용가능성에 응답하여 사용자의 선호도를 나타내는 데이터를 기반으로 오디오 재생 설정에 해당하는 EQ 파리미터를 결정하고 사용자의 선호도를 나타내는 데이터를 기반으로 결정된 상기 EQ 파리미터에 따라 개인화된 EQ 설정을 조정하는 사용자 입력 분석기를 더 포함한다.
예 24는 예 21의 장치를 포함하고, 재생 디바이스의 위치 데이터의 이용가능성에 응답하여 이용가능성에 응답하여 재생 디바이스의 위치 데이터를 기반으로 개인화된 EQ 설정을 조정하고, 사용자의 식별 이용가능성에 응답하여, 사용자와 연관된 프로파일에 기초하여 개인화된 EQ 설정을 조정하며, 오디오 신호의 소스와 연관된 정보의 이용가능성에 응답하여, 오디오 신호의 소스를 기반으로 개인화된 EQ 설정을 조정하기 위한 디바이스 파리미터 분석기를 더 포함한다.
예 25는 예 21의 장치를 포함하고, EQ 조정 구현자는 블렌딩된 등화를 생성하기 위해 제 1 개인화된 EQ 설정, 제 2 개인화된 EQ 설정 및 필터 계수에 가중치를 적용할 수 있다.
예 26은 예 21의 장치를 포함하며, 개인화된 EQ 설정은 이전 기간과 연관된 EQ 설정, 사용자의 선호도를 나타내는 데이터, 재생 디바이스의 위치 데이터, 사용자 또는 오디오 신호의 소스와 관련된 프로파일에 기초한다.
예 27은 예 21의 장치를 포함하고, EQ 조정 구현자는 오디오 신호에 평활화 필터를 적용하여 제 1 지속 시간과 제 2 지속 시간 사이의 오디오 신호의 평균 게인값에서 급격한 전환을 감소시킨다.
예 28은 실행시 하나 이상의 프로세서가 적어도 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하게 하고; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하게 하며; 상기 복수의 오디오 재생 설정에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정하게 하고; 개인화된 EQ 설정을 생성하고 상기 개인화된 EQ 설정과 필터 계수를 블렌딩하여 블렌딩 등화를 생성하게 하며; 상기 블렌딩된 등화를 제 1 기간에 상기 오디오 신호에 적용하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
예 29는 예 28의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 과거 개인화 설정에 기초하여 개인화된 EQ 설정을 생성하게 하고, 활성화된 경우, 이전 기간과 관련된 EQ 설정을 기반으로 개인화된 EQ 설정을 조정하게 한다.
예 30은 예 28의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 사용자의 선호도를 나타내는 데이터의 이용가능성에 응답하여 사용자의 선호도를 나타내는 데이터를 기반으로 오디오 재생 설정에 해당하는 EQ 파리미터를 결정하게 하고 사용자의 선호도를 나타내는 데이터를 기반으로 결정된 상기 EQ 파리미터에 따라 개인화된 EQ 설정을 조정하게 한다.
예 31은 예 28의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 재생 디바이스의 위치 데이터의 이용가능성에 응답하여, 이용가능성에 응답하여 재생 디바이스의 위치 데이터를 기반으로 개인화된 EQ 설정을 조정하게 하고; 사용자의 식별 이용가능성에 응답하여, 사용자와 연관된 프로파일에 기초하여 개인화된 EQ 설정을 조정하게 하며; 오디오 신호의 소스와 연관된 정보의 이용가능성에 응답하여, 오디오 신호의 소스를 기반으로 개인화된 EQ 설정을 조정하게 한다.
예 32는 예 28의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 블렌딩된 등화를 생성하기 위해 제 1 개인화된 EQ 설정, 제 2 개인화된 EQ 설정 및 필터 계수에 가중치를 적용하게 한다.
예 33은 예 28의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 개인화된 EQ 설정은 이전 기간과 연관된 EQ 설정, 사용자의 선호도를 나타내는 데이터, 재생 디바이스의 위치 데이터, 사용자와 관련된 프로파일, 또는 오디오 신호의 소스 중 적어도 하나에 기초한다.
예 34는 예 28의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 오디오 신호에 평활화 필터를 적용하여 제 1 기간과 제 2 기간 사이의 오디오 신호의 평균 게인값에서 급격한 전이를 감소하게 한다.
예 35는 오디오 신호의 샘플 표현을 포함하는 쿼리를 신경망에 생성하는 단계; 상기 쿼리에 기초하여 신경망이 결정한 복수의 오디오 재생 설정에 액세스하는 단계; 상기 복수의 오디오 재생 설정에 기초하여 상기 오디오 신호에 적용할 필터 계수를 결정하는 단계; 개인화된 EQ 설정을 생성하는 단계; 블렌딩된 등화를 생성하기 위해 상기 개인화된 EQ 설정과 필터 계수를 블렌딩하는 단계; 및 상기 블렌딩된 등화를 제 1 기간에 상기 오디오 신호에 적용하는 단계를 포함하는 방법을 더 포함한다.
예 36은 예 35의 방법을 포함하고, 과거 개인화 설정에 기초하여 개인화된 EQ 설정을 생성하는 단계, 히스토리 등화가 활성화된 것에 응답하여, 이전 기간과 연관된 EQ 설정에 기초하여 개인화된 EQ 설정을 조정하는 단계를 더 포함한다.
예 37은 예 35의 방법을 포함하고, 사용자의 선호도를 나타내는 데이터의 이용가능성에 응답하여, 사용자의 선호도를 나타내는 데이터를 기반으로 오디오 재생 설정에 대응하는 EQ 파라미터를 결정하는 단계 및 사용자의 선호도를 나타내는 데이터를 기반으로 결정된 EQ 파라미터에 기초하여 개인화된 EQ 설정을 조정하는 단계를 더 포함한다.
예 38은 예 35의 방법을 포함하고, 재생 디바이스의 위치 데이터의 이용가능성에 응답하여, 재생 디바이스의 위치 데이터를 기반으로 개인화된 EQ 설정을 조정하는 단계; 사용자의 식별 이용가능성에 응답하여, 사용자와 연관된 프로파일을 기반으로 개인화된 EQ 설정을 조정하는 단계; 및 오디오 신호의 소스와 연관된 정보의 이용가능성에 응답하여, 오디오 신호의 소스를 기반으로 개인화된 EQ 설정을 조정하는 단계를 더 포함한다.
예 39는 예 35의 방법을 포함하고, 블렌딩된 등화를 생성하기 위해 제 1 개인화된 EQ 설정, 제 2 개인화된 EQ 설정 및 필터 계수에 가중치를 적용하는 단계를 더 포함한다.
예 40은 예 35의 방법을 포함하고, 개인화된 EQ 설정은 이전 기간과 연관된 EQ 설정, 사용자의 선호도를 나타내는 데이터, 재생 디바이스의 위치 데이터, 사용자 또는 오디오 신호의 소스와 관련된 프로파일에 기반한다.
예 41은 재생 디바이스에서 재생될 미디어 신호를 수신하는 것에 응답하여, 미디어 신호에 대응하는 등화(EQ) 프로파일에 액세스하는 동기화기; 개인화된 EQ 설정을 생성하기 위한 EQ 개인화 매니저; 및 EQ 프로파일과 개인화된 EQ 설정을 기반으로 생성된 블렌딩된 등화를 기초로 재생 디바이스에서 미디어 신호의 재생을 수정하는 EQ 조정 구현자를 포함하는 장치를 구비한다.
예 42는 예 41의 장치를 포함하고, 과거 개인화 설정에 기초하여 개인화된 EQ 설정을 생성하고, 히스토리 등화가 활성화되는 것에 응답하여, 이전 기간과 관련된 EQ 설정을 기반으로 개인화된 EQ 설정을 조정하는 히스토리 EQ 매니저를 더 포함한다.
예 43은 예 41의 장치를 포함하고, 사용자의 선호도를 나타내는 데이터의 이용가능성에 응답하여 사용자의 선호도를 나타내는 데이터를 기반으로 오디오 재생 설정에 대응하는 EQ 파리미터를 결정하고 오디오 재생 설정으로 이동하고 사용자의 선호도를 나타내는 데이터를 기반으로 결정된 EQ 파리미터에 따라 개인화된 EQ 설정을 조정하기 위한 사용자 입력 분석기를 더 포함한다.
예 44는 예 41의 장치를 포함하고, 재생 디바이스의 위치 데이터의 이용가능성에 응답하여 재생 디바이스의 위치 데이터를 기반으로 개인화된 EQ 설정을 조정하고; 사용자의 식별 이용가능성에 응답하여, 사용자 프로파일을 기반으로 개인화된 EQ 설정을 조정하며; 미디어 신호의 소스와 관련된 정보의 이용가능성에 응답하여, 미디어 신호의 소스를 기반으로 개인화된 EQ 설정을 조정하는 디바이스 파리미터 분석기를 더 포함한다.
예 45는 예 41의 장치를 포함하고, EQ 조정 구현자는 블렌딩된 등화를 생성하기 위해 제 1 개인화된 EQ 설정, 제 2 개인화된 EQ 설정 및 EQ 프로파일에 가중치를 적용할 수 있다.
예 46은 예 41의 장치를 포함하고, 개인화된 EQ 설정은 이전 기간과 연관된 EQ 설정, 사용자의 선호도를 나타내는 데이터, 재생 디바이스의 위치 데이터, 사용자 프로파일 또는 미디어 신호 소스를 기반으로 한다.
예 47은 예 41의 장치를 포함하고, EQ 프로파일은 (1) 가요와 관련된 카테고리를 식별하는 정보, (2) 비디오 세그먼트와 관련된 카테고리를 식별하는 정보, (3) 가요 또는 비디오 세그먼트와 관련된 분위기를 식별하는 정보, 또는 (4) 미디어 신호의 일부와 다른 주파수에 대한 신호 강도 파리미터를 식별하는 정보 중 적어도 하나에 대응하는 재생 속성을 포함한다.
예 48은 실행시 하나 이상의 프로세서가 적어도 재생 디바이스에서 재생될 미디어 신호를 수신하는 것에 응답하여, 미디어 신호에 대응하는 등화(EQ) 프로파일에 액세스하게 하고, 개인화된 EQ 설정을 생성하게 하며, EQ 프로파일 및 개인화된 EQ 설정을 기반으로 생성된 혼합된 등화를 기초로 재생 디바이스에서 미디어 신호의 재생을 수정하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
예 49는 예 48의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 과거 개인화 설정에 기초하여 개인화된 EQ 설정을 생성하게 하고, 히스토리 등화가 활성화된 경우, 이전 기간과 관련된 EQ 설정을 기반으로 개인화된 EQ 설정을 조정하게 한다.
예 50은 예 48의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 사용자의 선호도를 나타내는 데이터의 이용가능성에 응답하여, 사용자의 선호도를 나타내는 데이터를 기반으로 오디오 재생 설정에 해당하는 EQ 파라미터를 결정하게 하고, 사용자의 선호도를 나타내는 데이터를 기반으로 결정된 EQ 파라미터를 기초로 개인화된 EQ 설정을 조정하게 한다.
예 51은 예 48의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 재생 디바이스의 위치 데이터의 이용가능성에 응답하여, 재생 디바이스의 위치 데이터를 기반으로 개인화된 개인화된 EQ 설정을 조정하게 하고; 사용자 식별의 이용가능성에 응답하여, 사용자 프로파일을 기반으로 개인화된 EQ 설정을 조정하게 하며; 미디어 신호 소스와 관련된 정보의 이용가능성에 응답하여, 개인화된 EQ를 조정하게 한다.
예 52는 예 48의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 블렌디드 등화를 생성하기 위해 제 1 개인화된 EQ 설정, 제 2 개인화된 EQ 설정 및 EQ 프로파일에 가중치를 적용하게 한다.
예 53은 예 48의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 개인화된 EQ 설정은 이전 기간과 연관된 EQ 설정, 사용자의 선호도를 나타내는 데이터, 재생 디바이스의 위치 데이터, 사용자 프로파일 또는 미디어 신호의 소스 중 적어도 하나를 기반으로 한다.
예 54는 예 48의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, EQ 프로파일은 (1) 가요와 관련된 카테고리를 식별하는 정보, (2) 비디오 세그먼트와 관련된 카테고리를 식별하는 정보, (3) 가요 또는 비디오 세그먼트와 관련된 분위기를 식별하는 정보, 또는 (4) 미디어 신호의 일부와 다른 주파수에 대한 신호 강도 파리미터를 식별하는 정보 중 적어도 하나에 대응하는 재생 속성을 포함한다.
예 55는 재생 디바이스에서 재생될 미디어 신호를 수신하는 것에 응답하여, 미디어 신호에 대응하는 등화(EQ) 프로파일에 액세스하는 단계; 개인화된 EQ 설정을 생성하는 단계; EQ 프로파일 및 개인화된 EQ 설정을 기반으로 생성된 혼합 등화를 기반으로 재생 디바이스에서 미디어 신호의 재생을 수정하는 단계를 포함하는 방법을 포함한다.
예 56은 예 55의 방법을 포함하고, 과거 개인화 설정에 기초하여 개인화된 EQ 설정을 생성하는 단계; 및 히스토리 등화가 활성화되는 것에 응답하여, 이전 기간과 연관된 EQ 설정에 기초하여 개인화된 EQ 설정을 조정하는 단계를 더 포함한다.
예 57은 예 55의 방법을 포함하고, 사용자의 선호도를 나타내는 데이터의 이용가능성에 응답하여, 사용자의 선호도를 나타내는 데이터를 기반으로 오디오 재생 설정에 대응하는 EQ 파라미터를 결정하는 단계; 및 사용자의 선호도를 나타내는 데이터를 기반으로 결정된 EQ 파라미터에 기초하여 개인화된 EQ 설정을 조정하는 단계를 더 포함한다.
예 58은 예 55의 방법을 포함하고, 재생 디바이스의 위치 데이터의 이용가능성에 응답하여, 재생 디바이스의 위치 데이터를 기반으로 개인화된 EQ 설정을 조정하는 단계; 사용자 식별의 이용가능성에 응답하여, 사용자 프로파일을 기반으로 개인화된 EQ 설정을 조정하는 단계; 및 미디어 신호의 소스와 연관된 정보의 이용가능성에 응답하여, 미디어 신호의 소스를 기반으로 개인화된 EQ 설정을 조정하는 단계를 더 포함한다.
예 59는 예 55의 방법을 포함하고, 블렌딩된 등화를 생성하기 위해 제 1 개인화된 EQ 설정, 제 2 개인화된 EQ 설정 및 EQ 프로파일에 가중치를 적용하는 단계를 더 포함한다.
예 60은 예 55의 방법을 포함하고, 개인화된 EQ 설정은 이전 기간과 연관된 EQ 설정, 사용자의 선호도를 나타내는 데이터, 재생 디바이스의 위치 데이터, 사용자 프로파일 또는 미디오 신호의 소스와 중 적어도 하나에 기반한다.
예 61은 등화된 오디오 신호를 생성하기 위해 오디오 신호에 복수의 등화 조정을 적용하는 볼륨 조절기; 복수의 등화 조정을 적용한 후 오디오 신호의 주파수 표현의 불규칙성을 감지하고, 불규칙성을 줄이기 위해 인접한 주파수 값의 제 1 주파수 값으로 볼륨을 조정하기 위한 스레시홀딩 컨트롤러; 불규칙성이 감소되었을 때 오디오 신호에 적용할 EQ 곡선을 생성하는 EQ(등화) 곡선 생성기; 및 상기 EQ 곡선을 기반으로하는 시간 영역의 등화된 오디오 신호를 출력하기 위한 주파수 시간 영역 변환기를 포함하고, 상기 복수의 등화 조정은 오디오 신호의 평균 볼륨 표현을 포함한 입력 특징 세트에 응답하여 신경망으로부터 출력되며 상기 불규칙성 임계값을 초과하는 인접 주파수 값 간의 볼륨 변화에 해당하는 장치를 포함한다.
예 62는 예 61의 장치를 포함하고, 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 1 RMS 값을 결정하고, 불규칙성을 감소시킨 후 오디오 신호의 주파수 표현의 제 2 RMS 값을 결정하며, 제 2 RMS 값과 제 1 RMS 값 사이의 비를 결정하는 에너지 계산기를 더 포함한다.
예 63은 예 61의 장치를 포함하며, (1) 불규칙성의 감소 후 오디오 신호의 주파수 표현의 제 1 RMS 값과 (2) 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 2 RMS 값 사이의 비가 오디오 신호의 에너지에서 허용 가능한 변화와 관련된 임계값을 초과하는 지 여부를 결정하고, 상기 임계값을 초과한 비에 응답하여, 오디오 신호의 주파수 표현의 게인의 정규화를 적용하는 볼륨 정규화기를 더 포함한다.
예 64는 예 61의 장치를 포함하고, 복수의 등화 조정은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함한다.
예 65는 예 61의 장치를 포함하고, 스레시홀딩 컨트롤러는 오디오 신호의 주파수 표현에서 복수의 주파수 값을 선택하고, 상기 복수의 주파수 값과 연관된 복수의 볼륨값을 결정하며, 상기 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하고, 임계값을 초과하는 2 차 미분의 절대값에 응답하여, 불규칙성을 줄이기 위해 인접한 주파수 값의 제 1 주파수 값으로 볼륨을 조정할 수 있다.
예 66은 예 61의 장치를 포함하고, 복수의 등화 조정은 적어도 참조 오디오 신호, EQ 곡선 및 상기 EQ 곡선을 생성한 복수의 오디오 엔지니어와 연관된 태그에 기초하고, 신경망은 적어도 참조 오디오 신호, EQ 곡선 및 복수의 오디오 엔지니어와 연관된 태그와 연관된 추론에 기초하여 복수의 등화 조정을 결정한다.
예 67은 예 66의 장치를 포함하고, 입력 특징 세트는 오디오 신호의 평균 볼륨 표현 및 오디오 신호의 주파수 표현의 주파수 빈에 대한 평균 표준편차 측정치를 포함한다.
예 68은 실행시 하나 이상의 프로세서가 오디오 신호에 적어도 복수의 등화 조정을 적용하여 등화된 오디오 신호를 생성하게 하고, 복수의 등화 조정을 적용한 후 오디오 신호의 주파수 표현의 불규칙성을 감지하게 하며, 불규칙성을 줄이기 위해 인접 주파수 값의 제 1 주파수 값으로 볼륨을 조정하게 하고, 불규칙성이 감소된 경우 오디오 신호에 적용할 등화(EQ) 곡선을 생성하게 하며, 상기 EQ 곡선을 기반으로 한 시간 영역에서 등화된 오디오 신호를 출력하게 하고, 상기 복수의 등화 조정은 오디오 신호의 평균 볼륨 표현을 포함하는 입력 특징 세트에 응답하여 신경망으로부터 출력되며, 상기 불규칙성은 임계값을 초과하는 인접 주파수 값 사이의 볼륨의 변화에 해당하는 명령어를 포함하는 비일시적 컴퓨팅 판독 가능 저장 매체를 포함한다.
예 69는 예 68의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 1 RMS 값을 결정하게 하고, 불규칙성의 감소 후에 오디오 신호의 주파수 표현의 제 2 RMS 값을 결정하게 하며, 제 2 RMS 값과 제 1 RMS 값 사이의 비를 결정하게 한다.
예 70은 예 68의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어는 (1) 불규칙성의 감소 후 오디오 신호의 주파수 표현의 제 1 RMS 값과 (2) 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 2 RMS 값 사이의 비가 오디오 신호의 에너지에서 허용 가능한 변화와 관련된 임계값을 초과하는 지 여부를 결정하게 하고, 상기 임계값을 초과한 비에 응답하여, 오디오 신호의 주파수 표현의 게인의 정규화를 적용하게 한다.
예 71은 예 68의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 복수의 등화 조정은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함한다.
예 72는 예 68의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어를 통해, 실행시, 하나 이상의 프로세서가 오디오 신호의 주파수 표현에서 복수의 주파수 값을 선택하게 하고, 복수의 주파수 값과 관련된 복수의 볼륨값을 결정하게 하며, 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하게 하며, 임계값을 초과하는 2 차 미분의 절대값에 응답하여 볼륨을 불규칙성을 줄이기 위해 인접한 주파수 값의 제 1 주파수 값으로 조정하게 한다.
예 73은 예 68의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 복수의 등화 조정은 적어도 참조 오디오 신호, EQ 곡선 및 상기 EQ 곡선을 생성한 복수의 오디오 엔지니어와 연관된 태그에 기초하고, 신경망은 적어도 참조 오디오 신호, EQ 곡선 및 복수의 오디오 엔지니어와 연관된 태그와 연관된 추론에 기초하여 복수의 등화 조정을 결정한다.
예 74는 예 73의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 입력 특징 세트는 오디오 신호의 평균 볼륨 표현 및 오디오 신호의 주파수 표현의 주파수 빈에 대한 평균 표준편차 측정치를 포함한다.
예 75는 등화 오디오 신호를 생성하기 위해 오디오 신호에 복수의 등화 조정을 적용하는 단계; 복수의 등화 조정을 적용한 후 오디오 신호의 주파수 표현에서 불규칙성을 감지하는 단계; 불규칙성을 줄이기 위해 인접 주파수 값 중 제 1 주파수 값으로 볼륨을 조정하는 단계; 불규칙성이 감소된 경우 오디오 신호에 적용할 등화(EQ) 곡선을 생성하는 단계; 및 상기 EQ 곡선을 기반으로 시간 영역에서 등화된 오디오 신호를 출력하는 단계를 포함하고, 상기 복수의 등화 조정은 오디오 신호의 평균 볼륨 표현을 포함하는 입력 특징 세트에 응답하여 신경망으로부터 출력되며, 상기 불규칙성은 임계값을 초과하는 인접 주파수 값 간의 볼륨 변화에 해당하는 방법을 포함한다.
예 76은 예 75의 방법을 포함하고, 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 1 RMS(root mean square) 값을 결정하는 단계, 상기 불규칙성을 감소시킨 후 오디오 신호의 주파수 표현의 제 2 RMS 값을 결정하는 단계, 및 제 2 RMS 값과 제 1 RMS 값 사이의 비를 결정하는 단계를 더 포함한다.
예 77은 예 75의 방법을 포함하고, (1) 불규칙성의 감소 후 오디오 신호의 주파수 표현의 제 1 RMS 값과 (2) 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 2 RMS 값 사이의 비가 오디오 신호의 에너지에서 허용 가능한 변화와 관련된 임계값을 초과하는 지 여부를 결정하는 단계, 및 상기 임계값을 초과한 비에 응답하여, 오디오 신호의 주파수 표현의 게인의 정규화를 적용하는 단계를 더 포함한다.
예 78은 예 75의 방법을 포함하고, 복수의 등화 조정은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함한다.
예 79는 예 75의 방법을 포함하고, 오디오 신호의 주파수 표현에서 복수의 주파수 값을 선택하는 단계, 상기 복수의 주파수 값과 연관된 복수의 볼륨값을 결정하는 단계, 상기 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하는 단계, 및 임계값을 초과하는 2 차 미분의 절대값에 응답하여, 불규칙성을 줄이기 위해 인접한 주파수 값 중 제 1 주파수 값으로 볼륨을 조정하는 단계를 더 포함한다.
예 80은 예 75의 방법을 포함하고, 복수의 등화 조정은 적어도 참조 오디오 신호, EQ 곡선 및 상기 EQ 곡선을 생성한 복수의 오디오 엔지니어와 관련된 태그에 기초하고, 신경망은 적어도 참조 오디오 신호, EQ 곡선 및 복수의 오디오 엔지니어와 연관된 태그와 연관된 추론에 기초하여 복수의 등화 조정을 결정한다.
특정 예시적인 방법, 장치 및 제조물품이 본 명세서에 개시되었으나, 본 출원의 적용 범위는 이에 국한되지 않는다. 반대로, 본 출원은 본 출원의 청구 범위에 속하는 모든 방법, 장치 및 제조물품을 명백히 포함한다.

Claims (21)

  1. 등화된 오디오 신호를 생성하기 위해 오디오 신호에 복수의 등화 조정을 적용하기 위해 볼륨을 조정하는 수단;
    상기 복수의 등화 조정을 적용한 후 오디오 신호의 주파수 표현의 불규칙성을 검출하고, 상기 불규칙성을 감소시키기 위해 인접한 주파수 값의 제 1 주파수 값으로 볼륨을 조정하기 위한 임계값을 설정하는 수단;
    상기 불규칙성이 감소되었을 때 오디오 신호에 적용할 EQ 곡선을 생성하기 위해 등화(EQ) 곡선을 생성하는 수단; 및
    상기 EQ 곡선에 기초한 시간 영역에서 등화된 오디오 신호를 출력하기 위해 주파수 시간 영역으로 변환하는 수단을 포함하고,
    상기 복수의 등화 조정은 오디오 신호의 평균 볼륨 표현을 포함하는 입력 특징 세트에 응답하여 신경망으로부터 출력되며,
    상기 불규칙성은 임계값을 초과하는 인접한 주파수 값 사이의 볼륨 변화에 대응하는 장치.
  2. 제 1 항에 있어서,
    복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 1 RMS(Root Mean Square) 값을 결정하고,
    불규칙성의 감소 후에 오디오 신호의 주파수 표현의 제 2 RMS 값을 결정하며,
    제 2 RMS 값과 제 1 RMS 값 사이의 비(比)를 결정하는 에너지를 계산하기 위한 수단을 더 포함하는 장치.
  3. 제 1 항에 있어서,
    임계값은 제 1 임계값이고, 상기 장치는:
    (1) 불규칙성의 감소 후 오디오 신호의 주파수 표현의 제 1 RMS 값과 (2) 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 2 RMS 값 사이의 비(比)가 오디오 신호의 에너지에서 허용 가능한 변화와 관련된 제 2 임계값을 초과하는 지 여부를 결정하고,
    상기 제 2 임계값을 초과한 비에 응답하여, 오디오 신호의 주파수 표현의 게인의 정규화를 적용하는 볼륨 정규화기를 더 포함하는 장치.
  4. 제 1 항에 있어서,
    복수의 등화 조정은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함하는 장치.
  5. 제 1 항에 있어서,
    임계값을 설정하는 수단은:
    오디오 신호의 주파수 표현에서 복수의 주파수 값을 선택하고,
    상기 복수의 주파수 값과 연관된 복수의 볼륨값을 결정하며,
    상기 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하고,
    임계값을 초과하는 2 차 미분의 절대값에 응답하여, 불규칙성을 줄이기 위해 인접한 주파수 값의 제 1 주파수 값으로 볼륨을 조정하는 장치.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    복수의 등화 조정은 적어도 참조 오디오 신호, EQ 곡선 및 상기 EQ 곡선을 생성한 복수의 오디오 엔지니어와 연관된 태그에 기초하고, 신경망은 적어도 참조 오디오 신호, EQ 곡선 및 복수의 오디오 엔지니어와 연관된 태그와 연관된 추론에 기초하여 복수의 등화 조정을 결정하는 장치.
  7. 제 6 항에 있어서,
    입력 특징 세트는 오디오 신호의 평균 볼륨 표현 및 오디오 신호의 주파수 표현의 주파수 빈에 대한 평균 표준편차 측정치를 포함하는 장치.
  8. 실행시 하나 이상의 프로세서가 적어도:
    오디오 신호에 복수의 등화 조정을 적용하여 등화된 오디오 신호를 생성하게 하고,
    복수의 등화 조정을 적용한 후 오디오 신호의 주파수 표현의 불규칙성을 감지하게 하며,
    불규칙성을 줄이기 위해 인접 주파수 값의 제 1 주파수 값으로 볼륨을 조정하게 하고,
    불규칙성이 감소된 경우 오디오 신호에 적용할 등화(EQ) 곡선을 생성하게 하며,
    상기 EQ 곡선을 기반으로 한 시간 영역에서 등화된 오디오 신호를 출력하게 하고,
    상기 복수의 등화 조정은 오디오 신호의 평균 볼륨 표현을 포함하는 입력 특징 세트에 응답하여 신경망으로부터 출력되며,
    상기 불규칙성은 임계값을 초과하는 인접 주파수 값 사이의 볼륨의 변화에 해당하는 명령어를 포함하는 컴퓨터 판독 가능 저장 매체.
  9. 제 8 항에 있어서,
    명령어를 통해, 실행시, 하나 이상의 프로세서가:
    복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 1 제곱평균제곱근(RMS) 값을 결정하게 하고,
    불규칙성의 감소 후에 오디오 신호의 주파수 표현의 제 2 RMS 값을 결정하게 하며,
    제 2 RMS 값과 제 1 RMS 값 사이의 비를 결정하게 하는 컴퓨터 판독 가능 저장 매체.
  10. 제 8 항에 있어서,
    임계값은 제 1 임계값이고,
    명령어를 통해, 실행시, 하나 이상의 프로세스가:
    (1) 불규칙성의 감소 후 오디오 신호의 주파수 표현의 제 1 RMS 값과 (2) 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 2 RMS 값 사이의 비가 오디오 신호의 에너지에서 허용 가능한 변화와 관련된 제 2 임계값을 초과하는 지 여부를 결정하게 하고,
    상기 제 2 임계값을 초과한 비에 응답하여, 오디오 신호의 주파수 표현의 게인의 정규화를 적용하게 하는 컴퓨터 판독 가능 저장 매체.
  11. 제 8 항에 있어서,
    복수의 등화 조정은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함하는 컴퓨터 판독 가능 저장 매체.
  12. 제 8 항에 있어서,
    명령어를 통해, 실행시, 하나 이상의 프로세서가:
    오디오 신호의 주파수 표현에서 복수의 주파수 값을 선택하게 하고,
    복수의 주파수 값과 관련된 복수의 볼륨값을 결정하게 하며,
    복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하게 하며,
    임계값을 초과하는 2 차 미분의 절대값에 응답하여, 불규칙성을 줄이기 위해 인접한 주파수 값의 제 1 주파수 값으로 볼륨을 조정하게 하는 컴퓨터 판독 가능 저장 매체.
  13. 제 8 항 내지 제 12 항 중 어느 한 항에 있어서,
    복수의 등화 조정은 적어도 참조 오디오 신호, EQ 곡선 및 상기 EQ 곡선을 생성한 복수의 오디오 엔지니어와 연관된 태그에 기초하고, 신경망은 적어도 참조 오디오 신호, EQ 곡선 및 복수의 오디오 엔지니어와 연관된 태그와 연관된 추론에 기초하여 복수의 등화 조정을 결정하는 컴퓨터 판독 가능 저장 매체.
  14. 제 13 항에 있어서,
    입력 특징 세트는 오디오 신호의 평균 볼륨 표현 및 오디오 신호의 주파수 표현의 주파수 빈에 대한 평균 표준편차 측정치를 포함하는 컴퓨터 판독 가능 저장 매체.
  15. 등화 오디오 신호를 생성하기 위해 오디오 신호에 복수의 등화 조정을 적용하는 단계;
    복수의 등화 조정을 적용한 후 오디오 신호의 주파수 표현에서 불규칙성을 감지하는 단계;
    불규칙성을 줄이기 위해 인접 주파수 값 중 제 1 주파수 값으로 볼륨을 조정하는 단계;
    불규칙성이 감소된 경우 오디오 신호에 적용할 등화(EQ) 곡선을 생성하는 단계; 및
    상기 EQ 곡선을 기반으로 시간 영역에서 등화된 오디오 신호를 출력하는 단계를 포함하고,
    상기 복수의 등화 조정은 오디오 신호의 평균 볼륨 표현을 포함하는 입력 특징 세트에 응답하여 신경망으로부터 출력되며,
    상기 불규칙성은 임계값을 초과하는 인접 주파수 값 간의 볼륨 변화에 해당하는 방법.
  16. 제 15 항에 있어서,
    복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 1 RMS 값을 결정하는 단계;
    상기 불규칙성을 감소시킨 후 오디오 신호의 주파수 표현의 제 2 RMS 값을 결정하는 단계; 및
    제 2 RMS 값과 제 1 RMS 값 사이의 비를 결정하는 단계를 더 포함하는 방법.
  17. 제 15 항에 있어서,
    임계값은 제 1 임계값이고, 상기 방법은:
    (1) 불규칙성의 감소 후 오디오 신호의 주파수 표현의 제 1 RMS 값과 (2) 복수의 등화 조정을 적용하기 전에 오디오 신호의 주파수 표현의 제 2 RMS 값 사이의 비가 오디오 신호의 에너지에서 허용 가능한 변화와 관련된 제 2 임계값을 초과하는 지 여부를 결정하는 단계; 및
    상기 제 2 임계값을 초과한 비에 응답하여, 오디오 신호의 주파수 표현의 게인의 정규화를 적용하는 단계를 더 포함하는 방법.
  18. 제 15 항에 있어서,
    복수의 등화 조정은 복수의 주파수 범위에 대응하는 복수의 볼륨 조정값을 포함하는 방법.
  19. 제 15 항에 있어서,
    오디오 신호의 주파수 표현에서 복수의 주파수 값을 선택하는 단계;
    상기 복수의 주파수 값과 연관된 복수의 볼륨값을 결정하는 단계;
    상기 복수의 주파수 값에 대한 볼륨의 2 차 미분을 결정하는 단계; 및
    임계값을 초과하는 2 차 미분의 절대값에 응답하여, 불규칙성을 줄이기 위해 인접한 주파수 값 중 제 1 주파수 값으로 볼륨을 조정하는 단계를 더 포함하는 방법.
  20. 제 15 항 내지 제 19 항 중 어느 한 항에 있어서,
    복수의 등화 조정은 적어도 참조 오디오 신호, EQ 곡선 및 상기 EQ 곡선을 생성한 복수의 오디오 엔지니어와 관련된 태그에 기초하고, 신경망은 적어도 참조 오디오 신호, EQ 곡선 및 복수의 오디오 엔지니어와 연관된 태그와 연관된 추론에 기초하여 복수의 등화 조정을 결정하는 방법.
  21. 제 20 항에 있어서,
    입력 특징 세트는 오디오 신호의 평균 볼륨 표현 및 오디오 신호의 주파수 표현의 주파수 빈에 대한 평균 표준 편차 측정치를 포함하는 방법.
KR1020217015219A 2018-10-24 2019-10-23 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치 KR102477001B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227043033A KR20230003293A (ko) 2018-10-24 2019-10-23 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862750113P 2018-10-24 2018-10-24
US62/750,113 2018-10-24
US201962816823P 2019-03-11 2019-03-11
US201962816813P 2019-03-11 2019-03-11
US62/816,823 2019-03-11
US62/816,813 2019-03-11
US201962850528P 2019-05-20 2019-05-20
US62/850,528 2019-05-20
PCT/US2019/057736 WO2020086771A1 (en) 2018-10-24 2019-10-23 Methods and apparatus to adjust audio playback settings based on analysis of audio characteristics

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227043033A Division KR20230003293A (ko) 2018-10-24 2019-10-23 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210129032A KR20210129032A (ko) 2021-10-27
KR102477001B1 true KR102477001B1 (ko) 2022-12-13

Family

ID=70325344

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020217015219A KR102477001B1 (ko) 2018-10-24 2019-10-23 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
KR1020227043033A KR20230003293A (ko) 2018-10-24 2019-10-23 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020227043033A KR20230003293A (ko) 2018-10-24 2019-10-23 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치

Country Status (5)

Country Link
US (7) US10998872B2 (ko)
EP (1) EP3871217A4 (ko)
JP (2) JP7196294B2 (ko)
KR (2) KR102477001B1 (ko)
WO (1) WO2020086771A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7196294B2 (ja) 2018-10-24 2022-12-26 グレースノート インコーポレイテッド オーディオ特性の解析に基づいてオーディオ再生設定を調節するための方法及び装置
US11818426B2 (en) * 2019-11-14 2023-11-14 Dish Network L.L.C. Method and system for adaptive audio modification
SE543749C2 (en) * 2019-11-15 2021-07-13 Hearezanz Ab Volume dependent audio compensation
JP7294222B2 (ja) * 2020-04-16 2023-06-20 トヨタ自動車株式会社 異音評価システムおよび異音評価方法
EP3944100A1 (en) * 2020-07-20 2022-01-26 Mimi Hearing Technologies GmbH Method of selecting a suitable content for subjective preference judgement
US11297368B1 (en) 2021-02-12 2022-04-05 Louis-Pierre Guidetti Methods, systems, and apparatuses and live audio capture
CN113468674B (zh) * 2021-07-23 2022-03-04 上海紫荆桃李科技有限公司 一种基于神经网络的汽车内饰件表面发声调校系统
CN116782093B (zh) * 2023-08-28 2023-11-07 深圳市奇创想科技有限公司 便携式音箱的音频调节方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080037804A1 (en) 2006-08-01 2008-02-14 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
US20110191101A1 (en) 2008-08-05 2011-08-04 Christian Uhle Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction
US20160036404A1 (en) 2013-02-25 2016-02-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Equalization filter coefficient determinator, apparatus, equalization filter coefficient processor, system and methods
JP2016519784A (ja) 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
US20170070817A1 (en) 2015-09-09 2017-03-09 Samsung Electronics Co., Ltd. Apparatus and method for controlling sound, and apparatus and method for training genre recognition model

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030112262A1 (en) 1999-06-14 2003-06-19 Lycos, Inc. A Virginia Corporation Media resource manager/player
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6959275B2 (en) 2000-05-30 2005-10-25 D.S.P.C. Technologies Ltd. System and method for enhancing the intelligibility of received speech in a noise environment
GB2366697A (en) 2000-08-31 2002-03-13 Nokia Mobile Phones Ltd Transmission of user profile via messaging service
WO2003034724A1 (fr) * 2001-10-16 2003-04-24 Seiko Epson Corporation Dispositif de creation de fichier et dispositif de sortie de donnees
US7548854B2 (en) 2002-01-31 2009-06-16 Awi Licensing Company Architectural sound enhancement with pre-filtered masking sound
EP1817938B1 (en) * 2004-11-23 2008-08-20 Koninklijke Philips Electronics N.V. A device and a method to process audio data, a computer program element and a computer-readable medium
US20080170723A1 (en) * 2005-03-04 2008-07-17 Pioneer Corporation Audio Reproducing Apparatus and Method, and Computer Program
US7903825B1 (en) 2006-03-03 2011-03-08 Cirrus Logic, Inc. Personal audio playback device having gain control responsive to environmental sounds
ES2400160T3 (es) 2006-04-04 2013-04-08 Dolby Laboratories Licensing Corporation Control de una característica percibida del volumen sonoro de una señal de audio
US8144881B2 (en) * 2006-04-27 2012-03-27 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US8477950B2 (en) 2009-08-24 2013-07-02 Novara Technology, LLC Home theater component for a virtualized home theater system
CN102577113A (zh) * 2009-10-07 2012-07-11 日本电气株式会社 多带域压缩器及其调节方法
CN103039023A (zh) 2010-04-09 2013-04-10 Dts公司 音频重放的自适应环境噪声补偿
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US9666227B2 (en) 2011-07-26 2017-05-30 Booktrack Holdings Limited Soundtrack for electronic text
US20130178964A1 (en) 2012-01-08 2013-07-11 Oliver Bergmann Audio system with adaptable audio output
US9495591B2 (en) 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US9401153B2 (en) 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
US9288579B2 (en) 2013-01-28 2016-03-15 Neofidelity, Inc. Method for dynamically adjusting gain of parametric equalizer according to input signal, dynamic parametric equalizer and dynamic parametric equalizer system employing the same
KR101400865B1 (ko) 2013-01-28 2014-05-29 네오피델리티 주식회사 입력 신호에 따라 파라메트릭 이퀄라이저의 게인을 다이나믹하게 조절하는 방법 및 그 방법을 채용한 다이내믹 파라메트릭 이퀄라이저 시스템
US9319019B2 (en) 2013-02-11 2016-04-19 Symphonic Audio Technologies Corp. Method for augmenting a listening experience
US9814879B2 (en) 2013-05-13 2017-11-14 Cochlear Limited Method and system for use of hearing prosthesis for linguistic evaluation
US9380383B2 (en) 2013-09-06 2016-06-28 Gracenote, Inc. Modifying playback of content using pre-processed profile information
US8767996B1 (en) 2014-01-06 2014-07-01 Alpine Electronics of Silicon Valley, Inc. Methods and devices for reproducing audio signals with a haptic apparatus on acoustic headphones
EP3259927A1 (en) * 2015-02-19 2017-12-27 Dolby Laboratories Licensing Corporation Loudspeaker-room equalization with perceptual correction of spectral dips
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9928025B2 (en) 2016-06-01 2018-03-27 Ford Global Technologies, Llc Dynamically equalizing receiver
US11611605B2 (en) 2016-10-21 2023-03-21 Microsoft Technology Licensing, Llc Dynamically modifying an execution environment for varying data
US10249209B2 (en) * 2017-06-12 2019-04-02 Harmony Helper, LLC Real-time pitch detection for creating, practicing and sharing of musical harmonies
JP2019164106A (ja) 2018-03-20 2019-09-26 本田技研工業株式会社 異音検出装置および検出方法
JP7196294B2 (ja) 2018-10-24 2022-12-26 グレースノート インコーポレイテッド オーディオ特性の解析に基づいてオーディオ再生設定を調節するための方法及び装置
US10929099B2 (en) * 2018-11-02 2021-02-23 Bose Corporation Spatialized virtual personal assistant
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
US10726874B1 (en) * 2019-07-12 2020-07-28 Smule, Inc. Template-based excerpting and rendering of multimedia performance

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080037804A1 (en) 2006-08-01 2008-02-14 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
US20110191101A1 (en) 2008-08-05 2011-08-04 Christian Uhle Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction
US20160036404A1 (en) 2013-02-25 2016-02-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Equalization filter coefficient determinator, apparatus, equalization filter coefficient processor, system and methods
JP2016519784A (ja) 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
US20170070817A1 (en) 2015-09-09 2017-03-09 Samsung Electronics Co., Ltd. Apparatus and method for controlling sound, and apparatus and method for training genre recognition model

Also Published As

Publication number Publication date
US20230308718A1 (en) 2023-09-28
US20200133624A1 (en) 2020-04-30
US20200133622A1 (en) 2020-04-30
US20210194448A1 (en) 2021-06-24
KR20210129032A (ko) 2021-10-27
EP3871217A4 (en) 2022-08-17
US11218125B2 (en) 2022-01-04
US11223340B2 (en) 2022-01-11
US11792481B2 (en) 2023-10-17
US10998872B2 (en) 2021-05-04
KR20230003293A (ko) 2023-01-05
EP3871217A1 (en) 2021-09-01
WO2020086771A1 (en) 2020-04-30
JP2023051951A (ja) 2023-04-11
US20240056635A1 (en) 2024-02-15
US20200133623A1 (en) 2020-04-30
US11611800B2 (en) 2023-03-21
US20200136580A1 (en) 2020-04-30
JP7196294B2 (ja) 2022-12-26
JP2022505850A (ja) 2022-01-14

Similar Documents

Publication Publication Date Title
KR102477001B1 (ko) 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
KR102584779B1 (ko) 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치
JP7071508B2 (ja) 音量調整のための方法、コンピュータ可読記憶媒体及び装置
KR102074135B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
US10838686B2 (en) Artificial intelligence to enhance a listening experience
US20190018644A1 (en) Soundsharing capabilities application
US11481628B2 (en) Methods and apparatus for audio equalization based on variant selection
US11902760B2 (en) Methods and apparatus for audio equalization based on variant selection
US20090192636A1 (en) Media Modeling
US12010495B2 (en) Techniques for audio track analysis to support audio personalization
EP3889958A1 (en) Dynamic audio playback equalization using semantic features
US20210377662A1 (en) Techniques for audio track analysis to support audio personalization
KR20230161235A (ko) 음원 인공지능 학습장치 및 그 장치의 구동방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant