KR20150006799A - 오디오 프로세싱 장치 - Google Patents

오디오 프로세싱 장치 Download PDF

Info

Publication number
KR20150006799A
KR20150006799A KR20140085782A KR20140085782A KR20150006799A KR 20150006799 A KR20150006799 A KR 20150006799A KR 20140085782 A KR20140085782 A KR 20140085782A KR 20140085782 A KR20140085782 A KR 20140085782A KR 20150006799 A KR20150006799 A KR 20150006799A
Authority
KR
South Korea
Prior art keywords
audio
point
sound source
determining
audio signal
Prior art date
Application number
KR20140085782A
Other languages
English (en)
Other versions
KR101703388B1 (ko
Inventor
케말 우구르
미코 타미
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20150006799A publication Critical patent/KR20150006799A/ko
Application granted granted Critical
Publication of KR101703388B1 publication Critical patent/KR101703388B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

장치는 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원를 결정하도록 구성되는 공간 오디오 분석기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함한다.

Description

오디오 프로세싱 장치{AUDIO PROCESSING APPARATUS}
본 출원은 오디오 프로세싱(audio processing)을 위한 장치에 관한 것이다. 본 출원은 게다가, 오디오 프로세싱을 위한 휴대용 또는 모바일 장치에 관한 것이나 이로 제한되지 않는다.
전자 장치 상에 오디오 및 오디오-비디오를 레코딩하는 것은 흔하다. 전문적인 비디오 캡처 장비, 소비자 등급 캠코더들 및 디지털 카메라들부터 모바일 전화기들에 이르는 디바이스들 및 심지어 웹캠들과 같은 간단한 디바이스들은 모션 비디오 이미지들의 전자적 획득(electronic acquisition)에 사용될 수 있다. 비디오 및 비디오와 연관되는 오디오를 레코딩하는 것은 많은 모바일 디바이스들에서의 표준 특징이 되었으며 그와 같은 장비의 기술 품질은 신속하게 개선되어 왔다. 모바일 디바이스를 사용하여 개인의 경험들을 레코딩하는 것은 모바일 전화기들과 같은 모바일 디바이스 및 다른 사용자 장비의 경우 빠르게 점진적으로 중요하게 사용되고 있다. 이것을 소셜 미디어의 출현 및 컨텐츠를 효율적으로 공유하는 새로운 방식들과 결합하는 것은 전자 디바이스 산업에 제공되는 새로운 기회들 및 이 발전들의 중요성의 기본이 된다.
종래의 상황들에서 환경은 모든 세 공간 차원들로 퍼지는 오디오 소스(audio source)들이 있는 음장(sound field)들을 포함한다. 뇌에 의해 통제되는 사람의 청력 시스템은 선천 능력을 발전시켜서 3차원 음장 내의 이 소스들의 위치를 찾고, 이 소스들을 분리하고 이해한다. 예를 들어, 뇌는 오디오 파면(wavefront)이 두 귀들에 도달할 때 오디오 소스로부터의 오디오 파면들에 내포되어 있는 큐(cue)들을 해독함으로써 오디오 소스들의 위치들을 찾는 시도를 행한다. 공간 지각을 일으키는 이 2개의 가장 중요한 큐들은 양귀간 시간차(interaural time difference; ITD)들 및 양귀간 레벨 차(interaural level difference; ILD)들이다. 예를 들어, 청취자의 좌측 및 전방에 위치되는 오디오 소스는 좌측 귀와 비교하여 우측 귀에 도달하는 데 더 많은 시간이 걸린다. 이 시간차가 ITD로 칭해진다. 유사하게, 두영(head shadowing)으로 인해, 우측 귀에 도달하는 파면은 좌측 귀에 도달하는 파면보다 더 많이 감쇠되어, ILD를 발생시킨다. 게다가, 귓바퀴 구조, 어깨 반사들로 인한 파면의 변형은 3D 음장에서 소스들의 위치를 찾는 방법에 중요한 역할을 할 수 있다. 그러므로 이 큐들은 사람/청취자, 주파수, 3D 음장 내의 오디오 소스의 위치 및 청취자가 있는 환경(예를 들어, 청취자가 무반향실/강당/거실에 위치되어 있는지의 여부)에 좌우된다.
오디오-비디오 레코딩들은 구현에 있어서 널리 공지되어 있다. 흔히 레코딩 또는 캡처는 환경적으로 잡음이 많은 상황들에서 수행되고 여기서 배경 잡음은 레코딩된 세부사항을 이해하는 데 있어서 곤란을 유발한다. 이의 전형적인 결과로서 세부사항들을 결정하기 위해 레코딩을 반복할 것을 요청하게 된다. 이것은 심한 혼란을 야기하는 국소적인 잡음으로 인해 대화를 따라가는 것이 어려울 수 있는 녹취 대화에서 특히 심각하다. 심지어 사용자가 레코딩 내의 세부사항들을 이해하는 것을 주변 또는 환경 잡음이 방해하지 않을지라도, 이것은 여전히 매우 혼란스럽고 성가시며 청취에 있어서 추가 노력을 필요로 할 수 있다.
그러므로 본 출원의 양태들은 더 유연한 오디오 프로세싱을 가능하게 하는 오디오 프로세싱 능력을 제공한다.
장치가 제공되고, 상기 장치는 적어도 하나의 프로세서 및 하나 이상의 프로그램들을 위한 컴퓨터 코드를 포함하는 적어도 하나의 메모리를 포함하고, 적어도 하나의 메모리 및 컴퓨터 코드는 적어도 하나의 프로세서에 의해 상기 장치로 하여금: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원(acoustic source)을 결정하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 한다.
적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 것은 상기 장치로 하여금: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일(metafile)을 결정하고; 그리고 음원 위치 정보로부터 적어도 하나의 음원을 결정하도록 하는 것 중 적어도 하나를 수행하도록 하고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 상기 장치로 하여금 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 한다.
적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 상기 장치로 하여금: 이미지 프레임(image frame)으로부터 비주얼(visual) 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 수행하도록 한다.
상기 장치는 디스플레이의 영역 내에, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하고; 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것을 더 하도록 될 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 상기 장치로 하여금 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를, 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로 결정하도록 한다.
디스플레이의 영역 내에, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 것은 상기 장치로 하여금: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하고; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하는 것을 더 하도록 할 수 있고, 적어도 하나의 비주얼 요소의 관심 위치의 지점을 결정하는 것은 상기 장치로 하여금 적어도 하나의 선택 입력에 기초하여 적어도 하나의 관심 지점 위치를 결정하도록 한다.
디스플레이 이미지를 생성하는 것은 상기 장치로 하여금: 적어도 하나의 이미지 프레임을 캡처하고; 적어도 하나의 사용자 인터페이스 오버레이(overlay) 요소를 생성하고; 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하도록 할 수 있다.
적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하는 것은 상기 장치로 하여금: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계(field of view) 외부에 있는 것을 강조하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하고; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태(toggle state)를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화(attenuation dampening)를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이를 생성하고; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이를 생성하고; 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 것 중 적어도 하나를 수행하도록 할 수 있다.
상기 장치는 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 것을 더 하도록 될 수 있고, 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것은 상기 장치로 하여금 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하도록 한다.
적어도 하나의 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 것은 장치로 하여금: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 범위; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 증폭 팩터(factor); 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 감쇠 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 아웃 포커스 증폭 팩터; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 아웃 포커스 감쇠 중 적어도 하나를 제공하도록 할 수 있다.
적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고, 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하는 것은 상기 장치로 하여금: 적어도 2개의 오디오 신호들로부터 위치값을 포함하는 적어도 하나의 음원을 결정하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치 내의 적어도 하나의 음원으로부터 적어도 하나의 음원을 결정하는 것 중 적어도 하나를 수행하도록 할 수 있다.
적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 것은 상기 장치로 하여금: 적어도 하나의 관심 지점 위치에서 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 연관되는 적어도 하나의 특징을 결정하고; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하고; 적어도 하나의 특징의 궤적을 결정하도록 할 수 있다.
상기 장치는 적어도 2개의 마이크로폰; 장치 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하는 것을 더 하도록 될 수 있다.
상기 장치는; 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하는 것을 더 하도록 될 수 있고, 적어도 하나의 캡처된 이미지 프레임은 적어도 하나의 카메라, 메모리 및 적어도 하나의 추가 장치들 중 적어도 하나로부터 수신된다.
본 발명의 제 2 양태에 따르면, 장치가 제공되고, 상기 장치는: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 수단; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 수단을 포함한다.
적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 수단은: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타데이터(metadata)를 결정하는 수단; 및 음원 위치 정보로부터 적어도 하나의 음원을 결정하는 수단 중 적어도 하나를 포함할 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단은 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단을 포함할 수 있다.
적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단은: 이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단; 및 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단 중 적어도 하나를 포함할 수 있다.
상기 장치는: 디스플레이의 범위 내에서, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 수단; 및 상기 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단을 더 포함할 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 수단은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를, 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로서 결정하는 수단을 포함할 수 있다.
디스플레이 영역 내에 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 수단은: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하는 수단; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하는 수단을 더 포함할 수 있고, 적어도 하나의 비주얼 요소의 관심 영역의 지점을 결정하는 수단은 적어도 하나의 선택 입력에 기초하여 관심 위치의 하나의 지점을 결정하는 수단을 포함할 수 있다.
디스플레이 이미지를 생성하는 수단은: 적어도 하나의 이미지 프레임을 캡처하는 수단; 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하는 수단; 및 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하는 수단을 포함할 수 있다.
적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하는 수단은: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이를 생성하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외부에 있는 것을 강조하는 오버레이를 생성하는 수단; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하는 수단; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하는 수단; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이를 생성하는 수단; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이를 생성하는 수단; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이를 생성하는 수단; 및 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 수단 중 적어도 하나를 포함할 수 있다.
상기 장치는 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 수단을 포함할 수 있고 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 수단은 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하는 수단을 포함할 수 있다.
적어도 하나의 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 수단은: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭을 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위를 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터를 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터를 제공하는 수단; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터를 제공하는 수단; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠를 제공하는 수단 중 적어도 하나를 포함할 수 있다.
적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고, 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하는 수단은: 적어도 2개의 오디오 신호들로부터 위치 값을 포함하는 적어도 하나의 음원을 결정하는 수단; 및 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치 내의 적어도 하나의 음원으로부터 적어도 하나의 음원을 결정하는 수단 중 적어도 하나를 포함할 수 있다.
적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 수단은: 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징 및/또는 적어도 하나의 관심 지점 위치에서의 적어도 하나의 음원을 결정하는 수단; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하는 수단; 및 적어도 하나의 특징의 궤적을 결정하는 수단을 포함할 수 있다.
상기 장치는: 적어도 2개의 마이크로폰들; 장치 메모리들; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하는 수단을 더 포함할 수 있다.
상기 장치는 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하는 수단을 더 포함할 수 있고, 적어도 하나의 캡처된 이미지 프레임은 카메라; 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신될 수 있다.
제 3 양태에 따르면 방법이 제공되고, 상기 방법은: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 단계; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 단계; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 단계를 포함한다.
적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 단계는: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일을 결정하고; 음원 위치 정보로부터 적어도 하나의 음원을 결정하는 것 중 하나를 포함할 수 있고, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계는 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것을 포함한다.
적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계는: 이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하고; 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 포함할 수 있다.
상기 방법은 디스플레이 영역 내에 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하고; 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것을 더 포함할 수 있고, 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점을 결정하는 것은 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점을 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로서 결정하는 것을 포함할 수 있다.
디스플레이의 영역 내에, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 단계는: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하고; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하는 것을 더 포함할 수 있고, 적어도 하나의 비주얼 요소의 관심 위치의 지점을 결정하는 것은 적어도 하나의 선택 입력에 기초하여 관심 위치의 하나의 지점을 결정하는 것을 포함할 수 있다.
디스플레이 이미지를 생성하는 단계는: 적어도 하나의 이미지 프레임을 캡처하고; 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고; 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하는 것을 포함할 수 있다.
적어도 하나의 사용자 오버레이 요소를 생성하는 것은: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외부에 있는 것을 강조하는 오버레이를 생성하고; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하고; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이를 생성하고; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이를 생성하고; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이를 생성하고; 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 것 중 적어도 하나를 포함할 수 있다.
상기 방법은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 것을 더 포함할 수 있고, 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것은 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하는 것을 포함할 수 있다.
적어도 하나의 위치와 연된되는 적어도 하나의 제어 입력을 제공하는 것은: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭을 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위를 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터를 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터를 제공하고; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터를 제공하고; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠를 제공하는 것 중 적어도 하나를 포함할 수 있다.
적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고, 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하는 것은: 적어도 2개의 오디오 신호들로부터 위치 값을 포함하는 적어도 하나의 음원을 결정하고; 및 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치 내의 적어도 하나의 음원으로부터 적어도 하나의 음원을 결정하는 것 중 적어도 하나를 포함할 수 있다.
적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 것은: 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징 및/또는 적어도 하나의 관심 지점 위치에서의 적어도 하나의 음원을 결정하고; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하고; 적어도 하나의 특징의 궤적을 결정하는 것을 포함할 수 있다.
상기 방법은: 적어도 2개의 마이크로폰들; 장치 메모리들; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하는 것을 더 포함할 수 있다.
상기 방법은 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하는 것을 더 포함할 수 있고, 적어도 하나의 캡처된 이미지 프레임은: 카메라; 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신될 수 있다.
제 4 양태에 따르면, 장치가 제공되고, 상기 장치는: 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하도록 구성되는 공간 오디오 분석기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기; 및 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함한다.
공간 오디오 분석기는: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일을 결정하도록 구성되는 메타파일 결정기; 및 음원 위치 정보로부터 적어도 하나의 음원을 결정하도록 구성되는 공간 분석기 중 적어도 하나를 포함할 수 있고 위치 결정기는 음원 위치 정보에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성될 수 있다.
위치 결정기는: 이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 이미지 위치 결정기; 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 오디오 위치 결정기; 및 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 사용자 인터페이스 입력 중 적어도 하나를 포함할 수 있다.
상기 장치는: 디스플레이 영역 내에 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하도록 구성되는 비주얼 프로세서; 및 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 터치 제어기를 더 포함할 수 있고, 위치 결정기는 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점을 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로서 결정하도록 구성될 수 있다.
비주얼 프로세서는: 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하고; 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하도록 구성될 수 있고, 위치 결정기는 적어도 하나의 선택 입력에 기초하여 관심 위치의 하나의 지점을 결정하도록 구성될 수 있다.
비주얼 프로세서는: 적어도 하나의 캡처된 이미지 프레임을 수신하고; 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고; 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성하기 위해 적어도 하나의 캡처된 이미지 프레임을 적어도 하나의 사용자 인터페이스 오버레이 요소와 결합하도록 구성될 수 있다.
적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하도록 구성되는 비주얼 프로세서는: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외부에 있는 것을 강조하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이; 적어도 하나 더 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이 하도록 구성되는 프로세싱 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이 하도록 구성되는 포커스 증폭 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이 하도록 구성되는 포커스 감쇠 오버레이; 포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이 하도록 구성되는 포커스 인버터 오버레이; 및 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이 하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하도록 구성될 수 있다.
상기 장치는 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되는 제어 입력을 포함할 수 있고, 프로세서는 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하도록 구성될 수 있다.
제어 입력은: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠 중 적어도 하나를 제공하도록 구성될 수 있다.
적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함할 수 있고 공간 오디오 분석기는: 적어도 2개의 오디오 신호들로부터 위치 값을 포함하는 적어도 하나의 음원, 그리고 적어도 하나의 음원과 연관되는 관심 영역의 적어도 하나의 지점 내의 적어도 하나의 음원으로부터 적어도 하나의 음원 중 적어도 하나를 결정하도록 구성될 수 있다.
궤적 결정기는: 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징 및/또는 적어도 하나의 관심 지점 위치에서의 적어도 하나의 음원을 결정하도록 구성되는 특징 결정기; 적어도 하나의 비주얼 이미지 요소 및/또는 적어도 하나의 음원과 각각 연관되는 적어도 하나의 특징을 추적하도록 구성되는 특징 추적기; 및 적어도 하나의 특징의 궤적을 결정하도록 구성되는 특징 궤적 결정기를 포함할 수 있다.
상기 장치는: 적어도 2개의 마이크로폰들; 장치 메모리들; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 적어도 하나의 오디오 신호를 수신하도록 구성되는 입력을 더 포함할 수 있다.
상기 장치는 적어도 하나의 위치가 결정되는 적어도 하나의 캡처된 이미지 프레임을 수신하도록 구성되는 이미지 입력을 더 포함할 수 있고, 적어도 하나의 캡처된 이미지 프레임은: 카메라; 메모리; 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신될 수 있다.
제 5 양태에 따르면 장치가 제공되고, 상기 장치는: 적어도 하나의 송수신기; 적어도 하나의 디스플레이; 적어도 하나의 사운드 재생 트랜스듀서; 적어도 하나의 프로세서; 적어도 하나의 메모리; 적어도 하나의 오디오 신호를 사용하여 적어도 하나의 음원을 결정하도록 구성되는 공간 오디오 분석기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기; 및 결정되는 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함한다.
매체 상에 저장되는 컴퓨터 프로그램 제품은 장치로 하여금 본원에 기술되는 바와 같은 방법을 수행하도록 할 수 있다.
전자 디바이스는 본원에서 기술되는 바와 같은 장치를 포함할 수 있다.
칩셋은 본원에서 기술되는 바와 같은 장치를 포함할 수 있다.
본 출원의 실시예들은 최신 기술과 연관되는 문제들을 처리하는 것을 목적으로 한다.
본 발명을 더 양호하게 이해하기 위해, 이제 예로서 첨부 도면들이 참조될 것이다:
도 1은 실시예들을 구현하기 위한 장치를 개략적으로 도시하는 도면이다.
도 2는 실시예들을 구현하는 데 적합한 오디오-비디오 프로세싱 장치를 더 상세하게 개략적으로 도시하는 도면이다.
도 3은 일부 실시예들에 따른 도 2에 도시된 장치의 동작에 대한 흐름도이다.
도 4는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 5는 포커싱(focusing)되는 오디오 비주얼(audio-visual) 소스를 식별하기 위한 사용자 입력이 있는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 6은 시각적으로 식별되는 포커싱되는 오디오 비주얼 소스를 나타내는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 7은 시각적으로 식별되는 포커싱되는 오디오 비주얼 소스가 추적되는 것을 나타내는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 8은 시각적으로 식별되는 포커싱되는 오디오-비주얼 소스를 나타내는 예시 오디오-비디오 캡처 시나리오 및 포커싱 및 언포커싱(unfocuing)되는 오디오 캡처를 나타내는 예시 오디오 파형들을 도시하는 도면이다.
도 9는 시각적으로 식별되는 포커싱되는 오디오-비주얼 소스를 나타내는 예시 오디오-비디오 캡처 시나리오 및 추적되는 포커싱, 추적되지 않은 포커싱 및 언포커싱되는 오디오 캡처를 나타내는 예시 오디오 파형들을 도시하는 도면이다.
도 10은 포커싱되어 있는 오디오 비주얼 소스를 시각적으로 식별하는 비디오 프로세싱을 나타내는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 11은 포커스 내의 오디오-비주얼 소스가 스크린을 벗어나는 곳을 시각적으로 식별하기 위한 비디오 프로세싱을 도시하는 예시 오디오-비디오 캡처 시나리오를 도시하는 도면이다.
도 12는 일부 실시예들에 따른 장치의 개요 동작의 흐름도이다.
다음은 효율적인 오디오 프로세싱을 제공하는데 적합한 장치 및 가능한 메커니즘들을 상세하게 기술한다.
본원에서 기술되는 바와 같이, 오디오 이벤트들은 어레이 상태의 다수의 마이크로폰들을 사용함으로써 효율적으로 캡처될 수 있다.
오디오 이벤트들을 효율적으로 캡처하기 위하여 다수의 마이크로폰들이 사용될 수 있다. 그러나 흔히, 캡처되는 신호들이 레코딩될 때 청취자가 마치 있었던 것처럼 상기 이벤트를 경험할 수 있는 형태로 상기 신호를 변환하는 것은 어렵다. 특히 청취자가 원래의 이벤트와 동일한 방식으로 자신의 주위의 환경 또는 음원들의 방향들을 감지할 수 없을 때 레코딩 또는 캡처된 오디오에서 공간 표현 구성요소가 상실될 수 있다.
음원들이 상이한 방향들로 있는 공간 신호들을 표현하기 위하여 흔히 5.1 채널 셋업과 같은 다채널 시스템들이 사용될 수 있으므로 이 다채널 시스템들은 잠재적으로 다-마이크로폰 시스템에 의해 캡처되는 공간 이벤트들을 표현하는 데 사용될 수 있다. 다-마이크로폰 레코딩 또는 캡처를 적절한 다채널 오디오 신호 포맷으로 변환하는 효율적인 방법들이 논의되어 왔다.
더욱이 다채널 시스템들 외에, 공간 오디오는 입체 음향 오디오(binaural audio) 포맷 신호로서 표현될 수 있다(헤드폰들로 오디오를 재현하기 위해). 다-마이크로폰이 캡처한 오디오 신호들을 입체 오디오 신호 포맷으로 변환하는 방법들이 논의되어 왔다.
이 포맷들은 입체 신호들이 일반적으로 모바일에 사용하는 데 적합하고 다채널 셋업들이 예를 들어 가정 또는 사무실에서 사용될 수 있으므로 서로 보완하는 것이 이해된다.
일부 방법들에서, 다-마이크로폰 오디오 신호들은 음원들의 방향 정보를 포함하는 중간 공간 오디오 포맷 신호로 변환될 수 있다. 다-마이크로폰 오디오 신호들로부터 도출되는 음원들 또는 오디오 소스들의 방향 정보의 생성은 일부 환경들에서 공간 오디오 신호 프로세싱에 대해 사용될 수 있다.
예시 공간 오디오 신호 프로세싱 사용예는 사용자가 공간 필드(spatial field)의 특정한 부분에 집중하는 경우이다(예를 들어, 사용자의 관심을 끄는 음원 또는 오디오 소스가 있는 경우).
예를 들어, 이것은 다음과 같이 동작할 수 있는 "대화형 오디오 조작"으로 구현될 수 있다:
1. 오디오 필드를 캡처하고 이 캡처된 신호들로부터 방향 정보를 분석.
2. 비디오 레코딩 동안, 오디오 신호를 증폭/약화(dampen)시키기 위해 이 방향을 표시(예를 들어, 사용자가 디스플레이 상을 탭핑(tapping)함으로써).
3. 음원의 방향 및 표시된 방향에 기초하여, 공간 및 방향 정보를 수정함으로써(예를 들어, 원하는 방향에서 오는 음들을 증폭시키기 위해) 새 오디오 신호를 렌더링.
더욱이, "대화형 양방향 조작"은 일부 실시예에서 물체 추적에 기초하는 조작을 제공할 수 있어서, 물체가 프로세싱 동작을 어디로 이동시킬지는 물체를 뒤따르게 된다. 본원에서 실시예들에 기술되는 개념은 음 물체의 방향을 추적하고 이 추적 정보를 공간 오디오 프로세서에 제공하는 것이다. 그러므로 예를 들어 물체가 프로세싱되는 방향은 장치(마이크로폰들 및/또는 카메라를 구비하는)가 이동하거나 음 물체가 이동하므로 시간에 따라 변할 수 있다.
일부 실시예들에서 사용자는 특수 관심의 음원을 선택할 수 있고 장치는 음원을 추적하거나 따르고 오디오 캡처 동작을 추적되는 방향으로 집중할 수 있다.
일부 실시예들에서 추적 동작은 이미지 또는 비전 추적에 기초할 수 있다. 그러므로 예를 들어 사용자가 디바이스의 스크린 상에서 탭핑함으로써 증폭할 원하는 음 물체의 방향을 표시할 때, 장치는 표시되는 지점의 영역 주위로 특징점(feature point)들을 생성하였다. 그 후에 장치는 비전 기반 추적 알고리즘들을 사용하여 특징점들을 추적하여 오디오 프로세서에 제공되는 추적 방향을 생성한다.
더욱이 일부 실시예들에서 추적 동작은 오디오 핑거프린트(audio fingerprint)를 추적하는 것에 기초할 수 있다. 그러므로 예를 들어, 사용자가 원하는 음 물체의 방향을 표시할 때, 장치는 상기 방향으로부터의 오디오 신호 또는 음들을 분석하고 오디오 핑거프린트를 생성한다. 모든 후속하는 오디오 프레임들에 대해, 상기 알고리즘은 신호를 핑거프린트와 정합시킴으로써 캡처된 오디오를 분석하고 물체의 방향을 추정할 수 있다. 그와 같은 방식에서 음원은 뷰 파인더 상에 또는 카메라의 범위 내에서 보일 필요가 없다.
본원에서 기술되는 바와 같은 개념은 일부 실시예들에서 음이 강화되는 물체를 표시하기 위해 장치의 디스플레이 비주얼 큐들을 생성 또는 제공하는 것을 더 특징으로 한다. 예를 들어, 일부 실시예들에서 방향에 대응하는 픽셀들의 컬러들이 강화될 수 있다.
이후에 재현하기 위한 레코딩 애플리케이션들에서 구현될 뿐만 아니라 일부 실시예들에서는 본원에서 기술되는 실시예들이 오디오 소스를 동적으로 변경하기 위해 실시간으로 구현되거나 이전에 레코딩된 오디오 및 비디오 컨텐츠에 기초하여 구현될 수 있음이 이해될 것이다. 예를 들어 일부 실시예들에서 적절한 후-레코딩(post recorded) 실시예들의 개요는 다음과 같이 설명된다:
- 레코딩 동안, 메타데이터 파일은 오디오 소스들의 방향에 대한 정보를 표시하기 위해 주 오디오 트랙(들)을 따라 생성된다. 오디오 트랙(들)은 저장 또는 레코딩된다(예를 들어, 스테레오, 다-채널 또는 모노 오디오 신호).
- 재현 동안 방향 또는 음원이 선택된다(예를 들어, 원하는 음원을 표시하는 것을 강조하는 사용자 인터페이스에 의한).
- 추적 메커니즘들을 사용하고 레코딩으로부터 메타데이터를 사용하여, 오디오가 렌더링되고 여기서 계산된 소스로부터의 방향이 강화된다.
이 점에 있어서 오디오 소스 방향들/모션을 결정하고 사용자 인터페이스 용도를 위해 오디오 소스 모션이 공지되거나 결정된 제스처들에 정합하는지를 결정하기 위하여, 오디오 신호들을 캡처 또는 모니터링하는 데 사용될 수 있는 예시 장치 또는 전자 디바이스(10)의 개략 블록도를 도시하는 도 1이 우선 참조된다.
장치(10)는 예를 들어, 무선 통신 시스템의 모바일 단말기 또는 사용자 장비일 수 있다. 일부 실시예들에서 장치는 MP3 플레이어, 미디어 레코더/재현기(또한 MP4 플레이어로서 공지된다)와 같은 오디오 플레이어 또는 오디오 레코더 또는 사용자 인터페이스 입력들을 요구하는 임의의 적절한 휴대용 디바이스일 수 있다.
일부 실시예들에서 장치는 개인용 컴퓨터 시스템, 전자 문서 판독기, 태블릿 컴퓨터 또는 랩탑의 일부일 수 있다.
장치(10)는 일부 실시예들에서 오디오 서브시스템을 포함할 수 있다. 오디오 서브시스템은 예를 들어, 일부 실시예들에서 오디오 신호 캡처를 위한 마이크로폰 또는 마이크로폰들의 어레이(11)를 포함할 수 있다. 일부 실시예들에서, 마이크로폰(또는 마이크로폰들의 어레이 중 적어도 하나)은 고체 마이크로폰일 수 있는, 즉 음향 신호(acoustic signal)들을 캡처하고 적절한 디지털 포맷 오디오 신호를 출력할 수 있다. 일부 다른 실시예들에서, 마이크로폰 또는 마이크로폰들의 어레이(11)는 임의의 적절한 마이크로폰 또는 오디오 캡처 수단, 예를 들어, 콘덴서 마이크로폰, 커패시터 마이크로폰, 정전 마이크로폰, 일렉트렉트 콘덴서(electret condenser) 마이크로폰, 동적 마이크로폰, 리본(ribbon) 마이크로폰, 카본 마이크로폰, 압전 마이크로폰 또는 마이크로 전기기계 시스템(microelectrical-mechanical system; MEMS) 마이크로폰을 포함할 수 있다. 마이크로폰(11) 또는 마이크로폰들의 어레이는 일부 실시예들에서 생성되는 오디오 신호를 아날로그-대-디지털 변환기(analogue-to-digital converter; ADC)(14)로 출력할 수 있다.
일부 실시예들에서 장치 및 오디오 서브시스템은 마이크로폰들로부터 아날로그 캡처되는 오디오 신호를 수신하고 오디오 캡처된 신호를 임의의 적절한 디지털 형태로 출력하도록 구성되는 아날로그-대-디지털 변환기(ADC)(14)를 포함한다. 아날로그-대-디지털 변환기(14)는 임의의 적절한 아날로그-대-디지털 변환 또는 프로세싱 수단일 수 있다.
일부 실시예들에서 장치(10) 및 오디오 서브시스템은 디지털 오디오 신호들을 프로세서(21)로부터 적절한 아날로그 포맷으로 변환하는 디지털-대-아날로그 변환기(32)를 더 포함한다. 디지털-대-아날로그 변환기(DAC) 또는 신호 프로세싱 수단(32)은 일부 실시예들에서 임의의 적절한 DAC 기술일 수 있다.
더욱이 오디오 서브시스템은 일부 실시예들에서 스피커(33)를 포함할 수 있다. 스피커(33)는 일부 실시예들에서 디지털-대-아날로그 변환기(32)로부터 출력을 수신하고 아날로그 오디오 신호를 사용자에게 제공할 수 있다. 일부 실시예들에서 스피커(33)는 헤드셋, 예를 들어 헤드폰들의 세트 또는 코드레스 헤드폰(cordless headphone)들을 대표할 수 있다.
장치(10)가 오디오 캡처 및 오디오 프리젠테이션 구성요소들 모두를 가지는 것으로 도시될지라도, 일부 실시예들에서 장치(10)는 단지 오디오 캡처를 포함할 수 있어서 상기 장치의 일부 실시예들에서는 마이크로폰(오디오 캡처를 위한) 및 아날로그-대-디지털 변환기가 존재하게 됨이 이해될 것이다.
일부 실시예들에서 장치 오디오-비디오 서브시스템은 프로세서(21)에 이미지 데이터를 공급하도록 구성되는 카메라(51) 또는 이미지 캡처 수단을 포함한다. 일부 실시예들에서 카메라는 비디오 스트림을 제공하기 위해 시간의 경과에 따라 다수의 이미지들 또는 프레임들을 공급하도록 구성될 수 있다.
일부 실시예들에서 장치 오디오-비디오 서브시스템은 디스플레이(52)를 포함한다. 디스플레이 또는 이미지 디스플레이 수단은 장치의 사용자가 볼 수 있는 비디오 프레임들의 비주얼 이미지들을 출력하도록 구성될 수 있다. 일부 실시예들에서 디스플레이는 입력 데이터를 장치에 공급하는 데 적합한 터치 스크린 디스플레이일 수 있다. 디스플레이는 임의의 적절한 디스플레이 기술일 수 있고, 예를 들어 디스플레이는 LCD, LED, OLED 또는 '프라즈마' 디스플레이 구현예들의 셀들을 포함하는 평면 패널에 의해 구현될 수 있다.
장치(10)가 오디오/비디오 캡처 및 오디오/비디오 프리젠테이션 구성요소들 모두를 가지는 것으로 도시될지라도, 일부 실시예들에서 장치(10)는 단지 오디오 서브시스템의 오디오 캡처 및 오디오 프리젠테이션 부분만을 포함할 수 있어서, 상기 장치의 일부 실시예들에서는 마이크로폰(오디오 캡처를 위한) 또는 스피커(오디오 프리젠테이션을 위한)가 존재하게 되는 것이 이해될 것이다. 유사하게, 일부 실시예들에서 장치(10)는 비디오 서브시스템의 비디오 캡처 또는 비디오 프리젠테이션 부분들 중 하나 또는 다른 하나를 포함할 수 있어서 일부 실시예들에서는 카메라(51)(비디오 캡처를 위한) 또는 디스플레이(52)(비디오 프리젠테이션을 위한)가 존재하게 된다.
일부 실시예들에서 장치(10)는 프로세서(21)를 포함한다. 프로세서(21)는 오디오 서브시스템에 결합되고 특히 일부 예들에서 마이크로폰(11)으로부터의 오디오 신호들을 나타내는 디지털 신호들을 수신하는 아날로그-대-디지털 변환기(14) 및 프로세싱된 디지털 오디오 신호들을 출력하도록 구성되는 디지털-대-아날로그 변환기(DAC)(12), 비디오 신호들을 나타내는 디지털 신호들을 수신하기 위한 카메라(51) 및 프로세서(21)로부터 프로세싱된 디지털 비디오 신호들을 출력하도록 구성되는 디스플레이(52)에 결합된다.
프로세서(21)는 다양한 프로그램 코드들을 실행하도록 구성될 수 있다. 구현되는 프로그램 코드들은 예를 들어, 소스 결정, 오디오 소스 방향 추정, 오디오 소스 프로세싱 및 사용자 인터페이스 루틴들을 포함할 수 있다.
일부 실시예들에서 장치는 메모리(22)를 더 포함한다. 일부 실시예들에서 프로세서(21)는 메모리(22)에 결합된다. 메모리(22)는 임의의 적절한 저장 수단일 수 있다. 일부 실시예들에서 메모리(22)는 본원에서 기술되는 그러한 코드 루틴들과 같이, 프로세서(21) 상에서 구현 가능한 프로그램 코드들을 저장하는 프로그램 코드 섹션(23)을 포함한다. 더욱이 일부 실시예들에서 메모리(22)는 데이터, 예를 들어, 본원에서 기술되는 실시예들과 관련하여 프로세싱되는 오디오 데이터를 저장하는 저장 데이터 섹션(24)을 더 포함할 수 있다. 프로그램 코드 섹션(23) 내에 저장되는 구현 프로그램 코드 및 저장 데이터 섹션(24) 내에 저장되는 데이터는 메모리 프로세서 결합을 통해 필요할 때마다 프로세서(21)에 의해 검색될 수 있다.
일부 추가 실시예들에서 장치(10)는 사용자 인터페이스(15)를 포함할 수 있다. 사용자 인터페이스(15)는 일부 실시예들에서 프로세서(21)에 결합될 수 있다. 일부 실시예들에서 프로세서는 사용자 인터페이스의 동작을 제어하고 사용자 인터페이스(15)로부터 입력들을 수신할 수 있다. 일부 실시예들에서 사용자 인터페이스(15)는 사용자가 예를 들어, 키패드를 통해 전자 디바이스 또는 장치(10)에 명령들을 입력할 수 있게 하고/하거나 예를 들어 사용자 인터페이스(15)의 일부인 디스플레이를 통해 장치(10)로부터 정보를 획득할 수 있게 한다. 사용자 인터페이스(15)는 일부 실시예들에서 정보가 장치(10)에 입력될 수 있도록 할 수 있거나 추가적으로 정보를 장치(10)의 사용자에게 디스플레이할 수 있는 터치 스크린 또는 터치 인터페이스를 포함한다.
일부 실시예들에서, 장치는 송수신기(13)를 더 포함하고, 송수신기는 그와 같은 실시예들에서 프로세서에 결합되고 예를 들어, 무선 통신 네트워크를 통해 다른 장치 또는 전자 디바이스들과 통신하는 것이 가능하도록 구성될 수 있다. 송수신기(13) 또는 임의의 적절한 송수신기 또는 송신기 및/또는 수신기 수단은 일부 실시예들에서 유선 또는 유선 결합을 통해 다른 전자 디바이스들 또는 장치와 통신하도록 구성될 수 있다.
송수신기(13)는 임의의 적절한 공지된 통신 프로토톨에 의해 추가 디바이스들과 통신할 수 있고, 예를 들어, 일부 실시예들에서 송수신기(13) 또는 송수신기 수단은 적절한 범용 모바일 전기통신 시스템(universal mobile telecommunications system; UMTS) 프로토콜, 예를 들어 IEEE 802.X와 같은 무선 근거리 네트워크(wireless local area network; WLAN) 프로토콜, 블루투스와 같은 적절한 단거리 무선 주파수 통신 프로토콜 또는 적외선 데이터 통신 경로(infrared data communication pathway; IRDA)를 사용할 수 있다.
일부 실시예들에서 송수신기는 본원에서 논의되는 바와 같은 일부 실시예들에 따른 프로세싱을 위하여 오디오 신호들을 송신 및/또는 수신하도록 구성된다.
일부 실시예들에서 장치는 장치(10)의 위치를 추정하도록 구성되는 위치 센서(16)를 포함한다. 위치 센서(16)는 일부 실시예들에서 전지구적 위치추적 시스템(Global Positioning System; GPS), 글로나스(GLONASS) 또는 갈릴레오 수신기와 같은 위성 위치추적 센서일 수 있다.
일부 실시예들에서 위치추적 센서는 셀룰러 ID 시스템 또는 보조 GPS 시스템일 수 있다.
일부 실시예들에서 장치(10)는 방향 또는 방위 센서를 더 포함한다. 방위/방향 센서는 일부 실시예들에서 전자 나침반, 가속도계, 자이로스코프일 수 있거나 또는 위치 추정을 사용하는 장치의 움직임에 의해 결정될 수 있다.
장치(10)의 구조는 보충되거나 많은 방식들로 가변될 수 있음이 다시 이해되어야 한다.
도 2와 관련하여 일부 실시예들에 따른 오디오 프로세서 장치가 더 상세하게 도시된다. 더욱이 도 3과 관련하여 그와 같은 장치의 동작이 기술된다.
본원에서 도시되는 바와 같은 장치는 적어도 2개의 마이크로폰들을 포함하는 마이크로폰 어레이 및 추가 프로세싱을 위해 마이크로폰 어레이로부터의 신호들을 적절한 디지털 포맷으로 변경하는 데 적절한 연관되는 아날로그-대-디지털 변환기를 포함한다. 마이크로폰 어레이는 예를 들어, 장치 상에서 장치의 단부들에 거리 d로 분리되어 위치될 수 있다. 그러므로 오디오 신호들은 마이크로폰 어레이에 의해 캡처되고 공간 오디오 분석기(101)로 통과되는 것으로 고려될 수 있다.
예를 들어, 예시 마이크로폰 어레이는 제 1 마이크로폰, 제 2 마이크로폰 및 제 3 마이크로폰일 수 있다. 이 예에서, 마이크로폰들은 등변 삼각형의 정점들에 배열된다. 그러나 마이크로폰들은 임의의 적절한 형상 또는 배열로 배열될 수 있다. 이 예에서, 각각의 마이크로폰은 서로 치수 또는 거리 d 만큼 이격되어 있고 마이크로폰들의 각각의 쌍은 어레이를 형성하는 마이크로폰의 다른 두 쌍들로부터 120°의 각으로 지향되어 있는 것으로 고려될 수 있다. 각각의 마이크로폰 사이의 분리는 신호원(131)으로부터 수신되는 오디오 신호가 제 1 마이크로폰에 도달할 수 있는, 예를 들어, 마이크로폰 2가 마이크로폰 3과 같은 다른 마이크로폰들 중 하나 보다 더 앞에 있는 그러한 분리이다. 이것은 예를 들어, 제 1 시간 인스턴스(instance)에서 발생하는 시간 도메인 오디오 신호(f1(t)) 및 제 3 마이크로폰에서 제 2 마이크로폰 신호에 관하여 b의 시간 지연값만큼 지연된 시간으로 수신되는 동일한 오디오 신호(f2(t))에 의해 확인될 수 있다.
다음의 예들에서 단일 마이크로폰 어레이 쌍에 관한 오디오 신호들의 프로세싱이 기술된다. 그러나, 임의의 적절한 마이크로폰 어레이 구성은 마이크로폰들의 쌍으로부터 확대될 수 있고 여기서 이 쌍들은 단일 차원, 예를 들어, 방위각 또는 고도, 방위각 및 고도와 같은 2차원들 및 더욱이 방위각, 고도 및 범위에 의해 정의되는 바와 같은 3차원들에 관한 오디오 소스들을 모니터링하기 위하여 서로 오프셋(offset)되는 라인들 또는 평면들을 정의하는 것이 이해될 것이다.
마이크로폰들로부터 음향 신호들을 캡처하거나 오디오 신호들을 생성하는 동작은 도 3에서 단계 201로 도시된다.
일부 실시예들에서 오디오 신호들의 캡처는 이미지들 또는 비디오 프레임들의 캡처와 동일한 시간에 또는 동시에 수행되는 것이 이해될 것이다.
예를 들어, 일부 실시예들에서 장치는 장치를 둘러싸는 환경의 비디오의 형태로 캡처 이미지들 또는 일련의 이미지들을 생성 또는 캡처하도록 구성되는 카메라 또는 카메라들(51)을 포함한다. 카메라(51)는 일부 실시예들에서 이 이미지들을 추적기(106)로 출력할 수 있다. 더욱이 일부 실시예들에서 카메라는 비주얼 이미지들을 비주얼 프로세서(107)로 통과시키도록 구성될 수 있다.
카메라로부터 이미지들을 캡처하는 동작은 도 3에서 단계 202로 도시된다.
더욱이 일부 실시예들에서 오디오 신호들 및/또는 비디오 이미지들의 생성은 오디오 신호들 및/또는 비디오 이미지들을 수신(또는 메모리로부터 오디오/비디오 신호들을 검색)하는 동작을 표현하는 것임이 이해될 것이다. 즉 일부 실시예들에서 오디오 신호들 및/또는 비디오 이미지들의 '생성'은 일부 실시예들에서 사용자가 경험을 재체험할 수 있도록 이전에 레코딩된 공간 정보를 가지는 오디오 신호들 및/또는 비디오 이미지들을 검색하는 것일 수 있다. 또한 일부 실시예들에서 오디오 신호들 및/또는 비디오 이미지들의 생성 동작은 예를 들어, 대용량으로 레코딩된 컨텐츠를 포함하는 오디오-비주얼 서버로부터 무선 통신 링크 또는 유선 통신 링크를 통해 오디오/비디오 신호들을 수신하는 것을 포함할 수 있다. 다음의 예들에서 생성되는 오디오는 오디오 필드의 시간 도메인 표현들이며, 이 표현들은 이후에 오디오 신호들의 공간 표현들을 생성하기 위해 공간 오디오 분석기에 의해 프로세싱된다. 그러나, 일부 실시예들에서 생성되는 오디오 신호들은 공간 오디오 표현들이고 따라서 오디오 프로세서(103)로 직접 통과될 수 있음이 이해될 것이다. 예를 들어, 일부 실시예들에서 장치는 오디오 신호들을 오디오 프로세서(103)에 의해 프로세싱되는 공간 도메인 표현들의 형태로 수신 또는 검색하도록 구성된다.
일부 실시예들에서 장치는 공간 오디오 분석기(101)를 포함한다. 공간 오디오 분석기(101)는 마이크로폰들로부터 생성되거나 통신 링크를 통해 또는 메모리로부터 수신되는 오디오 신호들에 기초하여 방향 분석을 수행하여 음, 오디오 또는 음원들의 방향 또는 위치의 추정을 결정하고, 더욱이 일부 실시예들에서 음, 음향 또는 오디오 소스와 연관되고 주변 음들의 오디오 신호를 생성하도록 구성된다. 공간 오디오 분석기(101)는 그 후에 결정된 방향성 오디오 소스 및 주변 음 파라미터들을 프로세서(103) 또는 적절한 공간 오디오 프로세서로 출력하도록 구성될 수 있다. 일부 실시예들에서 공간 오디오 분석기(101)의 출력은 추적기(106)로 출력되도록 구성될 수 있다.
적어도 하나의 오디오 신호로부터의 오디오 또는 음원 공간 방향 또는 위치 추정들과 같은, 오디오 소스 및 주변 파라미터들을 결정하는 동작은 도 3에서 단계 203으로 도시된다.
일부 실시예들에서, 공간 오디오 분석기는: 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일을 결정하도록 구성되는 메타파일 결정기 중 적어도 하나를 포함할 수 있다. 즉, 일부 실시예들에서 적어도 하나의 오디오 신호는 프로세싱되지만 적어도 하나의 오디오 신호와 연관되어, 적어도 하나의 오디오 신호와 연관되는 음향, 음 또는 오디오 소스들의 정보를 포함하는 메타파일 또는 메타데이터이다.
예시 공간오디오 분석기는 본원에서 더 상세하게 기술된다. 도달하는 음의 방향을 추정하는 임의의 적절한 방법은 본원에서 기술되는 장치 이외에서도 수행될 수 있음이 이해될 것이다. 예를 들어, 방향 분석기는 일부 실시예들에서 본원에서 논의되는 바와 같은 주파수 도메인에서 보다는 시간 도메인에서 수행될 수 있다.
장치는 본원에서 기술되는 바와 같이, 추가 프로세싱을 위해 적어도 2개의 마이크로폰들을 포함하는 마이크로폰 어레이 및 적어도 2개의 마이크로폰들의 마이크로폰 어레이로부터의 신호들을 적절한 디지털 포맷으로 변경하는 데 적합한 연관되는 아날로그-대-디지털 변환기를 포함할 수 있다. 마이크로폰들은 예를 들어, 장치 상에서 장치의 단부들에 위치되고 거리 d만큼 분리될 수 있다. 그러므로 오디오 신호들은 마이크로폰에 의해 캡처되고 공간 오디오 분석기로 통과되는 것으로 고려될 수 있다.
일부 실시예들에서 공간 오디오 분석기는 프레이머(framer)를 포함한다. 프레이머는 마이크로폰들로부터 오디오 신호들을 수신하고 디지털 포맷 신호들을 오디오 샘플 데이터의 프레임들 또는 그룹들로 분할하도록 구성될 수 있다. 일부 실시예들에서 프레이머는 더욱이 임의의 적절한 윈도우잉(windowing) 기능을 사용하여 데이터를 윈도우잉하도록 구성될 수 있다. 프레이머는 각각의 마이크로폰 입력별로 오디오 신호 데이터의 프레임들을 생성하도록 구성될 수 있고 여기서 각각의 프레임의 길이 및 각 프레임의 중첩의 정보는 임의의 적절한 값일 수 있다. 예를 들어 일부 실시예들에서 각각의 오디오 프레임은 20밀리초 길이이고 프레임들 사이에 10밀리초의 중첩을 가진다. 프레이머는 프레임 오디오 데이터를 시간-대-주파수 도메인 변환기로 출력하도록 구성될 수 있다.
일부 실시예들에서 공간 오디오 분석기는 시간-대-주파수 도메인 변환기를 포함하도록 구성된다. 시간-대-주파수 도메인 변환기는 프레임 오디오 데이터에 대한 임의의 적절한 시간-대-주파수 도메인 변환을 수행하도록 구성될 수 있다. 일부 실시예들에서, 시간-대-주파수 도메인 변환기는 이산 푸리에 변환기(Discrete Fourier Transformer; DTF)일 수 있다. 그러나 변환기는 이산 코사인 변환기(Discrete Cosine Transformer; DCT), 변형된 이산 코사인 변환기(Modified Discrete Cosine Transformer; MDCT) 또는 직교 밀러 필터(quadrature mirror filter; QMF)와 같은 임의의 적절한 변환기일 수 있다. 시간-대-주파수 도메인 변환기는 각 마이크로폰 입력에 대한 주파수 도에인 신호를 서브-대역 필터로 출력하도록 구성될 수 있다.
일부 실시예들에서 공간 오디오 분석기는 서브-대역 필터를 포함한다. 서브-대역 필터는 각 마이크로폰 별로 시간-대-주파수 도메인 변환기로부터 주파수 도메인 신호들을 수신하고 각각의 마이크로폰 오디오 신호 주파수 도메인 신호를 다수의 서브-대역들로 분할하도록 구성될 수 있다. 다음의 예들에서 서브-대역 필터는 본원에서 값(
Figure pat00001
)으로 인덱스화(indexing)되는 B개의 서브-대역들을 생성하도록 구성된다.
서브-대역 분할은 임의의 적절한 서브-대역 분할일 수 있다. 예를 들어, 일부 실시예들에서 서브-대역 필터는 심리-음향(psycho-acoustic) 필터링 대역들을 사용하여 동작하도록 구성될 수 있다. 서브-대역 필터는 그 후에 각각의 도메인 범위 서브-대역을 방향 분석기로 출력하도록 구성될 수 있다.
일부 실시예들에서 공간 오디오 분석기는 방향 분석기를 포함할 수 있다. 방향 분석기는 일부 실시예들에서 서브-대역의 각 마이크로폰 별로 서브-대역 및 연관되는 주파수 도메인 신호들을 선택하도록 구성될 수 있다.
방향 분석기는 그 후에 서브-대역 내의 신호들에 대한 방향 분석을 수행하도록 구성될 수 있다. 방향 분석기는 일부 실시예들에서 마이크로폰 쌍 서브-대역 주파수 도메인 신호들 사이의 교차 상관을 수행하도록 구성될 수 있다.
방향 분석기에서 주파수 도메인 서브-대역 신호들의 교차 상관 적(product)을 최대화하는 교차 상관의 지연 값이 발견된다. 이 지연 시간 값(b)은 일부 실시예들에서 각을 추정하거나 서브-대역에 대해 우세한 오디오 신호원으로부터의 각을 표현하는 데 사용될 수 있다. 이 각은 α로서 정의될 수 있다. 하나의 쌍 또는 두 마이크로폰들이 제 1 각을 제공하는 반면에, 둘 이상의 마이크로폰들을 사용함으로써 바람직하게는 일부 실시예들에서 둘 이상의 축들 상에서 둘 이상의 마이크로폰들을 사용함으로써 개선된 방향 추적이 발생할 수 있음이 이해될 것이다.
특히 일부 실시예들에서 이 방향 분석은 오디오 서브-대역 데이터를 수신하는 것으로 정의될 수 있다. 일부 실시예들에 따른 방향 분석기의 동작이 본원에서 기술된다. 방향 분석기는 서브-대역 데이터를 수신한다;
Figure pat00002
여기서 nb는 b번째 서브-대역의 제 1 인덱스(index)이다. 일부 실시예들에서 모든 서브-대역에 대해 방향 분석은 본원에서 다음과 같이 기술된다. 우선 방향은 2 채널들로 추정된다(본원에서 기술되는 마이크로폰 구성예에서 이 구현은 채널들(2 및 3), 즉 마이크로폰들(2 및 3)의 사용을 나타낸다). 방향 분석기는 서브-대역 b에 대한 두 채널들 사이의 상관을 최대화하는 지연 τb를 찾는다. 예를 들어,
Figure pat00003
의 DFT 도메인 표현은
Figure pat00004
을 사용하여 τb 시간 도메인 샘플들로 시프트될 수 있다.
일부 실시예들에서 최적의 지연은
Figure pat00005
으로부터 획득될 수 있고, 여기서 Re는 결과의 실수부를 나타내고 *는 켤레 복소수를 나타낸다.
Figure pat00006
Figure pat00007
은 nb +1 - nb 샘플들의 길이를 가지는 벡터들로 간주된다. 방향 분석기는 일부 실시예들에서 지연의 탐색을 위해 하나의 시간 도메인 샘플의 분해를 구현할 수 있다.
일부 실시예들에서 지연 정보를 가지는 방향 분석기는 합 신호를 생성한다. 합 신호는 수학적으로
Figure pat00008
로 정의될 수 있다. 즉, 방향 분석기는 이벤트가 먼저 발생하는 채널의 컨텐츠는 변경 없이 추가되지만 반면에 이벤트가 나중에 발생하는 채널은 제 1 채널과의 최상의 정합을 획득하기 위해 시프트되는 합 신호를 생성하도록 구성된다.
지연 또는 시프트 τb는 음원이 마이크로폰 3보다 마이크로폰 2에 얼마나 많이 더 가까이 있는지를(τb가 양의 음원일 때 마이크로폰 3보다 마이크로폰 2에 더 가까이 있다) 나타내는 것이 이해될 것이다. 방향 분석기는 실제 거리의 차를
Figure pat00009
로 결정하도록 구성될 수 있고, 여기서 Fs는 신호의 샘플링 레이트이고 v는 공기 중의(또는 수중(underwater) 레코딩들을 행하고 있는 경우 물 속에서의) 신호의 속도이다.
도달하는 음의 각은 방향 분석기에 의해
Figure pat00010
로 결정되고, 여기서 d는 마이크로폰들의 쌍 사이의 거리이고 r은 음원들 및 가장 가까운 마이크로폰 사이의 추정 거리이다. 일부 실시예들에서 방향 분석기는 r의 값으로 또는 고정 값으로 세팅되도록 구성될 수 있다. 예를 들어, r = 2미터가 안정된 결과들을 제공하는 것으로 밝혀졌다.
본원에서 기술되는 결정은 정확한 방향이 단지 2개의 마이크로폰들로는 결정될 수 없으므로 도달하는 음의 방향에 대한 두 대안들을 제공하는 것임이 이해될 것이다.
일부 실시예들에서 방향 분석기는 상기 결정에서의 부호들 중 어떤 부호가 정확한 것인지를 정의하기 위해 제 3 채널 또는 제 3 마이크로폰으로부터의 오디오 신호들을 사용하도록 구성될 수 있다. 제 3 채널 또는 마이크로폰(마이크로폰 1) 및 두 추정되는 음원들 사이의 거리들은:
Figure pat00011
Figure pat00012
이고, 여기서 h는 등변 삼각형의 높이인, 즉
Figure pat00013
이다.
상기 결정에서의 거리들은;
Figure pat00014
Figure pat00015
의 지연들(샘플들에서의)과 동일한 것으로 간주될 수 있다.
이 두 지연들로부터 방향 분석기는 일부 실시예들에서 합 신호와 더 양호하게 상광하는 것을 제공하는 지연을 선택하도록 구성된다. 상관들은 예를 들어,
Figure pat00016
Figure pat00017
로 표현될 수 있다.
방향 분석기는 그 후에 일부 실시예들에서 서브-대역 b에 대해 우세한 음원의 방향을:
Figure pat00018
로서 결정할 수 있다.
일부 실시예들에서 공간 오디오 분석기는 중간/측 신호 생성기를 더 포함한다. 방향 분석에 뒤이어, 중간/측 신호 생성기는 각 서브-대역 별로 중간 및 측 신호들을 결정하도록 구성될 수 있다. 중간 신호에서의 주 컨텐츠는 방향 분석으로부터 발견되는 우세 음원이다. 유사하게 측 신호는 생성되는 오디오 신호들로부터의 다른 부분들 또는 주변 오디오를 포함한다. 일부 실시예들에서 중간/측 신호 생성기는 다음의 식들에 따라 서브-대역에 대한 중간(M) 및 측(S) 신호들을 결정할 수 있다:
Figure pat00019
Figure pat00020
중간 신호(M)는 이전에 이미 결정되었던 동일한 신호이고 일부 실시예들에서 중간 신호는 방향 분석의 일부로서 획득될 수 있음이 유념된다. 중간 및 측 신호들은 이벤트가 우선 발생하는 신호가 지연 정렬에 있어서 시프트되지 않도록 지각적으로 안전한 방식으로 구성될 수 있다. 중간 및 측 신호들은 일부 실시예들에서 마이크로폰들이 서로 상대적으로 가까운 경우 그러한 적절한 방식으로 결정될 수 있다. 마이크로폰들 사이의 거리가 음원까지의 길이와 비교하여 현저한 경우, 중간/측 신호 생성기는 채널이 주 채널과의 최상의 정합을 제공하도록 항상 변경되는 변경 중간 및 측 신호 결정을 수행하도록 구성될 수 있다.
동작은 서브-대역들 모두가 프로세싱되었는지를 결정할 수 있다.
서브-대역들 모두가 프로세싱되었다면, 종료 동작이 수행된다.
서브-대역들 모두가 프로세싱되지 않았다면, 동작은 다음 서브-대역을 선택하는 동작으로 넘어갈 수 있다.
일부 실시예들에서 장치는 터치/사용자 인터페이스 제어기(104)를 포함한다. 터치/사용자 인터페이스 제어기(104)는 오디오 프로세서가 포커싱할 수 있는 영역, 섹터 또는 에어리어(area)를 선택하기 위해 적어도 하나의 사용자 입력을 수신하도록 구성될 수 있다. 일부 실시예들에서 선택되는 영역, 섹터 또는 에어리어는 오디오 소스가 발생하는 장소이다. 예를 들어, 터치/사용자 인터페이스 제어기(104)가 일부 실시예들에서 방향 또는 위치를 선택, 예를 들어, 키패드 상에서 방향값을 입력하거나 조이스틱/포인터를 사용하여 방향을 선택할 수 있다. 일부 실시예들에서 터치/사용자 인터페이스 제어기(104)는 카메라에 의해 캡처되는 이미지를 디스플레이하는 터치 스크린 디스플레이(예를 들어, 디스플레이(52))로부터 사용자 입력을 수신하도록 구성된다. 터치/사용자 인터페이스 제어기(104)는 일부 실시예들에서 디스플레이 및 공지되어 있는 장치의 방위에 기초하여 위치 또는 방향 값을 생성하도록 구성될 수 있다. 일부 실시예들에서 터치/사용자 인터페이스 제어기(104)는 위치 또는 방향(또는 더 일반적으로 선택)을 추적기(106)로 출력하도록 구성될 수 있다. 다음의 예들에서 선택은 위치 또는 방위이지만, 임의의 적절한 특징 선택이 사용될 수 있다.
다음의 예들이 적어도 하나의 사용자 입력 위치를 결정함으로써 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 선택하기 위해 터치 사용자 인터페이스 제어기로부터의 사용자 입력을 도시할지라도, 일부 실시예들에서 다른 수단에 의해 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 결정될 수 있음이 인정될 것이다. 예를 들어, 일부 실시예들에서, 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 결정은 적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 발생될 수 있다. 즉, 오디오 신호에 대한 프로세싱은 관심 위치의 지점- 예를 들어 가장 큰 소리의 소스의 표시를 생성하고, 이 소스는 정의되는 주파수 스펙트럼 또는 다른 출력과 정합한다. 더욱이 일부 실시예들에서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 결정은 이미지 프레임으로부터의 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 결정되는 것이 이해될 것이다. 예를 들어, 이미지는 장치가 추적해야 하는 형상 또는 컬러 - 예를 들어, 얼굴을 검출할 수 있다.
그러므로 예를 들어, 일부 실시예들에서 디스플레이는 디스플레이의 영역 내에서, 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하는 비주얼 프로세서에 의해 생성되는 이미지를 디스플레이할 수 있고; 더욱이 비주얼 프로세서는 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치를 결정할 수 있고, 여기서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 것은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 적어도 하나의 비주얼 요소와 연관되는 적어도 하나의 관심 지점 위치으로 결정한다.
일부 실시예들에서 장치는 추적기(106)를 포함한다. 추적기(106) 또는 궤적 결정기 또는 궤적을 결정하는 수단은 일부 실시예들에서 터치/사용자 인터페이스 제어기(104)가 표시하는 위치 또는 선택(또는 일부 실시예들에서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치), 이미지 데이터를 포함하는 카메라(51)로부터의 입력 및 오디오 신호 데이터를 포함하는 공간 오디오 분석기(101)로부터의 입력을 수신하도록 구성될 수 있다. 추적기(106)는 일부 실시예들에서 선택을 추적할 초기 선택 입력 및 오디오 및/또는 비디오 입력으로서의 터치/사용자 인터페이스 제어기 입력에 기초하여 선택을 추적하도록 구성될 수 있다. 추적되는 방향 표시 또는 추적되는 위치 및 범위와 같이 이 추적되는 선택은 그 후에 공간 오디오 프로세서(103) 및/또는 비주얼 프로세서(107)로 통과될 수 있다.
사용자 인터페이스 입력을 결정하고 선택된 특징을 추적하는 동작은 도 3에서 단계 205에 의해 도시된다.
일부 실시예들에서 추적기(106)는 특징 선택기를 포함한다. 특징 선택기는 터치/사용자 인터페이스 제어기 사용자 인터페이스 입력 및 공간 오디오 분석기 출력 및 카메라 출력 중 적어도 하나를 수신하도록 구성된다. 특징 선택기는 사용자 인터페이스 입력에 의해 선택되는 선택(영역 위치 및 범위와 같은) 내에 세팅되는 적절한 특징을 결정하기 위해 분석된 공간 오디오 신호들 및 카메라 비디오 신호들 중 적어도 하나를 프로세싱하도록 구성될 수 있다. 예를 들어, 특징 선택기는 프로세싱될 원하는 음 물체의 사용자 인터페이스 표시를 수신하도록 구성될 수 있다. 이 사용자 인터페이스 표시는 일부 실시예들에서 포커싱되는 방향을 표시하는 장치 디스플레이의 스크린 상에서의 탭(tap)일 수 있다.
비주얼 정보에 기초하여 특징을 정의하는 실시예들에서 특징 선택기는 사용자가 표시한 위치 주위에 에어리어의 적어도 하나의 비주얼 기술자(descriptor)를 생성하도록 구성될 수 있다. 비주얼 기술자는 임의의 적절한 특징 분석에 따라 생성되고 적어도 하나의 비주얼 구성요소 또는 파라미터를 포함할 수 있다. 예를 들어, 일부 실시예들에서 비주얼 기술자는 사용자 표시자 주위의 에어리어의 픽셀 값들(루마(luma) 및 크로마(chroma)와 같은)을 포함한다. 일부 다른 실시예들에서 비주얼 기술자는 스케일 불변 특징 기술자(scale invariant feature descriptor; SAFT)를 포함할 수 있다. 더욱이 일부 실시예들에서 비주얼 기술자는 코너 또는 에지 검출기에 의해 제공되는 바와 같은 코너 또는 에지 정보를 포함하거나 컬러 또는 형상 기술자를 포함할 수 있다.
오디오 정보에 기초하여 특징을 기술하는 일부 실시예들에서 특징 선택기는 공간 오디오 분석기(101)로부터 공간적으로 분석된 오디오 신호들을 그리고 방향의 표시의 사용자 인터페이스 입력을 수신하도록 구성되고 공간적으로 분석되는 오디오 신호 성분들 중 하나를 방향과 정합하는 시도를 행하도록 구성될 수 있다. 즉, 장치를 둘러싸는 오디오 환경의 3차원 영상에는 표시되는 주 음원들의 위치가 제공되고 사용자는 따를 것을 선택할 수 있다. 일부 실시예들에서 특징 선택기는 표시되는 위치 또는 방향으로부터 도달하는 음원에 대한 음향 핑거프린트(또는 오디오 기술자)를 생성하도록 구성될 수 있다. 음향 핑거프린트는 오디오 소스와 연관되는 적어도 하나의 오디오 특징 또는 파라미터를 분석함으로써 생성될 수 있는데 예를 들어, 오디오 핑거프린트는 선택 또는 선택 영역 내의 음 또는 오디오 소스의 스펙트럼 특성들을 분석함으로써 생성될 수 있다. 그러나 임의의 특징 또는 파라미터 또는 특징들 또는 파라미터들의 결합은 선택 또는 선택되는 영역 내의 오디오 소스 또는 소스들의 오디오 핑거프린트를 정의하는 데 사용될 수 있음이 이해될 것이다.
특징 선택기는 일부 실시예들에서 사용자 인터페이스 위치 또는 선택을 표현하는 비주얼 기술자 및/또는 오디오 핑거프린트를 특징 추적기에 제공할 수 있다.
일부 실시예들에서 추적기(106)는 특징 추적기를 포함한다. 특징 추적기는 특징 선택기로부터 선택된 특징들을 수신하고(비주얼 기술자 및/또는 오디오 핑거프린트의 형태로) 갱신된 위치(또는 방향 또는 방위)를 공간 오디오 프로세서 및/또는 비주얼 프로세서에 제공하기 위해 연속하는 비디오 프레임들/오디오 프레임들에서의 특징을 추적하는 시도를 행한다.
더욱이 일부 실시예들에서 추적기 또는 궤적 결정기는 특징 추적기 출력에 기초하여 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기를 더 포함한다.
그러므로 이미지 기반 추적이 사용되는 일부 실시예들에서 추가 또는 후속 프레임들은 비주얼 기술자의 원 위치에 대한 비주얼 기술자의 위치를 결정하고 그러므로 시간의 경과에 따라 선택(즉, 프로세싱될 오디오 소스와 연관되어 선택된 이미지)의 움직임이 있는지를 결정하도록 분석된다. 예를 들어, 일부 실시예들에서 특징 추적기는 계속되는 이미지 프레임들 사이에서 선택되는 비주얼 기술자들의 움직임을 정의하는 모션 벡터를 생성하도록 구성되고 이는 선택의 움직임의 방향 및 속도가 정의된다. 일부 실시예들에서 임의의 적절한 비주얼 기술자의 추적이 사용될 수 있음이 이해될 것이다.
일부 실시예들에서 특징 추적기에 의해 수행되는 시각(vision) 기반 추적은 예를 들어, 카메라 또는 추적되는 물체의 움직임으로 인해 비주얼 기술자가 카메라의 뷰잉 에어리어(viewing area)를 떠나는 경우, 추적이 일시 중지할 수 있고 비주얼 기술자 값들을 가지는 물체가 뷰잉 에어리어에 재진입하는 경우 또는 할 때 재시작될 수 있도록 구성될 수 있다.
선택이 뷰잉 에어리어를 떠라거나 장치가 원래의 선택으로부터 멀어지게 이동하는 것과 같이 선택(음 물체)이 보이지 않는 일부 실시예들에서, 특징 추적기는 물체가 보이지 않음을 표시하는 메시지를 디스플레이하고/하거나 오디오 프로세싱을 일시 정지하기 위한 적절한 정보를 출력하도록 구성될 수 있다.
오디오 또는 음향 핑거프린트 추적이 사용되는 실시예들에서의 특징 추적기는 핑거프린트가 최선으로 정합하는 오디오 소스의 위치를 결정하기 위해 후속 오디오 프레임들에 대한 분석을 수행하도록 구성될 수 있다. 예를 들어, 일부 실시예들에서 특징 추적기는 유사한 특징들을 가지며 원래 선택된 음 또는 오디오 소스들에 인근에 있는 음 또는 오디오 소스들을 검출하도록 구성될 수 있다. 일부 실시예들에서 음향 또는 오디오 추적을 위한 특징 추적기는 음 또는 오디오 소스가 일시 정지하는 곳(또는 오디오 또는 음 소스가 사라지는 곳)을 결정하도록 구성될 수 있다. 예를 들어 대화의 중단으로 인해 음원 연속성의 중단이 있을 수 있다.
일부 실시예들에서 특징 추적기는 특징 추적기가 특징을 상실하는 것을 방지하기 위하여 음향 핑거프린트 또는 비주얼 기술자를 시간의 경과에 따라 모니터링하여 음향 핑거프린터 또는 비주얼 기술자가 어디서 변하는지를 결정하고 현재의 음향 핑거프린터 또는 비주얼 기술자를 유지하도록 구성될 수 있다. 예를 들어, 선택(오디오 소스)은 사람이 장치 쪽으로 또는 장치로부터 돌 때 음향 핑거프린트가 변경할 수 있거나 비주얼 기술자가 유사하게 변경할 수 있는 인간의 음성과 연관된다.
일부 실시예들에서 오디오/음향 및 비주얼-기반 추적 이 둘 모두는 더 양호하고 더 신뢰성 있는 추적을 발생시키는 시도를 행하기 위해 결합될 수 있다.
특징 추적기의 출력은 그 후에 공간 오디오 프로세서(103) 및/또는 비주얼 프로세서(107)에 제공될 수 있다.
다음의 예들에서 추적기 또는 궤적 결정기는 장치의 기준 방위(일부 실시예들에서 카메라 방위의 중심선인)에 관한 선택의 위치 및 폭(각 또는 다른 형태일 수 있다)을 표현하는 방위(θ) 및 폭(w)을 출력하도록 구성된다. 그러나 일부 실시예들에서 임의의 적절한 위치 선택 파라미터 또는 파라미터들은 공간 오디오 프로세서(103) 및/또는 비주얼 프로세서(107)로 통과될 수 있음이 이해될 것이다. 예를 들어, 위치선택 파라미터는 방향 및 폭을 포함할 수 있고, 여기서 방향은 장치의 방위와 독립적이다.
일부 실시예들에서 장치는 오디오 프로세서(103)를 포함한다. 오디오 프로세서는 일부 실시예에서 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 결정된 궤적에 기초하여 추적기(106)로부터 선택 또는 특징 입력을 수신하도록 구성된다.
예시 오디오 프로세서(103)는 본원에서 일부 실시예들에 따라 기술된다.
일부 실시예들에서 오디오 프로세서(103)는 공간 평활기(spatial smoother) 및 공간 평활기 필터 발생기를 포함한다. 공간 평활기 및 공간 평활기 필터 발생기는 정의된 섹터 에지들에서의 급작스런 이득 "컷-오프(cut-off)들"을 발생시키는 것을 방지하도록 구성된다. 일부 실시예들에서 공간 평활기는 위치(포커스 방위) 및 폭과 같은 위치 선택 파라미터를 수신하고 정의된 섹터의 양측들에 추가 평활 존(zone)들을 생성하도록 구성된다. 예를 들어, 일부 실시예들에서 정의되는 섹터 방위 및 폭은 섹터 시작 방위(θlow) 및 섹터 종료 방위(θhigh)에 의해 정의되므로, 이들의 차는 섹터 폭(w)이고 이 둘의 평균 또는 중간값은 섹터 방위이다.
일부 실시예들에서, 평활 존 폭은
Figure pat00021
으로 결정될 수 있고 하위 및 상위 평활 존뿐만 아니라 포커스 섹터의 하위 및 상위 에지들에 대응하는 각도 항들(θlow 및 θhigh)은
Figure pat00022
Figure pat00023
을 제한한다. 공간 평활기는 공간 평활기 필터 발생기에 섹터 및 평활 존 정보를 출력하도록 구성된다.
일부 실시예들에서 오디오 프로세서(103)는 공간 평활기 필터 발생기를 포함한다. 공간 평활기 필터 발생기는 공간 평활기 출력, 즉 평활 존 정보 및 오디오 소스 방향 정보를 수신하고 공간 소스가 평활 존 내에 있는지를 진술하는 부울 변수(Boolean variable)을 생성하도록 구성된다. 일부 실시예들에서 대역(b)의 방향 추정(α(b))이 평활 존 내에 속하는지 또는 아닌지를 진술하는 부울 변수(z(b))는
Figure pat00024
로 정의된다. 공간 평활기 필터 발생기는 그 후에 불 변수(z(b))를 공간 포커서(focuser)로 출력할 수 있다.
일부 실시예들에서 비주얼 오디오 프로세서(103)는 공간 포커서를 포함한다. 공간 포커서는 공간 오디오 분석기(101)로부터 오디오 소스들의 중간 신호(M), 측 신호(S) 및 위치(α)의 항들로 오디오 소스를 수신하도록 구성된다. 더욱이 공간 포커서는 포커스 섹터 정보(θ,w)와 같은 선택 파라미터들을 추적기(106)로부터 그리고 공간 평활기 필터 부울 값들(z(b))을 공간 평활기 필터 발생기로부터 수신할 수 있다. 공간 포커서는 그 후에 오디오 소스에 대한 공간 포커싱을 수행하도록 구성된다.
(양의) 포커싱 효과 또는 동작은 포커스 섹터 내에서 오디오 소스들을 증폭시키고 이 섹터의 외부에서 오디오 소스들을 감쇠시키는 시도를 행한다. 더욱이 일부 실시예들에서 공간 포커서는 공간 평활기 필터 부울 값(z(b))이 참이면 추정되는 오디오 소스 위치 및 포커스 섹터 에지들 사이에 각도 차를 발생시키도록 구성된다. 일부 실시예들에서 α(b) 및 포커스 섹터 에지들 사이의 각도 차(△min)는
Figure pat00025
로 계산될 수 있다. 일부 실시예들에서 각 추정이 포커스 섹터 또는 평활 존들 내에 위치될 때마다 대응하는 서브-대역(b)은 포커싱되는 효과를 발생시키기 위해 증폭된다. 대조적으로 오디오 소스의 위치가 공간 환경 내의 다른 곳에 위치되는 경우 서브-대역(b)은 약화되거나 감쇠된다. 일부 실시예들에서 포커싱 프로세싱은 중간(M) 및 측(S) 신호들에 대해 별개로 수행될 수 있고 본원에서 기술되는 바와 같이 원하는 출력 모드에 따라 변할 수 있다.
일부 실시예들에서 섹터에 대한 음의 포커싱 또는 필터링 또한 적용될 수 있음이 이해될 것이다. 그와 같은 실시예들에서, 예를 들어 원하지 않는 오디오 소스들을 섹터로부터 제거하기 위하여, 섹터 내의 오디오 소스들은 약화 또는 감쇠되고 섹터의 외부에 있는 오디오 소스들은 증폭된다. 본원에서 기술되는 예들에는 양의 포커싱 효과가 일반적으로 기술되지만 유사한 음의 포커싱 또한 일부 실시예들에서 섹터 내의 소스에 대한 이득 또는 증폭 항을 감쇠 또는 약화 항으로 대체하고 섹터의 외부에 있는 소스들의 약화 또는 감쇠 항을 이득 또는 증폭 항으로 대체함으로서 발생될 수 있음이 이해될 것이다.
일부 실시예들에서 공간 포커서는 포커스 섹터 내의 오디오 소스들에 대한 이득 항을 발생시키도록 구성될 수 있다.
공간 포커서는 일부 실시예들에서 오디오 신호들을 프로세싱하고 적절한 입체 음향의 출력을 발생시키도록 구성될 수 있다. 예를 들어 일부 실시예들에서 입체 음향 모드에서 서브-대역(b)에 대한 적절한 증폭 및 약화를 수행하기 위해 서브대역(b)에 대한 이득 레벨은 적절하게 변경될 수 있다. 증폭의 경우 다음의 이득 항이 일부 실시예들에서 적용될 수 있다:
Figure pat00026
여기서 amp(b)는 서브-대역(b)에 대응하는 증폭 계수이다. 증폭 계수는 일부 실시예들에서 사용자에 의해, 예를 들어, 본원에서 도시되는 사용자 인터페이스 예들에서 도시되는 바와 같은 슬라이더에 의해 결정될 수 있거나(그 경우에 증폭 계수는 일부 실시예들에서 모든 서브-대역들(b∈{1,B})에 대해 동일한 것으로 정의될 수 있다) 또는 일부 실시예들에서 증폭 계수는 음장 내의 줌잉(zooming)의 양에 기초하여 서브-대역 방식으로 도출될 수 있다. 일부 실시예들에서 amp(b)의 적절한 값 범위는 0.2 및 0.8 사이이다.
일부 실시예들에서 방향 추정(α(b))이 평활 존 내에 있는 경우(z(b)=1), 이득 항(G(b))은 다음의 식에 의해 수정되고:
Figure pat00027
여기서 att(b)는 서브-대역(b)에 대한 감쇠 계수이다. 일부 실시예들에서 약화량을 정의하는 감쇠 상수는 사용자 인터페이스 입력에 의해 결정되거나 줌잉의 양에 기초하여 계산될 수 있다. 감쇠 계수(att(b))에 대한 적절한 값들은 0.0에서 1.0에 이른다. 확인될 수 있는 바와 같이, 평활 존들은 각도 차(△min)의 함수로서 이득 항(G(b))에 대한 선형 감소를 유발시킨다. 그러나 일부 실시예들에서 이득 항 및 감쇠 계수 사이의 임의의 적절한 보간(선형 또는 비선형)이 사용될 수 있음이 이해될 것이다.
일부 실시예들에서 공간 포커서는 위치(α(b))가 포커스 섹터 외부에 그리고 평활 존들 외부에 있는 오디오 소스들에 대해 약화를 수행하도록 구성될 수 있다. 일부 실시예들에서 그와 같은 서브-대역들에 대한 이득 항은
Figure pat00028
에 의해 정의된다. 더욱이 일부 실시예들에서 수신되는 중간-신호들은 좌측(ML(b)) 및 우측(MR(b)) 중간 신호들을 생성하기 위해 대응하는 헤드 관련 전달 함수 계수들을 사용하여 필터링된다.
그 후에 일부 실시예들에서 공간 포커서는 좌 및 우로 포커싱되는 중간 신호들
Figure pat00029
Figure pat00030
을 생성하기 위해 이득 항들이 좌 및 우 중간 신호들에 적용되도록 구성된다.
공간 포커서는 일부 실시예들에서 오디오 신호들을 프로세싱하고 적절한 다채널 출력을 생성하도록 구성될 수 있다. 그와 같은 실시예들에서 공간 포커서는 다채널 모드 채널 위치들을 결정하도록 구성될 수 있다. 다음의 예들에서 5개의 채널인 다채널 구성이 결정되고 채널 순서는 각들(A=[30,-30,0,110,-110])(도 단위)에 대응하여 전방 좌(FL), 전방 우(FR), 중앙(C), 후방 좌(RL) 및 후방 우(RR)로서 정의된다.
공간 포커서는 그 후에 일부 실시예들에서
Figure pat00031
Figure pat00032
로서 탐색되는, α(b)에 대해 가장 작은 각도 차를 가지는 오디오 채널을 결정하도록 구성될 수 있고, 여기서 A(j)는 j번째 오디오 채널의 각을 나타내고, △(j)는 채널(j)에 대한 각도 차이고 c1은 각 추정에 대한 가장 근접한 채널의 인덱스이다. 대부분의 경우들에서 획득되는 방향 추정들은 임의의 채널 위치로 직접적으로 위치되지 않으므로 오디오 패닝(audio panning)은 합성 프로세스 동안 고려될 필요가 없음이 이해될 것이다. 그러므로 일부 실시예들에서 공간 포커서(805)는 α(b)의 어느 측에서도 2개의 오디오 채널들을 결정하도록 구성될 수 있다. 일부 실시예들에서 이것은 공지되어 있는 채널 기하구조에 기초하여 결정될 수 있다. 그와 같은 실시예들에서 공간 포커서는 각(α(b))이 c1의 어떤 측에 위치되는지를 결정할 수 있다. 이 측은 그 후에 각도 차(△(c1))의 부호에 따라 양(+) 또는 음(-)으로 정의될 수 있다(즉, 상술한 차 결정으로부터 절대값을 제외한다). 양의 경우에, c1으로부터 반 시계 방향으로 다음의 채널은 2번째로 가장 근접한 채널(c2)로 간주된다(그리고 역으로 음의 경우에서 c1으로부터 시계 방향으로 다음의 채널은 2번째로 가까운 채널(c2)인 것을 간주된다). 공간 포커서는 그 후에 또한 α(b) 및 제 2 채널(c2) 사이의 각도 차(△(c2))를 결정할 수 있다.
일부 실시예들에서 공간 포커서(805)는 그 후에 결정된 각도 차들 사이에서 그리고 0 및 π/2 사이에서 스케일링되는 관계(R)를
Figure pat00033
로 결정하도록 구성될 수 있다.
공간 포커서는 그 후에 일부 실시예들에서 채널들에 대한 비례 이득 값들을 계산하는 데 상기 관계를 적용하도록 구성될 수 있다. 일부 실시예들에서 채널 이득들이 관계:
Figure pat00034
를 따른다고 가정되고, 여기서 G1 및 G2는 채널들(c1 및 c2) 각각에 대한 비례 이득 값들이다. 채널들 사이의 중간 지점에서 이득 값들은 동일하다;
Figure pat00035
. 그러므로, 이 가정에 기초하여, c1 및 c2에 대한 이득 값들은(서브-대역(b)의)
Figure pat00036
Figure pat00037
로 결정될 수 있다.
일부 실시예들에서, 5 채널 모드 예에 대해, 포커스 섹터 각(θ)이 -45° 및 45° 사이에 위치될 때마다, 증폭 이득은 두 가장 가까운 채널들보다는 모든 세 전방 스피커 채널들 사이에서 분할된다. 이것은 전방 스피커들 사이의 각 거리들이 작으면 단 두 개의 스피커들 사이의 패닝이 특정한 전방 포커스 방향들로 잠재적인 아티팩트(artifact)들 및 부자연스러운 오디오 출력들을 발생시킬 수 있기 때문에 구현된다. ±45°의 임계각들은 여러 다른 각도 값들에 대한 출력을 구함으로써 경험적으로 정의되지만 다른 전방 임계값들이 사용될 수 있다. 공간 포커서(805)는 일부 실시예들에서 본원에서의 표에 의해 제공되는 지리적 분리 규칙들에 기초하여 제 2 및 제 3 채널들을 정의하도록 구성될 수 있다.
Figure pat00038
이 경우들에서, 가장 가까운 채널과 제 3 채널 사이의 각 관계가 결정된다. 중간 지점 채널 이득들은
Figure pat00039
로 갱신되고, 대응하는 관계는:
Figure pat00040
Figure pat00041
로 계산된다.
따라서, 이제 채널 이득들은 다음의 관계를 가지는 것으로 가정된다:
Figure pat00042
이것은 c1, c2 및 c3에 대한 비례 이득 값들이 이후에:
Figure pat00043
Figure pat00044
Figure pat00045
에 의해 획득될 수 있음을 의미한다.
공간 포커서는 이후에 일부 실시예들에서 비례 이득들을 사용하여 포커싱된 채널들에 대한 최종 이득 값들을 결정하도록 구성될 수 있다. 예를 들어 최종 이득들은 일부 실시예들에서 다음의 식:
Figure pat00046
을 따라 결정될 수 있다.
공간 포커서는 그 후에 일부 실시예들에서 포커스 효과를 강조하기 위해 나머지 두 채널들(또는 단 2개의 채널들이 패닝에 적용될 때 세 채널)에 대해 채널들을 약화시킬 이득 값들을 결정하도록 구성될 수 있다. 서브-대역에 대한 추정 각(α(b))가 평활 존에 속하는 경우, 이득 값들은
Figure pat00047
으로 갱신된다.
예시 스케일링 로직이 입체 음향 모드에 관하여 도시된 것과 유사한 것이 확인될 수 있다.
일부 실시예들에서 공간 포커서는 α(b)가 포커스 섹터 또는 평활 존들 내에 있지 않을 때마다 포커스 각(θ)에 가장 가까운 채널을 제외한 모든 채널들에 약화가 수행되도록 구성될 수 있다. 일부 실시예들에서 이것은 이득 값들을
Figure pat00048
로 세팅함으로써 구현될 수 있고, 여기서 i는 θ에 가장 가까운 채널의 인덱스이다. 나머지 채널은 손대지 않은 채로 남는, 즉
Figure pat00049
이다. 이것은 포커싱되는 방향으로부터 도달하는 원 배경 잡음 및 잠재적인 비 우세 음원들이 약화되는 것을 방지하기 위해 행해지는데, 왜냐하면 포커싱되는 방향으로부터 도달하는 원 배경 잡음 및 잠재적인 비 우세 음원들 또한 합성된 출력에서 포커싱되는 바와 같이 들려야 하기 때문이다.
공간 포커서는 그 후에 일부 실시예들에서 계산된 이득 값들(
Figure pat00050
)에 기초하여 실제 채널 스케일링 계수들(
Figure pat00051
)을 결정하도록 구성될 수 있다.
증폭:
Figure pat00052
Figure pat00053
Figure pat00054
Figure pat00055
약화:
Figure pat00056
여기서
Figure pat00057
,
Figure pat00058
,
Figure pat00059
는 채널들(c1, c2 및 c3) 각각의 스케일링 계수를 나타낸다.
더욱이 공간 포커서는 그 후에 일부 실시예들에서 방향 및 포커싱된 구성요소들이 중간 신호(M(b))를
Figure pat00060
Figure pat00061
Figure pat00062
Figure pat00063
Figure pat00064
로서 사용하여 획득됨을 결정하도록 구성될 수 있다.
일부 실시예들에서 많은 레코딩된 오디오 신호들에서의 어느 정도의 모호성들 및 요동들로 인해, 모든 서브-대역들에 대해 신뢰성 있는 방향 추정들이 획득될 수 있음이 이해될 것이다. 예를 들어, 서브-대역 결정에 대한 유효 방향 추정들의 수는 프레임당 18 및 22 사이에서 변할 수 있다. 입체 음향 또는 다채널 모드 모두에서의 그와 같은 실시예들에서 기술되는 포커스 절차는 잠재적으로 부정확한 방향들을 강조하는 것을 방지하기 위해 유효 방향 추정들을 가지는 그러한 서브-대역들에 대해서만 수행될 수 있다. 일부 실시예들에서 그와 같은 한계를 극복하기 위해, 본원에서 기술되는 바와 같이 통계 분석에 의해 모든 서브-대역을 변경하는 것이 가능한 추가 이득 제어 절차들이 적용된다.
일부 실시예들에서 공간 포커싱은 측 신호(S(b))를 프로세싱하도록 더 구성될 수 있다. 측 신호(S(b))에 포함되는 방향 정보가 없으므로, 입체 음향 모드에서 오디오 포커서는 측 신호 합성에 어떠한 효과도 내지 않는 것이 이해될 것이다.
즉, 측 신호는 변경되지 않은 채로 프로세싱된 중간 신호에 추가된다.
그러나, 다채널 합성에서, 포커싱 효과는 또한 포커스 각(θ)을 모든 서브-대역에 대해 획득되는 각 추정(α)으로 고려함으로써 측 신호에 적용될 수 있다. 주변 신호는 따라서 전체 포커스 효과를 증대시키기 위해 포커싱된 방향으로 증폭된다. 그러나 측 신호 성분들의 증폭은 합성된 출력 신호에서 자연스런 톤을 유지하기 위해 주의깊게 수행되어야 하는 것이 이해될 것이다. 예를 들어 측 신호 포커스의 매우 높은 증폭은 전체 오디오 현장을 특정한 각으로 이동시키는 경향이 있는데, 이는 방지되어야 한다.
예를 들어 일부 실시예들에서 공간 포커서(805)는, 일단 다채널 합성에 대해 비례 이득 값들(Gx)이 획득되면, 각각의 채널에 대한 실제 측 신호 스케일링 팩터들(γx)은
Figure pat00065
Figure pat00066
Figure pat00067
Figure pat00068
로서 도출될 수 있고, 여기서 는 각 채널에 대해 고정된 "불균형" 감마 값들을 포함하는 벡터이고, amps 및 atts는 각각 측 신호에 대한 증폭 및 감쇠 팩터들이다. 일부 실시예들에서 이에 대한 적절한 값들은 0.1 및 0.3 사이에서 변한다.
일부 실시예들에서 공간 포커서의 출력은 후 프로세싱 이득 제어/시간 평활기로 통과될 수 있다.
일부 실시예들에서 오디오 프로세서(103)는 후 프로세싱 이득 제어/시간 평활기를 더 포함한다.
일부 실시예들에서(다채널 및 입체 음향 합성들 모두에 대한) 프로세싱된 중간 신호들을 포커스 효과를 더 증대시키기 위해 더 프로세싱될 수 있다.
즉, 일부 실시예들에서 방향 추정들의 결정된 양이 단일 시간 프레임 내의 포커스 섹터 내부에서 획득될 때마다, 추가 이득 계수들에 의해 모든 서브-대역들이 더 변경된다.
더욱이 일부 실시예들에서 후 프로세싱은 연속 프레임들에 대한 급작스런 이득 변경들을 방지하기 위해 시간 평활을 적용하도록 구성될 수 있다.
일부 실시예들에서 후 프로세싱 이득 제어기/시간 평활기(807)는 추가 이득 제어가 적용되어야 하는지를 결정하는 데 사용되는 서브-대역 임계값들을 결정하도록 구성될 수 있다. 일부 실시예들에서 서브-대역 임계값들은 서브-대역들의 적용되는 수 및 실험 테스팅에 기초한다. 예를 들어 B=32인 경우 추가 이득 증폭 및 감쇠에 대한 임계들은 각각 thamp = 8 및 thatt=4로서 결정될 수 있다. 이 임계값들은 추가 이득 제어 프로세스를 트리거(trigger)하기 위해 단일 프레임 내의 포커싱된 섹터 내부에서 허용되는 방향 추정들의 최소 및 최대 수에 대응한다. 일부 실시예들에서 서브-대역들의 예시 적용 수(B=32)는 많은 다른 것들 중에서 단 하나의 가능성을 표현하고 이와 같으므로 임의의 적절한 수의 서브-대역들 또한 적용될 수 있음이(이것은 이후에 임계값들로 하여금 이에 따라 변하도록 할 수 있다) 이해될 것이다.
일부 실시예들에서 후 프로세싱 이득 제어기/시간 평활기(807)는 포커싱된 섹터 내부의 방향 추정들의 수(E)를 결정하고 더욱이 E의 값을 세팅된 임계값들과 비교하도록 구성될 수 있다. 즉, 일부 상황들에서 유효한 섹터 내 방향 추정들의 수를 구함으로써 후 프로세싱 이득 제어기/시간 평활기(807)는 공간 오디오 분석기에서 획득되는 신뢰할 수 없는/공지되지 않은 α(b) 추정들을 가지는 그러한 대역들을 또한 포함하여, 현재 시간 프레임 내의 32개의 서브-대역들 모두를 증폭하거나 약화시키도록 구성될 수 있다.
일부 실시예들에서 추가 증폭은 단지 포커스 섹터 내의 그러한 오디오 소스 대역들에만 또는 임계치가 만족될 때 방향이 신뢰할 수 없는/공지되지 않은 경우에 적용된다. 유사하게 일부 실시예들에서 섹터 내부의 추정들을 가지는 대역들은 추가 약화에 의해 영향을 받지 않는다(그러한 경우에 세팅된 임계치들에 기초하여 최대 3개의 그와 같은 대역들이 존재한다).
예를 들어 입체 음향 합성 모드들에서, 다음의 식들은
Figure pat00070
인 일부 실시예들에서 추가 증폭에 적용될 수 있고
Figure pat00071
Figure pat00072
추가 감쇠는
Figure pat00073
인 경우:
Figure pat00074
Figure pat00075
이다.
항들(ampadd 및 attadd)은 원래의 amp 및 att 계수들로부터 도출되는 추가 증폭 및 감쇠 계수들이다. 추가 이득 계수들은 일부 실시예들에서 정적이고 서브-대역들 사이에서 고정된다(즉, 이것들은 줌잉의 양에 의해 영향을 받지 않는다).
다채널 합성 모드들에서, 다음의 식들은 채널 스케일링 계수들에 대해 적용된다:
증폭:
Figure pat00076
약화:
Figure pat00077
이것들은 그러고 나서:
Figure pat00078
Figure pat00079
,
Figure pat00080
Figure pat00081
Figure pat00082
에 적용되고, 여기서
Figure pat00083
,
Figure pat00084
Figure pat00085
는 채널들(c1, c2 및 c3) 각각의 스케일링 계수를 나타낸다. 방향 및 포커싱된 구성요소들은 실제 오디오 채널 신호들을 획득하기 위해 중간 신호(M(b))를
Figure pat00086
Figure pat00087
Figure pat00088
Figure pat00089
Figure pat00090
으로 사용하여 획득된다.
일부 실시예들에서 후 프로세싱 이득 제어기/시간 평활기(807)는 추가적으로 프레임 상태들의 지난 이력에 기초하여 시간 평활을 오디오 신호들에 적용할 수 있다.
일부 실시예들에서 오디오 프로세서(103)는 채널 모드 변환기를 더 포함한다. 채널 모드 변환기는 일부 실시예들에서 프로세싱된 중간 및 측 신호들을 수신하고 적절한 채널 출력들을 생성하도록 구성될 수 있다.
예를 들어 일부 실시예들에서 채널 모드 변환기는 다채널 프로세싱된 신호로부터 청취하는 헤드폰에 적합한 스테레오 신호를 생성하도록 구성된다.
일부 실시예들에서 모드 변환기는 다음의 변환 공식을 사용하여 다채널 합성 출력으로 직접적으로 변환을 수행하도록 구성되고:
Figure pat00091
Figure pat00092
여기서 x(z)는 채널(x)의 시간 도메인 신호에 대응한다.
일부 실시예들에서 모드 변환기는 다채널 합성의 포커싱된 중간 신호들(M(b))을 사용하고 원(포커싱되지 않은) 측 신호들을 고려하도록 구성된다. 이 실시예들에서 스테레오 신호 변환은 일단 포커싱 효과가 중간-신호 성분들과 결합되면, 주파수 도메인에서 수행된다. 스테레오 변환은 도 28a에 관하여 상기에 도시되는 바와 같이 수행되지만, 동작들은 각 서브-대역(b)에서 각각의 주파수 빈(n)에 대해 별개로
Figure pat00093
와 같은 주파수 도메인 계수들로 수행되고 측 신호(s(b))는 우측 채널에 추가되고 좌측 채널로부터 제거된다. 시간 도메인으로의 변환은 일부 실시예들에서 푸리에 역변환(inverse Fourier transform; IFT)을 사용하여 수행될 수 있다. 그와 같은 실시예들에서 제 1 "직접" 변환 옵션에 비해 "더 평활하고" 더 안정된 배경 잡음이 생성된다.
일부 실시예들에서 모드 변환기는 각 추정들(α(b))에 대한 오디오 패닝을 수행하도록 구성된다. 두 채널들(PR, PL)의 패닝 계수들은
Figure pat00094
Figure pat00095
로 계산되고, 여기서 α(b) 각 부호는 변경된다. 대역(b)의 각 추정이 불확실한 상황들에서, 계수들은
Figure pat00096
의 디폴트 값에 제공된다.
일부 실시예들에서 모노 출력은 스테레오 신호로부터
Figure pat00097
로서 형성될 수 있다.
이것은 포커싱된 모노 신호인 것으로 정의될 수 있고, 여기서 증폭되고 약화되는 방향들 및 음원들은 여전히 청취 가능하나, 방향 정보는 사용자에게 통과되지 않는다.
오디오 프로세서(103)는 그러므로 일부 실시예들에서 공간 오디오 출력(105)으로 통과될 수 있는 프로세싱된 오디오 신호를 생성할 수 있다.
적어도 UI 입력/추적에 기초하는 오디오 신호 프로세싱의 동작은 도 3에 단계 207에 의해 도시된다.
일부 실시예들에서 공간 오디오 출력(105)은 프로세싱된 오디오 신호들을 적절한 재현 장치로 또는 메모리로 또는 임의의 적절한 저장 요소로 출력하도록 구성된다. 재현 오디오의 출력은 일부 실시예들에서 모노, 스테레오, 입체음향, 다채널, 공간 또는 3D 오디오 신호 중 적어도 하나일 수 있다.
더욱이 오디오 신호들(또는 사용자 입력에 기초하는 그와 같은 음 조작의 결과)의 프로세싱은 그와 같은 재현 오디오가 사용자에게 모노 또는 다채널 오디오 를 재현하는 것을 발생시키는 데 사용될 수 있는 임의의 적절한 재현 장치로 출력될 수 있음이 이해될 것이다. 일부 실시예들에서 적절한 재현 장치는 오디오 커넥터를 통해 장치에 결합될 수 있거나 일부 실시예들에서 장치의 적어도 하나의 내부 스피커일 수 있다.
더욱이 프로세싱되는 오디오 신호(음 조작) 및/또는 사용자 입력에 기초하여 조정되는 세팅들은 단독으로 또는 비주얼 데이터와 함께 세이브 또는 저장(예를 들어, 내부 메모리, 데이터베이스 또는 클라우드)될 수 있다.
프로세싱된 오디오 신호들에 대한 출력을 제공하는 동작은 도 3에서 단계 209에 의해 도시된다.
일부 실시예들에서 장치는 비주얼 프로세서(107)를 포함한다. 비주얼 프로세서(107)는 일부 실시예들에서 카메라(51)로부터 이미지 데이터를 그리고 더욱이 추적기(106)로부터 사용자 인터페이스 입력/선택 추적 정보를 수신하도록 구성될 수 있다. 비주얼 프로세서(107)는 일부 실시예들에서 사용자 인터페이스/추적 선택(오디오 소스들)에 기초하여 카메라(51)로부터의 비주얼 이미지에 대해 디스플레이되는 사용자 인터페이스 오버레이를 생성하도록 구성될 수 있다. 예를 들어, 일부 실시예들에서 비주얼 프로세서(107)는 선택 영역 또는 에어리어를 강조하도록 구성될 수 있고 추적기(106)가 (오디오 소스) 선택을 따를 때 비주얼 프로세서는 이 움직임을 강조할 수 있는 오버레이를 생성하도록 구성될 수 있다. 더욱이 일부 실시예들에서 비주얼 프로세서(107)는, 사용자가 일부 실시예들에서 오디오 소스를 따르는 장치를 재지향시킬 수 있도록, 선택(오디오 소스)이 시계를 떠날 때, 즉 카메라의 시각 밖으로 이동될 때 사용자 인터페이스 비주얼 표시를 제공하도록 구성될 수 있다.
그와 같은 실시예들에서 비주얼 프로세서 또는 적절한 비주얼 프로세싱 수단은 디스플레이의 영역 내의 이미지 프레임으로부터 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하도록 구성될 수 있다. 더욱이 디스플레이는 그와 같은 실시예들에서 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 디스플레이 이미지를 디스플레이하도록 구성될 수 있고, 여기서 적어도 하나의 비주얼 요소의 관심 위치의 지점을 결정하는 것은 적어도 하나의 선택 입력에 기초하여 적어도 하나의 관심 지점 위치를 결정함으로써 제공될 수 있다.
비주얼 프로세서(107)는 이 비주얼 사용자 인터페이스 오버레이는 카메라 이미지 데이터와 함께 디스플레이(52)에 출력할 수 있다.
즉, 일부 실시예들에서 본원에서 기술되는 실시예들은: 적어도 하나의 이미지 프레임을 캡처하고(적절한 수단에 의해); 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고(적절한 수단에 의해); 적어도 하나의 이미지 프레임 및 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합(적절한 수단에 의해)하여 적어도 하나의 비주얼 요소를 포함하는 디스플레이 이미지를 생성함으로써 디스플레이 이미지를 생성한다.
본원에서 기술되는 오버레이는 다음: 적어도 하나의 음원의 관심 위치의 지점을 디스플레이하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치가 이미지 프레임의 시계 외에 있음을 강조하는 오버레이; 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이; 적어도 하나의 추가적인 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하기 위해 토글 상태를 디스플레이하도록 구성되는 프로세싱 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 증폭 이득을 디스플레이하도록 구성되는 포커스 증폭 오버레이; 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하기 위해 적어도 하나의 감쇠 약화를 디스플레이하도록 구성되는 포커스 감쇠 오버레이; 포커스 동작을 반전시키기 위해 토글 상태를 디스플레이하도록 구성되는 포커스 인버터 오버레이; 및 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이하도록 구성되는 포커스 증폭 프로파일 오버레이 중 임의의 오버레이일 수 있다.
사용자 인터페이스 입력/추적에 기초하여 비디오/이미지 데이터를 생성하는 동작은 도 3에 단계 208에 의해 도시된다.
디스플레이(52)는 비주얼 프로세서(107)로부터 데이터를 수신하고 생성/프로세싱된 이미지들을 디스플레이하도록 구성될 수 있다.
생성/프로세싱된 이미지들을 디스플레이하는 동작은 도 3에서 단계 210에 의해 도시된다.
도 4와 관련하여 일부 실시예들에 따라 동작 중인 예시 장치(10)가 도시된다. 도11에 도시되는 예에서 디스플레이(52) 및 카메라(51)를 포함하는 장치(10)는 비디오/오디오 캡처가 수행되는 애플리케이션 또는 프로그램의 초기화 이후의 점선으로 도시되는 카메라 시각 범위를 도시한다. 카메라의 뷰(view) 내에 제 1 오디오 소스(1001), 제 2 오디오 소스(1003) 및 제 3 오디오 소스(1005)가 도시된다. 이 오디오 소스들은 제 1 오디오 소스 비주얼 표현(1011), 제 2 오디오 소스 비주얼 표현(1013) 및 제 3 오디오 소스 비주얼 표현(1015)에 의해 디스플레이(52) 상에 시각적으로 표현된다.
도 5와 관련하여 도 4에 도시되는 예는 사용자(1101)가 제 3 오디오 소스 비주얼 표현(1015)의 지점에서 디스플레이를 탭핑함으로써 제 3 오디오 소스(1015)가 선택됨을, 즉, 제 3 오디오 소스가 추적되고 프로세싱될 수 있음을 표시하는 것으로 도시된다. 즉, 장치 터치/사용자 인터페이스 제어기(104)는 이후에 추적기(106)로 통과될 수 있는 지점 또는 선택 위치를 나타내는 디스플레이(52)로부터 입력을 수신하도록 구성될 수 있다. 일부 실시예들에서 장치 디스플레이 또는 다른 사용자 인터페이스 입력은 포커스가 양의 포커스인지를 결정하여 다른 오디오 소스들에 대해 제 3 오디오 소스를 증대 또는 증폭시키고 또는 음의 포커스인지를 결정하여 다른 오디오 소스들에 대해 제 3 오디오 소스를 줄이거나 감쇠시키도록 구성될 수 있음이 이해될 것이다. 예를 들어, 디스플레이는 특정한 증폭/감쇠 아이콘들을 디스플레이하거나 포커스 또는 선택 영역에 적용될 포커스 감쇠/증폭의 정도를 명시하는 데 사용될 수 있는 사용자 인터페이스 슬라이더 또는 다이얼을 포함할 수 있다.
도 6과 관련하여 제 3 오디오 소스를 포커싱될 오디오 소스로서 선택한 이후의 장치가 도시된다. 도 6에 도시되는 예에서 일부 실시예들에서 추적기(106) 특징 선택기는 제 3 오디오 소스(1005)와 연관되는 적절한 비주얼 기술자(및/또는 오디오 핑거프린트 또는 기술자) 요소들을 생성하였고 스크린 상에 디스플레이되는 제 3 오디오 소스 비주얼 표현(1015)을 강조하기 위해 이 요소들을 통과시켰다. 예를 들어, 일부 실시예들에서 비주얼 기술자는 디스플레이 상에 도 6에서 X표들로 도시되는 적어도 하나의 비주얼 기술자 특징(1203)으로서 디스플레이된다. 일부 실시예들에서 오디오 소스 비주얼 표현의 강조는 제 3 오디오 소스 비주얼 표현을 둘러싸는 박스(1201)를 사용할 수 있다.
도 7과 관련하여 제 3 오디오 소스(1005)의 이동 이후의 장치가 도시된다. 이 예에서, 제 3 오디오 소스(1005)는 제 1 오디오 소스(1001) 전방으로 통과되도록 제 1 오디오 소스(1001) 및 제 2 오디오 소스(1003)에 대하여 이동하였다. 이것은 도 7에서 제 3 오디오 소스 비주얼 표현(1015)이 제 1 오디오 소스 비주얼 표현(1011)을 가로질러 이 제 1 오디오 소스 비주얼 표현(1011) 앞으로 이동할 때의 장치(10)의 디스플레이(52) 상에 도시되지만, 여기서 제 3 오디오 소스 비주얼 표현을 추적했던 비주얼 기술자 요소들(1203)이 도시된다.
도 8과 관련하여 선택(오디오 소스)을 나타내는 예시 비주얼 이미지가 도시되고 여기서 이미지(1403)는 제 1 오디오 소스, 스피커 또는 강조된 선택 박스(1401)에 의해 도시되는 사람인 화자를 포함한다. 더욱이 도 8은 정상적인 스테레오 캡처 오디오 신호(1411) 및 포커싱된 스트레오 캡처 오디오 신호(1413) 사이의 차를 도시하고 여기서 장치는 화자에 포커싱을 적용하였다.
도 9와 관련하여 화자가 추적되는 추가 예들이 도시된다. 이미지(1505)는 원 선택(또는 오디오 소스 화자)(1501)의 그리고 이동했고 박스(1503)에 의해 강조된 오디오 소스 또는 화자의 위치를 도시한다. 상기 도는 언포커싱된 스테레오 캡처 오디오 신호들(1511), 원 선택 에어리어(1501)에 기초하여 고정되는 포커싱된 오디오 신호(1513) 및 오디오 소스를 원 선택 에어리어(1501)로부터 현재 추적되는 에어리어(1503)로 추적하는 것에 기초하여 추적 포커싱되는 오디오 신호(1515)를 더 도시한다.
도 10과 관련하여 추적을 나타내는 예시 비주얼 프로세서 사용자 인터페이스 오버레이들이 도시되고, 여기서는 도 8의 이미지(1403)에 기초하는 제 1 이미지(1601)가 도시되고 비주얼 프로세서는 포커싱된 영역이 언포커싱된 영역들보다 더 밝도록 마스킹(masking) 오버레이를 적용하였다. 일부 실시예들에서 이것은 포커스 에어리어 또는 영역에 픽셀들을 밝게 하는 것을 적용함으로써 또는 포커스 에어리어 또는 영역 또는 이 둘 모두의 외부에 있는 픽셀들의 어둡게 하는 것을 적용함으로써 수행될 수 있다. 그러므로 포커싱된 영역(1603)은 명확하게 보일 수 있고 반면에 언포커싱된 영역들은 어둡다. 더욱이 도 10은 도 9의 이미지(1505)에 기초하는 제 2 이미지(1611)가 비-포커싱된 영역을 유사하게 어둡게 하는 것을 나타내도록 마스킹이 어떻게 선택을 추적하는지를 도시한다.
비주얼 프로세서(107)가 선택 영역 또는 에어리어의 포커싱을 나타내기 위해 임의의 적절한 오버레이 이미지 프로세싱을 생성할 수 있음이 이해될 것이다. 이것들은 이미지를 밝게 하거나, 이미지 컬러들을 변경하거나 또는 이미지가 포커스 내에 있거나 포커스 영역 외부에 있는 경우 이미지를 선명하게 하거나 흐릿하게 하는 것을 포함할 수 있다.
도 11과 관련하여 예시 비주얼 프로세서 사용자 인터페이스 오버레이들이 도시되고 여기서 선택 특징(오디오 소스)는 카메라의 시계 외부에 있다. 그러므로 이미지들(1701, 1711) 모두에서 오디오 소스인 화자가 카메라의 뷰 외부로 이동하였음이 도시된다. 제 1 이미지(1701)는 오디오 소스가 카메라의 시계 외부로 이동한 방향을 사용자 인터페이스 오버레이 화살표(1703)가 가리키고 있는 것이 도시된다. 제 2 이미지(1711)는 이 선택으로부터 멀어지면서 점차 어두워짐으로써(또는 즉, 상기 이미지가 뷰 선택의 외부 쪽으로 점차 밝아짐으로써) 오디오 소스 또는 선택이 시계 밖으로 이동했던 에지 쪽에서 이미지가 가장 밝도록 하기 위해, 비주얼 프로세서(107)가 마스킹 기능을 적용한 경우를 도시한다.
도 12와 관련하여 예시 흐름도는 일부 실시예들에 따른 장치의 예시 동작을 도시한다.
일부 실시예들에서 사용자는 장치 상의 애플리케이션 또는 적절한 프로그램을 시작하고 비디오 레코딩이 개시된다. 이 예에서 오디오 및 비디오 모두가 캡처된다.
오디오 및 비디오 레코딩의 개시 또는 시작의 동작은 도 12에서 단계 1801에 의해 도시된다.
사용자가 포커싱할 적절한 물체를 선택하고자 하면 사용자는 일부 실시예들에서 스크린 상의 전용 아이콘을 누르고 이것을 '탭핑'하는 것을 선택하는 것에 의해 관심 물체를 나타냄으로써 물체 선택을 활성화할 수 있다.
스크린 상의 전용 아이콘을 누르고 탭핑에 의해 관심 물체를 나타냄으로써 물체 선택을 활성화하는 동작은 도 12에서 단계 1803에 의해 도시된다.
일부 실시예들에서 사용자는 스크린 상의 대응하는 아이콘을 누르는 것에 의해 물체가 증폭되거나 감쇠되어야 하는지를 나타내는 사용자 입력을 더 제공할 수 있다.
일반적으로 일부 실시예들에서 사용자는 적절한 제어 입력을 제공할 수 있고 이 제어 입력은 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치와 연관되고 오디오 프로세서에 의해 사용됨으로써, 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것은 장치로 하여금 적어도 하나의 제어 입력에 기초하여 적어도 하나의 오디오 신호를 재현하게 한다.
제어 입력은 예를 들어, 다음: 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 폭; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 프로세싱 범위; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 증폭 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 포커스 감쇠 팩터; 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하기 위한 아웃 포커스 증폭 팩터; 및 적어도 하나의 사운드 재생 트랜스듀서로부터 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠 중 임의의 하나일 수 있다.
물체가 스크린 상의 대응하는 아이콘을 누름으로써 증폭되거나 감쇠되어야 하는지를 선택하는 동작은 도 12에서 단계 1805에 의해 도시된다.
일부 실시예들에서 물체 선택 및/또는 포커싱된 물체의 적용 및 감쇠의 결정이 일부 실시예들에서 자동으로 결정될 수 있음이 이해될 것이다.
일부 실시예들에서 장치 애플리케이션은 물체의 비주얼 및/또는 음향 기술자를 생성할 수 있다.
물체의 비주얼 및/또는 음향 기술자의 동작은 도 12에서 단계 1807에 의해 도시된다.
장치 애플리케이션은 그 후에 일부 실시예들에서 물체의 비주얼 및/또는 음향 기술자에 기초하여 선택된 물체의 위치를 추적할 수 있다.
선택된 물체의 위치를 추적하는 동작은 도 12에서 1809에 의해 도시된다.
일부 실시예들에서, 즉 선택적인 특징으로서, 추적되는 물체의 위치는 스크린 상에 시각화된다. 예를 들어, 본원에서 도시되는 바와 같이 비주얼 프로세서는 카메라 이미지로부터의 물체의 물리적 이미지가 제시될 수 있는 추적되는 물체의 위치에 기초하여 적절한 마스킹 또는 강조 효과를 발생시킨다.
스크린 상의 물체를 시각화하는 동작은 도 12에서 단계 1811에 의해 도시된다.
더욱이 일부 실시예들에서 오디오 프로세싱 또는 조작은 추적되는 물체의 방향을 강조함으로써 적용된다.
추적되는 물체들의 오디오 조작의 동작은 도 12에서 단계 1813에 의해 도시된다.
일부 실시예들에서 프로세싱되는 오디오는 이후에 결정된 포맷으로 비디오의 적어도 하나의 오디오 트랙으로 저장된다.
조작되는 오디오를 비디오의 적어도 하나의 오디오 트랙으로 저장하는 동작은 도 12에서 단계 1815에 의해 도시된다.
애플리케이션 또는 동작은 그 후에 본원에서 기술되는 바와 같이 기술자를 갱신하는 동작 또는 물체를 추적하는 동작으로 복귀할 수 있다.
예를 들어, 물체는 일부 실시예들에서 매 100ms마다 한번 추적될 수 있다. 기술자 값들을 갱신하는 동작은 일부 실시예들에서 매 200 내지 300ms마다(즉, 트래킹보다 덜 자주 또는 일부 실시예들에서 추적과 동일한 빈도수로) 발생할 수 있고 일부 실시예들에서 기술자 값들을 갱신하는 것은 추적되는 기술자 값들이 이전에 저장된 기술자 값들로부터 현저하게 변하는 경우에 발생할 수 있다.
본원에서의 설명에서 구성요소들은 일부 실시예들에서 적어도 부분적으로 적어도 하나의 프로세서 내에서 동작하고 적어도 하나의 메모리 내에 저장되는 코드 또는 루틴들로서 구현 가능한 것으로 간주될 수 있다.
용어 사용자 장비는 모바일 전화기들, 휴대용 데이터 프로세싱 디바이스들 또는 휴대용 웹 브라우저들과 같은 임의의 적절한 유형의 무선 사용자 장비를 포괄하도록 의도되는 것이 인정될 것이다.
더욱이 공중 지상 이동망(public land mobile network; PLMN)의 요소들 또한 상술한 바와 같은 장치를 포함할 수 있다.
일반적으로 본 발명의 다양한 실시예들은 하드웨어 또는 특수 목적 회로들, 소프트웨어, 논리 또는 이들의 임의의 결합으로 구현될 수 있다. 예를 들어, 일부 양태들은 하드웨어에서 구현될 수 있고, 반면에 다른 양태들은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있으나, 본 발명은 이로 제한되지 않는다. 본 발명의 다양한 양태들이 블록도들, 흐름도들 또는 어떤 다른 그림 표현으로 예시되고 기술될 수 있을지라도, 비제한적인 예들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로들 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스들 또는 이들의 임의의 결합으로 구현될 수 있음이 충분히 이해된다.
본 발명의 실시예들은 프로세서 실체에서 또는 하드웨어에 의해, 또는 소프트웨어 및 하드웨어의 결합에 의해서와 같이, 모바일 디바이스의 데이터 프로세서에 의해 실행 가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다. 더욱이 이 점에 있어서 도면들에서와 같은 논리 흐름의 임의의 블록들은 프로그램 단계들 또는 상호 접속되는 논리 회로들, 블록들 및 기능들 또는 프로그램 단계들 및 논리 회로들, 블록들 및 기능들의 결합을 표현할 수 있음이 유념되어야 한다. 소프트웨어는 메모리 칩들, 또는 프로세서 내에서 구현되는 메모리 블록들, 하드 디스크 또는 플로피 디스크들과 같은 자기 매체 및 예를 들어 DVD 및 이의 데이터 변형들과 같은 광 매체, CD와 같은 그러한 물리적 매체 상에 저장될 수 있다.
메모리는 국지적인 기술 환경에 적합한 임의의 유형으로 이루어질 수 있고 반도체 기반 메모리 디바이스들, 자기 메모리 디바이스들 및 시스템들, 광 메모리 디바이스들 및 시스템들, 고정 메모리 및 제거 가능 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서들은 국지적인 기술 환경에 적합한 임의의 유형으로 이루어질 수 있고, 비제한적인 예들로서, 범용 컴퓨터들, 특수 목적 컴퓨터들, 마이크로프로세서들, 디지털 신호 프로세서(digital signal processor; DSP)들, 주문형 반도체(application specific integrated circuit; ASIC)들, 게이터 레벨 회로들 및 다-코어 프로세서 아키텍처에 기초하는 프로세서들 중 하나 이상을 포함할 수 있다.
본 발명의 실시예들은 집적 회로 모듈들과 같은 다양한 구성요소들에서 실시될 수 있다. 집적 회로들의 설계는 대체로 고도로 자동화된 프로세스이다. 논리 레벨 설계를 반도체 기판 상에 식각되고 형성되는 반도체 회로 설계로 변환하기 위해 복합적이고 강력한 소프트웨어 툴들이 사용 가능하다.
California, Mountain View의 Synopsys 및 California, San Jose의 Cadence Design에 의해 제공되는 프로그램들과 같은 프로그램들은 잘 설정된 설계 규칙들뿐만 아니라 선 저장 설계 모듈들의 라이브러리들을 사용하여 자동으로 컨덕터들을 라우팅하고 반도체 칩 상의 구성요소들의 위치를 찾는다. 일단 반도체 회로에 대한 설계가 완료되었으면, 그 결과에 따른 설계는, 표준화된 전자 포맷(예를 들어, Opus, GDSII 등)으로 반도체 제작 설비 또는 제조를 위한 "팹(fab)"으로 전달될 수 있다.
상기의 설명은 예시적이며 비제한적인 예들에 의해 본 발명의 예시 실시예들의 완전하고 유익한 설명을 제공하였다. 그러나, 당업자에게는 상기 설명을 고려하여 첨부 도면들 및 부가된 청구항들과 함께 판독하면 다양한 수정들 및 적응들이 명백해질 수 있다. 그러나, 본 발명의 내용들의 모든 그와 같은 그리고 유사한 변경들은 첨부된 청구항들에서 정의되는 바와 같은 본 발명의 범위 내에 여전히 해당될 것이다.

Claims (19)

  1. 적어도 하나의 프로세서 및 하나 이상의 프로그램들을 위한 컴퓨터 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는 상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금,
    적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원(acoustic source)을 결정하게 하고,
    상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치(point of interest location)를 결정하게 하고,
    상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치의 궤적을 결정하게 하고,
    상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서(sound playback transducer)로부터 상기 적어도 하나의 오디오 신호를 재현(reproduce)하게 하는
    장치.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 음원은, 상기 장치로 하여금
    상기 적어도 하나의 오디오 신호와 연관되고 음원 위치 정보를 포함하는 적어도 하나의 메타파일(metafile)을 결정하고,
    상기 음원 위치 정보로부터 상기 적어도 하나의 음원을 결정하여 상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치를 결정하도록 함으로써 결정되는
    장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 적어도 하나의 관심 지점 위치는, 상기 장치로 하여금
    이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
    적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
    적어도 하나의 사용자 입력 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 수행하도록 함으로써 결정되는
    장치.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 장치는, 상기 적어도 하나의 관심 지점 위치가 결정되는 적어도 하나의 캡쳐된 이미지 프레임을 수신하게 하고, 상기 적어도 하나의 캡쳐된 이미지 프레임은 적어도 하나의 카메라, 메모리, 및 적어도 하나의 추가 장치 중 적어도 하나로부터 수신되는
    장치.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 결정된 궤적은, 상기 장치로 하여금,
    상기 적어도 하나의 관심 지점 위치에서 상기 적어도 하나의 음원 및/또는 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징(feature)을 결정하게 하고,
    상기 적어도 하나의 음원 및/또는 상기 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징을 추적하게 하고,
    상기 적어도 하나의 특징의 궤적을 결정하게 하는
    장치.
  6. 제 5 항에 있어서,
    상기 장치로 하여금 디스플레이의 영역 내에, 상기 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하게 하고,
    상기 적어도 하나의 비주얼 이미지 요소에 기초하여 상기 적어도 하나의 관심 지점 위치를 결정하게 하고, 상기 적어도 하나의 음원은 상기 적어도 하나의 비주얼 요소와 연관되는 상기 적어도 하나의 관심 지점 위치인 것으로서 정의되는
    장치.
  7. 제 6 항에 있어서,
    상기 장치로 하여금 상기 적어도 하나의 음원의 적어도 하나의 비주얼 이미지 요소를 제공하게 하는 것은,
    상기 디스플레이의 영역 내의 이미지 프레임으로부터 상기 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하게 하고,
    적어도 하나의 선택 입력에 기초하여 상기 적어도 하나의 관심 지점 위치를 결정하기 위해, 상기 적어도 하나의 선택 입력을 제공하도록 구성되는 터치 인터페이스 디스플레이 상에 상기 디스플레이 이미지를 디스플레이하는
    장치.
  8. 제 7 항에 있어서,
    상기 장치로 하여금 상기 디스플레이 이미지를 생성하게 하는 것은,
    적어도 하나의 이미지 프레임을 캡처하게 하고,
    적어도 하나의 사용자 인터페이스 오버레이 요소(user interface overlay element)를 생성하게 하고,
    상기 디스플레이 이미지를 생성하기 위해 상기 적어도 하나의 이미지 프레임 및 상기 적어도 하나의 사용자 인터페이스 오버레이 요소를 결합하는
    장치.
  9. 제 8 항에 있어서,
    상기 장치로 하여금, 상기 적어도 하나의 사용자 인터페이스 오버레이 요소를 생성하고, 상기 장치는, 또한
    상기 적어도 하나의 음원의 관심 지점 위치를 디스플레이하는 오버레이를 생성하게 하는 것과,
    상기 적어도 하나의 관심 지점 위치가 상기 이미지 프레임의 시계(field of view) 외부에 있는 것을 강조하는 오버레이를 생성하는 것과,
    상기 적어도 하나의 관심 지점 위치에 기초하여 프로세싱 포커스 범위 및 방향을 디스플레이하는 포커스 영역 오버레이를 생성하는 것과,
    토글 상태(toggle state)를 디스플레이 하도록 구성되는 프로세싱 오버레이를 생성하는 것과,
    상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하기 위한 적어도 하나의 증폭 이득(amplification gain)을 디스플레이하도록 구성되는 포커스 증폭 오버레이를 생성하는 것과,
    상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하기 위한 적어도 하나의 감쇠(attenuation)를 디스플레이하도록 구성되는 포커스 감쇠 오버레이를 생성하는 것과,
    포커스 동작을 반전시키기 위하여 토글 상태를 디스플레이하도록 구성되는 포커스 인버터 오버레이를 생성하는 것과,
    상기 장치를 둘러싸는 방향들에 대한 증폭 프로파일을 디스플레이하도록 구성되는 포커스 증폭 프로파일 오버레이를 생성하는 것 중 적어도 하나를 수행하는
    장치.
  10. 제 1 항 또는 제 2 항에 있어서,
    상기 장치는 또한 상기 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하고, 상기 적어도 하나의 제어 입력에 기초하여 상기 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는
    장치.
  11. 제 10 항에 있어서,
    상기 적어도 하나의 제어 입력은, 상기 장치로 하여금
    적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 폭과,
    적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 프로세싱 범위와,
    적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 증폭 팩터(factor)와,
    적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 포커스 감쇠 팩터와,
    적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 증폭 팩터(an out of focus amplification factor)와,
    적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 것을 제어하는 아웃 포커스 감쇠(an out of focus attenuation) 중 적어도 하나를 제공하도록 하는
    장치.
  12. 제 1 항 또는 제 2 항에 있어서,
    상기 적어도 하나의 오디오 신호는 적어도 2개의 오디오 신호들을 포함하며, 상기 장치는 상기 적어도 2개의 오디오 신호들에 의해 상기 적어도 하나의 음원을 결정하고, 결정된 적어도 하나의 음원은 위치 값을 포함하는
    장치.
  13. 제 1 항 또는 제 2 항에 있어서,
    상기 장치는, 또한
    적어도 2개의 마이크로폰과,
    장치 메모리와,
    적어도 하나의 추가 장치 중 하나로부터 상기 적어도 하나의 오디오 신호를 수신하는
    장치.
  14. 제 1 항 또는 제 2 항에 있어서,
    상기 적어도 하나의 오디오 신호를 사용하여, 상기 적어도 하나의 음원을 결정하도록 구성되는 공간 오디오 분석기(a spatial audio analyser)와,
    상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치를 결정하도록 구성되는 위치 결정기와,
    상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치의 궤적을 결정하도록 구성되는 궤적 결정기와,
    상기 결정된 궤적에 기초하여 상기 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하도록 구성되는 프로세서를 포함하는
    장치.
  15. 적어도 하나의 오디오 신호를 사용하여, 적어도 하나의 음원을 결정하는 단계와,
    상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계와,
    상기 적어도 하나의 음원과 연관되는 상기 적어도 하나의 관심 지점 위치의 궤적을 결정하는 단계와,
    상기 결정된 궤적에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 단계를 포함하는
    방법.
  16. 제 15 항에 있어서,
    상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치의 궤적을 결정하는 단계는,
    상기 적어도 하나의 관심 지점 위치에서 상기 적어도 하나의 음원 및/또는 적어도 하나의 비주얼 이미지 요소와 연관되는 적어도 하나의 특징(feature)을 결정하는 단계와,
    상기 적어도 하나의 음원 및/또는 상기 적어도 하나의 비주얼 이미지 요소 와 연관되는 적어도 하나의 특징을 추적하는 단계와,
    상기 적어도 하나의 특징의 궤적을 결정하는 단계를 포함하는
    방법.
  17. 제 15 항 또는 제 16 항에 있어서,
    상기 적어도 하나의 음원과 연관되는 적어도 하나의 관심 지점 위치를 결정하는 단계는,
    이미지 프레임으로부터 비주얼 이미지 요소와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
    적어도 하나의 오디오 신호와 연관되는 적어도 하나의 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것과,
    적어도 하나의 사용자 입력 위치를 결정함으로써 상기 적어도 하나의 관심 지점 위치를 결정하는 것 중 적어도 하나를 포함하는
    방법.
  18. 제 15 항 또는 제 16 항에 있어서,
    적어도 하나의 비주얼 이미지 요소를 제공하는 단계와,
    디스플레이의 영역 내의 이미지 프레임으로부터 상기 적어도 하나의 비주얼 이미지 요소를 포함하는 디스플레이 이미지를 생성하는 단계와,
    적어도 하나의 선택 입력을 제공하기 위한 터치 인터페이스 디스플레이 상에 상기 디스플레이 이미지를 디스플레이하는 단계와,
    상기 적어도 하나의 선택 입력에 기초하여 상기 적어도 하나의 관심 지점 위치를 결정하는 단계를 더 포함하는
    방법.
  19. 제 15 항 또는 제 16 항에 있어서,
    상기 적어도 하나의 관심 지점 위치와 연관되는 적어도 하나의 제어 입력을 제공하는 단계와,
    상기 적어도 하나의 제어 입력에 기초하여 적어도 하나의 사운드 재생 트랜스듀서로부터 상기 적어도 하나의 오디오 신호를 재현하는 단계를 더 포함하는
    방법.
KR1020140085782A 2013-07-09 2014-07-09 오디오 프로세싱 장치 KR101703388B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1312326.0 2013-07-09
GB1312326.0A GB2516056B (en) 2013-07-09 2013-07-09 Audio processing apparatus

Publications (2)

Publication Number Publication Date
KR20150006799A true KR20150006799A (ko) 2015-01-19
KR101703388B1 KR101703388B1 (ko) 2017-02-06

Family

ID=49033573

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140085782A KR101703388B1 (ko) 2013-07-09 2014-07-09 오디오 프로세싱 장치

Country Status (5)

Country Link
US (2) US10142759B2 (ko)
EP (1) EP2824663B1 (ko)
JP (2) JP6310793B2 (ko)
KR (1) KR101703388B1 (ko)
GB (1) GB2516056B (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9344826B2 (en) * 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
KR102288060B1 (ko) * 2014-08-06 2021-08-10 삼성전자 주식회사 피사체의 소리를 수신하는 방법 및 이를 구현하는 전자장치
KR102226817B1 (ko) * 2014-10-01 2021-03-11 삼성전자주식회사 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US9860635B2 (en) * 2014-12-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Microphone array, monitoring system, and sound pickup setting method
US9787846B2 (en) 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
US9668055B2 (en) * 2015-03-04 2017-05-30 Sowhat Studio Di Michele Baggio Portable recorder
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
GB2540225A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Distributed audio capture and mixing control
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
JP5979458B1 (ja) * 2015-11-06 2016-08-24 パナソニックIpマネジメント株式会社 無人飛行体検知システム及び無人飛行体検知方法
US11445305B2 (en) 2016-02-04 2022-09-13 Magic Leap, Inc. Technique for directing audio in augmented reality system
WO2017143067A1 (en) 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
US11722821B2 (en) 2016-02-19 2023-08-08 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
US10153002B2 (en) * 2016-04-15 2018-12-11 Intel Corporation Selection of an audio stream of a video for enhancement using images of the video
RU2743732C2 (ru) * 2016-05-30 2021-02-25 Сони Корпорейшн Способ и устройство для обработки видео- и аудиосигналов и программа
US10074012B2 (en) 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
GB2551521A (en) 2016-06-20 2017-12-27 Nokia Technologies Oy Distributed audio capture and mixing controlling
US9881647B2 (en) * 2016-06-28 2018-01-30 VideoStitch Inc. Method to align an immersive video and an immersive sound field
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10573291B2 (en) 2016-12-09 2020-02-25 The Research Foundation For The State University Of New York Acoustic metamaterial
CN110337318B (zh) * 2017-02-28 2024-06-14 奇跃公司 混合现实装置中的虚拟和真实对象记录
CN106842752B (zh) * 2017-04-24 2019-06-07 京东方科技集团股份有限公司 显示面板、显示装置及其显示方法
GB2562518A (en) * 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
US11303689B2 (en) * 2017-06-06 2022-04-12 Nokia Technologies Oy Method and apparatus for updating streamed content
GB201710085D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10828009B2 (en) 2017-12-20 2020-11-10 International Business Machines Corporation Monitoring body sounds and detecting health conditions
EP3503102A1 (en) * 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10431238B1 (en) * 2018-08-17 2019-10-01 Apple Inc. Memory and computation efficient cross-correlation and delay estimation
CN110875053A (zh) 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
KR20200107758A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
CN114402631B (zh) * 2019-05-15 2024-05-31 苹果公司 用于回放捕获的声音的方法和电子设备
EP3742185B1 (en) 2019-05-20 2023-08-09 Nokia Technologies Oy An apparatus and associated methods for capture of spatial audio
CN112423190A (zh) * 2019-08-20 2021-02-26 苹果公司 用于头戴式设备的基于音频的反馈
US11137973B2 (en) * 2019-09-04 2021-10-05 Bose Corporation Augmented audio development previewing tool
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
EP3963902A4 (en) * 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
WO2022059858A1 (en) * 2020-09-16 2022-03-24 Samsung Electronics Co., Ltd. Method and system to generate 3d audio from audio-visual multimedia content
WO2022250660A1 (en) * 2021-05-25 2022-12-01 Google Llc Enhancing audio content of a captured scene
US11653166B2 (en) 2021-05-27 2023-05-16 Qualcomm Incorporated Directional audio generation with multiple arrangements of sound sources
TW202314452A (zh) * 2021-08-13 2023-04-01 美商元平台技術有限公司 具有用於ar/vr應用的濾波器之單觸空間體驗
US11943601B2 (en) 2021-08-13 2024-03-26 Meta Platforms Technologies, Llc Audio beam steering, tracking and audio effects for AR/VR applications
GB202204269D0 (en) * 2022-03-25 2022-05-11 Nokia Technologies Oy An apparatus for mapping sound source direction
US11914146B2 (en) * 2022-05-27 2024-02-27 Sony Interactive Entertainment LLC Methods and systems for adding real-world sounds to virtual reality scenes

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296232A (ja) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd 音入力装置、音入力方法およびプログラム
US20120155703A1 (en) * 2010-12-16 2012-06-21 Sony Computer Entertainment, Inc. Microphone array steering with image-based source location

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2004147205A (ja) 2002-10-25 2004-05-20 Fuji Photo Film Co Ltd 画像音声記録装置
JP2004180197A (ja) * 2002-11-29 2004-06-24 Canon Inc 情報処理装置、情報処理方法および記録媒体
JP4269883B2 (ja) * 2003-10-20 2009-05-27 ソニー株式会社 マイクロホン装置、再生装置及び撮像装置
TWI230023B (en) 2003-11-20 2005-03-21 Acer Inc Sound-receiving method of microphone array associating positioning technology and system thereof
JP2005352330A (ja) * 2004-06-14 2005-12-22 Heartful Wing:Kk 音声分割記録装置
US7928311B2 (en) * 2004-12-01 2011-04-19 Creative Technology Ltd System and method for forming and rendering 3D MIDI messages
US7518631B2 (en) * 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP2007158396A (ja) * 2005-11-30 2007-06-21 Mitsubishi Electric Corp 映像・音声同期伝送装置
JP4686402B2 (ja) * 2006-04-27 2011-05-25 オリンパスイメージング株式会社 カメラ、再生装置、再生制御方法
JP2008131168A (ja) * 2006-11-17 2008-06-05 Casio Comput Co Ltd 音声データ編集装置、音声データ編集方法、音声データ編集プログラム
NO328582B1 (no) 2006-12-29 2010-03-22 Tandberg Telecom As Mikrofon for lydkildesporing
JP2008193196A (ja) * 2007-02-01 2008-08-21 Casio Comput Co Ltd 撮像装置および指定音声出力方法
US7792674B2 (en) * 2007-03-30 2010-09-07 Smith Micro Software, Inc. System and method for providing virtual spatial sound with an audio visual player
WO2008122974A1 (en) * 2007-04-06 2008-10-16 Technion Research & Development Foundation Ltd. Method and apparatus for the use of cross modal association to isolate individual media sources
US20080259731A1 (en) 2007-04-17 2008-10-23 Happonen Aki P Methods and apparatuses for user controlled beamforming
JP2008271157A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 音声強調装置及び制御プログラム
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
JP4934580B2 (ja) 2007-12-17 2012-05-16 株式会社日立製作所 映像音声記録装置および映像音声再生装置
JP4968091B2 (ja) * 2008-01-30 2012-07-04 ソニー株式会社 電子機器、メッセージ応答方法及びプログラム
US9445193B2 (en) 2008-07-31 2016-09-13 Nokia Technologies Oy Electronic device directional audio capture
US20100123785A1 (en) * 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
US8150063B2 (en) * 2008-11-25 2012-04-03 Apple Inc. Stabilizing directional audio input from a moving microphone array
JP2010187363A (ja) 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
US20100254543A1 (en) * 2009-02-03 2010-10-07 Squarehead Technology As Conference microphone system
JP5908199B2 (ja) * 2009-05-21 2016-04-26 株式会社ザクティ 音響処理装置及び集音装置
EP2465114B1 (en) 2009-08-14 2020-04-08 Dts Llc System for adaptively streaming audio objects
JP2011061461A (ja) * 2009-09-09 2011-03-24 Sony Corp 撮像装置、指向性制御方法及びそのプログラム
US8144633B2 (en) 2009-09-22 2012-03-27 Avaya Inc. Method and system for controlling audio in a collaboration environment
CN102668601A (zh) 2009-12-23 2012-09-12 诺基亚公司 一种装置
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
JP5198530B2 (ja) * 2010-09-28 2013-05-15 株式会社東芝 音声付き動画像呈示装置、方法およびプログラム
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
JP5815956B2 (ja) * 2011-02-10 2015-11-17 キヤノン株式会社 音声処理装置及びプログラム
US8475396B2 (en) * 2011-02-11 2013-07-02 AventuSoft, LLC Method and system of an acoustic scene analyzer for body sounds
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
JP2013240000A (ja) * 2012-05-17 2013-11-28 Kyocera Corp 電子機器、録音制御プログラムおよび録音制御方法
EP2680615B1 (en) * 2012-06-25 2018-08-08 LG Electronics Inc. Mobile terminal and audio zooming method thereof
JP6218090B2 (ja) * 2014-05-09 2017-10-25 パナソニックIpマネジメント株式会社 指向性制御方法
JP6438274B2 (ja) * 2014-10-29 2018-12-12 Kyb株式会社 ミキサ車

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296232A (ja) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd 音入力装置、音入力方法およびプログラム
US20120155703A1 (en) * 2010-12-16 2012-06-21 Sony Computer Entertainment, Inc. Microphone array steering with image-based source location

Also Published As

Publication number Publication date
US20180084365A1 (en) 2018-03-22
KR101703388B1 (ko) 2017-02-06
GB2516056B (en) 2021-06-30
GB2516056A (en) 2015-01-14
JP6310793B2 (ja) 2018-04-11
US10142759B2 (en) 2018-11-27
JP6367258B2 (ja) 2018-08-01
EP2824663B1 (en) 2021-08-25
EP2824663A3 (en) 2015-03-11
US20150016641A1 (en) 2015-01-15
US10080094B2 (en) 2018-09-18
JP2015019371A (ja) 2015-01-29
GB201312326D0 (en) 2013-08-21
JP2016178652A (ja) 2016-10-06
EP2824663A2 (en) 2015-01-14

Similar Documents

Publication Publication Date Title
KR101703388B1 (ko) 오디오 프로세싱 장치
US10932075B2 (en) Spatial audio processing apparatus
US10635383B2 (en) Visual audio processing apparatus
US10924850B2 (en) Apparatus and method for audio processing based on directional ranges
US9820037B2 (en) Audio capture apparatus
US10397722B2 (en) Distributed audio capture and mixing
JP2015019371A5 (ko)
EP3197182B1 (en) Method and device for generating and playing back audio signal
US20160044410A1 (en) Audio Apparatus
EP3520216A1 (en) Gain control in spatial audio systems
WO2013083875A1 (en) An apparatus and method of audio stabilizing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E601 Decision to refuse application
FPAY Annual fee payment

Payment date: 20200103

Year of fee payment: 4