KR20230113831A - 음향 주밍 - Google Patents

음향 주밍 Download PDF

Info

Publication number
KR20230113831A
KR20230113831A KR1020237024341A KR20237024341A KR20230113831A KR 20230113831 A KR20230113831 A KR 20230113831A KR 1020237024341 A KR1020237024341 A KR 1020237024341A KR 20237024341 A KR20237024341 A KR 20237024341A KR 20230113831 A KR20230113831 A KR 20230113831A
Authority
KR
South Korea
Prior art keywords
beamformer
signals
tiles
target
video content
Prior art date
Application number
KR1020237024341A
Other languages
English (en)
Inventor
창시 정
아룬 아소칸 네어
오스틴 레이터
시리 케이. 나야르
Original Assignee
스냅 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스냅 인코포레이티드 filed Critical 스냅 인코포레이티드
Publication of KR20230113831A publication Critical patent/KR20230113831A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

음향 주밍을 수행하는 방법은 마이크로폰들이 비디오 콘텐츠와 연관된 음향 신호들을 캡처하는 것으로 시작된다. 빔포머들은 음향 신호들을 이용하여 빔포머 신호들을 생성한다. 빔포머 신호들은 비디오 콘텐츠의 타일들에 각각 대응한다. 빔포머들 각각은 타일들 각각의 중심으로 각각 지향된다. 빔포머 신호들을 이용하여 타깃 강화된 신호가 생성된다. 타깃 강화된 신호는 비디오 콘텐츠의 줌 영역과 연관된다. 줌 영역에 포함된 적어도 부분들을 각각 갖는 타일들을 식별하고, 식별된 타일들에 대응하는 빔포머 신호들을 선택하고, 선택된 빔포머 신호들을 조합하여 타깃 강화된 신호를 생성함으로써 타깃 강화된 신호가 생성된다. 선택된 빔포머 신호들을 조합하는 것은 줌 영역에 관하여 식별된 타일들 각각에 대한 비율들을 결정하는 것 및 그 비율들에 기초하여 선택된 빔포머 신호들을 조합하여 타깃 강화된 신호를 생성하는 것을 포함할 수 있다. 다른 실시예들이 본 명세서에 설명된다.

Description

음향 주밍{ACOUSTIC ZOOMING}
우선권
본 출원은 2018년 9월 3일자로 출원된 인도 특허 출원 제201811032980호에 대한 우선권의 이익을 주장하고, 그 각각의 우선권의 이익은 이로써 청구되고, 그 각각은 그 전체가 본 명세서에 인용에 의해 포함된다.
현재, 다수의 소비자 전자 디바이스들은 오디오 및/또는 비디오 콘텐츠를 캡처하도록 적응된다. 예를 들어, 사용자는 사람들 속에 있는 동안 그의 모바일 디바이스를 이용하여 비디오를 신속하게 캡처할 수 있다.
비디오의 재생 동안, 시청자는 선택된 관심 영역을 더 큰 포맷으로 보기 위해 관심 영역을 줌인할 수 있다. 그러나, 비디오가 캡처된 환경이 잡음이 있다면, 비디오 내의 관심 영역과 관련된 오디오가 들리지 않게 되었을 수 있다.
반드시 축척대로 그려진 것은 아닌 도면들에서, 유사한 참조 번호들이 상이한 도들에서 유사한 컴포넌트들을 묘사할 수 있다. 상이한 문자 접미사를 갖는 유사한 숫자는 유사한 컴포넌트들의 상이한 인스턴스들을 나타낼 수 있다. 일부 실시예들은 첨부 도면들에서 제한이 아닌 예로서 예시된다.
도 1은 하나의 예시적인 실시예에 따라 사용되고 있는 음향 주밍을 수행하기 위한 시스템의 예이다.
도 2는 하나의 예시적인 실시예에 따른, 도 1로부터의 시스템의 추가 상세를 예시하는 블록도이다.
도 3은 하나의 예시적인 실시예에 따른 시스템의 도 2의 음향 주밍 제어기(111)의 상세의 블록도이다.
도 4a 내지 도 4d는 본 발명의 실시예들에 따른, 비디오 콘텐츠 상의 타일들의 배열(도 4a), 타일들의 배열 상의 줌 영역(도 4b), 및 줌 영역에 포함된 타일들에 기초하여 빔포머 신호들을 조합하는 것(도 4c 및 도 4d)의 예들을 예시한다.
도 5는 하나의 예시적인 실시예에 따른 시스템의 도 2의 음향 주밍 제어기(111)의 상세의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 비디오 콘텐츠 상의 줌 영역 및 줌 영역에 중심을 둔 시야 콘(field of view cone)의 예들을 예시한다.
도 7은 본 발명의 일 실시예에 따른 음향 주밍을 수행하기 위한 예시적인 방법의 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 음향 주밍을 수행하기 위한 예시적인 방법의 흐름도이다.
도 9는 본 명세서에 설명된 다양한 하드웨어 아키텍처들과 함께 사용될 수 있는 대표적인 소프트웨어 아키텍처를 예시하는 블록도이다.
도 10은 머신-판독가능 매체(예를 들어, 머신-판독가능 스토리지 매체)로부터의 명령어들을 판독하고 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행할 수 있는, 일부 예시적인 실시예들에 따른, 머신의 컴포넌트들을 예시하는 블록도이다.
이하의 설명은 본 개시내용의 예시적인 실시예들을 구현하는 시스템들, 방법들, 기법들, 명령어 시퀀스들, 및 컴퓨팅 머신 프로그램 제품들을 포함한다. 이하의 설명에서는, 설명의 목적들을 위해, 본 발명의 주제의 다양한 실시예들의 이해를 제공하기 위해 다수의 특정 상세가 설명된다. 그러나, 본 기술 분야의 통상의 기술자들에게는 본 발명의 주제의 실시예들이 이들 특정 상세 없이 실시될 수 있다는 것이 명백할 것이다. 일반적으로, 널리 공지된 명령어 인스턴스들, 프로토콜들, 구조들, 및 기법들은 반드시 상세히 도시되지는 않는다.
본 명세서에 설명된 실시예들은 비디오 재생 동안 음향 주밍이 수행되도록 허용함으로써 현재의 시스템들을 개선시킨다. 구체적으로, 음향 주밍은 비디오 내의 관심 영역과 관련된 오디오를 강화시키는 것을 지칭한다. 예를 들어, 사용자가 재생 동안 비디오 내의 관심 영역을 시각적으로 줌인할 때, 관심 영역이 시각적으로 강화될 수 있고(예를 들어, 더 큰 포맷) 해당 관심 영역에 대응하는 오디오도 해당 관심 영역에서 유래하는 볼륨을 증가시키는 것, 해당 관심 영역 밖에서 유래하는 사운드들(예를 들어, 환경 잡음, 다른 스피커들 등)을 억제하는 것, 또는 이들의 임의의 조합에 의해 강화된다.
도 1은 하나의 예시적인 실시예에 따라 사용되고 있는 음향 주밍을 수행하기 위한 시스템의 예이다. 도 1에 도시된 바와 같이, 시스템(100)은 복수의 피사체를 포함하는 비디오뿐만 아니라 비디오에 대응하는 음향 신호들을 캡처하는 클라이언트 디바이스(예를 들어, 도 10의 머신(1000))와 같은 장치일 수 있다.
본 명세서에서 사용된, "클라이언트 디바이스"라는 용어는 하나 이상의 서버 시스템 또는 다른 클라이언트 디바이스로부터 리소스를 획득하기 위해 통신 네트워크와 인터페이스하는 임의의 머신을 지칭한다. 클라이언트 디바이스는, 모바일 폰, 데스크톱 컴퓨터, 랩톱, 개인 휴대용 정보 단말(PDA), 스마트폰, 태블릿, 울트라 북, 넷북, 랩톱, 멀티-프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 가전 제품, 게임 콘솔, 셋톱 박스, 또는 사용자가 네트워크에 액세스하기 위해 사용할 수 있는 임의의 다른 통신 디바이스일 수 있지만, 이것으로 제한되지 않는다.
일부 실시예들은 클라이언트 디바이스와 통합되거나, 그와 통신하거나 또는 그에 결합되는 통합된 카메라를 갖는 펜던트와 같은 하나 이상의 웨어러블 디바이스들을 포함할 수 있다. 시계, 안경, 고글, 헤드셋, 손목 밴드, 이어버드, 의복(예컨대 전자 기술이 통합된 모자 또는 재킷), 클립-온 전자 디바이스, 또는 임의의 다른 웨어러블 디바이스와 같은 임의의 원하는 웨어러블 디바이스가 본 개시내용의 실시예들과 함께 사용될 수 있다.
도 2는 하나의 예시적인 실시예에 따른 시스템(100)의 추가 상세를 예시하는 블록도이다. 시스템(100)은, 도 2에 도시된 바와 같이, 마이크로폰들(113_1 내지 113_N)(N>1), 카메라 모듈(112), 및 음향 주밍 제어기(111)를 포함한다. 마이크로폰들(113_1 내지 113_N)은 사운드를 전기 신호로 변환하는 에어 인터페이스 사운드 픽업 디바이스들일 수 있다. 도 1에서, 시스템(100)은 6개의 마이크로폰(113_1 내지 113_6)을 포함하지만, 마이크로폰들의 수는 달라질 수 있다. 일 실시예에서, 시스템(100)은 적어도 2개의 마이크로폰을 포함할 수 있고 마이크로폰 어레이를 형성할 수 있다.
마이크로폰들(113_1 내지 113_N)은 선택된 마이크로폰들(113_1 내지 113_N)을 강조하고 덜 강조함으로써 주어진 방향으로 조향될 수 있는 마이크로폰 어레이 빔들(즉, 빔포머들)을 생성하기 위해 사용될 수 있다. 유사하게, 마이크로폰 어레이들은 또한 다른 주어진 방향들로 널(null)들을 나타내거나 제공할 수 있다. 따라서, 공간 필터링이라고도 지칭되는 빔포밍 프로세스는 지향성 사운드 수신을 위해 마이크로폰 어레이를 사용하는 신호 처리 기법일 수 있다.
카메라 모듈(112)은 카메라 렌즈 및 이미지 센서를 포함한다. 카메라 렌즈는 원근 카메라 렌즈 또는 비-원근 카메라 렌즈일 수 있다. 비-원근 카메라 렌즈는, 예를 들어, 어안 렌즈, 광각 렌즈, 전방향 렌즈 등일 수 있다. 이미지 센서는 카메라 렌즈를 통해 디지털 비디오를 캡처한다. 이미지들은 또한 정지 이미지 프레임 또는 복수의 정지 이미지 프레임을 포함하는 비디오일 수 있다. 일 실시예에서, 시스템(100)은 카메라 모듈(112)로부터 분리될 수 있지만 카메라 모듈(112)을 포함하는 클라이언트 디바이스에 결합될 수 있다. 이 실시예에서, 시스템(100)은 마이크로폰들(113_1 내지 113_N) 및 카메라 렌즈가 이미지 또는 비디오 콘텐츠를 캡처하도록 허용하는 윈도우를 포함하는 하우징 또는 케이스일 수 있다.
도 1의 실시예에서, 시스템(100)은 카메라 모듈(112)을 이용하여 복수의 피사체를 포함하는 비디오를 캡처하고 마이크로폰들(113_1 내지 113_N)을 이용하여 비디오에 대응하는 음향 신호들을 캡처한다. 재생 동안, 음향 신호들은 비디오와 시간상 동기화된다. 음향 신호들은 원하는(또는 타깃) 오디오 신호뿐만 아니라 주변 또는 환경 잡음을 포함할 수 있다. 예를 들어, 도 1에서, 시스템(100)의 사용자가 중앙에 있는 소스로부터 오디오 신호를 캡처하고자 하면, 나머지 소스들(예를 들어, 상부 및 하부 소스들)로부터의 오디오 신호들도 환경 잡음 신호들로서 캡처될 것이다.
일 실시예에서, 캡처된 비디오 및 대응하는 오디오 신호들을 재생할 때, 시스템(100) 내의 음향 주밍 제어기(111)는 비디오 콘텐츠의 시야(또는 줌 영역)를 결정하고 해당 시야에 대응하는 오디오 신호를 강화시킨다. 다른 실시예에서, 음향 주밍 제어기(111)는 비디오 콘텐츠의 시야(또는 줌 영역)를 실시간으로 결정하고 해당 시야에 대응하는 오디오 신호를 실시간으로 강화시킨다.
도 3은 하나의 예시적인 실시예에 따른 시스템의 도 2의 음향 주밍 제어기(111)의 상세의 블록도이다. 도 3에서, 음향 주밍 제어기(111)는 시간-주파수 변환기(310), 신경망(320), 복수의 빔포머를 포함하는 빔포머 유닛(330), 타깃 강화기(340) 및 주파수-시간 변환기(350)를 포함한다.
시간-주파수 변환기(310)는 마이크로폰들(113_1 내지 113_N)로부터 음향 신호들을 수신하고 음향 신호들을 시간 도메인으로부터 주파수 도메인으로 변환한다. 일 실시예에서, 시간-주파수 변환기(310)는 시간 도메인에서의 음향 신호들에 대해 STFT(Short-Time Fourier Transform)를 수행하여 주파수 도메인에서의 음향 신호들을 획득한다.
신경망(320)은 주파수 도메인에서의 음향 신호들을 수신하고 잡음 기준 신호를 생성한다. 신경망(320)은 공간에서 잡음의 에너지 분포를 인코딩하는 잡음 공분산 행렬을 추정하는 잡음 기준 신호를 생성하기 위해 사용되는 심층 신경망일 수 있다. 신경망(320)은 공간에서 잡음의 분포를 인식하고 인코딩하도록 오프라인 트레이닝될 수 있다.
일 실시예에서, 신경망(320)은 또한 주파수 도메인에서의 음향 신호들 내의 잡음을 마스킹하여 잡음 억제된 주파수 도메인에서의 음향 신호들을 생성하기 위해 사용된다. 신경망(320)은 또한 잡음 억제된 주파수 도메인에서의 음향 신호들을 추가 처리를 위해 빔포머 유닛(330)에 제공할 수 있다.
도 4a는 일 실시예에 따른 비디오 콘텐츠 상의 타일들의 배열의 일 예를 예시한다. 캡처되는 비디오 콘텐츠는 복수의 타일(410_1 내지 410_M)(M>1)로 분할될 수 있다. 도 4a의 실시예에서, 비디오 콘텐츠의 타일들은 적어도 10도의 각도 폭을 갖는 동등한 형상의 타일들이다. 각각의 타일(410_j)(M≥j≥1)에 대해, 빔포머 유닛(330)은 타일(410_j)의 중심으로 지향되는 빔포머를 포함한다. 도 4a의 실시예에서, 빔포머 유닛(330)은 9개의 타일의 9개의 중심으로 각각 지향되거나 조향되는 9개의 빔포머를 포함한다. 따라서, 빔포머들 각각은 각각의 타일 내의 비디오 콘텐츠의 부분에 대응하는 오디오를 포함하는 빔포머 신호를 생성한다. 빔포머 유닛(330) 내의 빔포머들은 타일들(410_j)의 중심으로 지향되는 고정 빔포머들, MVDR(Minimum Variance Distortionless Response) 빔포머들과 같은 적응 빔포머들, 또는 이들의 임의의 조합을 포함할 수 있다.
도 4a의 실시예는 동등한 형상의 타일들(410_1 내지 410_M)을 포함하지만, 타일들(410_1 내지 410_M)은 상이한 임의의 형상들일 수 있음이 이해된다. 유사하게, 도 4a의 실시예는 적어도 10도의 각도 폭을 갖는 타일들(410_1 내지 410_M)을 포함하지만, 타일들(410_1 내지 410_M)은 상이한 각도 폭들을 가질 수 있음이 이해된다.
도 4b는 일 실시예에 따른 도 4a로부터의 타일들의 배열 상의 줌 영역(420)을 예시한다. 사용자가 더 큰(주밍된) 포맷으로 디스플레이될 비디오 콘텐츠의 영역을 선택할 때, 사용자의 시야는 도 4a의 모든 타일들을 포함하는 제1 시야로부터 상이한 타일들의 부분들을 포함하는 도 4b의 줌 영역(420)에 대응하는 제2 시야로 변경된다.
도 3의 타깃 강화기(340)는 빔포머 유닛(330)으로부터 복수의 빔포머 신호를 수신하고 비디오 콘텐츠의 줌 영역(420)과 연관된 타깃 강화된 신호를 생성한다. 일 실시예에서, 타깃 강화기(340)는 줌 영역(420)에 포함된 적어도 부분들을 각각 갖는 타일들을 식별함으로써 타깃 강화된 신호를 생성한다. 도 4c에서, 4개의 타일(410_1 내지 410_4)의 부분들은 줌 영역(420)에 포함된 적어도 부분들을 갖는 것으로 식별된다. 이 예에서, 전체 타일(410_1)이 줌 영역(420)에 포함되고 타일들(410_2 내지 410_4)의 더 작은 부분들이 줌 영역(420)에 포함된다. 타깃 강화기(340)는 식별된 타일들(410_2 내지 410_4)에 대응하는 빔포머 신호들을 선택하고 선택된 빔포머 신호들을 조합하여 타깃 강화된 신호를 생성한다.
일 실시예에서, 타깃 강화기(340)는 선택된 빔포머 신호들을 줌 영역에 대한 식별된 타일들 각각의 기여분과 동일한 비율로 조합한다. 도 4d는 일 실시예에 따른, 타깃 강화기(340)에 의해 수행되는 조합을 예시한다. 이 실시예에서, 타깃 강화기(340)는 줌 영역(420)에 관하여 식별된 타일들 각각에 대한 비율들을 결정하고 그 비율들에 기초하여 선택된 빔포머 신호들을 조합하여 타깃 강화된 신호를 생성한다. 타깃 강화기(340)는 선택된 빔포머 신호들을 비율들에 기초하여 스펙트럼적으로 가산함으로써 선택된 빔포머 신호들을 조합할 수 있다.
주파수-시간 변환기(350)는 타깃 강화기(340)로부터 타깃 강화된 신호를 수신하고 타깃 강화된 신호를 주파수 도메인으로부터 시간 도메인으로 변환한다. 일 실시예에서, 주파수-시간 변환기(350)는 주파수 도메인에서의 타깃 강화된 신호에 대해 역 STFT(Short-Time Fourier Transform)를 수행하여 시간 도메인에서의 타깃 강화된 신호를 획득한다.
도 5는 하나의 예시적인 실시예에 따른 시스템의 도 2의 음향 주밍 제어기(111)의 상세의 블록도이다. 도 3의 음향 주밍 제어기(111)의 상세와 유사하게, 도 5의 음향 주밍 제어기(111)는 시간-주파수 변환기(310), 신경망(320), 및 주파수-시간 변환기(350)를 또한 포함한다. 그러나, 이 실시예에서, 음향 주밍 제어기(111)는 타깃 빔포머 및 잡음 빔포머를 포함하는 빔포머 유닛(530) 및 빔포머 유닛(530)으로의 피드백 신호를 포함하는 타깃 강화기(540)를 포함한다. 빔포머 유닛(530)은 시간-주파수 변환기(310)로부터의 주파수 도메인에서의 음향 신호들 및 신경망(320)으로부터의 잡음 기준 신호를 수신한다.
도 6은 본 발명의 일 실시예에 따른 비디오 콘텐츠 상의 줌 영역 및 줌 영역(420)에 중심을 둔 시야 원(field of view circle)(620)의 예들을 예시한다. 사용자가 더 큰(주밍된) 포맷으로 디스플레이될 비디오 콘텐츠의 줌 영역(420)을 선택할 때, 사용자의 시야는 도 6의 비디오 콘텐츠의 전체 영역(610)의 제1 시야로부터 도 6의 줌 영역(420)에 대응하는 제2 시야로 변경된다. 도 6은 제2 시야를 원(620)으로서 포함하지만, 제2 시야는 임의의 형상일 수 있다.
일 실시예에서, 빔포머 유닛(530)은 타깃 빔포머 및 잡음 빔포머를 포함한다. 타깃 빔포머는 비디오 콘텐츠의 줌 영역(420)에 대응하는 제2 시야 원(620)의 중심에 지향된다. 일 실시예에서, 제2 시야 원(620)은 줌 영역(420)을 가능한 한 많이 커버하려는 시도이다. 일 실시예에서, 타깃 빔포머는 강화될 사운드의 방향(예를 들어, 제2 시야 원(620)의 중심)을 인코딩하는 조향 벡터를 구현한다. 잡음 빔포머는 제1 시야(610)에 지향되고 제2 시야 원(620)의 중심에 지향되는 널을 갖는다. 잡음 빔포머는 관심 오디오(예를 들어, 제2 시야 원(620)의 중심으로부터)의 오염을 가능한 한 적게 하여 환경 잡음을 캡처하기 위해 제2 시야 원(620)의 중심으로부터 떨어져 지향되는 카디오이드(cardioid) 또는 다른 빔포밍 패턴일 수 있다. 잡음 빔포머는 강화될 사운드의 방향에 있지 않은 음향 신호들을 캡처하는 잡음 빔포머 신호를 생성한다.
일 실시예에서, 신경망(320)은 복수의 음향 신호를 수신하여 잡음 기준 신호를 생성한다. 이 실시예에서, 빔포머 유닛(530)은 잡음 기준 신호를 수신하고 복수의 음향 신호 및 잡음 기준 신호를 이용하여 타깃 빔포머 신호 및 잡음 빔포머 신호를 생성한다.
타깃 강화기(540)는 비디오 콘텐츠의 줌 영역(420)에 대응하는 제2 시야 원(620)을 결정한다. 일 실시예에서, 타깃 강화기(530)는 제1 시야(610)에 관하여 줌 영역(420)의 위치 및 방향을 결정한다. 타깃 강화기(540)는 제2 시야 원(620)을 포함하는 데이터를 빔포머 유닛(530)에 송신하여 빔포머 유닛(530)이 그에 따라 타깃 빔포머 및 잡음 빔포머를 지향시키게 할 수 있다. 타깃 강화기는 타깃 빔포머 신호 및 잡음 빔포머 신호를 수신하고 타깃 빔포머 신호 및 잡음 빔포머 신호를 이용하여 비디오 콘텐츠의 줌 영역(420)과 연관된 타깃 강화된 신호를 생성한다. 일 실시예에서, 타깃 강화기(540)는 타깃 강화된 신호로부터 잡음 빔포머 신호를 스펙트럼적으로 감산함으로써 타깃 강화된 신호를 생성한다.
본 발명의 다음의 실시예들은, 플로차트, 흐름도, 구조도, 또는 블록도로서 보통 묘사되는, 프로세스로서 설명될 수 있다. 플로차트는 동작들을 순차적 프로세스로서 설명할 수 있지만, 동작들 중 다수는 병렬로 또는 동시에 수행될 수 있다. 게다가, 동작들의 순서는 재배열될 수 있다. 프로세스는 그의 동작들이 완료될 때 종료된다. 프로세스는 방법, 절차 등에 대응할 수 있다.
도 7은 본 발명의 일 실시예에 따른 음향 주밍을 수행하기 위한 예시적인 방법의 흐름도이다. 방법은 블록 701에서 복수의 마이크로폰이 비디오 콘텐츠와 연관된 복수의 음향 신호를 캡처하는 것으로 시작된다. 블록 702에서, 복수의 빔포머는 복수의 음향 신호를 이용하여 복수의 빔포머 신호를 생성한다. 빔포머 신호들은 비디오 콘텐츠의 복수의 타일에 각각 대응할 수 있다. 빔포머들 각각은 타일들 각각의 중심으로 각각 지향될 수 있다. 블록 703에서, 타깃 강화기는 빔포머 신호들을 이용하여 타깃 강화된 신호를 생성한다. 타깃 강화된 신호는 비디오 콘텐츠의 줌 영역과 연관될 수 있다. 일 실시예에서, 타깃 강화기는 줌 영역에 포함된 적어도 부분들을 각각 갖는 타일들을 식별하고, 식별된 타일들에 대응하는 빔포머 신호들을 선택하고, 선택된 빔포머 신호들을 조합하여 타깃 강화된 신호를 생성함으로써 블록 703에서 타깃 강화된 신호를 생성한다. 일 실시예에서, 선택된 빔포머 신호들을 조합하는 것은 줌 영역에 관하여 식별된 타일들 각각에 대한 비율들을 결정하는 것 및 그 비율들에 기초하여 선택된 빔포머 신호들을 조합하여 타깃 강화된 신호를 생성하는 것을 포함한다.
도 8은 본 발명의 일 실시예에 따른 음향 주밍을 수행하기 위한 예시적인 방법의 흐름도이다. 방법은 블록 801에서 복수의 마이크로폰이 복수의 음향 신호를 캡처하는 것으로 시작된다. 비디오 콘텐츠의 제1 시야는 복수의 음향 신호와 연관될 수 있다. 블록 802에서, 타깃 빔포머는 복수의 음향 신호를 이용하여 타깃 빔포머 신호를 생성한다. 타깃 빔포머는 비디오 콘텐츠의 줌 영역에 대응하는 제2 시야의 중심에 지향된다. 블록 803에서, 잡음 빔포머는 복수의 음향 신호를 이용하여 잡음 빔포머 신호를 생성한다. 잡음 빔포머는 제1 시야에 지향되고 제2 시야의 중심에 지향되는 널을 갖는다. 블록 804에서, 타깃 강화기는 비디오 콘텐츠의 줌 영역에 대응하는 제2 시야를 결정하고, 블록 805에서, 타깃 빔포머 신호 및 잡음 빔포머 신호를 이용하여 비디오 콘텐츠의 줌 영역과 연관된 타깃 강화된 신호를 생성한다. 일 실시예에서, 타깃 강화기가 타깃 강화된 신호를 생성하는 것은 타깃 강화된 신호로부터 잡음 빔포머 신호를 스펙트럼적으로 감산하는 것을 포함한다.
소프트웨어 아키텍처
도 9는 본 명세서에 설명된 다양한 하드웨어 아키텍처들과 함께 사용될 수 있는 예시적인 소프트웨어 아키텍처(906)를 예시하는 블록도이다. 도 9는 소프트웨어 아키텍처의 비제한적 예이고, 본 명세서에 설명된 기능성을 용이하게 하기 위해 많은 다른 아키텍처들이 구현될 수 있다는 것을 인식할 것이다. 소프트웨어 아키텍처(906)는, 특히, 프로세서들(1004), 메모리(1014), 및 I/O 컴포넌트들(1018)을 포함하는 도 10의 머신(1000)과 같은 하드웨어 상에서 실행될 수 있다. 대표적인 하드웨어 계층(952)이 예시되어 있고, 예를 들어, 도 10의 머신(1000)을 나타낼 수 있다. 대표적인 하드웨어 계층(952)은 연관된 실행가능 명령어들(904)을 갖는 처리 유닛(954)을 포함한다. 실행가능 명령어들(904)은 본 명세서에 설명된 방법들, 컴포넌트들 등의 구현을 포함하는, 소프트웨어 아키텍처(906)의 실행가능 명령어들을 나타낸다. 하드웨어 계층(952)은 메모리 또는 스토리지 모듈들인 메모리/스토리지(956)를 또한 포함하고, 이들도 실행가능 명령어들(904)을 갖는다. 하드웨어 계층(952)은 다른 하드웨어(958)를 또한 포함할 수 있다.
본 명세서에서 사용된 "컴포넌트"라는 용어는, 함수 또는 서브루틴 호출, 분기 포인트, 애플리케이션 프로그램 인터페이스(API), 또는 특정한 처리 또는 제어 기능의 분할 또는 모듈화를 제공하는 다른 기술들에 의해 정의된 경계들을 갖는 디바이스, 물리적 엔티티 또는 로직을 지칭할 수 있다. 컴포넌트들은 그들의 인터페이스를 통해 다른 컴포넌트들과 결합되어 머신 프로세스를 실행할 수 있다. 컴포넌트는, 보통 관련된 기능들 중 특정한 기능을 수행하는 프로그램의 일부 및 다른 컴포넌트들과 함께 사용되도록 설계된 패키징된 기능 하드웨어 유닛일 수 있다.
컴포넌트들은 소프트웨어 컴포넌트들(예를 들어, 머신-판독가능 매체 상에 구현된 코드) 또는 하드웨어 컴포넌트들 중 어느 하나를 구성할 수 있다. "하드웨어 컴포넌트"는 특정 동작들을 수행할 수 있는 유형 유닛이고, 특정 물리적 방식으로 구성되거나 배열될 수 있다. 다양한 예시적인 실시예들에서, 하나 이상의 컴퓨터 시스템(예를 들어, 독립형 컴퓨터 시스템, 클라이언트 컴퓨터 시스템, 또는 서버 컴퓨터 시스템) 또는 컴퓨터 시스템의 하나 이상의 하드웨어 컴포넌트(예를 들어, 프로세서 또는 프로세서들의 그룹)는 본 명세서에 설명된 바와 같이 특정 동작들을 수행하기 위해 동작하는 하드웨어 컴포넌트로서 소프트웨어(예를 들어, 애플리케이션 또는 애플리케이션 부분)에 의해 구성될 수 있다. 하드웨어 컴포넌트는 또한, 기계적으로, 전자적으로, 또는 이들의 임의의 적합한 조합으로 구현될 수 있다. 예를 들어, 하드웨어 컴포넌트는 특정 동작들을 수행하도록 영구적으로 구성된 전용 회로 또는 로직을 포함할 수 있다.
하드웨어 컴포넌트는, FPGA(Field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 특수 목적 프로세서일 수 있다. 하드웨어 컴포넌트는 특정 동작들을 수행하기 위해 소프트웨어에 의해 일시적으로 구성되는 프로그래밍 가능한 로직 또는 회로를 또한 포함할 수 있다. 예를 들어, 하드웨어 컴포넌트는 범용 프로세서 또는 다른 프로그래밍 가능한 프로세서에 의해 실행되는 소프트웨어를 포함할 수 있다. 일단 그러한 소프트웨어에 의해 구성되면, 하드웨어 컴포넌트들은 구성된 기능들을 수행하도록 고유하게 맞춤화된 특정 머신들(또는 머신의 특정 컴포넌트들)이 되고 더 이상 범용 프로세서들이 아니다. 하드웨어 컴포넌트를 기계적으로, 전용의 영구적으로 구성된 회로에, 또는 일시적으로 구성된 회로(예를 들어, 소프트웨어에 의해 구성됨)에 구현하기로 하는 결정은 비용 및 시간 고려사항들에 의해 주도될 수 있다는 것을 인식할 것이다.
프로세서는 제어 신호들(예를 들어, "명령들", "op 코드들", "머신 코드" 등)에 따라 데이터 값들을 조작하고 머신을 동작시키기 위해 적용되는 대응하는 출력 신호들을 생성하는 임의의 회로 또는 가상 회로(실제 프로세서 상에서 실행되는 로직에 의해 에뮬레이트되는 물리 회로)일 수 있거나, 이를 포함할 수 있다. 프로세서는, 예를 들어, CPU(Central Processing Unit), RISC(Reduced Instruction Set Computing) 프로세서, CISC(Complex Instruction Set Computing) 프로세서, GPU(Graphics Processing Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), RFIC(Radio-Frequency Integrated Circuit), 또는 이들의 임의의 조합일 수 있다. 프로세서는 또한, 명령어들을 동시에 실행할 수 있는 둘 이상의 독립 프로세서(때때로 "코어"라고도 지칭됨)를 갖는 멀티-코어 프로세서일 수 있다.
따라서, "하드웨어 컴포넌트"(또는 "하드웨어-구현된 컴포넌트")라는 구문은, 유형 엔티티, 즉, 특정 방식으로 동작하거나 본 명세서에 설명된 특정 동작들을 수행하도록 물리적으로 구성되거나, 영구적으로 구성되거나(예를 들어, 하드와이어드) 또는 일시적으로 구성되는(예를 들어, 프로그래밍되는) 엔티티를 포괄하는 것으로 이해해야 한다. 하드웨어 컴포넌트들이 일시적으로 구성되는(예를 들어, 프로그래밍되는) 실시예들을 고려할 때, 하드웨어 컴포넌트들 각각이 임의의 하나의 시간 인스턴스에서 구성 또는 인스턴스화될 필요는 없다. 예를 들어, 하드웨어 컴포넌트가 특수 목적 프로세서가 되도록 소프트웨어에 의해 구성된 범용 프로세서를 포함하는 경우에, 범용 프로세서는 상이한 시간들에서(예를 들어, 상이한 하드웨어 컴포넌트들을 포함하는) 각각 상이한 특수 목적 프로세서들로서 구성될 수 있다. 따라서 소프트웨어는 예를 들어, 하나의 시간 인스턴스에서는 특정한 하드웨어 컴포넌트를 구성하고 상이한 시간 인스턴스에서는 상이한 하드웨어 컴포넌트를 구성하도록 특정한 프로세서 또는 프로세서들을 구성한다. 하드웨어 컴포넌트들은 다른 하드웨어 컴포넌트들에 정보를 제공하고 그들로부터 정보를 수신할 수 있다. 따라서, 설명된 하드웨어 컴포넌트들은 통신가능하게 결합되어 있는 것으로 간주될 수 있다. 다수의 하드웨어 컴포넌트가 동시에 존재하는 경우에, 하드웨어 컴포넌트들 중 둘 이상 사이의 또는 그들 사이의(예를 들어, 적절한 회로들 및 버스들을 통한) 신호 송신을 통해 통신이 달성될 수 있다. 다수의 하드웨어 컴포넌트가 상이한 시간들에서 구성되거나 인스턴스화되는 실시예들에서, 그러한 하드웨어 컴포넌트들 사이의 통신은, 예를 들어, 다수의 하드웨어 컴포넌트가 액세스할 수 있는 메모리 구조들 내의 정보의 스토리지 및 검색을 통해 달성될 수 있다.
예를 들어, 하나의 하드웨어 컴포넌트는 동작을 수행하고, 그에 통신가능하게 결합되는 메모리 디바이스에 그 동작의 출력을 저장할 수 있다. 그 후 추가의 하드웨어 컴포넌트가, 나중에, 저장된 출력을 검색 및 처리하기 위해 메모리 디바이스에 액세스할 수 있다. 하드웨어 컴포넌트들은 또한 입력 또는 출력 디바이스들과 통신을 개시할 수 있고, 리소스(예를 들어, 정보의 컬렉션)를 조작할 수 있다. 본 명세서에 설명된 예시적인 방법들의 다양한 동작은 관련 동작들을 수행하도록 일시적으로 구성되거나(예를 들어, 소프트웨어에 의해) 영구적으로 구성되는 하나 이상의 프로세서에 의해 적어도 부분적으로 수행될 수 있다. 일시적으로 구성되는 영구적으로 구성되든 간에, 그러한 프로세서들은 본 명세서에 설명된 하나 이상의 동작 또는 기능을 수행하도록 동작하는 프로세서-구현된 컴포넌트들을 구성할 수 있다. 본 명세서에서 사용된, "프로세서-구현된 컴포넌트"란 하나 이상의 프로세서를 이용하여 구현된 하드웨어 컴포넌트를 지칭한다. 유사하게, 본 명세서에 설명된 방법들은 적어도 부분적으로 프로세서-구현될 수 있고, 특정한 프로세서 또는 프로세서들은 하드웨어의 예이다. 예를 들어, 방법의 동작들 중 적어도 일부가 하나 이상의 프로세서 또는 프로세서-구현된 컴포넌트에 의해 수행될 수 있다.
더욱이, 하나 이상의 프로세서는 또한 "클라우드 컴퓨팅" 환경에서 또는 "서비스로서의 소프트웨어(software as a service)"(SaaS)로서 관련 동작들의 수행을 지원하도록 동작할 수 있다. 예를 들어, 동작들 중 적어도 일부는 (프로세서들을 포함하는 머신들의 예들로서) 컴퓨터들의 그룹에 의해 수행될 수 있고, 이들 동작은 네트워크(예를 들어, 인터넷)를 통해 그리고 하나 이상의 적절한 인터페이스(예를 들어, 애플리케이션 프로그램 인터페이스(API))를 통해 액세스 가능하다. 동작들 중 특정한 것의 수행은 단일 머신 내에 존재할 뿐만 아니라, 다수의 머신에 걸쳐 배치되는, 프로세서들 사이에 분산될 수 있다. 일부 예시적인 실시예들에서, 프로세서들 또는 프로세서-구현된 컴포넌트들은 단일의 지리적 위치(예를 들어, 가정 환경, 사무실 환경, 또는 서버 팜(server farm) 내)에 위치할 수 있다. 다른 예시적인 실시예들에서, 프로세서들 또는 프로세서-구현된 컴포넌트들은 다수의 지리적 위치에 걸쳐 분산될 수 있다.
도 9의 예시적인 아키텍처에서, 소프트웨어 아키텍처(906)는, 각각의 계층이 특정한 기능성을 제공하는, 계층들의 스택으로서 개념화될 수 있다. 예를 들어, 소프트웨어 아키텍처(906)는 운영 체제(902), 라이브러리들(920), 애플리케이션들(916) 및 프레젠테이션 계층(914)과 같은 계층들을 포함할 수 있다. 동작중에, 애플리케이션들(916) 또는 계층들 내의 다른 컴포넌트들은 소프트웨어 스택을 통해 애플리케이션 프로그래밍 인터페이스(API) API 호출들(908)을 기동시키고 API 호출들(908)에 응답하여 메시지들(912)을 수신할 수 있다. 예시된 계층들은 본질적으로 대표적인 것이며 소프트웨어 아키텍처들 모두가 모든 계층들을 갖는 것은 아니다. 예를 들어, 일부 모바일 또는 특수 목적 운영 체제들은 프레임워크들/미들웨어(918)를 제공하지 않을 수도 있지만, 다른 것들은 그러한 계층을 제공할 수도 있다. 다른 소프트웨어 아키텍처들은 추가의 또는 상이한 계층들을 포함할 수 있다.
운영 체제(902)는 하드웨어 리소스들을 관리하고 공통 서비스들을 제공할 수도 있다. 운영 체제(902)는, 예를 들어, 커널(922), 서비스들(924), 및 드라이버들(926)을 포함할 수 있다. 커널(922)은 하드웨어와 다른 소프트웨어 계층들 간에 추상화 계층(abstraction layer)으로서 역할을 할 수 있다. 예를 들어, 커널(922)은 메모리 관리, 프로세서 관리(예를 들어, 스케줄링), 컴포넌트 관리, 네트워킹, 보안 설정 등을 담당할 수 있다. 서비스들(924)은 다른 소프트웨어 계층들을 위한 다른 공통 서비스들을 제공할 수 있다. 드라이버들(926)은 기본 하드웨어(underlying hardware)를 제어하거나 그와 인터페이싱하는 것을 담당한다. 예를 들어, 드라이버들(926)은 하드웨어 구성에 따라 디스플레이 드라이버, 카메라 드라이버, Bluetooth® 드라이버, 플래시 메모리 드라이버, 직렬 통신 드라이버(예를 들어, 범용 직렬 버스(USB) 드라이버), Wi-Fi® 드라이버, 오디오 드라이버, 전력 관리 드라이버 등을 포함한다.
라이브러리들(920)은 애플리케이션들(916) 또는 다른 컴포넌트들 또는 계층들에 의해 사용되는 공통 인프라스트럭처를 제공한다. 라이브러리들(920)은 다른 소프트웨어 컴포넌트들이 기본 운영 체제(902) 기능성(예를 들어, 커널(922), 서비스들(924) 또는 드라이버들(926))과 직접 인터페이스하는 것보다 더 쉬운 방식으로 작업들을 수행할 수 있게 하는 기능성을 제공한다. 라이브러리들(920)은 메모리 할당 기능들, 문자열 조작 기능들, 수학 기능들 등과 같은 기능들을 제공할 수 있는 시스템 라이브러리들(944)(예를 들어, C 표준 라이브러리)를 포함할 수 있다. 게다가, 라이브러리들(920)은 미디어 라이브러리들(예를 들어, MPREG4, H.264, MP3, AAC, AMR, JPG, PNG와 같은 다양한 미디어 포맷의 프레젠테이션 및 조작을 지원하기 위한 라이브러리들), 그래픽 라이브러리들(예를 들어, 디스플레이 상의 그래픽 콘텐츠에서 2D 및 3D를 렌더링하는 데 사용될 수 있는 OpenGL 프레임워크), 데이터베이스 라이브러리들(예를 들어, 다양한 관계형 데이터베이스 기능들을 제공할 수 있는 SQLite), 웹 라이브러리들(예를 들어, 웹 브라우징 기능성을 제공할 수 있는 WebKit) 등과 같은 API 라이브러리들(946)을 포함할 수 있다. 라이브러리들(920)은 많은 다른 API들을 애플리케이션(916) 및 다른 소프트웨어 컴포넌트들/모듈들에 제공하는 매우 다양한 다른 라이브러리들(948)을 또한 포함할 수 있다.
프레임워크들/미들웨어(918)(때때로 미들웨어라고도 지칭됨)는 애플리케이션들(916) 또는 다른 소프트웨어 컴포넌트들/모듈들에 의해 사용될 수 있는 더 하이-레벨의 공통 인프라스트럭처를 제공한다. 예를 들어, 프레임워크들/미들웨어(918)는 다양한 그래픽 사용자 인터페이스(GUI) 기능들, 하이-레벨 리소스 관리, 하이-레벨 위치 서비스들 등을 제공할 수 있다. 프레임워크들/미들웨어(918)는 애플리케이션들(916) 또는 다른 소프트웨어 컴포넌트들/모듈들에 의해 이용될 수 있는 광범위한 스펙트럼의 다른 API들을 제공할 수 있고, 그 중 일부는 특정 운영 체제(902) 또는 플랫폼에 특정할 수 있다.
애플리케이션들(916)은 빌트인 애플리케이션들(938) 또는 제3자 애플리케이션들(940)을 포함한다. 대표적인 빌트인 애플리케이션(938)의 예들은, 연락처 애플리케이션, 브라우저 애플리케이션, 북 리더 애플리케이션, 위치 애플리케이션, 미디어 애플리케이션, 메시징 애플리케이션, 또는 게임 애플리케이션을 포함할 수 있지만, 이들로 제한되지 않는다. 제3자 애플리케이션(940)은 특정 플랫폼의 벤더 이외의 엔티티에 의해 ANDROID™ 또는 IOS™ 소프트웨어 개발 키트(SDK)를 이용하여 개발된 애플리케이션을 포함할 수 있고, IOS™, ANDROID™, WINDOWS® Phone, 또는 다른 모바일 운영 체제들과 같은 모바일 운영 체제 상에서 실행되는 모바일 소프트웨어일 수 있다. 제3자 애플리케이션들(940)은 본 명세서에 설명된 기능성을 용이하게 하기 위해 모바일 운영 체제(예컨대 운영 체제(902))에 의해 제공되는 API 호출들(908)을 기동시킬 수 있다.
애플리케이션들(916)은 시스템의 사용자들과 상호작용하기 위한 사용자 인터페이스들을 생성하기 위해 빌트인 운영 체제 기능들(예를 들어, 커널(922), 서비스들(924) 또는 드라이버들(926)), 라이브러리들(920), 및 프레임워크들/미들웨어(918)를 사용할 수 있다. 대안적으로 또는 추가적으로, 일부 시스템들에서, 사용자와의 상호작용은 프레젠테이션 계층(914)과 같은 프레젠테이션 계층을 통해 발생할 수 있다. 이들 시스템에서, 애플리케이션/컴포넌트 "로직"은 사용자와 상호작용하는 애플리케이션/컴포넌트의 양태들로부터 분리될 수 있다.
도 10은 머신-판독가능 매체(예를 들어, 머신-판독가능 스토리지 매체)로부터의 명령어들을 판독하고 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행할 수 있는, 일부 예시적인 실시예들에 따른, 머신(1000)의 컴포넌트들(본 명세서에서 "모듈들"이라고도 지칭됨)을 예시하는 블록도이다. 구체적으로, 도 10은 컴퓨터 시스템의 예시적인 형태의 머신(1000)의 도식적 표현을 나타내는 것으로, 그 안에서 머신(1000)으로 하여금 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하게 하기 위한 명령어들(1010)(예를 들어, 소프트웨어, 프로그램, 애플리케이션, 애플릿(applet), 앱, 또는 다른 실행가능 코드)이 실행될 수 있다. 그에 따라, 명령어들(1010)은 본 명세서에 설명된 모듈들 또는 컴포넌트들을 구현하기 위해 사용될 수 있다. 명령어들(1010)은, 일반적인 비-프로그래밍된 머신(1000)을, 설명되고 예시된 기능들을 설명된 방식으로 수행하도록 프로그래밍된 특정한 머신(1000)으로 변환한다. 대안적인 실시예들에서, 머신(1000)은 독립형 디바이스로서 동작하거나 다른 머신들에 결합(예를 들어, 네트워킹)될 수 있다. 네트워킹된 배치에서, 머신(1000)은 서버-클라이언트 네트워크 환경에서 서버 머신 또는 클라이언트 머신의 자격으로 동작하거나, 피어-투-피어(또는 분산형) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신(1000)은, 서버 컴퓨터, 클라이언트 컴퓨터, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 랩톱 컴퓨터, 넷북, 셋톱 박스(STB), 개인 휴대 정보 단말기(PDA), 엔터테인먼트 미디어 시스템, 셀룰러 폰, 스마트폰, 모바일 디바이스, 웨어러블 디바이스(예를 들어, 스마트 시계), 스마트 홈 디바이스(예를 들어, 스마트 어플라이언스), 다른 스마트 디바이스들, 웹 어플라이언스, 네트워크 라우터, 네트워크 스위치, 네트워크 브리지, 또는 머신(1000)에 의해 취해질 액션들을 지정하는 명령어들(1010)을 순차적으로 또는 다른 방식으로 실행할 수 있는 임의의 머신을 포함할 수 있지만, 이들로 제한되지 않는다. 또한, 단일 머신(1000)만이 예시되어 있지만, "머신"이라는 용어는 또한 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하기 위해 명령어들(1010)을 개별적으로 또는 공동으로 실행하는 머신들의 컬렉션을 포함하는 것으로 간주되어야 한다.
머신(1000)은, 예컨대 버스(1002)를 통해 서로 통신하도록 구성될 수 있는, 프로세서들(1004), 메모리 메모리/스토리지(1006), 및 I/O 컴포넌트들(1018)을 포함할 수 있다. 메모리/스토리지(1006)는 메인 메모리, 또는 다른 메모리 스토리지와 같은 메모리(1014), 및 스토리지 유닛(1016)을 포함할 수 있고, 이 둘 다 예컨대 버스(1002)를 통해 프로세서들(1004)이 액세스할 수 있다. 스토리지 유닛(1016) 및 메모리(1014)는 본 명세서에 설명된 방법론들 또는 기능들 중 임의의 하나 이상을 구현하는 명령어들(1010)을 저장한다. 명령어들(1010)은 또한, 머신(1000)에 의한 그의 실행 동안, 완전히 또는 부분적으로, 메모리(1014) 내에, 스토리지 유닛(1016) 내에, 프로세서들(1004) 중 적어도 하나 내에(예를 들어, 프로세서의 캐시 메모리 내에), 또는 이들의 임의의 적합한 조합으로 존재할 수 있다. 따라서, 메모리(1014), 스토리지 유닛(1016), 및 프로세서들(1004)의 메모리는 머신-판독가능 매체의 예들이다.
본 명세서에서 사용된, "머신-판독가능 매체", "컴퓨터-판독가능 매체" 등의 용어는 명령어들 및 데이터를 일시적으로 또는 영구적으로 저장할 수 있는 임의의 컴포넌트, 디바이스 또는 다른 유형 매체를 지칭할 수 있다. 그러한 매체들의 예들은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 버퍼 메모리, 플래시 메모리, 광학 매체, 자기 매체, 캐시 메모리, 다른 유형의 스토리지(예를 들어, 소거가능하고 프로그래밍 가능한 판독 전용 메모리(EEPROM)) 또는 이들의 임의의 적합한 조합을 포함할 수 있지만, 이들로 제한되지 않는다. "머신-판독가능 매체"라는 용어는, 명령어를 저장할 수 있는 단일의 매체 또는 다수의 매체(예를 들어, 중앙집중형 또는 분산형 데이터베이스, 또는 연관된 캐시 및 서버)를 포함하는 것으로 간주되어야 한다. "머신-판독가능 매체"라는 용어는 또한, 명령어들이, 머신의 하나 이상의 프로세서에 의해 실행될 때, 머신으로 하여금 본 명세서에 설명된 방법론들 중 임의의 하나 이상을 수행하게 하도록, 머신에 의한 실행을 위한 명령어(예를 들어, 코드)를 저장할 수 있는 임의의 매체, 또는 다수의 매체의 조합을 포함하는 것으로 간주될 수 있다. 따라서, "머신-판독가능 매체"란 단일 스토리지 장치 또는 디바이스뿐만 아니라, 다수의 스토리지 장치 또는 디바이스를 포함하는"클라우드-기반" 스토리지 시스템들 또는 스토리지 네트워크들을 지칭할 수 있다. "머신-판독가능 매체"라는 용어는 신호 그 자체를 제외한다.
I/O 컴포넌트들(1018)은, 입력을 수신하고, 출력을 제공하고, 출력을 생성하고, 정보를 송신하고, 정보를 교환하고, 측정들을 캡처하는 등을 수행하기 위한 사용자 인터페이스를 제공하는 매우 다양한 컴포넌트들을 포함할 수 있다. 특정한 머신(1000)의 사용자 인터페이스에 포함되는 특정 I/O 컴포넌트들(1018)은 머신의 유형에 의존할 것이다. 예를 들어, 모바일 폰과 같은 휴대용 머신은 아마 터치 입력 디바이스 또는 다른 그러한 입력 메커니즘을 포함할 것인 반면, 헤드리스 서버 머신(headless server machine)은 아마 그러한 터치 입력 디바이스를 포함하지 않을 것이다. I/O 컴포넌트들(1018)은 도 10에 도시되지 않은 많은 다른 컴포넌트들을 포함할 수 있다는 것을 인식할 것이다. I/O 컴포넌트들(1018)은 단지 이하의 논의를 간소화하기 위해 기능성에 따라 그룹화되어 있고, 이러한 그룹화는 결코 제한적인 것이 아니다. 다양한 예시적인 실시예들에서, I/O 컴포넌트들(1018)은 출력 컴포넌트들(1026) 및 입력 컴포넌트들(1028)을 포함할 수 있다. 출력 컴포넌트들(1026)은, 시각적 컴포넌트들(예를 들어, 플라즈마 디스플레이 패널(PDP), 발광 다이오드(LED) 디스플레이, 액정 디스플레이(LCD), 프로젝터, 또는 음극선관(CRT)과 같은 디스플레이), 음향 컴포넌트들(예를 들어, 스피커), 햅틱 컴포넌트들(예를 들어, 진동 모터, 저항 메커니즘), 다른 신호 생성기 등을 포함할 수 있다. 입력 컴포넌트들(1028)은, 영숫자 입력 컴포넌트들(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성된 터치 스크린, 포토-광학 키보드, 또는 다른 영숫자 입력 컴포넌트), 포인트 기반 입력 컴포넌트들(예를 들어, 마우스, 터치패드, 트랙볼, 조이스틱, 모션 센서, 또는 다른 포인팅 기구), 촉각 입력 컴포넌트들(예를 들어, 물리적 버튼, 터치 또는 터치 제스처의 위치 또는 힘을 제공하는 터치 스크린, 또는 다른 촉각 입력 컴포넌트), 오디오 입력 컴포넌트들(예를 들어, 마이크로폰) 등을 포함할 수 있다. 입력 컴포넌트들(1028)은 디지털 이미지들 또는 비디오를 생성하기 위한 디지털 카메라와 같은 하나 이상의 이미지 캡처링 디바이스들을 또한 포함할 수 있다.
추가의 예시적인 실시예들에서, I/O 컴포넌트들(1018)은 바이오메트릭 컴포넌트들(1030), 모션 컴포넌트들(1034), 환경 환경 컴포넌트들(1036), 또는 포지션 컴포넌트들(1038)뿐만 아니라, 광범위한 다른 컴포넌트들을 포함할 수 있다. 그러한 컴포넌트들(또는 그의 부분들) 중 하나 이상은 본 명세서에서 집합적으로 머신(1000), 머신(1000)의 환경, 머신(1000)의 사용자, 또는 이들의 조합들과 관련된 다양한 데이터를 수집하기 위한 "센서 컴포넌트" 또는 "센서"로서 지칭될 수 있다.
예를 들어, 바이오메트릭 컴포넌트들(1030)은, 표현들(예를 들어, 손 표현, 얼굴 표정, 음성 표현, 신체 제스처, 또는 시선 추적)을 검출하고, 생체신호들(예를 들어, 혈압, 심박수, 체온, 땀 또는 뇌파)을 측정하고, 사람을 식별(예를 들어, 음성 식별, 망막 식별, 얼굴 식별, 지문 식별, 또는 뇌전도 기반 식별)하는 등의 컴포넌트들을 포함할 수 있다. 모션 컴포넌트들(1034)은 가속 센서 컴포넌트들(예를 들어, 가속도계), 중력 센서 컴포넌트들, 속도 센서 컴포넌트들(예를 들어, 속도계), 회전 센서 컴포넌트들(예를 들어, 자이로스코프) 등을 포함할 수 있다. 환경 컴포넌트들(1036)은, 예를 들어, 조명 센서 컴포넌트들(예를 들어, 광도계), 온도 센서 컴포넌트들(예를 들어, 주위 온도를 검출하는 하나 이상의 온도계), 습도 센서 컴포넌트들, 압력 센서 컴포넌트들(예를 들어, 기압계), 음향 센서 컴포넌트들(예를 들어, 배경 노이즈를 검출하는 하나 이상의 마이크로폰), 근접 센서 컴포넌트들(예를 들어, 인근 객체들을 검출하는 적외선 센서들), 가스 센서들(예를 들어, 안전을 위해 유해성 가스들의 농도들을 검출하거나 대기 내의 오염물질들을 측정하기 위한 가스 검출 센서들), 또는 주변 물리적 환경에 대응하는 표시들, 측정들, 또는 신호들을 제공할 수 있는 다른 컴포넌트들을 포함할 수 있다. 포지션 컴포넌트들(1038)은, 위치 센서 컴포넌트들(예를 들어, GPS(Global Position System) 수신기 컴포넌트), 고도 센서 컴포넌트들(예를 들어, 고도계 또는 고도가 도출될 수 있는 기압을 검출하는 기압계), 방위 센서 컴포넌트들(예를 들어, 자력계) 등을 포함할 수 있다. 예를 들어, 위치 센서 컴포넌트는 시스템(1000)과 연관된 위치 정보, 예컨대 시스템(1000)의 GPS 좌표 또는 시스템(1000)이 현재 존재하는 위치에 관한 정보(예를 들어, 레스토랑 또는 다른 비즈니스의 명칭)를 제공할 수 있다.
통신은 매우 다양한 기술들을 사용하여 구현될 수 있다. I/O 컴포넌트들(1018)은 머신(1000)을 결합(1022) 및 결합(1024)을 통해 각각 네트워크(1032) 또는 디바이스들(1020)에 결합하도록 동작가능한 통신 컴포넌트들(1040)을 포함할 수 있다. 예를 들어, 통신 컴포넌트(1040)는, 네트워크 인터페이스 컴포넌트, 또는 네트워크(1032)와 인터페이스하기 위한 다른 적합한 디바이스를 포함할 수 있다. 추가 예들에서, 통신 컴포넌트들(1040)은 유선 통신 컴포넌트, 무선 통신 컴포넌트, 셀룰러 통신 컴포넌트, 근거리 무선 통신(NFC) 컴포넌트, Bluetooth® 컴포넌트(예를 들어, Bluetooth® Low Energy), Wi-Fi® 컴포넌트, 및 다른 양태들을 통해 통신을 제공하는 다른 통신 컴포넌트들을 포함할 수 있다. 디바이스들(1020)은 다른 머신 또는 매우 다양한 주변 디바이스들 중 임의의 것(예를 들어, 범용 직렬 버스(USB)를 통해 결합된 주변 디바이스)일 수 있다.
더욱이, 통신 컴포넌트들(1040)은 식별자들을 검출할 수 있거나 식별자들을 검출하도록 동작가능한 컴포넌트들을 포함할 수 있다. 예를 들어, 통신 컴포넌트들(1040)은 RFID(Radio Frequency Identification) 태그 판독기 컴포넌트들, NFC 스마트 태그 검출 컴포넌트들, 광학 판독기 컴포넌트들(예를 들어, UPC(Universal Product Code) 바 코드와 같은 1-차원 바 코드들, QR(Quick Response) 코드와 같은 다-차원 바 코드들, Aztec 코드, Data Matrix, Dataglyph, MaxiCode, PDF417, Ultra Code, UCC RSS-2D 바 코드, 및 다른 광학 코드들을 검출하기 위한 광학 센서), 또는 음향 검출 컴포넌트들(예를 들어, 태깅된 오디오 신호들을 식별하기 위한 마이크로폰들)을 포함할 수 있다. 게다가, 인터넷 프로토콜(IP) 지오-로케이션을 통한 위치, Wi-Fi® 신호 삼각측량을 통한 위치, 특정 위치를 나타낼 수 있는 NFC 비컨 신호 검출을 통한 위치 등과 같은, 다양한 정보가 통신 컴포넌트들(1040)을 통해 도출될 수 있다.
"A, B, 또는 C 중 적어도 하나", "A, B, 및 C 중 적어도 하나", "A, B, 또는 C 중 하나 이상", 또는 "A, B, 및 C 중 하나 이상"과 유사한 구문이 사용되는 경우, 이는 그 구문이 실시예에서 A만이 존재할 수 있다는 것, 실시예에서 B만이 존재할 수 있다는 것, 실시예에서 C만이 존재할 수 있다는 것, 또는 단일 실시예에서 요소 A, B, 및 C의 임의의 조합이 존재할 수 있다는 것; 예를 들어, A 및 B, A 및 C, B 및 C, 또는 A 및 B 및 C를 의미하는 것으로 해석될 수 있다는 것이 의도된다.
본 개시내용의 범위를 벗어나지 않고 개시된 실시예들에 대한 변경들 및 수정들이 이루어질 수 있다. 이들 및 다른 변경들 또는 수정들은 다음의 청구항들에서 표현된 바와 같은, 본 개시내용의 범위 내에 포함되는 것으로 의도된다.

Claims (20)

  1. 음향 주밍을 수행하기 위한 시스템으로서,
    복수의 음향 신호와 연관된 비디오 콘텐츠의 복수의 타일에 대응하는 복수의 빔포머 신호를 생성하는 복수의 빔포머 - 상기 빔포머들 각각은 상기 타일들 각각의 중심에 지향됨 -; 및
    타깃 강화기 - 상기 타깃 강화기는,
    상기 비디오 콘텐츠의 줌 영역에 포함되는 적어도 부분들을 갖는 타일들을 식별하고,
    상기 식별된 타일들에 대응하는 상기 빔포머 신호들을 선택하며,
    상기 선택된 빔포머 신호들을 조합하여 상기 줌 영역과 연관된 타깃 강화된 신호를 생성함 -
    를 포함하는 시스템.
  2. 제1항에 있어서,
    상기 타깃 강화기는,
    상기 줌 영역에 관하여 상기 식별된 타일들 각각에 대한 비율들을 결정하고,
    상기 비율들에 기초하여 상기 선택된 빔포머 신호들을 조합하여 상기 타깃 강화된 신호를 생성하도록 더 구성되는, 시스템.
  3. 제2항에 있어서,
    상기 타깃 강화기는,
    상기 비율들에 기초하여 상기 선택된 빔포머 신호들을 스펙트럼적으로 가산하도록 더 구성되는, 시스템.
  4. 제1항에 있어서,
    상기 복수의 음향 신호를 수신하여 잡음 기준 신호를 생성하는 신경망
    을 더 포함하고,
    복수의 빔포머는 상기 잡음 기준 신호를 수신하고 상기 복수의 음향 신호 및 상기 잡음 기준 신호를 이용하여 상기 복수의 빔포머 신호를 생성하는, 시스템.
  5. 제1항에 있어서,
    상기 복수의 음향 신호를 수신하고 상기 복수의 음향 신호를 시간 도메인으로부터 주파수 도메인으로 변환시키는 시간-주파수 변환기; 및
    상기 타깃 강화된 신호를 수신하고 상기 타깃 강화된 신호를 주파수 도메인으로부터 시간 도메인으로 변환시키는 주파수-시간 변환기
    를 더 포함하는 시스템.
  6. 제1항에 있어서,
    상기 비디오 콘텐츠를 캡처하는 카메라
    를 더 포함하는 시스템.
  7. 제1항에 있어서,
    상기 비디오 콘텐츠의 타일들은 적어도 10도의 각도 폭을 갖는 동등한 형상의 타일들인, 시스템.
  8. 음향 주밍을 수행하기 위한 방법으로서,
    프로세서에 의해, 복수의 빔포머로 하여금 비디오 콘텐츠와 연관된 복수의 음향 신호를 이용하여 복수의 빔포머 신호를 생성하게 하는 단계 - 상기 빔포머 신호들은 상기 비디오 콘텐츠의 복수의 타일에 대응하고, 상기 빔포머들 각각은 상기 타일들 각각의 중심에 지향됨 -;
    상기 비디오 콘텐츠의 줌 영역에 포함되는 적어도 부분들을 갖는 타일들을 식별하는 단계;
    상기 식별된 타일들에 대응하는 상기 빔포머 신호들을 선택하는 단계; 및
    상기 선택된 빔포머 신호들을 조합하여 상기 줌 영역과 연관된 타깃 강화된 신호를 생성하는 단계
    를 포함하는 방법.
  9. 제8항에 있어서,
    상기 줌 영역에 관하여 상기 식별된 타일들 각각에 대한 비율들을 결정하는 단계; 및
    상기 비율들에 기초하여 상기 선택된 빔포머 신호들을 조합하여 상기 타깃 강화된 신호를 생성하는 단계
    를 더 포함하는 방법.
  10. 제9항에 있어서,
    상기 비율들에 기초하여 상기 선택된 빔포머 신호들을 스펙트럼적으로 가산하는 단계
    를 더 포함하는 방법.
  11. 제8항에 있어서,
    신경망에 의해, 상기 복수의 음향 신호를 이용하여 잡음 기준 신호를 생성하는 단계; 및
    상기 빔포머들을 이용하여, 상기 복수의 음향 신호 및 상기 잡음 기준 신호를 이용하여 상기 복수의 빔포머 신호를 생성하는 단계
    를 더 포함하는 방법.
  12. 제8항에 있어서,
    상기 비디오 콘텐츠의 타일들은 적어도 10도의 각도 폭을 갖는 동등한 형상의 타일들인, 방법.
  13. 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 동작들을 수행하게 하는 명령어들이 저장된 컴퓨터-판독가능 스토리지 매체로서, 상기 동작들은:
    복수의 빔포머로 하여금 비디오 콘텐츠와 연관된 복수의 음향 신호를 이용하여 복수의 빔포머 신호를 생성하게 하는 것 - 상기 빔포머 신호들은 상기 비디오 콘텐츠의 복수의 타일에 대응하고, 상기 빔포머들 각각은 상기 타일들 각각의 중심에 지향됨 -;
    상기 비디오 콘텐츠의 줌 영역에 포함되는 적어도 부분들을 갖는 타일들을 식별하는 것;
    상기 식별된 타일들에 대응하는 상기 빔포머 신호들을 선택하는 것; 및
    상기 선택된 빔포머 신호들을 조합하여 상기 줌 영역과 연관된 타깃 강화된 신호를 생성하는 것
    을 포함하는, 컴퓨터-판독가능 스토리지 매체.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 줌 영역에 관하여 상기 식별된 타일들 각각에 대한 비율들을 결정하는 것; 및
    상기 비율들에 기초하여 상기 선택된 빔포머 신호들을 조합하여 상기 타깃 강화된 신호를 생성하는 것
    을 더 포함하는 동작들을 수행하는, 컴퓨터-판독가능 스토리지 매체.
  15. 제13항에 있어서,
    상기 프로세서는,
    신경망을 이용하여 상기 복수의 음향 신호에 기초하여 잡음 기준 신호를 생성하는 것
    을 더 포함하는 동작들을 수행하고,
    상기 복수의 빔포머 신호는 상기 복수의 음향 신호 및 상기 잡음 기준 신호를 이용하여 생성되는, 컴퓨터-판독가능 스토리지 매체.
  16. 제13항에 있어서,
    상기 프로세서는,
    상기 복수의 음향 신호를 시간 도메인으로부터 주파수 도메인으로 변환시키는 것; 및
    상기 타깃 강화된 신호를 주파수 도메인으로부터 시간 도메인으로 변환시키는 것
    을 더 포함하는 동작들을 수행하는, 컴퓨터-판독가능 스토리지 매체.
  17. 음향 주밍을 수행하기 위한 시스템으로서,
    복수의 음향 신호를 수신하는 복수의 빔포머 - 상기 복수의 빔포머는 타깃 빔포머 및 잡음 빔포머를 포함하고,
    상기 타깃 빔포머는 비디오 콘텐츠의 줌 영역에 대응하는 시야의 중심에 지향되고 타깃 빔포머 신호를 생성하고,
    상기 잡음 빔포머는 상기 시야의 중심에 지향된 널을 갖고, 잡음 빔포머 신호를 생성함 -; 및
    타깃 강화기 - 상기 타깃 강화기는,
    상기 비디오 콘텐츠의 줌 영역에 대응하는 시야를 결정하고,
    상기 타깃 빔포머 신호 및 상기 잡음 빔포머 신호를 이용하여 상기 비디오 콘텐츠의 줌 영역과 연관된 타깃 강화된 신호를 생성함 -
    를 포함하는 시스템.
  18. 제17항에 있어서,
    상기 타깃 강화된 신호를 생성하는 상기 타깃 강화기는 상기 타깃 강화된 신호로부터 상기 잡음 빔포머 신호를 스펙트럼적으로 감산하는 것을 포함하는, 시스템.
  19. 제17항에 있어서,
    상기 복수의 음향 신호를 수신하여 잡음 기준 신호를 생성하는 신경망
    을 더 포함하고,
    상기 복수의 빔포머는 상기 잡음 기준 신호를 수신하고 상기 복수의 음향 신호 및 상기 잡음 기준 신호를 이용하여 상기 타깃 빔포머 신호 및 상기 잡음 빔포머 신호를 생성하는, 시스템.
  20. 제17항에 있어서,
    상기 복수의 음향 신호를 수신하고 상기 복수의 음향 신호를 시간 도메인으로부터 주파수 도메인으로 변환시키는 시간-주파수 변환기; 및
    상기 타깃 강화된 신호를 수신하고 상기 타깃 강화된 신호를 주파수 도메인으로부터 시간 도메인으로 변환시키는 주파수-시간 변환기
    를 더 포함하는 시스템.
KR1020237024341A 2018-09-03 2019-08-30 음향 주밍 KR20230113831A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
IN201811032980 2018-09-03
IN201811032980 2018-09-03
PCT/US2019/049069 WO2020051086A1 (en) 2018-09-03 2019-08-30 Acoustic zooming
KR1020217009942A KR102557774B1 (ko) 2018-09-03 2019-08-30 음향 주밍

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217009942A Division KR102557774B1 (ko) 2018-09-03 2019-08-30 음향 주밍

Publications (1)

Publication Number Publication Date
KR20230113831A true KR20230113831A (ko) 2023-08-01

Family

ID=69721540

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237024341A KR20230113831A (ko) 2018-09-03 2019-08-30 음향 주밍
KR1020217009942A KR102557774B1 (ko) 2018-09-03 2019-08-30 음향 주밍

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020217009942A KR102557774B1 (ko) 2018-09-03 2019-08-30 음향 주밍

Country Status (5)

Country Link
US (2) US11189298B2 (ko)
EP (1) EP3847825A4 (ko)
KR (2) KR20230113831A (ko)
CN (2) CN114727193A (ko)
WO (1) WO2020051086A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114727193A (zh) 2018-09-03 2022-07-08 斯纳普公司 声学变焦
WO2021226507A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN115942108A (zh) * 2021-08-12 2023-04-07 北京荣耀终端有限公司 一种视频处理方法及电子设备
CN113676687A (zh) * 2021-08-30 2021-11-19 联想(北京)有限公司 一种信息处理方法及电子设备
US20240236562A9 (en) * 2022-10-24 2024-07-11 Cisco Technology, Inc. Field of view based audio selection

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4862278A (en) * 1986-10-14 1989-08-29 Eastman Kodak Company Video camera microphone with zoom variable acoustic focus
US8229134B2 (en) * 2007-05-24 2012-07-24 University Of Maryland Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
US8184180B2 (en) * 2009-03-25 2012-05-22 Broadcom Corporation Spatially synchronized audio and video capture
US9210503B2 (en) * 2009-12-02 2015-12-08 Audience, Inc. Audio zoom
CN102447993A (zh) 2010-09-30 2012-05-09 Nxp股份有限公司 声音场景操纵
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US9182486B2 (en) 2011-12-07 2015-11-10 Navico Holding As Sonar rendering systems and associated methods
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
EP2680616A1 (en) * 2012-06-25 2014-01-01 LG Electronics Inc. Mobile terminal and audio zooming method thereof
KR101951418B1 (ko) * 2012-06-25 2019-02-22 엘지전자 주식회사 이동 단말기 및 그의 오디오 줌잉방법
US9197962B2 (en) * 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
US9282399B2 (en) * 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize
US20170287499A1 (en) * 2014-09-05 2017-10-05 Thomson Licensing Method and apparatus for enhancing sound sources
US10284956B2 (en) 2015-06-27 2019-05-07 Intel Corporation Technologies for localized audio enhancement of a three-dimensional video
US9980042B1 (en) * 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
CN114727193A (zh) 2018-09-03 2022-07-08 斯纳普公司 声学变焦

Also Published As

Publication number Publication date
WO2020051086A1 (en) 2020-03-12
CN112956209B (zh) 2022-05-10
US20220108713A1 (en) 2022-04-07
US20210217432A1 (en) 2021-07-15
CN112956209A (zh) 2021-06-11
EP3847825A1 (en) 2021-07-14
EP3847825A4 (en) 2022-02-09
CN114727193A (zh) 2022-07-08
US11189298B2 (en) 2021-11-30
US11721354B2 (en) 2023-08-08
KR20210055066A (ko) 2021-05-14
KR102557774B1 (ko) 2023-07-21

Similar Documents

Publication Publication Date Title
KR102557774B1 (ko) 음향 주밍
KR102608630B1 (ko) 바이노럴 오디오를 생성하는 헤드-웨어러블 장치
KR20170097519A (ko) 음성 처리 방법 및 장치
US20220366926A1 (en) Dynamic beamforming to improve signal-to-noise ratio of signals captured using a head-wearable apparatus
US20210364281A1 (en) Localization and visualization of sound
US11974060B2 (en) Varied depth determination using stereo vision and phase detection auto focus (PDAF)
US11295172B1 (en) Object detection in non-perspective images
US11961251B2 (en) Continuous surface and depth estimation
US20230126255A1 (en) Processing of microphone signals required by a voice recognition system
US11281072B1 (en) Apparatus having a viewfinder mirror configuration

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E601 Decision to refuse application