KR20200063151A - 가상화된 오디오를 위한 스윗 스팟 어뎁테이션 - Google Patents

가상화된 오디오를 위한 스윗 스팟 어뎁테이션 Download PDF

Info

Publication number
KR20200063151A
KR20200063151A KR1020207009540A KR20207009540A KR20200063151A KR 20200063151 A KR20200063151 A KR 20200063151A KR 1020207009540 A KR1020207009540 A KR 1020207009540A KR 20207009540 A KR20207009540 A KR 20207009540A KR 20200063151 A KR20200063151 A KR 20200063151A
Authority
KR
South Korea
Prior art keywords
listener
audio
audio signals
circuit
sensor
Prior art date
Application number
KR1020207009540A
Other languages
English (en)
Inventor
구앙지 시
블라드 이오누트 우르사치
대경 노
데미스 조지 카트시아노스
안토니우스 칼커
페트로넬 비지오이
장-마크 조트
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20200063151A publication Critical patent/KR20200063151A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

본 명세서에서 논의되는 시스템들 및 방법들은 스윗 스팟 어뎁테이션에 의한 3차원 오디오 가상화를 제공할 수 있다. 일 예에서, 오디오 프로세서 회로는 청취 환경에서의 청취자 포지션에 관한 적어도 하나의 깊이 센서 또는 카메라로부터의 정보에 기초하여 스윗 스팟 어뎁테이션을 위한 오디오 신호들을 업데이트하는 데 사용될 수 있다.

Description

가상화된 오디오를 위한 스윗 스팟 어뎁테이션
[우선권의 주장] 본 특허 출원은 2017년 9월 1일자로 출원된 미국 가특허 출원 제62/553,453호에 대한 우선권의 이익을 주장하고, 이 미국 가특허 출원은 본 명세서에 그 전체가 참조로 포함된다.
오디오는 가전 제품들에서 콘텐츠가 풍부한 멀티미디어 경험을 제공하는 데 중요한 역할을 한다. 무선 연결성의 증가와 함께 가전 제품 디바이스들의 확장성 및 이동성은 사용자들에게 콘텐츠에의 즉각적인 액세스를 제공한다. 다양한 오디오 재생 시스템들은 헤드폰들 또는 라우드스피커(loudspeaker)들을 통한 플레이백(playback)을 위해 사용될 수 있다. 일부 예들에서, 오디오 프로그램 콘텐츠는, 예컨대 서라운드 사운드 또는 다른 다중-채널 구성들을 포함하는, 한 스테레오 쌍 초과의 오디오 신호들을 포함할 수 있다.
종래의 오디오 재생 시스템은 CD 플레이어, TV 튜너, 핸드헬드 미디어 플레이어, 또는 이와 유사한 것과 같은 다양한 오디오 또는 오디오/비디오 소스들로부터 디지털 또는 아날로그 오디오 소스 신호 정보를 수신할 수 있다. 오디오 재생 시스템은, 브로드캐스트 오디오 및/또는 비디오 신호들의 선택, 프로세싱, 및 라우팅에 전용되는 자동차 오디오 시스템 또는 홈 시어터 수신기를 포함할 수 있다. 오디오 출력 신호들은 스피커 시스템을 통한 플레이백을 위해 프로세싱 및 출력될 수 있다. 그러한 출력 신호들은, 헤드폰들 또는 한 쌍의 전방 라우드스피커들로 전송되는 2-채널 신호들, 또는 서라운드 사운드 플레이백을 위한 멀티-채널 신호들일 수 있다. 서라운드 사운드 플레이백을 위해, 오디오 재생 시스템은 멀티채널 디코더를 포함할 수도 있다.
오디오 재생 시스템은, 아날로그 오디오 소스들을 연결하기 위한 아날로그-디지털 컨버터(analog-to-digital converter)들, 또는 디지털 오디오 입력 인터페이스들과 같은 프로세싱 장비를 더 포함할 수 있다. 오디오 재생 시스템은 오디오 신호들을 프로세싱하기 위한 디지털 신호 프로세서뿐만 아니라, 프로세싱된 출력 신호들을, 트랜스듀서들로 전송되는 전기 신호들로 컨버팅하기 위한 디지털-아날로그 컨버터들 및 신호 증폭기들을 포함할 수도 있다. 라우드스피커들은 다양한 애플리케이션들에 의해 결정되는 바와 같은 다양한 구성들로 배열될 수 있다. 예를 들어, 라우드스피커들은 독립형 유닛들일 수 있거나 또는 디바이스에, 예컨대 텔레비전 세트, 랩톱 컴퓨터, 핸드헬드 스테레오, 또는 이와 유사한 것과 같은 가전 제품들의 경우에 통합될 수 있다. 기술적 및 물리적 제약들로 인해, 그러한 디바이스들에서 오디오 플레이백이 손상 또는 제한될 수 있다. 그러한 제한들은, 랩톱들 및 다른 콤팩트 모바일 디바이스들에서와 같이, 스피커들이 좁게 이격되는 물리적 제약들을 갖는 전자 디바이스들에서 특히 명백할 수 있다. 그러한 오디오 제약들을 해결하기 위해, 한 쌍의 헤드폰들 또는 한 쌍의 라우드스피커들을 통해 2-채널 또는 멀티-채널 오디오 신호들을 재생하기 위해 다양한 오디오 프로세싱 방법들이 사용된다. 그러한 방법들은, 청취자의 경험을 개선시키기 위한 강력한 공간 향상 효과들을 포함한다.
헤드폰들 또는 라우드스피커들을 사용한 3차원 오디오 재생을 위한 것과 같은, 머리 전달 함수(Head-Related Transfer Function)(HRTF) 필터링에 기초한 오디오 신호 프로세싱을 구현하기 위한 다양한 기법들이 제안되었다. 일부 예들에서, 이 기법들은, 청취자에 대해 수평 평면에 국소화되거나, 또는 청취자에 대해 상승된 포지션에 위치될 수 있는 것과 같은 가상 라우드스피커들을 재생하는 데 사용된다. 라우드스피커 기반 시스템에서 "스윗 스팟(sweet spot)"으로부터 멀리 떨어진 청취자 포지션들에 대한 수평 국소화 아티팩트(horizontal localization artifact)들을 감소시키기 위해, 다양한 필터들이 적용되어 영향을 보다 낮은 주파수들로 제한할 수 있다.
오디오 신호 프로세싱은 오디오 가상화기(audio virtualizer)를 사용하여 적어도 부분적으로 수행될 수 있다. 오디오 가상화기는, 적어도 2개의 라우드스피커들을 사용하여 청취자에게 3차원(3D) 오디오 청취 경험을 제공하는 시스템 또는 시스템의 부분을 포함할 수 있다. 그러나, 그러한 가상화된 3D 오디오 청취 경험은, 3D 효과가 청취자에게 가장 큰 영향을 주는, 통상적으로 스윗 스팟이라고 지칭되는, 플레이백 환경에서의 비교적 작은 영역 또는 특정 구역으로 제한될 수 있다. 다시 말해, 라우드스피커들을 통한 3D 오디오 가상화는 일반적으로, 스윗 스팟에 위치된 청취자에게 가장 강력하다. 청취자가 스윗 스팟 외측에 있을 때, 청취자는 사운드 소스들의 부정확한 국소화 및 오디오 신호의 부자연스러운 컬러레이션(coloration)을 경험한다. 따라서, 스윗 스팟 외측의 청취자에게는 3D 오디오 청취 경험이 손상되거나 또는 저하된다.
본 발명자들은, 해결되어야 할 문제가, 청취 환경에서 청취자 위치를 결정하는 것, 및 청취자 위치에 기초하여 오디오 신호 프로세싱을 조정하는 것을 포함한다는 것을 인식하였다. 그 문제에 대한 솔루션은 청취 환경에서 청취자 위치를 결정하는 것을 돕기 위해 카메라로부터의 이미지 정보를 포함 또는 사용할 수 있다. 솔루션은, 라우드스피커로부터 청취자 위치까지의 거리를 결정하는 것, 및 결정된 거리에 기초하여 하나 이상의 입력 오디오 신호들에 적용하기 위한 하나 이상의 전달 함수들 또는 필터들을 선택하는 것을 더 포함할 수 있다. 일 예에서, 솔루션은, 오디오 가상화 및 스윗 스팟 어뎁테이션(sweet spot adaptation) 프로세싱을 별개로 수행하는 것을 포함한다. 예를 들어, 오디오 가상화 프로세싱은 가상화된 오디오 신호들을 산출하기 위해 하나 이상의 머리 전달 함수 필터들을 사용하여 입력 오디오 신호들을 프로세싱하는 것을 포함할 수 있고, 스윗 스팟 어뎁테이션은 하나 이상의 가상화된 오디오 신호들에 이득 및/또는 딜레이를 적용하는 것을 포함할 수 있다. 일 예에서, 솔루션은, 청취자의 머리 배향(head orientation)(예를 들어, 머리 요(head yaw), 머리 피치(head pitch), 또는 머리 롤(head roll))을 결정하는 것, 및 환경에서의 청취자의 귀들의 포지션을 수용하도록 하나 이상의 필터들 또는 스윗 스팟 어댑터 파라미터들을 조정하는 것을 포함할 수 있다.
본 발명자들은, 해결되어야 할 문제가, 라우드스피커로부터 청취자 위치까지의 거리를 결정하는 것을 포함하여, 청취 환경에서 청취자 위치를 결정하는 것을 포함한다는 것을 인식하였다. 그 문제에 대한 솔루션은, 청취자 얼굴 폭에 관한 깊이 센서로부터의 또는 카메라로부터의 정보를 포함 또는 사용할 수 있다. 일 예에서, 솔루션은, 측정된 청취자 얼굴 폭에 대한 카메라의 렌즈 곡률의 영향을 보정하는 것을 포함할 수 있다. 일 예에서, 솔루션은, 카메라 또는 센서로부터의 청취자의 실제 거리를 결정함에 있어서 청취자의 머리 배향을 보정하는 것을 포함할 수 있다.
본 명세서에서 논의되는 시스템들 및 방법들의 예들은 청취자의 포지션을 실시간으로 추적하기 위해, 카메라와 같은 적어도 하나의 센서를 포함 또는 사용할 수 있다. 실시간 청취자 포지션 정보는 오디오 가상화 또는 스윗 스팟 어댑터 회로의 파라미터들을 연속적으로 업데이트 또는 조정하는 데 사용될 수 있다. 일부 예들에서, 시스템들 및 방법들은 환경에서 이동하는 청취자를 수용하기 위해 청취 환경에서 스윗 스팟 위치를 변경하도록 구성될 수 있다.
본 명세서에서 논의되는 시스템들 및 방법들의 예들은 청취자의 머리 또는 얼굴의 사이즈 및 포지션, 청취자의 눈들의 포지션, 또는 이들 양측 모두에 기초하여 청취자 포지션을 추정하는 데 사용될 수 있다. 일부 예들에서, 청취자 포지션 정보는 이미지 소스 또는 카메라까지의 거리 및 방위각을 포함한다. 일부 예들에서, 청취자 포지션 정보는 앙각(elevation angle), 머리 요, 머리 피치, 및/또는 머리 롤 각도와 같은 배향 정보를 더 포함한다. 일부 예들에서, 청취자 포지션 정보는 신호 프로세싱 변동들을 감소시키기 위해 필터링 또는 평활화된다. 본 명세서에서 논의되는 시스템들 및 방법들의 다양한 예들은, 다른 디바이스들 및 미디어 재생 시스템들 중에서도, 텔레비전들, 사운드바(sound bar)들, 랩톱 컴퓨터들, 태블릿들, 데스크톱 컴퓨터들, 및 모바일 폰들에 적용될 수 있다.
일부 예들에서, 단일 카메라는 청취자의 포지션을 검출하고, 이에 응답하여, 오디오 신호 프로세싱을 조정하여 재생된 오디오에 대한 스윗 스팟 위치를 변경하는 데 사용된다. 일부 예들에서, 청취자의 포지션은 청취자의 얼굴의 사이즈 및/또는 포지션, 눈들의 포지션들, 또는 그러한 기법들의 조합에 기초하여 추정된다. 일부 예들에서, 스윗 스팟 어댑터 회로는 다른 카메라 및 스피커 구성들을 사용하여 동작하도록 구성될 수 있다. 다른 예들은 스윗 스팟 어댑터 회로의 상태에 관한 피드백을 사용자 인터페이스(user interface)(UI)를 통해 청취자에게 제공하도록 구성될 수 있다.
상기에 언급된 피처(feature)들 또는 예들은 수 개의 이점들을 제공한다. 예를 들어, 하나의 이점은 시스템들 및 방법들의 실시예들이 사용자 또는 청취자에게 직관적이고 최소 사용자 입력을 사용할 수 있다는 점이다. 더욱이, 내장 카메라 및 2개의 스피커들(예컨대, 랩톱 컴퓨터, 태블릿, 올인원 컴퓨터(all-in-one computer), 또는 내장 카메라를 갖는 TV)을 이미 갖고 있는 시스템들의 경우 어떠한 부가적인 하드웨어 비용도 없을 수 있다. 시스템들 및 방법들의 예들은 다양한 타입들의 깊이 센서들 또는 카메라들(예를 들어, 스틸 카메라들, 비디오 카메라들, IR 카메라들 등), 또는 다른 청취자 포지션 통지 센서들, 및 스피커 구성들로 작동할 수 있다.
대안적인 실시예들이 가능하고, 본 명세서에서 논의되는 단계들 및 요소들은 특정 실시예에 따라 변경, 부가, 또는 제거될 수도 있다는 것에 주목해야 한다. 이들 대안적인 실시예들은, 본 발명의 범주로부터 벗어남이 없이, 사용될 수도 있는 대안적인 단계들 및 대안적인 요소들, 및 이루어질 수도 있는 구조적 변경들을 포함한다.
이 발명의 내용은 본 특허 출원의 청구 대상(subject matter)의 개요를 제공하도록 의도된다. 그것은 본 발명의 배타적인 또는 총망라한 설명을 제공하도록 의도되지 않는다. 본 특허 출원에 관한 추가의 정보를 제공하기 위해 상세한 설명이 포함된다.
반드시 축척대로 그려지지는 않은 도면들에서, 동일한 번호들은 상이한 뷰들에서 유사한 컴포넌트들을 설명할 수도 있다. 상이한 문자 접미사들을 갖는 동일한 번호들은 유사한 컴포넌트들의 상이한 인스턴스들을 표현할 수도 있다. 도면들은 일반적으로, 제한으로서가 아니라 예로서, 본 문서에서 논의되는 다양한 실시예들을 예시한다.
도 1은 일반적으로 청취 환경에서의 스윗 스팟에서의 청취자의 예를 예시한다.
도 2는 일반적으로 청취 환경에서의 스윗 스팟 외측의 청취자의 예를 예시한다.
도 3은 일반적으로 청취자의 포지션을 모니터링하도록 구성되는 카메라를 갖는 청취 환경의 예를 예시한다.
도 4는 일반적으로 사운드바 및 카메라를 갖는 청취 환경의 예를 예시한다.
도 5a는 일반적으로 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하는 제1 시스템의 블록도의 예를 예시한다.
도 5b는 일반적으로 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하는 제2 시스템의 블록도의 예를 예시한다.
도 6은 일반적으로 적응가능 가상화기 회로를 포함하는 제3 시스템의 블록도의 예를 예시한다.
도 7은 일반적으로 HRTF들을 사용하는 3차원 사운드 소스의 바이노럴 합성(binaural synthesis)의 예를 예시한다.
도 8은 일반적으로 크로스토크 소거기(crosstalk canceler)를 사용하는 3차원 사운드 가상화의 예를 예시한다.
도 9는 일반적으로 카메라의 시야(field of a view)에서 청취자 포지션을 추정하는 단계를 포함하는 방법의 예를 예시한다.
도 10은 일반적으로 카메라에 의해 캡처되는 이미지 상의 투영에 대한 청취자 얼굴 위치의 예를 예시한다.
도 11은 일반적으로 이미지 좌표들을 결정하는 예를 예시한다.
도 12는 일반적으로 카메라의 시야에서 청취자의 좌표들을 결정하는 예를 예시한다.
도 13은 일반적으로 랩톱 컴퓨터에 대한 카메라와 라우드스피커 사이의 관계의 예를 예시한다.
도 14는 일반적으로 머신 판독가능 매체로부터 명령어들을 판독하고 본 명세서에서 논의되는 방법론들 중 임의의 하나 이상을 수행하는 것이 가능한 머신의 컴포넌트들을 예시하는 블록도를 예시한다.
오디오 신호 가상화 프로세싱을 수행하기 위한, 예컨대, 환경에서의 청취자 위치, 포지션, 및/또는 배향에 관한 카메라로부터의 정보를 사용하여 환경에서의 청취자 스윗 스팟 어뎁테이션을 제공하기 위한 시스템들, 방법들, 장치들, 및 디바이스들의 예들을 제공하는 다음의 설명에서, 상세한 설명의 일부를 형성하는 첨부 도면들에 대한 참조가 이루어진다. 도면들은, 예시로서, 본 명세서에서 논의되는 발명들이 실시될 수 있는 특정 실시예들을 도시한다. 이들 실시예들은 일반적으로 본 명세서에서 "예들"이라고 지칭된다. 그러한 예들은 도시된 또는 설명된 것들 이외의 요소들을 포함할 수 있다. 그러나, 본 발명자들은 또한, 단지 도시된 또는 설명된 이들 요소들만이 제공되는 예들을 고려한다. 본 발명자들은 특정 예(또는 그의 하나 이상의 양태들)와 관련하여 또는 본 명세서에 도시된 또는 설명된 다른 예들(또는 그의 하나 이상의 양태들)과 관련하여, 도시된 또는 설명된 이들 요소들의 임의의 조합 또는 치환을 사용하는 예들(또는 그의 하나 이상의 양태들)을 고려한다.
본 명세서에서 사용되는 바와 같이, 어구 "오디오 신호"는 물리적 사운드를 나타내는 신호이다. 본 명세서에서 설명되는 오디오 프로세싱 시스템들 및 방법들은, 다양한 필터들을 사용하여 오디오 신호들을 사용 또는 프로세싱하도록 구성되는 하드웨어 회로부 및/또는 소프트웨어를 포함할 수 있다. 일부 예들에서, 시스템들 및 방법들은 다수의 오디오 채널들로부터의 신호들, 또는 다수의 오디오 채널들에 대응하는 신호들을 사용할 수 있다. 일 예에서, 오디오 신호는, 다수의 오디오 채널들에 대응하는 정보를 포함하는 디지털 신호를 포함할 수 있다.
다양한 라우드스피커 구성들을 통해 2-채널 또는 멀티-채널 오디오 신호들을 재생하기 위해 다양한 오디오 프로세싱 시스템들 및 방법들이 사용될 수 있다. 예를 들어, 오디오 신호들은 헤드폰들을 통해, 한 쌍의 북셀프형 라우드스피커(bookshelf loudspeaker)들을 통해, 또는 예컨대 청취자와 관련하여 환경에서의 다양한 위치들에 포지셔닝되는 라우드스피커들을 사용하는, 서라운드 사운드 또는 몰입형 오디오 시스템을 통해 재생될 수 있다. 일부 예들은, 예컨대 물리적 라우드스피커들의 수 또는 배향이 제한되는 경우, 청취 경험을 향상시키기 위해 강력한 공간 향상 효과들을 포함 또는 사용할 수 있다.
발명의 명칭이 "Virtual Audio Processing for Loudspeaker or Headphone Playback"이고 Walsh 등등에게 부여된 미국 특허 제8,000,485호 - 이는 이로써 그 전체가 참조로 포함됨 - 에서, 오디오 신호들은 가상화기 프로세서 회로로 프로세싱되어 가상화된 신호들 및 수정된 스테레오 이미지를 생성할 수 있다. '485 특허의 기법들에 부가적으로 또는 대안적으로, 본 발명자들은, 가상화 프로세싱이 특정 청취자 위치에서의 특정 청취자에 대한 사운드 재생을 맞춤화하는 데 사용될 수 있다는 것을 인지하였다. 즉, 본 명세서에서 논의되는 가상화 프로세싱은 3차원 오디오가 청취자에 의해 가장 효과적으로 수신되는 "스윗 스팟"을 제공하는 데 사용될 수 있다.
일 예에서, 청취자 위의 또는 아래의 다양한 특정된 고도(altitude)들 또는 상승들에서의 사운드 정보를 포함하는 것으로서 청취자에 의해 지각되는 3D 오디오 정보를 렌더링하여 청취자의 경험을 추가로 향상시키기 위해, 머리 전달 함수들로부터 도출될 수 있는 바와 같은 상대 가상화 필터들이 적용될 수 있다. 일 예에서, 그러한 가상 오디오 정보는 수평 평면에서 제공되는 라우드스피커를 사용하여 재생되고, 가상 오디오 정보는, 예컨대, 심지어, 지각된 유래 위치에 어떠한 물리적 또는 실제의 라우드스피커도 존재하지 않을 때에도, 수평 평면에 대해 상승된 라우드스피커 또는 다른 소스로부터 유래하는 것으로 지각된다. 일 예에서, 가상 오디오 정보는, 수평 평면에서의 오디오 정보로부터 연장되고 그 오디오 정보를 임의로 포함하는 사운드 상승의 느낌, 또는 청각적 환영을 제공한다. 유사하게, 수평 평면 내에서의 또는 수평 평면 중에서의 다양한 위치들에서, 예컨대 음장에 있어서의 라우드스피커의 물리적 위치에 대응하지 않는 위치들에서 사운드 정보를 포함하는 것으로서 청취자에 의해 지각되는 가상 오디오 정보를 렌더링하기 위해 가상화 필터들이 적용될 수 있다. 예컨대 환경에서의 청취자의 위치에 관한 카메라로부터의 정보에 응답하여 스윗 스팟을 변경함으로써, 청취자에 의해 지각되는 가상 오디오 정보가, 청취자가 청취 환경에서 이동함에 따라 청취자를 따라갈 수 있다.
본 명세서에서 논의되는 시스템들 및 방법들의 예들은 적어도 하나의 카메라로부터의 정보를 사용하여, 청취자의 포지션 또는 청취자의 포지션의 추정치에 관한 정보를 실시간으로 획득할 수 있다. 시스템들 및 방법들은 청취자 포지션 정보를 사용하여 오디오 출력을 조정할 수 있어서, 청취자가, 환경에서의 디폴트 스윗 스팟 외측에 있을 수 있는 청취자의 포지션에서 3D 오디오 청취 경험을 즐길 수 있도록 한다. 디폴트 스윗 스팟은, 디폴트 가상화 프로세싱이 적용되거나 또는 어떠한 향상된 또는 다른 가상화 프로세싱도 적용되지 않을 때 스윗 스팟일 수 있는 환경에서의 위치일 수 있다.
본 명세서에서 논의되는 시스템들의 예들은 오디오 가상화기 회로를 포함 또는 사용할 수 있다. 오디오 가상화기 회로는 바이노럴 합성기 및 크로스토크 소거기를 포함할 수 있다. 시스템들은, 환경에 관한 시각적 또는 광학적 정보를 수신하고, 예컨대 하나 이상의 얼굴 피처들 및 이들의 포지션들을 검출 및 분석함으로써, 청취자의 공간적 포지션을 결정 또는 계산하는 카메라 기반 청취자 포지션 추정 모듈을 더 포함할 수 있다. 일 예에서, 시스템들은, 청취자의 결정된 공간적 포지션에 기초하여 청취자의 청취 경험을 향상시키도록 구성되는 스윗 스팟 어댑터 회로를 더 포함할 수 있다.
일 예에서, 예컨대 오디오 프로세서 회로 또는 오디오 가상화기 회로를 사용하여 수행될 수 있는, 오디오 입력 신호들의 오디오 가상화 프로세싱은 청취자에게 3D 오디오 경험을 제공하기 위해 2개 이상의 라우드스피커들을 사용하여 재생될 수 있는 출력 신호들을 렌더링할 수 있다. 3D 오디오 경험은 2개 이상의 라우드스피커들을 포함하는 환경에서의 작은 영역 또는 구역으로 일반적으로 제한된다. 스윗 스팟이라고 지칭되는 작은 영역 또는 구역은, 청취자에게 다차원 청취 경험을 제공하기 위해 3D 오디오 경험이 가장 두드러지고 효과적인 위치를 표현한다. 청취자가 스윗 스팟으로부터 멀어질 때, 청취 경험이 저하되는데, 이는 3D 공간에서 사운드 소스들의 부정확한 국소화를 초래할 수 있다. 게다가, 부자연스러운 신호 컬러레이션이 발생할 수 있거나 또는 스윗 스팟 외측의 청취자에 의해 지각될 수 있다.
도 1은 일반적으로 청취 환경(101)에서의 제1 스윗 스팟(110)에서의 청취자(150)의 예시(100)를 예시한다. 도 1의 예에서, 청취 환경(101)은 일반적으로 직사각형인 룸(room)을 포함한다. 청취 환경(101)은 2차원들로 묘사되어 있지만, 다른 것들 중에서도, 청취자(150) 및 하나 이상의 사운드 재생 디바이스들에 의해 점유될 수 있는 3차원 환경을 포함하는 것으로 이해되어야 한다.
청취 환경(101)은 텔레비전(102)을 포함한다. 텔레비전(102)은 한 쌍의 좌측 및 우측 스피커들(105A 및 105B)을 포함한다. 한 쌍의 스피커들(105A 및 105B)이 텔레비전(102)과 통합된 것으로서 예시되어 있지만, 한 쌍의 스피커들(105A 및 105B)은 텔레비전(102) 외부에 제공되는 라우드스피커들일 수 있고, 임의로 텔레비전 이외의 소스에 의해 구동될 수 있다. 한 쌍의 스피커들(105A 및 105B)은 텔레비전(102)의 면으로부터 멀리 그리고 청취자(150)가 포지셔닝될 가능성이 많은 청취 환경(101)에서의 영역을 향해 사운드를 방출하도록 배향된다.
도 1의 예는 일반적으로 제1 스윗 스팟(110)의 예를 예시하고, 제1 스윗 스팟(110)은, 한 쌍의 스피커들(105A 및 105B)을 사용하여 재생되는 사운드들에 포함되는 것과 같은 3D 오디오 효과들이 청취자(150)에 의해 정확하게 지각되는, 청취 환경(101)에서의 물리적 위치를 표현한다. 제1 스윗 스팟(110)은 도 1에 2차원 영역으로서 예시되어 있지만, 제1 스윗 스팟(110)은 청취 환경(101)에서 3차원 볼륨을 포함하는 것으로 이해될 수 있다. 도 1의 예에서, 청취자(150)는 제1 스윗 스팟(110)에 위치된다. 즉, 청취자(150)의 머리 또는 귀들은 제1 스윗 스팟(110)에 또는 그 내에 위치된다.
일 예에서, 한 쌍의 스피커들(105A 및 105B)은 하나 이상의 입력 신호들로부터 가상화된 또는 3D 오디오 신호들을 생성하기 위해 가상화기 회로를 포함 또는 사용하는 오디오 신호 프로세서로부터 신호들을 수신한다. 오디오 신호 프로세서는 하나 이상의 HRTF 필터들, 딜레이 필터들, 주파수 필터들, 또는 다른 오디오 필터들을 사용하여 가상화된 오디오 신호들을 생성할 수 있다.
도 2는 일반적으로 청취 환경(101)에서의 제1 스윗 스팟(110) 외측의 청취자(150)의 예(200)를 예시한다. 예(200)에서, 청취자(150)는 제1 스윗 스팟(110)의 우측에 포지셔닝된다. 청취자(150)는 제1 스윗 스팟(110) 외측에 위치되기 때문에, 청취자(150)는 덜 최적인 오디오 소스 국소화를 경험 또는 지각할 수 있다. 일부 예들에서, 청취자(150)는, 한 쌍의 스피커들(105A 및 105B)을 사용하여 재생되는 오디오 프로그램으로 청취자(150)가 갖는 경험에 해로울 수 있는, 비의도된 또는 파괴적인 컬러레이션, 페이징(phasing), 또는 다른 사운드 아티팩트들을 경험할 수 있다. 일 예에서, 본 명세서에서 논의되는 시스템들 및 방법들은 한 쌍의 스피커들(105A 및 105B)을 사용하여 재생되는 오디오 신호들을 프로세싱하여, 제1 스윗 스팟(110)을, 청취 환경(101)에서의 청취자(150)의 변경된 또는 실제 포지션과 일치하는 제2 위치로 이동시키는 데 사용될 수 있다.
도 3은 일반적으로 청취자(150)의 포지션을 모니터링하도록 구성되는 카메라(301)를 갖는 청취 환경(101)의 예(300)를 예시한다. 카메라(301)는, 스틸 또는 움직이는 이미지들 또는 청취 환경(101)에 관한 다른 광학적 또는 시각적 정보를 캡처하도록 구성되는 카메라를 포함할 수 있다. 일 예에서, 카메라(301)는, 청취 환경(101)에서 청취자(150)에 속하는 것과 같은, 신체의 존재 또는 부존재를 검출하는 데 사용될 수 있는 적외선 또는 다른 주파수 대역들을 포함하는 것과 같은, 가시 스펙트럼 외측의 정보를 수신 또는 감지하도록 구성된다.
카메라들 및 시각적 정보가 본 명세서에서 일반적으로 청취자(150)에 관한 포지션 정보의 선호되는 소스인 것으로서 논의되지만, 다른 센서들 또는 디바이스들이 유사하게 사용될 수 있다. 예를 들어, 그리고 제한 없이, 환경에서 청취자 신체 포지션 또는 청취자 신체 배향을 검출하도록 구성되는 마이크로폰 어레이, 초음파 센서(들), 가속도계(들), 중량 센서(들), 또는 다른 센서로부터의 정보가, 청취자(150)에 관한 포지션 정보를 제공하기 위해 카메라(301)에 부가적으로 또는 대안적으로 사용될 수 있다. 일 예에서, 깊이 센서는 청취자 신체 포지션 또는 청취자 신체 배향을 검출하는 데 사용될 수 있다. 깊이 센서는, 다른 것들 중에서도, 레이저, 변조된 광 소스, 또는 카메라 어레이를 포함할 수 있다.
일 예에서, 카메라(301)는 이미지 프로세서 회로에 커플링된다. 이미지 프로세서 회로는 카메라(301)로부터 정보를 수신하고 카메라(301)의 시야에서 청취자(150) 또는 다른 청취자 또는 오브젝트의 포지션을 결정 또는 추정하도록 구성될 수 있다. 일 예에서, 이미지 프로세서 회로는 카메라(301)로부터의 정보를 사용하여 청취자(150)의 하나 이상의 피처들의 포지션, 예컨대 청취자(150)의 귀들, 눈들, 입, 또는 다른 피처 중 하나 이상의 것의 포지션을 결정 또는 추정하도록 구성될 수 있다.
일 예에서, 이미지 프로세서 회로는 청취자(150)의 얼굴의 사이즈 및 포지션, 청취자(150)의 눈들의 포지션, 또는 이들 양측 모두에 기초하여 청취자(150)의 포지션을 추정할 수 있다. 일 예에서, 청취자(150)에 관한 포지션 정보는 카메라(301)까지의 거리 및/또는 방위각을 포함할 수 있다. 일부 예들에서, 이미지 프로세서 회로는, 청취자(150)에 대한 앙각, 머리 요, 머리 피치, 또는 머리 롤 각도와 같은 청취자 배향 정보를 포함하는, 청취자(150)에 관한 다른 정보를 결정 또는 사용할 수 있다. 청취자(150)에 관한 포지션 정보는 변동들을 감소시키기 위해 필터링될 수 있다. 청취자 포지션을 결정하는 일부 예들이 본 명세서에서, 예를 들어, 도 9 내지 도 12에서 추가로 논의된다.
일 예에서, 한 쌍의 스피커들(105A 및 105B)에 대한 가상화된 오디오 신호들을 생성하도록 구성될 수 있는 것과 같은 오디오 프로세서 회로는 카메라(301)에 또는 이미지 프로세서 회로에 커플링될 수 있다. 오디오 프로세서 회로는 한 쌍의 스피커들(105A 및 105B)을 사용하여 신호들이 재생되기 전에 오디오 신호들에 적용할 하나 이상의 필터들을 선택하기 위해 청취자(150)의 포지션에 관한 카메라(301)로부터의 또는 이미지 프로세서 회로로부터의 정보를 사용할 수 있다. 즉, 오디오 프로세서 회로는 예컨대 청취 환경(101)에서 스윗 스팟의 포지션을 업데이트 또는 조정하기 위해, 청취자(150)의 포지션에 관한 정보에 기초하여 오디오 신호들을 프로세싱할 수 있다.
일 예에서, 오디오 프로세서 회로는 청취 환경(101)에서의 청취자(150)의 절대 포지션, 카메라(301)로부터의 그리고/또는 좌측 및 우측 스피커들(105A 및 105B) 중 하나 이상으로부터의 청취자(150)의 결정된 거리, 제1 스윗 스팟(110)에 대한 청취자(150)의 포지션, 또는 청취자(150)에 관한 다른 포지션 정보 중 하나 이상에 기초하여 오디오 신호들을 프로세싱한다. 일 예에서, 오디오 프로세서 회로는, 청취자(150)의 귀들, 눈들, 입, 또는 다른 피처 중 하나 이상의 것의 포지션과 같은, 청취자(150)의 하나 이상의 피처들의 결정된 또는 추정된 포지션에 기초하여 오디오 신호들을 프로세싱한다.
도 3의 예에서, 카메라(301)는, 청취 환경에서의 청취자(150)의 존재의 표시를 포함하는 시각 스펙트럼의 정보를 포함하는, 청취 환경(101)에 관한 정보를 수신할 수 있다. 이미지 프로세서 회로는 청취 환경(101)에서 청취자(150)의 상대적 또는 추정된 포지션을 결정할 수 있고, 오디오 프로세서 회로는 청취자가 결정된 포지션에 있을 때 청취자(150)에 대한 가상화된 오디오 정보를 렌더링하기 위해 적용할 하나 이상의 필터들을 선택할 수 있다. 즉, 카메라(301) 및 그의 대응하는 이미지 프로세서 회로는, 청취자(150)가 제1 스윗 스팟(110) 외측으로 이동하였고, 제2 스윗 스팟(310)을 렌더링할 가상화 필터들이 사용을 위해 선택되어야 한다는 정보를 오디오 프로세서 회로에 제공할 수 있다.
오디오 프로세서 회로는 카메라(301)로부터 청취자(150)의 포지션에 관한 정보를 연속적으로, 주기적으로, 또는 다른 고정된 또는 조정가능한 스케줄에 따라 임의로 수신할 수 있다. 일 예에서, 이미지 프로세서 회로는 청취자(150)가 적어도 특정된 임계량만큼 초기 포지션으로부터 멀어지도록 이동할 때까지 청취자(150)에 관한 포지션 변경 정보를 보류한다. 일 예에서, 오디오 프로세서 회로는 청취자(150)의 포지션에 관한 정보가 오디오 신호 프로세싱 파라미터 변경 또는 업데이트를 요구하는지 여부 또는 그 때를 결정할 수 있다.
도 4는 일반적으로 사운드바(402) 및 카메라(301)를 갖는 청취 환경(101)의 예(400)를 예시한다. 즉, 도 4는 청취 환경(101)이 텔레비전(102) 이외의 사운드 소스를 포함 또는 사용할 수 있다는 것을 예시한다. 사운드바(402)는 가상화된 오디오 정보를 수신하고 상이한 쌍의 스피커들(405A 및 405B)을 사용하여 오디오 신호들을 재생하여 청취자(150)에게 3D 오디오 경험을 제공할 수 있다. 일 예에서, 사운드바(402)로부터의 오디오는 예컨대 카메라(301)로부터의 청취자(150)의 포지션에 관한 정보에 기초하여, 제1 스윗 스팟(110) 및 제2 스윗 스팟(310)과 같은 상이한 스윗 스팟들을 수용하도록 조정될 수 있다.
도 5a, 도 5b 및 도 6은 일반적으로, 청취자 포지션에 관한 정보를 사용하여, 예컨대 카메라 또는 다른 청취자 포지션 센서로부터의 정보를 사용하여, 가상화 프로세싱을 수행하는 데 사용될 수 있는 시스템들을 도시하는 다양한 블록도들을 예시한다. 도 5a는 일반적으로 제1 가상화기 회로(512A) 및 제1 스윗 스팟 어댑터 회로(514A)를 포함하는 제1 시스템(500A)의 블록도의 예를 예시한다. 도 5a의 예에서, 제1 가상화기 회로(512A) 및 제1 스윗 스팟 어댑터 회로(514A)는 제1 오디오 프로세서 회로(510A)의 부분들을 포함한다.
도 5a는 하나 이상의 오디오 입력 신호들(503)을 제공하는 오디오 소스(501)를 포함한다. 일 예에서, 오디오 입력 신호들(503)은, 멀티-채널 오디오 파일, 오디오 스트림, 오브젝트 기반 오디오 프로그램, 또는 라우드스피커들, 헤드폰들, 또는 이와 유사한 것을 사용하여 청취하기에 적합할 수 있는 다른 신호 또는 신호들을 포함한다. 오디오 입력 신호들(503)은 제1 오디오 프로세서 회로(510A)에 제공된다.
도 5a는 비디오 이미지 소스(521)를 더 포함한다. 일 예에서, 비디오 이미지 소스(521)는, 도 3 및 도 4의 예들로부터의 카메라(301)와 같은 광학적 또는 시각적 센서를 포함한다. 일 예에서, 비디오 이미지 소스(521)는 깊이 센서를 포함한다. 비디오 이미지 소스(521)는 이미지 신호(523)를 이미지 프로세서 회로(530)에 제공할 수 있다. 깊이 센서인 비디오 이미지 소스(521)를 포함하는 일 예에서, 이미지 신호(523)는, 거리 정보 및 감지된 또는 검출된 피처(예를 들어, 청취자 얼굴 피처) 정보 중 하나 또는 이들의 조합을 포함할 수 있다. 이미지 프로세서 회로(530)는 이미지 신호(523)를 분석하여 청취자의 포지션을 결정하거나, 또는 청취 환경에서 청취자의 포지션의 추정치를 결정하도록 구성될 수 있다. 일 예에서, 이미지 프로세서 회로(530)는 청취자의 포지션에 대응하는 청취 환경에서의 좌표들을 결정하도록 구성된다. 즉, 이미지 프로세서 회로(530)는 비디오 이미지 소스(521)(예를 들어, 카메라(301), 깊이 센서 등)로부터 청취자까지의 거리에 관한 정보를 결정 또는 제공할 수 있다.
일부 예들에서, 이미지 프로세서 회로(530)는, 예컨대 청취자의 머리 배향에 관한 정보를 포함하는, 청취자의 특성 또는 피처를 결정하도록 구성된다. 머리 배향은, 청취자의 머리 요, 머리 피치, 또는 머리 롤 중 하나 이상에 관한 정보를 포함할 수 있다(예를 들어, 도 9 참조). 일 예에서, 이미지 프로세서 회로(530)는, 청취자의 귀들, 입, 눈들, 또는 다른 피처에 대한 위치 또는 좌표들과 같은, 청취자의 얼굴 피처들 또는 다른 머리 피처들 중 하나 이상의 것의 위치를 결정하도록 구성된다.
이미지 프로세서 회로(530)는 청취자 위치 신호(531)로서 청취자 포지션 또는 청취자 배향에 관한 정보를 제1 오디오 프로세서 회로(510A)에 제공할 수 있다. 청취자 위치 신호(531)는 제1 스윗 스팟 어댑터 회로(514A)에, 또는 제1 가상화기 회로(512A)에, 또는 제1 스윗 스팟 어댑터 회로(514A) 및 제1 가상화기 회로(512A) 양측 모두에 제공될 수 있다.
일 예에서, 오디오 입력 신호들(503)은 제1 오디오 프로세서 회로(510A)에서의 제1 가상화기 회로(512A)에 의해 수신된다. 제1 가상화기 회로(512A)는 중간 오디오 출력 신호들(505A)을 제공하기 위해 오디오 입력 신호들(503) 중 하나 이상에 가상화 프로세싱을 적용하도록 구성된다. 하나의 예에서, 제1 가상화기 회로(512A)는 기준 스윗 스팟에 기초하여 또는 청취 환경에 특정된 다른 정보 또는 고려사항들에 기초하여 하나 이상의 가상화 필터들을 적용한다. 그러한 예에서, 제1 가상화기 회로(512A)는 오디오 입력 신호들(503)의 그의 프로세싱에 영향을 주는 청취자 위치 신호(531)를 사용하지 않는다. 그 대신에, 제1 스윗 스팟 어댑터 회로(514A)는 청취자 위치 신호(531)를 수신하고, 청취자 위치 신호(531)(예를 들어, 청취자의 환경에서 하나 이상의 라우드스피커들에 대한 청취자의 위치에 관한 정보를 표시 또는 포함하는 신호)에 기초하여, 제1 스윗 스팟 어댑터 회로(514A)는 제1 가상화기 회로(512A)로부터 수신된 중간 오디오 출력 신호들(505A)을 프로세싱하기 위한 하나 이상의 필터들을 선택한다. 그 후에, 제1 스윗 스팟 어댑터 회로(514A)는 오디오 출력부(550A)를 사용하여 재생될 수 있는 오디오 출력 신호들(507A)을 렌더링 또는 제공한다. 일 예에서, 제1 스윗 스팟 어댑터 회로(514A)는 오디오 출력 신호들(507A)을 제공하기 위해 중간 오디오 출력 신호들(505A) 중 하나 이상에 이득 또는 감쇠를 적용한다. 이득 또는 감쇠는 특정 주파수들 또는 주파수 대역들에 적용될 수 있다. 일 예에서, 제1 스윗 스팟 어댑터 회로(514A)는 오디오 출력 신호들(507A)을 제공하기 위해 중간 오디오 출력 신호들(505A) 중 하나 이상에 딜레이를 적용한다.
다른 예에서, 제1 가상화기 회로(512A)는 이미지 프로세서 회로(530)로부터의 청취자 위치 신호(531)에 적어도 부분적으로 기초하여 하나 이상의 가상화 필터들을 적용한다. 즉, 오디오 입력 신호들(503)을 프로세싱하기 위해 제1 가상화기 회로(512A)에 의해 사용되는 하나 이상의 필터들은 청취자 위치 신호(531)로부터의 청취자 포지션에 관한 정보에 기초하여 선택될 수 있다. 제1 스윗 스팟 어댑터 회로(514A)는 또한 청취자 위치 신호(531)를 수신하고, 청취자 위치 신호(531)(예를 들어, 청취자의 환경에서 하나 이상의 라우드스피커들에 대한 청취자의 위치에 관한 정보를 표시 또는 포함하는 신호)에 기초하여, 제1 가상화기 회로(512A)로부터 수신된 중간 오디오 출력 신호들(505A)을 프로세싱하기 위해 하나 이상의 필터들을 선택할 수 있다.
도 5a에 도시된 바와 같이, 제1 오디오 프로세서 회로(510A)는 멀티-채널 오디오 파일 또는 오디오 스트림을 수신하고, 라우드스피커 청취에 적합한 바이노럴 라우드스피커 신호를 생성한다. 예컨대 이미지 프로세서 회로(530)를 포함하는 청취자 포지션 추정 모듈은 시각적 정보를 입력으로서 취하고 청취자의 포지션을 결정 또는 추정하며, 그 포지션 정보를 청취자 위치 신호(531)로 인코딩한다. 일 예에서, 이미지 프로세서 회로(530)는 얼굴의 결정된 포지션 및/또는 사이즈 및/또는 청취자의 눈들의 포지션들에 기초하여 청취자 위치 신호(531)를 제공한다. 청취자 포지션 정보는 방위각(예를 들어, 이미지 중심과 수평 평면에서의 투영된 얼굴 중심 사이의 각도) 및 거리(예를 들어, 비디오 이미지 소스(521)와 청취자의 얼굴 중심 사이의 거리)를 포함할 수 있다. 청취자 위치 신호(531)에서의 다른 정보는 앙각(예를 들어, 이미지 중심과 수직 평면에서의 투영된 얼굴 중심 사이의 각도), 얼굴 요, 피치, 및/또는 롤 각도를 포함할 수 있다. 청취자 포지션 추정의 정확도를 추가로 개선시키기 위해, 이미지 프로세서 회로(530) 또는 다른 프로세서 회로는 청취자의 연령 및 성별 중 하나 이상을 결정하고 거리 추정을 위해 대응하는 얼굴 폭 파라미터를 적용하기 위해 분류 알고리즘을 수행할 수 있다. 제1 스윗 스팟 어댑터 회로(514A)는 청취자의 포지션에 기초하여 대응하는 딜레이 및 이득 보상을 계산한다.
도 5b는 일반적으로 제2 가상화기 회로(512B) 및 제2 스윗 스팟 어댑터 회로(514B)를 포함하는 제2 시스템(500B)의 블록도의 예를 예시한다. 도 5b의 예에서, 제2 가상화기 회로(512B) 및 제2 스윗 스팟 어댑터 회로(514B)는 제2 오디오 프로세서 회로(510B)의 부분들을 포함한다.
도 5b의 제2 시스템(500B)은, 제1 가상화기 회로(512A)가 오디오 입력 신호들(503)을 수신하는 대신에, 제2 스윗 스팟 어댑터 회로(514B)가 오디오 소스(501)로부터 오디오 입력 신호들(503)을 수신한다는 점에서, 도 5a로부터의 제1 시스템(500A)의 예와는 상이하다. 즉, 제2 스윗 스팟 어댑터 회로(514B)는, 예컨대 오디오 가상화 프로세싱이 제2 가상화기 회로(512B)에 의해 적용되기 전에, 오디오 입력 신호들(503)의 이득 및/또는 딜레이 또는 다른 필터링을 제공하도록 구성될 수 있다. 청취자 위치 신호(531)는 제2 스윗 스팟 어댑터 회로(514B)에, 또는 제2 가상화기 회로(512B)에, 또는 제2 스윗 스팟 어댑터 회로(514B) 및 제2 가상화기 회로(512B) 양측 모두에 제공될 수 있다. 도 5b의 예에서, 제2 가상화기 회로(512B)는 오디오 출력부(550B)를 사용하여 재생될 수 있는 오디오 출력 신호들(507B)을 렌더링 또는 제공한다.
도 6은 일반적으로 제3 가상화기 회로(612)를 포함하는 제3 시스템(600)의 블록도의 예를 예시한다. 도 6의 예에서, 제3 가상화기 회로(612)는 제3 오디오 프로세서 회로(610)의 적어도 일부분을 포함한다. 도 6은 하나 이상의 오디오 입력 신호들(503)을 제공하는 오디오 소스(501)를 포함한다. 오디오 입력 신호들(503)은 제3 오디오 프로세서 회로(610)에 제공된다.
도 6은 이미지 신호(523)를 이미지 프로세서 회로(530)에 제공하도록 구성되는 비디오 이미지 소스(521)를 더 포함하고, 이미지 프로세서 회로는 이미지 신호(523)를 분석하여 청취자의 포지션을 결정하거나, 또는 청취 환경에서의 청취자의 포지션의 추정치를 결정하도록 구성된다. 이미지 프로세서 회로(530)는 청취자 위치 신호(531)로서 청취자 포지션 또는 청취자 배향에 관한 정보를 제3 오디오 프로세서 회로(610)에 제공할 수 있다. 청취자 위치 신호(531)는 제3 가상화기 회로(612)에 제공될 수 있다.
일 예에서, 오디오 입력 신호들(503)은 제3 오디오 프로세서 회로(610)에서의 제3 가상화기 회로(612)에 의해 수신된다. 제3 가상화기 회로(612)는 오디오 출력 신호들(607)을 제공하기 위해 오디오 입력 신호들(503) 중 하나 이상에 가상화 프로세싱을 적용하도록 구성된다. 일 예에서, 제3 가상화기 회로(612)는 이미지 프로세서 회로(530)로부터의 청취자 위치 신호(531)에 적어도 부분적으로 기초하여 하나 이상의 가상화 필터들을 적용한다. 즉, 오디오 입력 신호들(503)을 프로세싱하기 위해 제3 가상화기 회로(612)에 의해 사용되는 하나 이상의 필터들은 청취자 위치 신호(531)로부터의 청취자 포지션에 관한 정보에 기초하여 선택될 수 있다.
일 예에서, 비디오 이미지 소스(521)는 이미지 신호(523)를 이미지 프로세서 회로(530)에 연속적으로, 규칙적으로, 또는 간헐적으로 공급한다. 이미지 프로세서 회로(530)는 이에 대응하여 청취자 위치 신호(531)의 업데이트된 버전을 생성할 수 있다. 즉, 이미지 프로세서 회로(530)는 이미지 신호(523)의 변경들에 기초하여 청취자 위치 신호(531)를 업데이트 또는 조정할 수 있다. 도 6의 예에서, 제3 가상화기 회로(612)는 업데이트 또는 조정된 청취자 위치 신호(531)를 수신하고, 오디오 출력 신호들(607)을 생성하는 데 사용되는 가상화 필터들 중 하나 이상을 업데이트 또는 조정할지 여부를 결정할 수 있다.
일 예에서, 도 5a, 도 5b, 및/또는 도 6의 시스템들 중 임의의 하나 이상이 사용자 인터페이스를 포함 또는 사용할 수 있다. 사용자 인터페이스는 시스템의 작동 상태에 관한 시각적 피드백을 청취자 또는 다른 사용자에게 제공하도록 구성될 수 있다. 예를 들어, 사용자 인터페이스는 스윗 스팟에 대한 청취자의 위치의 추정치를 디스플레이하도록 구성될 수 있다. 사용자 인터페이스 피처들 및 예들이 아래에 추가로 논의된다.
일 예에서, 라우드스피커들을 통한 3D 오디오 가상화의 구현은 바이노럴 합성기 및 크로스토크 소거기를 포함 또는 사용한다. 예컨대 헤드폰 청취를 위해, 입력 신호가 이미 바이노럴 방식으로 렌더링될 때, 바이노럴 합성기 단계가 바이패스될 수 있다. 바이노럴 합성기와 크로스토크 소거기 양측 모두가 머리 전달 함수(HRTF)들을 사용할 수 있다. HRTF는 HRIR(머리 임펄스 응답(head related impulse response))의 주파수 도메인 표현이다. HRTF들은 3D 공간의 위치로부터 청취자의 귀들로 전파되는 사운드 소스의 음향 변환들을 표현한다. 그러한 변환은, 다른 것들 중에서도, 청취자의 머리, 몸통, 및 귓바퀴(pinna)의 물리적 특성들로 인한 사운드의 회절을 캡처할 수 있다. HRTF들은 좌측 귀를 위한 하나의 필터 및 우측 귀를 위한 하나의 필터를 포함하는 것과 같은 필터들의 쌍들에 일반적으로 제공될 수 있다.
바이노럴 합성에서, 청취자의 귀들에서 수신된 바이노럴 신호를 합성하기 위해 사운드 소스가 한 쌍의 HRIR들과 콘볼빙된다(convolved). 주파수 도메인에서, 청취자의 귀들에서 수신된 바이노럴 신호는 다음과 같이 표현될 수 있다.
Figure pct00001
도 7은 일반적으로 HRTF들을 사용하는 3차원 사운드 소스의 바이노럴 합성의 예를 예시한다. 도 7의 예에서, S는 사운드 소스를 나타내고, H L 은 청취자의 좌측 귀에 대한 HRTF이고, H R 은 청취자의 우측 귀에 대한 HRTF이고, B L 은 좌측 귀에서 수신된 바이노럴 신호를 지칭하며, B R 은 우측 귀에서 수신된 바이노럴 신호를 나타낸다. 동시에 이용가능한 다수의 사운드 소스들이 있을 때, 각각의 사운드 소스가 연관된 쌍의 HRTF들과 콘볼빙될 수 있다. 결과적인 신호들이 합산되어, 청취자의 귀들에서 수신된 바이노럴 신호를 합성할 수 있다. 결과적인 바이노럴 신호는 헤드폰 청취에 적합할 수 있다. 일 예에서, 헤드폰 트랜스듀서로 인한 임의의 바람직하지 않은 변환을 제거하기 위해 다양한 신호 형상화 또는 주파수 응답 보상이 적용될 수 있다.
일 예에서, 청취 환경에서 2개의 라우드스피커들을 통해 3D 오디오 가상화를 달성하기 위해, 좌측 라우드스피커로부터 청취자의 우측 귀로의 그리고 우측 스피커로부터 청취자의 좌측 귀로의 크로스토크를 제거하기 위해 부가적인 단계가 사용된다.
도 8은 일반적으로 크로스토크 소거기를 사용하는 3차원 사운드 가상화의 예를 예시한다. 도 8의 예에서, T LL 은 좌측 스피커로부터 좌측 귀로의 전달 함수를 표현하고, T LR 은 좌측 스피커로부터 우측 귀로의 전달 함수를 나타내고, T RL 은 우측 스피커로부터 좌측 귀로의 전달 함수를 표현하고, T RR 은 우측 스피커로부터 우측 귀로의 전달 함수이고, B L 은 좌측 바이노럴 신호이며, B R 은 우측 바이노럴 신호이다.
도 8의 예에서, 크로스토크 소거기가 바이노럴 합성기의 출력(B L B R )에 적용된다. 크로스토크 소거기 출력 신호들이 플레이백을 위해 좌측 및 우측 라우드스피커들로 전송된다. 일 예에서, 청취자의 귀들에서 수신된 신호들이 정확히 B L B R 이 되도록 음향 전달 매트릭스 T의 역으로서 크로스토크 소거기 C가 구현될 수 있다. 즉,
Figure pct00002
.
크로스토크 소거 기법들은 단순화를 위해 라우드스피커들이 청취자에 대해 대칭적인 위치들에 배치된다고 종종 가정한다. 본 명세서에서 논의되는 시스템들 및 방법들을 사용하는 것과 같은 공간 오디오 프로세싱에서, 청취자가 최적의 3D 오디오 효과를 지각하는 위치가 스윗 스팟(전형적으로 2개의 라우드스피커들 사이의 대칭 축과 일치함)이라고 불린다. 그러나, 청취자가 스윗 스팟 외측에 있는 경우 3D 오디오 효과들이 정확하지 않을 것인데, 이는 예를 들어 대칭의 가정이 위반되기 때문이다.
청취 환경에서의 청취자 포지션의 결정 또는 추정을 이제 참조하면, 본 명세서에서 논의되는 이미지 프로세서 회로(530)는, 일 예에서, 청취자의 얼굴 폭 또는 청취자의 눈들 사이의 거리가 일정하다는 가정으로 동작할 수 있다. 이미지 프로세서 회로(530)로부터의 청취자 포지션 정보는, 일 예에서, 청취자로부터 카메라까지의 거리 및 방위각을 포함할 수 있다. 임의로, 청취자의 포지션 정보는 또한 앙각, 머리 요, 머리 피치, 및/또는 머리 롤 각도를 포함할 수도 있다. 청취자 포지션을 추정하기 위해 다양한 상이한 방법들이 사용될 수 있다.
도 9는 일반적으로 비디오 이미지 소스(521) 및/또는 카메라(301)와 같은 카메라의 시야에서 청취자 포지션을 추정하는 단계를 포함하는 방법의 예를 예시한다. 도 9의 예에서, 이 방법은, 먼저 청취자의 거리를 추정한 후에 추정된 거리에 기초하여 청취자의 방위각 및 양각을 추정하는 단계를 포함할 수 있다. 이 방법은 다음과 같이 구현될 수 있다.
먼저, 머신 또는 컴퓨터 비전 분석 회로(예를 들어, 이미지 프로세서 회로(530))는 카메라(예를 들어, 카메라(301) 및/또는 비디오 이미지 소스(521))로부터 비디오 입력 스트림(예를 들어, 이미지 신호(523))을 수신하고, 이에 응답하여, 예컨대 제1 알고리즘을 사용하여, 청취자의 한쪽 또는 양쪽 눈들의 포지션에 관한 정보 및/또는 얼굴 직사각형을 제공 또는 결정할 수 있다. 제1 알고리즘은 청취자 포지션 추정의 정밀도를 개선시키기 위해 예컨대 이미지 소스의(예를 들어, 카메라 또는 렌즈의) 고유 파라미터들에 기초하여, 얼굴 직사각형을 검출하기 전에 또는 검출한 후에 왜곡 보정 모듈을 임의로 사용할 수 있다.
머신 또는 컴퓨터 비전 분석 회로(예를 들어, 이미지 프로세서 회로(530))는 (예를 들어, 픽셀 단위의) 추정된 얼굴 직사각형 폭 또는 (예를 들어, 픽셀 단위의) 눈 거리를 사용하여 이미지 소스로부터(예를 들어, 깊이 센서 또는 카메라로부터) 청취자의 얼굴 중심까지의 (예를 들어, 밀리미터 단위의) 거리를 계산할 수 있다. 거리 계산은, 예를 들어 얼굴 폭 또는 눈들 사이의 거리가 일정하다는 가정을 사용하여, 다른 것들 중에서도, 카메라 하드웨어 파라미터들 또는 실험적 캘리브레이션 파라미터들에 기초할 수 있다. 일 예에서, 눈 거리 및/또는 머리 폭은 대부분의 청취자들에 대해, 또는 시스템에 의해 검출될 가능성이 가장 많은 청취자들에 대해 고정된 또는 기준 값을 갖는 것으로 가정될 수 있다. 예를 들어, 대부분의 성인 머리들은 직경이 약 14 cm이고 대부분의 눈들은 약 5 cm 떨어져 있다. 이들 기준 치수들은, 예를 들어, 센서로부터의 청취자의 거리를 결정하기 위한 프리커서(precursor)로서, 깊이 센서 또는 카메라에 대한 청취자의 배향에 관한 정보를 검출 또는 보정하는 데 사용될 수 있다. 다시 말해, 시스템은 먼저 청취자의 머리 배향을 결정한 후에 머리 배향 정보를 사용하여 센서로부터 청취자까지의 거리를 결정하도록 구성될 수 있다.
일 예에서, 전방을 향하는 청취자에 대해 눈 거리, 또는 동공 거리는 약 5 cm인 것으로 가정될 수 있다. 동공 거리 가정은, 예를 들어, 연령 또는 성별 검출 알고리즘에 기초하여 조정될 수 있다. 동공 거리는 수신된 이미지에서의 픽셀 단위의 특정 폭에 대응하는데, 예컨대 이미지에서의 눈 포지션들, 카메라의 시야, 및 유사한 '얼굴 폭' 알고리즘에 대해 본 명세서에서 제시되는 공식들을 사용하여 각도로 컨버팅될 수 있다. 이 예에서, 각도 값은 카메라로부터의 특정 거리에 대응한다. 일단 기준 측정(예를 들어, 밀리미터 단위의 청취자까지의 기준 거리, 및 예컨대 라디안 단위로 컨버팅되는, 픽셀 단위의 대응하는 동공 거리)이 이루어지면, 예컨대 동일한 또는 상이한, 전방을 향하는 청취자에 대해, 추후에 검출되는 동공 거리를 사용하여 청취자까지의 거리가 결정될 수 있다.
전방 이외의 방향을 (예를 들어, 카메라에 대한 어떤 각도로) 향하고 있을 수도 있는 청취자의 경우, (예를 들어, 머리 요, 롤 및/또는 피치 각도들을 검출 또는 결정하도록 구성되는) 머리 배향 추적 알고리즘으로부터의 정보가 사용되어, 예를 들어, 성인 얼굴에 대한 143 밀리미터 직경의 구체(sphere)에 대해 검출된 눈 중심 포지션을 회전시킬 수 있다. 동공 거리에 대해 상기에 유사하게 설명된 바와 같이, 추정된 또는 기준 머리 직경은, 예를 들어, 청취자의 연령 또는 성별에 따라 변경될 수 있다. 가상 구체를 중심으로 검출된 눈 중심을 회전시킴으로써, 보정된 또는 대응하는, 전방을 향하는 눈 포지션들이 계산될 수 있다.
거리 계산에 뒤이어, 임의적인 분류 알고리즘이 포지션 또는 거리 추정의 정확도를 향상 또는 개선시키는 데 사용될 수 있다. 예를 들어, 분류 알고리즘은 청취자의 연령 및/또는 성별을 결정하고, 대응하는 얼굴 폭 파라미터 또는 눈 거리 파라미터를 적용하도록 구성될 수 있다.
다음으로, 픽셀 단위의 얼굴 이미지 중심(예를 들어, image_width/2, image_height/2) 및 픽셀 단위의 얼굴 중심에 대한 지식을 이용하여, 이 방법은, 픽셀 단위의 얼굴 평면에서의 수평 및 수직 거리들을 계산하는 단계를 포함할 수 있다. 일정한 성인 얼굴 폭(예를 들어, 약 143 밀리미터들)과 픽셀 단위의 그의 검출된 사이즈를 가정하면, 거리들은, 예를 들어 다음의 것을 사용하여, 밀리미터 단위로 컨버팅될 수 있다:
거리(mm) = 거리(픽셀들) * face_width(mm) / face_width(픽셀들).
2개의 거리 값들을 사용하여, 이 방법은 이미지 중심으로부터 얼굴 중심까지의 대각선 거리를 계산하는 것으로 계속될 수 있다. 이제 카메라로부터 청취자의 얼굴까지의 알려져 있는 거리 및 이미지 중심으로부터 청취자의 얼굴까지의 거리를 이용하여, 얼굴 평면까지의 거리를 계산하기 위해 피타고라스 정리가 사용될 수 있다.
다음으로, 방위각이 계산될 수 있다. 방위각은 얼굴 평면의 중심 라인과 수평 평면에서의 얼굴까지의 거리의 투영 사이의 각도이다. 방위각은 이미지 중심과 얼굴 포지션 사이의 수평 거리와 중심 라인 사이의 아크탄젠트로서 계산될 수 있다.
앙각이 유사하게 결정될 수 있다. 양각은, 카메라로부터 얼굴 중심까지의 라인과, 이미지 중심을 가로지르는 수평 평면으로의 그의 투영 사이의 각도이다. 양각은 수직 거리와 청취자 거리 사이의 비율의 아크사인으로서 계산될 수 있다.
최종적으로, 추정된 청취자 포지션은 청취자 포지션의 임의의 바람직하지 않은 변동들 또는 급격한 변경들을 감소시키기 위해 히스테리시스를 적용함으로써 임의로 필터링될 수 있다.
일 예에서, 청취 환경에서 청취자 포지션을 추정하기 위한 다른 방법은, 청취자의 거리 및 각도를 독립적으로 결정하는 단계를 포함한다. 이 방법은, 캘리브레이션 활동 동안 획득될 수 있는 바와 같은, 카메라의 시야(FOV)에 관한 정보를 사용한다.
도 10은 일반적으로 카메라에 의해 캡처되는 이미지 상에서의 투영에 대한 청취자 얼굴 위치의 예(1000)를 예시한다. 환경에서 움직이고 카메라를 향하며 카메라에 대해 비교적 일정하거나 또는 변하지 않는 거리를 유지하는 청취자 얼굴은 구체를 대략 설명할 수 있다. 수평 및 수직 움직임들을 독립적으로 취하면, 얼굴은 수평 축 상의 원과 수직 축 상의 원을 설명할 수 있다. 카메라는 특정 또는 고정된 시야에서만 단지 볼 수 있기 때문에, 단지 원의 일부분만이 카메라에 가시적일 수도 있다. 가시적 부분은 일반적으로 시야 또는 시계(field of vision)(FOV)라고 지칭된다. 실제 장면은 카메라의 렌즈를 통해, 예를 들어 라인들이 수렴하는 중심을 향해 이미지 투영을 통과하는 라인들을 따라, 카메라 센서 상에 투영된다. 이러한 통찰력으로, 이미지에서의 각각의 픽셀의 이미지 중심에 대한 각도는, 예컨대 픽셀 단위 대신에, 라디안 단위로 회복 및 표현될 수 있다. 예(1000)에서, x1 및 x2는 청취자의 얼굴의 코너들 또는 에지들의 위치들을 표현하고, D는 카메라까지의 거리를 표현한다.
도 11은 일반적으로 이미지 좌표들을 결정하는 예(1100)를 예시한다. 예(1100)는 카메라의 시야에서 임의의 이미지 좌표에 대한 각도를 결정 또는 회복하는 것을 포함할 수 있다. 도 11의 예에서, x는 각도로서 추정될 이미지에서의 포지션을 표시하고, y는 임의의 값 x를 추정하는 데 사용될 수 있는 이미지 폭 및 시야로부터의 계산된 값을 표시한다. 각도 θ 1 은 카메라 시야의 절반을 표시하고, 각도 θ 2 는, 예컨대 x에 대응하는, 결정할 원하는 각도 값을 표시한다. 따라서, 청취자의 방위각(x_in_radians)은 다음과 같이 계산될 수 있다.
Figure pct00003
캘리브레이션 이벤트 동안, 카메라까지의 기준 얼굴 거리(d_ref)가 측정될 수 있고 라디안 단위의 대응하는 기준 얼굴 폭(w_ref)이 기록될 수 있다. 기준 값들을 사용하면, 장면에서의 임의의 얼굴에 대해, 얼굴 폭이 라디안 단위로 컨버팅될 수 있고(w_est) 카메라까지의 거리 d는 다음과 같이 계산될 수 있다.
Figure pct00004
일 예에서, 수평 FOV 및 이미지 사이즈가 알려진 경우, 그러면 수직 FOV는 다음과 같이 계산될 수 있다.
Figure pct00005
라디안 단위의 앙각(e_in_radians)은 다음과 같이 유사하게 계산될 수 있다.
Figure pct00006
본 명세서에서 논의되는 시스템들 및 방법들에 따른 스윗 스팟 어뎁테이션은, 예컨대 오디오 신호들에 딜레이 및/또는 이득 보상을 적용함으로써, 가상화기 회로들 및 스윗 스팟 어댑터 회로들 중 하나 또는 이들의 조합을 사용하여 수행될 수 있다. 일 예에서, 스윗 스팟 어댑터 회로는 가상화기 회로로부터 출력된 오디오 신호들에 딜레이 및/또는 이득 보상을 적용하고, 스윗 스팟 어댑터 회로는 특정된 양의 딜레이를 적용하거나 그리고/또는 청취자 포지션 또는 배향에 관한 정보에 기초한다. 일 예에서, 가상화기 회로는 HRTF들과 같은 하나 이상의 상이한 가상화 필터들을 적용하고, 하나 이상의 가상화 필터들은 청취자 포지션 또는 배향에 관한 정보에 기초하여 선택된다. 일 예에서, 가상화기 회로 및 스윗 스팟 어댑터 회로는 청취 환경에서의 스윗 스팟 어뎁테이션 또는 재위치를 위해 적절한 오디오 가상화를 실현하기 위해 함께 작동하도록 조정 또는 구성될 수 있다.
딜레이 및 이득 보상은 가상화된 오디오 신호들의 플레이백을 위해 사용되는 2개 이상의 스피커들과 청취자 사이의 거리를 사용하여 수행될 수 있다. 거리는 카메라에 대한 청취자의 포지션에 관한 정보를 사용하여 그리고 카메라에 대한 라우드스피커들의 포지션에 관한 정보를 사용하여 계산될 수 있다. 일 예에서, 이미지 프로세서 회로는 카메라 및/또는 라우드스피커에 대한 청취자의 방위각, 청취자로부터 카메라까지의 거리, 기준 평면 또는 라인에 대한 앙각, 및 얼굴 요 각도, 얼굴 피치 각도, 및/또는 롤 각도에 관한 정보를 추정 또는 제공하도록 구성될 수 있다.
도 12는 일반적으로 카메라의 시야에서 청취자의 좌표들을 결정하는 예(1200)를 예시한다. 예를 들어, 카메라에 대한 청취자의 데카르트 좌표들이 제공될 수 있다. 도 12의 예에서, 카메라의 포지션은 좌표계의 원점이 된다. 이 경우에, 청취자의 데카르트 좌표들은 다음의 것을 사용하여 계산될 수 있고,
Figure pct00007
여기서 d는 카메라와 청취자 사이의 추정된 거리이고, α는 방위각이며, φ는 양각이다.
일 예에서, 좌측 스피커 및 우측 스피커의 좌표들은 각각
Figure pct00008
Figure pct00009
일 수 있다. 청취자와 2개의 라우드스피커들 사이의 거리가 그 후에 다음과 같이 계산될 수 있다.
Figure pct00010
샘플들의 딜레이(D)가 다음과 같이 계산될 수 있고,
Figure pct00011
예컨대 여기서 C는 공기 중의 음속(실온에서 대략 343 m/s)이다. D가 양수인 경우, 그러면 딜레이가 우측 채널에 적용된다. 그렇지 않으면, 딜레이가 좌측 채널에 적용된다.
일 예에서, 이득 보상은, 예컨대 딜레이에 부가적으로 또는 대안적으로, 하나 이상의 오디오 신호들 또는 채널들에 적용될 수 있다. 일 예에서, 이득 보상은 2개의 라우드스피커들 사이의 거리 차이에 기초할 수 있다. 예를 들어, dB의 이득은 다음과 같이 계산될 수 있다.
Figure pct00012
전체 사운드 레벨을 유지하기 위해, 청취자에 대한 더 먼 스피커의 이득이 증가될 수 있는 한편, 더 가까운 스피커의 이득이 감소될 수 있다. 그러한 경우에, 적용된 이득은 계산된 이득 값의 약 절반일 수 있다.
도 13은 일반적으로 랩톱 컴퓨터에 대한 카메라와 라우드스피커 사이의 관계의 예(1300)를 예시한다. 도 13의 예에서, 랩톱 컴퓨터에 고정된 좌측 및 우측 라우드스피커들(스피커 L 및 스피커 R)은 동일한 랩톱 컴퓨터에 고정된 카메라와는 상이한 축을 가질 수 있다. 부가적으로, 랩톱 컴퓨터의 스크린 각도가 전형적으로 정확히 90도가 아니다. 도 13을 참조하면, 카메라의 포지션이 좌표계의 원점으로 간주되는 경우, 그러면 좌측 스피커, 즉, 스피커 L의 포지션은 다음과 같이 표현될 수 있다.
Figure pct00013
유사하게, 우측 스피커, 즉, 스피커 R의 포지션은 다음과 같이 표현될 수 있다.
Figure pct00014
일 예에서, q가 0이고 c가 0일 때, 그러면 좌측 및 우측 스피커들의 포지션들은 각각
Figure pct00015
Figure pct00016
이다. 이 경우에, 2개의 스피커들은 y축과 일치한다. 그러한 배향은, 예를 들어, 사운드바를 포함 또는 사용하는 구현들에서 전형적일 수 있다(예를 들어, 도 4의 예 참조).
일 예에서, q가 0이고 α가 0일 때, 그러면 좌측 및 우측 스피커들의 포지션들은 각각
Figure pct00017
Figure pct00018
이다. 이 경우에, 2개의 스피커들은 y-z 평면 상에 있다. 그러한 배향은, 예를 들어, TV를 포함하는 구현들에서 전형적일 수 있다(예를 들어, 도 1 내지 도 3의 예들 참조).
그러나, 랩톱 컴퓨터의 가변 스크린 각도로 인해, 카메라의 피치 각도는 동일하게 0이 아닐 수도 있다. 즉, 카메라가 x-축 방향을 향하지 않거나, 또는 그와 일치하지 않을 수도 있다. 따라서, 검출된 청취자 포지션은 청취자와 2개의 스피커들 사이의 거리를 계산하기 전에 조정될 수 있다. 청취자의 포지션은 카메라가 x-축 방향을 향하도록 x-z 평면에서 카메라 피치 각도만큼 회전될 수 있다. 예를 들어, 조정된 청취자 포지션은 다음과 같이 표현될 수 있다.
Figure pct00019
청취자 포지션이 조정된 후에, 청취자로부터 각각의 스피커까지의 거리가 계산될 수 있다.
앞서 논의된 바와 같이, 결정된 청취자 포지션의 다양한 변경들 또는 변동들을 수용하기 위해 딜레이 및 이득 파라미터들을 필터링하는 것이 사용자 경험에 이로울 수 있다. 즉, 비의도된 오디오 변동들을 감소시키기 위해 추정된 딜레이 값(D est ) 및/또는 추정된 이득 값(G est )을 필터링하는 것이 청취자 경험에 이로울 수 있다. 효율적인 접근법이, 예를 들어, 이동 평균 필터(running average filter)를 적용하는 것이고,
Figure pct00020
여기서 α는 0 내지 1의 평활화 상수이고, D next G next 는 후속 또는 다음 딜레이 및 이득 값들이며, D prev G prev 는 이전 딜레이 및 이득 값들이다. 중앙값 필터링과 같은 평활화를 위한 대안적인 접근법들이 부가적으로 또는 대안적으로 사용될 수 있다.
일 예에서, 사용자 인터페이스는 비디오 이미지 소스(예를 들어, 카메라), 이미지 프로세서 회로, 또는 예컨대 가상화기 회로 또는 스윗 스팟 어댑터 회로를 포함하는 오디오 프로세서 회로 중 하나 이상으로부터 정보를 수신하도록 구성될 수 있다. 사용자 인터페이스는 비디오 이미지 소스(예를 들어, 카메라) 및/또는 오디오 프로세서 회로의 동작 상태를 표시하기 위한 정보 또는 피드백을, 예컨대 청취자에게 제공하도록 구성될 수 있다.
예를 들어, 비디오 이미지 소스는, 제한된 시야를 갖는 카메라를 포함할 수 있다. 청취자가 카메라의 시야를 벗어날 때, 청취 환경에서 그리고 시야에서 청취자의 실제 포지션을 수용하는 가상화 프로세싱을 가능하게 하기 위해, 예컨대 청취자가 카메라의 시야 내의 포지션으로 이동해야 함을 표시하기 위한 표시 또는 경고를 UI를 사용하여 청취자에게 제공하는 것이 도움이 될 수 있다. 일 예에서, UI는, 예를 들어 이미지 프로세서 회로로부터의 청취자 위치 신호에 관한 정보를 포함하는, 청취자 포지션 추적기의 상태를 표시하기 위한 텍스트 또는 이미지들을 스크린 상에 디스플레이할 수 있다. 다른 예들은, 예컨대 청취 환경에서의 하나 이상의 이용가능한 스윗 스팟들의 표시와 함께, 비디오 이미지 소스로부터 추출된 비디오 또는 스틸 이미지들 또는 다른 정보를 디스플레이하는 것을 포함할 수 있다. UI가 또한 사용되어, 카메라가 포커스를 벗어나거나 또는 적절하게 포커싱하는 것이 불가능할 때를 청취자에게 표시할 수 있다.
본 명세서에서 논의되는 3D 스윗 스팟 어뎁테이션 시스템들 및 방법들의 대안적인 실시예들이 가능하다. 본 명세서에 설명되는 것들 이외의 많은 다른 변형들이 본 문서로부터 명백할 것이다. 예를 들어, 실시예에 따라, 본 명세서에서 설명되는 방법들 및 알고리즘들 중 임의의 것의 특정 액트(act)들, 이벤트들, 또는 기능들은 상이한 시퀀스로 수행될 수 있거나, 부가, 병합, 또는 함께 제외될 수 있다(그 결과, 방법들 및 알고리즘들의 실행을 위해 설명된 액트들 또는 이벤트들 모두가 필요한 것은 아니다). 더욱이, 특정 실시예들에서, 액트들 또는 이벤트들은, 순차적이기보다는, 예컨대 멀티-스레딩된 프로세싱, 인터럽트 프로세싱, 또는 다수의 프로세서들 또는 프로세서 코어들을 통해 또는 다른 병렬 아키텍처들 상에서, 동시적으로 수행될 수 있다. 부가적으로, 상이한 태스크들 또는 프로세스들은, 함께 기능할 수 있는 상이한 머신들, 회로들, 및 컴퓨팅 시스템들에 의해 수행될 수 있다. 예를 들어, 오디오 가상화 및 스윗 스팟 어뎁테이션은 이산 회로들 또는 시스템들을 사용하여 수행될 수 있거나, 또는 공통, 범용 프로세서를 사용하여 수행될 수 있다.
본 명세서에 개시된 실시예들과 관련되어 설명된 다양한 예시적인 논리 블록들, 모듈들, 방법들, 및 알고리즘 프로세스들 및 시퀀스들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들 양쪽의 조합들로서 구현될 수 있다. 하드웨어와 소프트웨어의 이 상호교환가능성을 명확히 예시하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 및 프로세스 액션들이 이들의 기능성의 관점에서 일반적으로 상술되었다. 그러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 전체 시스템에 부과되는 설계 제약들 및 특정 애플리케이션에 좌우된다. 설명된 기능성은 각각의 특정 애플리케이션에 대한 다양한 방법들로 구현될 수 있지만, 그러한 구현 판정들은 본 문서의 범주로부터의 벗어남을 야기시키는 것으로 해석되어서는 안 된다. 본 명세서에서 설명되는 스윗 스팟 어뎁테이션 및 이미지 프로세싱 방법들 및 기법들의 실시예들은, 도 14의 논의에서 설명된 바와 같은 수많은 타입들의 범용 또는 특수 목적 컴퓨팅 시스템 환경들 또는 구성들 내에서 동작한다.
본 명세서에 개시된 실시예들과 관련되어 설명된 다양한 예시적인 논리 블록들 및 모듈들은 본 명세서에서 설명되는 기능들을 수행하도록 설계된 머신, 예컨대 범용 프로세서, 프로세싱 디바이스, 하나 이상의 프로세싱 디바이스들을 갖는 컴퓨팅 디바이스, 디지털 신호 프로세서(digital signal processor)(DSP), 주문형 집적 회로(application specific integrated circuit)(ASIC), 필드 프로그래밍가능 게이트 어레이(field programmable gate array)(FPGA) 또는 다른 프로그래밍가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 이들의 임의의 조합으로 구현 또는 수행될 수 있다. 범용 프로세서 및 프로세싱 디바이스는 마이크로프로세서일 수 있지만, 대안적으로, 프로세서는 제어기, 마이크로제어기, 또는 상태 머신, 이들의 조합들, 또는 이와 유사한 것일 수 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 조합, 예컨대 DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 협력하는 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수 있다.
추가로, 본 명세서에 설명되는 가상화 및/또는 스윗 스팟 어뎁테이션의 다양한 예들 중 일부 또는 전부를 구체화하는 소프트웨어, 프로그램들, 또는 컴퓨터 프로그램 제품들 중 하나 또는 이들의 임의의 조합, 또는 이들의 부분들이 저장, 수신, 송신되거나, 또는 컴퓨터 실행가능 명령어들 또는 다른 데이터 구조체들의 형태로 컴퓨터 또는 머신 판독가능 매체들 또는 저장 디바이스들 및 통신 매체들의 임의의 원하는 조합으로부터 판독될 수도 있다. 본 청구 대상은 구조적 피처들 및/또는 방법론적 액트들에 특정된 언어로 설명되었지만, 첨부된 청구범위에 정의된 본 청구 대상은 반드시 본 명세서에서 설명되는 특정 피처들 또는 액트들에 제한되는 것은 아니라는 것이 이해되어야 한다. 오히려, 상술된 특정 피처들 및 액트들은 청구범위를 구현하는 예시적인 형태들로서 개시된다.
다양한 시스템들 및 머신들은, 예컨대 HRTF들을 사용하는 센서 또는 이미지, 오디오 가상화 프로세싱, 및/또는 예컨대 하나 이상의 신호들의 이득 및/또는 딜레이 필터링을 사용하는 스윗 스팟 어뎁테이션을 위한 오디오 신호 프로세싱으로부터의 정보를 사용하는 청취자 포지션 또는 배향 결정 또는 추정을 포함하지만 이에 제한되지 않는, 본 명세서에서 설명되는 신호 프로세싱 태스크들 중 하나 이상을 수행 또는 이행하도록 구성될 수 있다. 개시된 회로들 또는 프로세싱 태스트들 중 임의의 하나 이상이 범용 머신을 사용하여 또는 다양한 프로세싱 태스크들을 수행하는 특수 목적으로 구축된 머신을 사용하여, 예컨대 유형(tangible)의 비일시적 프로세서 판독가능 매체로부터 검색되는 명령어들을 사용하여 구현 또는 수행될 수 있다.
도 14는 머신 판독가능 매체(예를 들어, 머신 판독가능 저장 매체)로부터 명령어들(1416)을 판독하고 본 명세서에서 논의되는 방법론들 중 임의의 하나 이상을 수행하는 것이 가능한, 일부 예들에 따른, 머신(1400)의 컴포넌트들을 예시하는 블록도이다. 구체적으로는, 도 14는 컴퓨터 시스템의 예시적인 형태의 머신(1400)의 도식적 표현을 도시하고, 그 내에서는 머신(1400)으로 하여금 본 명세서에서 논의되는 방법론들 중 임의의 하나 이상을 수행하게 하기 위한 명령어들(1416)(예를 들어, 소프트웨어, 프로그램, 애플리케이션, 애플릿, 앱, 또는 다른 실행가능 코드)이 실행될 수도 있다. 예를 들어, 명령어들(1416)은, 예컨대 본 명세서에서 논의되는 오디오 신호 프로세싱 및/또는 이미지 신호 프로세싱을 이행하도록 구성될 수 있는, 도 5a, 도 5b, 도 6, 및/또는 도 8의 모듈들 또는 회로들 또는 컴포넌트들 중 하나 이상을 구현할 수 있다. 명령어들(1416)은, 일반적인 비-프로그래밍된 머신(1400)을, (예를 들어, 오디오 프로세서 회로로서) 설명된 방식으로 설명되고 예시되는 기능들을 이행하도록 프로그래밍되는 특정 머신으로 변환할 수 있다. 대안적인 실시예들에서, 머신(1400)은 독립형 디바이스로서 동작하거나 또는 다른 머신들에 커플링(예를 들어, 네트워킹)될 수 있다. 네트워킹된 배치에서, 머신(1400)은 피어-투-피어(또는 분산) 네트워크 환경에서의 피어 머신으로서, 또는 서버-클라이언트 네트워크 환경에서의 서버 머신 또는 클라이언트 머신의 능력으로 동작할 수 있다.
머신(1400)은 서버 컴퓨터, 클라이언트 컴퓨터, 퍼스널 컴퓨터(personal computer)(PC), 태블릿 컴퓨터, 랩톱 컴퓨터, 넷북, 셋톱 박스(set-top box)(STB), 개인 휴대 정보 단말기(personal digital assistant)(PDA), 엔터테인먼트 미디어 시스템 또는 시스템 컴포넌트, 셀룰러 전화기, 스마트폰, 모바일 디바이스, 웨어러블 디바이스(예를 들어, 스마트 워치), 스마트 홈 디바이스(예를 들어, 스마트 어플라이언스), 다른 스마트 디바이스들, 웹 어플라이언스, 네트워크 라우터, 네트워크 스위치, 네트워크 브리지, 헤드폰 드라이버, 또는 머신(1400)에 의해 취해질 액션들을 특정하는 명령어들(1416)을 순차적으로 또는 다른 방식으로 실행하는 것이 가능한 임의의 머신을 포함할 수 있지만, 이들로 제한되지 않는다. 추가로, 단지 단일 머신(1400)만이 예시되어 있지만, 용어 "머신"은 본 명세서에서 논의되는 방법론들 중 임의의 하나 이상을 수행하기 위해 명령어들(1416)을 개별적으로 또는 공동으로 실행하는 머신들(1400)의 집합을 포함하도록 또한 취급되어야 한다.
머신(1400)은, 예컨대 오디오 프로세서 회로를 포함하는 프로세서들(1410), 비일시적 메모리/스토리지(1430), 및 I/O 컴포넌트들(1450)을 포함 또는 사용할 수 있는데, 이들은 예컨대 버스(1402)를 통해 서로 통신하도록 구성될 수 있다. 예시적인 실시예에서, 프로세서들(1410)(예를 들어, 중앙 프로세싱 유닛(central processing unit)(CPU), 축소 명령 집합 컴퓨팅(reduced instruction set computing)(RISC) 프로세서, 복합 명령 집합 컴퓨팅(complex instruction set computing)(CISC) 프로세서, 그래픽 프로세싱 유닛(graphics processing unit)(GPU), 디지털 신호 프로세서(DSP), ASIC, 무선 주파수 집적 회로(radio-frequency integrated circuit)(RFIC), 다른 프로세서, 또는 이들의 임의의 적합한 조합)은, 예를 들어, 명령어들(1416)을 실행할 수도 있는 프로세서(1414) 및 프로세서(1412)와 같은 회로를 포함할 수 있다. 용어 "프로세서"는 명령어들(1416)을 동시에 실행할 수도 있는 2개 이상의 독립적인 프로세서들(1412, 1414)(때때로 "코어들"이라고 지칭됨)을 포함할 수 있는 멀티-코어 프로세서(1412, 1414)를 포함하도록 의도된다. 도 14는 다수의 프로세서들(1410)을 도시하지만, 머신(1400)은, 단일 코어를 갖는 단일 프로세서(1412, 1414), 다수의 코어들을 갖는 단일 프로세서(1412, 1414)(예를 들어, 멀티-코어 프로세서(1412, 1414)), 단일 코어를 갖는 다수의 프로세서들(1412, 1414), 다수의 코어들을 갖는 다수의 프로세서들(1412, 1414), 또는 이들의 임의의 조합을 포함할 수도 있고, 여기서 프로세서들 중 임의의 하나 이상은, 오디오 및/또는 비디오 신호 정보, 또는 다른 데이터를 인코딩하도록 구성되는 회로를 포함할 수 있다.
메모리/스토리지(1430)는 메인 메모리 회로, 또는 다른 메모리 저장 회로와 같은 메모리(1432), 및 저장 유닛(1436)을 포함할 수 있는데, 이들 양측 모두는 예컨대 버스(1402)를 통해 프로세서들(1410)에 액세스가능하다. 저장 유닛(1436) 및 메모리(1432)는 본 명세서에서 설명되는 방법론들 또는 기능들 중 임의의 하나 이상을 구체화하는 명령어들(1416)을 저장한다. 명령어들(1416)은 또한, 머신(1400)에 의한 이들의 실행 동안, 완전히 또는 부분적으로, 메모리(1432) 내에, 저장 유닛(1436) 내에, 프로세서들(1410) 중 적어도 하나 내에(예를 들어, 프로세서(1412, 1414)의 캐시 메모리 내에), 또는 이들의 임의의 적합한 조합으로 상주할 수도 있다. 이에 따라, 메모리(1432), 저장 유닛(1436), 및 프로세서들(1410)의 메모리는 머신 판독가능 매체들의 예들이다. 일 예에서, 메모리/스토리지(1430)는 예견 버퍼 회로(120) 또는 그의 하나 이상의 인스턴스들을 포함한다.
본 명세서에서 사용되는 바와 같이, "머신 판독가능 매체"는 명령어들(1416) 및 데이터를 일시적으로 또는 영구적으로 저장하는 것이 가능한 디바이스를 의미하고, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 버퍼 메모리, 플래시 메모리, 광학 매체들, 자기 매체들, 캐시 메모리, 다른 타입들의 스토리지(예를 들어, 소거가능 프로그래밍가능 판독 전용 메모리(EEPROM)), 및/또는 이들의 임의의 적합한 조합을 포함할 수도 있지만, 이들로 제한되지 않는다. 용어 "머신 판독가능 매체"는 명령어들(1416)을 저장하는 것이 가능한 단일 매체 또는 다수의 매체들(예를 들어, 중앙집중 또는 분산 데이터베이스, 또는 연관된 캐시들 및 서버들)을 포함하도록 취급되어야 한다. 용어 "머신 판독가능 매체"는 머신(예를 들어, 머신(1400))에 의한 실행을 위해 명령어들(예를 들어, 명령어들(1416))을 저장하는 것이 가능한 임의의 매체, 또는 다수의 매체들의 조합을 포함하여, 명령어들(1416)이, 머신(1400)의 하나 이상의 프로세서들(예를 들어, 프로세서들(1410))에 의해 실행될 때, 머신(1400)으로 하여금 본 명세서에서 설명되는 방법론들 중 임의의 하나 이상을 수행하게 하도록 또한 취급되어야 한다. 이에 따라, "머신 판독가능 매체"는 단일 저장 장치 또는 디바이스뿐만 아니라, 다수의 저장 장치 또는 디바이스들을 포함하는 "클라우드 기반" 저장 시스템들 또는 저장 네트워크들을 지칭한다. 용어 "머신 판독가능 매체"는 신호들 그 자체를 배제한다.
I/O 컴포넌트들(1450)은 입력을 수신하는 것, 출력을 제공하는 것, 출력을 생성하는 것, 정보를 송신하는 것, 정보를 교환하는 것, 측정들을 포착하는 것 등을 하기 위한 다양한 컴포넌트들을 포함할 수도 있다. 특정 머신(1400)에 포함되는 특정 I/O 컴포넌트들(1450)은 머신(1400)의 타입에 의존할 것이다. 예를 들어, 모바일 폰들과 같은 휴대용 머신들은 터치 입력 디바이스, 카메라, 또는 다른 그러한 입력 메커니즘들을 포함할 가능성이 있을 것이지만, 헤드리스 서버 머신은 그러한 터치 입력 디바이스를 포함하지 않을 가능성이 있을 것이다. I/O 컴포넌트들(1450)은, 도 14에 도시되지 않은 많은 다른 컴포넌트들을 포함할 수도 있다는 것을 인식할 것이다. I/O 컴포넌트들(1450)은 단지 다음의 논의를 단순화하기 위해 기능성에 의해 그룹화되고, 그룹화는 결코 제한하는 것이 아니다. 다양한 예시적인 실시예들에서, I/O 컴포넌트들(1450)은 출력 컴포넌트들(1452) 및 입력 컴포넌트들(1454)을 포함할 수도 있다. 출력 컴포넌트들(1452)은 시각적 컴포넌트들(예를 들어, 플라즈마 디스플레이 패널(PDP), 발광 다이오드(LED) 디스플레이, 액정 디스플레이(LCD), 프로젝터, 또는 음극선관(CRT)과 같은 디스플레이), 음향 컴포넌트들(예를 들어, 라우드스피커들), 햅틱 컴포넌트들(예를 들어, 진동 모터, 저항 메커니즘들), 다른 신호 생성기들 등을 포함할 수 있다. 입력 컴포넌트들(1454)은 영숫자 입력 컴포넌트들(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성된 터치스크린, 광-광학 키보드(photo-optical keyboard), 또는 다른 영숫자 입력 컴포넌트들), 포인트 기반 입력 컴포넌트들(예를 들어, 마우스, 터치패드, 트랙볼, 조이스틱, 모션 센서, 또는 다른 포인팅 기구들), 촉각 입력 컴포넌트들(예를 들어, 물리적 버튼, 터치들 또는 터치 제스처들의 위치 및/또는 힘을 제공하는 터치스크린, 또는 다른 촉각 입력 컴포넌트들), 오디오 입력 컴포넌트들(예를 들어, 마이크로폰), 비디오 입력 컴포넌트들, 및 이와 유사한 것을 포함할 수 있다.
추가의 예시적인 실시예들에서, I/O 컴포넌트들(1450)은 다른 컴포넌트들의 광범위한 어레이 중에서 생체인식 컴포넌트들(1456), 모션 컴포넌트들(1458), 환경 컴포넌트들(1460), 또는 포지션(예를 들어, 포지션 및/또는 배향) 컴포넌트들(1462)을 포함할 수 있다. 예를 들어, 생체인식 컴포넌트들(1456)은 표현들(예를 들어, 손 표현들, 얼굴 표현들, 보컬 표현들, 보디 제스처들, 또는 눈 추적)을 검출하는 것, 생체신호들(예를 들어, 혈압, 심박수, 체온, 땀, 또는 뇌파들)을 측정하는 것, 사람을 식별(예를 들어, 음성 식별, 망막 식별, 얼굴 식별, 지문 식별, 또는 뇌파도(electroencephalogram) 기반 식별)하는 것, 및 이와 유사한 것을 하기 위한 컴포넌트들을 포함할 수 있는데, 이 컴포넌트들은 예컨대, 예를 들어, 청취자-특정 또는 환경-특정 필터의 포함, 사용, 또는 선택에 영향을 줄 수 있다. 모션 컴포넌트(1458)는 가속도 센서 컴포넌트들(예를 들어, 가속도계), 중력 센서 컴포넌트들, 회전 센서 컴포넌트들(예를 들어, 자이로스코프) 등을 포함할 수 있는데, 예컨대 스윗 스팟을 업데이트 또는 조정하기 위해 프로세서에 의해 추가로 고려 또는 사용될 수 있는, 청취자의 위치의 변경들을 추적하는 데 사용될 수 있다. 환경 컴포넌트들(1460)은, 예를 들어, 조명 센서 컴포넌트들(예를 들어, 광도계), 온도 센서 컴포넌트들(예를 들어, 주위 온도를 검출하는 하나 이상의 온도계들), 습도 센서 컴포넌트들, 압력 센서 컴포넌트들(예를 들어, 기압계), 음향 센서 컴포넌트들(예를 들어, 예컨대 하나 이상의 주파수들 또는 주파수 대역들에 대한 잔향 감쇄 시간들을 검출하는 하나 이상의 마이크로폰들), 근접 센서 또는 실내 볼륨 감지 컴포넌트들(예를 들어, 인근의 오브젝트들을 검출하는 적외선 센서들), 가스 센서들(예를 들어, 안전을 위해 유해 가스들의 농도들을 검출하거나 또는 대기에서의 오염물들을 측정하기 위한 가스 검출 센서들), 또는 주위의 물리적 환경에 대응하는 표시들, 측정치들, 또는 신호들을 제공할 수도 있는 다른 컴포넌트들을 포함할 수 있다. 포지션 컴포넌트들(1462)은 위치 센서 컴포넌트들(예를 들어, 글로벌 포지션 시스템(GPS) 수신기 컴포넌트), 고도 센서 컴포넌트들(예를 들어, 고도가 도출될 수도 있게 하는 공기 압력을 검출하는 고도계들 또는 기압계들), 배향 센서 컴포넌트들(예를 들어, 자력계들), 및 이와 유사한 것을 포함할 수 있다.
통신은 매우 다양한 기술들을 사용하여 구현될 수 있다. I/O 컴포넌트들(1450)은, 커플링(1482) 및 커플링(1472) 각각을 통해 머신(1400)을 네트워크(1480) 또는 디바이스들(1470)에 커플링하도록 동작가능한 통신 컴포넌트들(1464)을 포함할 수 있다. 예를 들어, 통신 컴포넌트들(1464)은 네트워크 인터페이스 컴포넌트, 또는 네트워크(1480)와 인터페이싱하기 위한 다른 적합한 디바이스를 포함할 수 있다. 추가의 예들에서, 통신 컴포넌트들(1464)은 유선 통신 컴포넌트들, 무선 통신 컴포넌트들, 셀룰러 통신 컴포넌트들, 근접장 통신(near field communication)(NFC) 컴포넌트들, 블루투스® 컴포넌트들(예를 들어, 블루투스® 저 에너지), Wi-Fi® 컴포넌트들, 및 다른 모달리티(modality)들을 통해 통신을 제공하기 위한 다른 통신 컴포넌트들을 포함할 수 있다. 디바이스들(1470)은 매우 다양한 주변 디바이스들(예를 들어, USB를 통해 커플링된 주변 디바이스) 중 임의의 것 또는 다른 머신일 수 있다.
더욱이, 통신 컴포넌트들(1464)은 식별자들을 검출하거나, 또는 그 식별자들을 검출하도록 동작가능한 컴포넌트들을 포함할 수 있다. 예를 들어, 통신 컴포넌트들(1464)은 무선 주파수 식별(radio frequency identification)(RFID) 태그 판독기 컴포넌트들, NFC 스마트 태그 검출 컴포넌트들, 광학 판독기 컴포넌트들(예를 들어, 범용 제품 코드(Universal Product Code)(UPC) 바 코드와 같은 1차원 바 코드들, 신속 응답(Quick Response)(QR) 코드, 아즈텍 코드(Aztec code), 데이터 매트릭스, 데이터글리프(Dataglyph), 맥시코드(MaxiCode), PDF49, 울트라 코드, UCC RSS-2D 바 코드들과 같은 다차원 바 코드들, 및 다른 광학 코드들을 검출하기 위한 광학 센서), 또는 음향 검출 컴포넌트들(예를 들어, 태깅된 오디오 신호들을 식별하기 위한 마이크로폰들)을 포함할 수 있다. 부가적으로, 인터넷 프로토콜(Internet Protocol)(IP) 지오로케이션(geolocation)을 통한 위치, Wi-Fi® 신호 삼각측량을 통한 위치, 특정 위치를 표시할 수도 있는 NFC 비콘 신호를 검출하는 것을 통한 위치 등과 같이, 다양한 정보가 통신 컴포넌트들(1464)을 통해 도출될 수 있다. 그러한 식별자들은 기준 또는 국부 임펄스 응답, 기준 또는 국부 환경 특성, 또는 청취자-특정 특성 중 하나 이상에 관한 정보를 결정하는 데 사용될 수 있다.
다양한 예시적인 실시예들에서, 예컨대 인코딩된 프레임 데이터 또는 인코딩될 프레임 데이터를 송신하는 데 사용될 수 있는, 네트워크(1480)의 하나 이상의 부분들은, 애드혹 네트워크, 인트라넷, 엑스트라넷, 가상 사설 네트워크(virtual private network)(VPN), 로컬 영역 네트워크(local area network)(LAN), 무선 LAN(wireless LAN)(WLAN), 광역 네트워크(wide area network)(WAN), 무선 WAN(wireless WAN)(WWAN), 도시 영역 네트워크(metropolitan area network)(MAN), 인터넷, 인터넷의 일부분, 공중 교환 전화 네트워크(public switched telephone network)(PSTN)의 일부분, 기존 전화 서비스(plain old telephone service)(POTS) 네트워크, 셀룰러 전화 네트워크, 무선 네트워크, Wi-Fi® 네트워크, 다른 타입의 네트워크, 또는 2개 이상의 그러한 네트워크들의 조합일 수 있다. 예를 들어, 네트워크(1480) 또는 네트워크(1480)의 일부분은 무선 또는 셀룰러 네트워크를 포함할 수 있고, 커플링(1482)은 코드 분할 다중 액세스(Code Division Multiple Access)(CDMA) 커넥션, 모바일 통신용 글로벌 시스템(Global System for Mobile communications)(GSM) 커넥션, 또는 다른 타입의 셀룰러 또는 무선 커플링일 수도 있다. 이 예에서, 커플링(1482)은 단일 캐리어 무선 송신 기술(Single Carrier Radio Transmission Technology)(1xRTT), 진화 데이터 최적화(Evolution-Data Optimized)(EVDO) 기술, 일반 패킷 무선 서비스(General Packet Radio Service)(GPRS) 기술, GSM 진화를 위한 향상된 데이터 레이트들(Enhanced Data rates for GSM Evolution)(EDGE) 기술, 3G, 4세대 무선(4G) 네트워크들을 포함하는 3세대 파트너십 프로젝트(third Generation Partnership Project)(3GPP), 범용 모바일 전기통신 시스템(Universal Mobile Telecommunications System)(UMTS), 고속 패킷 액세스(High Speed Packet Access)(HSPA), 마이크로파 액세스를 위한 세계적 상호운용성(Worldwide Interoperability for Microwave Access)(WiMAX), 롱 텀 에볼루션(Long Term Evolution)(LTE) 표준, 다양한 표준 설정 조직들, 다른 장거리 프로토콜들에 의해 규정되는 다른 것들과 같은 임의의 다양한 타입들의 데이터 전송 기술, 또는 다른 데이터 전송 기술을 구현할 수 있다.
명령어들(1416)은 네트워크 인터페이스 디바이스(예를 들어, 통신 컴포넌트들(1464)에 포함되는 네트워크 인터페이스 컴포넌트)를 통한 송신 매체를 사용하여 그리고 다수의 잘 알려진 전송 프로토콜들(예를 들어, 하이퍼텍스트 전송 프로토콜(HTTP)) 중 임의의 하나를 사용하여 네트워크(1480)를 통해 송신 또는 수신될 수 있다. 유사하게, 명령어들(1416)은 디바이스들(1470)에 대한 커플링(1472)(예를 들어, 피어-투-피어 커플링)을 통한 송신 매체를 사용하여 송신 또는 수신될 수 있다. 용어 "송신 매체"는 머신(1400)에 의한 실행을 위해 명령어들(1416)을 저장, 인코딩, 또는 반송하는 것이 가능한 임의의 무형 매체를 포함하도록 취급되어야 하고, 그러한 소프트웨어의 통신을 용이하게 하기 위한 디지털 또는 아날로그 통신 신호들 또는 다른 무형 매체들을 포함한다.
본 발명의 다양한 양태들은 독립적으로 또는 함께 사용될 수 있다. 예를 들어, 양태 1은, 청구 대상(예컨대, 장치, 시스템, 디바이스, 방법, 액트들을 수행하는 수단, 또는, 디바이스에 의해 수행될 때, 디바이스로 하여금 액트들을 수행하게 할 수 있는 명령어들을 포함하는 디바이스 판독가능 매체)을 포함 또는 사용할 수 있는데, 이 청구 대상은 예컨대, 청취 환경에서 청취자 포지션에 스윗 스팟을 제공하기 위해 스피커에 대한 청취자 포지션에 기초하여 하나 이상의 수신된 오디오 신호들을 조정하는 방법을 포함 또는 사용할 수 있다. 양태 1은, 제1 센서에 의해 모니터링되는 환경에서 청취자 포지션에 관한 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 제1 표시를 수신하는 단계, 및 오디오 프로세서 회로를 사용하여, (1) 청취자 포지션에 관한 수신된 제1 표시, (2) 제1 센서에 대한 스피커의 포지션에 관한 정보, 및 (3) 하나 이상의 수신된 오디오 신호들에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하는 단계를 포함할 수 있다.
양태 2는, 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 제1 표시를 수신하는 단계가, 카메라의 시야에서의 청취자 포지션에 관한 카메라로부터의 정보를 수신하는 단계를 포함하는 것을 임의로 포함하도록, 양태 1의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있다.
양태 3은, 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 제1 표시를 수신하는 단계가, 환경에서의 청취자 포지션에서의 청취자의 하나 이상의 피처들에 관한 깊이 센서로부터의 정보를 수신하는 단계를 포함하는 것을 임의로 포함하도록, 양태 1 또는 양태 2 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있다.
양태 4는, 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 제1 표시를 수신하는 단계가, 청취자의 머리 배향의 표시를 수신하는 단계를 포함하는 것을 임의로 포함하도록, 양태 1 내지 양태 3 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 청취자의 머리 배향은, 청취자의 머리 요, 머리 피치, 또는 머리 롤 중 하나 이상의 것의 표시를 포함하고, 여기서 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 청취자의 머리 요, 머리 피치, 또는 머리 롤의 표시를 사용하는 단계를 포함한다.
양태 5는, 청취자의 머리 배향의 수신된 표시에 기초하여 스피커로부터 청취자의 2개의 귀들 각각까지의 거리를 표시하는 거리 파라미터를 결정하는 단계를 임의로 포함하도록, 양태 4의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 스피커로부터 청취자의 2개의 귀들 각각까지의 거리를 보상하도록 선택되는 필터들을 사용하여 적어도 한 쌍의 오디오 신호들을 생성하는 단계를 포함한다.
양태 6은, 오디오 프로세서 회로가 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하는 것을 임의로 포함하도록, 양태 1 내지 양태 5 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 가상화기 회로는 하나 이상의 수신된 오디오 신호들을 수신하고, 제1 가상화 필터에 기초하여 가상화된 오디오 신호들을 생성하도록 구성되고, 여기서 스윗 스팟 어댑터 회로는 가상화기 회로로부터 가상화된 오디오 신호들을 수신하고, 청취자 포지션에 관한 수신된 제1 표시에 기초하여 하나 이상의 조정된 오디오 신호들을 제공하도록 구성된다.
양태 7은, 스윗 스팟 어댑터 회로가 수신된 가상화된 오디오 신호들의 적어도 하나의 오디오 신호 채널에 이득 및/또는 딜레이를 적용하도록 구성되는 것을 임의로 포함하도록, 양태 6의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 이득 및/또는 딜레이는 청취자 포지션에 관한 수신된 제1 표시에 기초한다.
양태 8은, 오디오 프로세서 회로가 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하는 것을 임의로 포함하도록, 양태 1 내지 양태 5 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 스윗 스팟 어댑터 회로는 하나 이상의 수신된 오디오 신호들을 수신하고 중간 오디오 출력을 제공하도록 구성되고, 여기서 가상화기 회로는 스윗 스팟 어댑터 회로로부터 중간 오디오 출력을 수신하고, 청취자 포지션에 관한 수신된 제1 표시에 기초하여 조정된 오디오 신호들을 생성하도록 구성된다.
양태 9는, 오디오 프로세서 회로가 가상화기 회로를 포함하는 것을 임의로 포함하도록, 양태 1 내지 양태 8 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 가상화기 회로는 하나 이상의 수신된 오디오 신호들을 수신하고, 조정된 오디오 신호들을 생성하기 위해 수신된 하나 이상의 오디오 신호들에 가상화 프로세싱을 적용하도록 구성된다.
양태 10은, 가상화기 회로가, 청취자 포지션에 관한 수신된 제1 표시에 기초하여, 조정된 오디오 신호들을 생성하기 위해 수신된 하나 이상의 오디오 신호들에 적용하기 위한 제1 가상화 필터를 선택하도록 구성되는 것을 임의로 포함하도록, 양태 9의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있다. 양태 10에서, 제1 가상화 필터는 메모리 회로에서의 다수의 이용가능 가상화 필터들 중에서 선택될 수 있다. 양태 10에서, 제1 가상화 필터는, 가상화기 회로 또는 다른 프로세서 회로를 사용하여, 청취자 포지션에 관한 제1 표시를 수학적 모델로의 입력으로서 사용하는 수학적 모델에 기초하여 결정될 수 있다. 양태 10에서, 제1 가상화 필터는 다수의 다른 필터들의 보간을 사용하여 결정될 수 있다.
양태 11은, 제1 센서에 의해 모니터링되는 환경에서 청취자에 관한 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 후속 제2 표시를 수신하는 단계, 및 오디오 프로세서 회로를 사용하여, 상이한 제2 가상화 필터에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하는 단계를 임의로 포함하도록, 양태 9 또는 양태 10 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 가상화기 회로는 청취자 포지션에 관한 수신된 후속 제2 표시에 기초하여 상이한 제2 가상화 필터를 선택하도록 구성된다.
양태 12는, 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 제1 표시를 수신하는 단계가, 이미지 프로세싱 회로를 사용하여: 기준 얼굴 폭에 대한 청취자의 얼굴 폭을 결정하는 단계, 및 청취자의 결정된 얼굴 폭을 사용하여 제1 센서로부터 청취자의 머리 포지션까지의 거리의 표시를 제공하는 단계를 포함하는 것을 임의로 포함하도록, 양태 1 내지 양태 11 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있다. 양태 12에서, 청취자 포지션에 관한 수신된 제1 표시에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 제1 센서로부터 청취자의 머리 포지션까지의 거리의 표시를 사용하는 단계를 포함할 수 있다.
양태 13은, 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 제1 표시를 수신하는 단계가, 이미지 프로세싱 회로를 사용하여 기준 거리에 대한 청취자의 동공 거리를 결정하는 단계, 및 청취자의 머리 배향을 결정하는 단계를 포함하는 것을 임의로 포함하도록, 양태 1 내지 양태 12 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있다. 양태 13은, 청취자의 결정된 동공 거리 및 머리 배향을 사용하여 제1 센서로부터 청취자의 머리 포지션까지의 거리의 표시를 제공하는 단계를 포함할 수 있고, 양태 13은, 청취자 포지션에 관한 수신된 제1 표시에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하는 것이, 제1 센서로부터 청취자의 머리 포지션까지의 거리의 표시를 사용하는 것을 포함하는 것을 포함할 수 있다.
양태 14는, 청구 대상(예컨대, 장치, 시스템, 디바이스, 방법, 액트들을 수행하는 수단, 또는, 디바이스에 의해 수행될 때, 디바이스로 하여금 액트들을 수행하게 할 수 있는 명령어들을 포함하는 디바이스 판독가능 매체)을 포함 또는 사용할 수 있는데, 이 청구 대상은 예컨대, 스피커에 대한 청취자 포지션에 기초하여 하나 이상의 입력 오디오 신호들을 조정하기 위한 시스템을 포함 또는 사용할 수 있는데, 이 시스템은 예컨대, 양태 1 내지 양태 13 중 하나 이상을 단독으로 또는 다양한 조합들로 포함할 수 있다. 일 예에서, 양태 14는, 시스템이, 제1 센서에 의해 모니터링되는 청취 환경에서 청취자 포지션에 관한 제1 표시를 수신하도록 구성되는 제1 센서, 및 (1) 제1 센서로부터의 청취자 포지션에 관한 수신된 제1 표시, (2) 카메라에 대한 스피커의 포지션에 관한 정보, 및 (3) 하나 이상의 수신된 오디오 신호들에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하도록 구성되는 오디오 프로세서 회로를 포함하는 것을 포함한다.
양태 15는, 제1 센서에 커플링되는 이미지 프로세서 회로를 임의로 포함하도록 양태 14의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 이미지 프로세서 회로는, 제1 센서로부터, 청취자 포지션에 관한 제1 표시를 포함하여 청취 환경에 관한 이미지 또는 깊이 정보를 수신하도록 구성된다. 양태 15에서, 이미지 프로세서 회로는 수신된 이미지 정보에 기초하여 청취자의 머리 배향을 결정하도록 구성될 수 있고, 머리 배향은 청취자의 머리 요, 머리 피치, 또는 머리 롤 중 하나 이상의 것의 표시를 포함한다. 양태 15에서, 오디오 프로세서 회로는 결정된 머리 배향을 사용하는 것을 포함하여 청취자 포지션에 관한 수신된 제1 표시에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하도록 구성될 수 있다.
양태 16은, 이미지 프로세서 회로와 오디오 프로세서 회로 중 적어도 하나가 청취자의 머리 요, 머리 피치, 또는 머리 롤 중 하나 이상의 것의 표시에 기초하여 스피커로부터 청취자의 2개의 귀들 각각까지의 거리를 표시하는 거리 파라미터를 결정하도록 추가로 구성되는 것을 임의로 포함하도록 양태 15의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있다.
양태 17은, 오디오 프로세서 회로가, 하나 이상의 입력 오디오 신호들을 수신하도록 구성되는 오디오 입력부, 및 오디오 입력부에 커플링되고, 가상화 필터를 사용하여 입력 오디오 신호들에 대응하는 가상화된 오디오 신호들을 생성하도록 구성되는 가상화기 회로를 포함하는 것을 임의로 포함하도록, 양태 14 내지 양태 16 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 가상화 필터는 제1 센서로부터의 청취자 포지션에 관한 수신된 제1 표시에 대응한다. 양태 17은, 조정된 오디오 신호들을 제공하기 위해 가상화된 오디오 신호들 중 하나 이상에 이득 및/또는 딜레이를 적용하도록 구성되는 스윗 스팟 어댑터 회로를 포함할 수 있다. 양태 17은, 조정된 오디오 신호들을 제공하도록 구성되는 오디오 출력부를 더 포함할 수 있다.
양태 18은, 오디오 프로세서 회로가, 하나 이상의 입력 오디오 신호들을 수신하도록 구성되는 오디오 입력부, 및 오디오 입력부에 커플링되고, 입력 오디오 신호들에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하기 위해 가상화 필터를 사용하도록 구성되는 가상화기 회로를 포함하는 것을 임의로 포함하도록, 양태 14 내지 양태 16 중 하나 또는 이들의 임의의 조합의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 가상화 필터는 제1 센서로부터의 청취자 포지션에 관한 수신된 제1 표시에 기초하여 가상화기 회로에 의해 선택된다.
양태 19는, 청구 대상(예컨대, 장치, 시스템, 디바이스, 방법, 액트들을 수행하는 수단, 또는, 디바이스에 의해 수행될 때, 디바이스로 하여금 액트들을 수행하게 할 수 있는 명령어들을 포함하는 디바이스 판독가능 매체)을 포함 또는 사용할 수 있는데, 이 청구 대상은 예컨대, 입력 오디오 신호에 기초하여 환경에서의 제1 청취자에 대한 하나 이상의 가상화된 오디오 신호들을 생성하기 위한 장치를 포함 또는 사용할 수 있는데, 이 장치는 예컨대, 양태 1 내지 양태 18 중 하나 이상을 단독으로 또는 다양한 조합들로 포함할 수 있다. 일 예에서, 양태 19는, 제1 센서의 제1 시야로부터 이미지 정보를 수신하고, 제1 센서의 제1 시야에서 제1 센서로부터 제1 청취자까지의 거리를 결정하도록 구성되는 이미지 프로세싱 회로를 갖는 제1 센서를 포함하고, 여기서 이미지 프로세싱 회로는 제1 청취자의 머리 요, 머리 피치, 또는 머리 롤 각도 중 하나 이상에 관한 정보를 사용하여 거리를 결정하도록 구성된다. 양태 19는, (1) 카메라로부터 제1 청취자까지의 결정된 거리, (2) 제1 센서에 대한 라우드스피커의 포지션에 관한 정보, 및 (3) 입력 오디오 신호에 기초하여 하나 이상의 가상화된 오디오 신호들을 생성하도록 구성되는 오디오 프로세서 회로를 더 포함한다.
양태 20은, 오디오 프로세서 회로가 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하는 것을 임의로 포함하도록 양태 19의 청구 대상을 포함 또는 사용할 수 있거나, 또는 그 청구 대상과 임의로 조합될 수 있고, 여기서 가상화기 회로는 입력 오디오 신호에 머리 전달 함수(HRTF) 필터를 적용함으로써 중간 출력 신호를 생성하도록 구성되고, 여기서 HRTF 필터는 제1 센서로부터 제1 청취자까지의 결정된 거리에 기초하여 선택되고, 여기서 스윗 스팟 어댑터 회로는 가상화기 회로에 의해 생성된 중간 출력 신호에 이득 및/또는 딜레이를 적용함으로써 환경에서의 제1 청취자에 대한 하나 이상의 가상화된 오디오 신호들을 생성하도록 구성된다.
이들 비제한적인 양태들 각각은 그 자체로 존재할 수 있거나, 또는 본 명세서에서 제공되는 다른 양태들 또는 예들 중 하나 이상과의 다양한 치환들 또는 조합들로 조합될 수 있다.
본 문서에서, "a" 또는 "an"이라는 용어들은, 특허 문헌들에서 통상적인 바와 같이, "적어도 하나" 또는 "하나 이상"의 임의의 다른 경우들 또는 사용들과는 상관없이, 하나 또는 하나 초과를 포함하기 위해 사용된다. 본 문서에서, "또는"이라는 용어는 비배타적 또는(nonexclusive or)을 지칭하기 위해 사용되어, 달리 지시되지 않는 한, "A 또는 B"가 "B가 아니라 A", "A가 아니라 B", 그리고 "A 및 B"를 포함하도록 한다. 본 문서에서, "포함하는(including)" 및 "여기에서(in which)"라는 용어들은 "포함하는(comprising)" 및 "여기서(wherein)"라는 각각의 용어들의 평이한 영어식 동등 표현들로서 사용된다.
다른 것들 중에서도, "할 수 있다(can)", "할 수도 있을 것이다(might)", "할 수도 있다(may)", "예를 들어(e.g.)", 및 이와 유사한 것과 같은, 본 명세서에서 사용되는 조건부적 언어는, 달리 명시적으로 언급되지 않는 한, 또는 사용될 때 문맥 내에서 달리 이해되지 않는 한, 일반적으로, 특정 실시예들이 특정 피처들, 요소들 및/또는 상태들을 포함하지만, 다른 실시예들은 특정 피처들, 요소들 및/또는 상태들을 포함하지 않는다는 것을 전달하도록 의도된다. 따라서, 그러한 조건부적 언어는, 피처들, 요소들 및/또는 상태들이 하나 이상의 실시예들에 대해 어떤 식으로든 요구된다는 것 또는 하나 이상의 실시예들이 이들 피처들, 요소들 및/또는 상태들이 포함되는지 또는 임의의 특정 실시예에서 수행되어야 하는지 여부를, 저작자(author) 입력 또는 프롬프팅(prompting)을 이용하여 또는 이용함이 없이, 판정하기 위한 로직을 반드시 포함한다는 것을 암시하도록 일반적으로 의도되지는 않는다.
상기의 상세한 설명이 다양한 실시예들에 적용될 때 신규한 피처들을 나타내었고, 설명하였고, 언급하였지만, 예시되는 디바이스들 또는 알고리즘들의 형태 및 세부사항들에 있어서의 다양한 생략들, 대체들, 및 변경들이 이루어질 수 있다는 것이 이해될 것이다. 인지되는 바와 같이, 본 명세서에서 설명되는 발명들의 특정 실시예들은, 일부 피처들이 다른 것들과는 별개로 사용 또는 실시될 수 있기 때문에, 본 명세서에서 제시되는 피처들 및 이익들 모두를 제공하지는 않는 형태 내에서 구체화될 수 있다.
더욱이, 본 청구 대상이 구조적 피처들 또는 방법들 또는 액트들에 특정된 언어로 설명되었지만, 첨부된 청구범위에 정의된 본 청구 대상은 반드시 상술된 특정 피처들 또는 액트들에 제한되는 것은 아니라는 것이 이해되어야 한다. 오히려, 상술된 특정 피처들 및 액트들은 청구범위를 구현하는 예시적인 형태들로서 개시된다.

Claims (20)

  1. 청취 환경에서 청취자 포지션에 스윗 스팟(sweet spot)을 제공하기 위해 스피커에 대한 청취자 포지션에 기초하여 하나 이상의 수신된 오디오 신호들을 조정하는 방법으로서,
    제1 센서에 의해 모니터링되는 환경에서 청취자 포지션에 관한 상기 제1 센서로부터의 정보를 사용하는 상기 청취자 포지션에 관한 제1 표시를 수신하는 단계; 및
    오디오 프로세서 회로를 사용하여, (1) 상기 청취자 포지션에 관한 수신된 제1 표시, (2) 상기 제1 센서에 대한 상기 스피커의 포지션에 관한 정보, 및 (3) 상기 하나 이상의 수신된 오디오 신호들에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 제1 센서로부터의 정보를 사용하는 상기 청취자 포지션에 관한 제1 표시를 수신하는 단계는, 카메라의 시야에서의 상기 청취자 포지션에 관한 상기 카메라로부터의 정보를 수신하는 단계를 포함하는 것인, 방법.
  3. 제1항에 있어서,
    상기 제1 센서로부터의 정보를 사용하는 상기 청취자 포지션에 관한 제1 표시를 수신하는 단계는, 상기 환경에서의 상기 청취자 포지션에서의 청취자의 하나 이상의 피처(feature)에 관한 깊이 센서로부터의 정보를 수신하는 단계를 포함하는 것인, 방법.
  4. 제1항에 있어서,
    상기 제1 센서로부터의 정보를 사용하는 상기 청취자 포지션에 관한 제1 표시를 수신하는 단계는, 상기 청취자의 머리 배향(head orientation)의 표시를 수신하는 단계를 포함하고, 상기 청취자의 머리 배향은, 상기 청취자의 머리 요(head yaw), 머리 피치(head pitch), 또는 머리 롤(head roll) 중 하나 이상의 것의 표시를 포함하고, 상기 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 상기 청취자의 상기 머리 요, 머리 피치, 또는 머리 롤의 표시를 사용하는 단계를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 청취자의 머리 배향의 수신된 표시에 기초하여 상기 스피커로부터 상기 청취자의 2개의 귀들 각각까지의 거리를 표시하는 거리 파라미터를 결정하는 단계를 더 포함하고,
    상기 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 상기 스피커로부터 상기 청취자의 2개의 귀들 각각까지의 거리를 보상하도록 선택되는 필터들을 사용하여 적어도 한 쌍의 오디오 신호들을 생성하는 단계를 포함하는, 방법.
  6. 제1항에 있어서,
    상기 오디오 프로세서 회로는 가상화기 회로(virtualizer circuit) 및 스윗 스팟 어댑터 회로를 포함하고;
    상기 가상화기 회로는 상기 하나 이상의 수신된 오디오 신호들을 수신하고, 제1 가상화 필터에 기초하여 가상화된 오디오 신호들을 생성하도록 구성되고;
    상기 스윗 스팟 어댑터 회로는 상기 가상화기 회로로부터 상기 가상화된 오디오 신호들을 수신하고, 상기 청취자 포지션에 관한 수신된 제1 표시에 기초하여 상기 하나 이상의 조정된 오디오 신호들을 제공하도록 구성되는, 방법.
  7. 제6항에 있어서,
    상기 스윗 스팟 어댑터 회로는 상기 수신된 가상화된 오디오 신호들의 적어도 하나의 오디오 신호 채널에 이득 및 딜레이 중 적어도 하나를 적용하도록 구성되고, 상기 이득 및 딜레이 중 적어도 하나는 상기 청취자 포지션에 관한 수신된 제1 표시에 기초하는 것인, 방법.
  8. 제1항에 있어서,
    상기 오디오 프로세서 회로는 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하고;
    상기 스윗 스팟 어댑터 회로는 상기 하나 이상의 수신된 오디오 신호들을 수신하고 중간 오디오 출력을 제공하도록 구성되고;
    상기 가상화기 회로는 상기 스윗 스팟 어댑터 회로로부터 상기 중간 오디오 출력을 수신하고, 상기 청취자 포지션에 관한 수신된 제1 표시에 기초하여 상기 조정된 오디오 신호들을 생성하도록 구성되는 것인, 방법.
  9. 제1항에 있어서,
    상기 오디오 프로세서 회로는 가상화기 회로를 포함하고, 상기 가상화기 회로는 상기 하나 이상의 수신된 오디오 신호들을 수신하고, 상기 조정된 오디오 신호들을 생성하기 위해 상기 수신된 하나 이상의 오디오 신호들에 가상화 프로세싱을 적용하도록 구성되는 것인, 방법.
  10. 제9항에 있어서,
    상기 가상화기 회로는, 상기 청취자 포지션에 관한 수신된 제1 표시에 기초하여, 상기 조정된 오디오 신호들을 생성하기 위해 상기 수신된 하나 이상의 오디오 신호들에 적용하기 위한 제1 가상화 필터를 선택하도록 구성되고,
    상기 제1 가상화 필터는:
    메모리 회로에서의 다수의 이용가능 가상화 필터들 중에서 선택되거나; 또는
    상기 가상화기 회로 또는 다른 프로세서 회로를 사용하여, 상기 청취자 포지션에 관한 제1 표시를 수학적 모델로의 입력으로서 사용하는 상기 수학적 모델에 기초하여 결정되거나; 또는
    다수의 다른 필터들의 보간을 사용하여 결정되는 것인, 방법.
  11. 제9항에 있어서,
    상기 제1 센서에 의해 모니터링되는 환경에서 청취자에 관한 상기 제1 센서로부터의 정보를 사용하는 청취자 포지션에 관한 후속 제2 표시를 수신하는 단계; 및
    상기 오디오 프로세서 회로를 사용하여, 상이한 제2 가상화 필터에 기초하여 상기 하나 이상의 조정된 오디오 신호들을 생성하는 단계
    를 더 포함하고,
    상기 가상화기 회로는 상기 청취자 포지션에 관한 수신된 후속 제2 표시에 기초하여 상기 상이한 제2 가상화 필터를 선택하도록 구성되는, 방법.
  12. 제1항에 있어서,
    상기 제1 센서로부터의 정보를 사용하는 상기 청취자 포지션에 관한 제1 표시를 수신하는 단계는, 이미지 프로세싱 회로를 사용하여:
    기준 얼굴 폭에 대한 상기 청취자의 얼굴 폭을 결정하는 단계; 및
    상기 청취자의 결정된 얼굴 폭을 사용하여 상기 제1 센서로부터 상기 청취자의 머리 포지션까지의 거리의 표시를 제공하는 단계
    를 포함하고;
    상기 청취자 포지션에 관한 수신된 제1 표시에 기초하여 상기 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 상기 제1 센서로부터 상기 청취자의 머리 포지션까지의 거리의 표시를 사용하는 단계를 포함하는, 방법.
  13. 제1항에 있어서,
    상기 제1 센서로부터의 정보를 사용하는 상기 청취자 포지션에 관한 제1 표시를 수신하는 단계는, 이미지 프로세싱 회로를 사용하여:
    기준 거리에 대한 상기 청취자의 동공 거리를 결정하는 단계;
    상기 청취자의 머리 배향을 결정하는 단계; 및
    상기 청취자의 결정된 동공 거리 및 머리 배향을 사용하여 상기 제1 센서로부터 상기 청취자의 머리 포지션까지의 거리의 표시를 제공하는 단계
    를 포함하고;
    상기 청취자 포지션에 관한 수신된 제1 표시에 기초하여 상기 하나 이상의 조정된 오디오 신호들을 생성하는 단계는, 상기 제1 센서로부터 상기 청취자의 머리 포지션까지의 거리의 표시를 사용하는 단계를 포함하는, 방법.
  14. 스피커에 대한 청취자 포지션에 기초하여 하나 이상의 입력 오디오 신호들을 조정하기 위한 시스템으로서,
    상기 시스템은:
    제1 센서에 의해 모니터링되는 청취 환경에서 청취자 포지션에 관한 제1 표시를 수신하도록 구성되는 상기 제1 센서; 및
    (1) 상기 제1 센서로부터의 상기 청취자 포지션에 관한 수신된 제1 표시, (2) 카메라에 대한 상기 스피커의 포지션에 관한 정보, 및 (3) 상기 하나 이상의 수신된 오디오 신호들에 기초하여 하나 이상의 조정된 오디오 신호들을 생성하도록 구성되는 오디오 프로세서 회로
    를 포함하는, 시스템.
  15. 제14항에 있어서,
    상기 제1 센서에 커플링되는 이미지 프로세서 회로를 더 포함하고,
    상기 이미지 프로세서 회로는, 상기 제1 센서로부터, 상기 청취자 포지션에 관한 제1 표시를 포함하여 상기 청취 환경에 관한 이미지 또는 깊이 정보를 수신하도록 구성되고, 상기 이미지 프로세서 회로는 상기 수신된 이미지 정보에 기초하여 상기 청취자의 머리 배향을 결정하도록 구성되고, 상기 머리 배향은 상기 청취자의 머리 요, 머리 피치, 또는 머리 롤 중 하나 이상의 것의 표시를 포함하고;
    상기 오디오 프로세서 회로는 상기 결정된 머리 배향을 사용하는 것을 포함하여 상기 청취자 포지션에 관한 수신된 제1 표시에 기초하여 상기 하나 이상의 조정된 오디오 신호들을 생성하도록 구성되는, 시스템.
  16. 제15항에 있어서,
    상기 이미지 프로세서 회로와 상기 오디오 프로세서 회로 중 적어도 하나는 또한, 상기 청취자의 머리 요, 머리 피치, 또는 머리 롤 중 하나 이상의 것의 표시에 기초하여 상기 스피커로부터 상기 청취자의 2개의 귀들 각각까지의 거리를 표시하는 거리 파라미터를 결정하도록 구성되는 것인, 시스템.
  17. 제14항에 있어서,
    상기 오디오 프로세서 회로는:
    하나 이상의 입력 오디오 신호들을 수신하도록 구성되는 오디오 입력부;
    상기 오디오 입력부에 커플링되고, 가상화 필터를 사용하여 상기 입력 오디오 신호들에 대응하는 가상화된 오디오 신호들을 생성하도록 구성되는 가상화기 회로 - 상기 가상화 필터는 상기 제1 센서로부터의 청취자 포지션에 관한 수신된 제1 표시에 대응함 -; 및
    상기 조정된 오디오 신호들을 제공하기 위해 상기 가상화된 오디오 신호들 중 하나 이상에 이득 및/또는 딜레이를 적용하도록 구성되는 스윗 스팟 어댑터 회로; 및
    상기 조정된 오디오 신호들을 제공하도록 구성되는 오디오 출력부
    를 포함하는, 시스템.
  18. 제14항에 있어서,
    상기 오디오 프로세서 회로는:
    상기 하나 이상의 입력 오디오 신호들을 수신하도록 구성되는 오디오 입력부; 및
    상기 오디오 입력부에 커플링되고, 상기 입력 오디오 신호들에 기초하여 상기 하나 이상의 조정된 오디오 신호들을 생성하기 위해 가상화 필터를 사용하도록 구성되는 가상화기 회로
    를 포함하고,
    상기 가상화 필터는 상기 제1 센서로부터의 청취자 포지션에 관한 수신된 제1 표시에 기초하여 상기 가상화기 회로에 의해 선택되는, 시스템.
  19. 입력 오디오 신호에 기초하여 환경에서의 제1 청취자에 대한 하나 이상의 가상화된 오디오 신호들을 생성하기 위한 장치로서,
    상기 장치는:
    제1 센서의 제1 시야로부터 이미지 정보를 수신하고, 상기 제1 센서의 제1 시야에서 상기 제1 센서로부터 상기 제1 청취자까지의 거리를 결정하도록 구성되는 이미지 프로세싱 회로를 갖는 상기 제1 센서 - 상기 이미지 프로세싱 회로는 상기 제1 청취자의 머리 요, 머리 피치, 또는 머리 롤 각도 중 하나 이상에 관한 정보를 사용하여 상기 거리를 결정하도록 구성됨 -; 및
    (1) 카메라로부터 상기 제1 청취자까지의 결정된 거리, (2) 상기 제1 센서에 대한 라우드스피커(loudspeaker)의 포지션에 관한 정보, 및 (3) 상기 입력 오디오 신호에 기초하여 하나 이상의 가상화된 오디오 신호들을 생성하도록 구성되는 오디오 프로세서 회로
    를 포함하는, 장치.
  20. 제19항에 있어서,
    상기 오디오 프로세서 회로는 가상화기 회로 및 스윗 스팟 어댑터 회로를 포함하고, 상기 가상화기 회로는 상기 입력 오디오 신호에 머리 전달 함수(head-related transfer function)(HRTF) 필터를 적용함으로써 중간 출력 신호를 생성하도록 구성되고, 상기 HRTF 필터는 상기 제1 센서로부터 상기 제1 청취자까지의 결정된 거리에 기초하여 선택되고, 상기 스윗 스팟 어댑터 회로는 상기 가상화기 회로에 의해 생성된 상기 중간 출력 신호에 이득 및/또는 딜레이를 적용함으로써 상기 환경에서의 상기 제1 청취자에 대한 상기 하나 이상의 가상화된 오디오 신호들을 생성하도록 구성되는, 장치.
KR1020207009540A 2017-09-01 2018-08-31 가상화된 오디오를 위한 스윗 스팟 어뎁테이션 KR20200063151A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762553453P 2017-09-01 2017-09-01
US62/553,453 2017-09-01
PCT/US2018/049075 WO2019046706A1 (en) 2017-09-01 2018-08-31 IDEAL POINT ADAPTATION FOR VIRTUALIZED AUDIO

Publications (1)

Publication Number Publication Date
KR20200063151A true KR20200063151A (ko) 2020-06-04

Family

ID=65518479

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207009540A KR20200063151A (ko) 2017-09-01 2018-08-31 가상화된 오디오를 위한 스윗 스팟 어뎁테이션

Country Status (6)

Country Link
US (2) US10728683B2 (ko)
EP (1) EP3677054A4 (ko)
JP (1) JP2020532914A (ko)
KR (1) KR20200063151A (ko)
CN (1) CN111615834B (ko)
WO (1) WO2019046706A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220064801A (ko) * 2020-11-12 2022-05-19 광주과학기술원 오디오 장치의 필터 변경을 통한 사운드 출력을 제어하기 위한 방법 및 장치

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020532914A (ja) 2017-09-01 2020-11-12 ディーティーエス・インコーポレイテッドDTS,Inc. 仮想オーディオのスイートスポット適応法
JP7157985B2 (ja) * 2018-04-24 2022-10-21 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法
US11019450B2 (en) 2018-10-24 2021-05-25 Otto Engineering, Inc. Directional awareness audio communications system
BR112021011597A2 (pt) * 2018-12-21 2021-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sistema de reprodução/simulação de som, aparelho para determinar um ou mais parâmetros de processamento e métodos
FR3093264A1 (fr) * 2019-09-09 2020-08-28 Sagemcom Broadband Sas Procédé de diffusion d’un signal audio
CN110728812B (zh) * 2019-10-12 2021-06-08 国网新疆电力有限公司喀什供电公司 输电线路防外力破坏检测保护装置及其使用方法
US11567723B2 (en) * 2020-05-26 2023-01-31 Disney Enterprises, Inc. Display of supplemental content
US11277706B2 (en) * 2020-06-05 2022-03-15 Sony Corporation Angular sensing for optimizing speaker listening experience
US11388537B2 (en) * 2020-10-21 2022-07-12 Sony Corporation Configuration of audio reproduction system
CN112312278B (zh) * 2020-12-28 2021-03-23 汉桑(南京)科技有限公司 一种音响参数确定方法和系统
US11895466B2 (en) 2020-12-28 2024-02-06 Hansong (Nanjing) Technology Ltd. Methods and systems for determining parameters of audio devices
WO2023164801A1 (en) * 2022-03-01 2023-09-07 Harman International Industries, Incorporated Method and system of virtualized spatial audio
FR3137239A1 (fr) * 2022-06-22 2023-12-29 Sagemcom Broadband Sas Procédé de gestion d’un flux audio à l’aide d’un appareil de prise de vue et équipement décodeur associé

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243476B1 (en) * 1997-06-18 2001-06-05 Massachusetts Institute Of Technology Method and apparatus for producing binaural audio for a moving listener
US6741273B1 (en) * 1999-08-04 2004-05-25 Mitsubishi Electric Research Laboratories Inc Video camera controlled surround sound
IL134979A (en) 2000-03-09 2004-02-19 Be4 Ltd A system and method for optimizing three-dimensional hearing
US7079669B2 (en) * 2000-12-27 2006-07-18 Mitsubishi Denki Kabushiki Kaisha Image processing device and elevator mounting it thereon
US7095455B2 (en) 2001-03-21 2006-08-22 Harman International Industries, Inc. Method for automatically adjusting the sound and visual parameters of a home theatre system
US6937745B2 (en) 2001-12-31 2005-08-30 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose
EP1542503B1 (en) 2003-12-11 2011-08-24 Sony Deutschland GmbH Dynamic sweet spot tracking
KR101118214B1 (ko) * 2004-09-21 2012-03-16 삼성전자주식회사 청취 위치를 고려한 2채널 가상 음향 재생 방법 및 장치
GB0426523D0 (en) * 2004-12-02 2005-01-05 British Telecomm Video processing
US8995715B2 (en) 2010-10-26 2015-03-31 Fotonation Limited Face or other object detection including template matching
KR100647338B1 (ko) * 2005-12-01 2006-11-23 삼성전자주식회사 최적 청취 영역 확장 방법 및 그 장치
KR100739798B1 (ko) * 2005-12-22 2007-07-13 삼성전자주식회사 청취 위치를 고려한 2채널 입체음향 재생 방법 및 장치
JP4657960B2 (ja) * 2006-03-27 2011-03-23 富士フイルム株式会社 撮像方法および装置
US8401210B2 (en) * 2006-12-05 2013-03-19 Apple Inc. System and method for dynamic control of audio playback based on the position of a listener
JP4544282B2 (ja) * 2007-09-14 2010-09-15 ソニー株式会社 データ処理装置、およびデータ処理方法、並びにプログラム
GB2457508B (en) * 2008-02-18 2010-06-09 Ltd Sony Computer Entertainmen System and method of audio adaptaton
US8000485B2 (en) 2009-06-01 2011-08-16 Dts, Inc. Virtual audio processing for loudspeaker or headphone playback
US9218530B2 (en) 2010-11-04 2015-12-22 Digimarc Corporation Smartphone-based methods and systems
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
KR101694820B1 (ko) * 2010-05-07 2017-01-23 삼성전자주식회사 사용자 위치 인식 방법 및 장치
EP2389016B1 (en) * 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
US8411126B2 (en) * 2010-06-24 2013-04-02 Hewlett-Packard Development Company, L.P. Methods and systems for close proximity spatial audio rendering
FI20105934A (fi) * 2010-09-08 2012-03-09 Palodex Group Oy Menetelmä ja järjestelmä tietokonetomografiakuvauksen ohjaamiseksi
US8970770B2 (en) * 2010-09-28 2015-03-03 Fotonation Limited Continuous autofocus based on face detection and tracking
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US8693713B2 (en) * 2010-12-17 2014-04-08 Microsoft Corporation Virtual audio environment for multidimensional conferencing
CN102098524B (zh) * 2010-12-17 2011-11-16 深圳超多维光电子有限公司 跟踪式立体显示设备及跟踪式立体显示方法
TWI510106B (zh) * 2011-01-28 2015-11-21 Hon Hai Prec Ind Co Ltd 聲音輸出校正系統及方法
US9225822B2 (en) 2011-04-26 2015-12-29 Digimarc Corporation Channelized audio watermarks
FR2978267A1 (fr) * 2011-07-18 2013-01-25 St Microelectronics Rousset Procede et dispositif de controle d'un appareil en fonction de la detection de personnes a proximite de l'appareil
US20130083948A1 (en) * 2011-10-04 2013-04-04 Qsound Labs, Inc. Automatic audio sweet spot control
JP2014015117A (ja) 2012-07-09 2014-01-30 Mitsubishi Motors Corp 音響制御装置
US9532158B2 (en) * 2012-08-31 2016-12-27 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
US9826328B2 (en) 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
KR20180097786A (ko) * 2013-03-05 2018-08-31 애플 인크. 하나 이상의 청취자들의 위치에 기초한 스피커 어레이의 빔 패턴의 조정
US20140328505A1 (en) * 2013-05-02 2014-11-06 Microsoft Corporation Sound field adaptation based upon user tracking
US9565503B2 (en) * 2013-07-12 2017-02-07 Digimarc Corporation Audio and location arrangements
WO2015009748A1 (en) * 2013-07-15 2015-01-22 Dts, Inc. Spatial calibration of surround sound systems including listener position estimation
CN103491397B (zh) * 2013-09-25 2017-04-26 歌尔股份有限公司 一种实现自适应环绕声的方法和系统
CN103760968B (zh) * 2013-11-29 2015-05-13 理光软件研究所(北京)有限公司 数字标牌显示内容选择方法和装置
US20150286873A1 (en) 2014-04-03 2015-10-08 Bruce L. Davis Smartphone-based methods and systems
US20150277841A1 (en) * 2014-03-27 2015-10-01 Microsoft Corporation Multi mode display system
US9226090B1 (en) * 2014-06-23 2015-12-29 Glen A. Norris Sound localization for an electronic call
US9398392B2 (en) 2014-06-30 2016-07-19 Microsoft Technology Licensing, Llc Audio calibration and adjustment
EP3275213B1 (en) * 2015-05-13 2019-12-04 Huawei Technologies Co., Ltd. Method and apparatus for driving an array of loudspeakers with drive signals
US10241990B2 (en) * 2015-08-26 2019-03-26 Microsoft Technology Licensing, Llc Gesture based annotations
CN108141560B (zh) * 2015-09-23 2021-01-05 惠普发展公司,有限责任合伙企业 用于图像投影的系统及方法
US20170188140A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Controlling audio beam forming with video stream data
US10631115B2 (en) * 2016-08-31 2020-04-21 Harman International Industries, Incorporated Loudspeaker light assembly and control
US10375498B2 (en) 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
US20190349705A9 (en) 2017-09-01 2019-11-14 Dts, Inc. Graphical user interface to adapt virtualizer sweet spot
JP2020532914A (ja) 2017-09-01 2020-11-12 ディーティーエス・インコーポレイテッドDTS,Inc. 仮想オーディオのスイートスポット適応法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220064801A (ko) * 2020-11-12 2022-05-19 광주과학기술원 오디오 장치의 필터 변경을 통한 사운드 출력을 제어하기 위한 방법 및 장치

Also Published As

Publication number Publication date
WO2019046706A1 (en) 2019-03-07
US20190075418A1 (en) 2019-03-07
JP2020532914A (ja) 2020-11-12
US20200322747A1 (en) 2020-10-08
EP3677054A4 (en) 2021-04-21
US10728683B2 (en) 2020-07-28
EP3677054A1 (en) 2020-07-08
CN111615834B (zh) 2022-08-09
CN111615834A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111615834B (zh) 用于虚拟化的音频的甜蜜点适配的方法、系统和装置
US9767618B2 (en) Adaptive ambisonic binaural rendering
US20190349705A9 (en) Graphical user interface to adapt virtualizer sweet spot
KR102642275B1 (ko) 증강 현실 헤드폰 환경 렌더링
JP2022167932A (ja) 没入型オーディオ再生システム
US10979844B2 (en) Distributed audio virtualization systems
US11432097B2 (en) User interface for controlling audio rendering for extended reality experiences
US11943602B1 (en) Systems and methods for spatial update latency compensation for head-tracked audio
KR102656969B1 (ko) 불일치 오디오 비주얼 캡쳐 시스템
WO2021003397A1 (en) Password-based authorization for audio rendering
US20220345813A1 (en) Spatial audio capture and analysis with depth
JP7483852B2 (ja) 不一致視聴覚捕捉システム
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
KR20150030039A (ko) Tv 영상을 촉각 이미지로 변환하여 디스플레이 하는 방법 및 그 장치
JP2007166126A (ja) 音像提示方法および音像提示装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application