KR20240009478A - 저지연, 저전력 다중 채널 오디오 처리 - Google Patents

저지연, 저전력 다중 채널 오디오 처리 Download PDF

Info

Publication number
KR20240009478A
KR20240009478A KR1020237043511A KR20237043511A KR20240009478A KR 20240009478 A KR20240009478 A KR 20240009478A KR 1020237043511 A KR1020237043511 A KR 1020237043511A KR 20237043511 A KR20237043511 A KR 20237043511A KR 20240009478 A KR20240009478 A KR 20240009478A
Authority
KR
South Korea
Prior art keywords
audio
processor
track
tracks
aggregated
Prior art date
Application number
KR1020237043511A
Other languages
English (en)
Inventor
아쉬와니 아리야
테자스 바훌카르
다니엘 해리스
다니엘 씨. 위긴스
Original Assignee
스냅 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스냅 인코포레이티드 filed Critical 스냅 인코포레이티드
Publication of KR20240009478A publication Critical patent/KR20240009478A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

전자 아이웨어 디바이스는 사용자가 보고 있는 장면에서 증강 현실 객체들 및 연관된 소리들을 제시하도록 적응된 디스플레이 및 스피커 시스템을 포함한다. 프로세서는 하나 이상의 증강 현실 객체들과 각각 연관된 하나 이상의 오디오 트랙들을 수신하고, 오디오 트랙들을 어그리게이트된 오디오 트랙으로 인코딩하며, 어그리게이트된 오디오 트랙은 오디오 트랙들, 각각의 개별 오디오 트랙을 고유하게 식별하는 각각의 오디오 트랙에 대한 헤더 및 어그리게이트된 오디오 트랙의 트랙들의 수를 식별하는 어그리게이트 헤더를 포함한다. 프로세서는 어그리게이트된 오디오 트랙을 각각의 오디오 트랙에 대한 헤더와 어그리게이트 헤더를 사용하여 어그리게이트된 오디오 트랙에서 오디오 트랙들을 분리하는 오디오 프로세서로 전송한다. 오디오 프로세서는 오디오 트랙들을 병렬로 독립적으로 처리하고 증강 현실 객체들과 함께 프레젠테이션할 수 있도록 오디오 트랙들을 스피커 시스템에 제공한다.

Description

저지연, 저전력 다중 채널 오디오 처리
[0001] 본 출원은 2021년 5월 19일자로 출원된 미국 가출원 제63/190,733호에 대한 우선권을 주장하며, 그 내용들은 전체적으로 본 명세서에 참고로 포함된다.
[0002] 본 개시내용에 제시된 예들은 오디오 신호 처리 분야에 관한 것이다. 보다 구체적으로, 본 개시내용은 가상 객체들에 대응하는 오디오 신호들을 효율적으로 처리하기 위한 저지연, 저전력 다중 채널 오디오 처리를 위한 시스템 및 방법을 설명한다(그러나, 이에 제한되지 않음).
[0003] 머리 관련 전달 함수(HRTF: head-related transfer function)는 사용자의 귀가 공간의 한 지점에서 소리를 수신하는 방식을 특징짓는 반응이다. 소리가 사용자에게 닿을 때, 머리, 귀들, 외이도의 크기 및 모양, 머리의 밀도, 비강 및 구강의 크기 및 모양은 소리를 변형시키고, 일부 주파수들을 증폭시키고 다른 주파수들을 감쇠시킴으로써 소리가 인식되는 방식에 영향을 미친다.
[0004] 각각의 귀에 하나씩, 한 쌍의 HRTF들은 공간의 특정 지점에서 나오는 것처럼 보이는 입체 음향을 합성하는 데 사용될 수 있다. 각각의 전달 함수는 특정 지점의 소리가 개개의 귀(예를 들어, 이도의 바깥쪽 끝)에 도달하는 방법을 설명한다. 지연으로 인해 공간 오디오 데이터의 처리가 지연되면 재생되는 소리의 품질에 부정적인 영향을 미칠 수 있다.
[0005] 설명된 다양한 예들의 특징들은 도면들을 참조하는 이하의 상세한 설명으로부터 쉽게 이해될 것이다. 참조 번호는 설명 내 각각의 요소와 도면의 여러 뷰들 전체에 걸쳐 사용된다. 복수의 유사한 요소들이 존재하는 경우, 하나의 참조 번호가 유사한 요소들에 할당될 수 있으며, 특정 요소를 지칭하는 소문자가 추가될 수 있다.
[0006] 도면들에 도시된 다양한 요소들은 달리 명시되지 않는 한 실척대로 그려지지는 않는다. 다양한 요소들의 치수들은 명확성을 위해 확대되거나 축소될 수 있다. 여러 도면들은 하나 이상의 구현예들을 묘사하고, 예시로서만 제시되며, 제한으로서 해석되어서는 안된다. 도면에는 이하의 도면들이 포함된다.
[0007] 도 1a는 HRTF 모델링 시스템을 포함하는 오디오 시스템을 포함하도록 적응된 적합한 아이웨어 디바이스의 예시적인 하드웨어 구성의 (우측) 측면도이다.
[0008] 도 1b는 도 1a의 아이웨어 디바이스의 우측 코너의 부분 사시 단면도로서, 우측 가시광 카메라 및 회로 기판을 묘사한다.
[0009] 도 1c는 도 1a의 아이웨어 디바이스의 예시적인 하드웨어 구성의 (좌측) 측면도로서, 좌측 가시광 카메라를 도시한다.
[0010] 도 1d는 좌측 가시광 카메라와 회로 기판을 도시한 도 1c의 아이웨어 디바이스의 좌측 코너의 부분 사시 단면도.
[0011] 도 2a 및 도 2b는 HRTF 모델링 시스템을 포함하는 오디오 시스템을 포함하도록 적응된 아이웨어 디바이스의 예시적인 하드웨어 구성들의 배면도들이다.
[0012] 도 3은 3 차원 장면, 좌측 가시광 카메라에 의해 캡처된 좌측 원시 이미지 및 우측 가시광 카메라에 의해 캡처된 우측 원시 이미지의 도식적인 묘사이다.
[0013] 도 4는 웨어러블 디바이스(예를 들어, 아이웨어 디바이스) 및 다양한 네트워크들을 통해 연결된 서버 시스템을 포함하는 HRTF 모델링 시스템을 포함하는 예시적인 오디오 시스템의 기능 블록도이다.
[0014] 도 5는 도 4의 HRTF 모델링 시스템을 포함하는 오디오 시스템의 모바일 디바이스에 대한 예시적인 하드웨어 구성을 도식적으로 나타낸 도면이다.
[0015] 도 6은 동시 로컬라이제이션 및 매핑을 설명하는 데 사용하기 위한 예시적인 환경에서의 사용자의 개략도이다.
[0016] 도 7은 물리적 환경에서 가상 객체들을 디스플레이하는 예시적인 방법의 단계들을 나열하는 흐름도이다.
[0017] 도 8a는 머리 관련 전달 함수(HRTF) 모델에서 사용자의 머리를 둘러싸고 있는 오디오 구역들의 가상 객체들을 도시한 도면이다.
[0018] 도 8b는 도 8a의 머리 관련 전달 함수 모델의 미리 정의된 필터들을 테스트하는 데 사용하기 위한 그래픽 사용자 인터페이스이다.
[0019] 도 9a는 도 8a의 HRTF에 따라 헤드를 사용하여 가상 객체의 오디오 트랙을 처리하는 예시적인 방법의 단계들을 나열한 흐름도이다.
[0020] 도 9b는 방향 속도 정보를 추가하기 위해 오디오 트랙을 처리하는 예시적인 방법의 단계들을 나열한 흐름도이다.
[0021] 도 9c는 깊이 정보를 추가하기 위해 오디오 트랙을 처리하는 예시적인 방법의 단계들을 나열하는 흐름도이다.
[0022] 도 10은 아이웨어 디바이스의 디스플레이에 제시되는 가상 객체들의 사시도이다.
[0023] 도 11은 샘플 구성에서 다중 채널 오디오 인코더 및 다중 채널 오디오 디코더를 포함하는 저지연, 저전력 오디오 처리 시스템의 개략도이다.
[0024] 도 12는 도 11의 샘플 구성에서 다중 채널 인코더에 의한 다중 채널 오디오 데이터의 인코딩을 도시한 도면이다.
[0025] 도 13a, 도 13b 및 도 13c는 도 11 및 도 12의 오디오 처리 시스템의 다양한 실시예들에서의 샘플 헤더들을 예시한다.
[0026] 도 14는 도 11 및 도 12의 샘플 구성에서 다중 채널 오디오 데이터를 인코딩 및 디코딩하는 샘플 방법의 단계들을 나열하는 흐름도이다.
[0027] 전자 아이웨어 디바이스는, 가변적인 다수의 동시 증강 현실 객체들(예를 들어, 가상 렌즈 객체들)이 물리적 공간에서 이동하는 증강 현실 환경에 사용자를 몰입시킬 수 있다. 이러한 증강 현실 객체들 각각은 독립적인 공간 오디오 후처리를 사용하여 증강 현실 객체와 함께 대응 '이동'할 것으로 예상되는 오디오 트랙과 연관될 수 있다. 동시 트랙들의 수에 제한을 두지 않고 저전력, 저 오디오 재생 지연을 달성하기 위해 후처리를 오디오 코프로세서로 오프로드할 수 있다. 지연 성능을 최적화하려면 호스트 프로세서와 오디오 코프로세서 간의 원격 프로시저 호출 횟수를 최소화해야 한다. 본 명세서에 설명된 기법들은 다중 채널 오디오 처리를 위해 단일 프레임에서 여러 채널의 오디오 트랙들을 오디오 코프로세서로 전송하기 위한 새로운 오디오 데이터 포맷 및 연관된 인코딩 및 디코딩 방법을 정의함으로써 원격 프로시저 호출을 제한한다.
[0028] 종래의 HRTF 모델링에서는, 복수의 고속 푸리에 변환들(FFT들)을 사용하여 임의의 소리의 현재 포지션을 캡처하여 HRTF를 생성한 다음, 롱테일(예를 들어, 256 개 이상의 샘플) 유한 임펄스 응답 필터(FIR)를 사용하여 HRTF를 구현한다. 이러한 기존 기법들은 계산 비용이 많이 든다. 샘플 구성들에서 오디오 샘플 처리는 사용자(여기서는 청취자라고도 함) 주변 공간을 36 개의 구역들로 나누고, 각각의 구역에 미리정해진 필터들의 세트(예를 들어, 바이클라드 필터들)를 사용하여 기존 HRTF 모델들보다 더 적은 계산이 필요한 머리 관련 전달 함수(HRTF) 모델을 구현함으로써 계산 비용을 절감할 수 있다. 소리 객체가 구역에서 구역으로 이동하면 새 구역의 미리결정된 필터들이 적용된다. 그 결과, 종래 기술에 비해 복잡성이 약 2 배 정도 감소하여, HRTF 모델의 전반적인 계산 부하가 감소하고, 더 많은 개체들을 동시에 계산 및 변환할 수 있다.
[0029] 따라서, 본 개시내용은 전자 아이웨어 디바이스를 사용하여 사용자가 보는 장면에서 증강 현실 객체들 및 연관된 소리들을 제시하기 위한 시스템 및 방법에 관한 것이다. 전자 아이웨어 디바이스는 장면에서 증강 현실 객체들 및 연관된 소리들을 표시하도록 적응된 디스플레이 및 스피커 시스템을 포함한다. 호스트 프로세서는 하나 이상의 증강 현실 객체들과 각각 연결된 하나 이상의 오디오 트랙들을 수신하고, 오디오 트랙들을 어그리게이트된 오디오 트랙으로 인코딩하며, 어그리게이트된 오디오 트랙은 오디오 트랙들, 각각의 개별 오디오 트랙을 고유하게 식별하는 각각의 오디오 트랙에 대한 헤더 및 어그리게이트된 오디오 트랙의 트랙 수를 식별하는 어그리게이트 헤더를 포함한다. 호스트 프로세서는 어그리게이트된 오디오 트랙을 각각의 오디오 트랙에 대한 헤더와 어그리게이트 헤더를 사용하여 어그리게이트된 오디오 트랙에서 오디오 트랙을 분리하는 오디오 코프로세서로 전송한다. 오디오 코프로세서는 오디오 트랙을 병렬로 독립적으로 처리하고 증강 현실 객체와 함께 프레젠테이션할 수 있도록 스피커 시스템에 오디오 트랙을 제공한다. 그 결과, 시스템 및 방법은 동시 오디오 트랙들의 수를 제한하지 않고, 따라서 연관된 소리들과 함께 장면에 표시될 수 있는 증강 현실 객체들의 수를 제한하지 않고 저전력, 낮은 오디오 재생 지연을 제공한다.
[0030] 이하의 상세한 설명은 본 개시내용에 제시된 예들을 예시하는 시스템들, 방법들, 기술들, 명령 시퀀스들 및 컴퓨팅 머신 프로그램 제품들을 포함한다. 수많은 세부 사항들 및 예들이 개시된 청구대상 및 관련 교시내용들에 대한 완전한 이해를 제공하기 위한 목적으로 포함된다. 그러나 관련 기술의 당업자들은 그러한 세부 사항들 없이도 관련 교시내용들을 적용하는 방법을 이해할 수 있다. 관련 교시내용들은 다양한 방식들로 적용되거나 실행될 수 있기 때문에, 개시된 청구대상의 양태들은 설명된 특정 디바이스들, 시스템들 및 방법에 제한되지 않는다. 본 명세서에 사용된 용어 및 명명법은 특정 양태들을 설명하기 위한 목적으로만 사용되며, 이를 제한하기 위한 것이 아니다. 일반적으로, 잘 알려진 명령 인스턴스들, 프로토콜들, 구조들 및 기술들은 반드시 상세하게 도시되지 않는다.
[0031] 본 명세서에서 사용되는 "결합된" 또는 "연결된"이라는 용어들은 하나의 시스템 요소에 의해 생성되거나 공급되는 전기적 또는 자기적 신호들이 결합되거나 연결된 다른 시스템 요소에 부여되는 링크 등을 포함하는 임의의 논리적, 광학적, 물리적 또는 전기적 연결을 지칭한다. 달리 설명되지 않는 한, 결합되거나 연결된 요소들 또는 디바이스들은 반드시 서로 직접 연결될 필요는 없으며 중간 구성요소들, 요소들 또는 통신 매체들에 의해 분리될 수 있으며, 그 중 하나 이상이 전기 신호들을 수정, 조작 또는 전달할 수 있다. "상에(on)"라는 용어는 요소에 의해 직접적으로 지지되거나, 요소에 통합되거나 요소에 의해 지지되는 다른 요소를 통해 요소에 의해 간접적으로 지지되는 것을 의미한다.
[0032] "근위"라는 용어는 객체 또는 사람의 근처, 인접 또는 옆에 위치한 물품 또는 물품의 일부를; 또는 "원위"로 설명될 수 있는 물품의 다른 부분과 상대적으로 더 가까운 물품 또는 물품의 일부를 설명하는 데 사용된다. 예를 들어, 객체에 가장 가까운 물품의 단부는 근위 단부로 지칭될 수 있는 반면, 일반적으로 반대편에 있는 단부는 원위 단부로 지칭될 수 있다.
[0033] 도시되어 있는 바와 같이, 아이웨어 디바이스, 다른 모바일 디바이스들, 연관된 구성요소들 및 카메라, 관성 측정 유닛 또는 이들 모두를 통합한 임의의 다른 디바이스들의 배향들은 예시로서만 제공되며, 설명 및 논의의 목적들로만 제공된다. 작동 시, 아이웨어 디바이스는 아이웨어 디바이스의 특정 용도에 적합한 임의의 다른 방향; 예를 들어, 위쪽, 아래쪽, 옆쪽 또는 임의의 다른 배향으로 배향될 수 있다. 또한, 본 명세서에서 사용되는 범위 내에서, 전방, 후방, 내측, 외측, 향방, 좌측, 우측, 측면, 종방향, 상하, 상하, 상부, 하부, 측면, 수평, 수직 및 대각선과 같은 임의의 방향 용어는 단지 예시로서만 사용되며, 본 명세서에 달리 설명된 대로 구성된 카메라 또는 관성 측정 유닛의 방향 또는 배향을 제한하는 것이 아니다.
[0034] 샘플 구성들에서, 컴퓨터 비전 및 객체 추적과 같은 고급 증강 현실(AR) 기술들은 지각적으로 풍부하고 몰입감 있는 경험을 생성하기 위해 사용될 수 있다. 컴퓨터 비전 알고리즘들은 디지털 이미지들 또는 비디오로 캡처한 데이터에서 물리적 세계에 대한 3 차원 데이터를 추출한다. 객체 인식 및 추적 알고리즘은 디지털 이미지들 또는 비디오에서 객체를 감지하고, 배향 또는 자세(예를 들어, 6 개의 자유도(x, y, z, 피치, 요, 롤)를 추정하고, 시간에 따른 객체의 움직임을 추적하는 데 사용될 수 있다. 여기서 사용되는 '자세'라는 용어는 특정 시점의 객체의 정적 포지션 및 배향을 의미한다. '제스처'라는 용어는 신호나 아이디어를 전달하기 위해 손과 같은 객체가 일련의 자세를 통해 능동적으로 움직이는 것을 의미한다. 자세와 제스처라는 용어들은 컴퓨터 비전 및 증강 현실 분야에서 때때로 혼용되어 사용되기도 한다. 본 명세서에서 사용되는 바와 같이, "자세" 또는 "제스처"(또는 이들의 변형들)라는 용어들은 자세와 제스처를 모두 포함하는 것으로 의도되며, 다시 말해, 한 용어의 사용이 다른 용어를 배제하지 않는다.
[0035] 실시예들의 추가적인 목적들, 장점들 및 신규한 특징들은 부분적으로 이하의 설명에 기재될 것이며, 부분적으로는 이하 및 첨부된 도면들을 검토함으로써 당업자들에게 명백해지거나, 예들의 제조 또는 작동에 의해 학습될 수 있을 것이다. 본 발명의 목적들 및 장점들은 첨부된 청구항들에 특별히 지적된 방법론들, 수단들 및 조합들에 의해 실현 및 달성될 수 있다.
[0036] 이제 첨부된 도면들에 예시되고 아래에서 논의되는 예들을 상세히 참조한다.
[0037] 도 1a는 터치-감지 입력 디바이스 또는 터치패드(181)를 포함하는 아이웨어 디바이스(100)의 예시적인 하드웨어 구성의 (우측) 측면도이다. 도시된 바와 같이, 터치패드(181)는 미묘하고 쉽게 보이지 않는 경계를 가질 수 있다; 대안적으로, 경계가 명확하게 보이거나, 또는 터치패드(181)의 위치 및 경계에 대해 사용자에게 피드백을 제공하는 돌출된 또는 다른 촉각 에지를 포함할 수 있다. 다른 구현예들에서, 아이웨어 디바이스(100)는 터치패드(181)를 대신하거나 터치패드(181)에 추가하여 좌측에 터치패드를 포함할 수 있다.
[0038] 터치패드(181)의 표면은 사용자가 직관적인 방식으로 메뉴 옵션들을 탐색하고 선택할 수 있도록, 사용자 경험을 향상시키고 단순화시키는 이미지 디스플레이 상에서 아이웨어 디바이스에 의해 디스플레이되는 GUI와 함께 사용하기 위한 손가락 터치들, 탭들 및 제스처들(예를 들어, 움직이는 터치들)을 검출하도록 구성된다.
[0039] 터치패드(181)에서 손가락 입력들을 검출하면 여러 기능들을 활성화할 수 있다. 예를 들어, 터치패드(181)의 임의의 위치를 터치하면, 광학 조립체들(180A, 180B) 중 적어도 하나에 투사될 수 있는 이미지 디스플레이 상에 GUI가 항목을 디스플레이 또는 강조 표시할 수 있다. 터치패드(181)를 두 번 탭하면 항목 또는 아이콘을 선택할 수 있다. 손가락을 특정 방향(예를 들어, 전방에서 후방으로, 후방에서 전방으로, 위에서 아래로, 또는 아래로)으로 밀거나 스와이프하면, 항목들 또는 아이콘들이 특정 방향으로 미끄러지거나 스크롤될 수 있다; 예를 들어, 다음 항목, 아이콘, 비디오, 이미지, 페이지 또는 슬라이드로 이동. 손가락을 다른 방향으로 밀면, 예를 들어 이전 항목, 아이콘, 비디오, 이미지, 페이지 또는 슬라이드로 이동하기 위해 반대 방향으로 슬라이드 또는 스크롤될 수 있다. 터치패드(181)는 사실상 아이웨어 디바이스(100) 상의 어느 곳에나 위치할 수 있다.
[0040] 일 예에서, 터치패드(181)를 한 번 탭하는 식별된 손가락 제스처는 좌측 광학 조립체(180A) 및 우측 광학 조립체(180B)의 이미지 디스플레이 상에 제시된 이미지에서 GUI 요소의 선택 또는 누름을 개시한다. 식별된 손가락 제스처에 기초하여 광학 조립체들(180A, 180B)의 이미지 디스플레이 상에 제시된 이미지에 대한 조정은 추가 디스플레이 또는 실행을 위해 광학 조립체들(180A, 180B)의 이미지 디스플레이 상에 GUI 요소를 선택하거나 제출하는 일차적인 동작이 될 수 있다.
[0041] 아이웨어 디바이스(100)는 깊이 이미지들과 같은 이미지들을 제시하기 위한 이미지 디스플레이를 갖는 우측 광학 조립체(180B)를 포함한다. 도 1a 및 도 1b에 도시된 바와 같이, 아이웨어 디바이스(100)는 우측 가시광 카메라(114B)를 포함한다. 아이웨어 디바이스(100)는 스테레오 카메라와 같은 수동형 3 차원 카메라를 형성하는 다수의 가시광 카메라들(114A, 114B)을 포함할 수 있으며, 그 중 우측 가시광 카메라(114B)는 우측 코너(110B)에 위치한다. 도 1c 및 도 1d에 도시된 바와 같이, 아이웨어 디바이스(100)는 또한 좌측 가시광 카메라(114A)를 포함한다. 본 명세서에서 추가로 설명되는 바와 같이, 좌측 가시광 카메라(114A) 및 우측 가시광 카메라(114B)는 두 개의 개별적인 시점들로부터 장면에 대한 이미지 정보를 캡처한다. 두 개의 캡처된 이미지들은 3 차원(3D) 안경들 또는 증강 현실 또는 가상 현실 아이웨어 디바이스들의 디스플레이들로 보기 위한 이미지 디스플레이에 3 차원 디스플레이를 투사하는 데 사용될 수 있다.
[0042] 좌측 및 우측 가시광 카메라들(114A, 114B)은 가시광 범위 파장에 민감하다. 가시광 카메라들(114A, 114B) 각각은 3 차원 깊이 이미지들의 생성을 가능하게 하기 위해 중첩되는 서로 다른 전방 시야를 가지며, 예를 들어, 우측 가시광 카메라(114B)는 우측 시야(111B)를 묘사한다. 일반적으로 "시야"는 공간의 특정 포지션 및 방향에서 카메라를 통해 볼 수 있는 장면의 일부이다. 시야들(111A 및 111B)은 중첩 시야(304)를 갖는다(도 3). 가시광 카메라가 이미지를 캡처할 때 시야(111A, 111B) 밖에 있는 객체들 또는 객체 특징들은 원시 이미지(예를 들어, 사진 또는 그림)에 기록되지 않는다. 시야는 가시광 카메라(114A, 114B)의 이미지 센서가 주어진 장면의 캡처 이미지에서 주어진 장면의 전자기 복사를 포착하는 각도 범위 또는 크기를 나타낸다. 시야는 뷰콘의 각도 크기, 즉 화각으로 표현할 수 있다. 화각은 수평, 수직 또는 대각선으로 측정될 수 있다.
[0043] 예시적인 구성에서, 가시광 카메라들(114A, 114B) 중 하나 또는 둘 모두는 100°의 시야 및 480 x 480 픽셀들의 해상도를 갖는다. "커버리지 각도"는 가시광 카메라들(114A, 114B) 또는 적외선 카메라(410)(도 4 참조)의 렌즈가 효과적으로 이미지화할 수 있는 각도 범위를 설명한다. 전형적으로, 카메라 렌즈는 카메라의 필름 또는 센서를 완전히 덮을 수 있을 만큼 충분히 큰 이미지 원을 생성하며, 여기에는 비네팅(예를 들어, 중앙에 비해 가장자리를 향해 이미지가 어두워지는 현상)이 포함될 수 있다. 카메라 렌즈의 커버리지 각도가 센서를 채우지 않으면, 전형적으로 에지를 향한 강한 비네팅과 함께 이미지 원이 보이고, 유효 화각은 커버리지 각도로 제한될 것이다.
[0044] 이러한 가시광 카메라들(114A, 114B)의 예들로는, 고해상도 상보형 금속 산화막 반도체(CMOS) 이미지 센서 및 480 p(예를 들어, 640 x 480 픽셀), 720 p, 1080 p 이상의 해상도들이 가능한 디지털 VGA 카메라(비디오 그래픽 어레이)를 포함한다. 다른 예들은 고화질(HD) 비디오를 높은 프레임 속도(예를 들어, 초당 30 내지 60 프레임 이상)로 녹화하고 1216×1216 픽셀들(또는 그 이상)의 해상도로 저장할 수 있는 가시광 카메라들(114A, 114B)을 포함한다.
[0045] 아이웨어 디바이스(100)는 이미지 프로세서(412)에 의해 디지털화된 지리적 위치 데이터와 함께 가시광 카메라들(114A, 114B)로부터 이미지 센서 데이터를 캡처하여 메모리에 저장할 수 있다. 가시광 카메라들(114A, 114B)은 수평 포지션에 대한 X 축 및 수직 포지션에 대한 Y 축을 포함하는 2 차원 좌표계 상의 픽셀들의 매트릭스를 구성하는 2 차원 공간 영역에서 개개의 좌측 및 우측 원시 이미지들을 캡처한다. 각각의 픽셀은 색상 속성 값(예를 들어, 적색 픽셀 광 값, 녹색 픽셀 광 값 또는 청색 픽셀 광 값); 및 포지션 속성(예를 들어, X 축 좌표 및 Y 축 좌표)을 포함한다.
[0046] 나중에 3 차원 투사로서 디스플레이하기 위한 스테레오 이미지들을 캡처하기 위해, 이미지 프로세서(412)(도 4에 도시됨)는 가시광 카메라들(114A, 114B)에 결합되어 시각 이미지 정보를 수신 및 저장할 수 있다. 이미지 프로세서(412) 또는 다른 프로세서는 인간의 양안 시력을 시뮬레이션하는 스테레오 카메라로서 작동하도록 가시광 카메라들(114A, 114B)의 동작을 제어하며, 각각의 이미지에 타임스탬프를 추가할 수 있다. 각각의 이미지들의 쌍의 타임스탬프를 통해 이미지들을 3 차원 투사의 일부로 함께 표시할 수 있다. 3 차원 투사는 가상 현실(VR) 및 비디오 게임을 포함한 다양한 맥락들에서 바람직한 몰입감 있고 실제와 같은 경험을 생성한다.
[0047] 아이웨어 디바이스(100)는 착용자의 좌측 귀에 오디오 신호를 제공하기 위한 좌측 스피커(185A)(도 1d) 및 착용자의 우측 귀에 오디오 신호를 제공하기 위한 우측 스피커(185B)(도 1b)를 포함하는 스테레오 스피커 시스템을 추가적으로 갖는다. 스테레오 스피커 시스템의 오디오 프로세서(413)(도 4)는 오디오 신호들을 좌측 스피커(185A) 및 우측 스피커(185B)로 전달한다.
[0048] 도 1b는 카메라 시스템의 우측 가시광 카메라(114B) 및 회로 기판(140B)을 도시한 도 1a의 아이웨어 디바이스(100)의 우측 코너(110B)의 사시 단면도이다. 도 1c는 도 1a의 아이웨어 디바이스(100)의 예시적인 하드웨어 구성의 (좌측) 측면도로서, 카메라 시스템의 좌측 가시광 카메라(114A)를 도시한다. 도 1d는 카메라 시스템의 좌측 가시광 카메라(114A)와 회로 기판(140A)을 도시한 도 1c의 아이웨어 디바이스의 좌측 코너(110A)의 사시 단면도이다.
[0049] 좌측 가시광 카메라(114A)의 구성 및 배치는 연결 및 커플링이 우측 측면(170B)이 아닌 좌측 측면(170A)에 있다는 점을 제외하면, 우측 가시광 카메라(114B)와 실질적으로 유사하다. 도 1b의 예에 도시된 바와 같이, 아이웨어 디바이스(100)는 우측 가시광 카메라(114B)와 연성 인쇄 회로 기판(PCB)일 수 있는 우측 회로 기판(140B)을 포함한다. 우측 힌지(126B)는 아이웨어 디바이스(100)의 우측 코너(110B)를 우측 템플(125B)에 연결한다. 일부 예들에서, 우측 가시광 카메라(114B), 연성 PCB(140B), 또는 다른 전기 커넥터들 또는 접점들의 구성요소들은 우측 템플(125B) 또는 우측 힌지(126B)에 위치할 수 있다. 도 1d에 도시된 바와 같이, 좌측 힌지(126A)는 아이웨어 디바이스(100)의 좌측 코너(110A)를 좌측 템플(125A)에 연결한다. 일부 예들에서, 좌측 가시광 카메라(114A), 연성 PCB(140A), 또는 다른 전기 커넥터들 또는 접점들의 구성요소들은 좌측 템플(125A) 또는 좌측 힌지(126A) 상에 위치할 수 있다.
[0050] 우측 코너(110B)는 코너 본체(190) 및 코너 캡을 포함하며, 도 1b의 단면에서는 코너 캡이 생략되어 있다. 우측 코너(110B) 내부에는, 우측 가시광 카메라(114B)를 위한 제어기 회로들, 우측 스피커(185B), 마이크(들), 저전력 무선 회로(예를 들어, 블루투스(등록상표)(Bluetooth®)를 통한 무선 근거리 네트워크 통신용), 고속 무선 회로(예를 들어, 와이파이(등록상표)(WI-FI®)를 통한 무선 근거리 네트워크 통신용)를 포함하는 다양한 상호 연결 회로 기판들(예를 들어, PCB들 또는 연성 PCB들)이 배치되어 있다.
[0051] 우측 가시광 카메라(114B)는 연성 PCB(140B)에 결합되거나 연성 PCB(140B) 상에 배치되고, 프레임(105) 내에 형성된 개구부(들)를 통해 조준되는 가시광 카메라 커버 렌즈에 의해 덮여 있다. 예를 들어, 도 2a에 도시된 프레임(105)의 우측 테두리(107B)는 우측 코너(110B)에 연결되고 가시광 카메라 커버 렌즈용 개구부(들)를 포함한다. 프레임(105)은 사용자의 눈으로부터 바깥쪽을 향하도록 구성된 전방측을 포함한다. 가시광 카메라 커버 렌즈용 개구부는 프레임(105)의 전방 또는 바깥쪽을 향하도록 형성된다. 이 예에서, 우측 가시광 카메라(114B)는 아이웨어 디바이스(100)의 사용자의 우측 눈과 상관되는 시선 또는 원근을 갖는 외향 시야(111B)(도 3에 도시됨)를 갖는다. 가시광 카메라 커버 렌즈는 또한 외측을 향한 커버리지 각도를 갖는 개구부가 형성되는 우측 코너(110B)의 전방측 또는 외측 표면에 부착될 수 있지만, 서로 다른 외측 방향으로 부착될 수 있다. 커플링은 또한 중간 구성요소들을 통해 간접적으로 이루어질 수도 있다.
[0052] 도 1b에 도시된 바와 같이, 연성 PCB(140B)는 우측 코너(110B) 내부에 배치되고, 우측 코너(110B)에 수용된 하나 이상의 다른 구성요소들에 결합된다. 우측 코너(110B)의 회로 기판 상에 형성되는 것으로 도시되어 있지만, 우측 가시광 카메라(114B)는 좌측 코너(110A)의 회로 기판, 템플들(125A, 125B) 또는 프레임(105) 상에 형성될 수 있다.
[0053] 도 2a 및 도 2b는 두 가지 서로 다른 유형들의 이미지 디스플레이들을 포함하는 아이웨어 디바이스(100)의 예시적인 하드웨어 구성의 후방에서 본 사시도이다. 아이웨어 디바이스(100)는 사용자가 착용할 수 있도록 구성된 형태로 크기 및 형상화되며, 예시에서는 안경의 형태를 나타낸다. 아이웨어 디바이스(100)는 다른 형태들을 취할 수 있으며, 다른 유형들의 프레임워크들, 예를 들어, 헤드기어, 헤드셋 또는 헬멧을 통합할 수 있다.
[0054] 안경의 예에서, 아이웨어 디바이스(100)는 사용자의 코에 의해 지지되도록 적응된 브리지(106)를 통해 우측 림(107B)에 연결되는 좌측 림(107A)을 포함하는 프레임(105)을 포함한다. 좌측 및 우측 림들(107A, 107B)은 렌즈 및 디스플레이 디바이스와 같은 개개의 광학 소자(180A, 180B)를 수용하는 개개의 애퍼처들(175A, 175B)을 포함한다. 본 명세서에서 사용되는 바와 같이, "렌즈"라는 용어는 광을 수렴/발산시키거나 또는 수렴 또는 발산을 거의 또는 전혀 일으키지 않는 곡면 또는 평평한 표면들을 갖는 유리 또는 플라스틱의 투명 또는 반투명 조각들을 포함하도록 의도된다.
[0055] 비록 2 개의 광학 요소들(180A, 180B)을 갖는 것으로 도시되어 있지만, 아이웨어 디바이스(100)는 아이웨어 디바이스(100)의 애플리케이션 또는 의도된 사용자에 따라 단일 광학 요소와 같은 다른 배열들을 포함할 수 있다(또는 광학 요소(180A, 180B)를 포함하지 않을 수도 있다). 추가로 도시된 바와 같이, 아이웨어 디바이스(100)는 프레임(105)의 좌측 측면(170A)에 인접한 좌측 코너(110A) 및 프레임(105)의 우측 측면(170B)에 인접한 우측 코너(110B)를 포함한다. 코너들(110A, 110B)은 (예시된 바와 같이) 개개의 측면들(170A, 170B)의 프레임(105)에 통합되거나 또는 개개의 측면들(170A, 170B)의 프레임(105)에 부착된 별도의 구성요소들로 구현될 수 있다. 대안적으로, 코너들(110A, 110B)은 프레임(105)에 부착된 템플들(도시되지 않음)에 통합될 수 있다.
[0056] 일 예에서, 광학 조립체들(180A, 180B)의 이미지 디스플레이는 통합 이미지 디스플레이를 포함한다. 도 2a에 도시된 바와 같이, 각각의 광학 조립체들(180A, 180B)은 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이, 또는 임의의 다른 디스플레이와 같은 적절한 디스플레이 매트릭스(177)를 포함한다. 각각의 광학 조립체들(180A, 180B)은 또한 렌즈들, 광학 코팅들, 프리즘들, 미러들, 도파관들, 광 스트립들 및 임의의 조합의 다른 광학 구성요소들을 포함할 수 있는 광학 레이어 또는 레이어들(176)을 포함한다. 광학 레이어들(176A, 176B,... 176N(도 2a 및 본 명세서에서 176A-N으로 도시됨)은 적절한 크기 및 구성을 가지며 디스플레이 매트릭스로부터 광을 수신하기 위한 제1 표면 및 사용자의 눈을 향해 광을 방출하기 위한 제2 표면을 포함하는 프리즘을 포함할 수 있다. 광학 레이어들(176A-N)의 프리즘은 사용자의 눈이 대응하는 좌측 및 우측 림들(107A, 107B)을 통해 볼 때 프리즘의 제2 표면을 볼 수 있도록 좌측 및 우측 림들(107A, 107B)에 형성된 개개의 애퍼처들(175A, 175B)의 전부 또는 적어도 일부에 걸쳐 연장된다. 광학 레이어들(176A-N)의 프리즘의 제1 표면은 프레임(105)으로부터 위쪽을 향하고, 디스플레이 매트릭스(177)가 프리즘을 덮어 디스플레이 매트릭스(177)에 의해 방출된 광자들 및 광이 제1 표면에 충돌하도록 한다. 프리즘은 광이 프리즘 내에서 굴절되어 광학 레이어들(176A-N)의 프리즘의 제2 표면에 의해 사용자의 눈을 향하도록 크기 및 형상을 갖는다. 이와 관련하여, 광학 레이어들(176A-N)의 프리즘의 제2 표면은 볼록하여 광을 눈의 중심을 향하게 할 수 있다. 프리즘은 디스플레이 매트릭스(177)에 의해 투사된 이미지를 확대하도록 선택적으로 크기 및 형상을 가질 수 있으며, 광은 프리즘을 통과하여 제2 표면에서 보이는 이미지가 디스플레이 매트릭스(177)에서 방출된 이미지보다 하나 이상의 차원에서 더 커지도록 프리즘을 통해 이동한다.
[0057] 일 예에서, 광학 레이어들(176A-N)은, 레이어들을 불투명하게 만드는(렌즈를 폐쇄하거나 차단하는) 전압이 인가되지 않는 한, 투명(렌즈를 개방된 상태로 유지)한 LCD 레이어들을 포함할 수 있다. 아이웨어 디바이스(100)의 이미지 프로세서(412)는 액티브 셔터 시스템을 생성하기 위해 LCD 층에 전압을 인가하는 프로그래밍을 실행하여, 아이웨어 디바이스(100)가 3 차원 투사로 디스플레이될 때 시각 콘텐츠를 보기에 적합하도록 만들 수 있다. 액티브 셔터 모드에는 전압 또는 다른 유형의 입력에 반응하는 다른 유형의 리액티브 레이어를 포함하여, LCD 이외의 기술들이 사용될 수 있다.
[0058] 다른 예에서, 광학 조립체들(180A, 180B)의 이미지 디스플레이 디바이스는 도 2b에 도시된 바와 같이 투사 이미지 디스플레이를 포함한다. 각각의 광학 조립체(180A, 180B)는 스캐닝 미러 또는 검류계를 사용하는 3 색 레이저 프로젝터인 레이저 프로젝터(150)를 포함한다. 작동 중에, 레이저 프로젝터(150)와 같은 광원은 아이웨어 디바이스(100)의 템플들(125A, 125B) 중 하나의 내부 또는 위에 배치된다. 이 예에서 광학 조립체(180B)는 하나 이상의 광학 스트립들(155A, 155B,...155N)(도 2b에서 155A-N으로 도시됨)을 포함하며, 이는 각각의 광학 조립체들(180A, 180B)의 렌즈의 폭 또는 렌즈의 전방 표면과 후방 표면 사이의 렌즈의 깊이에 걸쳐 이격된 간격을 가진다.
[0059] 레이저 프로젝터(150)에 의해 투사된 광자들이 각각의 광학 조립체들(180A, 180B)의 렌즈를 가로질러 이동함에 따라, 광자들은 광학 스트립들(155A-N)과 마주친다. 특정 광자가 특정 광학 스트립을 만나면 광자는 사용자의 눈 쪽으로 방향이 바뀌거나 다음 광학 스트립으로 전달된다. 레이저 프로젝터(150)의 변조와 광학 스트립들의 변조를 조합하여 특정 광자들 또는 광선들을 제어한다. 일 예로, 프로세서는 기계적, 음향 또는 전자기 신호들을 시작하여 광학 스트립들(155A-N)을 제어한다. 2 개의 광학 조립체들(180A, 180B)을 갖는 것으로 도시되어 있지만, 아이웨어 디바이스(100)는 단일 또는 3 개의 광학 조립체들과 같은 다른 배열들을 포함할 수 있으며, 또는 각각의 광학 조립체들(180A, 180B)은 아이웨어 디바이스(100)의 애플리케이션 또는 의도된 사용자에 따라 서로 다른 배열을 가질 수 있다.
[0060] 다른 예에서, 도 2b에 도시된 아이웨어 디바이스(100)는 2 개의 프로젝터들, 즉 좌측 프로젝터(도시되지 않음) 및 우측 프로젝터(150)를 포함할 수 있다. 좌측 광학 조립체(180A)는 좌측 프로젝터로부터의 광과 상호 작용하도록 구성된 좌측 광학 스트립들의 세트(도시되지 않음) 또는 좌측 디스플레이 매트릭스(177A)(도시되지 않음)를 포함할 수 있다. 마찬가지로, 우측 광학 조립체(180B)는 우측 프로젝터(150)의 광과 상호 작용하도록 구성된 우측 광학 스트립들의 세트 또는 우측 디스플레이 매트릭스(177B)(도시되지 않음)를 포함할 수 있다. 이 예에서, 아이웨어 디바이스(100)는 좌측 디스플레이 및 우측 디스플레이를 포함한다.
[0061] 도 3은 3 차원(3D) 장면(306), 좌측 가시광 카메라(114A)에 의해 캡처된 좌측 원시 이미지(302A) 및 우측 가시광 카메라(114B)에 의해 캡처된 우측 원시 이미지(302B)를 도식적으로 나타낸 도면이다. 도시된 바와 같이, 좌측 시야(111A)는 우측 시야(111B)와 중첩될 수 있다. 중첩 시야(304)는 두 카메라들(114A, 114B)에 의해 캡처된 이미지들의 해당 부분을 나타낸다. 시야를 지칭할 때 '중첩하는'이라는 용어는 생성된 원시 이미지의 픽셀 매트릭스가 30 % 이상 겹치는 것을 의미한다. '실질적으로 중첩하는'이라는 것은 생성된 원시 이미지 또는 장면의 적외선 이미지에서 픽셀 매트릭스가 50 % 이상 중첩되는 것을 의미한다. 본 명세서에 설명된 바와 같이, 두 개의 원시 이미지들(302A, 302B)은 타임스탬프를 포함하도록 처리될 수 있으며, 이는 이미지들이 3 차원 투영의 일부로서 함께 표시될 수 있도록 한다.
[0062] 도 3에 도시된 바와 같이, 스테레오 이미지들의 캡처를 위해, 한 쌍의 원시 적색, 녹색 및 청색(RGB) 이미지들이 주어진 시점의 실제 장면(306)에서 캡처되는데, 이는 좌측 카메라(114A)에 의해 캡처된 좌측 원시 이미지(302A)와 우측 카메라(114B)에 의해 캡처된 우측 원시 이미지(302B)이다. 한 쌍의 원시 이미지들(302A, 302B)이 처리되면(예를 들어, 이미지 프로세서(412)에 의해), 깊이 이미지들이 생성된다. 생성된 깊이 이미지들은 아이웨어 디바이스의 광학 조립체(180A, 180B), 다른 디스플레이(예를 들어, 모바일 디바이스(401) 상의 이미지 디스플레이(580)) 또는 스크린 상에서 볼 수 있다.
[0063] 일 예에서, 생성된 깊이 이미지들은 2 차원 또는 3 차원 공간 영역에 있으며, 수평 위치(예를 들어, 길이)를 위한 X 축, 수직 위치(예를 들어, 높이)를 위한 Y 축 및 선택적으로 깊이(예를 들어, 거리)를 위한 Z 축을 포함하는 다차원 위치 좌표계 상의 정점의 매트릭스를 포함할 수 있다. 각각의 정점은 색상 속성(예를 들어, 적색 픽셀 조명 값, 녹색 픽셀 조명 값 또는 청색 픽셀 조명 값); 위치 속성(예를 들어, X 위치 좌표, Y 위치 좌표 및 선택적으로 Z 위치 좌표); 텍스처 속성; 반사율 속성 또는 이들의 조합을 포함할 수 있다. 텍스처 속성은 깊이 이미지의 정점 영역에서 색상 또는 강도의 공간적 배열과 같은 깊이 이미지의 인지된 텍스처를 정량화한다.
[0064] 일 예에서, HRTF 모델링 시스템(400)(도 4)은 아이웨어 디바이스(100)를 포함하는데, 아이웨어 디바이스(100)는 프레임(105) 및 프레임(105)의 좌측 측면(170A)으로부터 연장되는 좌측 템플(125A) 및 프레임(105)의 우측 측면(170B)으로부터 연장되는 우측 템플(125B)을 포함한다. 아이웨어 디바이스(100)는 시야가 중첩되는 적어도 2 개의 가시광 카메라들(114A, 114B)을 더 포함할 수 있다. 일 예로, 도 3에 도시된 바와 같이, 아이웨어 디바이스(100)는 좌측 시야(111A)를 갖는 좌측 가시광 카메라(114A)를 포함한다. 좌측 카메라(114A)는 프레임(105) 또는 좌측 템플(125A)에 연결되어 장면(306)의 좌측에서 좌측 원시 이미지(302A)를 캡처한다. 아이웨어 디바이스(100)는 우측 시야(111B)를 갖는 우측 가시광 카메라(114B)를 더 포함한다. 우측 카메라(114B)는 프레임(105) 또는 우측 템플(125B)에 연결되어 장면(306)의 우측으로부터 우측 원시 이미지(302B)를 캡처한다.
[0065] 도 4는 웨어러블 디바이스(예를 들어, 아이웨어 디바이스(100)), 모바일 디바이스(401) 및 인터넷과 같은 다양한 네트워크들(495)을 통해 연결된 서버 시스템(498)을 포함하는 예시적인 HRTF 모델링 시스템(400)의 기능적 블록도이다. 도시된 바와 같이, HRTF 모델링 시스템(400)은 저전력 무선 연결(425) 및 아이웨어 디바이스(100)와 모바일 디바이스(401) 사이의 고속 무선 연결(437)을 포함한다.
[0066] 도 4에 도시된 바와 같이, 아이웨어 디바이스(100)는 본 명세서에 설명된 바와 같이 정지 이미지들, 비디오 이미지들 또는 정지 및 비디오 이미지들 모두를 캡처하는 하나 이상의 가시광 카메라들(114A, 114B)을 포함한다. 카메라들(114A, 114B)은 고속 회로(430)에 대한 직접 메모리 액세스(DMA)를 가질 수 있고 스테레오 카메라로서 기능할 수 있다. 카메라들(114A, 114B)은 적색, 녹색 및 청색(RGB) 이미징 장면의 텍스처 매핑된 이미지들이거나 또는 각각 광학 조립체들(180A-B)의 이미지 디스플레이에 디스플레이되는 3 차원(3D) 모델들로 렌더링될 수 있는 초기 깊이 이미지들을 캡처하는 데 사용될 수 있다. 디바이스(100)는 또한 적외선 신호들을 사용하여 디바이스(100)에 대해 객체들의 포지션을 추정하는 깊이 센서를 포함할 수 있다. 일부 예들에서 깊이 센서는 하나 이상의 적외선 방출기(들)(415) 및 적외선 카메라(들)(410)를 포함한다.
[0067] 아이웨어 디바이스(100)는 또한 각각의 광학 조립체(180A, 180B)의 2 개의 이미지 디스플레이들(하나는 좌측 측면(170A)과 연관되고, 하나는 우측 측면(170B)과 연관됨)을 포함한다. 아이웨어 디바이스(100)는 또한 이미지 디스플레이 드라이버(442), 이미지 프로세서(412), 저전력 회로(420) 및 고속 회로(430)를 포함한다. 각각의 광학 조립체(180A, 180B)의 이미지 디스플레이들은 정지 이미지들, 비디오 이미지들 또는 정지 및 비디오 이미지들을 포함하는 이미지들을 제시하기 위한 것이다. 이미지 디스플레이 드라이버(442)는 이미지들의 디스플레이를 제어하기 위해 각각의 광학 조립체(180A, 180B)의 이미지 디스플레이들에 결합된다.
[0068] 아이웨어 디바이스(100)는 한 쌍의 스피커들(185A-B)(예를 들어, 아이웨어 디바이스의 좌측과 연관된 스피커들 및 아이웨어 디바이스의 우측과 연관된 스피커들)을 추가로 포함한다. 스피커들(185A)은 아이웨어 디바이스(100)의 프레임(105), 템플(125) 또는 코너(110)에 통합될 수 있다. 스피커(185)는 저전력 회로(420), 고속 회로(430), 또는 둘 다의 제어하에 오디오 프로세서(413)에 의해 구동된다. 스피커(185)는 예를 들어, 가상 객체와 연관된 오디오 트랙을 포함하는 오디오 신호를 제공하기 위한 것이다. 오디오 프로세서(413)는 광학 조립체들(180A-B)의 이미지 디스플레이들 상에 제시된 가상 객체들의 위치에 대응하는 음향 포지션 정보를 제공하기 위해 HRTF 모델링에 따라 소리의 제시를 제어하기 위해 스피커들(185)에 결합된다. 오디오 프로세서(413)는 아이웨어 디바이스(100)에 필요한 오디오 처리를 관리할 수 있는 임의의 프로세서일 수 있다(예를 들어, HRTF 모델링이 가능한 프로세서). 도 11 내지 도 14와 관련하여 아래에서 더 설명되는 바와 같이, 오디오 프로세서(413)는 처리 전력 사용 및 처리 지연을 개선하는 인코딩 기법을 사용하여 고속 회로(430)의 고속 프로세서(432)에 결합될 수 있다.
[0069] 도 4에 도시된 아이웨어 디바이스(100)에 대한 구성요소들은 하나 이상의 회로 기판들, 예를 들어, 림들 또는 템플들에 위치한 인쇄 회로 기판(PCB) 또는 연성 인쇄 회로(FPC) 상에 위치한다. 대안적으로 또는 추가적으로, 묘사된 구성요소들은 아이웨어 디바이스(100)의 코너들, 프레임들, 힌지들 또는 브리지에 위치할 수 있다. 좌측 및 우측 가시광 카메라들(114A, 114B)은 상보성 금속 산화막 반도체(CMOS) 이미지 센서, 전하 결합 장치, 렌즈, 또는 미지의 객체들이 있는 장면들의 정지 이미지들 또는 비디오를 포함하는 데이터를 캡처하는 데 사용될 수 있는 임의의 다른 개개의 가시 또는 광 캡처 요소들과 같은 디지털 카메라 요소들을 포함할 수 있다.
[0070] 도 4에 도시된 바와 같이, 고속 회로(430)는 고속 프로세서(432), 메모리(434) 및 고속 무선 회로(436)를 포함한다. 예시에서, 이미지 디스플레이 드라이버(442)는 고속 회로(430)에 결합되고, 고속 프로세서(432)에 의해 작동되어 각각의 광학 조립체(180A, 180B)의 좌우 이미지 디스플레이들을 구동한다. 고속 프로세서(432)는 아이웨어 디바이스(100)에 필요한 모든 일반 컴퓨팅 시스템의 고속 통신 및 동작을 관리할 수 있는 임의의 프로세서일 수 있다. 고속 프로세서(432)는 고속 무선 회로(436)를 사용하여 무선 근거리 통신망(WLAN)에 대한 고속 무선 연결(437)에서의 고속 데이터 전송을 관리하는 데 필요한 처리 리소스들을 포함한다.
[0071] 일부 예에서, 고속 프로세서(432)는 아이웨어 디바이스(100)의 리눅스 운영 체제 또는 다른 운영 체제와 같은 운영 체제를 실행하고, 운영 체제는 실행을 위해 메모리(434)에 저장된다. 다른 책임들 외에도, 고속 프로세서(432)는 고속 무선 회로(436)와의 데이터 전송을 관리하는 데 사용되는 아이웨어 디바이스(100)를 위한 소프트웨어 아키텍처를 실행한다. 일부 예들에서, 고속 무선 회로(436)는 본 명세서에서 와이파이라고도 하는 전기전자기술자협회(IEEE) 802.11 통신 표준들을 구현하도록 구성된다. 다른 예들에서, 다른 고속 통신 표준들은 고속 무선 회로(436)에 의해 구현될 수 있다.
[0072] 저전력 회로(420)는 저전력 프로세서(422) 및 저전력 무선 회로(424)를 포함한다. 아이웨어 디바이스(100)의 저전력 무선 회로(424) 및 고속 무선 회로(436)는 단거리 트랜시버들(블루투스® 또는 블루투스 저에너지(BLE)) 및 무선 광역, 로컬 또는 광역 네트워크 트랜시버들(예를 들어, 셀룰러 또는 와이파이®)를 포함할 수 있다. 저전력 무선 연결(425) 및 고속 무선 연결(437)을 통해 통신하는 트랜시버들을 포함하는 모바일 디바이스(401)는, 네트워크(495)의 다른 요소들과 마찬가지로, 아이웨어 디바이스(100)의 아키텍처의 세부 사항들을 사용하여 구현될 수 있다.
[0073] 메모리(434)는 무엇보다도 좌측 및 우측 가시광 카메라들(114A, 114B), 적외선 카메라(들)(410), 이미지 프로세서(412) 및 이미지 디스플레이 드라이버(442)에 의해 각각의 광학 조립체(180A, 180B)의 이미지 디스플레이에 디스플레이되도록 생성되는 이미지들을 포함하여 다양한 데이터 및 애플리케이션들을 저장할 수 있는 임의의 저장 디바이스를 포함한다. 메모리(434)가 고속 회로(430)와 통합된 것으로 도시되어 있지만, 다른 실시예들에서 메모리(434)는 아이웨어 디바이스(100)의 독자적인 독립형 요소일 수 있다. 이러한 특정 예들에서, 전기 라우팅 라인들은 이미지 프로세서(412) 또는 저전력 프로세서(422)로부터 메모리(434)로의 고속 프로세서(432)를 포함하는 칩을 통해 연결을 제공할 수 있다. 다른 예들에서, 고속 프로세서(432)는 메모리(434)와 관련된 읽기 또는 쓰기 동작이 필요할 때마다 저전력 프로세서(422)가 고속 프로세서(432)를 부팅할 수 있도록 메모리(434)의 어드레싱을 관리할 수 있다.
[0074] 도 4에 도시된 바와 같이, 아이웨어 디바이스(100)의 고속 프로세서(432)는 카메라 시스템(가시광 카메라들(114A, 114B)), 이미지 디스플레이 드라이버(442), 사용자 입력 디바이스(491) 및 메모리(434)에 결합될 수 있다.
[0075] 서버 시스템(498)은 서비스 또는 네트워크 컴퓨팅 시스템의 일부로서의 하나 이상의 컴퓨팅 디바이스들일 수 있으며, 예를 들어, 프로세서, 메모리 및 네트워크 통신 인터페이스를 포함하여 아이웨어 디바이스(100) 및 모바일 디바이스(401)와 네트워크(495)를 통해 통신할 수 있다.
[0076] 아이웨어 디바이스(100)의 출력 구성요소들은 도 2a 및 도 2b에 설명된 바와 같이 각각의 렌즈 또는 광학 조립체(180A, 180B)와 연관된 좌측 및 우측 이미지 디스플레이들(예를 들어, 액정 디스플레이(LCD), 플라즈마 디스플레이 패널(PDP), 발광 다이오드(LED) 디스플레이, 프로젝터 또는 도파관과 같은 디스플레이)과 같은 시각적 요소들을 포함한다. 아이웨어 디바이스(100)는 또한 사용자 대향 표시기(예를 들어, LED, 확성기, 또는 진동 액추에이터) 또는 외부 대향 신호(예를 들어, LED, 확성기)를 포함할 수 있다. 각각의 광학 조립체(180A, 180B)의 이미지 디스플레이들은 이미지 디스플레이 드라이버(442)에 의해 구동된다. 아이웨어 디바이스(100)의 출력 구성요소들은 가청 요소들(예를 들어, 오디오 프로세서(413)의 제어하의 스피커들(185A-B)), 촉각 구성요소들(예를 들어, 촉각 피드백을 생성하는 진동 모터와 같은 액추에이터) 및 기타 신호 발생기들과 같은 추가 표시기들을 더 포함한다. 예를 들어, 디바이스(100)는 사용자 대향 표시기들의 세트와 외부 대향 신호들의 세트를 포함할 수 있다. 사용자 대향 표시기들의 세트는 디바이스(100)의 사용자가 보거나 다른 방식으로 검출하도록 구성된다. 예를 들어, 디바이스(100)는 사용자가 볼 수 있도록 포지셔닝된 LED 디스플레이, 사용자가 들을 수 있는 소리를 생성하도록 포지셔닝된 하나 이상의 스피커들 또는 사용자가 느낄 수 있는 촉각 피드백을 제공하는 액추에이터를 포함할 수 있다. 외부 대향 신호들의 세트는 디바이스(100) 근처에 있는 관찰자가 보거나 다른 방식으로 검출하도록 구성된다. 유사하게, 디바이스(100)는 관찰자에 의해 검출되도록 구성되고 포지셔닝되는 LED, 확성기 또는 액추에이터를 포함할 수 있다.
[0077] 아이웨어 디바이스(100)의 입력 구성요소들은 영숫자 입력 구성요소들(예를 들어, 영숫자 입력을 수신하도록 구성된 터치 스크린 또는 터치패드, 포토-광학 키보드, 또는 다른 영숫자로 구성된 요소들), 포인터 기반 입력 구성요소들(예를 들어, 마우스, 터치패드, 트랙볼, 조이스틱, 동작 센서, 또는 다른 포인팅 기구), 촉각 입력 구성요소들(예를 들어, 버튼 스위치, 터치들 또는 터치 제스처들의 위치, 힘 또는 위치와 힘을 감지하는 터치 스크린 또는 터치패드, 또는 다른 촉각 구성형 요소들), 시각적 입력(예를 들어, 카메라들(114A-B)을 통해 캡처된 손 제스처들) 및 오디오 입력 구성요소들(예를 들어, 마이크) 등을 포함할 수 있다. 모바일 디바이스(401) 및 서버 시스템(498)은 영숫자, 포인터 기반, 촉각, 오디오, 시각 및 기타 입력 구성요소들을 포함할 수 있다.
[0078] 일부 예들에서, 아이웨어 디바이스(100)는 관성 측정 유닛(472)으로 지칭되는 동작 감지 구성요소들의 모음을 포함한다. 동작 감지 구성요소들은 마이크로 칩의 일부가 될 수 있을 정도로 충분히 작은 미세한 이동 부품들을 갖는 마이크로 전자 기계 시스템들(MEMS)일 수 있다. 일부 예시 구성들에서 관성 측정 유닛(IMU)(472)은 가속도계, 자이로스코프 및 자력계를 포함한다. 가속도계는 세 개의 직교 축들(x, y, z)에 대한 디바이스(100)의 선형 가속도(중력으로 인한 가속도 포함)를 감지한다. 자이로스코프는 세 가지 회전 축(피치, 롤, 요)에 대한 디바이스(100)의 각속도를 감지한다. 가속도계와 자이로스코프는 함께 6 개의 축(x, y, z, 피치, 롤, 요)을 기준으로 디바이스에 대한 포지션, 배향 및 동작 데이터를 제공할 수 있다. 자력계가 있는 경우, 자력계는 자북에 대한 디바이스(100)의 방향을 감지한다. 디바이스(100)의 포지션은 GPS 유닛, 상대 위치 좌표를 생성하기 위한 하나 이상의 트랜시버들, 고도 센서들 또는 기압계들 및 다른 방향 센서들과 같은 위치 센서들에 의해 결정될 수 있다. 이러한 포지셔닝 시스템 좌표들은 또한 저전력 무선 회로(424) 또는 고속 무선 회로(436)를 통해 모바일 디바이스(401)로부터 무선 연결들(425, 437)을 통해 수신될 수 있다.
[0079] IMU(472)는 구성요소들로부터 원시 데이터를 수집하고 디바이스(100)의 포지션, 배향 및 동작에 대한 다수의 유용한 값들을 계산하는 디지털 모션 프로세서 또는 프로그래밍을 포함하거나 이와 협력할 수 있다. 예를 들어, 가속도계에서 수집된 가속도 데이터를 통합하여 각각의 축(x, y, z)에 대한 상대 속도를 구하고; 다시 통합하여 디바이스(100)의 포지션(선형 좌표들, x, y, z)을 구할 수 있다. 자이로스코프로부터의 각속도 데이터를 통합하여 디바이스(100)의 포지션(구형 좌표들)을 얻을 수 있다. 이러한 유용한 값들을 계산하기 위한 프로그래밍은 메모리(434)에 저장될 수 있고, 아이웨어 디바이스(100)의 고속 프로세서(432)에 의해 실행될 수 있다.
[0080] 아이웨어 디바이스(100)는 선택적으로 생체 인식 센서들, 특수 센서들, 또는 아이웨어 디바이스(100)와 통합된 디스플레이 요소들과 같은 추가적인 주변 센서들을 포함할 수 있다. 예를 들어, 주변 디바이스 요소들은 출력 구성요소들, 모션 구성요소들, 포지션 구성요소들 또는 본 명세서에 설명된 다른 임의의 다른 요소들을 포함하는 임의의 I/O 구성요소들을 포함할 수 있다. 예를 들어, 생체 인식 센서들은 표정들(예를 들어, 손 표정들, 얼굴 표정들, 음성 표정들, 신체 제스처들 또는 시선 추적)을 검출하거나, 생체 신호들(예를 들어, 혈압, 심박수, 체온, 땀 또는 뇌파들)을 측정하거나, 또는 사람을 식별(예를 들어, 음성, 망막, 얼굴 특징들, 지문들 또는 뇌파 데이터와 같은 전기 생체 신호들에 기초한 식별)하기 위한 구성요소들 등을 포함할 수 있다.
[0081] 모바일 디바이스(401)는 스마트폰, 태블릿, 노트북 컴퓨터, 액세스 포인트, 또는 저전력 무선 연결(425) 및 고속 무선 연결(437) 모두를 사용하여 아이웨어 디바이스(100)와 연결할 수 있는 임의의 다른 디바이스일 수 있다. 모바일 디바이스(401)는 서버 시스템(498) 및 네트워크(495)에 연결된다. 네트워크(495)는 유선 및 무선 연결들의 임의의 조합을 포함할 수 있다.
[0082] 도 4에 도시된 바와 같이, HRTF 모델링 시스템(400)은 네트워크를 통해 아이웨어 디바이스(100)에 결합된 모바일 디바이스(401)와 같은 컴퓨팅 디바이스를 포함한다. HRTF 모델링 시스템(400)은 명령들을 저장하기 위한 메모리와 명령들을 실행하기 위한 프로세서를 포함한다. 프로세서(432)에 의한 HRTF 모델링 시스템(400)의 명령들의 실행은 아이웨어 디바이스(100)가 단독으로 동작하거나 하나 이상의 다른 컴퓨팅 디바이스들, 예를 들어 모바일 디바이스(401) 또는 서버 시스템(498)과 협력하도록 구성한다. HRTF 모델링 시스템(400)은 아이웨어 디바이스(100)의 메모리(434) 또는 모바일 디바이스(401)의 메모리 요소들(540A, 540B, 540C)을 이용할 수 있다(도 5). 또한, HRTF 모델링 시스템(400)은 아이웨어 디바이스(100)의 프로세서 요소들(432, 422) 또는 모바일 디바이스(401)의 중앙 처리 장치(CPU)(540)를 활용할 수 있다(도 5). 또한, HRTF 모델링 시스템(400)은 서버 시스템(498)의 메모리 및 프로세서 요소들을 더 활용할 수 있다. 이러한 측면에서, HRTF 모델링 시스템(400)의 메모리 및 처리 기능은 아이웨어 디바이스(100), 모바일 디바이스(401) 및 서버 시스템(498)에 걸쳐 공유되거나 분산될 수 있다.
[0083] 일부 예시적인 구현예들에서, 메모리(434)는 손 제스처 라이브러리(480)를 포함할 수 있다. 손 제스처 라이브러리(480)는 다양한 포지션들 및 배향들에 있는 손의 자세들 및 제스처들을 포함한다. 저장된 자세들 및 제스처들은 이미지에서 검출된 손 모양과 비교하기에 적합하다. 라이브러리(480)는 매칭에 사용하기 위해 손의 랜드마크들, 예를 들어, 손목에서 손가락 끝들에 대한 3 차원 좌표들을 포함한다. 예를 들어, 라이브러리(480)에 저장된 손 제스처 레코드는 손 제스처 식별자(예를 들어, 가리키는 손가락, 닫힌 주먹, 열린 손바닥, 이완된 손, 객체 잡기, 꼬집기, 펼치기), 시점 또는 방향 기준(예를 들어, 손바닥 쪽이 보이는, 등쪽, 측면) 및 손목, 15 개 지간 관절들, 5 개 손가락 끝들 및 기타 골격 또는 연조직 랜드마크들의 3 차원 좌표들과 함께 방향에 대한 기타 정보를 포함할 수 있다. 일부 구현예들에서, 손 모양을 검출하는 프로세스는, 예를 들어, 머신 비전 알고리즘을 적용하여 일치하는 것이 발견될 때까지, 하나 이상의 캡처된 비디오 데이터 프레임들의 픽셀 레벨 데이터를 라이브러리(480)에 저장된 손 제스처들과 비교하는 것을 포함한다. 머신 비전 알고리즘에 설정된 미리 정의된 신뢰도 임계값이 초과될 때 일치 여부가 결정될 수 있다.
[0084] 메모리(434)는 일부 예시적인 구현예들에서, 오디오 필터들(481), 가상 객체 데이터베이스(482), 가상 객체 처리 시스템(484), 오디오 구역 검출 시스템(486) 및 오디오 처리 시스템(488)을 추가적으로 포함한다.
[0085] 오디오 필터들(481)은 포지션에 기초하여 가상 객체 오디오 트랙을 처리하기 위한 복수의 미리 정의된 HRTF 오디오 필터들(예를 들어, 각각의 구역에 대한 좌측 오디오 필터 및 우측 오디오 필터)을 포함할 수 있다. 일 예로, 모든 구역에 필요한 HRTF 이퀄라이제이션 및 지연은 작은 바이콰드 필터들의 세트(예를 들어, 구역당 4 내지 7 개의 바이콰드 필터들, 각각의 필터는 6 개의 곱셈 및 누적 연산들을 나타냄)로 미리 계산되어 있다. 디지털 2 진법(바이쿼드) 필터는 두 개의 극들과 두 개의 0을 포함하는 2 차 재귀 선형 필터이다. Z 영역에서, 이차 필터의 전달 함수는 두 이차 함수들의 비, 즉 이다.
[0086] 가상 객체 데이터베이스(482)는 가상 객체들과 연관된 정보를 포함한다. 일 예에서, 가상 객체 데이터베이스(482)는 가상 객체와 연관된 오디오 정보(예를 들어, 오디오 트랙) 및 시각 정보(예를 들어, 외관을 생성하기 위한 이미지)를 포함한다.
[0087] 가상 객체 처리 시스템(484)은 광학 조립체(180A-B)의 이미지 디스플레이 상에 가상 객체들을 제시하고, 가상 객체들의 이동을 제어하기 위한 명령들을 생성한다. 가상 객체 처리 시스템(484)은 가상 객체의 포지션, 방향 속도 및 사용자에 대한 거리와 같은 가상 객체와 연관된 정보를 추가로 계산한다. 오디오 구역 검출 시스템(486)은 가상 객체가 사용자의 머리와 관련하여 현재 어느 영역에 있는지를 검출하기 위한 명령들을 생성한다. 일 예에서, 오디오 구역 검출 시스템(484)은 구역 검출에 사용하기 위해 사용자의 머리를 둘러싼 구역들을 나타내는 맵(도 8a 참조)을 유지한다. 오디오 처리 시스템(488)은 현재 포지션에 반응하여 가상 객체들의 오디오 트랙들에 HRTF 필터들을 적용하고, 오디오 프로세서(413) 및 스피커들(185A-B)을 통해 사용자에게 소리를 제공하기 위한 명령들을 생성한다.
[0088] 메모리(434)는 이미지 캡처 애플리케이션, 로컬라이제이션 시스템 및 이미지 처리 시스템을 추가로 포함할 수 있다. 카메라가 비디오 데이터의 프레임을 캡처하는 HRTF 모델링 시스템(400)에서, 이미지 캡처 애플리케이션은 손 모양(예를 들어, 가리키는 검지 손가락)을 검출하도록 프로세서(432)를 구성한다. 로컬라이제이션 시스템은 물리적 환경에 대한 아이웨어 디바이스(100)의 포지션을 결정하는 데 사용하기 위한 로컬라이제이션 데이터를 획득하도록 프로세서(432)를 구성한다. 로컬라이제이션 데이터는 일련의 이미지들, IMU(472), GPS 유닛 또는 이들의 조합으로부터 도출될 수 있다. 이미지 처리 시스템은 이미지 디스플레이 드라이버(442) 및 이미지 프로세서(412)와 협력하여 광학 조립체들(180A-B)의 디스플레이 상에 캡처된 정지 이미지를 제시하도록 프로세서(432)를 구성한다.
[0089] 도 5는 예시적인 모바일 디바이스(401)의 고수준 기능 블록도이다. 모바일 디바이스(401)는 본 명세서에 설명된 기능들의 전부 또는 일부 세트를 수행하기 위해 CPU(540)에 의해 실행될 프로그래밍을 저장하는 플래시 메모리(540A)를 포함한다. 도 5에 도시된 바와 같이, 모바일 디바이스(401)의 CPU(540)는 카메라(570), 모바일 디스플레이 드라이버(582), 사용자 입력 레이어(591) 및 플래시 메모리(540A)에 결합될 수 있다.
[0090] 모바일 디바이스(401)는 적어도 2 개의 가시광 카메라들(시야가 중첩되는 제1 및 제2 가시광 카메라들) 또는 적어도 하나의 가시광 카메라 및 실질적으로 중첩 시야들을 갖는 깊이 센서를 포함하는 카메라(570)를 포함할 수 있다. 플래시 메모리(540A)는 카메라(570)를 통해 생성되는 다수의 이미지들 또는 비디오를 더 포함할 수 있다.
[0091] 도시된 바와 같이, 모바일 디바이스(401)는 이미지 디스플레이(580), 이미지 디스플레이(580)를 제어하기 위한 모바일 디스플레이 드라이버(582) 및 디스플레이 제어기(584)를 포함한다. 도 5의 예에서, 이미지 디스플레이(580)는 이미지 디스플레이(580)에 의해 사용되는 스크린 상에 계층화되거나 다른 방식으로 통합되는 사용자 입력 레이어(591)(예를 들어, 터치스크린)를 포함한다. 사용될 수 있는 터치스크린형 모바일 디바이스들의 예들로는 스마트폰, 개인용 디지털 비서(PDA), 태블릿 컴퓨터, 랩탑 컴퓨터, 또는 다른 휴대용 디바이스가 포함된다(그러나, 이에 제한되지 않음). 그러나, 터치스크린형 디바이스들의 구조 및 작동은 예시적으로 제공되며, 본 명세서에 기재된 대상 기술은 이에 한정되지 않는다. 따라서, 본 논의의 목적들을 위해, 도 5는 (손, 스타일러스 또는 다른 도구에 의한 터치, 멀티터치, 제스처 등에 의한) 입력을 수신하기 위한 터치스크린 입력 레이어(591) 및 콘텐츠를 디스플레이하기 위한 이미지 디스플레이(580)를 포함하는 사용자 인터페이스를 갖는 예시적인 모바일 디바이스(401)의 블록도 예시를 제공한다.
[0092] 도 5에 도시된 바와 같이, 모바일 디바이스(401)는 광역 무선 이동 통신 네트워크를 통한 디지털 무선 통신들을 위해, WWAN XCVR들로 도시된 적어도 하나의 디지털 트랜시버(XCVR)(510)를 포함한다. 모바일 디바이스(401)는 또한 예를 들어, NFC, VLC, DECT, 지그비, 블루투스® 또는 와이파이®를 통한 단거리 네트워크 통신을 위한 단거리 트랜시버들(XCVR들)(520)과 같은 추가적인 디지털 또는 아날로그 트랜시버들을 포함한다. 예를 들어, 단거리 XCVR들(520)은 IEEE 802.11에 따른 와이파이® 표준들 중 하나와 같이, 무선 로컬 영역 네트워크들에서 구현되는 하나 이상의 표준 통신 프로토콜과 호환되는 유형의 임의의 가용한 양방향 무선 로컬 영역 네트워크(WLAN) 트랜시버의 형태를 취할 수 있다.
[0093] 모바일 디바이스(401)의 포지셔닝을 위한 위치 좌표들을 생성하기 위해, 모바일 디바이스(401)는 글로벌 포지셔닝 시스템(GPS) 수신기를 포함할 수 있다. 대안적으로 또는 추가적으로, 모바일 디바이스(401)는 포지셔닝을 위한 위치 좌표들을 생성하기 위해 단거리 XCVR들(520) 및 WWAN XCVR들(510) 중 하나 또는 둘 모두를 활용할 수 있다. 예를 들어, 셀룰러 네트워크, 와이파이® 또는 블루투스® 기반 포지셔닝 시스템들은 특히 조합하여 사용할 경우 매우 정확한 위치 좌표들을 생성할 수 있다. 이러한 위치 좌표들은 XCVR들(510, 520)을 거쳐 하나 이상의 네트워크 연결들을 통해 아이웨어 디바이스로 전송될 수 있다.
[0094] 트랜시버들(510, 520)(즉, 네트워크 통신 인터페이스)은 현대 모바일 네트워크에 의해 활용되는 다양한 디지털 무선 통신 표준들 중 하나 이상을 준수한다. WWAN 트랜시버들(510)의 예들로는, 예를 들어, 3GPP 타입 2(또는 3GPP2) 및 LTE(때때로 "4G"로 지칭됨)를 포함하는(그러나, 이에 제한되지 않음) 코드 분할 다중 접속(CDMA) 및 3 세대 파트너십 프로젝트(3GPP) 네트워크 기술들에 따라 작동하도록 구성된 트랜시버들을 포함한다(그러나, 이에 제한되지 않음). 예를 들어, 트랜시버들(510, 520)은 디지털화된 오디오 신호들, 정지 이미지 및 비디오 신호들, 디스플레이용 웹 페이지 정보뿐만 아니라 웹 관련 입력들 및 다양한 유형들의 모바일 메시지 통신들을 포함하는 정보의 양방향 무선 통신을 모바일 디바이스(401)와의 송수신에 제공한다.
[0095] 모바일 디바이스(401)는 중앙 처리 장치(CPU)로 기능하는 마이크로프로세서(도 5에서 CPU(540)로 도시됨)를 더 포함한다. 프로세서는 하나 이상의 처리 기능들, 전형적으로 다양한 데이터 처리 기능들을 수행하도록 구조화되고 배열된 요소들을 갖는 회로이다. 개별 논리 구성요소들을 사용할 수도 있지만, 이 예들에서는 프로그래밍 가능한 CPU를 형성하는 구성요소들을 활용한다. 예를 들어, 마이크로프로세서는 CPU의 기능들을 수행하기 위해 전자 요소들을 통합하는 하나 이상의 집적 회로(IC) 칩들을 포함한다. 예를 들어, CPU(540)는 오늘날 모바일 디바이스들 및 기타 휴대용 전자 디바이스들에서 통상적으로 사용되는 바와 같이 ARM 아키텍처를 사용하는 축소 명령들 집합 컴퓨팅(RISC)과 같은 공지되거나 이용 가능한 마이크로프로세서 아키텍처에 기초할 수 있다. 물론, 프로세서 회로의 다른 배열들이 스마트폰, 랩탑 컴퓨터 및 태블릿에서 CPU(540) 또는 프로세서 하드웨어를 형성하는 데 사용될 수 있다.
[0096] CPU(540)는, 예를 들어, CPU(540)에 의해 실행 가능한 명령들 또는 프로그래밍에 따라 다양한 동작들을 수행하도록 모바일 디바이스(401)를 구성함으로써, 모바일 디바이스(401)에 대한 프로그래머블 호스트 제어기로서 기능한다. 예를 들어, 이러한 동작들은 모바일 디바이스(401)의 다양한 일반 동작들뿐만 아니라 모바일 디바이스(401) 상의 애플리케이션들을 위한 프로그래밍과 관련된 동작들을 포함할 수 있다. 프로세서는 하드와이어드 로직을 사용하여 구성될 수 있지만, 모바일 디바이스들의 전형적인 프로세서들은 프로그래밍의 실행에 의해 구성된 일반적인 처리 회로이다.
[0097] 모바일 디바이스(401)는 프로그래밍 및 데이터를 저장하기 위한 메모리 또는 저장 시스템을 포함한다. 예에서, 메모리 시스템은 필요에 따라 플래시 메모리(540A), 랜덤 액세스 메모리(RAM)(540B) 및 다른 메모리 구성요소들(540C)을 포함할 수 있다. RAM(540B)은 CPU(540)에 의해 처리되는 명령들 및 데이터의 단기 저장소로서, 예를 들어 작업 데이터 처리 메모리로서 역할을 한다. 플래시 메모리(540A)는 전형적으로 장기 저장소를 제공한다.
[0098] 따라서, 모바일 디바이스(401)의 예에서, 플래시 메모리(540A)는 CPU(540)에 의한 실행을 위한 프로그래밍 또는 명령들을 저장하는 데 사용된다. 디바이스의 유형에 따라, 모바일 디바이스(401)는 특정 애플리케이션들이 실행되는 모바일 운영 체제를 저장하고 실행한다. 모바일 운영 체제들의 예들로는 구글 안드로이드, 애플 iOS(아이폰 또는 아이패드 디바이스용), 윈도우즈 모바일, 아마존 파이어 OS, RIM 블랙베리 OS 등이 있다.
[0099] 아이웨어 디바이스(100) 내의 프로세서(432)는 아이웨어 디바이스(100)를 둘러싼 환경의 맵을 구성하고, 매핑된 환경 내에서 아이웨어 디바이스(100)의 위치를 결정하고, 매핑된 환경 내의 하나 이상의 객체들에 대한 아이웨어 디바이스(100)의 상대적 포지션을 결정할 수 있다. 프로세서(432)는 맵을 구성하고, 하나 이상의 센서들로부터 수신된 데이터에 적용된 동시 로컬리제이션 및 매핑(SLAM) 알고리즘을 사용하여 위치 및 포지션 정보를 결정할 수 있다. 센서 데이터는 카메라들(114A, 114B) 중 하나 또는 둘 모두로부터 수신된 이미지들, 레이저 거리 측정기로부터 수신된 거리(들), GPS 유닛으로부터 수신된 포지션 정보, IMU(572)로부터 수신된 동작 및 가속도 데이터 또는 그러한 센서들로부터의 데이터의 조합, 또는 포지션 정보를 결정하는 데 유용한 데이터를 제공하는 다른 센서들로부터의 데이터를 포함한다. 증강 현실의 맥락에서, SLAM 알고리즘은 환경의 맵을 구성하고 업데이트하는 동시에 매핑된 환경 내에서 디바이스(또는 사용자)의 위치를 추적하고 업데이트하는 데 사용된다. 입자 필터들, 칼만 필터들, 확장 칼만 필터들 및 공분산 교차와 같은 다양한 통계적 방법들을 사용하여 수학적 해를 근사화할 수 있다. 높은 프레임 속도(예를 들어, 초당 30 프레임)로 비디오를 캡처하는 고화질(HD) 비디오 카메라를 포함하는 시스템에서, SLAM 알고리즘은 적어도 프레임 속도만큼 자주, 즉 초당 30 회 매핑 및 로컬라이제이션을 계산하고 업데이트하여 맵과 객체들의 위치를 업데이트한다.
[0100] 센서 데이터는 카메라들(114A, 114B) 중 하나 또는 양쪽 모두로부터 수신된 이미지(들), 레이저 거리 측정기로부터 수신된 거리(들), GPS 유닛으로부터 수신된 포지션 정보, IMU(472)로부터 수신된 동작 및 가속도 데이터, 또는 그러한 센서들로부터의 데이터 또는 포지션 정보를 결정하는 데 유용한 데이터를 제공하는 다른 센서들로부터의 데이터의 조합을 포함한다.
[0101] 도 6은 예시적인 물리적 환경(600)과 함께 자연적 특징 추적(NFT; 예를 들어, SLAM 알고리즘을 사용하는 추적 애플리케이션)에 유용한 요소들을 도시한다. 아이웨어 디바이스(100)의 사용자(602)는 예시적인 물리적 환경(600)에 존재한다(도 6에서, 실내 공간). 아이웨어 디바이스(100)의 프로세서(432)는 캡처된 이미지들을 사용하여 환경(600) 내의 하나 이상의 객체들(604)에 대한 자신의 포지션을 결정하고, 환경(600)에 대한 좌표계(x, y, z)를 사용하여 환경(600)의 맵을 구성하고, 좌표계 내에서 자신의 포지션을 결정한다. 또한, 프로세서(432)는 단일 객체(604a)와 연관된 둘 이상의 위치 포인트(예를 들어, 3 개의 위치 포인트들(606a, 606b, 606c))을 사용하거나 둘 이상의 객체들(604a, 604b, 604c)와 연관된 하나 이상의 위치 포인트들(606)을 사용하여 환경 내에서 아이웨어 디바이스(100)의 머리 자세(롤, 피치 및 요)를 결정한다. 아이웨어 디바이스(100)의 프로세서(432)는 증강 현실 경험 동안 볼 수 있도록 환경(600) 내에 가상 객체(608)(예를 들어, 도 6에 도시된 키)를 배치할 수 있다.
[0102] 마커들(610)은 매핑된 환경에서 사용자들, 디바이스들 및 객체들(가상 및 물리적)의 위치를 추적하고 업데이트하는 작업을 수행하는 디바이스를 지원하기 위해 환경 내의 위치들에 등록된다. 마커들(610)은 때때로 카메라 및 기타 센서가 마커를 검출하는 작업을 지원하기 위해 밝은 색상의 벽에 장착된 액자형 사진(604a)과 같이 상대적으로 어두운 객체와 같이 대비가 높은 물리적 객체에 등록될 수 있다. 마커들(610)은 미리 할당되거나, 또는 환경에 진입할 때 아이웨어 디바이스(100)에 의해 할당될 수 있다.
[0103] 마커들(610)은 정보로 인코딩되거나 다른 방식으로 정보에 연결될 수 있다. 마커(610)는 포지션 정보, 물리적 코드(예를 들어, 바코드 또는 QR 코드), 또는 이들의 조합을 포함할 수 있으며, 사용자에게 보이거나 숨겨질 수 있다. 각각의 마커(610)와 연관된 데이터 세트는 아이웨어 디바이스(100)의 메모리(434)에 저장된다. 데이터 세트는 마커(610a), 마커의 포지션(위치 및 배향), 하나 이상의 가상 객체들, 또는 이들의 조합에 대한 정보를 포함한다. 마커 포지션은 도 6에 도시된 일반적으로 직사각형 마커(610a)의 코너와 같은 하나 이상의 마커 랜드마크(616a)에 대한 3 차원 좌표를 포함할 수 있다. 마커 위치는 현실 세계의 지리적 좌표, 마커 좌표 시스템, 아이웨어 디바이스(100)의 포지션, 또는 다른 좌표계에 대하여 표현될 수 있다. 마커(610a)와 연관된 하나 이상의 가상 객체는 정지 이미지, 비디오, 오디오, 촉각 피드백, 실행 가능한 애플리케이션, 대화형 사용자 인터페이스 및 경험, 및 그러한 자료의 조합 또는 시퀀스를 포함하는 다양한 자료 중 임의의 것을 포함할 수 있다. 메모리에 저장될 수 있거나, 마커(610A)를 접할 때 검색될 수 있거나, 할당된 마커와 연관될 수 있는 모든 유형의 콘텐츠는 이러한 맥락에서 가상 객체로 분류될 수 있다. 예를 들어, 도 6에 도시된 키(608)는 마커 포지션에서 2D 또는 3D의 정지 이미지로 표시되는 가상 객체이다.
[0104] 일 예에서, 마커(610a)는 물리적 객체(604a)(예를 들어, 도 6에 도시된 액자형 예술 작품) 근처에 위치하며 그와 연관된 것으로 메모리에 등록될 수 있다. 다른 예에서, 마커는 아이웨어 디바이스(100)와 관련하여 특정 포지션에 있는 것으로 메모리에 등록될 수 있다.
[0105] 도 7은 본 명세서에 설명된 증강 현실 애플리케이션들을 웨어러블 디바이스(예를 들어, 아이웨어 디바이스)에서 구현하는 방법을 설명하는 흐름도(700)이다. 비록 본 명세서에 설명된 바와 같이, 단계들이 아이웨어 디바이스(100)를 참조하여 설명되었지만, 다른 유형들의 디바이스들에 대해 설명된 단계들의 다른 구현예들은 본 명세서의 설명으로부터 당업자에 의해 이해될 것이다. 또한, 도 7 및 다른 도면에 도시되고 본 명세서에 설명된 단계들 중 하나 이상이 생략되거나, 동시에 또는 연속적으로 수행되거나, 도시 및 설명된 순서와 다른 순서로 수행되거나, 또는 추가 단계들과 함께 수행될 수 있는 것으로 고려된다.
[0106] 블록(702)에서, 아이웨어 디바이스(100)는 아이웨어 디바이스(100) 근처의 물리적 환경(600)의 하나 이상의 입력 이미지들을 캡처한다. 프로세서(432)는 가시광 카메라(들)(114)로부터 입력 이미지를 연속적으로 수신하고, 처리를 위해 메모리(434)에 해당 이미지를 저장할 수 있다. 또한, 아이웨어 디바이스(100)는 다른 센서로부터 정보(예를 들어, GPS 유닛으로부터의 포지션 정보, IMU(472)로부터의 배향 정보 또는 레이저 거리 센서로부터의 거리 정보)를 포착할 수 있다.
[0107] 블록(704)에서, 아이웨어 디바이스(100)는 캡처된 이미지들 내의 객체들을 이미지 라이브러리에 저장된 객체들과 비교하여 일치하는 것을 식별한다. 일부 구현예들에서, 프로세서(432)는 캡처된 이미지들을 메모리(434)에 저장한다. 알려진 객체들의 이미지 라이브러리는 가상 객체 데이터베이스(482)에 저장된다.
[0108] 일 예에서, 프로세서(432)는 미리 정의된 특정 객체(예를 들어, 벽의 알려진 위치에 걸려 있는 특정 그림(604a), 다른 벽의 창문(604b), 또는 바닥에 배치된 금고(604c)와 같은 객체)를 식별하도록 프로그램된다. GPS 데이터와 같은 다른 센서 데이터는 비교에 사용할 알려진 객체의 수를 좁히는 데 사용될 수 있다(예를 들어, GPS 좌표를 통해 식별된 방과 관련된 이미지만). 다른 예에서, 프로세서(432)는 미리 정의된 일반 객체들(예를 들어, 공원 내의 하나 이상의 나무들)을 식별하도록 프로그램된다.
[0109] 블록(706)에서, 아이웨어 디바이스(100)는 객체(들)에 대한 자신의 포지션을 결정한다. 프로세서(432)는 캡처된 이미지들의 둘 이상의 포인트들 사이의 거리들(예를 들어, 하나의 객체(604) 상의 둘 이상의 위치 포인트들 사이 또는 두 객체들(604) 각각의 위치 포인트(606) 사이)를 식별된 객체들의 대응하는 포인트들 사이의 알려진 거리와 비교 및 처리함으로써 객체들에 대한 포지션을 결정할 수 있다. 캡처된 이미지들의 포인트들 사이의 거리가 식별된 객체의 포인트들보다 크면, 아이웨어 디바이스(100)가 식별된 객체를 포함하여 이미지를 캡처한 이미저(imager)보다 식별된 객체에 더 가깝다는 것을 나타낸다. 반면, 캡처된 이미지의 포인트들 사이의 거리가 식별된 객체의 포인트보다 작으면 아이웨어 디바이스(100)가 식별된 객체를 포함한 이미지를 캡처한 이미저보다 식별된 객체에서 더 멀리 떨어져 있음을 나타낸다. 상대 거리를 처리함으로써, 프로세서(432)는 객체(들)에 대한 포지션을 결정할 수 있다. 대안적으로 또는 추가적으로, 레이저 거리 센서 정보와 같은 다른 센서 정보가 객체(들)에 대한 포지션을 결정하기 위해 사용될 수 있다.
[0110] 블록(708)에서, 아이웨어 디바이스(100)는 아이웨어 디바이스(100)를 둘러싼 환경(600)의 맵을 구성하고 환경 내에서 그 위치를 결정한다. 일 예로, 식별된 객체(블록(704))가 미리 정의된 좌표계(x, y, z)를 갖는 경우, 아이웨어 디바이스(100)의 프로세서(432)는 그 미리 정의된 좌표계를 사용하여 맵을 구성하고, 식별된 객체에 대한 결정된 포지션들에 기초하여 그 좌표계 내에서 포지션을 결정한다(블록(706)). 다른 예에서, 아이웨어 디바이스는 환경 내의 영구적 또는 반영구적 객체(604)의 이미지(예를 들어, 공원 내의 나무 또는 공원 벤치)를 사용하여 맵을 구성한다. 이 예에 따라, 아이웨어 디바이스(100)는 환경에 사용되는 좌표계(x', y', z')를 정의할 수 있다.
[0111] 블록(710)에서, 아이웨어 디바이스(100)는 환경 내에서 아이웨어 디바이스(100)의 머리 자세(롤, 피치, 요)를 결정한다. 프로세서(432)는 하나 이상의 객체들(604) 상에서 둘 이상의 위치 포인트들(예를 들어, 3 개의 위치 포인트들(606a, 606b, 및 606c))을 사용하거나 둘 이상의 객체들(604) 상에서 하나 이상의 위치 포인트들(606)을 사용하여 머리 자세를 결정한다. 프로세서(432)는 종래의 이미지 처리 알고리즘들을 사용하여, 캡처된 이미지의 위치 포인트들과 알려진 이미지 사이들에 연장되는 선의 각도 및 길이를 비교하여 롤, 피치 및 요를 결정한다.
[0112] 블록(712)에서, 아이웨어 디바이스(100)는 사용자에게 시각 이미지들을 제시한다. 프로세서(432)는 이미지 프로세서(412) 및 이미지 디스플레이 드라이버(442)를 사용하여 이미지 디스플레이(180)에서 사용자에게 이미지들을 제시한다. 이미지 프로세서(412)는 환경(600) 내의 아이웨어 디바이스(100)의 위치에 반응하여 이미지 디스플레이를 통해 시각 이미지를 개발 및 제시한다. 일 예에서, 시각 이미지는 GUI(도 8b)의 기능을 조작하기 위한 손(1002)(도 10) 및 가상 우주선(1004)(도 10)의 이미지를 포함한다.
[0113] 블록(714)에서, 블록들(706 내지 712)을 참조하여 전술한 단계들이 반복되어, 사용자가 환경(600)을 통해 이동함에 따라 아이웨어 디바이스(100)의 위치 및 사용자(602)에 의해 보이는 것이 업데이트된다.
가상 객체들의 오디오 처리
[0114] 도 8a는 사용자의 귀(803)에 프레젠테이션하기 위해 오디오 트랙에 적용할 HRTF 필터들을 선택하는 데 사용하기 위해 사용자 주변의 객체들(예를 들어, 36 개 구역들; 도시되지 않음)을 둘러싼 다수의 구역들 각각에 포지셔닝된 객체들(도 8a의 36 개 객체들)을 갖는 구역 맵(800)을 나타내는 도면이다. 구역 맵은 각각의 구역의 경계를 획정한다. 예를 들어, 사용자의 머리(802) 주변 공간은 36 개의 구역들로 획정된다: 머리 주위를 시계처럼 회전하는 12 개의 섹터들이 있으며, 각각의 섹터는 귀 위(808), 귀 높이(804), 귀 아래(812)의 3 개의 수직 구역들로 나뉜다. 객체들(806a-n)은 귀 높이(804)에서 사용자 주위의 개개의 구역들 내에 포지셔닝하며, 객체들(810a-n)은 귀 높이(808) 위에서 사용자 주위의 개개의 구역들 내에 포지셔닝하며, 객체들(814a-n)은 귀 높이(812) 아래에서 사용자 주위의 개개의 구역 내에 포지셔닝한다.
[0115] 도 8b는 사용자의 머리(802)에 대한 객체의 포지션에 반응하여 가상 객체의 오디오 트랙에 적용된 필터들을 테스트하기 위한 그래픽 사용자 인터페이스(GUI)(850)이다. 시계(852)는 사용자의 헤드(802) 주위에 존재하여 헤드(802)를 둘러싼 12 개 섹터들/구역들을 나타낸다. 원형 제어부(854) 및 선형 제어부(860)는 소리가 사용자의 헤드(802) 주위의 서로 다른 위치들에서 오는 것처럼 보이도록 오디오 트랙에 적용할 필터들을 선택하기 위해 존재한다. 원형 제어부(854)는 헤드(802)를 둘러싼 평면에서 소리의 방향을 선택하고, 선형 제어부(860)는 소리가 귀 높이, 귀 높이 위 또는 귀 높이 아래인지 여부를 선택한다. 제어부를 조작하면 원하는 방향에서 소리가 나는 것처럼 보이도록 하는 필터들을 선택할 수 있다.
[0116] 원형 제어부(854)는 시계(852) 주위에 존재한다. 원형 제어부는 원형 트랙(858) 및 방향을 선택하기 위해 트랙(858) 내에 배치된 선택기(856)를 포함한다. 예시된 선택기(856)는 소리가 나오는 것으로 인식되어야 하는 원하는 방향과 관련된 각도 정보를 나타내는 표시기를 포함한다(예시된 예에서 90 도는 소리가 사용자의 우측에서 나오는 것처럼 나타나야 함을 나타낸다). 사용자는 선택기(856)를 원형 트랙(858) 주위로 이동하여 방향 선택을 변경할 수 있다.
[0117] 선형 제어부(860)는 선형 트랙(864)을 포함한다. 선택기(862)는 레벨(예를 들어, 귀 높이, 귀 높이 이하, 귀 높이 위)을 선택하기 위해 트랙(864) 내에 포지셔닝한다. 사용자는 트랙(864)을 따라 선택기(862)를 이동하여 레벨을 변경한다.
[0118] GUI(850)는 오디오 트랙을 선택하기 위한 오디오 선택 버튼(866), 선택 오디오 트랙을 재생하기 위한 재생 버튼(868), 오디오 트랙을 일시 정지하기 위한 일시 정지 버튼(870) 및 표시기들(856/862)을 기본 위치로 재설정하기 위한 재설정 버튼(872)을 추가로 포함한다(예를 들어, 90 도에서의 선택(856) 및 0 도에서의 선택기(862)).
[0119] GUI는 아이웨어 디바이스(100)의 디스플레이(180A, 180B), 모바일 디바이스(401)의 디스플레이(580) 또는 서버 시스템(498)과 같은 원격 컴퓨터용 디스플레이 상에 표시될 수 있다. 일 예에서, 사용자는 아이웨어 디바이스(100)의 사용자 입력 디바이스(491), 모바일 디바이스의 사용자 입력 레이어(591) 또는 다른 디바이스의 사용자 입력을 사용하여 선택기들(856/862)을 조작하고 버튼들(866/868/870/872)을 작동시킬 수 있다.
[0120] 다른 예에서, 사용자는 아이웨어 디바이스(100)의 카메라들(114A, 114B)에 의해 포착된 손 제스처를 통해 선택기들(856/862)을 조작하고 버튼들(866/868/870/872)을 작동시킬 수 있다. 이 예에 따르면, 아이웨어 디바이스(100)의 프로세서(432)는 카메라들(114A, 114B)을 통해 비디오 데이터의 프레임을 캡처하도록 구성된다. 이미지들의 객체들은 손 제스처 라이브러리(480)와 비교되어 동작과 관련된 미리 정의된 손 제스처들(예를 들어, 가리키는 검지 손가락)을 식별한다. 손 제스처가 식별되면, 선택기들(856/862)을 기준으로 그 포지션이 결정되고 버튼들(866/868/870/872)이 작동한다. 손 제스처의 수정(예를 들어, 검지 손가락의 끝이 버튼 근처에 있을 때 가볍게 두드리는 동작 또는 검지 손가락의 끝이 선택기 근처에 있을 때 스와이프 동작)은 버튼/선택기의 작동을 초래한다.
[0121] 검출된 손 모양이 미리 정의된 제스처와 일치하는지 여부를 결정하는 프로세스는, 일부 구현예들에서, 하나 이상의 비디오 데이터의 캡처된 프레임들에서 손 모양에 대한 픽셀 레벨 데이터를 손 제스처 라이브러리(480)에 저장된 손 제스처의 모음과 비교하는 것을 포함한다. 검출된 손 모양 데이터는 손목의 3 차원 좌표들, 최대 15 개의 지간 관절들, 최대 5 개의 손가락 끝들 및 캡처된 프레임에서 발견되는 기타 골격 또는 연조직 랜드마크들을 포함할 수 있다. 이러한 데이터는 손 제스처 라이브러리(480)에 저장된 손 제스처 데이터와 비교하여 가장 잘 일치하는 것을 찾을 때까지 비교된다. 일부 예에서, 프로세스는 검출된 손 모양 손가락 끝 좌표와 라이브러리(480)에 저장된 각각의 손 제스처에 대한 손가락 끝 좌표들의 세트 사이의 측지 거리의 합을 계산하는 것을 포함한다. 구성 가능한 임계 정확도 값 내에 있는 합은 일치를 나타낸다.
[0122] 다른 예시적인 구현예에서, 검출된 손 모양이 미리 정의된 제스처와 일치하는지 여부를 결정하는 프로세스는, 머신 러닝 알고리즘을 사용하여 하나 이상의 캡처된 비디오 데이터 프레임에서 손 모양에 대한 픽셀 레벨 데이터를 손 제스처를 포함하는 이미지 모음과 비교하는 것을 포함한다. 머신 러닝은 경험을 통해 점진적으로 개선되는 알고리즘을 말한다. 머신러닝 알고리즘은 다양한 입력 데이터 세트를 처리함으로써 특정 데이터 세트에 대한 개선된 일반화를 개발한 다음, 이러한 일반화를 사용하여 새로운 데이터 세트를 처리할 때 정확한 출력 또는 솔루션을 생성할 수 있다. 대체로, 머신 러닝 알고리즘은 새로운 경험에 대응하여 조정되거나 변경되는 하나 이상의 파라미터를 포함하며, 이에 따라 알고리즘을 점진적으로 개선하는, 학습과 유사한 프로세스를 포함한다.
[0123] 컴퓨터 비전의 맥락에서, 수학적 모델은 컴퓨터를 사용하여 이미지에서 정보를 추출하고 이미지의 내용을 정확하게 이해하는 것을 목표로 인간의 시각 시스템에 의해 수행되는 작업을 에뮬레이트하려고 시도한다. 컴퓨터 비전 알고리즘들은 디지털 이미지들 및 비디오에서 데이터를 추출하고 분석하기 위해 인공 지능 및 자율 항법을 포함한 다양한 분야에서 개발되어 왔다.
[0124] 딥 러닝은 인공 신경망을 기반으로 하거나 인공 신경망을 모델로 하는 머신 러닝 방법의 한 종류를 지칭한다. 인공 신경망은 외부 입력에 대한 동적 상태 반응에 의해 정보를 처리하는 다수의 단순하고 고도로 상호 연결된 처리 요소들(노드들)로 구성된 컴퓨팅 시스템이다. 대규모 인공 신경망은 수백 또는 수천 개의 노드들을 가질 수 있다.
[0125] 합성곱 신경망(CNN)은 디지털 사진 및 비디오를 포함한 시각 이미지를 분석하는 데 자주 적용되는 신경망의 한 유형이다. CNN의 노드들 사이의 연결 패턴은 일반적으로 시야의 중첩 영역들에 반응하도록 배열된 개별 뉴런을 포함하는 인간 시각 피질의 조직을 모델로 하여 모델링된다. 여기에 설명된 결정 프로세스에 사용하기에 적합한 신경망은 다음 아키텍처들 중 하나를 기반으로 한다: VGG16, VGG19, 레스넷50, 인셉션 V3, 익셉션, 또는 다른 CNN-호환 가능한 아키텍처.
[0126] 머신 러닝 예시에서, 프로세서(432)는 손 특징 모델로 지칭되는 머신-트레이닝 알고리즘을 사용하여 검출된 손 모양이 실질적으로 미리 정의된 제스처와 일치하는지 여부를 결정한다. 프로세서(432)는 머신 러닝을 통해 훈련된 손 특징 모델에 액세스하도록 구성되고, 손 특징 모델을 적용하여 비디오 데이터의 하나 이상의 프레임에서 손 형상의 특징을 식별하고 위치를 파악한다.
[0127] 일 예시적 구현예에서, 훈련된 손 특징 모델은 검출된 손 모양을 포함하는 비디오 데이터의 프레임을 수신하고, 프레임 내의 이미지를 분석을 위해 레이어들로 추상화한다. 각각의 레이어의 데이터는 양호한 일치가 식별될 때까지, 훈련된 손 특징 모델에 기초하여, 손 제스처 라이브러리(480)에 저장된 손 제스처 데이터와 레이어별로 비교된다.
[0128] 일 예에서, 레이어별 이미지 분석은 컨볼루션 신경망을 사용하여 실행된다. 제1 컨볼루션 레이어에서, CNN은 학습된 특징(예를 들어, 손 랜드마크들, 관절 좌표들의 세트 등)을 식별한다. 제2 컨볼루션 레이어에서는 이미지가 복수의 이미지들로 변환되고, 학습된 특징부들이 각각의 하위 이미지에서 각각 강조된다. 풀링 레이어에서는 이미지와 하위 이미지의 크기와 해상도가 관심 있는 특징(예를 들어, 가능한 손바닥 모양, 가능한 손가락 관절)을 포함하는 각각의 이미지의 분리 부분 순서대로 감소한다. 비출력 레이어에서 나온 이미지의 값과 비교는 프레임의 이미지를 분류하는 데 사용된다. 여기서 사용되는 분류는 훈련된 모델을 사용하여 검출된 손 모양에 따라 이미지를 분류하는 프로세스를 말한다. 예를 들어, 검출된 손 모양이 라이브러리(480)의 포인터 제스처와 일치하는 경우, 이미지는 "포인터 제스처 존재"로 분류될 수 있다.
[0129] 일부 예시적인 구현예들에서, 프로세서(432)는 가리키는 제스처를 검출하는 것에 반응하여 디스플레이(180A, 180B) 상에 표시기(1002)를 표시한다(도 10 참조). 표시기(1002)는 착용자에게 미리 정의된 제스처가 검출되었음을 알린다. 일 예에서 표시기(1002)는 도 10에 도시된 가리키는 손가락(1000)과 같은 객체이다. 표시기(1002)는 포인터 제스처가 검출되었음을 착용자에게 알리거나 경고하기 위해 하나 이상의 시각, 청각, 촉각 및 기타 요소를 포함할 수 있다. 사용자는 아이웨어 디바이스(100)의 시야 내에서 감지된 손 제스처를 이동시킴으로써 표시기(1002)를 이동할 수 있다.
[0130] 도 9a는 HRTF를 사용하여 오디오 신호를 제시하는 예시적인 방법의 단계들을 나열한 흐름도(900)이다. 본 명세서에서 설명된 바와 같이, 단계들은 아이웨어 디바이스(100)와 관련하여 설명되었지만, 다른 유형의 모바일 디바이스에 대해 설명된 단계들의 다른 구현예는 본 명세서의 설명으로부터 당업자에 의해 이해될 것이다. 또한, 도시되고 설명된 단계들 중 하나 이상이 생략되거나, 동시에 또는 시리즈로 수행되거나, 도시되고 설명된 것과 다른 순서로 수행되거나, 추가 단계들과 함께 수행될 수 있는 것이 고려된다.
[0131] 블록(902)에서, 시스템은 가상 객체(예를 들어, 도 10의 우주선(1004))를 제공한다. 일 예에서, 프로세서(432)는 가상 객체 데이터베이스(482)로부터 가상 객체를 검색한다. 검색된 가상 객체는 연관된 오디오 트랙을 갖는다. 프로세서(432)는 가상 객체 처리 시스템(484)을 사용하여 가상 객체를 처리하고, 이미지 프로세서(412)를 제어하여 가상 객체를 광학 조립체(180A, 180B)의 디스플레이 상에 이미지로 제시한다. 제시된 가상 객체는 3 차원 공간에서 가상 포지션을 가지며, 가상 객체 처리 시스템(484)은 이를 추적한다.
[0132] 블록(904)에서, 시스템은 가상 객체가 연관된 오디오 트랙을 갖는 사용자의 머리에 대한 가상 객체의 현재 포지션(방향 및 선택적으로 거리)을 결정한다. 현재 포지션은 사용자의 머리에 대한 방향을 포함한다. 현재 포지션은 사용자의 머리에 대한 거리를 추가로 포함할 수 있다. 일 예에서, 방향 및 거리는 가상 객체 처리 시스템(484)이 사용자의 머리와 연관된 포지션과 가상 객체 처리 시스템(484)에 의해 추적된 가상 객체의 가상 포지션을 교차하는 벡터로 계산하여 표현된다.
[0133] 블록(906)에서, 시스템은 결정된 포지션에 반응하여 오디오 구역을 식별한다. 프로세서(432)는 오디오 구역 검출 시스템(486)을 사용하여 오디오 구역을 결정한다. 일 예로, 오디오 구역 검출 시스템(486)은 3D 오디오 구역 맵을 검색하는데, 이 3D 오디오 구역 맵은 착용자의 머리에 인접하거나, 위에 있거나, 또는 머리 내에 있는 위치를 나타내는 원점을 둘러싼 구형 형상을 포함하며, 구형 형상은 다수의 오디오 구역들(예를 들어, 36 개의 오디오 구역들)로 분할되어 있다. 그런 다음, 오디오 구역 검출 시스템(486)은 블록(904)에서 계산된 벡터를 원점으로부터 투영하고, 벡터와 오디오 구역 맵 사이의 교차점을 계산한다. 현재 오디오 구역을 식별하기 위해, 오디오 구역 검출 시스템(486)은 최종적으로 교차된 구역을 가상 객체의 현재 오디오 구역으로 식별한다.
[0134] 블록(908)에서, 시스템은 가상 객체와 연관된 오디오 트랙에 현재 오디오 구역에 대응하는 좌측 및 우측 미리 정의된 필터를 적용하여 좌측 오디오 신호 및 우측 오디오 신호를 생성한다. 프로세서(432)는 가상 객체의 오디오 트랙에 대응하는 미리 정의된 필터를 적용한다. 일 예로, 오디오 처리 시스템(488)은 메모리(434)에 저장된 오디오 필터(481)로부터 구역에 대응하는 오디오 필터를 검색한다. 그런 다음, 오디오 처리 시스템(488)은 검색된 필터를 오디오 트랙에 적용하여 좌측 오디오 신호 및 우측 오디오 신호를 생성한다.
[0135] 블록(910)에서, 시스템은 좌측 오디오 신호를 제1 스피커로 제시하고, 우측 오디오 신호를 제2 스피커로 제시한다. 프로세서(432)는 제1 스피커(185A)로 좌측 오디오 신호를 제시하고(예를 들어, 사용자의 좌측 귀로), 제2 스피커(185B)로 우측 오디오 신호를 제시한다(예를 들어, 사용자의 우측 귀로). 일 예에서, 오디오 처리 시스템(488)은 오디오 프로세서(413)에 좌측 오디오 신호를 제1 스피커(185A)에, 우측 오디오 신호를 제2 스피커(185B)에 제시하도록 지시한다.
[0136] 도 9b는 사용자의 머리에 대한 가상 객체의 방향 속도에 대응하는 오디오 신호를 생성하기 위해 가상 객체의 오디오 트랙을 조정하는 예시적인 방법의 단계들을 나열하는 흐름도(920)이다. 이러한 조정은 사용자의 시각적 해석과 일치하는 보다 현실적인 오디오 경험을 제공한다.
[0137] 블록(922)에서, 시스템은 사용자의 머리에 대한 가상 객체의 방향 속도를 결정한다. 시스템은 시간 경과에 따른 가상 객체의 현재 포지션의 움직임을 모니터링하여 방향 속도를 결정한다. 일 실시예에서, 가상 객체 처리 시스템(484)은 주기적으로(예를 들어, 10 밀리초 마다) 가상 객체의 현재 포지션을 계산한다(예를 들어, 블록(904)과 관련하여 위에서 설명한 바와 같이). 그런 다음, 가상 객체 처리 시스템(484)은 가상 객체의 이전(예를 들어, 바로 이전) 포지션과 현재 포지션 사이의 방향 성분을 계산하고, 방향 성분이 사용자의 머리와 관련된 원점과 가상 객체에 인접한 위치 사이를 연장하는 선을 따라 있는 방향 성분을 계산하여 사용자에 대한 객체의 상대 속도를 얻는다.
[0138] 블록(924)에서, 시스템은 결정된 방향 속도에 반응하여 좌측 오디오 신호 및 우측 오디오 신호의 주파수를 조정한다. 프로세서(432)는 좌측 오디오 신호 및 우측 오디오 신호의 주파수를 조정한다. 일 예로, 오디오 처리 시스템(488)은 오디오 프로세서(413)에 주파수를 조정하도록 지시한다(예를 들어, 방향 속도가 사용자를 향할 때 주파수를 증가시키고, 방향 속도가 사용자로부터 멀어질 때 주파수를 감소시킨다). 오디오 처리 시스템(488)은 종래의 도플러 시프트 알고리즘을 적용하여 주파수를 조정할 수 있다.
[0139] 도 9c는 사용자의 머리에 대한 가상 객체의 거리에 대응하여 오디오 신호를 생성하기 위해 진폭을 조정하는 예시적인 방법의 단계들을 나열하는 흐름도(940)이다. 이러한 조정은 사용자의 시각적 해석과 일치하는 보다 현실적인 오디오 경험을 제공한다.
[0140] 블록(942)에서, 시스템은 사용자의 머리에 대한 가상 객체의 거리 정보를 결정한다. 시스템은 가상 객체의 현재 포지션을 모니터링하여 거리를 결정한다. 일 실시예에서, 가상 객체 처리 시스템(484)은 주기적으로(예를 들어, 10 ms마다) 가상 객체의 현재 포지션을 계산한다(예를 들어, 블록(904)과 관련하여 전술한 바와 같이). 그런 다음, 가상 객체 처리 시스템(484)은 사용자의 머리와 연관된 원점과 가상 객체의 현재 포지션 사이의 거리를 계산한다.
[0141] 블록(944)에서, 시스템은 결정된 거리 정보에 반응하여 좌측 오디오 신호 및 우측 오디오 신호의 진폭을 조정한다. 프로세서(432)는 좌측 오디오 신호 및 우측 오디오 신호의 진폭을 조정한다. 일 예로, 오디오 처리 시스템(488)은 오디오 프로세서(413)에 진폭을 조정하도록 지시한다(예를 들어, 거리가 상대적으로 가까울 때 진폭을 증가시키고, 사용자와의 거리가 상대적으로 멀 때 진폭을 증가시킨다). 오디오 처리 시스템(488)은 종래의 선형 또는 비선형 알고리즘을 적용하여 진폭을 조정할 수 있다.
[0142] 따라서, 상술한 HRTF 시스템(400)은 전자 아이웨어 디바이스(100)가 가변적인 다수의 동시 증강 현실 객체들(예를 들어, 가상 렌즈 객체들)이 물리적 공간에서 이동하는 증강 현실 환경에 사용자를 몰입시킬 수 있도록 한다. 이러한 증강 현실 객체들 각각은 독립적인 공간 오디오 후처리를 사용하여 증강 현실 객체와 함께 움직이는 오디오 소리 트랙과 연결될 수 있다. 아이웨어 디바이스(100)에서의 사용자 경험을 향상시키기 위해, 동시 트랙들의 수를 제한하지 않고 낮은 오디오 재생 지연 시간을 제공하는 저전력 회로를 사용하여 공간 오디오 처리를 제공하는 것이 바람직하다. 샘플 구성에서, 이는 후처리를 오디오 프로세서(413)로 오프로드함으로써 달성될 수 있다. 최적의 지연 시간 성능을 위해, 프로세서(432)와 오디오 프로세서(413) 사이의 원격 프로시저 호출의 수는 최소화되어야 한다. 본 명세서에 설명된 오디오 처리 기법들은 다중 채널 오디오 처리를 위해 프로세서(432)로부터 오디오 프로세서(413)로 오디오 트랙의 다중 채널을 전송하기 위한 새로운 오디오 데이터 포맷 및 관련 인코딩 및 디코딩 방법을 정의함으로써 제한된 원격 프로시저 호출을 갖는 오디오 프로세서(413)를 포함하도록 적응될 수 있다. 이러한 구성은 도 11 내지 도 14와 관련하여 설명될 것이다.
[0143] 도 11은 샘플 구성에서 다중 채널 오디오 인코더(1120) 및 다중 채널 오디오 디코더(1140)를 포함하는 저지연, 저전력 오디오 처리 시스템(1100)의 개략도이다. 예시된 바와 같이, 오디오 처리 시스템(1100)은 향상된 오디오 프로세싱 능력을 제공하기 위해 전자 아이웨어 디바이스(100) 상에 또한 위치하는 오디오 프로세서(413)에 결합된 프로세서(432)를 포함한다.
[0144] 샘플 구성에서, 프로세서(432)는 가상 객체의 프레젠테이션 동안 오디오를 재생하는 중에 증강 현실 모듈(예를 들어, 캘리포니아주 산타모니카 소재의 스냅사(Snap, Inc.)에서 제공되는 렌즈 스튜디오)에 로딩된 가상 객체에 대응하는 소리 객체(1110)를 수신한다. 예를 들어, 도 10의 비행 접시(1004)에 비행 접시(1004)가 사용자 환경(600)을 비행할 때 윙윙거리는 소리에 대한 소리 트랙이 있는 경우, 윙윙거리는 소리에 대한 소리 객체(1110)가 재생을 위해 제시된다. 샘플 구성에서, 증강 현실 오디오 재생과 관련된 소리 객체(1110)에 대한 이러한 모든 소리 트랙(예를 들어, N 채널)은 인코딩을 위해 다중 채널 오디오 인코더(1120)에 제공된다. 이러한 인코딩이 없으면, 각각의 소리 객체(1110)에 대해 오디오 프로세서(413)에 대한 원격 프로시저 호출이 필요하며, 이는 시스템의 오디오 처리 지연 시간에 부정적인 영향을 미칠 수 있다. 따라서, 샘플 구성들에서, 다중 채널 오디오 인코더(1120)는 오디오 프로세서(413)에 대한 단일 원격 프로시저 호출로 오디오 데이터의 N-채널이 전송될 수 있도록 N-채널 오디오 데이터를 인코딩한다. 인코딩된 오디오 데이터는 오디오 프로세서(413)의 다중 채널 오디오 디코더(1140)에 의해 디코딩되어 각각의 가상 객체에 대해 인코딩된 소리 트랙을 분리하고, 각 소리 트랙은 전술한 바와 같이 디코딩된 소리 트랙을 사용자의 머리 위치와 연관시키기 위한 머리 관련 전송 함수(HRTF) 처리 모듈(1150)에 제공된다. HRTF 처리에는 각 소리 트랙에 대한 공간 메타데이터 처리가 포함된다. 도시된 바와 같이, 각각의 소리 객체(1110)에 대한 공간 메타데이터는 프로세서(432)와 오디오 프로세서(413) 사이의 사이드 채널을 통해 공간 메타데이터 원격 프로시저 호출(1130)에 의해 비동기적으로 전송될 수 있다. HRTF 처리 모듈(1150)은 오디오 데이터의 N 채널을 후처리 모듈(1160)에 의한 처리 및 좌측/우측 스피커(1170)로의 프레젠테이션을 위해 좌측/우측 오디오 채널로 변환한다. 샘플 구성에서, 좌/우 스피커는 도 1 내지 도 4와 관련하여 위에서 설명한 좌측 스피커(185A) 및 우측 스피커(185B)에 대응할 수 있다.
[0145] 도 12는 도 11의 샘플 구성에서 다중 채널 인코더(1120)에 의한 다중 채널 오디오 데이터의 인코딩을 예시적으로 도시한다. 도시된 바와 같이, 프로세서(432)의 다중 채널 오디오 인코더(1120)는 개개의 소리 객체(1110)의 개개의 오디오 트랙(1200)을 수신하는데, 개개의 오디오 트랙(1200)은 프레임당 샘플이 X 개인 프레임을 갖는다. 샘플 구성에서, 데이터는 16 비트 부호화된 펄스 코드 변조(PCM) 오디오 데이터로 표시될 수 있다. 그러나, 오디오 데이터는 MP3, 고급 오디오 코딩(AAC) 등과 같은 다른 포맷일 수 있음이 이해될 것이다. 개개의 오디오 트랙들(1200)은 오디오 프로세서(413)로 전송하기 위해 제공된 모든 오디오 트랙(1200)을 포함하는 인코딩된 블롭을 생성하기 위해 다중 채널 인코더(1120)에 제공된다.
[0146] 단일 원격 프로시저 호출에서 오디오 프로세서(413)로의 전송을 용이하게 하기 위해, 다중 채널 인코더(1120)는 각각의 오디오 트랙(1200)의 프레임을 어그리게이트하고, 결합된 트랙의 시작부에 트랙의 수를 나타내는 헤더(1210)를 추가한다. 선택적으로, 오디오 트랙(1200)이 승인된 소스들(예를 들어, 다중 채널 오디오 인코더(1120))로부터 수신되었음을 검증하기 위해 서명(예를 들어, 고유 ID)이 제공될 수도 있다. 또한, 다중 채널 인코더(1120)는 다중 채널 오디오 디코더(1140)가 각각의 오디오 트랙(1200)에 대한 프레임을 언패키징할 수 있도록 충분한 정보를 포함하는 사용자 지정 헤더(1220)를 포함하여 각각의 오디오 트랙(1200)의 시작부에 샘플을 추가한다. 헤더(1210) 및 어그리게이트된 헤더(1220) 및 오디오 트랙(1200)을 포함하는 인코딩된 블롭은, 예를 들어, 단일 원격 프로시저 호출을 사용하여 오디오 프로세서(413)로 전송된다.
[0147] 오디오 프로세서(413)에서 실행되는 다중 채널 오디오 디코더(1140)는 헤더(1210) 및 각각의 사용자 지정 헤더(1220)를 사용하여 수신된 인코딩된 블롭으로부터 오디오 트랙(1200)을 디코딩 및 분할하고, 독립적인 처리를 위해 각각의 오디오 트랙(1200)을 HRTF 처리 모듈(1150)로 디스패치한다. HRTF 처리 모듈(1150)은 오디오 트랙(1200)의 N 채널들을 두 개의 채널들로 변환하여 후처리 모듈(1160)에 제공한다. 오디오 후처리 모듈(1160)의 믹서는 처리된 오디오 트랙(1200)을 스피커(1170)에 프레젠테이션하기 위해 프레임당 x 개의 샘플들을 포함하는 단일 스테레오 트랙으로 재결합한다.
[0148] 오디오 트랙(1200)의 공간 내 가상 객체들의 위치와 관련된 공간 메타데이터를 포함하는 트랙별 튜닝 파라미터는 또한 프로세서(432)로부터 동적 사이드 채널을 통해 하나 이상의 원격 프로시저 호출(1130)을 통해 비동기적으로 HRTF 프로세싱 모듈(1150)로 전달되어 HRTF 프로세싱 모듈(1150)에 의한 공간 프로세싱을 가능하게 할 수 있다. 파라미터 데이터에 헤더(1230)가 부착되어 파라미터가 연관된 각각의 소리 트랙(1200)을 식별할 수 있다. 도 12의 구성에서, 파라미터 데이터는 처리 지연 시간을 최소화하기 위해 오디오 트랙(1200)과 병렬로 단일 블록으로 오디오 프로세서(413)로 전송된다.
[0149] 상술한 오디오 인코딩 포맷은 본질적으로 복수의 오디오 트랙(1200)의 프레임을 패키징하여, 중개 스톡 소프트웨어(하드웨어 추상화 계층(HAL), 커널 및 원격 프로시저 호출(RPC)과 같은 전송 계층)에 의해 단일 오디오 트랙의 샘플(본질적으로 바이트의 원시 버퍼)로 구성된 프레임으로 취급될 수 있도록 허용한다는 것이 인식될 것이다. 예를 들어, 위의 구성에서 여러 오디오 트랙(1200)의 프레임은 단일 RPC에서 오디오 프로세서(413)로 전송될 수 있다. 또한, 패키징은 다중 채널 오디오 디코더(1140)가 단일 트랙을 복수의 오디오 트랙(1200)의 원시 프레임으로 언패키징하여 각각의 오디오 트랙(1200)이 HRTF 처리 모듈(1150)과 같은 사용자 정의 처리 모듈에 의해 독립적으로 처리될 수 있도록 충분한 정보를 포함할 수 있도록 한다.
[0150] 전술한 바와 같이, N 개의 오디오 트랙(1200) 각각으로부터의 프레임을 패키징하는 단일 프레임의 인코딩된 블롭에 대한 헤더(1210)는 인코딩된 블롭의 단일 프레임에 표현되는 트랙 수(N) 및, 선택적으로, 오디오 트랙(1200)이 인증된 소스(예를 들어, 다중 채널 오디오 인코더(1120))로부터 수신되는 것을 검증하기 위한 서명(예를 들어, 고유 ID)을 포함할 수 있다.
[0151] 샘플 구성에서, 각각의 오디오 트랙(1200)에 대해 사용자 정의 헤더(1220)가 생성될 수 있다. 도 13a, 도 13b, 및 도 13c는 도 11 및 도 12의 오디오 처리 시스템의 다양한 실시예들에서의 샘플 사용자 지정 헤더들을 예시한다.
[0152] 도 13a는 단일 트랙으로부터의 프레임의 다음 표현을 포함하는 샘플 헤더(1210)를 예시한다:
[0153] - 호환성을 보장하기 위한 헤더 버전(1310);
[0154] - 가상 객체가 공간에서 이동함에 따라 공간 오디오 후처리 튜닝 파라미터 변경을 위한 오디오 트랙(1200)을 식별하는 데 도움이 되는 고유 트랙 ID(1320);
[0155] - 프레임 내 샘플 수(1330); 및
[0156] - 지연 시간 계측을 위한 타임스탬프와 같이, 향후 사용을 위해 예약된 필드(1340).
[0157] 페이로드는 오디오 데이터(1350)의 단일 트랙 프레임에 대한 인터리브 스테레오 샘플을 포함할 수 있다. 샘플 구성들에서, 이 포맷은 각각의 오디오 트랙(1200)에 대해 반복된다.
[0158] 또한, 가상 객체의 현재 포지션에 기초한 현재 HRTF 파라미터는 전술한 사이드 채널과 같은 비동기 인터페이스를 통해 전송될 수 있다. 사이드 채널은, 예를 들어, 모든 가상 객체에 대한 공간 파라미터를 단일 페이로드에 결합하고, 수신된 오디오 트랙(1200)의 공간 처리를 위해 페이로드를 HRTF 처리 모듈(1150)로 전송하는 원격 프로시저 호출(1130)을 구현할 수 있다. 샘플 구성들에서, 공간 파라미터는 상대적 위치, SLAM을 사용하여 계산된 가상 객체의 상대적 속도, 그 사이의 중간 객체 등을 포함할 수 있다.
[0159] 도 13b 및 도 13c는 샘플 헤더(1210)의 변형들을 예시한다.
[0160] 제1 변형에서, 업데이트된 HRTF 파라미터들 및 트랙별 튜닝 파라미터들은 오디오 트랙들(1200)과 동기적으로 제공될 수 있다. 이 구성에서, 파라미터에 대한 사이드 채널은 현재 HRTF 파라미터 및 트랙별 튜닝 파라미터를 HRTF 처리 모듈(1150)로 통신하기 위해 필요하지 않을 수 있다. 이 구성에서 HRTF 파라미터 및 트랙별 튜닝 파라미터는 대신 인코딩된 블롭의 오디오 트랙(1200)으로 인코딩된다. 샘플 헤더(1210)는 파라미터를 설명하기 위해 수정된다. 예를 들어, 도 13b에 도시된 바와 같이, HRTF 파라미터(1370)는 대응하는 오디오 트랙(1200)에 대한 헤더(1360)에 추가될 수 있다. 이 변형의 장점은 소프트웨어로 인한 지연 없이 소리의 정확한 모션을 제공할 수 있다는 것이다. 이 변형에서, HRTF 파라미터는 각 프레임에 대해 다중 채널 오디오 인코더(1120)로 전달된다. HRTF 파라미터에 변경이 없는 경우, 이는 헤더(1210) 또는 개별 헤더(1220)의 특수 서명을 통해 전달될 수 있다. 다중 채널 오디오 인코더(1120)는 도 13b에 도시된 바와 같이, 해당 트랙에 대한 헤더(1360)의 일부로서 HRTF 파라미터를 인코딩할 수 있다. 이러한 구성에서, 다중 채널 디코더(1140)는 헤더(1360)로부터 HRTF 파라미터를 디코딩하고, 해당 프레임에 대한 HRTF 처리 동안 수신된 오디오 트랙(1200)에 적용하기 위해 HRTF 처리 모듈(1150)에 HRTF 파라미터를 제공할 수 있다.
[0161] 상기 구성들에서, 오디오 트랙(1200)은 원시 PCM 비압축 오디오 데이터 포맷에 있다고 가정한다. 그러나, 본 명세서에 설명된 기술들은 오디오 디코딩이 프로세서(432) 또는 오디오 프로세서(413)에서 수행되는 압축된 오디오 데이터 포맷들(예를 들어, AAC, MP3 등)로 쉽게 확장될 수 있다. 오디오 디코딩이 오디오 프로세서(413)에 의해 수행되는 경우, 다중 채널 오디오 인코더(1120)는 압축된 오디오 데이터를 각각의 오디오 트랙(1200)의 페이로드에 전송하고 적용된 압축 유형을 식별하도록 헤더를 수정할 것이다. 예를 들어, 도 13c에 도시된 바와 같이, 데이터 압축 포맷(1390)은 헤더(1380)에 제공되고, 압축 오디오 데이터(1395)는 페이로드에 제공될 수 있다. 이러한 구성에서, 다중 채널 오디오 디코더(1140)는 헤더(1380)의 데이터 압축 포맷(1390)에 의해 지시된 데이터 압축 해제 모듈을 사용하여 오디오 데이터를 압축 해제할 수 있다. 또한, 다중 채널 오디오 디코더(1140)는 압축 해제된 개별 오디오 트랙(1200)에 대해 HRTF 처리 모듈(1150)에 디스패처 역할을 할 수 있다.
[0162] 도 14는 도 11 및 도 12의 샘플 구성에서 다중 채널 오디오 데이터를 인코딩 및 디코딩하는 샘플 방법(1400)의 단계들을 나열하는 흐름도이다.
[0163] 방법(1400)에서, 다중 채널 오디오 인코더(1120)는 가상 객체들의 프레젠테이션 동안 N 개의 소리 객체들(1110)에 대한 N 채널 오디오의 재생 동안 증강 현실 모듈(예를 들어, 캘리포니아주 산타모니카 소재의 스냅사로부터 이용 가능한 렌즈 스튜디오)에 로드된 가상 객체들에 대응하는 소리 객체들(1110)을 1410에서 수신한다.
[0164] 1420에서, 다중 채널 오디오 인코더(1120)는 각각의 트랙의 프레임을 어그리게이트하고, 어그리게이트된 트랙의 수를 나타내는 헤더(1210)를 결합된 오디오 트랙의 시작부에 추가한다. 선택적으로, 오디오 트랙(1200)이 승인된 소스들(예를 들어, 다중 채널 오디오 인코더(1120))로부터 수신되었음을 검증하기 위해 서명(예를 들어, 고유 ID)이 제공될 수도 있다.
[0165] 1430에서, 다중 채널 오디오 인코더(1120)는 다중 채널 오디오 디코더(1140)가 대응하는 오디오 트랙(1200)의 프레임을 언패킹할 수 있도록 충분한 정보를 포함하는 사용자 지정 헤더(예를 들어, 도 13a, 도 13b, 도 13c)를 각각의 오디오 트랙(1200)의 시작부에 추가한다.
[0166] 1440에서, 다중 채널 오디오 인코더(1120)는 어그리게이트된 오디오 트랙(1200)을 인코딩된 블롭(예를 들어, 단일 RPC)으로 전송하고, 사이드 채널 또는 사용자 정의 헤더를 통해 HRTF 공간 인코딩 파라미터 메타데이터 및 트랙별 튜닝 파라미터를 다중 채널 오디오 디코더(1140)로 전송한다.
[0167] 1450에서, 다중 채널 오디오 디코더(1140)는 인코딩된 블롭 및 HRTF 공간 인코딩 파라미터 메타데이터 및 트랙별 튜닝 파라미터를 수신한다.
[0168] 1460에서, 인코딩된 오디오 데이터는 다중 채널 오디오 디코더(1140)에 의해 디코딩되어 헤더 데이터에 기초하여 각각의 가상 객체에 대한 인코딩된 오디오 트랙(1200)을 분리하고, 각각의 오디오 트랙(1200)은 디코딩된 오디오 트랙(1200)을 사용자의 머리 포지션과 연관시키기 위해 HRTF 처리 모듈(1150)로 디스패치된다. 전술한 바와 같이, HRTF 처리 모듈(1150)은 오디오 데이터의 N 채널들을 좌/우 오디오 채널로 변환한다.
[0169] 마지막으로, 1470에서, 좌/우 오디오 채널들은 후처리 모듈(1160)에 제공되어, 처리된 트랙들을 좌/우 스피커(1170)에 프레젠테이션하기 위한 단일 스테레오 트랙으로 재결합된다.
[0170] 당업자들은 본 개시내용의 범위 내에서 다른 수정들이 가능하다는 것을 이해할 것이다. 예를 들어, 오디오 트랙들(1200)은 동시에 도착하지 않고, 다중 채널 오디오 인코더(1120)에 비동기적으로 도착할 수 있다는 것을 이해할 것이다. 이러한 경우, 오디오 트랙들(1200)은 샘플링 간격으로 다중 채널 오디오 인코더(1120)에 의해 획득되거나 인코딩을 위해 다중 채널 오디오 인코더(1120)로 전달되도록 예약될 수 있다. 이러한 경우, 오디오 프로세서(413)에서 비동기적으로 수신된 오디오 트랙(1200)의 재생성을 가능하게 하기 위해 타이밍 또는 스케줄링 데이터가 헤더(1210) 또는 고객 헤더들(1220)에 제공될 수 있다. 또한, 당업자들에게는 오디오 트랙들(1200) 중 어느 하나라도 모노 또는 스테레오일 수 있다는 것이 이해될 것이다. 이러한 경우, 주어진 오디오 트랙의 채널 수를 나타내기 위해 헤더(1220)에 다른 필드가 추가될 수 있다.
[0171] 아이웨어 디바이스(100), 모바일 디바이스(401), 및 서버 시스템(498)에 대해 본 명세서에 설명된 기능은 본 명세서에 설명된 바와 같이 하나 이상의 컴퓨터 소프트웨어 애플리케이션들 또는 프로그래밍 명령들의 집합들로 구현될 수 있다. 일부 예들에 따르면, "기능", "기능들", "애플리케이션", "애플리케이션들", "명령", "명령들" 또는 "프로그래밍"은 프로그램들에서 정의된 기능들을 실행하는 프로그램(들)이다. 하나 이상의 애플리케이션들을 개발하기 위해 다양한 프로그래밍 언어들이 사용될 수 있으며, 객체 지향 프로그래밍 언어들(예를 들어, 오브젝티브-C, Java 또는 C++) 또는 절차적 프로그래밍 언어들(예를 들어, C 또는 어셈블리 언어)과 같이 다양한 방식으로 구조화될 수 있다. 특정 예에서, 제3 자 애플리케이션(예를 들어, 특정 플랫폼의 공급업체가 아닌 다른 주체가 안드로이드(상표)(ANDROIDTM) 또는 IOS(상표)(ISO™) 소프트웨어 개발 키트(SDK)를 사용하여 개발한 애플리케이션)에는 ISO(상표), 안드로이드(상표), 윈도우즈(등록상표)(WINDOWS®) 폰 또는 기타 모바일 운영 체제들과 같은 모바일 운영 체제에서 실행되는 모바일 소프트웨어가 포함될 수 있다. 이 예에서, 제3 자 애플리케이션은 본 명세서에 설명된 기능을 용이하게 하기 위해 운영 체제에 의해 제공되는 API 호출들 발동할 수 있다.
[0172] 따라서, 기계 판독 가능 매체는 많은 형태들의 유형 저장 매체를 취할 수 있다. 비휘발성 저장 매체들은 예를 들어, 도면들에 도시된 클라이언트 디바이스, 매체 게이트웨이, 트랜스코더 등을 구현하는 데 사용될 수 있는 것과 같은 임의의 컴퓨터 디바이스들 등의 저장 디바이스들 중 임의의 것과 같은 광학 디스크 또는 자기 디스크를 포함한다. 휘발성 저장 매체들은 그러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형 전송 매체들에는 동축 케이블들; 컴퓨터 시스템 내의 버스를 포함하는 전선들을 포함한 구리선 및 광섬유들이 포함된다. 반송파 전송 매체들에는 전기 또는 전자기 신호들의 형태이거나 무선 주파수(RF) 및 적외선(IR) 데이터 통신들 동안 생성되는 것들과 같은 음향파 또는 광파의 형태를 취할 수 있다. 따라서, 컴퓨터 판독 가능 매체들의 통상적인 형태들에는 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드들 종이 테이프, 구멍들의 패턴들이 있는 임의의 다른 물리적 저장 매체, RAM, PROM 및 EPROM, 플래시-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령들을 전송하는 반송파, 그러한 반송파를 전송하는 케이블들 또는 링크들, 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체가 포함된다. 이러한 형태들의 컴퓨터 판독 가능 매체들 중 다수는 실행을 위해 하나 이상의 명령들의 하나 이상의 시퀀스들을 프로세서로 전달하는 데 관여할 수 있다.
[0173] 직전에 언급된 것을 제외하고, 기재되거나 예시된 어떠한 것도 임의의 구성요소, 단계, 특징, 목적, 이점, 혜택, 또는 이와 동등한 것이 청구항들에 기재되어 있는지 여부에 관계없이, 공중에게 헌납되도록 의도되거나 해석되어서는 안 된다.
[0174] 본 명세서에서 사용되는 용어들 및 표현들은, 본 명세서에서 특정한 의미들이 달리 규정된 경우를 제외하고, 대응하는 개개의 조사 및 연구 분야들과 관련하여 그러한 용어들 및 표현들에 부여되는 것과 같은 통상적인 의미들을 갖는 것으로 이해될 것이다. 제1, 제2 등과 같은 관계적 용어들은 그러한 개체들 또는 행위들 간에 임의의 실제 그러한 관계나 순서를 반드시 요구하거나 암시하지 않고 하나의 개체 또는 행위를 다른 개체 또는 행위와 구별하기 위해서만 사용될 수 있다. "포함하다", "포함하는" 또는 그 밖의 이들의 임의의 변형은 비-배타적 포함을 포함하기 위한 것으로, 요소들 또는 단계들의 목록을 포함하는 프로세스, 방법, 물품 또는 장치가 해당 요소들 또는 단계들만을 포함하지 않고 해당 프로세스, 방법, 물품 또는 장치에 명시적으로 나열되거나 내재되지 않은 다른 요소들 또는 단계들을 포함할 수 있다. 단수로 표현된 요소는, 추가적인 제약들 없이, 그 요소를 포함하는 프로세스, 방법, 물품 또는 장치에 추가적인 동일한 요소들의 존재를 배제하지 않는다.
[0175] 달리 명시되지 않는 한, 이하의 청구항들을 포함하여 본 명세서에 기재된 임의의 그리고 모든 측정들, 값들, 등급들, 포지션들, 규모들, 크기들 및 기타 사양들은 근사치이며, 정확한 것은 아니다. 이러한 수량들은 해당 수량들이 관련된 기능들 및 해당 기술 분야에서 통상적인 것과 일치하는 합리적인 범위를 갖도록 의도되었다. 예를 들어, 명시적으로 달리 언급되지 않는 한, 파라미터 값 등은 언급된 수량 또는 범위로부터 ± 10 %만큼 다를 수 있다.
[0176] 또한, 전술한 발명을 실시하기 위한 구체적인 내용에서는, 본 개시내용의 간소화 목적으로 다양한 특징들이 다양한 예들에서 함께 그룹화되어 있음을 알 수 있다. 이러한 개시내용의 방법은 청구된 예들이 각각의 청구항에 명시적으로 기재된 것보다 더 많은 특징들을 필요로 한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 이하의 청구항들에서 알 수 있듯이, 보호해야 할 청구대상은 개시된 임의의 단일 예의 모든 특징들에 한정되지 않는다. 따라서, 이하의 청구항들은 발명을 실시하기 위한 구체적인 내용에 통합되며, 각각의 청구항은 개별적으로 청구되는 청구대상으로서 독립적으로 존재한다.
[0177] 전술한 바와 같이, 최상의 모드 및 다른 예들로 간주되는 것을 설명하였으나, 다양한 수정들이 이루어질 수 있으며, 본 명세서에 개시된 청구대상은 다양한 형태들 및 예들로 구현될 수 있고, 수많은 적용예들에 적용될 수 있으며, 그 중 일부만이 본 명세서에 설명되었다는 것이 이해될 수 있다. 이하의 청구항들은 본 개념들의 진정한 범위 내에 속하는 임의의 및 모든 수정들 및 변형들을 청구하는 것을 목적으로 한다.

Claims (20)

  1. 사용자에게 증강 현실 객체들을 제시하도록 구성된 전자 아이웨어 디바이스로서,
    사용자가 보고 있는 장면에서 증강 현실 객체들을 제시하는 디스플레이;
    사용자 머리의 좌측 귀에 좌측 오디오 신호를 제시하기 위한 제1 스피커 및 상기 사용자 머리의 우측 귀에 우측 오디오 신호를 제시하기 위한 제2 스피커를 포함하는 스피커 시스템;
    명령들을 저장하는 메모리; 및
    상기 증강 현실 객체들과 연관된 오디오를 상기 스피커 시스템에 제시하기 위한 명령들을 함께 처리하는 프로세서 및 오디오 프로세서를 포함하는 오디오 처리 시스템
    을 포함하며,
    상기 프로세서는, 하나 이상의 증강 현실 객체들과 각각 연관된 하나 이상의 오디오 트랙들을 수신하고, 상기 하나 이상의 오디오 트랙들을 어그리게이트된 오디오 트랙으로 인코딩하며 ― 상기 어그리게이트된 오디오 트랙은 상기 하나 이상의 오디오 트랙들, 각각의 개별 오디오 트랙을 고유하게 식별하는 각각의 오디오 트랙에 대한 헤더 및 어그리게이트된 오디오 트랙 내 오디오 트랙들의 수를 식별하는 어그리게이트 헤더를 포함함 ―, 그리고 상기 어그리게이트된 오디오 트랙을 제1 데이터 전송 채널에서 상기 오디오 프로세서로 전송하고; 그리고
    상기 오디오 프로세서는 상기 각각의 오디오 트랙에 대한 헤더 및 상기 어그리게이트 헤더를 사용하여 상기 어그리게이트된 오디오 트랙으로부터 상기 하나 이상의 오디오 트랙들을 분리하고, 상기 하나 이상의 오디오 트랙들을 병렬로 독립적으로 처리하며, 그리고 상기 증강 현실 객체들과 함께 프레젠테이션을 위해 상기 스피커 시스템에 상기 하나 이상의 오디오 트랙들을 제공하는, 전자 아이웨어 디바이스.
  2. 제1 항에 있어서,
    상기 프로세서는 추가로 상기 하나 이상의 오디오 트랙들 중 적어도 하나와 관련된 공간 파라미터 메타데이터를 수신하고, 상기 공간 파라미터 메타데이터를 어그리게이트된 공간 파라미터 메타데이터로 어그리게이트하고, 그리고 상기 어그리게이트된 공간 파라미터 메타데이터를 제2 데이터 전송 채널에서 상기 어그리게이트된 오디오 트랙과 관련하여 비동기적으로 상기 오디오 프로세서로 전송하는, 전자 아이웨어 디바이스.
  3. 제2 항에 있어서,
    상기 오디오 프로세서는, 상기 어그리게이트된 공간 파라미터 데이터로부터 개개의 오디오 트랙들에 대응하는 공간 파라미터 메타데이터를 분리하고, 상기 하나 이상의 오디오 트랙들 및 상기 하나 이상의 오디오 트랙들과 연관된 공간 파라미터 메타데이터를 처리하여 좌측 오디오 신호 및 우측 오디오 신호를 생성하는 머리 관련 전달 함수 처리 모듈을 포함하며, 상기 좌측 오디오 신호 및 우측 오디오 신호는 상기 장면 내의 증강 현실 객체들의 공간 포지션들과 연관된 소리들을 제시하는, 전자 아이웨어 디바이스.
  4. 제1 항에 있어서,
    상기 프로세서가 단일 원격 프로시저 호출을 사용하여 상기 어그리게이트된 오디오 트랙을 상기 오디오 프로세서로 전송하는, 전자 아이웨어 디바이스.
  5. 제1 항에 있어서,
    개개의 오디오 트랙에 대한 헤더는 상기 개개의 오디오 트랙에 대한 프레임 내 샘플들의 수 및 상기 헤더의 버전의 표시를 더 포함하는, 전자 아이웨어 디바이스.
  6. 제1 항에 있어서,
    개개의 오디오 트랙에 대한 헤더는 상기 개개의 오디오 트랙에 대한 트랙별 튜닝 파라미터들 또는 머리 관련 전달 함수 파라미터들 중 적어도 하나를 더 포함하는, 전자 아이웨어 디바이스.
  7. 제1 항에 있어서,
    상기 하나 이상의 오디오 트랙들 중 적어도 하나가 압축되고, 각각의 개별 압축된 오디오 트랙에 대한 헤더는 상기 하나 이상의 압축된 오디오 트랙들에 적용된 압축 유형에 대한 표시를 더 포함하는, 전자 아이웨어 디바이스.
  8. 제1 항에 있어서,
    상기 프로세서는 샘플링 간격 또는 스케줄링된 전달 시간에 하나 이상의 증강 현실 객체들과 각각 연관된 하나 이상의 오디오 트랙들을 수신하고, 상기 하나 이상의 오디오 트랙들에 대한 헤더는 샘플링 간격 데이터 또는 스케줄링 데이터를 더 포함하는, 전자 아이웨어 디바이스.
  9. 장면에서 사용자에게 제시되는 증강 현실 객체들과 연관된 소리들을 제시하기 위한 방법으로서,
    프로세서가 하나 이상의 증강 현실 객체들과 각각 연관된 하나 이상의 오디오 트랙들을 수신하는 단계;
    상기 프로세서가 상기 하나 이상의 오디오 트랙들을 어그리게이트된 오디오 트랙으로 인코딩하는 단계 ― 상기 어그리게이트된 오디오 트랙은 상기 하나 이상의 오디오 트랙들, 각각의 개별 오디오 트랙을 고유하게 식별하는 각각의 오디오 트랙에 대한 헤더 및 상기 어그리게이트된 오디오 트랙 내 오디오 트랙들의 수를 식별하는 어그리게이트 헤더를 포함함 ―;
    상기 프로세서가 상기 어그리게이트된 오디오 트랙을 제1 데이터 전송 채널에서 오디오 프로세서로 전송하는 단계;
    상기 오디오 프로세서가 각각의 오디오 트랙에 대한 헤더 및 상기 어그리게이트 헤더를 사용하여 상기 어그리게이트된 오디오 트랙으로부터 상기 하나 이상의 오디오 트랙들을 분리하는 단계;
    상기 오디오 프로세서가 상기 하나 이상의 오디오 트랙들을 독립적으로 병렬로 처리하는 단계; 및
    상기 오디오 프로세서가 상기 증강 현실 객체들과 함께 프레젠테이션하기 위해 상기 하나 이상의 오디오 트랙들을 스피커 시스템에 제공하는 단계
    를 포함하는, 방법.
  10. 제9 항에 있어서,
    상기 프로세서가 상기 하나 이상의 오디오 트랙들 중 적어도 하나와 관련된 공간 파라미터 메타데이터를 수신하는 단계, 상기 공간 파라미터 메타데이터를 어그리게이트된 공간 파라미터 메타데이터로 어그리게이트하는 단계, 및 상기 어그리게이트된 공간 파라미터 메타데이터를 제2 데이터 전송 채널에서 상기 어그리게이트된 오디오 트랙과 관련하여 비동기적으로 상기 오디오 프로세서로 전송하는 단계를 더 포함하는, 방법.
  11. 제10 항에 있어서,
    상기 오디오 프로세서는 머리 관련 전달 함수 처리 모듈을 포함하고, 상기 방법은 상기 머리 관련 전달 함수 처리 모듈이 상기 어그리게이트된 공간 파라미터 데이터로부터 개개의 오디오 트랙들에 대응하는 공간 파라미터 메타데이터를 분리하는 단계 및 상기 하나 이상의 오디오 트랙들 및 상기 하나 이상의 오디오 트랙들과 연관된 공간 파라미터 메타데이터를 처리하여 좌측 오디오 신호 및 우측 오디오 신호를 생성하는 단계를 더 포함하며, 상기 좌측 오디오 신호 및 상기 우측 오디오 신호는 상기 장면 내의 증강 현실 객체들의 공간 포지션들과 연관된 소리들을 제시하는, 방법.
  12. 제9 항에 있어서,
    상기 프로세서가 단일 원격 프로시저 호출을 사용하여 상기 어그리게이트된 오디오 트랙을 상기 오디오 프로세서로 전송하는 단계를 더 포함하는, 방법.
  13. 제9 항에 있어서,
    개개의 오디오 트랙에 대한 프레임 내의 샘플들의 수 및 상기 헤더의 버전의 표시를 상기 개개의 오디오 트랙에 대한 헤더에서 제공하는 단계를 더 포함하는, 방법.
  14. 제9 항에 있어서,
    개개의 오디오 트랙에 대한 트랙별 튜닝 파라미터들 또는 머리 관련 전달 함수 파라미터들 중 적어도 하나를 상기 개개의 오디오 트랙에 대한 헤더에서 제공하는 단계를 더 포함하는, 방법.
  15. 제9 항에 있어서,
    상기 하나 이상의 오디오 트랙들 중 적어도 하나가 압축되고, 상기 방법은 상기 적어도 하나의 압축된 오디오 트랙에 대한 헤더에서 상기 적어도 하나의 압축된 오디오 트랙에 적용된 압축 유형의 표시를 제공하는 단계를 더 포함하는, 방법.
  16. 제9 항에 있어서,
    상기 프로세서가 샘플링 간격 또는 스케줄링된 전달 시간에 하나 이상의 증강 현실 객체들과 각각 연관된 하나 이상의 오디오 트랙들을 수신하는 단계 및 상기 하나 이상의 오디오 트랙들에 대한 헤더에서 샘플링 간격 데이터 또는 스케줄링 데이터를 제공하는 단계를 더 포함하는, 방법.
  17. 장면에서 사용자에게 제시되는 증강 현실 객체들과 연관된 소리들을 제시하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독 가능 매체로서,
    상기 명령들은, 프로세서 및 오디오 프로세서에 의해 수행될 때,
    하나 이상의 증강 현실 객체들과 각각 연관된 하나 이상의 오디오 트랙들을 상기 프로세서에 의해 수신하고;
    상기 프로세서에 의해, 상기 하나 이상의 오디오 트랙들을 어그리게이트된 오디오 트랙으로 인코딩하고 ― 상기 어그리게이트된 오디오 트랙은 상기 하나 이상의 오디오 트랙들, 각각의 개별 오디오 트랙을 고유하게 식별하는 각각의 오디오 트랙에 대한 헤더 및 상기 어그리게이트된 오디오 트랙 내 오디오 트랙들의 수를 식별하는 어그리게이트 헤더를 포함함 ―;
    상기 프로세서에 의해, 상기 어그리게이트된 오디오 트랙을 제1 데이터 전송 채널에서 상기 오디오 프로세서로 전송하고;
    상기 오디오 프로세서에 의해, 상기 각각의 오디오 트랙에 대한 헤더 및 상기 어그리게이트 헤더를 사용하여 상기 어그리게이트된 오디오 트랙으로부터 상기 하나 이상의 오디오 트랙들을 분리하고;
    상기 오디오 프로세서에 의해, 상기 하나 이상의 오디오 트랙들을 독립적으로 병렬로 처리하고; 그리고
    상기 오디오 프로세서에 의해, 상기 하나 이상의 오디오 트랙들을 상기 증강 현실 객체들과 함께 프레젠테이션하기 위해 스피커 시스템에 제공하도록, 상기 프로세서 및 상기 오디오 프로세서를 구성하는, 비일시적 컴퓨터 판독 가능 매체.
  18. 제17 항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 프로세서가 상기 하나 이상의 오디오 트랙들 중 적어도 하나와 관련된 공간 파라미터 메타데이터를 수신하고, 상기 공간 파라미터 메타데이터를 어그리게이트된 공간 파라미터 메타데이터로 어그리게이트하고, 그리고 상기 어그리게이트된 공간 파라미터 메타데이터를 제2 데이터 전송 채널에서 어그리게이트된 오디오 트랙과 관련하여 비동기적으로 상기 오디오 프로세서로 전송하게 하는 명령들을 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  19. 제18 항에 있어서,
    상기 오디오 프로세서에 의해 실행될 때, 상기 오디오 프로세서의 머리 관련 전달 함수 처리 모듈이 상기 어그리게이트된 공간 파라미터 데이터로부터 개개의 오디오 트랙들에 대응하는 상기 공간 파라미터 메타데이터를 분리하고, 상기 하나 이상의 오디오 트랙들 및 상기 하나 이상의 오디오 트랙들과 연관된 공간 파라미터 메타데이터를 처리하여 좌측 오디오 신호 및 우측 오디오 신호를 생성하게 하는 명령들을 더 포함하며, 상기 좌측 오디오 신호 및 상기 우측 오디오 신호는 상기 장면 내 증강 현실 객체들의 공간 포지션들과 연관된 소리들을 제시하는, 비일시적 컴퓨터 판독 가능 매체.
  20. 제17 항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 프로세서가 단일 원격 프로시저 호출을 사용하여 상기 어그리게이트된 오디오 트랙을 상기 오디오 프로세서로 전송하게 하는 명령들을 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
KR1020237043511A 2021-05-19 2022-05-12 저지연, 저전력 다중 채널 오디오 처리 KR20240009478A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163190733P 2021-05-19 2021-05-19
US63/190,733 2021-05-19
PCT/US2022/029001 WO2022245630A1 (en) 2021-05-19 2022-05-12 Low latency, low power multi-channel audio processing

Publications (1)

Publication Number Publication Date
KR20240009478A true KR20240009478A (ko) 2024-01-22

Family

ID=81928203

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237043511A KR20240009478A (ko) 2021-05-19 2022-05-12 저지연, 저전력 다중 채널 오디오 처리

Country Status (5)

Country Link
US (1) US20220377491A1 (ko)
EP (1) EP4342192A1 (ko)
KR (1) KR20240009478A (ko)
CN (1) CN117413536A (ko)
WO (1) WO2022245630A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
EP3777248A4 (en) * 2018-04-04 2021-12-22 Nokia Technologies Oy DEVICE, METHOD AND COMPUTER PROGRAM FOR CONTROLLING THE PLAYBACK OF SPATIAL AUDIO

Also Published As

Publication number Publication date
CN117413536A (zh) 2024-01-16
US20220377491A1 (en) 2022-11-24
WO2022245630A1 (en) 2022-11-24
EP4342192A1 (en) 2024-03-27

Similar Documents

Publication Publication Date Title
US20220206588A1 (en) Micro hand gestures for controlling virtual and graphical elements
KR20230164185A (ko) 가상 및 그래픽 요소들을 제어하기 위한 매핑된 손 영역들 사이의 양손 상호 작용들
KR20230026505A (ko) 객체 조작을 사용한 증강 현실 경험들
KR20230074780A (ko) 검출된 손 제스처들에 응답한 터치리스 포토 캡처
WO2022225761A1 (en) Hand gestures for animating and controlling virtual and graphical elements
US11520399B2 (en) Interactive augmented reality experiences using positional tracking
US11889291B2 (en) Head-related transfer function
KR20230029923A (ko) 롤링 셔터 카메라들을 사용하는 시각적 관성 추적
KR20230026503A (ko) 사회적 거리두기를 사용한 증강 현실 경험들
US20230362573A1 (en) Audio enhanced augmented reality
KR20230073336A (ko) 가상 아이웨어 빔들을 사용한 증강 현실 게이밍
US20220377491A1 (en) Low latency, low power multi-channel audio processing
US11863963B2 (en) Augmented reality spatial audio experience
US20240069642A1 (en) Scissor hand gesture for a collaborative object
US20240071020A1 (en) Real-world responsiveness of a collaborative object