KR20230117236A

KR20230117236A - 수화-음성 번역을 포함하는 아이웨어

Info

Publication number: KR20230117236A
Application number: KR1020237023924A
Authority: KR
Inventors: 라이언 찬; 브렌트 밀스; 이탄 필립스키; 제니카 파운즈; 엘리엇 솔로몬
Original assignee: 스냅 인코포레이티드
Priority date: 2020-12-16
Filing date: 2021-11-18
Publication date: 2023-08-07
Also published as: US11900729B2; CN116615686A; EP4264401A1; US20220188539A1; WO2022132381A1

Abstract

수화를 포함하는 손 제스처를 식별하고 식별된 손 제스처를 표시하는 음성을 생성하도록 구성된 전자 프로세서를 갖는 아이웨어가 제공된다. 전자 프로세서는 CNN(convolutional neural network)을 사용하여 이미지의 손 제스처를 손 제스처들의 세트에 매칭시킴으로써 손 제스처를 식별하며, 손 제스처들의 세트는 메모리에 저장된 손 제스처들의 라이브러리이다. 손 제스처는 정적 손 제스처 및 이동 손 제스처를 포함할 수 있다. 전자 프로세서는 일련의 손 제스처들로부터 워드를 식별하도록 구성된다.

Description

수화-음성 번역을 포함하는 아이웨어

[0001] 본 출원은 2020년 12월 16일에 출원된 미국 가출원 일련번호 제63/126,273호에 대해 우선권을 주장하며, 이 출원의 내용들은 인용에 의해 본원에 완전히 통합된다.

[0002] 본 청구대상은 아이웨어 디바이스, 예컨대 스마트 안경에 관한 것이다.

[0003] 오늘날 이용 가능한 스마트 안경, 헤드웨어 및 헤드기어와 같은 휴대용 아이웨어 디바이스들은 카메라들 및 시-스루 디스플레이들을 통합한다.

[0004] 도면들은 제한들이 아니라 오직 예시로서 하나 이상의 구현들을 도시한다. 도면들에서, 유사한 참조 부호들은 동일하거나 유사한 엘리먼트들을 지칭한다.
[0005] 도 1a는 이미지 디스플레이를 갖는 우측 광학 조립체를 도시하는 아이웨어 디바이스의 예시적인 하드웨어 구성의 측면도이며, 시야 조절들은 사용자에 의해 검출된 머리 또는 눈 움직임에 기반하여 이미지 디스플레이 상에 제시되는 사용자 인터페이스에 적용된다.
[0006] 도 1b는 가시광 카메라, 아이웨어 디바이스의 사용자의 머리 움직임을 추적하기 위한 머리 움직임 추적기, 및 회로 보드를 묘사하는 도 1a의 아이웨어 디바이스의 템플의 평면 단면도이다.
[0007] 도 2a는 아이웨어 디바이스의 사용자를 식별하기 위해 시스템에서 사용하기 위한 프레임 상의 눈 스캐너를 포함하는 아이웨어 디바이스의 예시적인 하드웨어 구성의 배면도이다.
[0008] 도 2b는 아이웨어 디바이스의 사용자를 식별하기 위해 시스템에서 사용하기 위한 템플 상의 눈 스캐너를 포함하는 다른 아이웨어 디바이스의 예시적인 하드웨어 구성의 배면도이다.
[0009] 도 2c 및 도 2d는 2개의 상이한 타입들의 이미지 디스플레이들을 포함하는 아이웨어 디바이스의 예시적인 하드웨어 구성들의 후면도들이다.
[0010] 도 3은 적외선 방출기, 적외선 카메라, 프레임 전면, 프레임 후면 및 회로 보드를 묘사하는 도 2a의 아이웨어 디바이스의 후면 사시도를 도시한다.
[0011] 도 4는 도 3의 아이웨어 디바이스의 적외선 방출기 및 프레임을 통해 취해진 단면도이다.
[0012] 도 5는 눈 응시 방향을 검출하는 것을 예시한다.
[0013] 도 6은 눈 포지션을 검출하는 것을 예시한다.
[0014] 도 7은 우측 원시 이미지로서 우측 가시광 카메라에 의해 캡처된 가시광 및 좌측 원시 이미지로서 좌측 가시광 카메라에 의해 캡처된 가시광의 예를 도시한다.
[0015] 도 8a는 카우보이와 같은 이미지의 객체들을 식별하고, 식별된 객체들을 텍스트로 변환한 다음, 이미지의 식별된 객체들을 나타내는 오디오로 텍스트를 변환하는 카메라-기반 보상 시스템을 예시한다.
[0016] 도 8b는 프로세싱될 음성을 통해 명령되고 사용자에게 소리내어 읽어줄 수 있는 섹션들을 갖는 레스토랑 메뉴와 같은 이미지를 예시한다.
[0017] 도 8c는 분할을 제공하는 아이웨어를 예시한다.
[0018] 도 8d는 수화를 음성으로 번역하는 것을 예시한다.
[0019] 도 8e는 한 세트의 수화 제스처들을 예시한다.
[0020] 도 9는 아이웨어 디바이스의 전자 컴포넌트들의 블록도를 예시한다.
[0021] 도 10은 아이웨어 디바이스의 동작의 흐름도이다.
[0022] 도 11은 음성-텍스트 알고리즘을 예시하는 흐름도이다.
[0023] 도 12는 수화를 포함하는 손 제스처를 음성으로 번역하는 알고리즘의 흐름도이다.

[0024] 본 개시내용은 수화를 포함하는 손 제스처를 식별하고 식별된 손 제스처를 표시하는 음성을 생성하도록 구성된 전자 프로세서를 갖는 아이웨어를 포함한다. 전자 프로세서는 CNN(convolutional neural network)을 사용하여 이미지의 손 제스처를 손 제스처들의 세트에 매칭시킴으로써 손 제스처를 식별하며, 손 제스처들의 세트는 메모리에 저장된 손 제스처 라이브러리이다. 손 제스처는 정적 손 제스처 및 이동 손 제스처를 포함할 수 있다. 전자 프로세서는 일련의 손 제스처들로부터 워드(word)를 식별하도록 구성된다.

[0025] 예들의 부가적인 목적들, 장점들 및 신규한 특징들은 후속하는 상세한 설명에서 부분적으로 기재될 것이며, 부분적으로는, 다음의 상세한 설명 및 첨부된 도면들의 검토 시에 당업자들에게 자명하게 될 것이거나 또는 예들의 생성 또는 실시에 의해 습득될 수 있다. 본 발명의 청구대상의 목적들 및 장점들은 특히 첨부된 청구항들에서 적시된 방법론들, 기구들 및 조합들에 의해 실현 및 달성될 수 있다.

[0026] 하기의 상세한 설명에서, 관련 교시들의 철저한 이해를 제공하기 위해 다수의 특정 세부사항들이 예들로서 기술된다. 그러나, 이러한 세부사항들 없이도 본 교시들이 실시될 수 있다는 것이 당업자에게 자명할 것이다. 다른 예들에서, 본 교시들의 양상들을 불필요하게 모호하게 하는 것을 회피하기 위해, 널리 알려진 방법들, 절차들, 컴포넌트들, 및 회로부는 세부사항 없이 비교적 하이-레벨로 설명되었다.

[0027] 본원에서 사용되는 “커플링된(coupled)”이라는 용어는 하나의 시스템 엘리먼트에 의해 생성 또는 공급된 신호들 또는 광이 다른 커플링된 엘리먼트에 부여되게 하는 임의의 논리적, 광학적, 물리적 또는 전기적 연결, 링크 등을 지칭한다. 달리 설명되지 않는 한, 커플링된 엘리먼트들 또는 디바이스들은 반드시 서로 직접 연결될 필요는 없으며, 광 또는 신호들을 수정, 조작 또는 반송할 수 있는 중간 컴포넌트들, 엘리먼트들 또는 통신 미디어에 의해 분리될 수 있다.

[0028] 도면들 중 임의의 도면에 도시된 바와 같이 아이웨어 디바이스, 연관된 컴포넌트들, 및 눈 스캐너 및 카메라를 통합한 임의의 완전한 디바이스들의 배향들은 예시 및 논의의 목적을 위해 예로서만 제공된다. 특정 가변 광학 프로세싱 애플리케이션에 위한 동작에서, 아이웨어 디바이스는 아이웨어 디바이스의 특정 애플리케이션에 적합한 임의의 다른 방향, 예컨대 위로, 아래로, 옆으로 또는 임의의 다른 배향으로 배향될 수 있다. 또한, 본원에 사용되는 범위까지, 앞, 뒤, 내향, 외향, 쪽으로, 좌측, 우측, 측방향, 종방향, 위로, 아래로, 상부, 하부, 최상부, 최하부 및 측면과 같은 임의의 방향성 용어는 단지 예시로서 사용되며, 달리 본원에 설명된 바와 같이 구성된 임의의 광학 또는 광학 컴포넌트의 방향 또는 배향으로 제한되지 않는다.

[0029] 이제, 첨부된 도면들에서 예시되고 아래에서 논의되는 예들을 상세히 참조한다.

[0030] 도 1a는 이미지 디스플레이(180D)(도 2a)를 갖는 우측 광학 조립체(180B)를 포함하는 아이웨어 디바이스(100)의 예시적인 하드웨어 구성의 측면도이다. 아이웨어 디바이스(100)는 스테레오 카메라를 형성하는 다수의 가시광 카메라들(114A-B)(도 7)을 포함하며, 이들 중 우측 가시광 카메라(114B)는 우측 템플 부분(110B) 상에 로케이팅된다.

[0031] 좌측 및 우측 가시광 카메라들(114A-B)은 가시광 범위 파장에 민감한 이미지 센서를 갖는다. 가시광 카메라들(114A-B)의 각각은 상이한 전방을 향하는 커버리지 각도를 가지며, 예컨대 가시광 카메라(114B)는 도시된 커버리지 각도(111B)를 갖는다. 커버리지 각도는 가시광 카메라(114A-B)의 이미지 센서가 전자기 방사선을 픽업하여 이미지들을 생성하는 각도 범위이다. 이러한 가시광 카메라(114A-B)의 예들은 640p(예컨대, 총 0.3 메가픽셀들의 경우 640 x 480 픽셀들), 720p, 또는 1080p와 같은 고분해능 CMOS(complementary metal-oxide-semiconductor) 이미지 센서 및 VGA(video graphic array) 카메라를 포함한다. 가시광 카메라들(114A-B)로부터의 이미지 센서 데이터는 지오로케이션 데이터와 함께 캡처되고, 이미지 프로세서에 의해 디지털화되고, 메모리에 저장된다.

[0032] 입체 비전을 제공하기 위해, 가시광 카메라들(114A-B)은 장면의 이미지가 캡처되는 타임스탬프와 함께 디지털 프로세싱을 위해 이미지 프로세서(도 9의 엘리먼트(912))에 커플링될 수 있다. 이미지 프로세서(912)는 가시광 카메라들(114A-B)로부터 신호들을 수신하고 가시광 카메라들(114A-B)로부터의 그러한 신호들을 메모리(도 9의 엘리먼트(934))에 저장하기에 적합한 포맷으로 프로세싱하는 회로부를 포함한다. 타임스탬프는 가시광 카메라들(114A-B)의 동작을 제어하는 이미지 프로세서(912) 또는 다른 프로세서에 의해 추가될 수 있다. 가시광 카메라들(114A-B)은 스테레오 카메라가 인간의 쌍안 비전을 시뮬레이팅할 수 있게 한다. 스테레오 카메라들은 동일한 타임스탬프를 각각 갖는, 가시광 카메라들(114A-B)로부터의 2개의 캡처된 이미지들(도 7의 엘리먼트들(758A-B))에 기반하여 3차원 이미지들(도 7의 엘리먼트(715))을 재현하는 능력을 제공한다. 이러한 3차원 이미지들(715)은 몰입적이고 실감나는 경험, 예컨대, 가상 현실 또는 비디오 게이밍을 허용한다. 입체 비전의 경우에, 이미지들(758A-B)의 쌍은 주어진 순간에 생성되는데, 좌측 및 우측 가시광 카메라들(114A-B) 각각에 대해 하나의 이미지가 생성된다. 좌측 및 우측 가시광 카메라들(114A-B)의 전방을 향하는 커버리지 각도(111A-B)로부터의 생성된 이미지들(758A-B)의 쌍이 (예컨대, 이미지 프로세서(912)에 의해) 함께 스티칭될 때, 깊이 인식은 광학 어셈블리(180A-B)에 의해 제공된다.

[0033] 예에서, 사용자 인터페이스 시야 조절 시스템은 아이웨어 디바이스(100)를 포함한다. 아이웨어 디바이스(100)는 프레임(105), 프레임(105)의 우측 측면(170B)으로부터 연장되는 우측 템플 부분(110B), 및 그래픽 사용자 인터페이스를 사용자에게 제시하기 위한 광학 조립체(180B)를 포함하는 시-스루 이미지 디스플레이(180D)(도 2a-b)를 포함한다. 아이웨어 디바이스(100)는 장면의 제1 이미지를 캡처하기 위해 프레임(105) 또는 좌측 템플 부분(110A)에 연결된 좌측 가시광 카메라(114A)를 포함한다. 아이웨어 디바이스(100)는 제1 이미지와 부분적으로 중첩하는 장면의 제2 이미지를 (예컨대, 좌측 가시광 카메라(114A)와 동시에) 캡처하기 위해 우측 템플 부분(110B) 또는 프레임(105)에 연결된 우측 가시광 카메라(114B)를 더 포함한다. 도 1a-b에 도시되어 있지 않지만, 사용자 인터페이스 시야 조절 시스템은 아이웨어 디바이스(100)에 커플링되고 가시광 카메라들(114A-B)에 연결된 프로세서(932), 프로세서(932)에 의해 액세스 가능한 메모리(934), 및 메모리(934), 예컨대 아이웨어 디바이스(100) 그 자체 또는 사용자 인터페이스 시야 조절 시스템의 다른 부분의 프로그래밍을 더 포함한다.

[0034] 도 1a에는 도시되어 있지 않지만, 아이웨어 디바이스(100)는 또한 머리 움직임 추적기(도 1b의 엘리먼트(109)) 또는 눈 움직임 추적기(도 2b의 엘리먼트(213))를 포함한다. 아래에서 더 상세히 설명되는 바와같이, 아이웨어 디바이스(100)는 디스플레이된 이미지들의 시퀀스를 제시하기 위한 광학 조립체(180A-B)의 시-스루 이미지 디스플레이들(180C-D), 및 디스플레이된 이미지들(715)의 시퀀스를 제시하기 위해 광학 어셈블리(180A-B)의 이미지 디스플레이들(180C-D)을 제어하기 위해 광학 조립체(180A-B)의 시-스루 이미지 디스플레이들(180C-D)에 커플링된 이미지 디스플레이 드라이버(도 9의 엘리먼트(942))를 더 포함한다. 아이웨어 디바이스(100)는 이미지 디스플레이 드라이버(942) 및 메모리(934)에 액세스하는 프로세서(932) 및 메모리(934를 더 포함한다. 아이웨어 디바이스(100)는 메모리의 프로그래밍(도 9의 엘리먼트(934))을 더 포함한다. 프로세서(932)에 의한 프로그래밍의 실행은, 시-스루 이미지 디스플레이들(180C-D)을 통해, 디스플레이된 이미지들의 시퀀스의 초기 디스플레이된 이미지를 제시하기 위한 기능들을 포함하는 기능들을 수행하도록 아이웨어 디바이스(100)를 구성하며, 초기 디스플레이된 이미지는 초기 머리 방향 또는 초기 눈 응시 방향(도 5의 엘리먼트(230))에 대응하는 초기 시야를 갖는다.

[0035] 프로세서(932)에 의한 프로그래밍의 실행은 (i) 머리 움직임 추적기(도 1b의 엘리먼트(109))를 통해, 사람의 머리의 머리 움직임을 추적함으로써 또는 (ii) 눈 움직임 추적기(도 2b, 도 5의 엘리먼트(213))를 통해, 아이웨어 디바이스(100)의 사용자의 눈의 눈 움직임을 추적함으로써 아이웨어 디바이스의 사용자의 움직임을 검출하도록 아이웨어 디바이스(100)를 추가로 구성한다. 프로세서(932)에 의한 프로그래밍의 실행은 사용자의 검출된 움직임에 기반하여 초기 디스플레이된 이미지의 초기 시야에 대한 시야 조절을 결정하도록 아이웨어 디바이스(100)를 추가로 구성한다. 시야 조절은 연속적인 머리 방향 또는 연속적인 눈 방향에 대응하는 연속적인 시야를 포함한다. 프로세서(932)에 의한 프로그래밍의 실행은 시야 조절에 기반하여 디스플레이된 이미지들의 시퀀스의 연속적인 디스플레이된 이미지를 생성하도록 아이웨어 디바이스(100)를 추가로 구성한다. 프로세서(932)에 의한 프로그래밍의 실행은 광학 조립체(180A-B)의 시-스루 이미지 디스플레이들(180C-D)을 통해 연속적으로 디스플레이된 이미지들을 제시하도록 아이웨어 디바이스(100)를 추가로 구성한다.

[0036] 도 1b는 우측 가시광 카메라(114B), 머리 움직임 추적기(109) 및 회로 보드를 도시하는 도 1a의 아이웨어 디바이스(100)의 템플의 상부 단면도이다. 좌측 가시광 카메라(114A)의 구성 및 배치는 연결부들 및 커플링이 좌측 측방향 측면(170A)에 있다는 점을 제외하면 우측 가시광 카메라(114B)와 실질적으로 유사하다. 도시된 바와 같이, 아이웨어 디바이스(100)는 우측 가시광 카메라(114B) 및 가요성 PCB(printed circuit board)(140)일 수 있는 회로 보드를 포함한다. 우측 힌지(126B)는 아이웨어 디바이스(100)의 우측 템플(125B)에 우측 템플 부분(110B)을 연결한다. 일부 예들에서, 우측 가시광 카메라(114B)의 컴포넌트들, 가요성 PCB(140B), 또는 다른 전기 커넥터들 또는 콘택들이 우측 템플(125B) 또는 우측 힌지(126B) 상에 로케이팅될 수 있다.

[0037] 도시된 바와 같이, 아이웨어 디바이스(100)는 예컨대 관성 측정 유닛(IMU)을 포함하는 머리 움직임 추적기(109)를 갖는다. 관성 측정 유닛은, 가속도계들 및 자이로스코프들, 때로는 또한 자력계들의 조합을 사용하여 본체의 특정 힘, 각도 레이트, 및 때로는 본체 주위의 자기장을 측정 및 보고하는 전자 디바이스이다. 관성 측정 유닛은 하나 이상의 가속도계들을 사용하여 선형 가속도를 그리고 하나 이상의 자이로스코프들을 사용하여 회전 레이트를 검출함으로써 작동한다. 관성 측정 유닛들의 통상적인 구성들은 3개의 축들, 즉, 좌우 이동에 대한 수평축(X), 상하 이동에 대한 수직축(Y), 및 위-아래 이동에 대한 깊이 또는 거리 축(Z) 각각에 대한 축마다 하나의 가속도계, 자이로 및 자력계를 포함한다. 가속도계는 중력 벡터를 검출한다. 자력계는 배향 참조를 생성하는 나침반과 같이 자기장의 회전(예컨대, 남쪽, 북쪽 등을 향함)을 정의한다. 3개의 가속도계들은 지면, 아이웨어 디바이스(100), 또는 아이웨어 디바이스(100)를 착용한 사용자에 대해 정의될 수 있는 앞서 정의된 수평, 수직 및 깊이 축을 따라 가속도를 검출한다.

[0038] 아이웨어 디바이스(100)는 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적함으로써 아이웨어 디바이스(100)의 사용자의 움직임을 검출한다. 머리 움직임은 이미지 디스플레이 상에 초기 디스플레이된 이미지를 제시하는 동안 초기 머리 방향으로부터 수평축, 수직축 또는 이들의 조합에서 머리 방향의 변화를 포함한다. 일례에서, 머리 움직임 추적기(109)를 통해 사용자의 머리의 머리 움직임을 추적하는 것은, 관성 측정 유닛(109)을 통해, 수평축(예컨대, X-축), 수직축(예컨대, Y-축) 또는 이들의 조합(예컨대, 가로 또는 대각선 움직임)에서 초기 머리 방향을 측정하는 것을 포함한다. 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것은 초기 디스플레이된 이미지의 제시 동안 관성 측정 유닛(109)을 통해 수평축, 수직축 또는 이들의 조합에서 연속적인 머리 방향을 측정하는 것을 더 포함한다.

[0039] 머리 움직임 추적기(109)를 통해 사용자의 머리의 머리 움직임을 추적하는 것은 초기 머리 방향 및 연속적인 머리 방향 둘 모두에 기반하여 머리 방향의 변화를 결정하는 것을 더 포함한다. 아이웨어 디바이스(100)의 사용자의 움직임을 검출하는 것은 머리 움직임 추적기(109)를 통해 사용자의 머리의 머리 움직임을 추적하는 것에 응답하여, 머리 방향의 변동이 수평축에서, 수직축에서 또는 이들의 조합에서 편차 각도 임계치를 초과함을 결정하는 것을 더 포함한다. 편차 각도 임계치는 약 3° 내지 10°이다. 본원에서 사용되는 바와 같이, 각도를 언급할 때 "약"이라는 용어는 명시된 양으로부터 ±10%를 의미한다.

[0040] 수평축을 따른 변동은 예컨대 3차원 객체의 가시성을 숨기거나, 숨김을 해제하거나 그렇지 않으면 조절함으로써 시야 안으로 그리고 밖으로 3차원 객체들, 예컨대 캐릭터들, 피트모지(Bitmoji)들, 애플리케이션 아이콘들 등을 슬라이드한다. 예컨대 사용자가 위쪽을 바라볼 때 수직축을 따른 변동은 일례에서 날씨 정보, 하루 중 시간, 날짜, 캘린더 약속들 등을 디스플레이한다. 다른 예로, 사용자가 수직축에서 아래쪽을 바라볼 때, 아이웨어 디바이스(100)는 파워-다운될 수 있다.

[0041] 우측 템플 부분(110B)은 템플 바디(211) 및 템플 캡을 포함하며, 템플 캡은 도 1b의 단면에서 생략된다. 우측 템플 부분(110B) 내부에는 우측 가시광 카메라(114B)에 대한 제어기 회로들, 마이크로폰(들)(130), 스피커(들)(132), (예컨대, Bluetooth™를 통한 무선 근거리 네트워크 통신을 위한) 저전력 무선 회로부, (예컨대, WiFi를 통한 무선 로컬 영역 네트워크 통신을 위한) 고속 무선 회로부를 포함하는 다양한 상호연결 회로 보드들, 예컨대, PCB들 또는 가요성 PCB들이 배치된다.

[0042] 우측 가시광 카메라(114B)는 가요성 PCB(240)에 커플링되거나 가요성 PCB(240) 상에 배치되고, 우측 템플 부분(110B)에 형성된 개구(들)를 통해 조준되는 가시광 카메라 커버 렌즈에 의해 커버된다. 일부 예들에서, 우측 템플 부분(110B)에 연결된 프레임(105)은 가시광 카메라 커버 렌즈를 위한 개구(들)를 포함한다. 프레임(105)은 사용자의 눈으로부터 바깥 쪽을 향하도록 구성된 전방을 향하는 측면을 포함한다. 가시광 카메라 커버 렌즈를 위한 개구는 전방을 향하는 측면 상에 그리고 이를 통해 형성된다. 이 예에서, 우측 가시광 카메라(114B)는 아이웨어 디바이스(100)의 사용자의 우측 눈의 시선 또는 시각을 갖는 외향 커버리지 각도(111B)를 갖는다. 가시광 카메라 커버 렌즈는 또한 우측 템플 부분(110B)의 외향 표면에 접착될 수 있고, 여기서 커버리지의 외향 각도를 갖지만 상이한 외측 방향을 향하는 개구가 형성된다. 커플링은 또한 개재 컴포넌트들을 통해 간접적일 수 있다.

[0043] 좌측(제1) 가시광 카메라(114A)는 좌측 광학 조립체(180A)의 좌측 시-스루 이미지 디스플레이(180C)에 연결되어 제1 연속 디스플레이된 이미지의 제1 배경 장면을 생성한다. 우측(제2) 가시광 카메라(114B)는 우측 광학 어셈블리(180B)의 우측 시-스루 이미지 디스플레이(180D)에 연결되어 제2 연속 디스플레이된 이미지의 제2 배경 장면을 생성한다. 제1 배경 장면 및 제2 배경 장면은 연속 디스플레이된 이미지의 3차원 관찰가능 영역을 제시하기 위해 부분적으로 중첩한다.

[0044] 가요성 PCB(140B)는 우측 템플 부분(110B) 내부에 배치되고, 우측 템플 부분(110B)에 하우징된 하나 이상의 다른 컴포넌트들에 커플링된다. 우측 템플 부분(110B)의 회로 보드들 상에 형성된 것으로 도시되었지만, 우측 가시광 카메라(114B)는 좌측 템플 부분(110A), 템플들(125A-B) 또는 프레임(105)의 회로 보드들 상에 형성될 수 있다.

[0045] 도 2a는 아이웨어 디바이스(100)의 착용자/사용자의 눈 포지션 및 응시 방향을 결정하기 위해 시스템에서 사용하기 위한 프레임(105) 상의 눈 스캐너(113)를 포함하는 아이웨어 디바이스(100)의 예시적인 하드웨어 구성의 배면도이다. 도 2a에 도시된 바와 같이, 아이웨어 디바이스(100)는 사용자가 착용하도록 구성된 형태를 가지며, 이는 도 2a의 예에서 안경이다. 아이웨어 디바이스(100)는 다른 형태들을 취할 수 있고, 다른 타입들의 프레임워크들, 예컨대 헤드기어, 헤드셋 또는 헬멧을 포함할 수 있다.

[0046] 안경 예에서, 아이웨어 디바이스(100)는 사용자의 코에 적응된 브리지(106)를 통해 우측 림(107B)에 연결된 좌측 림(107A)을 포함하는 프레임(105)을 포함한다. 좌측 및 우측 림들(107A-B)은 렌즈 및 시-스루 디스플레이들(180C-D)과 같은 개개의 광학 엘리먼트(180A-B)를 홀딩하는 개개의 애퍼처들(175A-B)을 포함한다. 본원에 사용된 바와 같이, 렌즈라는 용어는 광이 수렴/발산하게 하는 또는 수렴/발산이 거의 또는 전혀 없게 하는 만곡된 및 평탄한 표면들을 갖는 유리 또는 플라스틱의 투명한 또는 반투명한 피스들을 커버하는 것으로 의미된다.

[0047] 2개의 광학 엘리먼트들(180A-B)을 갖는 것으로 도시되었지만, 아이웨어 디바이스(100)는 아이웨어 디바이스(100)의 애플리케이션 또는 의도된 사용자에 따라 단일 광학 엘리먼트와 같은 다른 어레인지먼트들을 포함할 수 있다. 추가로 도시된 바와 같이, 아이웨어 디바이스(100)는 프레임(105)의 좌측 측방향 측면(170A)에 인접한 좌측 템플 부분(110A) 및 프레임(105)의 우측 측방향 측면(170B)에 인접한 우측 템플 부분(110B)을 포함한다. 템플 부분들(110A-B)은 (예시된 바와 같이) 개개의 측면들(170A-B) 상에서 프레임(105)에 통합되거나, 또는 개개의 측면들(170A-B) 상에서 프레임(105)에 부착된 별개의 컴포넌트들로서 구현될 수 있다. 대안적으로, 템플 부분들(110A-B)은 템플들(125A-B) 또는 프레임(105)에 부착된 다른 피스들(미도시)에 통합될 수 있다.

[0048] 도 2a의 예에서, 눈 스캐너(113)는 적외선 방출기(115) 및 적외선 카메라(120)를 포함한다. 가시 광 카메라들은 전형적으로 적외선 광 검출을 차단하는 청색 광 필터를 포함하고, 일례에서, 적외선 카메라(120)는 청색 필터가 제거된 가시광 카메라, 예컨대, 저-분해능 VGA(video graphic array) 카메라(예컨대, 총 0.3 메가픽셀들의 경우 640 x 480 픽셀들)이다. 적외선 방출기(115) 및 적외선 카메라(120)는 프레임(105) 상에 코로케이팅되는데, 예컨대, 둘 모두는 좌측 테두리(107A)의 상부 부분에 연결되는 것으로 도시된다. 프레임(105) 또는 좌측 및 우측 템플 부분들(110A-B) 중 하나 이상은 적외선 방출기(115) 및 적외선 카메라(120)를 포함하는 회로 보드(미도시)를 포함한다. 적외선 방출기(115) 및 적외선 카메라(120)는 예컨대, 납땜에 의해 회로 보드에 연결될 수 있다.

[0049] 적외선 방출기(115) 및 적외선 카메라(120)가 둘 모두가 우측 림(107B) 상에 있거나 프레임(105) 상의 상이한 로케이션들에 있는 배열들, 예컨대 적외선 방출기(115)가 좌측 테두리(107A) 상에 있고 적외선 카메라(120)가 우측 림(107B) 상에 있는 배열들을 포함하여 적외선 방출기(115) 및 적외선 카메라(120)의 다른 배열들이 구현될 수 있다. 다른 예에서, 적외선 방출기(115)는 프레임(105) 상에 있고 적외선 카메라(120)는 템플 부분들(110A-B) 중 하나 상에 있거나 또는 그 반대의 경우도 마찬가지이다. 적외선 방출기(115)는 본질적으로 프레임(105), 좌측 템플 부분(110A) 또는 우측 템플 부분(110B) 상의 어디에나 연결되어 일정 패턴의 적외선 광을 방출할 수 있다. 유사하게, 적외선 카메라(120)는 본질적으로 프레임(105), 좌측 템플 부분(110A) 또는 우측 템플 부분(110B) 상의 어디에서나 연결되어, 적외선 광의 방출 패턴의 적어도 하나의 반사 변형을 캡처할 수 있다.

[0050] 적외선 방출기(115) 및 적외선 카메라(120)는 개개의 눈 포지션 및 응시 방향을 식별하기 위해 눈의 부분적 또는 전체 시야를 갖는 사용자의 눈을 향하여 안쪽을 향하도록 배열된다. 예컨대, 적외선 방출기(115) 및 적외선 카메라(120)는 눈의 바로 전방에, 프레임(105)의 상부 부분에 또는 프레임(105)의 양 단부의 템플 부분들(110A-B)에 포지셔닝된다.

[0051] 도 2b는 다른 아이웨어 디바이스(200)의 예시적인 하드웨어 구성의 배면도이다. 이러한 예시적인 구성에서, 아이웨어 디바이스(200)는 우측 템플(210B)에서 눈 스캐너(213)를 포함하는 것으로 묘사된다. 도시된 바와 같이, 적외선 방출기(215) 및 적외선 카메라(220)는 우측 템플(210B) 상에 코-로케이팅된다. 눈 스캐너(213) 또는 눈 스캐너(213)의 하나 이상의 컴포넌트들은 좌측 템플(210A) 상에 그리고 아이웨어 디바이스(200)의 다른 로케이션들, 예컨대 프레임(105) 상에 로케이팅될 수 있다는 것이 이해되어야 한다. 적외선 방출기(215) 및 적외선 카메라(220)는 도 2a의 적외선 방출기 및 적외선 카메라와 같으나, 눈 스캐너(213)는 도 2a에서 이전에 설명된 것과 상이한 광 파장들에 민감하도록 변경될 수 있다.

[0052] 도 2a와 유사하게, 아이웨어 디바이스(200)는 브리지(106)를 통해 우측 림(107B)에 연결되는 좌측 림(107A)을 포함하는 프레임(105)을 포함하며; 좌측 및 우측 림들(107A-B)은 시-스루 디스플레이(180C-D)를 포함하는 개개의 광학 엘리먼트들(180A-B)을 홀딩하는 개개의 애퍼처들을 포함한다.

[0053] 도 2c 및 도 2d는 2개의 상이한 타입들의 시-스루 이미지 디스플레이들(180C-D)을 포함하는 아이웨어 디바이스(100)의 예시적인 하드웨어 구성들의 배면도들이다. 일례에서, 이들 광학 조립체(180A-B)의 시-스루 이미지 디스플레이들(180C-D)은 통합 이미지 디스플레이를 포함한다. 도 2c에 도시된 바와 같이, 광학 조립체들(180A-B)은 LCD(liquid crystal display), OLED(organic light-emitting diode) 디스플레이, 도파관 디스플레이 또는 임의의 다른 그러한 디스플레이와 같은 임의의 적합한 타입의 적합한 디스플레이 매트릭스(180C-D)를 포함한다. 광학 조립체(180A-B)는 또한 렌즈들, 광학 코팅들, 프리즘들, 거울들, 도파관들, 광학 스트립들, 및 다른 광학 컴포넌트들을 임의의 조합으로 포함할 수 있는 광학 계층 또는 계층들(176)을 포함한다. 광학 계층들(176A-N)은, 적합한 크기 및 구성을 갖고 디스플레이 매트릭스로부터 광을 수신하기 위한 제1 표면 및 사용자의 눈에 광을 방출하기 위한 제2 표면을 포함하는 프리즘을 포함할 수 있다. 광학 계층들(176A-N)의 프리즘은 좌측 및 우측 림들(107A-B)에 형성된 개개의 애퍼처들(175A-B)의 전부 또는 적어도 일부분에 걸쳐 연장되어, 사용자의 눈이 대응하는 좌측 및 우측 림들(107A-B)을 보고 있을 때 사용자가 프리즘의 제2 표면을 보도록 허용한다. 광학 계층들(176A-N)의 프리즘의 제1 표면은 프레임(105)으로부터 위를 향하고, 디스플레이 매트릭스는 디스플레이 매트릭스에 의해 방출된 광자들 및 광이 제1 표면에 충돌하도록 프리즘 위에 놓인다. 프리즘은 광이 프리즘 내에서 굴절되고 광학 계층들(176A-N)의 프리즘의 제2 표면에 의해 사용자의 눈을 향해 지향되도록 하는 크기를 갖고 형상화된다. 이와 관련하여, 광학 계층들(176A-N)의 프리즘의 제2 표면은 눈의 중심을 향해 광을 지향하도록 볼록할 수 있다. 프리즘은 선택적으로 시-스루 이미지 디스플레이들(180C-D)에 의해 투사된 이미지를 확대하도록 하는 크기를 갖고 형상화될 수 있고, 광은 프리즘을 통해 이동하여 제2 표면으로부터 보이는 이미지는 시-스루 이미지 디스플레이들(180C-D)로부터 방출된 이미지보다 하나 이상의 차원들에서 더 크다.

[0054] 다른 예에서, 광학 조립체(180A-B)의 시-스루 이미지 디스플레이들(180C-D)은 도 2d에 도시된 바와같은 투사 이미지 디스플레이를 포함한다. 광학 조립체(180A-B)는 스캐닝 거울 또는 검류계를 사용하는 3색 레이저 프로젝터인 레이저 프로젝터(150)를 포함한다. 동작 동안, 레이저 프로젝터(150)와 같은 광원은 아이웨어 디바이스(100)의 템플들(125A-B) 중 하나에 또는 그 위에 배치된다. 광학 조립체(180A-B)는 광학 조립체(180A-B)의 렌즈의 폭을 가로질러 또는 렌즈의 전면과 후면 사이의 렌즈의 깊이를 가로질러 이격된 하나 이상의 광학 스트립들(155A-N)을 포함한다.

[0055] 레이저 프로젝터(150)에 의해 투사된 광자들이 광학 조립체(180A-B)의 렌즈를 가로질러 이동함에 따라, 광자들은 광학 스트립들(155A-N)과 만난다. 특정 광자가 특정 광학 스트립을 만날 때, 그 광자는 사용자의 눈을 향해 재지향되거나 다음 광학 스트립으로 전달된다. 레이저 프로젝터(150)의 변조 및 광학 스트립들의 변조의 조합은 특정 광자들 또는 광 빔들을 제어할 수 있다. 일례에서, 프로세서는 기계적, 음향적 또는 전자기 신호들을 개시함으로써 광학 스트립들(155A-N)을 제어한다. 2개의 광학 조립체들(180A-B)을 갖는 것으로 도시되었지만, 아이웨어 디바이스(100)는 단일의 또는 3개의 광학 조립체들과 같은 다른 배열들을 포함할 수 있거나, 또는 광학 조립체(180A-B)는 아이웨어 디바이스(100)의 의도된 사용자 또는 애플리케이션에 따라 배열된 상이한 배열을 가질 수 있다.

[0056] 도 2c-d에 추가로 도시된 바와 같이, 아이웨어 디바이스(100)는 프레임(105)의 좌측 측방향 측면(170A)에 인접한 좌측 템플 부분(110A) 및 프레임(105)의 우측 측방향 측면(170B)에 인접한 우측 템플 부분(110B)을 포함한다. 템플 부분들(110A-B)은 (예시된 바와 같이) 개개의 측방향 측면들(170A-B)(예시안됨) 상에서 프레임(105)에 통합되거나, 또는 개개의 측면들(170A-B) 상에서 프레임(105)에 부착된 별개의 컴포넌트들로서 구현될 수 있다. 대안적으로, 템플 부분(110A-B)은 프레임(105)에 부착된 템플들(125A-B)에 통합될 수 있다.

[0057] 일례에서, 시-스루 이미지 디스플레이들은 제1 시-스루 이미지 디스플레이(180C) 및 제2 시-스루 이미지 디스플레이(180D)를 포함한다. 아이웨어 디바이스(100)는 개개의 제1 및 제2 광학 조립체(180A-B)를 홀딩하는 제1 및 제2 애퍼처들(175A-B)을 포함한다. 제1 광학 조립체(180A)는 제1 시-스루 이미지 디스플레이(180C)(예컨대, 도 2c의 디스플레이 매트릭스 또는 광학 스트립들(155A-N') 및 프로젝터(150B))를 포함한다. 제2 광학 조립체(180B)는 제2 시-스루 이미지 디스플레이(180D)(예컨대, 도 2c의 디스플레이 매트릭스 또는 광학 스트립들(155A-N") 및 프로젝터(150A))를 포함한다. 연속적으로 디스플레이되는 이미지의 연속적인 시야는 수평, 수직 또는 대각선 방향으로 측정된 약 15° 내지 30°, 보다 구체적으로는 24°의 시야각을 포함한다. 연속적인 시야를 갖는 연속적으로 디스플레이되는 이미지는 제1 및 제2 이미지 디스플레이들 상에 제시된 2개의 디스플레이된 이미지들을 함께 스티칭함으로써 볼 수 있는 결합된 3차원 관찰 가능 영역을 나타낸다.

[0058] 본원에서 사용되는 바와 같이, "시야각"은 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D) 각각 상에 제시된 디스플레이된 이미지들과 연관된 시야각 범위를 설명한다. "커버리지 각도"는 가시광 카메라들(114A-B) 또는 적외선 카메라(220)의 렌즈가 이미징할 수 있는 각도 범위를 설명한다. 전형적으로, 렌즈에 의해 생성된 이미지 서클은 가능한 경우에 약간의 비네팅(즉, 이미지 중앙에 비해 주변으로 갈수록 이미지의 밝기 또는 채도 감소)을 포함하여 필름 또는 센서를 완전히 커버할 수 있을 만큼 충분히 크다. 렌즈의 커버리지 각도가 센서를 충족시키지 않는 경우, 이미지 서클은 가시적일 것이고, 통상적으로 에지쪽에서 강한 비네팅을 가지며, 뷰의 유효 각도는 커버리지 각도로 제한될 것이다. "시야"는 아이웨어 디바이스(100)의 사용자가 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D) 상에 제시된 디스플레이된 이미지들을 통해 자신의 눈을 통해 볼 수 있는 관찰 가능한 영역의 필드를 설명하는 것으로 의도된다. 광학 조립체(180A-B)의 이미지 디스플레이(180C)는 15° 내지 30°, 예컨대, 24°의 커버리지 각도를 갖는 시야를 가질 수 있으며, 480 x 480 픽셀들의 해상도를 가질 수 있다.

[0059] 도 3은 도 2a의 아이웨어 디바이스의 후면 사시도를 도시한다. 아이웨어 디바이스(100)는 적외선 방출기(215), 적외선 카메라(220), 프레임 전면(330), 프레임 후면 (335) 및 회로 보드(340)를 포함한다. 아이웨어 디바이스(100)의 프레임의 좌측 림의 상부 부분이 프레임 전면(330) 및 프레임 후면(335)을 포함한다는 것을 도 3에서 알 수 있다. 적외선 방출기(215)를 위한 개구는 프레임 후면(335) 상에 형성된다.

[0060] 프레임의 좌측 림의 상부 중앙 부분의 원형 단면(4)에 도시된 바와 같이, 가요성 PCB(340)인 회로 보드는 프레임 전면(330) 및 프레임 후면(335) 사이에 개재된다. 또한 좌측 힌지(126A)를 통해 좌측 템플(325A)에 좌측 템플 부분(110A)을 부착하는 것이 더 상세히 도시된다. 일부 예들에서, 적외선 방출기(215), 가요성 PCB(340), 또는 다른 전기 커넥터들 또는 콘택들을 포함하는 눈 움직임 추적기(213)의 컴포넌트들은 좌측 템플(325A) 또는 좌측 힌지(126A) 상에 로케이팅될 수 있다.

[0061] 도 4는 도 3의 아이웨어 디바이스의 원형 단면(4)에 대응하는 프레임 및 적외선 방출기(215)를 통한 단면도이다. 아이웨어 디바이스(100)의 다수의 계층들이 도 4의 단면에 예시되고, 도시된 바와 같이, 프레임은 프레임 전면(330) 및 프레임 후면(335)을 포함한다. 가요성 PCB(340)는 프레임 전면(330) 상에 배치되고 프레임 후면(335)에 연결된다. 적외선 방출기(215)는 가요성 PCB(340) 상에 배치되고 적외선 방출기 커버 렌즈(445)에 의해 커버된다. 예컨대, 적외선 방출기(215)는 가요성 PCB(340)의 후면으로 리플로우된다. 리플로우는, 가요성 PCB(340)가 2개의 컴포넌트들을 연결하기 위해 솔더 페이스트를 용융시키는 제어된 열을 겪게 함으로써 가요성 PCB(340)의 후면 상에 형성된 접촉 패드(들)에 적외선 방출기(215)를 부착한다. 일례에서, 리플로우는 가요성 PCB (340) 상에 적외선 방출기(215)를 표면 장착하고 2개의 컴포넌트들을 전기적으로 연결하기 위해 사용된다. 그러나, 예컨대, 상호연결부들을 통해 적외선 방출기(215)로부터 가요성 PCB(340)에 리드들을 연결하기 위해 스루-홀들이 사용될 수 있음을 이해해야 한다.

[0062] 프레임 전면(335)은 적외선 방출기 커버 렌즈(445)를 위한 적외선 방출기 개구(450)를 포함한다. 적외선 방출기 개구(450)는 사용자의 눈을 향해 안쪽을 향하도록 구성되는 프레임 후면(335)의 후향 측 상에 형성된다. 이 예에서, 가요성 PCB(340)는 가요성 PCB 접착제(460)를 통해 프레임 전면(330)에 연결될 수 있다. 적외선 방출기 커버 렌즈(445)는 적외선 방출기 커버 렌즈 접착제(455)를 통해 프레임 후면(335)에 연결될 수 있다. 커플링은 또한 개재 컴포넌트들을 통해 간접적일 수 있다.

[0063] 예에서, 프로세서(932)는, 눈 추적기(213)를 활용하여, 도 5에 도시된 바와 같이 착용자의 눈(234)의 눈 응시 방향(230)을 결정하고 그리고 도 6에 도시된 바와 같이 아이박스 내의 착용자의 눈(234)의 눈 포지션(236)을 결정한다. 눈 추적기(213)는 눈(234)으로부터의 적외선 광의 반사 변형들의 캡처된 이미지에 대해 적외선 광 조명(예컨대, 근적외선, 단파장 적외선, 중파장 적외선, 장파장 적외선 또는 원적외선)을 사용하여 눈(234)의 동공(232)의 응시 방향(230)을 결정하고 또한 시-스루 디스플레이(180D)에 대한 눈 포지션(236)을 결정하는 스캐너이다.

[0064] 도 7은 카메라들로 가시광을 캡처하는 예를 도시한다. 가시광은 좌측 가시광 카메라 시야(111A)를 갖는 좌측 가시광 카메라(114A)에 의해 좌측 원시 이미지(758A)로서 캡처된다. 가시광은 우측 가시광 카메라 시야(111B)를 갖는 우측 가시광 카메라(114B)에 의해 우측 원시 이미지(758B)로서 캡처된다. 좌측 원시 이미지(758A) 및 우측 원시 이미지(758B)의 프로세싱에 기반하여, 이미지로서 이후에 지칭되는 3차원 장면의 3차원 깊이 맵(715)이 프로세서(932)에 의해 생성된다.

[0065] 도 8a는 부분 또는 전체 실명을 갖는 아이웨어(100/200)의 사용자들(도 8a, 도 8b 및 도 8c) 및 청각 장애이거나 또는 귀가 먹은 사용자들(도 8d)의 사용자 경험을 개선하기 위해 이미지(715)를 프로세싱하는 카메라-기반 시스템(800)의 예를 예시한다.

[0066] 부분 또는 전체 실명을 보상하기 위해, 카메라-기반 보상(800)은 이미지(715)에서 객체들(802)을 결정하고, 결정된 객체들(802)을 텍스트로 변환한 다음, 텍스트를 이미지에서 객체들(802)을 표시하는 오디오로 변환한다.

[0067] 도 8b는 부분 또는 전체 실명을 가진 아이웨어(100/200)의 사용자들의 사용자 경험을 개선하기 위해 명령들과 같은 사용자의 음성에 응답하는 카메라-기반 보상 시스템(800)의 예를 설명하는 데 사용되는 이미지이다. 부분 또는 전체 실명을 보상하기 위해, 카메라-기반 보상(800)은 레스토랑 메뉴와 같은 이미지(715)의 객체들(802)을 결정하기 위해 아이웨어(100)의 사용자/착용자로부터 수신된 명령들과 같은 음성을 프로세싱하며, 그리고 결정된 객체들(802)을, 음성 커맨드에 응답하여 이미지의 객체들(802)을 표시하는 오디오로 변환한다.

[0068] CNN(convolutional neural network)은 이미지 검출 작업들에 일반적으로 사용되는 특별한 타입의 피드-포워드 인공 신경망(feed-forward artificial neural network)이다. 예에서, 카메라-기반 보상 시스템(800)은 RCNN(region-based convolutional neural network)(945)을 사용한다. RCNN(945)은 좌측 및 우측 카메라들(114A-B)에 의해 생성된 이미지(715)의 객체(802)(도 8a) 및 객체(803)(도 8b)를 표시하는 컨벌루션 특징 맵(804)을 생성하도록 구성된다. 일례에서, 컨벌루션 특징 맵(804)의 관련 텍스트는 텍스트-음성 알고리즘(950)을 사용하여 프로세서(932)에 의해 프로세싱된다. 제2 예에서, 컨벌루션 특징 맵(804)의 이미지들은 음성 명령들에 기반하여 이미지의 객체들을 표시하는 오디오를 생성하기 위해 음성-오디오 알고리즘(952)을 사용하여 프로세서(932)에 의해 프로세싱된다. 프로세서(932)는 이미지(715)의 객체들(802 및 803)을 표시하는 오디오를 생성하도록 구성된 자연 언어 프로세서를 포함한다.

[0069] 예에서, 그리고 도 10과 관련하여 이하에서 더 상세히 논의되는 바와 같이, 좌측 및 우측 카메라들(114A-B)로부터 각각 생성된 이미지(715)는 객체들(802)을 포함하는 것으로 도시되며, 이 예에서는 도 8a에서 말을 타고 있는 카우보이로서 보여진다. 이미지(715)는 이미지(715)에 기반하여 컨벌루션 특징 맵(804)을 생성하는 RCNN(945)에 입력된다. 예시적인 RCNN은 인도 Haryana의 Gurugram에 있는 Analytics Vidhya로부터 입수 가능하다. 컨벌루션 특징 맵(804)으로부터, 프로세서(932)는 컨벌루션 특징 맵(804)에서 제안 영역을 식별하고, 이들을 정사각형들(806)로 변환한다. 정사각형들(806)은 전체 이미지(715)보다 작은 이미지(715)의 서브세트를 나타내며, 이 예에서 도시된 정사각형(806)은 말을 타고 있는 카우보이를 포함한다. 제안 영역은 예컨대 이동하고 있는 인식된 객체들(예컨대, 인간/카우보이, 말 등)일 수 있다.

[0070] 다른 예에서, 도 8b를 참조하면, 사용자는 스피커(132)를 통해 소리내어 읽어질 이미지(715)의 특정 객체들(803)을 요청하기 위해 마이크폰(130)(도 1b)을 사용하여 아이웨어(100/200)에 입력되는 음성을 제공한다. 예에서, 사용자는 일일 디너 특징들 및 일일 스페셜들과 같이 소리내어 읽어질 레스토랑 메뉴의 일부를 요청하기 위해 음성을 제공할 수 있다. RCNN(945)은 음성 요청에 대응하는 객체들(803)을 식별하기 위해 메뉴와 같은 이미지(715)의 부분들을 결정한다. 프로세서(932)는 이미지(715)의 결정된 객체들(803)을 표시하는 오디오를 생성하도록 구성된 자연 언어 프로세서를 포함한다. 프로세서는 착용자가 손으로 들고 있는 메뉴 또는 메뉴의 서브세트(예컨대, 우측 또는 좌측)와 같은 특징들을 식별하기 위해 머리/눈 움직임을 추가로 추적할 수 있다.

[0071] 프로세서(932)는 정사각형들(806)을 균일한 크기로 재형상화하기 위해 관심 영역(ROI: region of interest) 풀링 계층(808)을 사용하며, 이에따라 정사각형들(806)은 완전 연결된 계층(810)에 입력될 수 있다. 소프트맥스 계층(814)은 완전 연결된 계층(812) 및 또한 ROI 특징 벡터(818)로부터 바운딩 박스(bbox) 회귀자(816)에 대한 오프셋 값들에 기반하여 제안된 ROI의 클래스를 예측하는 데 사용된다.

[0072] 컨벌루션 특징 맵(804)의 관련 텍스트는 자연 언어 프로세서(932)를 사용하여 텍스트-음성 변환 알고리즘(950)을 통해 프로세싱되며, 컨벌루션 특징 맵(804)의 텍스트를 표시하는 오디오를 생성하기 위해 디지털 신호 프로세서가 사용된다. 관련 텍스트는 이동 객체들(예컨대, 카우보이 및 말; 도 8a)을 식별하는 텍스트 또는 사용자의 요청과 매칭되는 메뉴(예컨대, 일일 스페셜들의 리스트; 도 8b)의 텍스트일 수 있다. 예시적인 텍스트-음성 변환 알고리즘(950)은 독일 베를린의 DFKI Berlin로부터 입수 가능하다. 오디오는 컨벌루션 신경망을 사용하여 해석되거나 또는 다른 디바이스 또는 시스템으로 오프로드될 수 있다. 오디오는 사용자가 들을 수 있도록 스피커(132)(도 2a)를 사용하여 생성된다.

[0073] 다른 예에서, 도 8c를 참조하면, 아이웨어(100/200)는 분할로 지칭되는 스피커 세그먼트화를 제공한다. 분할은 발화 언어를 상이한 스피커들로 세그먼트화하고 세션 동안 그 스피커를 기억하는 소프트웨어 기법이다. RCNN(945)은 분할을 수행하고 아이웨어(100/200)에 근접하여 말하고 있는 상이한 스피커들을 식별하며, 아이웨어 디스플레이(180A 및 180B) 상에 출력 텍스트를 상이하게 렌더링함으로써 그 스피커들이 누구인지를 표시한다. 예에서, 프로세서(932)는 RCNN(945)에 의해 생성된 텍스트를 프로세싱하고 디스플레이들(180A 및 180B) 상에 텍스트를 디스플레이하기 위해 음성-텍스트 알고리즘(954)을 사용한다. 도 2a에 도시된 마이크로폰(130)은 아이웨어(100/200)에 근접한 하나 이상의 인간 스피커들의 음성을 캡처한다. 아이웨어(100/200) 및 음성 인식의 맥락에서, 디스플레이들(180A 및 180B) 중 하나 또는 둘 모두에 디스플레이되는 정보(830)는 음성으로부터 전사된 텍스트를 표시하며, 아이웨어 사용자가 다수의 스피커들의 전사된 텍스트를 구별할 수 있도록 말하는 사람에 관한 정보를 포함한다. 각각의 사용자의 텍스트(830)는 아이웨어 사용자가 상이한 스피커들의 텍스트(830)를 구별할 수 있도록 상이한 속성을 갖는다. 도 8c는 캡처링 사용자 경험(UX)에서의 예시적인 분할을 도시하며, 여기서 속성은 새로운 스피커가 검출될 때마다 디스플레이된 텍스트에 랜덤하게 할당된 컬러이다. 예컨대, 사람 1과 연관된 디스플레이된 텍스트는 파란색으로 디스플레이되고, 사람 2와 연관된 디스플레이된 텍스트는 녹색으로 디스플레이된다. 다른 예들에서, 속성은 각각의 사람과 연관된 디스플레이된 텍스트(830)의 폰트 타입 또는 폰트 크기이다. 디스플레이들(180A 및 180B) 상에 디스플레이되는 텍스트(830)의 로케이션은 디스플레이(180A 및 180B)를 통한 아이웨어 사용자의 비전이 실질적으로 방해받지 않도록 선택된다.

[0074] 다른 예에서, 도 8d 및 도 8e를 참조하면, 아이웨어(100/200)는 사용자의 수화를 청각 장애/귀가 먹은 사용자에 대한 음성으로 번역하는 것을 제공한다. RCNN(945)은 아이웨어(100/200)의 사용자가 다른 사람이 듣고 이해할 수 있는 음성을 생성하고 대화하는 것을 가능하게 하도록 사용자에 의해 제시된 수화와 같이 카메라들(114A 및 114B)에 의해 이미징되는 손 제스처들(840)을 번역한다. 도 8e는 메모리(934)(도 9)에 저장되는 손 제스처 라이브러리(960)에 저장된 ASL(American Sign Languag)의 손 제스처들과 같은 손 제스처들(840)의 세트(842)를 예시한다. 사용자는 정적 또는 이동 수화를 생성하여 통신할 수 있다. 카메라-기반 보상 시스템(800)은 수화를 포함하는 사용자의 손 제스처들(840)을 검출하여 프로세싱하며, 아이웨어(100/200)의 사용자들의 사용자 경험을 개선하기 위해 수화의 번역인 음성을 스피커(132)(도 1b)를 사용하여 생성한다. 번역은 정적 손 제스처, 이동 손 제스처, 또는 워드, 예컨대 L-O-V-E를 형성하는 일련의 문자들일 수 있다. 카메라-기반 보상(800)은 카메라들(114A 및 114B)을 사용하여 손 제스처들(840)을 포함하여 FOV에서 개개의 카메라 이미지들을 캡처하고 수화를 포함하는 이미지들(715)(도 7)을 생성한다. 이후, 카메라-기반 시스템(800)은 이미지들(715)을 프로세싱을 위해 이미지 프로세서(912) 및 프로세서(932)(도 9)에 포워드한다. 프로세서(932)는 수화를 음성으로 번역하기 위해 수화-음성 알고리즘(956)을 활용한다.

[0075] RCNN(945)은 객체들(802)을 형성하는 수화를 포함하는 검출된 손 제스처들(840)을 표시하는 컨벌루션 특징 맵(804)을 생성하도록 구성된다. 일례에서, 컨벌루션 특징 맵(804)의 객체들(802)을 형성하는 수화의 손 제스처들(840)은 이미지(715)에서 수화의 번역인 음성을 생성하기 위해 수화-음성 알고리즘(956)을 사용하여 프로세서(932)에 의해 프로세싱된다. 프로세서(932)는 매칭을 위해 메모리(934)에 저장된 손 제스처 라이브러리(960)에 저장된 손 제스처들의 세트(842)와 손 제스처들(840)의 검출된 수화를 비교하도록 구성된 자연 언어 프로세서를 포함한다. 검출된 수화가 손 제스처 라이브러리(960)의 손 제스처들 중 하나와 매칭되도록 프로세서(932)에 의해 결정될 때, 프로세서(932)는 수화의 번역인 음성 오디오를 스피커(132)를 사용하여 생성한다.

[0076] 예에서, 도 8e를 참조하면, 정적 손 제스처들의 세트(846) 및 이동 손 제스처들의 세트(848)를 포함하는 손 제스처들의 세트(842)가 예시되어 있다. 도시된 바와 같이, 정적 손 제스처들(846)의 예들은 영어 알파벳, 영어 숫자들 및 844에 도시된 바와 같이 "I love you"를 표시하는 신호들과 같은 복합 손 신호들을 포함할 수 있다. 이동 손 제스처들의 예들은 사용자의 입으로부터 멀어지는 손의 모션인, 854에 도시된 바와같은 그리고 사용자의 이마로부터 멀어지는 손의 모션인, 856에 도시된 바와같은 "thank you"를 포함한다.

[0077] 알고리즘들(950, 952, 954 및 956)은 아이웨어(100/200)의 사용자에 의해 개별적으로 선택 가능하고 프로세서(932)에 의해 실행 가능한 한 세트의 알고리즘들이다. 알고리즘들은 한 번에 하나씩 또는 동시에 실행될 수 있다.

[0078] 도 9는 아이웨어(100/200)에 배치된 예시적인 전자 컴포넌트들을 포함하는 고-레벨 기능 블록도를 묘사한다. 예시된 전자 컴포넌트들은 RCNN(945), 텍스트-음성 알고리즘(950), 음성-오디오 알고리즘(952), 음성-텍스트 알고리즘(954) 및 수화-음성 알고리즘(956)을 실행하는 프로세서(932)를 포함한다.

[0079] 메모리(934)는 전자 프로세서(932)가 RCNN(945), 텍스트-음성 알고리즘(950), 음성-오디오 알고리즘(952), 음성-텍스트 알고리즘(954) 및 수화-음성 알고리즘(956)을 수행하기 위한 명령들(코드)을 포함하여, 아이웨어(100/200)의 기능을 구현하기 위해 전자 프로세서(932)에 의해 실행하기 위한 컴퓨터 판독 가능 코드를 포함하는 명령들을 포함한다. 프로세서(932)는 배터리(미도시)로부터 전력을 수신하고 메모리(934)에 저장되거나 또는 온-칩으로 프로세서(932)와 통합된 명령들을 실행하여, 아이웨어(100/200)의 기능을 수행하고 무선 연결들을 통한 외부 디바이스들과 통신한다.

[0080] 사용자 인터페이스 조절 시스템(900)은 눈 움직임 추적기(213)(예컨대, 도 2b에서 적외선 방출기(215) 및 적외선 카메라(220)로서 도시됨)를 갖는 아이웨어 디바이스(100)인 웨어러블 디바이스를 포함한다. 사용자 인터페이스 조절 시스템(900)은 또한 다양한 네트워크들을 통해 연결된 모바일 디바이스(990) 및 서버 시스템(998)을 포함한다. 모바일 디바이스(990)는 스마트폰, 태블릿, 랩톱 컴퓨터, 액세스 포인트, 또는 저전력 무선 연결(925) 및 고속 무선 연결(937) 둘 모두를 사용하여 아이웨어 디바이스(100)와 연결할 수 있는 임의의 다른 그러한 디바이스일 수 있다. 모바일 디바이스(990)는 서버 시스템(998) 및 네트워크(995)에 연결된다. 네트워크(995)는 유선 및 무선 연결들의 임의의 조합을 포함할 수 있다.

[0081] 아이웨어 디바이스(100)는 적어도 2개의 가시광 카메라들(114A-B)(하나는 좌측 측방향 측면(170A)과 연관되고 하나는 우측 측방향 측면(170B)과 연관됨)을 포함할 수 있다. 아이웨어 디바이스(100)는 광학 조립체(180A-B)의 2개의 시-스루 이미지 디스플레이들(180C-D)(하나는 좌측 측방향 측면(170A)과 연관되고 하나는 우측 측방향 측면(170B)과 연관됨)를 더 포함한다. 이미지 디스플레이들(180C-D)은 본 개시내용에서 선택적이다. 아이웨어 디바이스(100)는 또한 이미지 디스플레이 드라이버(942), 이미지 프로세서(912), 저전력 회로부(920) 및 고속 회로부(930)를 포함한다. 아이웨어 디바이스(100)에 대해 도 9에 도시된 컴포넌트들은 템플들에서, 하나 이상의 회로 보드들, 예컨대, PCB 또는 가요성 PCB 상에 로케이팅된다. 대안적으로 또는 추가적으로, 도시된 컴포넌트들은 아이웨어 디바이스(100)의 템플들, 프레임들, 힌지들 또는 브리지에 로케이팅될 수 있다. 좌측 및 우측 가시광 카메라들(114A-B)은 디지털 카메라 엘리먼트들, 예컨대, CMOS(complementary metal-oxide-semiconductor) 이미지 센서, 전하 결합 디바이스, 렌즈, 또는 미지의 객체들을 갖는 장면들의 이미지들을 포함하는 데이터를 캡처하기 위해 사용될 수 있는 임의의 다른 개개의 가시적 또는 광 캡처 엘리먼트들을 포함할 수 있다.

[0082] 눈 움직임 추적 프로그래밍(945)은 사용자 인터페이스 시야 조절 명령들을 구현하며, 이 명령들은 아이웨어 디바이스(100)가 눈 움직임 추적기(213)를 통해 아이웨어 디바이스(100)의 사용자의 눈의 눈 움직임을 추적하게 하는 명령을 포함한다. 다른 구현된 명령들(기능들)은 아이웨어 디바이스(100)가 연속적인 눈 방향에 대응하는 사용자의 검출된 눈 움직임에 기반하여 초기 디스플레이된 이미지의 초기 시야에 대한 시야 조절을 결정하게 한다. 추가 구현 명령들은 시야 조절에 기반하여 일련의 디스플레이된 이미지들의 연속 디스플레이된 이미지를 생성한다. 연속적인 디스플레이된 이미지는 사용자 인터페이스를 통해 사용자에게 가시적인 출력으로서 생성된다. 이러한 가시적 출력은 광학 어셈블리(180A-B)의 시-스루 이미지 디스플레이들(180C-D) 상에서 나타나며, 이는 이미지 디스플레이 드라이버(934)에 의해 구동되어, 초기 시야를 갖는 초기 디스플레이된 이미지 및 연속적인 시야를 갖는 연속적인 디스플레이된 이미지를 포함하는 일련의 디스플레이된 이미지들을 제시한다.

[0083] 도 9에 도시된 바와 같이, 고속 회로부(930)는 고속 프로세서(932), 메모리(934) 및 고속 무선 회로부(936)를 포함한다. 일례에서, 이미지 디스플레이 드라이버(942)는 고속 회로부(930)에 커플링되며, 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)을 구동시키기 위해 고속 프로세서(932)에 의해 동작된다. 고속 프로세서(932)는 아이웨어 디바이스(100)에 필요한 임의의 일반적인 컴퓨팅 시스템의 동작 및 고속 통신들을 관리할 수 있는 임의의 프로세서일 수 있다. 고속 프로세서(932)는 고속 무선 회로부(936)를 사용하여 WLAN(wireless local area network)으로의 고속 무선 연결부(937) 상에서 고속 데이터 전송들을 관리하는 데 필요한 프로세싱 자원들을 포함한다. 특정 예들에서, 고속 프로세서(932)는 오퍼레이팅 시스템, 이를테면 LINUX 오퍼레이팅 시스템, 또는 아이웨어 디바이스(100)의 다른 그러한 오퍼레이팅 시스템을 실행하고, 오퍼레이팅 시스템은 실행을 위해 메모리(934)에 저장된다. 임의의 다른 책임들에 추가로, 아이웨어 디바이스(100)를 위한 소프트웨어 아키텍처를 실행하는 고속 프로세서(932)는 고속 무선 회로부(936)로 데이터 전송들을 관리하는데 사용된다. 특정 예들에서, 고속 무선 회로부(936)는 본원에서 또한 Wi-Fi로 지칭되는 IEEE(Institute of Electrical and Electronic Engineers) 802.11 통신 표준들을 구현하도록 구성된다. 다른 예들에서, 다른 고속 통신 표준들은 고속 무선 회로부(936)에 의해 구현될 수 있다.

[0084] 아이웨어 디바이스(100)의 저전력 무선 회로부(924) 및 고속 무선 회로부(936)는 단거리 트랜시버들(Bluetooth™) 및 무선 와이드, 로컬 또는 광역 네트워크 트랜시버들(예컨대, 셀룰러 또는 WiFi)을 포함할 수 있다. 저전력 무선 연결(925) 및 고속 무선 연결(937)을 통해 통신하는 트랜시버들을 포함하는 모바일 디바이스(990)는 네트워크(995)의 다른 엘리먼트들과 마찬가지로 아이웨어 디바이스(100)의 아키텍처의 세부사항들을 사용하여 구현될 수 있다.

[0085] 메모리(934)는 특히, 좌측 및 우측 가시광 카메라들(114A-B) 및 이미지 프로세서(912)에 의해 생성된 색 지도들, 카메라 데이터뿐만 아니라 광학 조립체(180A-B)의 시-스루 이미지 디스플레이들(180C-D) 상에서 이미지 디스플레이 드라이버(942)에 의해 디스플레이하기 위해 생성된 이미지들을 포함하는 다양한 데이터 및 애플리케이션들을 저장할 수 있는 임의의 저장 디바이스를 포함한다. 메모리(934)는 고속 회로부(930)와 통합된 것으로 도시되어 있지만, 다른 예들에서, 메모리(934)는 아이웨어 디바이스(100)의 독립적인 스탠드얼론 엘리먼트일 수 있다. 이러한 특정 예들에서, 전기 라우팅 라인들은 고속 프로세서(932)를 포함하는 칩을 통해 이미지 프로세서(912) 또는 저전력 프로세서(922)로부터 메모리(934)로의 연결을 제공할 수 있다. 다른 예들에서, 고속 프로세서(932)는 메모리(934)를 수반하는 판독 또는 기록 동작이 필요할 때마다 저전력 프로세서(922)가 고속 프로세서(932)를 부팅하도록 메모리(934)의 어드레싱을 관리할 수 있다.

[0086] 서버 시스템(998)은 예컨대 고속 무선 회로부(936)를 사용하여, 직접적으로 또는 모바일 디바이스(990)를 사용하여 네트워크(995)를 통해 아이웨어 디바이스(100)와 통신하기 위해 프로세서, 메모리, 및 네트워크 통신 인터페이스를 포함하는 서비스 또는 네트워크 컴퓨팅 시스템의 부분으로서 하나 이상의 컴퓨팅 디바이스들일 수 있다. 아이웨어 디바이스(100)는 호스트 컴퓨터와 연결된다. 일례에서, 아이웨어 디바이스(100)는 모바일 디바이스(990)를 사용하지 않고, 이를테면 셀룰러 네트워크 또는 WiFi를 사용하지 않고 네트워크(995)와 직접적으로 무선으로 통신한다. 다른 예에서, 아이웨어 디바이스(100)는 고속 무선 연결(937)을 통해 모바일 디바이스(990)와 페어링되고 네트워크(995)를 통해 서버 시스템(998)에 연결된다.

[0087] 아이웨어 디바이스(100)의 출력 컴포넌트들은 도 2c-d에 설명된 바와 같은 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)(예컨대, LCD(liquid crystal display), PDP(plasma display panel), LED(light emitting diode) 디스플레이, 프로젝터 또는 도파관과 같은 디스플레이)과 같은 시각적 컴포넌트들을 포함한다. 광학 조립체(180A-B)의 이미지 디스플레이들(180C-D)은 이미지 디스플레이 드라이버(942)에 의해 구동된다. 아이웨어 디바이스(100)의 출력 컴포넌트들은 음향 컴포넌트들(예컨대, 스피커들), 햅틱 컴포넌트들(예컨대, 진동 모터), 다른 신호 생성기들 등을 더 포함한다. 아이웨어 디바이스(100), 모바일 디바이스(990) 및 서버 시스템(998)의 입력 컴포넌트들은 영숫자 입력 컴포넌트들(예컨대, 키보드, 영숫자 입력을 수신하도록 구성된 터치 스크린, 포토-광학 키보드 또는 다른 영숫자 입력 컴포넌트들), 포인트-기반 입력 컴포넌트들(예컨대, 마우스, 터치패드, 트랙볼, 조이스틱, 모션 센서 또는 다른 포인팅 기구들), 촉각 입력 컴포넌트들(예컨대, 물리적 버튼, 터치들 또는 터치 제스처들의 로케이션 및 힘을 제공하는 터치 스크린, 또는 다른 촉각 입력 컴포넌트들), 오디오 입력 컴포넌트들(예컨대, 마이크로폰) 등을 포함할 수 있다.

[0088] 아이웨어 디바이스(100)는 선택적으로 추가적인 주변 디바이스 엘리먼트들(919)을 포함할 수 있다. 이러한 주변 디바이스 엘리먼트들은 아이웨어 디바이스(100)와 통합된 생체 센서들, 추가적인 센서들 또는 디스플레이 엘리먼트들을 포함할 수 있다. 예컨대, 주변 디바이스 엘리먼트들(919)은 출력 컴포넌트들, 모션 컴포넌트들, 포지션 컴포넌트들, 또는 본원에 설명된 임의의 다른 이러한 엘리먼트들을 포함하는 임의의 I/O 컴포넌트들을 포함할 수 있다.

[0089] 예컨대, 사용자 인터페이스 시야 조절 생체 컴포넌트들(900)은 표현들(예컨대, 손 표현들, 얼굴 표현들, 음성 표현들, 신체 제스처들 또는 눈 추적)을 검출하는 것, 생체신호들(예컨대, 혈압, 심박수, 체온, 땀 또는 뇌파)을 측정하는 것, 개인을 식별하는 것(예컨대, 음성 식별, 망막 식별, 얼굴 식별, 지문 식별 또는 뇌전도 기반 식별) 등을 위한 컴포넌트들을 포함한다. 모션 컴포넌트들은 가속 센서 컴포넌트들(예컨대, 가속도계), 중력 센서 컴포넌트들, 회전 센서 컴포넌트들(예컨대, 자이로스코프) 등을 포함한다. 포지션 컴포넌트들은 로케이션 좌표들을 생성하는 로케이션 센서 컴포넌트들(예컨대, GPS(Global Positioning System) 수신기 컴포넌트), 포지셔닝 시스템 좌표들을 생성하는 WiFi 또는 Bluetooth™ 트랜시버들, 고도 센서 컴포넌트들(예컨대, 고도가 유도될 수 있는 공기 압력을 검출하는 고도계들 또는 기압계들), 배향 센서 컴포넌트들(예컨대, 자력계들) 등을 포함한다. 이러한 포지셔닝 시스템 좌표들은 또한 저전력 무선 회로부(924) 또는 고속 무선 회로부(936)를 통해 모바일 디바이스(990)로부터 무선 연결들(925 및 937)을 통해 수신될 수 있다.

[0090] 일부 예들에 따르면, "애플리케이션" 또는 "애플리케이션"은 프로그램들에 정의된 기능들을 실행하는 프로그램(들)이다. 객체-지향 프로그래밍 언어들(예컨대, Objective-C, Java 또는 C++) 또는 절차적 프로그래밍 언어들(예컨대, C 또는 어셈블리 언어)과 같이, 다양한 방식들로 구성된 애플리케이션들 중 하나 이상을 생성하기 위한 다양한 프로그래밍 언어들이 이용될 수 있다. 특정 예에서, 제3자 애플리케이션(예컨대, 특정 플랫폼의 벤더 이외의 엔티티에 의해 ANDROID™ 또는 IOS™ SDK(software development kit)를 사용하여 개발된 애플리케이션)은 모바일 운영 체제, 예컨대, IOS™, ANDROID™, WINDOWS® Phone 또는 다른 모바일 운영 체제들 상에서 실행되는 모바일 소프트웨어일 수 있다. 이러한 예에서, 제3자 애플리케이션은 본원에 설명된 기능을 용이하게 하기 위해 오퍼레이팅 시스템에 의해 제공된 API 콜들을 인보크할 수 있다.

[0091] 도 10은 아이웨어 디바이스(100/200) 및 메모리(934)에 저장된 명령들을 실행하는 고속 프로세서(932)에 의해 수행되는 아이웨어의 다른 컴포넌트들의 동작을 예시하는 흐름도(1000)이다. 연속적으로 발생하는 것으로 도시되어 있지만, 도 10의 블록들은 구현에 따라 재정렬되거나 병렬화될 수 있다.

[0092] 블록들(1002-1010)은 RCCN(945)을 사용하여 수행될 수 있다.

[0093] 블록(1002)에서, 프로세서(932)는 사용자 입력 또는 문맥 데이터 및 이미지 캡처를 대기한다. 제1 예에서, 입력은 좌측 및 우측 카메라들(114A-B) 각각으로부터 생성되고 본 예에서 말을 탄 카우보이로서 도 8a에 도시된 객체들(802)을 포함하는 것으로 도시된 이미지(715)이다. 제2 예에서, 입력은 또한 도 8b에 도시된 아이웨어(100) 전방에 배치된 이미지(715)에서 객체(803)를 판독하기 위한 구두 명령들과 같은, 사용자/착용자로부터 마이크폰(130)을 통한 음성을 포함한다. 이는 일일 특징들과 같은 레스토랑 메뉴 또는 이의 부분을 판독하기 위한 음성을 포함할 수 있다.

[0094] 블록(1004)에서, 프로세서(932)는 이미지(715)를 RCCN(945)을 통과시켜 컨벌루션 특징 맵(804)을 생성한다. 프로세서(932)는 이미지(715)의 이미지 픽셀 어레이에 대해 필터 매트릭스를 사용하는 컨벌루션 계층을 사용하고 컨벌루션 특징 맵(804)을 획득하기 위해 컨벌루션 연산을 수행한다.

[0095] 블록(1006)에서, 프로세서(932)는 ROI 풀링 계층들(808)을 사용하여 컨벌루션 특징 맵(804)의 제안 영역을 정사각형들(806)로 재형상화한다. 프로세서는 얼마나 많은 객체들이 프로세싱되는지를 결정하고 정보 과부하를 피하기 위해 정사각형들(806)의 형상 및 크기를 결정하도록 프로그래밍 가능하다. ROI 풀링 계층(808)은 컨벌루션 신경망들을 사용하는 객체 검출 작업들에 사용되는 연산이다. 예컨대, 제1 예에서 도 8a에 도시된 단일 이미지(715)에서 말을 탄 카우보이(802)를 검출하고, 제2 예에서 도 8b에 도시된 메뉴 정보(803)를 검출한다. ROI 풀링 계층(808)의 목적은 고정 크기 특징 맵들(예컨대, 7×7 유닛들)을 획득하기 위해 비균일 크기들의 입력들에 대해 최대 풀링을 수행하는 것이다.

[0096] 블록(1008)에서, 프로세서(932)는 완전 연결된 계층들(810)을 프로세싱하며, 여기서 소프트맥스 계층(814)은 완전 연결된 계층(812)을 사용하여 제안된 구역들의 클래스 및 바운딩 박스 회귀자(816)를 예측한다. 소프트맥스 계층은 전형적으로 멀티-클래스 분류(예컨대, 객체 인식)를 수행하는, 신경망의 최종 출력 계층이다.

[0097] 블록(1010)에서, 프로세서(932)는 이미지(715)에서 객체들(802 및 803)을 식별하고, 객체들(802 및 803)과 같은 관련 특징들을 선택한다. 프로세서(932)는 정사각형들(806)에서 상이한 클래스들의 객체들(802 및 803), 예컨대 도로의 교통 신호등들 및 교통 신호등들의 컬러를 식별하고 선택하도록 프로그래밍 가능하다. 다른 예에서, 프로세서(932)는 차량들, 기차들 및 비행기들과 같은 이동 객체들을 정사각형(806)에서 식별하여 선택하도록 프로그래밍된다. 또 다른 예에서, 프로세서는 횡단보도들, 경고 표지판들 및 정보 표지판들과 같은 표지판들을 식별하고 선택하도록 프로그래밍된다. 도 8a에 도시된 예에서, 프로세서(932)는 관련 객체들(802)을 카우보이 및 말로서 식별한다. 도 8b에 도시된 예에서, 프로세서는 메뉴 부분들, 예컨대 일일 디너 스페셜들 및 일일 런치 스페셜들과 같은 관련 객체들(803)을 (예컨대, 사용자 명령들에 기반하여) 식별한다.

[0098] 블록(1012)에서, 이미지(715)에서 문자들 및 텍스트를 식별하기 위해 블록들(1002-1010)이 반복된다. 프로세서(932)는 관련 문자들 및 텍스트를 식별한다. 관련 문자들 및 텍스트는 일례로 이들이 이미지(715)의 최소 부분, 예컨대 이미지의 1/1000 이상을 점유하는 경우에 관련성 있는 것으로 결정될 수 있다. 이는 관심이 없는 작은 문자들 및 텍스트의 프로세싱을 제한한다. 관련 객체들, 문자들 및 텍스트는 특징들로서 지칭되며, 모두가 텍스트-음성 알고리즘(950)에 제출된다

[0099] 블록들(1014-1024)은 텍스트-음성 알고리즘(950) 및 음성-오디오 알고리즘(952)에 의해 수행된다. 텍스트-음성 알고리즘(950) 및 음성-오디오 알고리즘(952)은 RCCN(945)으로부터 수신된 관련 객체들(802 및 803), 문자들 및 텍스트들을 프로세싱한다.

[0100] 블록(1014)에서, 프로세서(932)는 사용자 요청 또는 컨텍스트에 따라 관련 정보에 대해 이미지(715)의 텍스트를 파싱한다. 텍스트는 컨벌루션 특징 맵(804)에 의해 생성된다.

[0101] 블록(1016)에서, 프로세서(932)는 약어들 및 숫자들을 확장하기 위해 텍스트를 프리프로세싱한다. 이는 약어들을 텍스트 워드들로 번역하고 숫자들을 텍스트 워드들로 번역하는 것을 포함할 수 있다.

[0102] 블록(1018)에서, 프로세서(932)는 미지의 워드들에 대한 어휘 또는 규칙들을 사용하여 문자소-음소 변환을 수행한다. 문자소는 임의의 주어진 언어의 기록 시스템의 가장 작은 유닛이다. 음소는 주어진 언어의 음성 사운드이다.

[0103] 블록(1020)에서, 프로세서(932)는 지속기간 및 억양에 대한 모델을 적용함으로써 음향 파라미터들을 계산한다. 지속기간은 2개의 이벤트들 사이의 경과 시간량이다. 억양은 워드들을 의의소들(음조로 알려진 개념)로 구별하기 위한 것이 아니라 스피커의 태도들 및 감정들을 표시하는 것과 같은 다양한 다른 기능들을 위해 사용될 때 구두 피치의 변화이다.

[0104] 블록(1022)에서, 프로세서(932)는 음소 스트링으로부터 사운드들을 생성하기 위해 합성기를 통해 음향 파라미터들을 전달한다. 합성기는 프로세서(932)에 의해 실행되는 소프트웨어 기능이다.

[0105] 블록(1024)에서, 프로세서(932)는 문자들 및 텍스트뿐만 아니라 이미지(715)의 객체들(802 및 803)을 포함하는 특징들을 표시하는 스피커(132)를 통해 오디오를 재생한다. 오디오는 적절한 지속기간 및 억양을 가진 하나 이상의 워드들일 수 있다. 워드들에 대한 오디오 사운드들은 미리 기록되며, 메모리(934)에 저장되고 합성되며, 따라서 임의의 워드는 워드의 별개의 브레이크다운에 기반하여 재생될 수 있다. 억양 및 지속기간은 합성의 경우에 특정 워드들에 대해서도 메모리(934)에 저장될 수 있다.

[0106] 도 11은 다수의 스피커들에 의해 생성된 음성의 분할을 수행하고, 아이웨어 디스플레이(180A 및 180B) 상의 각각의 스피커와 연관된 텍스트를 디스플레이하기 위해 프로세서(932)에 의해 실행되는 음성-텍스트 알고리즘(954)을 예시하는 흐름도(1100)이다. 연속적으로 발생하는 것으로 도시되어 있지만, 도 11의 블록들은 구현에 따라 재정렬되거나 병렬화될 수 있다.

[0107] 블록(1102)에서, 프로세서(932)는 RCNN(945)을 사용하여 분할 정보를 획득하기 위해 복수의 스피커들의 구두 언어에 대해 분할을 수행한다. RCNN(945)은 (예컨대, 음성 특성들에 기반하여) 구두 언어를 상이한 스피커들로 세그먼트화하고 세션 동안 개개의 스피커를 기억함으로써 분할을 수행한다. 도 8c에 도시된 바와 같이, RCNN(945)은 텍스트(830)의 하나의 부분이 하나의 스피커의 음성을 나타내고 텍스트(830)의 제2 부분이 제2 스피커의 음성을 나타내도록 구두 언어의 각각의 세그먼트를 개개의 텍스트(830)로 변환한다. 분할을 수행하기 위한 다른 기법들은 캘리포니아주 마운틴 뷰에 위치한 Google, Inc.와 같은 제3 자 제공자로부터 입수 가능한 분할 특징들을 사용하는 것을 포함한다. 분할은 각각의 스피커와 연관된 텍스트를 제공한다.

[0108] 블록(1104)에서, 프로세서(932)는 RCNN(945)으로부터 수신된 분할 정보를 프로세싱하고 각각의 스피커에 대한 텍스트(830)에 적용할 고유 속성을 설정한다. 속성은 텍스트 컬러, 크기, 폰트와 같은 많은 형태들을 취할 수 있다. 속성은 또한 텍스트(830)에 포함될 사용자 아바타들/비트모지들과 같은 강화된 UX를 포함할 수 있다. 예컨대, 특징적으로 남성 보이스는 청색 텍스트 속성을 수신할 것이며, 특징적으로 여성 보이스는 분홍색 텍스트 속성을 수신할 것이며, 그리고 특징적으로 화난 보이스(예컨대, 피치 및 억양에 기반함)는 빨간색 텍스트 속성을 수신할 것이다. 추가적으로, 텍스트(830)의 폰트 크기는 제1 임계치를 초과하는 음성의 데시벨 레벨에 기반하여 폰트 속성을 증가시키며 제2 임계치 미만의 음성의 데시벨 레벨에 기반하여 폰트 속성을 감소시킴으로써 조절될 수 있다.

[0109] 블록(1106)에서, 프로세서(932)는 도 8c에 도시된 바와 같이 디스플레이들(180A 및 180B) 중 하나 또는 둘 모두에서 텍스트(830)를 디스플레이한다. 도 9c에 도시된 바와같이, 텍스트(830)는 디스플레이(180A 및 180B) 상의 상이한 로케이션들에 디스플레이될 수 있고, 디스플레이의 최하부 부분에 걸쳐 디스플레이될 수 있다. 로케이션은 디스플레이(180A 및 180B)를 통한 사용자의 비전이 실질적으로 방해받지 않도록 선택된다.

[0110] 도 12는 아이웨어 디바이스(100/200) 및 메모리(934)에 저장된 명령들을 실행하는 고속 프로세서(932)에 의해 생성된 아이웨어의 다른 컴포넌트들의 동작을 예시하는 흐름도(1200)이다. 도 12는 도 8d에 도시된 바와 같이 수화를 음성으로 번역하는 것을 수행하기 위해 프로세서(932)에 의해 실행되는 수화-음성 알고리즘(956)을 예시한다. 연속적으로 발생하는 것으로 도시되어 있지만, 도 12의 블록들은 구현에 따라 재정렬되거나 병렬화될 수 있다. 연속적으로 발생하는 것으로 도시되어 있지만, 도 12의 블록들은 구현에 따라 재정렬되거나 병렬화될 수 있다.

[0111] 블록들(1202-1210)은 RCCN(945)을 사용하여 수행될 수 있다.

[0112] 블록(1202)에서, 프로세서(932)는 이미지(715)에 캡처된 수화와 같은 손 제스처들을 포함하는 사용자 입력을 대기한다. 제1 예에서, 입력은 좌측 및 우측 카메라들(114A-B) 각각으로부터 생성되고 본 예에서 손 제스처들(840)로서 도 8d에 도시된 객체들(802)을 포함하는 것으로 도시된 이미지(715)이다.

[0113] 블록(1204)에서, 프로세서(932)는 이미지(715)를 RCCN(945)을 통과시켜 컨벌루션 특징 맵(804)을 생성한다. 프로세서(932)는 이미지(715)의 이미지 픽셀 어레이에 대해 필터 매트릭스를 사용하는 컨벌루션 계층을 사용하고 컨벌루션 특징 맵(804)을 획득하기 위해 컨벌루션 연산을 수행한다.

[0114] 블록(1206)에서, 프로세서(932)는 ROI 풀링 계층들(808)을 사용하여 컨벌루션 특징 맵(804)의 제안 영역을 정사각형들(806)로 재형상화한다. 프로세서(932)는 얼마나 많은 객체들이 프로세싱되는지를 결정하고 정보 과부하를 피하기 위해 정사각형들(806)의 형상 및 크기를 결정하도록 프로그래밍 가능하다. ROI 풀링 계층(808)은 컨벌루션 신경망들을 사용하는 객체 검출 작업들에 사용되는 연산이다. 예컨대, 제1 예에서 도 8d에 도시된 단일 이미지(715)에서 손 제스처(840)를 검출한다. ROI 풀링 계층(808)의 목적은 고정 크기 특징 맵들(예컨대, 7×7 유닛들)을 획득하기 위해 비균일 크기들의 입력들에 대해 최대 풀링을 수행하는 것이다.

[0115] 블록(1208)에서, 프로세서(932)는 완전 연결된 계층들(810)을 프로세싱하며, 여기서 소프트맥스 계층(814)은 완전 연결된 계층(812)을 사용하여 제안된 구역들의 클래스 및 바운딩 박스 회귀자(816)를 예측한다. 소프트맥스 계층은 전형적으로 (예컨대, 객체 인식을 위한) 멀티-클래스 분류를 수행하는, 신경망의 최종 출력 계층이다.

[0116] 블록(1210)에서, 프로세서(932)는 이미지(715)에서 손 제스처들(840)을 포함하는 객체들(802)을 식별한다. 프로세서(932)는 정사각형들(806)에서 상이한 클래스들의 객체들(802), 예컨대 정적 손 제스처들(844) 및 이동 손 제스처들(848)을 식별하고 선택하도록 프로그래밍 가능하다.

[0117] 블록(1212)에서, 블록들(1202-1210)은 워드(들)를 형성하는 일련의 이미지들(715)에서 문자들을 포함하는 추가적인 정적 손 제스처들(844), 추가적인 이동 손 제스처들(848), 또는 예컨대 더 큰 숫자들을 생성하기 위한 일련의 손 제스처들에 존재하는 추가적은 숫자들과 같은 추가적인 손 제스처들(840)을 식별하기 위해 반복된다. 관련 손 제스처들(840)은 일례로 이들이 이미지(715)의 최소 부분, 예컨대 이미지의 1/1000 이상을 점유하는 경우에 관련성 있는 것으로 결정될 수 있다. 이는 관심이 없는 더 작은 객체들의 프로세싱을 제한한다. 관련 손 제스처들(840)은 특징들로서 지칭된다. 식별된 손 제스처들(840)은 각각 음성 알고리즘(956)에 대한 손 제스처에 제출된다.

[0118] 블록들(1214-1224)은 손 제스처-음성 알고리즘(956)에 의해 수행된다. 손 제스처-음성 알고리즘(956)은 RCCN(945)으로부터 수신된 식별된 손 제스처들(840)을 프로세싱하고, 이들을 스피커(132)에 의해 생성된 음성으로 번역한다.

[0119] 블록(1214)에서, 프로세서(932)는 사용자 요청 또는 컨텍스트에 따라 관련 정보에 대해 이미지(715)의 손 제스처들(840)을 파싱한다. 이는 객체들(802)을 수화로서 식별하는 것을 포함한다.

[0120] 블록(1216)에서, 프로세서(932)는 식별된 손 제스처들(840)을 손 제스처 라이브러리(960)에 저장된 손 제스처들의 세트(842)와 비교함으로써 손 제스처들을 프로세싱한다. 프로세서는 매칭이 발견될 때 특정 손 제스처(840)를 식별한다.

[0121] 블록(1218)에서, 프로세서(932)는 미지의 워드들에 대한 어휘 또는 규칙들을 사용하여 문자소-음소 변환을 수행한다. 문자소는 임의의 주어진 언어의 기록 시스템의 가장 작은 유닛이다. 음소는 주어진 언어의 음성 사운드이다.

[0122] 블록(1220)에서, 프로세서(932)는 지속기간 및 억양에 대한 모델을 적용함으로써 음향 파라미터들을 계산한다. 지속기간은 2개의 이벤트들 사이의 경과 시간량이다. 억양은 워드들을 의의소들(음조로 알려진 개념)로 구별하기 위한 것이 아니라 스피커의 태도들 및 감정들을 표시하는 것과 같은 다양한 다른 기능들을 위해 사용될 때 구두 피치의 변화이다.

[0123] 블록(1222)에서, 프로세서(932)는 음소 스트링으로부터 사운드들을 생성하기 위해 합성기를 통해 음향 파라미터들을 전달한다. 합성기는 프로세서(932)에 의해 실행되는 소프트웨어 기능이다.

[0124] 블록(1224)에서, 프로세서(932)는 손 제스처(들)(840)를 표시하는 스피커(132)를 통해 음성을 재생한다. 음성은 적절한 지속기간 및 억양을 갖는 하나 이상의 워드들일 수 있다. 워드들에 대한 음성 사운드들은 미리 기록되며, 메모리(934)에 저장되고 합성되며, 따라서 임의의 워드는 워드의 별개의 브레이크다운에 기반하여 재생될 수 있다. 억양 및 지속기간은 합성의 경우에 특정 워드들에 대해서도 메모리(934)에 저장될 수 있다. 음성은 또한 아이웨어(100/200)의 디스플레이(180C 및 180D) 상에 텍스트로서 디스플레이될 수 있다.

[0125] 본원에서 사용된 용어들 및 표현들은, 특정 의미들이 본원에 달리 제시된 경우를 제외하고는 그들 대응하는 개개의 탐구 및 연구 영역들과 관련하여 그러한 용어들 및 표현들에 부여된 바와 같은 일반적인 의미를 갖는다는 것이 이해될 것이다. 관계형 용어들, 이를테면 제1, 제2 등은 단지 하나의 엔티티 또는 동작을 다른 것으로부터 구별하기 위해 사용될 수 있고, 이러한 엔티티들 또는 동작들 간의 임의의 실제 이러한 관계 또는 순서를 반드시 요구하거나 암시하지는 않는다. 용어들 "포함하다", "포함하는", "구비하다" , “구비하는" , 또는 이의 임의의 다른 변형은 비-배타적인 포함을 커버하는 것으로 의도되어, 엘리먼트들 또는 단계들의 리스트를 포함하거나 구비하는 프로세스, 방법, 물품 또는 장치는 그러한 엘리먼트들 또는 단계들만을 구비하는 것이 아니라, 명시적으로 나열되지 않거나 또는 이러한 프로세스, 방법, 물품 또는 장치에 고유한 다른 엘리먼트들 또는 단계들을 구비할 수 있다. 단수형 엘리먼트는, 추가적인 제약들 없이, 엘리먼트를 포함하는 프로세스, 방법, 물품 또는 장치에서 추가적인 동일한 엘리먼트들의 존재를 배제하지 않는다.

[0126] 달리 언급되지 않는 한, 하기 청구항들을 포함하여 본 명세서에 기재된 임의의 그리고 모든 측정치들, 값들, 등급들, 포지션들, 치수들, 크기들 및 다른 규격들은 정확한 것이 아니라 근사치이다. 이러한 수량들은, 이들이 관련되는 기능들 및 이들과 관련된 분야에서 통상적인 것과 일치하는 합리적인 범위를 갖도록 의도된다. 예컨대, 달리 명시적으로 언급되지 않는 한, 파라미터 값 등은 언급된 양으로부터 ± 10 %만큼 많이 달라질 수 있다.

[0127] 더욱이, 전술한 상세한 설명에서, 다양한 특징들은 본 개시내용을 간소화할 목적으로 다양한 예들에서 함께 그룹화된다는 것을 알 수 있다. 본 개시내용의 방법은 청구되는 예들이 각각의 청구항에 명시적으로 언급된 것보다 많은 특징들을 요구하려는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 하기의 청구항들이 반영하는 바와 같이, 보호될 청구대상은 임의의 단일의 개시된 예의 모든 특징들보다 적다. 따라서, 하기의 청구항들은 상세한 설명에 통합되며, 각각의 청구항은 별개로 청구된 청구대상으로서 독자적으로 기재된다.

[0128] 전술한 것은 최상의 모드 및 다른 예들인 것으로 고려되는 것을 설명하지만, 본원에서 다양한 수정들이 이루어질 수 있고 본원에 개시된 청구대상은 다양한 형태들 및 예들로 구현될 수 있으며 이들은 다수의 애플리케이션들에 적용될 수 있고 그 일부만이 본원에서 설명되었음이 이해된다. 이하의 청구항들은 본 개념들의 진정한 범위 내에 있는 임의의 그리고 모든 수정들 및 변경들을 청구하도록 의도된다.

Claims

아이웨어로서,
사용자의 머리에 착용되도록 구성된 프레임;
상기 프레임에 의해 지지되며 손 제스처를 포함하는 이미지를 생성하도록 구성된 카메라; 및
전자 프로세서를 포함하며,
상기 전자 프로세서는,
상기 카메라로부터 상기 손 제스처를 포함하는 이미지를 수신하며;
상기 손 제스처를 수화로서 식별하며; 그리고
상기 식별된 손 제스처를 표시하는 음성을 생성하도록 구성되는, 아이웨어.
제1 항에 있어서,
상기 전자 프로세서는 CNN(convolutional neural network)을 사용하여 상기 손 제스처를 식별하도록 구성되는, 아이웨어.
제1 항에 있어서,
상기 전자 프로세서는 상기 이미지의 손 제스처를 손 제스처들의 세트에 매칭시킴으로써 상기 손 제스처를 식별하도록 구성되는, 아이웨어.
제3 항에 있어서,
메모리를 더 포함하며, 상기 손 제스처들의 세트는 상기 메모리에 저장된 손 제스처들의 라이브러리인, 아이웨어.
제1 항에 있어서,
상기 손 제스처는 정적 손 제스처를 포함하는, 아이웨어.
제5 항에 있어서,
상기 전자 프로세서는 일련의 손 제스처들로부터 워드(word)를 식별하도록 구성되는, 아이웨어.
제1 항에 있어서,
상기 손 제스처는 이동 손 제스처를 포함하는, 아이웨어.
사용자의 머리에 착용되도록 구성된 프레임, 상기 프레임에 의해 지지되고 손 제스처를 포함하는 이미지를 생성하도록 구성된 카메라, 및 전자 프로세서를 갖는 아이웨어를 사용하는 방법으로서,
상기 카메라로부터 상기 손 제스처를 포함하는 이미지를 수신하는 단계;
상기 손 제스처를 수화로서 식별하는 단계; 및
상기 식별된 손 제스처를 표시하는 음성을 생성하는 단계를 포함하는, 방법.
제8 항에 있어서,
상기 전자 프로세서는 CNN(convolutional neural network)을 사용하여 상기 손 제스처를 식별하는, 방법.
제8 항에 있어서,
상기 전자 프로세서는 상기 이미지의 손 제스처를 손 제스처들의 세트에 매칭시킴으로써 상기 손 제스처를 식별하도록 구성되는, 방법.
제10 항에 있어서,
상기 아이웨어는 메모리를 포함하며, 상기 손 제스처들의 세트는 상기 메모리에 저장된 손 제스처들의 라이브러리인, 방법.
제8 항에 있어서,
상기 손 제스처는 정적 손 제스처를 포함하는, 방법.
제12 항에 있어서,
상기 전자 프로세서는 일련의 손 제스처들로부터 워드를 식별하는, 방법.
제8 항에 있어서,
상기 손 제스처는 이동 손 제스처를 포함하는, 방법.
프로그램 코드를 저장한 비-일시적 컴퓨터-판독가능 매체로서, 상기 프로그램 코드는, 사용자의 머리에 착용되도록 구성된 프레임, 상기 프레임에 의해 지지되고 손 제스처를 포함하는 이미지를 생성하도록 구성된 카메라를 갖는 아이웨어의 전자 프로세서에 의해 실행될 때, 상기 전자 프로세서로 하여금,
상기 카메라로부터 상기 손 제스처를 포함하는 이미지를 수신하는 단계;
상기 손 제스처를 수화로서 식별하는 단계; 및
상기 식별된 손 제스처를 표시하는 음성을 생성하는 단계를 수행하게 하도록 동작하는, 비-일시적 컴퓨터-판독가능 매체.
제15 항에 있어서,
상기 프로그램 코드는 상기 전자 프로세서로 하여금 CNN(convolutional neural network)을 사용하여 상기 손 제스처를 식별하게 하도록 동작하는, 비-일시적 컴퓨터-판독가능 매체.
제15 항에 있어서,
상기 프로그램 코드는 상기 전자 프로세서로 하여금 상기 이미지의 손 제스처를 손 제스처들의 세트에 매칭시킴으로써 상기 손 제스처를 식별하게 하도록 동작하는, 비-일시적 컴퓨터-판독가능 매체.
제17 항에 있어서,
상기 아이웨어는 상기 손 제스처들의 세트를 저장한 메모리를 포함하는, 비-일시적 컴퓨터-판독가능 매체.
제15 항에 있어서,
상기 손 제스처는 이동 손 제스처를 포함하는, 비-일시적 컴퓨터-판독가능 매체.
제15 항에 있어서,
상기 프로그램 코드는 상기 전자 프로세서로 하여금 일련의 손 제스처들로부터 워드를 식별하게 하도록 동작하는, 비-일시적 컴퓨터-판독가능 매체.