KR20240051196A

KR20240051196A - 디스플레이 상의 중첩을 위해 음성 신호들을 움직일 수 있는 입술들의 이미지들로 트랜슬레이션하는 안경류

Info

Publication number: KR20240051196A
Application number: KR1020247009413A
Authority: KR
Inventors: 캐슬린 워싱턴 맥마혼
Original assignee: 스냅 인코포레이티드
Priority date: 2021-08-23
Filing date: 2022-07-29
Publication date: 2024-04-19
Also published as: CN117836852A; WO2023027861A1; EP4392968A1; US11955135B2; US20230056847A1

Abstract

안경류를 통해 보이는 사람의 음성 및 발음을 수신하여 트랜슬레이팅한 후, 보이는 사람의 마스크 상의 음성 및 발음들에 대응하는 움직이는 입술의 오버레이를 표시하는 음성 대 움직이는 입술 알고리즘을 갖는 안경류. 텍스트 대 움직이는 입술 정보를 갖는 데이터베이스가 거의 지연 시간 없이 거의 실시간으로 음성을 트랜슬레이팅하고 움직이는 입술을 생성하기 위해 이용된다. 이러한 트랜슬레이션은 청각 장애인/청각이 손상된 사용자들에게 마스크 착용 시 안경류를 통해 보이는 사람과 의사 소통하고 이해하는 능력을 제공한다. 트랜슬레이션은 사운드 인식 엔진으로서 자동 음성 인식(ASR) 및 자연어 이해(NLU)를 포함할 수 있다.

Description

디스플레이 상의 중첩을 위해 음성 신호들을 움직일 수 있는 입술들의 이미지들로 트랜슬레이션하는 안경류

[0001] 본 출원은 2021년 8월 23일자로 출원된 미국 출원 일련번호 제 17/408,820호에 대한 우선권을 주장하며, 그 내용은 본원에 참조로 완전히 통합된다.

[0002] 본 청구대상은 안경류 디바이스, 예를 들어, 스마트 안경에 관한 것이다.

[0003] 오늘날 이용 가능한 스마트 안경, 헤드웨어 및 헤드기어와 같은 휴대용 안경류 디바이스들은 카메라들 및 투시형 디스플레이들을 통합한다. 청력이 완벽하지 않은 사용자들은 이러한 안경류 디바이스들을 사용하는 데 문제들을 가질 수 있다.

[0004] 도면들은 제한의 방식이 아니라 단지 예시의 방식으로 하나 이상의 구현들을 묘사한다. 도면들에서, 동일한 참조 번호들은 동일하거나 유사한 엘리먼트들을 지칭한다.
[0005] 도 1a는 이미지 디스플레이를 갖는 우측 광학 조립체를 도시하는 안경류 디바이스의 예시적인 하드웨어 구성의 측면도이며, 시야 조정들이 사용자에 의해 검출된 머리 또는 눈 움직임에 기초하여 이미지 디스플레이 상에 제시되는 사용자 인터페이스에 적용된다.
[0006] 도 1b는 가시광 카메라, 안경류 디바이스 사용자의 머리 움직임을 추적하기 위한 머리 움직임 추적기 및 회로 기판을 묘사하는 도 1a의 안경류 디바이스의 템플(temple)의 상단 단면도이다.
[0007] 도 2a는 안경류 디바이스의 사용자를 식별하기 위한 시스템에서 사용하기 위해 프레임 상에 눈 스캐너를 포함하는 안경류 디바이스의 예시적인 하드웨어 구성의 후면도이다.
[0008] 도 2b는 안경류 디바이스의 사용자를 식별하기 위한 시스템에서 사용하기 위해 템플 상에 눈 스캐너를 포함하는 다른 안경류 디바이스의 예시적인 하드웨어 구성의 후면도이다.
[0009] 도 2c 및 도 2d는 2 개의 상이한 유형의 이미지 디스플레이들을 포함하는 안경류 디바이스의 예시적인 하드웨어 구성들의 후면도들이다.
[0010] 도 3은 적외선 방출기, 적외선 카메라, 프레임 전면, 프레임 후면 및 회로 기판을 묘사하는 도 2a의 안경류 디바이스의 후방 사시도를 도시한다.
[0011] 도 4는 도 3의 안경류 디바이스의 적외선 방출기와 프레임을 통해 취한 단면도이다.
[0012] 도 5는 시선 방향을 검출하는 것을 예시한다.
[0013] 도 6은 눈 포지션을 검출하는 것을 예시한다.
[0014] 도 7은 좌측 미가공 이미지로서 좌측 가시광 카메라에 의해 캡처된 가시광 그리고 우측 미가공 이미지로서 우측 가시광 카메라에 의해 캡처된 가시광의 예를 묘사한다.
[0015] 도 8a는 카우보이와 같은 이미지의 객체들을 식별하고, 식별된 객체들을 텍스트로 변환한 후, 텍스트를 이미지의 식별된 객체들을 나타내는 오디오로 변환하는 카메라-기반 보상 시스템을 예시한다.
[0016] 도 8b는 처리되어 사용자에게 소리내어 판독되도록 음성을 통해 명령될 수 있는 섹션들을 갖는 레스토랑 메뉴와 같은 이미지를 예시한다.
[0017] 도 8c는 마스크를 착용한 동안 말하고 있는 사람을 보는 청각 장애인/청각이 손상된 안경류 사용자의 예를 예시한다.
[0018] 도 8d는 화자의 마스크 상체 중첩된 움직이는 입술로서 트랜슬레이팅(translating)되어 표시되는 화자의 음성과 발음들을 예시한다.
[0019] 도 9는 안경류 디바이스의 전자 컴포넌트들의 블록도를 예시한다.
[0020] 도 10은 안경류 디바이스의 동작의 흐름도이다.
[0021] 도 11은 안경류를 통해 보이는 화자의 마스크 상에 중첩되는 움직이는 입술로 음성을 트랜슬레이팅하는 안경류 디바이스의 동작의 흐름도이다.

[0022] 본 개시는 안경류를 통해 보이는 사람의 음성 및 발음들을 수신하여 트랜슬레이팅한 후, 보이는 사람의 마스크 상의 음성 및 발음들에 대응하는 움직이는 입술의 오버레이를 표시하는 음성 대 움직이는 입술 알고리즘을 갖는 안경류의 예들을 포함한다. 테스트 대 움직이는 입술 정보를 갖는 데이터베이스가 거의 지연 시간 없이 거의 실시간으로 음성을 트랜슬레이팅하고 움직이는 입술을 생성하기 위해 이용된다. 이러한 트랜슬레이션은 청각 장애인/청각이 손상된 사용자들에게 마스크 착용 시 안경류를 통해 보이는 사람과 의사 소통하고 이해하는 능력을 제공한다. 트랜슬레이션은 사운드 인식 엔진으로서 자동 음성 인식(ASR: automatic speech recognition) 및 자연어 이해(NLU: natural language understanding)를 포함할 수 있다.

[0023] 예들의 추가적인 목적들, 이점들 및 신규한 특징들은 부분적으로는 다음의 설명에서 제시될 것이며, 부분적으로는 이하의 첨부 도면을 검토함으로써 본 기술 분야의 통상의 기술자에게 명백해지거나 예들의 생성 또는 동작에 의해 학습될 수 있다. 본 주제의 목적들 및 이점들은 첨부된 청구항들에서 특히 지적된 방법들, 수단들 및 조합들에 의해 실현되고 달성될 수 있다.

[0024] 다음의 상세한 설명에서, 관련 교시들에 대한 철저한 이해를 제공하기 위해 다수의 특정 상세 사항들이 예시의 방식으로 제시된다. 그러나, 본 교시들이 이러한 상세 사항 없이도 실시될 수 있다는 것은 본 기술 분야의 통상의 기술자에게 명백할 것이다. 다른 경우들에 있어서, 공지의 방법들, 절차들, 컴포넌트들 및 회로는 본 교시들의 양태들을 불필요하게 모호하게 하는 것을 피하기 위해 상세 사항 없이 상대적으로 높은 레벨에서 설명되었다.

[0025] 본원에서 사용되는 "커플링된(coupled)"이라는 용어는 하나의 시스템 엘리먼트에 의해 생성되거나 공급되는 신호들 또는 광이 다른 커플링된 엘리먼트에 전달되는 임의의 논리적, 광학적, 물리적 또는 전기적 연결, 링크 등을 지칭한다. 달리 설명하지 않는 한, 커플링된 엘리먼트들 또는 디바이스들은 반드시 서로 직접 연결될 필요는 없으며, 광 또는 신호들을 수정, 조작 또는 운반할 수 있는 중간 컴포넌트들, 엘리먼트들 또는 통신 매체에 의해 분리될 수 있다.

[0026] 임의의 도면들에 도시된 바와 같은 안경류 디바이스, 연관된 컴포넌트들 및 눈 스캐너와 카메라를 통합한 임의의 완전한 디바이스들의 배향들은 예시 및 논의의 목적으로 단지 예시의 방식으로 제공된다. 특정 가변 광학 프로세싱 애플리케이션을 위한 동작에서, 안경류 디바이스는 안경류 디바이스의 특정 애플리케이션에 적합한 임의의 다른 방향, 예를 들어, 위, 아래, 옆 또는 임의의 다른 배향으로 배향될 수 있다. 또한, 본원에서 사용되는 범위에서, 앞, 뒤, 안쪽, 바깥쪽, 앞쪽, 좌측, 우측, 횡방향, 길이 방향, 위쪽, 아래쪽, 상위, 하위, 상단, 바닥 및 측면과 같은 임의의 방향 용어는 단지 예시의 방식으로 사용되며, 본원에 설명된 다르게 구성된 광학기 중 임의의 광학기 또는 컴포넌트의 방향 또는 배향에 대해 제한적이지 않다.

[0027] 이제 첨부 도면에 예시되고 아래에 논의되는 예들을 상세히 참조한다.

[0028] 도 1a는 이미지 디스플레이(180D)(도 2a)를 갖는 우측 광학 조립체(180B)를 포함하는 안경류 디바이스(100)의 예시적인 하드웨어 구성의 측면도이다. 안경류 디바이스(100)는 스테레오 카메라를 형성하는 복수의 가시광 카메라들(114A-B)(도 7)을 포함하며, 그 중 우측 가시광 카메라(114B)는 우측 템플(110B) 상에 위치된다.

[0029] 좌측 및 우측 가시광 카메라들(114A-B)은 가시광 범위 파장에 민감한 이미지 센서를 갖는다. 가시광 카메라들(114A-B)의 각각은 상이한 전방을 향하는 커버리지 각도를 가질 수 있으며, 예를 들어, 가시광 카메라(114B)는 묘사된 커버리지 각도(111B)를 갖는다. 커버리지 각도는 가시광 카메라(114A-B)의 이미지 센서가 전자기 방사를 포착하여 이미지들을 생성하는 각도 범위이다. 이러한 가시광 카메라(114A-B)의 예들은 640p(예를 들어, 총 0.3 메가픽셀들에 대해 640 x 480 픽셀들), 720p 또는 1080p와 같은 고해상도 상보형 금속-산화물-반도체(CMOS: complementary metal-oxide-semiconductor) 이미지 센서 및 비디오 그래픽 어레이(VGA: video graphic array) 카메라를 포함한다. 가시광 카메라들(114A-B)로부터의 이미지 센서 데이터는 지오로케이션(geolocation) 데이터와 함께 캡처되고, 이미지 프로세서에 의해 디지털화되어 메모리에 저장된다.

[0030] 스테레오스코픽 비전(stereoscopic vision)을 제공하기 위해, 가시광 카메라들(114A-B)은 장면의 이미지가 캡처되는 타임스탬프와 함께 디지털 프로세싱을 위한 이미지 프로세서(도 9의 엘리먼트(912))에 커플링될 수 있다. 이미지 프로세서(912)는 가시광 카메라(114A-B)로부터 신호들을 수신하고 가시광 카메라들(114A-B)로부터의 이러한 신호들을 메모리(도 9의 엘리먼트(934))에 저장하기에 적합한 포맷으로 프로세싱하는 회로를 포함한다. 타임스탬프가 가시광 카메라들(114A-B)의 동작을 제어하는 이미지 프로세서(912) 또는 다른 프로세서에 의해 추가될 수 있다. 가시광 카메라들(114A-B)은 스테레오 카메라가 인간의 양안 비전을 시뮬레이팅할 수 있게 한다. 스테레오 카메라는 각각 동일한 타임스탬프를 갖는 가시광 카메라들(114A-B)로부터 캡처된 2 개의 이미지들(예를 들어, 도 7의 엘리먼트들(758A-B))에 기초하여 3차원 이미지들(예를 들어, 도 7의 엘리먼트(715))을 재현하는 능력을 제공한다. 이러한 3차원 이미지들(715)은 예를 들어, 가상 현실이나 비디오 게임에 대한 실감나는 몰입형 경험을 허용한다. 스테레오스코픽 비전의 경우, 이미지들의 쌍(758A-B)이 주어진 순간에 생성되며, 즉, 좌측 및 우측 가시광 카메라들(114A-B)의 각각에 대한 하나의 이미지가 생성될 수 있다. 좌측 및 우측 가시광 카메라들(114A-B)의 전방을 향한 커버리지 각도(111A-B)로부터 생성된 이미지들의 쌍(758A-B)이 (예를 들어, 이미지 프로세서(912)에 의해) 함께 스티칭(stitching)될 때, 깊이 지각(depth perception)이 광학 조립체(180A-B)에 의해 제공된다.

[0031] 일 예에서, 뷰 조정 시스템의 사용자 인터페이스 필드는 안경류 디바이스(100)를 포함한다. 안경류 디바이스(100)는 프레임(105), 프레임(105)의 우측 횡방향 측면(170B)으로부터 연장되는 우측 템플(110B) 및 사용자에게 그래픽 사용자 인터페이스를 제시하기 위한 광학 조립체(180B)를 포함하는 투시형 이미지 디스플레이(180D)(도 2a 및 도 2b)를 포함한다. 안경류 디바이스(100)는 장면의 제1 이미지를 캡처하기 위해 프레임(105) 또는 좌측 템플(110A)에 연결된 좌측 가시광 카메라(114A)를 포함한다. 안경류 디바이스(100)는 제1 이미지와 부분적으로 중첩되는 장면의 제2 이미지를 (예를 들어, 좌측 가시광 카메라(114A)와 동시에) 캡처하기 위해 프레임(105) 또는 우측 템플(110B)에 연결된 우측 가시광 카메라(114B)를 추가로 포함한다. 도 1a 및 도 1b에 도시되지는 않았지만, 사용자 인터페이스 시야 조정 시스템은 예를 들어, 안경류 디바이스(100) 자체 또는 사용자 인터페이스 시야 조정 시스템의 다른 부분에서 안경류 디바이스(100)에 커플링되고 가시광 카메라들(114A-B)에 연결된 프로세서(932), 프로세서(932)에 액세스 가능한 메모리(934) 및 메모리(934)의 프로그래밍을 추가로 포함한다.

[0032] 도 1a에 도시되지는 않았지만, 안경류 디바이스(100)는 또한 머리 움직임 추적기(도 1b의 엘리먼트(109)) 또는 눈 움직임 추적기(도 2a의 엘리먼트(213))를 포함한다. 안경류 디바이스(100)는 표시된 이미지들의 시퀀스를 제시하기 위한 광학 조립체(180A-B)의 투시형 이미지 디스플레이들(180C-D) 및 이하에 추가로 상세히 설명되는, 표시된 이미지들(715)의 시퀀스를 제시하기 위해 광학 조립체(180A-B)의 이미지 디스플레이들(180C-D)을 제어하기 위해 광학 조립체(180A-B)의 투시형 이미지 디스플레이들(180C-D)에 커플링된 이미지 디스플레이 드라이버(도 9의 엘리먼트(942))를 추가로 포함한다. 안경류 디바이스(100)는 메모리(934) 및 이미지 디스플레이 드라이버(942)와 메모리(934)에 대한 액세스를 갖는 프로세서(932)를 추가로 포함한다. 안경류 디바이스(100)는 메모리에 프로그래밍(도 9의 엘리먼트(934))을 추가로 포함한다. 프로세서(932)에 의한 프로그래밍의 실행은 투시형 이미지 디스플레이들(180C-D)을 통해 표시된 이미지들의 시퀀스의 초기 표시된 이미지를 제시하는 기능들을 포함하는 기능들을 수행하도록 안경류 디바이스(100)를 구성하며, 초기 표시된 이미지는 초기 머리 방향 또는 초기 시선 방향(도 5의 엘리먼트(230))에 대응하는 초기 시야를 갖는다.

[0033] 프로세서(932)에 의한 프로그래밍의 실행은 (i) 머리 움직임 추적기(도 1b의 엘리먼트(109))를 통해 사용자 머리의 머리 움직임을 추적하거나 (ii) 눈 움직임 추적기(도 2b 및 도 5의 엘리먼트(213))를 통해 안경류 디바이스(100)의 사용자의 눈의 눈 움직임을 추적함으로써 안경류 디바이스(100)의 사용자의 움직임을 검출하도록 안경류 디바이스(100)를 추가로 구성한다. 프로세서(932)에 의한 프로그래밍의 실행은 검출된 사용자의 움직임에 기초하여 초기 표시된 이미지의 초기 시야에 대한 시야 조정을 결정하도록 안경류 디바이스(100)를 추가로 구성한다. 시야 조정은 연속적인 머리 방향 또는 연속적인 눈 방향에 대응하는 연속적인 시야를 포함한다. 프로세서(932)에 의한 프로그래밍의 실행은 시야 조정에 기초하여 표시된 이미지들의 시퀀스의 연속적인 표시 이미지를 생성하도록 안경류 디바이스(100)를 추가로 구성한다. 프로세서(932)에 의한 프로그래밍의 실행은 광학 조립체(180A-B)의 투시형 이미지 디스플레이(180C-D)를 통해 연속적으로 표시된 이미지들을 제시하도록 안경류 디바이스(100)를 추가로 구성한다.

[0034] 도 1b는 우측 가시광 카메라(114B), 머리 움직임 추적기(109) 및 회로 기판을 묘사하는 도 1a의 안경류 디바이스(100)의 템플의 상단 단면도이다. 좌측 가시광 카메라(114A)의 구성 및 배치는 연결들 및 커플링이 좌측 횡방향 측면(170A) 상에 있다는 점을 제외하면 우측 가시광 카메라(114B)와 실질적으로 유사하다. 도시된 바와 같이, 안경류 디바이스(100)는 우측 가시광 카메라(114B) 및 연성 인쇄 회로 기판(PCB: printed circuit board)(140)일 수 있는 회로 기판을 포함한다. 우측 힌지(hinge)(126B)가 우측 템플(110B)을 안경류 디바이스(100)의 우측 템플 아암(arm)(125B)에 연결한다. 일부 예들에서, 우측 가시광 카메라(114B), 연성 PCB(140) 또는 다른 전기 커넥터들 또는 접점들의 컴포넌트들은 우측 템플 아암(125B) 또는 우측 힌지(126B) 상에 위치될 수 있다.

[0035] 도시된 바와 같이, 안경류 디바이스(100)는 예를 들어, 관성 측정 유닛(IMU: inertial measurement unit)을 포함하는 머리 움직임 추적기(109)를 갖는다. 관성 측정 유닛은 가속도계들과 자이로스코프들, 때로는 또한 자력계들의 조합을 사용하여 신체의 특정 힘, 각속도 및 때로는 신체를 둘러싸는 자기장을 측정하고 보고하는 전자 디바이스이다. 관성 측정 유닛은 하나 이상의 가속도계들을 사용하여 선형 가속도를 검출하고 하나 이상의 자이로스코프들을 사용하여 회전 속도를 검출함으로써 작동한다. 관성 측정 유닛들의 통상적인 구성들은 좌측-우측 움직임에 대한 수평 축(X), 상단-바닥 움직임에 대한 수직 축(Y) 및 상하 움직임에 대한 깊이 또는 거리 축(Z)의 3 개의 축들 각각에 대해 축당 하나의 가속도계, 자이로 및 자력계를 포함한다. 가속도계는 중력 벡터를 검출한다. 자력계는 방향 기준을 생성하는 나침반과 같이 자기장의 회전(예를 들어, 남쪽, 북쪽 등을 향함)을 정의한다. 지면, 안경류 디바이스(100) 또는 안경류 디바이스(100)를 착용한 사용자에 대해 정의될 수 있는 위에서 정의된 수평, 수직 및 깊이 축을 따라 가속도를 검출할 3 개의 가속도계들.

[0036] 안경류 디바이스(100)는 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적함으로써 안경류 디바이스(100)의 사용자의 움직임을 검출한다. 머리 움직임은 이미지 디스플레이 상에 초기에 표시된 이미지의 프리젠테이션 동안 초기 머리 방향으로부터 수평 축, 수직 축 또는 이들의 조합에 대한 머리 방향의 변화를 포함한다. 일 예에서, 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것은 관성 측정 유닛(109)을 통해 수평 축(예를 들어, X 축), 수직 축(예를 들어, Y 축) 또는 이들의 조합(예를 들어, 횡단 또는 대각선 움직임)에 대한 초기 머리 방향을 측정하는 것을 포함한다. 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것은 관성 측정 유닛(109)을 통해 초기 표시 이미지의 프리젠테이션 중에 수평 축, 수직 축 또는 이들의 조합에 대한 연속적인 머리 방향을 측정하는 것을 추가로 포함한다.

[0037] 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것은 초기 머리 방향 및 연속적인 머리 방향 모두에 기초하여 머리 방향의 변화를 결정하는 것을 추가로 포함한다. 안경류 디바이스(100)의 사용자의 움직임을 검출하는 것은 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것에 응답하여 머리 방향의 변화가 수평 축, 수직 축 또는 이들의 조합에 대한 편향각 임계값을 초과하는 것으로 결정하는 것을 추가로 포함한다. 편향각 임계값은 약 3°내지 10°이다. 본원에 사용되는 바와 같이, 각도를 지칭할 때 "약"이라는 용어는 언급된 수량으로부터 ±10%를 의미한다.

[0038] 수평 축을 따른 변화는 예를 들어, 3차원 객체의 숨기기, 숨기기 해제 또는 다른 가시성 조정에 의해, 문자들, 비트모지(Bitmoji)들, 애플리케이션 아이콘들 등과 같은 3차원 객체들을 시야 안팎으로 슬라이딩한다. 예를 들어, 사용자가 위쪽을 바라볼 때 수직 축을 따른 변화는 일 예에서 날씨 정보, 시간, 날짜, 캘린더 약속 등을 표시한다. 다른 예에서, 사용자가 수직 축에 대해 아래쪽을 바라볼 때, 안경류 디바이스(100)는 전원이 꺼질 수 있다.

[0039] 우측 템플(110B)은 템플 몸체(211)와 템플 캡(cap)을 포함하며, 도 1b의 단면에서는 템플 캡이 생략되어 있다. 우측 템플(110B) 내부에는 우측 가시광 카메라(114B)에 대한 제어기 회로들, 마이크로폰(들)(130), 스피커(들)(132), 저전력 무선 회로(예를 들어, Bluetooth^TM을 통한 무선 단거리 네트워크 통신용) 및 고속 무선 회로(예를 들어, WiFi를 통한 무선 근거리 네트워크 통신용)를 포함하는 PCB들 또는 연성 PCB들과 같은 다양한 상호 연결된 회로 기판들이 배치된다.

[0040] 우측 가시광 카메라(114B)는 연성 PCB(140)에 커플링되거나 배치되고 우측 템플(110B)에 형성된 개구(들)를 통해 조준되는 가시광 카메라 커버 렌즈에 의해 커버된다. 일부 예들에서, 우측 템플(110B)에 연결된 프레임(105)은 가시광 카메라 커버 렌즈용 개구(들)를 포함한다. 프레임(105)은 사용자의 눈으로부터 멀어지는 바깥쪽을 향하도록 구성된 전방을 향하는 측면을 포함한다. 가시광 카메라 커버 렌즈용 개구는 전방을 향하는 측면 상에 그리고 이를 통해 형성된다. 해당 예에서, 우측 가시광 카메라(114B)는 안경류 디바이스(100)의 사용자의 우측 눈의 시선 또는 원근과 함께 바깥쪽을 향하는 커버리지 각도(111B)를 갖는다. 가시광 카메라 커버 렌즈는 또한 개구가 바깥쪽을 향한 커버리지 각도로 형성되지만 상이한 바깥쪽 방향인 우측 템플(110B)의 바깥쪽을 향한 표면에 부착될 수 있다. 커플링은 또한 중간 컴포넌트들을 통해 간접적으로 이루어질 수 있다.

[0041] 좌측(제1) 가시광 카메라(114A)는 좌측 광학 조립체(180A)의 좌측 투시형 이미지 디스플레이(180C)에 연결되어 제1 연속 표시 이미지의 제1 배경 장면을 생성한다. 우측(제2) 가시광 카메라(114B)는 우측 광학 조립체(180B)의 우측 투시형 이미지 디스플레이(180D)에 연결되어 제2 연속 표시 이미지의 제2 배경 장면을 생성한다. 제1 배경 장면과 제2 배경 장면은 연속 표시 이미지의 3차원 관찰 가능 영역을 제시하기 위해 부분적으로 중첩된다.

[0042] 연성 PCB(140)는 우측 템플(110B) 내부에 배치되고, 우측 템플(110B)에 하우징된 하나 이상의 다른 컴포넌트들에 커플링된다. 우측 템플(110B)의 회로 기판들 상에 형성되는 것으로 도시되어 있지만, 우측 가시광 카메라(114B)는 좌측 템플(110A), 템플 아암들(125A-B) 또는 프레임(105)의 회로 기판들 상에 형성될 수 있다.

[0043] 도 2a는 안경류 디바이스(100)의 착용자/사용자의 눈 포지션 및 시선 방향을 결정하기 위해 시스템에서 사용하기 위한 프레임(105) 상의 눈 스캐너(113)를 포함하는 안경류 디바이스(100)의 예시적인 하드웨어 구성의 후면도이다. 도 2a에 도시된 바와 같이, 안경류 디바이스(100)는 사용자가 착용하도록 구성된 형태이며, 도 2a의 예에서는 안경이다. 안경류 디바이스(100)는 다른 형태를 취할 수 있으며, 예를 들어, 헤드기어, 헤드셋 또는 헬멧과 같은 다른 유형의 프레임워크들을 통합할 수 있다.

[0044] 안경의 예에서, 안경류 디바이스(100)는 사용자의 코에 적응된 브릿지(106)를 통해 우측 림(rim)(107B)에 연결된 좌측 림(107A)을 포함하는 프레임(105)을 포함한다. 좌측 및 우측 림들(107A-B)은 렌즈 및 투시형 디스플레이들(180C-D)과 같은 개개의 광학 엘리먼트(180A-B)를 유지하는 개개의 애퍼처(aperture)들(175A-B)을 포함한다. 본원에서 사용되는 바와 같이, 렌즈라는 용어는 광이 수렴/발산하게 하거나 수렴/발산을 거의 또는 전혀 유발하지 않는 곡선의 표면 및 편평한 표면을 갖는 투명 또는 반투명 유리 또는 플라스틱 조각들을 포함하도록 의도된다.

[0045] 2 개의 광학 엘리먼트들(180A-B)을 갖는 것으로 도시되어 있지만, 안경류 디바이스(100)는 안경류 디바이스(100)의 애플리케이션 또는 의도된 사용자에 따라 단일 광학 엘리먼트와 같은 다른 배열을 포함할 수 있다. 추가로 도시된 바와 같이, 안경류 디바이스(100)는 프레임(105)의 좌측 횡방향 측면(170A)에 인접한 좌측 템플(110A) 및 프레임(105)의 우측 횡방향 측면(170B)에 인접한 우측 템플(110B)을 포함한다. 템플들(110A-B)은 (예시된 바와 같이) 개개의 측면들(170A) 상의 프레임(105)에 통합될 수 있거나 개개의 측면들(170A-B) 상의 프레임(105)에 부착된 별도의 컴포넌트들로서 구현될 수 있다. 대안적으로, 템플들(110A-B)은 프레임(105)에 부착된 템플들(미도시)에 통합될 수 있다.

[0046] 도 2a의 예에서, 눈 스캐너(113)는 적외선 방출기(115) 및 적외선 카메라(120)를 포함한다. 가시광 카메라들은 통상적으로 적외광 검출을 차단하기 위해 청색광 필터를 포함하고, 일 예에서, 적외선 카메라(120)는 청색 필터가 제거된 저해상도 비디오 그래픽 어레이(VGA) 카메라(예를 들어, 총 0.3 메가픽셀들에 대해 640 x 480 픽셀들)와 같은 가시광 카메라이다. 적외선 방출기(115) 및 적외선 카메라(120)는 프레임(105) 상에 동일 위치에 있으며, 예를 들어, 둘 모두 좌측 림(107A)의 상위 부분에 연결된 것으로 도시된다. 프레임(105) 또는 좌측 및 우측 템플들(110A-B) 중 하나 이상은 적외선 방출기(115) 및 적외선 카메라(120)를 포함하는 회로 기판(미도시)을 포함한다. 적외선 방출기(115) 및 적외선 카메라(120)는 예를 들어, 납땜에 의해 회로 기판에 연결될 수 있다.

[0047] 적외선 방출기(115)와 적외선 카메라(120)가 모두 우측 림(107B) 상에 있거나 프레임(105)의 상이한 위치들에 있는 배열들을 포함하여 적외선 방출기(115)와 적외선 카메라(120)의 다른 배열들이 구현될 수 있으며, 예를 들어, 적외선 방출기(115)는 좌측 림(107A) 상에 있고, 적외선 카메라(120)는 우측 림(107B) 상에 있다. 다른 예에서, 적외선 방출기(115)는 프레임(105) 상에 있고, 적외선 카메라(120)는 템플들(110A-B) 중 하나 상에 있으며, 그 반대일 수도 있다. 적외선 방출기(115)는 본질적으로 프레임(105), 좌측 템플(110A) 또는 우측 템플(110B) 상의 어느 곳에나 연결되어 적외광의 패턴을 방출할 수 있다. 유사하게, 적외선 카메라(120)는 본질적으로 프레임(105), 좌측 템플(110A) 또는 우측 템플(110B) 상의 어느 곳에나 연결되어 적외광의 방출된 패턴에서 적어도 하나의 반사 변화를 캡처할 수 있다.

[0048] 적외선 방출기(115)와 적외선 카메라(120)는 개개의 눈 포지션과 시선 방향을 식별하기 위해 눈의 부분적 또는 전체 시야로 사용자의 눈을 향해 안쪽을 향하도록 배열된다. 예를 들어, 적외선 방출기(115) 및 적외선 카메라(120)는 눈 바로 앞에, 프레임(105)의 상위 부분에 또는 프레임(105)의 양쪽 단부들에 있는 템플들(110A-B)에 포지셔닝된다.

[0049] 도 2b는 다른 안경류 디바이스(200)의 예시적인 하드웨어 구성의 후면도이다. 이러한 예시적인 구성에서, 안경류 디바이스(200)는 우측 템플(210B) 상의 눈 스캐너(213)를 포함하는 것으로 묘사된다. 도시된 바와 같이, 적외선 방출기(215)와 적외선 카메라(220)는 우측 템플(210B) 상에 함께 위치된다. 눈 스캐너(213) 또는 눈 스캐너(213)의 하나 이상의 컴포넌트들은 좌측 템플(210A) 및 안경류 디바이스(200)의 다른 위치들, 예를 들어, 프레임(105)에 위치될 수 있음을 이해해야 한다. 적외선 방출기(215) 및 적외선 카메라(220)는 도 2a의 것과 같지만, 눈 스캐너(213)는 도 2a에서 상술한 바와 같이 상이한 광 파장들에 민감하도록 변경될 수 있다.

[0050] 도 2a과 유사하게, 안경류 디바이스(200)는 브릿지(106)를 통해 우측 림(107B)에 연결된 좌측 림(107A)을 포함하는 프레임(105)을 포함하고; 좌측 및 우측 림들(107A-B)은 투시형 디스플레이(180C-D)를 포함하는 개개의 광학 엘리먼트들(180A-B)을 유지하는 개개의 애퍼처들을 포함한다.

[0051] 도 2c 및 도 2d는 2 개의 상이한 유형의 투시형 이미지 디스플레이들(180C-D)을 포함하는 안경류 디바이스(100)의 예시적인 하드웨어 구성들의 후면도이다. 일 예에서, 광학 조립체(180A-B)의 이러한 투시형 이미지 디스플레이들(180C-D)은 통합된 이미지 디스플레이를 포함한다. 도 2c에 도시된 바와 같이, 광학 조립체들(180A-B)은 액정 디스플레이(LCD: liquid crystal display), 유기 발광 다이오드(OLED: organic light-emitting diode) 디스플레이, 도파관 디스플레이 또는 이러한 임의의 다른 디스플레이와 같은 임의의 적절한 유형의 적절한 디스플레이 매트릭스(180C-D)를 포함한다. 광학 조립체(180A-B)는 또한 렌즈들, 광학 코팅들, 프리즘들, 거울들, 도파관들, 광학 스트립(strip)들 및 다른 광학 컴포넌트들을 임의의 조합으로 포함할 수 있는 광학 층 또는 층들(176)을 포함한다. 광학 층들(176A-N)은 적절한 크기 및 구성을 갖고 디스플레이 매트릭스로부터 광을 수용하기 위한 제1 표면과 사용자의 눈으로 광을 방출하기 위한 제2 표면을 포함하는 프리즘을 포함할 수 있다. 광학 층들(176A-N)의 프리즘은 좌측 및 우측 림들(107A-B)에 형성된 개개의 애퍼처들(175A-B)의 전체 또는 적어도 일부 위로 연장되어 사용자의 눈이 대응하는 좌측 및 우측 림들(107A-B)을 통해 보고 있을 때 사용자가 프리즘의 제2 표면을 볼 수 있게 한다. 광학 층들(176A-N)의 프리즘의 제1 표면은 프레임(105)으로부터 위쪽을 향하고 디스플레이 매트릭스는 디스플레이 매트릭스에 의해 방출된 광자들 및 광이 제1 표면에 충돌하도록 프리즘 위에 놓인다. 프리즘은 광이 프리즘 내에서 굴절되고 광학 층들(176A-N)의 프리즘의 제2 표면에 의해 사용자의 눈을 향하도록 크기 및 형상이 지정된다. 이와 관련하여, 광학 층들(176A-N)의 프리즘의 제2 표면은 눈의 중심을 향해 광을 지향시키기 위해 볼록할 수 있다. 프리즘은 투시형 이미지 디스플레이들(180C-D)에 의해 투사된 이미지를 확대하기 위해 선택적으로 크기 및 형상이 지정될 수 있으며, 광은 프리즘을 통해 이동하여 제2 표면으로부터 본 이미지는 투시형 이미지 디스플레이(180C-D)로부터 방출된 이미지보다 하나 이상의 차원들에서 더 크다.

[0052] 다른 예에서, 광학 조립체(180A-B)의 투시형 이미지 디스플레이들(180C-D)은 도 2d에 도시된 바와 같이 투사 이미지 디스플레이를 포함한다. 광학 조립체(180A-B)는 스캐닝 거울 또는 갈바노미터(galvanometer)를 사용하는 3-컬러 레이저 프로젝터인 레이저 프로젝터(150)를 포함한다. 동작 중에, 레이저 프로젝터(150)와 같은 광원은 안경류 디바이스(100)의 템플 아암들(125A-B) 중 하나에 또는 하나 상에 배치된다. 광학 조립체(180A-B)는 광학 조립체(180A-B)의 렌즈의 폭에 걸쳐 또는 렌즈의 전방 표면과 후방 표면 사이의 렌즈의 깊이에 걸쳐 이격된 하나 이상의 광학 스트립들(155A-N)을 포함한다.

[0053] 레이저 프로젝터(150)에 의해 투사된 광자들이 광학 조립체(180A-B)의 렌즈를 가로질러 이동할 때, 광자들은 광학 스트립들(155A-N)과 마주친다. 특정 광자가 특정 광학 스트립과 마주칠 때, 광자는 사용자의 눈을 향해 방향이 바뀌거나 다음 광학 스트립으로 전달된다. 레이저 프로젝터(150)의 변조와 광학 스트립들의 변조의 조합은 특정 광자들 또는 광 빔들을 제어할 수 있다. 일 예에서, 프로세서는 기계적, 음향적 또는 전자기적 신호들을 개시함으로써 광학 스트립들(155A-N)을 제어한다. 2 개의 광학 조립체들(180A-B)을 갖는 것으로 도시되어 있지만, 안경류 디바이스(100)는 단일 또는 3 개의 광학 조립체들과 같은 다른 배열들을 포함할 수 있거나, 광학 조립체(180A-B)는 안경류 디바이스(100)의 애플리케이션 또는 의도된 사용자에 따라 상이한 배열을 배열했을 수 있다.

[0054] 도 2c 및 도 2d에 추가로 도시된 바와 같이, 안경류 디바이스(100)는 프레임(105)의 좌측 횡방향 측면(170A)에 인접한 좌측 템플(110A) 및 프레임(105)의 우측 횡방향 측면(170B)에 인접한 우측 템플(110B)을 포함한다. 템플들(110A-B)은 (예시된 바와 같이) 개개의 횡방향 측면들(170A-B) 상의 프레임(105)으로 통합될 수 있거나 개개의 측면들(170A-B) 상의 프레임(105)에 부착된 별도의 컴포넌트들로서 구현될 수 있다. 대안적으로, 템플들(110A-B)은 프레임(105)에 부착된 템플 아암들(125A-B)에 통합될 수 있다.

[0055] 일 예에서, 투시형 이미지 디스플레이들은 제1 투시형 영상 디스플레이(180C)와 제2 투시형 이미지 디스플레이(180D)를 포함한다. 안경류 디바이스(100)는 개개의 제1 및 제2 광학 조립체(180A-B)를 유지하는 제1 및 제2 애퍼처들(175A-B)을 포함한다. 제1 광학 조립체(180A)는 제1 투시형 이미지 디스플레이(180C)(예를 들어, 도 2c의 디스플레이 매트릭스 또는 광학 스트립들(155A-N) 및 레이저 프로젝터(150))를 포함한다. 제2 광학 조립체(180B)는 제2 투시형 이미지 디스플레이(180D)(예를 들어, 도 2c의 디스플레이 매트릭스 또는 광학 스트립들(155A-N) 및 프로젝터(150))를 포함한다. 연속 표시 이미지의 연속 시야는 수평, 수직 또는 대각선으로 측정된 약 15°내지 30°, 보다 구체적으로 24°의 시야각을 포함한다. 연속 시야를 갖는 연속 표시 이미지는 제1 및 제2 이미지 디스플레이들 상에 제시된 2 개의 표시된 이미지들을 함께 스티칭하여 볼 수 있는 결합된 3차원 관찰 가능 영역을 나타낸다.

[0056] 본원에서 사용되는 바와 같이, "시야각"은 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)의 각각 상에 제시되는 표시된 이미지들과 연관된 시야의 각도 범위를 설명한다. "커버리지 각도"는 가시광 카메라들(114A-B) 또는 적외선 카메라(220)의 렌즈가 이미징할 수 있는 각도 범위를 설명한다. 통상적으로, 렌즈에 의해 생성된 이미지 서클은 필름이나 센서를 완전히 커버할 수 있을 만큼 충분히 크며, 가능하게는 일부 비네팅(vignetting)을 포함한다(즉, 이미지 중심에 비해 주변으로 갈수록 이미지의 밝기나 채도가 감소). 렌즈의 커버리지 각도가 센서를 채우지 못하는 경우, 통상적으로 에지 쪽으로 강한 비네팅이 있는 이미지 서클을 볼 수 있으며, 유효 시야각은 커버리지 각도로 제한될 것이다. "시야"는 안경류 디바이스(100)의 사용자가 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D) 상에 제시되는 표시된 이미지를 통해 자신의 눈을 통해 볼 수 있는 관찰 가능한 영역의 필드를 설명하도록 의도된다. 광학 조립체(180A-B)의 이미지 디스플레이(180C)는 15° 내지 30°, 예를 들어, 24°의 커버리지 각도를 갖는 시야를 가질 수 있고 480 x 480 픽셀들의 해상도를 가질 수 있다.

[0057] 도 3은 도 2a의 안경류 디바이스의 후방 사시도를 도시한다. 안경류 디바이스(100)는 적외선 방출기(215), 적외선 카메라(220), 프레임 전면(330), 프레임 후면(335) 및 회로 기판(340)을 포함한다. 도 3에서, 안경류 디바이스(100)의 프레임의 좌측 림의 상위 부분은 프레임 전면(330)과 프레임 후면(335)을 포함함을 알 수 있다. 프레임 후면(335) 상에는 적외선 방출기(215)에 대한 개구가 형성된다.

[0058] 프레임의 좌측 림의 상위 중간 부분의 원으로 둘러싸인 단면(4)에 도시된 바와 같이, 연성 PCB(340)인 회로 기판이 프레임 전면(330)과 프레임 후면(335) 사이에 개재된다. 좌측 힌지(326A)를 통해 좌측 템플(110A)을 좌측 템플(325A)에 부착하는 것이 또한 더욱 상세히 도시되어 있다. 일부 예들에서, 적외선 방출기(215), 연성 PCB(340), 또는 다른 전기 커넥터들 또는 접점들을 포함하는 눈 움직임 추적기(213)의 컴포넌트들은 좌측 템플(325A) 또는 좌측 힌지(326A) 상에 위치될 수 있다.

[0059] 도 4는 도 3의 안경류 디바이스의 원으로 둘러싸인 단면(4)에 대응하는 프레임과 적외선 방출기(215)를 통한 단면도이다. 안경류 디바이스(100)의 복수의 층들이 도 4의 단면도에 예시되어 있으며, 도시된 바와 같이, 프레임은 프레임 전면(330)과 프레임 후면(335)을 포함한다. 연성 PCB(340)는 프레임 전면(330)에 배치되고 프레임 후면(335)에 연결된다. 적외선 방출기(215)는 연성 PCB(340) 상에 배치되고 적외선 방출기 커버 렌즈(445)에 의해 커버된다. 예를 들어, 적외선 방출기(215)는 연성 PCB(340)의 후면으로 리플로우(reflow)된다. 리플로우는 2 개의 컴포넌트들을 연결하기 위해 솔더 페이스트(solder paste)를 녹이는 제어된 열을 연성 PCB(340)에 가함으로써 적외선 방출기(215)를 연성 PCB(340)의 후면 상에 형성된 접촉 패드(들)에 부착한다. 일 예에서, 리플로우는 연성 PCB(340) 상에 적외선 방출기(215)를 표면 실장하고 2 개의 컴포넌트들을 전기적으로 연결하는 데 사용된다. 그러나, 관통-홀들이 예를 들어, 인터커넥트들을 통해 적외선 방출기(215)로부터의 리드(lead)들을 연성 PCB(340)에 연결하는 데 사용될 수 있음을 이해해야 한다.

[0060] 프레임 후면(335)은 적외선 방출기 커버 렌즈(445)에 대한 적외선 방출기 개구(450)를 포함한다. 적외선 방출기 개구(450)는 사용자의 눈을 향해 안쪽으로 향하도록 구성된 프레임 후면(335)은 후방을 향하는 측면 상에 형성된다. 해당 예에서, 연성 PCB(340)는 연성 PCB 접착제(460)를 통해 프레임 전면(330)에 연결될 수 있다. 적외선 방출기 커버 렌즈(445)는 적외선 방출기 커버 렌즈 접착제(455)를 통해 프레임 후면(335)에 연결될 수 있다. 커플링은 또한 중간 컴포넌트들을 통해 간접적으로 이루어질 수 있다.

[0061] 일 예에서, 프로세서(932)는 도 5에 도시된 바와 같이 착용자의 눈(234)의 시선 방향(230) 및 도 6에 도시된 바와 같이 눈 박스(eyebox) 내 착용자의 눈(234)의 눈 포지션(236)을 결정하기 위해 눈 추적기(213)를 이용한다. 눈 추적기(213)는 눈(234)의 동공(232)의 시선 방향(230) 그리고 또한 투시형 디스플레이(180D)에 대한 눈 포지션(236)을 결정하기 위해 눈(234)으로부터 적외광의 반사 변화들의 캡처된 이미지에 대해 적외광 조명(예를 들어, 근적외선, 단파장 적외선, 중파장 적외선, 장파장 적외선 또는 원적외선)을 사용하는 스캐너이다.

[0062] 도 7은 카메라들로 가시광을 캡처하는 예를 묘사한다. 가시광은 좌측 미가공 이미지(758A)로서 좌측 가시광 카메라 시야(111A)를 갖는 좌측 가시광 카메라(114A)에 의해 캡처된다. 가시광은 좌측 미가공 이미지(758A)와 중첩되는(713) 우측 미가공 이미지(758B)로서 우측 가시광 카메라 시야(111B)를 갖는 우측 가시광 카메라(114B)에 의해 캡처된다. 좌측 미가공 이미지(758A)와 우측 미가공 이미지(758B)의 프로세싱에 기초하여, 이하에서 이미지라고 지칭되는 3차원 장면의 3차원 깊이 맵(715)이 프로세서(932)에 의해 생성된다.

[0063] 도 8a는 부분적 또는 전체적 실명(blindness)을 갖는 안경류(100/200) 사용자들의 사용자 경험을 개선하기 위해 이미지(715)를 프로세싱하는 카메라-기반 보상 시스템(800)의 예를 예시한다. 부분적 또는 전체적 실명을 보상하기 위해, 카메라-기반 보상(800)은 이미지(715)에서 객체들(802)을 결정하고, 결정된 객체들(802)을 텍스트로 변환한 다음, 텍스트를 이미지의 객체들(802)을 나타내는 오디오로 변환한다.

[0064] 도 8b는 부분적 또는 전체적 실명을 가진 안경류(100/200) 사용자들의 사용자 경험을 개선하기 위해 명령들과 같은 사용자의 음성에 응답하는 카메라-기반 보상 시스템(800)의 예를 예시하는 이미지이다. 부분적 또는 전체적 실명을 보상하기 위해, 카메라-기반 보상(800)은 안경류(100)의 사용자/착용자로부터 수신된 명령들과 같은 음성을 프로세싱하여 레스토랑 메뉴와 같은 이미지(715)의 객체들(802)을 결정하고, 결정된 객체들(802)을 음성 커맨드에 응답하는 이미지의 객체들(802)을 나타내는 오디오로 변환한다.

[0065] 도 8c는 디스플레이들(180)을 통해 보이는 마스크로서 도시된 해당 입술 위의 얼굴 커버링(820)을 착용한 다른 사람을 보는 청각 장애인/난청자에 의해 착용된 안경류 디바이스(100)의 일 예를 예시한다. 안경류 디바이스(100)는 보여지는 사람의 구두어 및 발음들을 수신하는 마이크로폰(130)을 포함한다.

[0066] 도 8d는 구두어 및 발음들에 대응하는 화자의 보이는 마스크(820) 위의 각각의 디스플레이(180) 상에 움직이는 입술(860)을 생성 및 표시하는 안경류 디바이스(100)를 예시한다. 청각 장애인/난청자는 안경류(100)의 디스플레이(180) 상의 화자의 마스크(820) 위에 중첩된 움직이는 입술(860)을 시각적으로 보고 이해할 수 있다. 안경류 디바이스(100)는 마이크로폰(130)을 통해 수신된 구두어들 및 발음들을 프로세싱하고, 자동 음성 인식(ASR) 및 자연어 이해(NLU) 사운드 인식 엔진(956)을 사용하여 사운드들을 텍스트로 트랜슬레이팅하고, 텍스트의 함수로서 입술 움직임 형성을 포함하는 데이터베이스(958)를 사용하여 텍스트를 움직이는 입술 움직임에 매칭하고, 청각 장애인/난청자에 의해 시각적으로 판독되고 이해될 수 있는 프로세싱된 텍스트에 대응하는 마스크(820) 위의 움직이는 입술(860)의 오버레이를 생성 및 표시하는 음성 대 움직이는 입술 알고리즘(954)(도 9)을 갖는다. 이러한 프로세스는 도 11을 참조하여 추가로 설명된다. 다른 예에서, 안면 커버링은 보이는 움직이는 입술을 가리는 수염일 수 있으며, 여기서 움직이는 입술은 수염 위에 중첩된다.

[0067] 콘볼루션 신경망(CNN: convolutional neural network)은 이미지 검출 작업들에 일반적으로 사용되는 특수한 유형의 피드-포워드 인공 신경망이다. 일 예에서, 카메라-기반 보상 시스템(800)은 영역-기반 콘볼루션 신경망(RCNN: region-based convolutional neural network)(945)을 사용한다. RCNN(945)은 좌측 및 우측 카메라들(114A-B)로부터 생성된 이미지(715)의 객체들(802(도 8a) 및 803(도 8b)을 나타내는 콘볼루션 특징 맵(804)을 생성하도록 구성된다. 일 예에서, 콘볼루션 특징 맵(804)의 관련 텍스트는 텍스트 대 음성 알고리즘(950)을 사용하여 프로세서(932)에 의해 프로세싱된다. 제2 예에서, 콘볼루션 특징 맵(804)의 이미지들은 음성 대 오디오 알고리즘(952)을 사용하여 프로세서(932)에 의해 프로세싱되어 음성 명령에 기초하여 이미지의 객체들을 나타내는 오디오를 생성한다. 프로세서(932)는 이미지(715)의 객체들(802 및 803)을 나타내는 오디오를 생성하도록 구성된 자연어 프로세서를 포함한다.

[0068] 일 예에서, 도 10과 관련하여 아래에서 더 상세히 논의될 바와 같이, 좌측 및 우측 카메라들(114A-B)로부터 각각 생성된 이미지(715)는 이 예에서는 도 8a의 말을 탄 카우보이로 보여지는 객체들(802)을 포함하는 것으로 도시되어 있다. 이미지(715)는 이미지(715)에 기초하여 콘볼루션 특징 맵(804)을 생성하는 RCNN(945)에 입력된다. 예시적인 RCNN은 인도 하리아나 구루그람(Gurugram, Haryana, India)의 Analytics Vidhya로부터 이용 가능하다. 콘볼루션 특징 맵(804)으로부터, 프로세서(932)는 콘볼루션 특징 맵(804)에서 제안 영역을 식별하고 이를 정사각형들(806)로 변환한다. 정사각형들(806)은 전체 이미지(715)보다 작은 이미지의 서브세트(715)를 나타내며, 여기서 이 예에서 도시된 정사각형(806)은 말을 탄 카우보이가 포함한다. 제안 영역은 예를 들어, 움직이고 있는 인식된 객체들(예를 들어, 인간/카우보이, 말 등)일 수 있다.

[0069] 다른 예에서, 도 8b를 참조하면, 사용자는 마이크로폰(130)을 사용하여 안경류(100)에 입력되는 음성을 제공하여 이미지(715)의 특정 객체들(803)이 스피커(132)를 통해 소리내어 판독되도록 요청한다. 일 예에서, 사용자는 음성을 제공하여 일일 저녁 식사 특징들, 일일 특선 요리들과 같이 레스토랑 메뉴의 일부가 소리내어 판독되도록 요청한다. RCNN(945)은 음성 요청에 대응하는 객체들(803)을 식별하기 위해 메뉴와 같은 이미지(715)의 부분들을 결정한다. 프로세서(932)는 이미지(715)의 결정 객체들(803)을 나타내는 오디오를 생성하도록 구성된 자연어 프로세서를 포함한다. 프로세서는 착용자의 손에 쥐고 있는 메뉴 또는 메뉴의 서브세트(예를 들어, 우측면 또는 좌측면)와 같은 특징들을 식별하기 위해 머리/눈 움직임을 추가로 추적할 수 있다.

[0070] 프로세서(932)는 관심 영역(ROI: region of interest) 풀링(pooling) 층(808)을 사용하여 정사각형들(806)을 균일한 크기로 재형상화하여 완전히 연결된 층(810)에 입력될 수 있도록 한다. 소프트맥스 층(814)이 완전히 연결된 층(812)과 또한 ROI 특징 벡터(818)로부터의 경계 박스(bbox: bounding box) 회귀자(regressor)(816)에 대한 오프셋 값들에 기초하여 제안된 ROI의 클래스를 예측하는 데 사용된다.

[0071] 콘볼루션 특징 맵(804)의 관련 텍스트는 자연어 프로세서(932)를 사용하여 텍스트 대 음성 알고리즘(950)을 통해 프로세싱되고 디지털 신호 프로세서는 콘볼루션 특징 맵(804)의 텍스트를 나타내는 오디오를 생성하는 데 사용된다. 관련 텍스트는 움직이는 객체들(예를 들어, 카우보이와 말; 도 8a)을 식별하는 텍스트 또는 사용자의 요청(예를 들어, 일일 특선 요리들의 리스트; 도 8b)과 매칭되는 메뉴의 텍스트일 수 있다. 예시적인 텍스트 대 음성 알고리즘(950)은 독일, 베를린의 DFKI Berlin으로부터 이용 가능하다. 오디오는 콘볼루션 신경망을 사용하여 해석되거나 다른 디바이스 또는 시스템으로 오프로드될 수 있다. 오디오는 사용자가 들을 수 있도록 스피커(132)를 사용하여 생성된다(도 2a).

[0072] 도 9는 안경류(100 및 200)에 배치된 예시적인 전자 컴포넌트들을 포함하는 상위-레벨 기능 블록도를 묘사한다. 예시된 전자 컴포넌트들은 RCNN(945), 텍스트 대 음성 알고리즘(950), 음성 대 오디오 알고리즘(952), 메모리(934), 음성 대 움직이는 입술 알고리즘(954), ASR 및 NLU 사운드 인식 엔진(956) 및 텍스트 대 움직이는 입술 데이터베이스(958)를 실행하는 프로세서(932)를 포함한다.

[0073] 메모리(934)는 도 8a, 도 8b 및 도 8c에 도시된 바와 같이, 프로세서(932)가 RCNN(945)을 수행하기 위한 명령들, 텍스트 대 음성 알고리즘(950), 광학 엘리먼트(180A-B)를 통해 볼 수 있고 이미지들(715)에서 렌더링되는 객체(들)를 나타내는 오디오를 생성하기 위한 음성 대 오디오 알고리즘(952), 음성 대 움직이는 입술 알고리즘(954), ASR 및 NLU 엔진(956) 및 텍스트 대 움직이는 입술 데이터베이스(958)를 포함하여 안경류(100/200)의 기능을 구현하기 위해 프로세서(932)에 의한 실행을 위한 명령들을 포함한다. 메모리(934)는 또한 음성 명령에 응답하는 오디오를 생성하기 위해 도 8a 및 도 8b 모두에 도시된 바와 같이, 이미지(715)에 도시된 객체들에 대한 음성 대 오디오를 수행하기 위해 프로세서(932)에 의한 실행을 위한 명령들을 포함한다. 프로세서(932)는 배터리(미도시)로부터 전력을 수신하고 메모리(934)에 저장되거나 안경류(100/200)의 기능을 수행하기 위해 칩 상의 프로세서(932)와 통합되어 무선 연결들을 통해 외부 디바이스들과 통신하는 명령들을 실행한다.

[0074] 사용자 인터페이스 조정 시스템(900)은 (예를 들어, 도 2b에서 적외선 방출기(215) 및 적외선 카메라(220)로 도시된 바와 같이) 눈 움직임 추적기(213)를 갖는 안경류 디바이스(100)인 웨어러블 디바이스를 포함한다. 사용자 인터페이스 조정 시스템(900)은 또한 다양한 네트워크들을 통해 연결된 모바일 디바이스(990) 및 서버 시스템(998)을 포함한다. 모바일 디바이스(990)는 스마트폰, 태블릿, 랩탑 컴퓨터, 액세스 포인트, 또는 저전력 무선 연결(925) 및 고속 무선 연결(937)을 모두 사용하여 안경류 디바이스(100)와 연결할 수 있는 이러한 임의의 다른 디바이스일 수 있다. 모바일 디바이스(990)는 서버 시스템(998) 및 네트워크(995)에 연결된다. 네트워크(995)는 유선 및 무선 연결들의 임의의 조합을 포함할 수 있다.

[0075] 안경류 디바이스(100)는 적어도 2 개의 가시광 카메라들(114A-B)(하나는 좌측 횡방향 측면(170A)과 연관되고 하나는 우측 횡방향 측면(170B)과 연관됨)을 포함한다. 안경류 디바이스(100)는 광학 조립체(180A-B)의 2 개의 투시형 이미지 디스플레이들(180C-D)(하나는 좌측 횡방향 측면(170A)과 연관되고 하나는 우측 횡방향 측면(170B)과 연관됨)을 추가로 포함한다. 이미지 디스플레이들(180C-D)은 본 개시에서 선택 사항이다. 안경류 디바이스(100)는 또한 이미지 디스플레이 드라이버(942), 이미지 프로세서(912), 저전력 회로(920) 및 고속 회로(930)를 포함한다. 안경류 디바이스(100)에 대해 도 9에 도시된 컴포넌트들은 하나 이상의 회로 기판들, 예를 들어, 템플들의 PCB 또는 연성 PCB 상에 위치된다. 대안적으로 또는 추가적으로, 묘사된 컴포넌트들은 안경류 디바이스(100)의 템플들, 프레임들, 힌지들 또는 브릿지에 위치될 수 있다. 좌측 및 우측 가시광 카메라들(114A-B)은 상보성 금속-산화물-반도체(CMOS) 이미지 센서, 전하 커플링 디바이스, 렌즈 또는 알려지지 않은 객체들을 갖는 장면들의 이미지들을 포함하여 데이터를 캡처하는 데 사용될 수 있는 임의의 다른 개개의 가시 또는 광 캡처 엘리먼트들과 같은 디지털 카메라 엘리먼트들을 포함할 수 있다.

[0076] 눈 움직임 추적 프로그래밍(945)은 안경류 디바이스(100)로 하여금 눈 움직임 추적기(213)를 통해 안경류 디바이스(100)의 사용자의 눈의 눈 움직임을 추적하게 하는 것을 포함하는 사용자 인터페이스 시야 조정 명령들을 구현한다. 다른 구현된 명령들(기능들)은 안경류 디바이스(100)로 하여금 연속적인 눈 방향에 대응하는 사용자의 검출된 눈 움직임에 기초하여 초기 표시 이미지의 초기 시야에 대한 시야 조정을 결정하게 한다. 추가로 구현된 명령들은 시야 조정에 기초하여 표시 이미지의 시퀀스의 연속적인 표시 이미지를 생성한다. 연속적으로 표시되는 이미지는 사용자 인터페이스를 통해 사용자에게 시각적 출력으로 생성된다. 이러한 가시적 출력은 광학 조립체(180A-B)의 투시형 이미지 디스플레이들(180C-D)에 나타나며, 이는 초기 시야를 갖는 초기 표시 이미지와 연속적인 시야를 갖는 연속 표시 이미지를 포함하여 표시 이미지들의 시퀀스를 제시하기 위해 이미지 디스플레이 드라이버(942)에 의해 구동된다.

[0077] 도 9에 도시된 바와 같이, 고속 회로(930)는 고속 프로세서(932), 메모리(934) 및 고속 무선 회로(936)를 포함한다. 해당 예에서, 이미지 디스플레이 드라이버(942)는 고속 회로(930)에 커플링되고 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)을 구동하기 위해 고속 프로세서(932)에 의해 동작된다. 고속 프로세서(932)는 안경류 디바이스(100)에 필요한 임의의 일반 컴퓨팅 시스템의 동작 및 고속 통신을 관리할 수 있는 임의의 프로세서일 수 있다. 고속 프로세서(932)는 고속 무선 회로(936)를 사용하여 무선 근거리 네트워크(WLAN)로 고속 무선 연결(937) 상에서 고속 데이터 전송들을 관리하는데 필요한 프로세싱 자원들을 포함한다. 특정 예들에서, 고속 프로세서(932)는 LINUX 운영 체제 또는 안경류 디바이스(100)의 이러한 다른 운영 체제와 같은 운영 체제를 실행하고 운영 체제는 실행을 위해 메모리(934)에 저장된다. 임의의 다른 담당들에 추가하여, 안경류 디바이스(100)에 대한 소프트웨어 아키텍처를 실행하는 고속 프로세서(932)는 고속 무선 회로(936)와의 데이터 전송들을 관리하는 데 사용된다. 특정 예들에서, 고속 무선 회로(936)는 본원에서 Wi-Fi라고도 칭하는 전기 전자 학회(Institute of Electrical and Electronic Engineers)(IEEE) 802.11 통신 표준들을 구현하도록 구성된다. 다른 예들에서, 다른 고속 통신 표준들은 고속 무선 회로(936)에 의해 구현될 수 있다.

[0078] 안경류 디바이스(100)의 저전력 무선 회로(924) 및 고속 무선 회로(936)는 단거리 트랜시버(Bluetooth^TM) 및 무선 광역, 근거리 또는 광역 네트워크 트랜시버들(예를 들어, 셀룰러 또는 WiFi)을 포함할 수 있다. 저전력 무선 연결(925) 및 고속 무선 연결(937)을 통해 통신하는 트랜시버들을 포함하는 모바일 디바이스(990)는 네트워크(995)의 다른 엘리먼트들과 마찬가지로 안경류 디바이스(100)의 아키텍처의 상세 사항들을 사용하여 구현될 수 있다.

[0079] 메모리(934)는 무엇보다도 컬러 맵들, 좌측 및 우측 가시광 카메라들(114A-B) 및 이미지 프로세서(912)에 의해 생성된 카메라 데이터뿐만 아니라 광학 조립체(180A-B)의 투시형 이미지 디스플레이들(180C-D) 상의 이미지 디스플레이 드라이버(942)에 의한 디스플레이를 위해 생성된 이미지들을 포함하는 다양한 데이터 및 애플리케이션들을 저장할 수 있는 임의의 저장 디바이스를 포함한다. 메모리(934)가 고속 회로(930)와 통합된 것으로 도시되어 있지만, 다른 예들에서, 메모리(934)는 안경류 디바이스(100)의 독립적인 독립형 엘리먼트일 수 있다. 이러한 특정 예들에서, 전기 라우팅 라인들이 고속 프로세서(932)를 포함하는 칩을 통해 이미지 프로세서(912) 또는 저전력 프로세서(922)로부터 메모리(934)로의 연결을 제공할 수 있다. 다른 예들에서, 고속 프로세서(932)는 저전력 프로세서(922)가 메모리(934)와 관련된 판독 또는 기입 동작이 필요한 임의의 시간에 고속 프로세서(932)를 부팅하도록 메모리(934)의 어드레싱을 관리할 수 있다.

[0080] 서버 시스템(998)은 예를 들어, 프로세서, 메모리 및 모바일 디바이스(990) 및 안경류 디바이스(100)와 네트워크(995)를 통해 통신하기 위한 네트워크 통신 인터페이스를 포함하는 서비스 또는 네트워크 컴퓨팅 시스템의 일부로서 하나 이상의 컴퓨팅 디바이스들일 수 있다. 안경류 디바이스(100)는 호스트 컴퓨터와 연결된다. 예를 들어, 안경류 디바이스(100)는 고속 무선 연결(937)을 통해 모바일 디바이스(990)와 페어링(pairing)되거나 네트워크(995)를 통해 서버 시스템(998)에 연결된다.

[0081] 안경류 디바이스(100)의 출력 컴포넌트들은 도 2c 및 도 2d에 설명된 바와 같이 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)과 같은 시각적 컴포넌트들을 포함한다(예를 들어, 액정 디스플레이(LCD), 플라즈마 디스플레이 패널(PDP: plasma display panel), 발광 다이오드(LED: light emitting diode) 디스플레이, 프로젝터 또는 도파관과 같은 디스플레이). 광학 조립체(180A-B)의 이미지 디스플레이들(180C-D)은 이미지 디스플레이 드라이버(942)에 의해 구동된다. 안경류 디바이스(100)의 출력 컴포넌트들은 음향 컴포넌트들(예를 들어, 스피커들), 햅틱 컴포넌트들(예를 들어, 진동 모터), 다른 신호 생성기들 등을 추가로 포함한다. 안경류 디바이스(100), 모바일 디바이스(990) 및 서버 시스템(998)의 입력 컴포넌트들은 영숫자 입력 컴포넌트들(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성된 터치 스크린, 포토-광 키보드, 또는 다른 영숫자 입력 컴포넌트들), 포인트-기반 입력 컴포넌트들(예를 들어, 마우스, 터치패드, 트랙볼, 조이스틱, 모션 센서 또는 다른 포인팅 기구들), 촉각 입력 컴포넌트들(예를 들어, 물리적 버튼, 터치들 또는 터치 제스처들의 위치와 힘을 제공하는 터치 스크린 또는 다른 촉각 입력 컴포넌트들), 오디오 입력 컴포넌트들(예를 들어, 마이크로폰) 등을 포함할 수 있다.

[0082] 안경류 디바이스(100)는 선택적으로 추가적인 주변 디바이스 엘리먼트들(919)을 포함할 수 있다. 이러한 주변 디바이스 엘리먼트들은 생체 측정 센서들, 추가 센서들 또는 안경류 디바이스(100)와 통합된 디스플레이 엘리먼트들을 포함할 수 있다. 예를 들어, 주변 디바이스 엘리먼트들(919)은 출력 컴포넌트들, 모션 컴포넌트들, 포지션 컴포넌트들 또는 본원에 설명된 임의의 다른 엘리먼트들을 포함하는 임의의 I/O 컴포넌트들을 포함할 수 있다.

[0083] 예를 들어, 사용자 인터페이스 시야 조정(900)의 생체 측정 컴포넌트들은 표현들(예를 들어, 손 표현들, 얼굴 표현들, 음성 표현들, 신체 제스처들 또는 눈 추적)을 검출하고, 생체 신호들(예를 들어, 혈압, 심박수, 체온, 발한 또는 뇌파들)을 측정하고, 사람을 식별하는(예를 들어, 음성 식별, 망막 식별, 얼굴 식별, 지문 식별 또는 뇌파 기반 식별) 등을 수행하는 컴포넌트들을 포함한다. 모션 컴포넌트들은 가속도 센서 컴포넌트들(예를 들어, 가속도계), 중력 센서 컴포넌트들, 회전 센서 컴포넌트들(예를 들어, 자이로스코프) 등을 포함할 수 있다. 포지션 컴포넌트들은 위치 좌표들을 생성하는 위치 센서 컴포넌트(예를 들어, 글로벌 포지셔닝 시스템(GPS: Global Positioning System) 수신기 컴포넌트), 포지셔닝 시스템 좌표들을 생성하는 WiFi 또는 Bluetooth^TM 트랜시버들, 고도 센서 컴포넌트들(예를 들어, 고도계 또는 고도가 도출될 수 있는 기압을 검출하는 기압계), 배향 센서 컴포넌트들(예를 들어, 자력계들) 등을 포함한다. 이러한 포지셔닝 시스템 좌표들은 또한 저전력 무선 회로(924) 또는 고속 무선 회로(936)를 통해 모바일 디바이스(990)로부터 무선 연결들(925 및 937)을 통해 수신될 수 있다.

[0084] 일부 예들에 따르면, "애플리케이션" 또는 "애플리케이션들"은 프로그램들에 정의된 기능들을 실행하는 프로그램(들)이다. 다양한 프로그래밍 언어들이 채용되어 객체-지향 프로그래밍 언어들(예를 들어, Objective-C, Java 또는 C++) 또는 절차적 프로그래밍 언어들(예를 들어, C 또는 어셈블리어)과 같이 다양한 방식으로 구조화된 애플리케이션들 중 하나 이상을 생성할 수 있다. 특정 예에서, 제3자 애플리케이션(예를 들어, 특정 플랫폼의 벤더(vendor)가 아닌 엔티티에 의해 ANDROID™ 또는 IOS™ 소프트웨어 개발 키트(SDK: software development kit)를 사용하여 개발된 애플리케이션)은 IOS™, ANDROID™, WINDOWS® Phone 또는 다른 모바일 운영 체제들과 같이 모바일 운영 체제 상에서 실행되는 모바일 소프트웨어일 수 있다. 이러한 예에서, 제3자 애플리케이션은 본원에 설명된 기능을 촉진하기 위해 운영 체제에 의해 제공되는 API 콜(call)들을 호출할 수 있다.

[0085] 도 10은 메모리(934)에 저장된 명령들을 실행하는 고속 프로세서(932)에 의해 생성된 안경류 디바이스(100/200) 및 안경류의 다른 컴포넌트들의 동작을 예시하는 흐름도(1000)이다. 직렬적으로 발생하는 것으로 도시되어 있지만, 도 10의 블록들은 구현에 따라 재정렬되거나 병렬화될 수 있다.

[0086] 블록 1002 내지 1010은 RCCN(945)을 사용하여 수행될 수 있다.

[0087] 블록 1002에서, 프로세서(932)는 사용자 입력 또는 컨텍스트 데이터 및 이미지 캡처를 기다린다. 제1 예에서, 입력은 좌측 및 우측 카메라들(114A-B)로부터 각각 생성되고 이 예에서는 8A를 말을 탄 카우보이로서 도 8a에 도시된 객체들(802)을 포함하는 것으로 도시된 이미지(715)이다. 제2 예에서, 입력은 또한 도 8b에 도시된 안경류(100) 전방에 배치된 이미지(715)에서 객체(803)를 판독하라는 구두 명령들과 같이, 마이크로폰(130)을 통해 사용자/착용자로부터의 음성을 포함한다. 이는 또한 레스토랑 메뉴 또는 일일 특징들과 같은 그 일부를 읽는 음성을 포함할 수 있다.

[0088] 블록 1004에서, 프로세서(932)는 이미지(715)를 RCCN(945)을 통해 전달하여 콘볼루션 특징 맵(804)을 생성한다. 프로세서(932)는 이미지(715)의 이미지 픽셀들 어레이에 대해 필터 매트릭스를 사용하는 콘볼루션 층을 사용하고 콘볼루션 연산을 수행하여 콘볼루션 특징 맵(804)을 획득한다.

[0089] 블록 1006에서, 프로세서(932)는 ROI 풀링 층들(808)을 사용하여 콘볼루션 특징 맵(804)의 제안 영역을 정사각형들(806)로 재형상화한다. 프로세서는 정사각형들(806)의 형상 및 크기를 결정하여 얼마나 많은 객체들이 프로세싱되는지 결정하고 정보 과부하를 피하도록 프로그래밍 가능하다. ROI 풀링 층(808)은 콘볼루션 신경망들을 사용하는 객체 검출 작업들에 사용되는 동작이다. 예를 들어, 제1 예에서 도 8a에 도시된 단일 이미지(715)에서 말을 탄 카우보이(802)를 검출하고 제2 예에서 도 8b에 도시된 메뉴 정보(803)를 검출한다. ROI 풀링 층(808)의 목적은 고정된 크기의 특징 맵들(예를 들어, 7×7 유닛들)을 획득하기 위해 균일하지 않은 크기들의 입력들에 대해 최대 풀링을 수행하는 것이다.

[0090] 블록 1008에서, 프로세서(932)는 완전히 연결된 층들(810)을 프로세싱하며, 여기서 소프트맥스 층(814)은 완전히 연결된 층(812)을 사용하여 제안된 영역들 및 경계 박스 회귀자(816)의 클래스를 예측한다. 소프트맥스 층은 통상적으로 다중-클래스 분류(예를 들어, 객체 인식)를 수행하는 신경망의 최종 출력 층이다.

[0091] 블록 1010에서, 프로세서(932)는 이미지(715)에서 객체들(802 및 803)을 식별하고 객체들(802 및 803)과 같은 관련 특징들을 선택한다. 프로세서(932)는 정사각형들(806)에서 객체들(802 및 803), 예를 들어, 도로의 신호등들 및 신호등들의 컬러의 상이한 클래스들을 식별하고 선택하도록 프로그래밍 가능하다. 다른 예에서, 프로세서(932)는 차량들, 기차들 및 항공기들과 같은 정사각형(806)에서 움직이는 객체들을 식별하고 선택하도록 프로그래밍된다. 다른 예에서, 프로세서는 횡단 보도, 경고 표지판들 및 정보 표지판들과 같은 표지판들을 식별하고 선택하도록 프로그래밍된다. 도 8a에 도시된 예에서, 프로세서(932)는 카우보이 및 말로서 관련 객체들(802)을 식별한다. 도 8b에 도시된 예에서, 프로세서는 메뉴 부분, 예를 들어, 일일 저녁 특선 요리들 및 일일 점심 특선 요리들과 같은 관련 객체들(803)을 (예를 들어, 사용자 명령들에 기초하여) 식별한다.

[0092] 블록 1012에서, 이미지(715)의 문자들과 텍스트를 식별하기 위해 블록들 1002 내지 1010이 반복된다. 프로세서(932)는 관련 문자들과 텍스트를 식별한다. 관련 문자들과 텍스트는 일 예에서, 이미지의 1/1000 이상과 같이 이미지(715)의 최소 부분을 점유하는 경우 관련되는 것으로 결정될 수 있다. 이는 관심이 없는 더 작은 문자들과 텍스트의 프로세싱을 제한한다. 관련 객체들, 문자들 및 텍스트는 특징들로 지칭되며, 모두 텍스트 대 음성 알고리즘(950)에 제출된다.

[0093] 블록 1014 내지 1024는 텍스트 대 음성 알고리즘(950) 및 음성 대 오디오 알고리즘(952)에 의해 수행된다. 텍스트 대 음성 알고리즘(950) 및 음성 대 오디오 알고리즘(952)은 관련 객체들(802 및 803), RCCN(945)으로부터 수신된 문자들 및 텍스트들을 프로세싱한다.

[0094] 블록 1014에서, 프로세서(932)는 사용자 요청 또는 컨텍스트에 따른 관련 정보에 대해 이미지(715)의 텍스트를 파싱(parsing)한다. 텍스트는 콘볼루션 특징 맵(804)에 의해 생성된다.

[0095] 블록 1016에서, 프로세서(932)는 약어들 및 숫자들을 확장하기 위해 텍스트를 사전 프로세싱한다. 이는 약어들을 텍스트 단어들로 번역하고 숫자들을 텍스트 단어들로 번역하는 것을 포함할 수 있다.

[0096] 블록 1018에서, 프로세서(932)는 알려지지 않은 단어들에 대한 어휘 또는 규칙들을 사용하여 문자소(grapheme) 대 음소(phoneme) 변환을 수행한다. 문자소는 임의의 주어진 언어의 쓰기 체계의 최소 단위이다. 음소는 주어진 언어의 음성 사운드이다.

[0097] 블록 1020에서, 프로세서(932)는 지속 시간 및 억양에 대한 모델을 적용하여 음향 파라미터들을 계산한다. 지속 시간은 두 이벤트들 사이의 경과 시간의 양이다. 억양은 단어들을 의의소(sememe)들(톤(tone)로 알려진 개념)로서 구별하는 것이 아니라 스피커의 태도들과 감정들을 나타내는 것과 같은 다른 범위의 기능들을 위해 사용될 때 음성 피치(pitch)의 변화이다.

[0098] 블록 1022에서, 프로세서(932)는 음소열(phoneme string)로부터 사운드들을 생성하기 위해 합성기를 통해 음향 파라미터들을 전달한다. 합성기는 프로세서(932)에 의해 실행되는 소프트웨어 기능이다.

[0099] 블록 1024에서, 프로세서(932)는 이미지(715)의 객체들(802 및 803)을 포함하는 특징들뿐만 아니라 문자들 및 텍스트도 나타내는 스피커(132)를 통해 오디오를 재생한다. 오디오는 적절한 지속 시간과 억양을 갖는 하나 이상의 단어들일 수 있다. 단어들에 대한 오디오 사운드들은 사전 기록되고, 메모리(934)에 저장되고 합성되어, 임의의 단어는 단어의 뚜렷한 브레이크다운(breakdown)에 기초하여 재생될 수 있다. 억양과 지속 시간은 합성의 경우 특정 단어들에 대해서도 메모리(934)에 저장될 수 있다.

[0100] 도 11은 메모리(934)에 저장된 명령들을 실행하는 고속 프로세서(932)에 의한 안경류 디바이스(100)의 동작을 예시하는 흐름도(1100)이다. 프로세서(932)는 마이크로폰(130)을 통해 보이는 사람의 수신된 음성 및 발음들을 프로세싱하고 음성 대 움직이는 입술 알고리즘(954)을 사용하여 대응하는 움직이는 입술(860)을 생성한다. 직렬로 발생하는 것으로 도시되어 있지만, 도 11의 블록들은 구현에 따라 재순서화 또는 병렬화될 수 있다.

[0101] 블록 1102에서, 프로세서(932)는 도 8c에 도시된 바와 같이, 마이크로폰(130)을 사용하여 디스플레이들(180)을 통해 보이는 사람의 구두어 및 발음들을 캡처한다. 구두어 및 발음들은 일 예에서 "안녕하세요, 만나서 반가워요"와 같은 단어들 및 발음들의 열일 수 있다. 발음의 예는 "우(ugh)"와 같은 사운드들일 수 있다. 구두어 및 발음들은 마스크(820)를 통과하지만, 안경류 디바이스(100)의 사용자는 보이는 사람의 입술 움직임을 볼 수 없다. 화자는 도 8d에 도시된 바와 같이, 안경류(100)의 디스플레이(180)를 통해 보여진다.

[0102] 블록 1104에서, 프로세서(932)는 ASR 및 NLU 사운드 인식 엔진(956)을 사용하여 수신된 구두어 및 발음들을 텍스트 열로 트랜슬레이팅한다. ASR 및 NLU 사운드 인식 엔진의 일 예는 IBM corporation에서 이용 가능한 Watson®이다. 예를 들어, 보여지는 사람이 "안녕하세요, 만나서 반가워요(hello, it is nice to meet you)"라고 말하면, ASR 및 NLU 사운드 엔진(956)에 의해 대응하는 텍스트 열이 생성된다.

[0103] 블록 1106에서, 프로세서(932)는 텍스트 대 움직이는 입술 데이터베이스(958)를 사용하여 프레임 속도로 대응하는 텍스트의 열을 움직이는 입술(860)에 동적으로 매칭시킨다. 움직이는 입술 데이터베이스는 단어들의 세트의 각각의 단어에 대한 입술 움직임들의 대응 시퀀스를 저장한다. 일 예에서, "안녕하세요(hello)"라는 단어는 2 개의 음절을 가지며 "안녕하세요(hello)"라는 단어를 말하는 인간의 입의 움직이는 입술 시퀀스에 매칭된다. 이러한 매칭은 움직이는 입술 형성들의 열을 생성하기 위해 "it", "is", "nice", "to", "meet", "you"라는 단어들과 같은 텍스트 열의 각각의 단어에 대해 프로세서(932)에 의해 수행딘다. 일 예에서, 프로세서(932)는 또한 "hello"와 "how" 단어들 사이에 표시된 움직이는 입술에 순간적인 일시 정지를 생성하는 것과 같이 일부 단어 열에 대한 일시 정지를 생성한다.

[0104] 블록 1108에서, 프로세서(932)는 도 8d에 도시된 바와 같이, 안경류의 디스플레이들(180)을 통해 보이는 사람의 마스크(860) 위에 생성된 일련의 움직이는 입술(860)을 생성하고 중첩시킨다. 움직이는 입술(860)은 구두어 및 발음들이 생성되는 것과 동일한 속도로 거의 실시간으로 표시되어, 디스플레이(180) 상에 표시되는 구두어와 발음 사이의 지연 시간이 거의 없다. 화자의 보이는 머리의 크기를 매칭시키기 위해 프로세서(932)는 표시된 입술(860)의 크기를 매칭시킨다. 또한, 프로세서(932)는 평균적인 사람에 상응하는 크기의 1.25X 또는 1.5X가 되도록 움직이는 입술을 확대하는 것과 같이, 보이는 사람의 움직이는 입술을 입술을 안경류 디바이스(100)의 사용자가 더 잘 보고 구분하는 것을 돕기 위해 표시된 입술(860)의 크기를 맞춤화할 수도 있다. 즉, 표시된 움직이는 입술(860)은 머리의 크기에 대해 확대되어 균형이 맞지 않게 된다.

[0105] 본원에 사용된 용어들 및 표현들은 특정한 의미들이 본원에서 다르게 제시된 경우를 제외하고는 대응하는 개개의 탐구 및 연구 영역들과 관련하여 이러한 용어들 및 표현들에 따른 일반적인 의미를 갖는 것으로 이해될 것이다. 제1 및 제2 등과 같은 관계 용어들은 이러한 엔티티들 또는 액션들 간의 임의의 실제 관계 또는 순서를 반드시 요구하거나 암시하지 않고 하나의 엔티티 또는 액션을 다른 것과 구별하기 위해서만 사용될 수 있다. "포함하다(comprises)", "포함하는(comprising)", "포괄하다(includes)", "포괄하는(including)" 또는 그 임의의 다른 변형과 같은 용어들은 비배타적인 포함을 포괄하도록 의도되어, 엘리먼트들 또는 단계들의 리스트를 포함하거나 포괄하는 프로세스, 방법, 물품 또는 장치는 해당 엘리먼트들 또는 단계들만을 포괄하는 것이 아니라, 명시적으로 나열되지 않거나 이러한 프로세스, 방법, 물품 또는 장치에 고유한 다른 엘리먼트들 또는 단계들을 포괄할 수 있다. "어느(a)" 또는 "어떤(an)"이 앞에 오는 엘리먼트는 추가 제한 없이 해당 엘리먼트를 포함하는 프로세스, 방법, 물품 또는 장치에서 추가적인 동일한 엘리먼트들의 존재를 배제하지 않는다.

[0106] 달리 언급하지 않는 한, 이하의 청구항들을 포함하여 본 명세서에 제시되는 임의의 그리고 모든 측정치들, 값들, 등급들, 포지션들, 크기들, 사이즈들 및 다른 규격들은 근사적인 것이며 정확하지 않다. 이러한 수량들은 관련된 기능 및 관련 기술 분야의 관례와 일치하는 합리적인 범위를 갖도록 의도된다. 예를 들어, 명시적으로 달리 언급하지 않는 한, 파라미터 값 등은 명시된 수량으로부터 ±10%만큼 변할 수 있다.

[0107] 또한, 상술한 상세한 설명에서, 본 개시를 간소화할 목적으로 다양한 특징들이 다양한 예들에서 함께 그룹화되어 있음을 알 수 있다. 이러한 개시의 방법은 청구된 예들이 각각의 청구항에 명시적으로 인용된 것보다 더 많은 특징을 요구한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 이하의 청구항들이 반영하는 바와 같이, 보호되는 주제는 임의의 단일의 개시된 예의의 모든 특징들보다 적은 특징들에 있다. 따라서, 이하의 청구항들은 이에 의해 상세한 설명에 통합되며, 각각의 청구항은 개별적으로 청구된 주제로서의 독립된 지위를 갖는다.

[0108] 상술한 내용이 최상의 모드 및 다른 예들이라고 간주되는 것을 설명했지만, 다양한 수정들이 내부에서 이루어질 수 있고 본원에 개시된 주제는 다양한 형태들과 예들로 구현될 수 있으며, 다수의 애플리케이션들에 적용될 수 있으며, 그 중 일부만이 본원에 설명되었음이 이해된다. 이하의 청구항들은 본 개념들의 실제 범위 내에 있는 임의의 그리고 모든 수정들 및 변형들을 청구하려고 의도된 것이다.

Claims

안경류로서,
프레임;
상기 프레임에 의해 지지되고 상기 프레임을 통해 보이는 마스크를 착용한 사람의 이미지를 생성하도록 구성된 카메라;
상기 프레임에 의해 지지되는 디스플레이;
상기 프레임에 의해 지지되는 마이크로폰; 및
전자 프로세서를 포함하고, 상기 전자 프로세서는:
상기 마이크로폰을 통해 사용자로부터의 음성을 나타내는 신호를 수신하고;
상기 신호를 프로세싱하고 상기 음성을 트랜슬레이팅(translating)하고;
상기 트랜슬레이팅된 음성을 나타내는 움직이는 입술 이미지를 생성하고; 그리고
상기 사람의 상기 보이는 마스크 위에 상기 디스플레이 상의 상기 움직이는 입술 이미지를 중첩시키도록 구성되는, 안경류.
제1 항에 있어서,
개개의 움직이는 입술 이미지에 매칭되는 텍스트를 저장하는 데이터베이스를 더 포함하고, 상기 프로세서는 상기 음성을 텍스트로 트랜슬레이팅하고 상기 데이터베이스를 사용하여 상기 트랜슬레이팅된 음성을 나타내는 상기 움직이는 입술 이미지를 생성하도록 구성되는, 안경류.
제2 항에 있어서,
상기 프로세서는 상기 음성의 각각의 단어에 대한 움직이는 입술 이미지를 포함하는 일련의 움직이는 입술 이미지들을 생성하도록 구성되는, 안경류.
제3 항에 있어서,
상기 프로세서는 각각의 단어 및 상기 음성의 발음에 대한 움직이는 입술 이미지를 포함하는 일련의 움직이는 입술 이미지들을 생성하도록 구성되는, 안경류.
제2 항에 있어서,
상기 프로세서는 인간의 머리에 대해 확대되고 균형이 맞지 않는 크기로 표시된 마스크 위에 상기 움직이는 입술 이미지를 표시하도록 구성되는, 안경류.
제1 항에 있어서,
상기 프로세서는 상기 음성을 텍스트로 트랜슬레이팅하기 위해 자동 음성 인식(ASR: automatic speech recognition)을 사용하도록 구성되는, 안경류.
제2 항에 있어서,
상기 프로세서는 또한 상기 음성을 텍스트로 트랜슬레이팅하기 위해 자연어 이해(NLU: natural language understanding)를 사용하도록 구성되는, 안경류.
제1 항에 있어서,
상기 프로세서는 거의 실시간으로 상기 움직이는 입술 이미지를 생성하도록 구성되는, 안경류.
안경류의 사용 방법으로서,
상기 안경류는 프레임, 상기 프레임에 의해 지지되고 상기 프레임을 통해 보이는 마스크를 착용한 사람의 이미지를 생성하도록 구성된 카메라, 상기 프레임에 의해 지지되는 디스플레이, 상기 프레임에 의해 지지되는 마이크로폰 및 프로세서를 포함하고, 상기 프로세서가:
상기 마이크로폰을 통해 상기 사람으로부터의 음성을 나타내는 신호를 수신하는 단계;
상기 신호를 프로세싱하고 상기 음성을 트랜슬레이팅하는 단계;
상기 트랜슬레이팅된 음성을 나타내는 움직이는 입술 이미지를 생성하는 단계; 및
상기 사람의 상기 보이는 마스크 위에 상기 디스플레이 상의 상기 움직이는 입술 이미지를 중첩시키는 단계를 포함하는, 안경류의 사용 방법.
제9 항에 있어서,
상기 안경류는 개개의 움직이는 입술 이미지에 매칭되는 텍스트를 저장하는 데이터베이스를 더 포함하고, 상기 프로세서는 상기 음성을 텍스트로 트랜슬레이팅하고 상기 데이터베이스를 사용하여 상기 트랜슬레이팅된 음성을 나타내는 상기 움직이는 입술 이미지를 생성하는, 안경류의 사용 방법.
제10 항에 있어서,
상기 프로세서는 상기 음성의 각각의 단어에 대한 움직이는 입술 이미지를 포함하는 일련의 움직이는 입술 이미지들을 생성하는, 안경류의 사용 방법.
제10 항에 있어서,
상기 프로세서는 각각의 단어 및 상기 음성의 발음에 대한 움직이는 입술 이미지를 포함하는 일련의 움직이는 입술 이미지들을 생성하는, 안경류의 사용 방법.
제10 항에 있어서,
상기 프로세서는 인간의 머리에 대해 확대되고 균형이 맞지 않는 크기로 표시된 마스크 위에 상기 움직이는 입술 이미지를 표시하는, 안경류의 사용 방법.
제9 항에 있어서,
상기 프로세서는 상기 음성을 텍스트로 트랜슬레이팅하기 위해 자동 음성 인식(ASR)을 사용하는, 안경류의 사용 방법.
제14 항에 있어서,
상기 프로세서는 또한 상기 음성을 텍스트로 트랜슬레이팅하기 위해 자연어 이해(NLU)를 사용하는, 안경류의 사용 방법.
제9 항에 있어서,
상기 프로세서는 거의 실시간으로 상기 움직이는 입술 이미지를 생성하는, 안경류의 사용 방법.
프로그램 코드를 저장한 비일시적 컴퓨터-판독 가능 매체로서,
상기 프로그램 코드는 실행 시 프레임, 상기 프레임에 의해 지지되고 상기 프레임을 통해 보이는 마스크를 착용한 사람의 이미지를 생성하도록 구성된 카메라, 상기 프레임에 의해 지지되는 디스플레이, 상기 프레임에 의해 지지되는 마이크로폰을 갖는 안경류의 프로세서로 하여금:
상기 마이크로폰을 통해 상기 사람으로부터의 음성을 나타내는 신호를 수신하는 단계;
상기 신호를 프로세싱하고 상기 음성을 트랜슬레이팅하는 단계;
상기 트랜슬레이팅된 음성을 나타내는 움직이는 입술 이미지를 생성하는 단계; 및
상기 사람의 상기 보이는 마스크 위에 상기 디스플레이 상의 상기 움직이는 입술 이미지를 중첩시키는 단계를 수행하게 하도록 동작하는, 비일시적 컴퓨터-판독 가능 매체.
제17 항에 있어서,
상기 프로그램 코드는 실행 시, 상기 프로세서로 하여금, 개개의 움직이는 입술 이미지에 매칭되는 텍스트를 저장하는 데이터베이스를 사용하게 하고, 상기 음성을 텍스트로 트랜슬레이팅하게 하고 상기 데이터베이스를 사용하여 상기 트랜슬레이팅된 음성을 나타내는 상기 움직이는 입술 이미지를 생성하게 하도록 동작하는, 비일시적 컴퓨터 판독 가능 매체.
제18 항에 있어서,
상기 프로그램 코드는 실행 시, 상기 프로세서로 하여금, 각각의 단어 및 상기 음성의 발음에 대한 움직이는 입술 이미지를 포함하는 일련의 움직이는 입술 이미지들을 생성하게 하도록 동작하는, 비일시적 컴퓨터 판독 가능 매체.
제18 항에 있어서,
상기 프로그램 코드는 실행 시, 상기 프로세서로 하여금, 인간의 머리에 대해 확대되고 균형이 맞지 않는 크기로 표시된 마스크 위에 상기 움직이는 입술 이미지를 표시하게 하도록 동작하는, 비일시적 컴퓨터 판독 가능 매체.