KR102002979B1

KR102002979B1 - 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징

Info

Publication number: KR102002979B1
Application number: KR1020157009061A
Authority: KR
Inventors: 바박 포루탄포우르; 다니엘 에스. 베이커
Original assignee: 퀄컴 인코포레이티드
Priority date: 2012-09-18
Filing date: 2013-08-21
Publication date: 2019-07-23
Also published as: KR20150058286A; CN104641413B; US10347254B2; CN104641413A; US9966075B2; WO2014046833A1; US20140081634A1; EP2898505B1; US20180047396A1; EP2898505A1

Abstract

증강 현실 디바이스를 사용하기 위한 다양한 어레인지먼트들이 제시된다. 실제-세계 장면에서 사람에 의해 말해진 스피치는 증강 현실(AR) 디바이스에 의해 캡쳐될 수도 있다. 제 2 AR 디바이스가 스피치에 대한 데이터를 수신할 것이라고 결정될 수도 있다. 제 2 AR 디바이스는, 초기에 말해진 경우 스피치 동안 존재하지 않았을 수도 있다. 스피치에 대응하는 데이터는 제 2 증강 현실 디바이스로 송신될 수도 있다.

Description

사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징{LEVERAGING HEAD MOUNTED DISPLAYS TO ENABLE PERSON-TO-PERSON INTERACTIONS}

[0001] 세계가 글로벌한 공동체가 되어감에 따라, 상이한 언어들을 말할 수도 있는 사람들이 빈번하게 교류(interact)할 필요가 있다. 그러한 경우가 상이한 대륙들 상에 오피스들을 갖는 회사의 고용인들, 다국적 회담들, 관광업, 또는 사람들 사이에서 언어 차이를 초래하는 임의의 다른 상황 사이에서의 통신인지에 관계없이, 효율적이고 효과적으로 통신하기 위한 능력은 유용하다. 통상적으로, 상이한 언어를 말하는 사람들 사이의 그러한 통신은, 통역자의 사용, 원시적인 물리적 제스처들, 또는 번역을 수행하는 디바이스로 텍스트를 입력하는 것을 수반할 수도 있다. 이들 어레인지먼트(arrangement)들 각각은 단점들을 가지며, 즉 통역자는 값비쌀 수 있고 통신에 수반되는 적어도 부가적인 사람을 수반하고, 제한된 양의 정보만이 원시적인 물리적 제스처들을 사용하여 통신될 수 있을 수도 있으며, 컴퓨터형 디바이스로 텍스트를 타이핑하는 것은 비효율적이며 필요한 장비를 요구할 수도 있다.

[0002] 부가적으로, 대화들, 스피치들, 또는 프리젠테이션들에 대한 신참자(latecomer)들(또는 그들에 주의를 기울이지 않은 사람들)은, 스피커의 중요한 스테이트먼트들을 놓칠 수도 있다. 종래에, 신참자는 말해졌던 것에 대해 존재했었던 어떤 사람에게 질의하거나, 스피커에게 직접 문의하거나, 그리고/또는 이전에 논의된 양상들을 놓칠 수도 있다. 이들 옵션들 중 어떠한 것도 최적이지는 않을 수도 있으며: 다른 사람은, 스피커의 더 이전의 스피치에 대해 질의하는 것을 귀찮아할 수도 있고 그리고/또는 신참자의 지각(또는 사람의 주의력 부족)은 2개의 예들로서 강조될 수도 있다.

[0003] 몇몇 실시예들에서, 증강 현실 디바이스들을 사용하기 위한 방법이 제시된다. 방법은, 제 1 증강 현실 디바이스에 의해, 실제-세계 장면에서 사람에 의해 말해진 스피치를 캡쳐하는 단계를 포함할 수도 있다. 방법은, 제 1 증강 현실 디바이스에 의해, 스피치에 대응하는 텍스트를 수신하기 위한 제 2 증강 현실 디바이스를 결정하는 단계를 포함할 수도 있다. 방법은, 스피치에 대응하는 텍스트를 제 2 증강 현실 디바이스에 송신하는 단계를 포함할 수도 있다.

[0004] 그러한 방법의 실시예들은 다음 중 하나 또는 그 초과를 포함할 수도 있다: 제 2 증강 현실 디바이스는 스피치 동안 존재하지 않을 수도 있다. 방법은, 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인(attribute)되도록, 제 2 증강 현실 디바이스의 헤드-마운티드 디스플레이에 의해 사람에 의한 스피치에 대응하는 텍스트를 디스플레이하는 단계를 포함할 수도 있다. 텍스트는, 실제-세계 장면 상에 중첩되는 텍스트를 포함하는 그래픽 스피치 버블(bubble)을 통해 그래픽적으로 사람에게서 기인될 수도 있다. 방법은, 제 2 증강 현실 디바이스에 의해, 중요한 것으로 카테고리화된 하나 또는 그 초과의 단어들을 결정하는 단계를 포함할 수도 있다. 제 2 증강 현실 디바이스의 헤드-마운티드 디스플레이에 의해 사람에 의한 스피치에 대응하는 텍스트를 디스플레이하는 단계는, 중요한 것으로 결정됐던 텍스트의 하나 또는 그 초과의 단어들을 강조하는 단계를 포함할 수도 있다. 방법은, 스피치에 대응하는 텍스트로 스피치를 변환(transcribe)하는 단계를 포함할 수도 있다. 방법은, 제 1 증강 현실 디바이스에 의해 제 2 증강 현실 디바이스로, 스피치를 말했던 사람의 아이덴티티의 표시를 송신하는 단계를 포함할 수도 있다. 방법은, 제 2 증강 현실 디바이스에 의해, 스피치에 대응하는 텍스트에 액세스하기 위해 제 2 증강 현실 디바이스의 사용자로부터 입력을 수신하는 단계를 포함할 수도 있다. 방법은, 제 1 증강 현실 디바이스에 의해, 실제-세계 장면에서 사람에 의해 말해진 스피치에 대응하는 데이터를 원격 서버에 송신하는 단계를 포함할 수도 있다. 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용할 수도 있다. 스피치는 제 2 언어로 말해질 수도 있다. 방법은, 제 1 증강 현실 디바이스에 의해, 스피치의 텍스트를 수신하는 단계를 포함할 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 방법은, 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인되도록, 제 1 증강 현실 디바이스의 헤드-마운티드 디스플레이에 의해, 사람에 의한 스피치에 대응하는 텍스트를 디스플레이하는 단계를 포함할 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 사람에 의한 스피치에 대응하는 텍스트는, 텍스트가 사람의 안면(face) 위에 중첩되도록 디스플레이될 수도 있다. 스피치에 대응하는 텍스트는 사람의 눈들에 걸쳐 스크롤될 수도 있다.

[0005] 몇몇 실시예들에서, 증강 현실 시스템이 제시될 수도 있다. 제 1 증강 현실 디바이스는 마이크로폰을 포함할 수도 있다. 제 1 증강 현실 디바이스는 통신 모듈을 포함할 수도 있다. 제 1 증강 현실 디바이스는 제 1 프로세서를 포함할 수도 있다. 제 1 증강 현실 디바이스는, 제 1 프로세서와 통신가능하게 커플링되고 제 1 프로세서에 의해 판독가능하며, 프로세서-판독가능 명령들의 제 1 세트가 저장되어 있는 메모리를 포함할 수도 있고, 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금 마이크로폰으로부터 실제-세계 장면에서 사람에 의해 말해진 스피치를 캡쳐하게 할 수도 있다. 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 스피치에 대응하는 텍스트를 수신하기 위한 제 2 증강 현실 디바이스를 결정하게 할 수도 있다. 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 스피치에 대응하는 텍스트가 통신 모듈을 통해 제 2 증강 현실 디바이스로 송신되게 할 수도 있다.

[0006] 그러한 시스템의 실시예들은 다음 중 하나 또는 그 초과를 포함할 수도 있다: 제 2 증강 현실 디바이스는 스피치 동안 존재하지 않을 수도 있다. 제 2 증강 현실 디바이스는 헤드-마운티드 디스플레이, 제 2 프로세서; 및 제 2 프로세서와 통신가능하게 커플링되고 제 2 프로세서에 의해 판독가능하며, 프로세서-판독가능 명령들의 제 2 세트가 저장된 제 2 메모리를 포함할 수도 있다. 제 2 프로세서에 의해 실행된 경우, 프로세서-판독가능 명령들의 제 2 세트는, 제 2 프로세서로 하여금, 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인되도록, 헤드-마운티드 디스플레이가 사람에 의한 스피치에 대응하는 텍스트를 디스플레이하게 할 수도 있다. 텍스트는, 실제-세계 장면 상에 중첩되는 텍스트를 포함하는 그래픽 스피치 버블을 통해 그래픽적으로 사람에게서 기인될 수도 있다. 프로세서-판독가능 명령들의 제 2 세트는, 제 2 프로세서에 의해 실행된 경우, 제 2 프로세서로 하여금, 중요한 것으로 카테고리화된 하나 또는 그 초과의 단어들을 결정하게 하도록 추가적으로 구성될 수도 있다. 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인되도록, 헤드-마운티드 디스플레이가 사람에 의한 스피치에 대응하는 텍스트를 디스플레이하게 하는 프로세서-판독가능 명령들의 제 2 세트의 프로세서-판독가능 명령들은, 제 2 프로세서로 하여금, 중요한 것으로 결정됐던 텍스트의 하나 또는 그 초과의 단어들을 강조하게 하도록 구성된 프로세서-판독가능 명령들을 포함할 수도 있다.

[0007] 부가적으로 또는 대안적으로, 그러한 시스템의 실시예들은 다음 중 하나 또는 그 초과를 포함할 수도 있다: 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 스피치에 대응하는 텍스트로 스피치를 변환하게 하도록 추가적으로 구성될 수도 있다. 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 스피치를 말했던 사람의 아이덴티티의 표시가 통신 모듈을 통해 제 2 증강 현실 디바이스로 송신되게 하도록 추가적으로 구성될 수도 있다. 프로세서-판독가능 명령들은, 제 2 프로세서에 의해 실행된 경우, 제 2 프로세서로 하여금, 스피치에 대응하는 텍스트에 액세스하기 위해 제 2 증강 현실 디바이스의 사용자로부터 입력을 수신하게 하도록 추가적으로 구성될 수도 있다. 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 실제-세계 장면에서 사람에 의해 말해진 스피치에 대응하는 데이터가 통신 모듈을 통해 원격 서버에 송신되게 하도록 추가적으로 구성될 수도 있다. 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용할 수도 있다. 스피치는 제 2 언어로 말해질 수도 있다. 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 통신 모듈을 통해 스피치의 텍스트를 수신하게 하도록 추가적으로 구성될 수도 있다. 텍스트는 제 1 언어로 존재할 수도 있다. 프로세서-판독가능 명령들의 제 1 세트는, 제 1 프로세서에 의해 실행된 경우, 제 1 프로세서로 하여금, 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인되도록, 제 1 증강 현실 디바이스의 헤드-마운티드 디스플레이에 의해, 사람에 의한 스피치에 대응하는 텍스트가 디스플레이되게 하도록 추가적으로 구성될 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 사람에 의한 스피치에 대응하는 텍스트는, 텍스트가 사람의 안면 위에 중첩되도록 디스플레이될 수도 있다. 스피치에 대응하는 텍스트는 사람의 눈들에 걸쳐 스크롤될 수도 있다.

[0008] 몇몇 실시예들에서, 증강 현실 장치가 제시된다. 장치는, 실제-세계 장면에서 사람에 의해 말해진 스피치를 캡쳐하기 위한 수단을 포함할 수도 있다. 장치는, 스피치에 대응하는 텍스트를 수신하기 위한 제 2 증강 현실 디바이스를 결정하기 위한 수단을 포함할 수도 있다. 장치는, 스피치에 대응하는 텍스트를 제 2 증강 현실 디바이스에 송신하기 위한 수단을 포함할 수도 있다.

[0009] 그러한 장치의 실시예들은 다음 중 하나 또는 그 초과를 포함할 수도 있다: 제 2 증강 현실 디바이스는 스피치 동안 존재하지 않을 수도 있다. 장치는, 스피치에 대응하는 텍스트로 스피치를 변환하기 위한 수단을 포함할 수도 있다. 장치는, 제 2 증강 현실 디바이스로, 스피치를 말했던 사람의 아이덴티티의 표시를 송신하기 위한 수단을 포함할 수도 있다. 장치는, 실제-세계 장면에서 사람에 의해 말해진 스피치에 대응하는 데이터를 원격 서버에 송신하기 위한 수단을 포함할 수도 있다. 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용할 수도 있다. 스피치는 제 2 언어로 말해질 수도 있다. 장치는, 스피치의 텍스트를 수신하기 위한 수단을 포함할 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 장치는, 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인되도록, 사람에 의한 스피치에 대응하는 텍스트를 디스플레이하기 위한 수단을 포함할 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 사람에 의한 스피치에 대응하는 텍스트는, 텍스트가 사람의 안면 위에 중첩되도록 디스플레이될 수도 있다. 스피치에 대응하는 텍스트는 사람의 눈들에 걸쳐 스크롤될 수도 있다.

[0010] 몇몇 실시예들에서, 증강 현실을 위해 비-일시적인 프로세서-판독가능 매체 상에 상주하는 컴퓨터 프로그램 물건이 제시된다. 컴퓨터 프로그램 물건은, 제 1 증강 현실 디바이스의 프로세서로 하여금, 실제-세계 장면에서 사람에 의해 말해진 스피치를 캡쳐하게 하도록 구성된 프로세서-판독가능 명령들을 포함할 수도 있다. 컴퓨터 프로그램 물건은, 프로세서로 하여금, 스피치에 대응하는 텍스트를 수신하기 위한 제 2 증강 현실 디바이스를 결정하게 하도록 구성된 프로세서-판독가능 명령들을 포함할 수도 있다. 컴퓨터 프로그램 물건은, 프로세서로 하여금, 스피치에 대응하는 텍스트가 제 2 증강 현실 디바이스에 송신되게 하도록 구성된 프로세서-판독가능 명령들을 포함할 수도 있다.

[0011] 그러한 컴퓨터 프로그램 물건의 실시예들은 다음 중 하나 또는 그 초과를 포함할 수도 있다: 제 2 증강 현실 디바이스는 스피치 동안 존재하지 않을 수도 있다. 프로세서-판독가능 명령들은, 프로세서로 하여금, 스피치에 대응하는 텍스트로 스피치를 변환하게 하도록 구성된 프로세서-판독가능 명령들을 더 포함할 수도 있다. 프로세서-판독가능 명령들은, 프로세서로 하여금, 스피치를 말했던 사람의 아이덴티티의 표시가 제 2 증강 현실 디바이스로 송신되게 하도록 구성된 프로세서-판독가능 명령들을 더 포함할 수도 있다. 프로세서-판독가능 명령들은, 프로세서로 하여금, 실제-세계 장면에서 사람에 의해 말해진 스피치에 대응하는 데이터가 원격 서버로 송신되게 하도록 구성된 프로세서-판독가능 명령들을 더 포함할 수도 있다. 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용할 수도 있다. 스피치는 제 2 언어로 말해질 수도 있다. 컴퓨터 프로그램 물건은, 프로세서로 하여금, 스피치의 텍스트를 수신하게 하도록 구성된 프로세서-판독가능 명령들을 포함할 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 컴퓨터 프로그램 물건은, 프로세서로 하여금, 실제-세계 장면 상에 텍스트를 중첩함으로써 텍스트가 그래픽적으로 사람에게서 기인되도록, 사람에 의한 스피치에 대응하는 텍스트가 헤드-마운티드 디스플레이를 통해 디스플레이되게 하도록 구성된 프로세서-판독가능 명령들을 포함할 수도 있으며, 여기서, 텍스트는 제 1 언어로 존재한다. 사람에 의한 스피치에 대응하는 텍스트는, 텍스트가 사람의 안면 위에 중첩되도록 디스플레이될 수도 있다. 스피치에 대응하는 텍스트는 사람의 눈들에 걸쳐 스크롤될 수도 있다.

[0012] 다양한 실시예들의 속성 및 이점들의 추가적인 이해는 다음의 도면들을 참조하여 실현될 수도 있다. 첨부된 도면들에서, 동일한 컴포넌트들 또는 피쳐들은 동일한 참조 라벨을 가질 수도 있다. 추가적으로, 동일한 타입의 다양한 컴포넌트들은, 동일한 컴포넌트들 사이를 구별하는 파선 및 제 2 라벨에 의해 기준 라벨을 따름으로써 구별될 수도 있다. 제 1 기준 라벨만이 명세서에서 사용되면, 제 2 기준 라벨과는 관계없이 동일한 제 1 기준 라벨을 갖는 동일한 컴포넌트들 중 임의의 하나에 설명이 적용가능하다.

[0013] 도 1a는 헤드 마운티드 디스플레이를 통해 가상 오브젝트들을 제시하도록 구성된 시스템의 일 실시예를 도시한다.
[0014] 도 1b는 AR 디바이스들 사이의 통신 및/또는 원격 컴퓨터 시스템과의 통신을 허가하도록 구성된 시스템의 일 실시예를 도시한다.
[0015] 도 2는 사용자가 존재하지 않았던 스피치에 대응하는 텍스트를 제공하는데 사용되는 헤드-마운티드 디스플레이의 제 1 사람 관점의 일 실시예를 도시한다.
[0016] 도 3은, 사용자의 선호된 언어 이외의 언어로 말해진 스피치에 대응하는 텍스트를 제공하기 위해 사용되는 헤드-마운티드 디스플레이의 제 1 사람 관점의 일 실시예를 도시한다.
[0017] 도 4는, 사용자가 존재하지 않았던 스피치에 대응하는 텍스트를 제공하기 위해 증강 현실 디바이스를 사용하기 위한 방법의 일 실시예를 도시한다.
[0018] 도 5는, 언어 번역 서비스들을 제공하기 위해 AR 디바이스를 사용하기 위한 방법의 일 실시예를 도시한다.
[0019] 도 6은, 언어 번역 서비스들을 제공하기 위해 사용되는 헤드-마운티드 디스플레이의 제 1 사람 관점의 일 실시예를 도시한다.
[0020] 도 7은, 언어 번역 서비스들을 제공하기 위해 증강 현실 디바이스를 사용하고, 사용자가 존재하지 않았던 스피치에 대응하는 텍스트를 또한 제공하기 위한 방법의 일 실시예를 도시한다.
[0021] 도 8은 컴퓨터 시스템의 일 실시예를 도시한다.

[0022] 증강 현실(AR) 글래스들과 같은 AR 디바이스 또는 더 일반적으로는, 헤드 마운티드 디스플레이를 포함하는 임의의 형태의 착용가능한 증강 현실 디바이스는, 사용자가 HMD에 의해 사용자에게 디스플레이된 가상 오브젝트들(예를 들어, 애플리케이션들, 텍스트, 그래픽)과 중첩된 실제-세계 장면들을 뷰잉하게 할 수도 있다. 예를 들어, AR 디바이스는, 사용자에 의해 뷰잉되는 장면의 이미지들을 캡쳐하기 위해 카메라를 사용할 수도 있으며, 장면 내의 실제-세계 오브젝트들의 타입 및/또는 포지션에 기초하여 가상 오브젝트들을 중첩시킬 수도 있다. HMD는, 사용자에 의해 뷰잉되는 장면에서 발생하는 스피치에 대응하는 텍스트와 같이 사용자가 관심있는 정보를 제시하는데 사용될 수도 있다.

[0023] 한명 또는 그 초과의 다른 사람들이 대화 동안 AR 디바이스들을 사용하고 있으면, 이미 진행중인 대화에 참가하여 AR 디바이스를 사용하는 경우 (또는 사용자가 주의를 기울이지 않았다면), 사용자가 존재하지 않았던 또는 청취하지 않았던 대화의 적어도 일부들의 텍스트를 사용자가 수신하는 것이 가능할 수도 있다. 예를 들어, 디바이스-투-디바이스 통신 프로토콜을 통해, 대화에 대해 존재하는 사람에 의해 소유되는 다른 증강 현실 디바이스는 대화의 텍스트를 송신할 수도 있다. 이러한 텍스트는, 장면에 존재하는 사람들에 대한 스피치 버블들의 형태로 사용자에게 HMD에 의해 디스플레이될 수도 있다. 텍스트에 기인했었을 사람의 표시(예를 들어, 사람의 안면의 이미지 및/또는 사람의 증강 현실 디바이스의 식별)가 또한 송신될 수도 있다. 과거의 대화의 텍스트는 사용자에 의해 착용된 HMD에 의하여, 사용자에게 제시되고 스피치 버블들 또는 몇몇 다른 형태의 가상 오브젝트로 디스플레이될 수도 있다. 각각의 스피치 버블 내의 텍스트는, 부가적인 스피치가 사람들에 의해 말해질 때마다 부가될 수도 있다. 그러므로, 사용자는, 사용자가 청취하지 않았던 (예를 들어, 사용자가 존재하지 않았거나 주의를 기울이지 않았던) 동안 발생했던 스피치를 통해 네비게이팅할 수 있을 수도 있다.

[0024] 하나의 스피치 버블의 과거 스피치에 대응하는 텍스트가 검토되는 경우, 스피치의 시간에 장면에 존재했던 다른 사람들에 대응하는 다른 스피치 버블들 내의 텍스트가 동시에 디스플레이될 수도 있어서, 사용자가 그 시간에 발생했던 대화의 각각의 측면의 맥락을 갖게 한다. 몇몇 실시예들에서, 중요한 것으로 간주되는 단어들은, 사용자가 사람의 스피치의 중요 부분들을 신속히 식별하게 하기 위해 사용자에게 디스플레이되는 것으로서 강조될 수도 있다.

[0025] AR 디바이스들은 또한, 상이한 언어들을 말하는 2명 또는 그 초과의 사람들이 교류하는 것을 도울 시에 유용할 수도 있다. 사용자가 AR 디바이스의 HMD를 사용하고 있으면, AR 디바이스는, 사용자의 모국어(또는 사용자가 사용하기를 원하는 몇몇 다른 언어)와는 상이한 언어로 말해진 사람으로부터의 스피치를 캡쳐할 수 있을 수도 있다. AR 디바이스는, 사람의 말해진 언어가 사용자의 모국어와 상이한 때를 검출하도록 구성될 수도 있다. 사람의 스피치는, 사용자의 모국어(또는 몇몇 다른 선택된 원하는 언어)로의 번역을 위해 캡쳐되고 원격 서버에 송신되며, 텍스트로 변환될 수도 있다. 사람이 (외국어로) 말했던 사용자의 모국어의 텍스트는 AR 디바이스의 HMD를 통해 사용자에게 디스플레이될 수도 있다. 텍스트는, AR 디바이스에 의해 실제-세계 장면 상으로 중첩된 가상 오브젝트로서 사용자에게 제시될 수도 있다. 가상 오브젝트는, 외국어로 단어들을 말했던 사람에게 텍스트가 기인된다는 것을 나타내기 위해, 몇몇 코믹 스트립들 내의 텍스트와 유사한 스피치 "버블"의 형태로 사용자에게 제시될 수도 있다. 사람이 외국어로 말했던 동안 또는 그 직후, 사용자는 사용자의 모국어로 그 사람의 스피치의 텍스트를 판독할 수 있을 수도 있으며, 텍스트가 그 사람에게서 기인될 수 있다는 것을 알 수도 있다. 그러한 어레인지먼트는, 상이한 언어들을 말하는 2명 또는 그 초과의 사람들이, 언어 번역 및 변환에서의 보조를 위해 AR 디바이스들에 의존하면서 성공적으로 통신하게 할 수도 있다. 또한, 사용자가 사람의 스피치 대신 대안적인 오디오를 청취하고 있지 않으므로, 사람의 감정 레벨이 사용자에 의해 더 용이하게 확인될 수도 있다. 몇몇 실시예들에서, 가상 오브젝트는, 텍스트를 말했던 사람의 안면 위에 중첩된 스크롤링 텍스트로서 텍스트를 사용자에게 제시할 수도 있다. 그러므로, AR 디바이스의 사용자는, 스피치를 말했던 사람과 눈 맞춤(eye contact)을 유지할 수 있다(또는 적어도 유지하는 것으로 나타날 수 있다). 몇몇 실시예들에서, 가상 오브젝트는 스피치를 말했던 사람의 눈들과 정렬될 수도 있다. 그러므로, 사용자가 스피커의 머리 (또는 스피커 근처의 다른 곳) 위에 디스플레이된 스피치 버블을 판독하고 있다는 것이 스피커에게 나타나지 않을 수도 있다.

[0026] 그러한 어레인지먼트는, 장면에 존재하는 다수의 사람들 중에서 스피치의 발원지를 구별할 수 있을 수도 있다. AR 디바이스는 (예컨대, 다수의 마이크로폰들을 사용하고 비행-시간(time-of-flight) 분석을 수행함으로써) 수신된 스피치의 방향 또는 위치를 결정하고, 스피치가 기원(originate)됐던 곳에 어떤 사람이 로케이팅되었는지를 결정할 수 있을 수도 있다. 따라서, 말해진 스피치는 사용자에 의해 뷰잉된 장면에 존재하는 적절한 사람에게서 기인될 수도 있다. 장면 내에 존재하는 안면들이 식별될 수도 있다. 따라서, 2명 또는 그 초과의 사람들이 장면에 존재하면, 스피치는 적절한 사람에게서 기인될 수도 있으며, 따라서, 스피치 버블은 각각의 사람에 대해 존재하고, 그 특정한 사람에게서 기인되는 텍스트만을 포함할 수도 있다. 장면에 존재하는 사람의 음성 및/또는 안면을 추적함으로써, (사람이 말하고 있지 않는 경우라도) 그들이 장면 주위를 이동하고 그리고/또는 장면을 떠나거나 재진입할 경우, 사람의 스피치 버블은 사람을 추적할 수도 있다.

[0027] 추가적으로, 언어 번역 양상들을 스피치 공유 양상들과 결합시키는 어레인지먼트들이 제시될 수도 있다. 그러므로, AR 디바이스의 사용자가 스피치 동안 존재하지 않으면, 사용자의 모국어 또는 선택된 언어가 스피치가 처음에 말해졌던 그리고/또는 처음에 번역됐던 언어와는 상이하더라도, 사용자의 AR 디바이스는 스피치에 대응하는 텍스트를 요청 및 수신할 수 있을 수도 있다.

[0028] 도 1a는 헤드-마운티드 디스플레이(HMD)를 통해 가상 오브젝트들을 사용자에게 디스플레이하도록 구성된 시스템(100A)의 일 실시예를 도시한다. 시스템(100)은 증강 현실(AR) 디바이스의 일부일 수도 있다. 시스템(100)은 이미지 캡쳐 모듈(110), 안면 인식 및 추적 모듈(120), 오디오 캡쳐 및 포지셔닝 모듈(130), 오디오 프로세싱 엔진(135), 통신 모듈(140), 사용자 선호도 모듈(150), 사용자 인터페이스 모듈(160), 디스플레이 모듈(170), 모션/포커스 추적 모듈(175), 및 안면 중첩 모듈(180)을 포함할 수도 있다. 시스템(100)의 다른 실시예들은 더 적거나 더 많은 수들의 컴포넌트들을 포함할 수도 있다. 전력 공급 컴포넌트들과 같은 일반적으로 알려진 컴포넌트들은 간략화를 위해 도 1로부터 생략되었다. 하나 또는 그 초과의 프로세서들은 시스템(100A)의 모듈들 중 하나 또는 그 초과의 기능들을 수행할 수도 있다. 도 7의 컴퓨터 시스템(700)과 같은 컴퓨터 시스템은 시스템(100)의 하나 또는 그 초과의 모듈들의 기능들을 수행할 수도 있다. 명확화를 위해, "사용자"는 (시스템(100)을 포함할 수도 있는) AR 디바이스를 사용하는 사람을 지칭하고, "사람"은 (시스템(100)을 포함할 수도 있는) AR 디바이스를 사용할 수도 있거나 사용하지 않을 수도 있는 몇몇 다른 사람을 지칭한다.

[0029] 이미지 캡쳐 모듈(110)은, 사용자에 의해 뷰잉되고 있는 장면의 이미지를 주기적으로 캡쳐하도록 구성될 수도 있다. 예를 들어, 이미지 캡쳐 모듈(110)은, 사용자에 의해 뷰잉되고 있는 장면의 시야 범위(field-of-view)를 캡쳐하도록 포지셔닝되는 이미지 캡쳐 디바이스를 포함할 수도 있다. 이미지 캡쳐 모듈(110)은 카메라를 포함할 수도 있다. 카메라는, 그 카메라가 사용자에 의해 뷰잉된 장면의 이미지들을 캡쳐하도록 포인팅될 수도 있다. 이미지 캡쳐 모듈(110)은 이미지들을 신속하게 캡쳐할 수도 있다. 예를 들어, 다수의 프레임들은 매 초마다 이미지 캡쳐 모듈(110)에 의해 캡쳐될 수도 있다. 이들 이미지들 중 몇몇 또는 전부는, 사람들 및 그들의 아이덴티티들과 같은 실제-세계 장면 내의 다양한 오브젝트들의 위치를 결정하기 위해 프로세싱될 수도 있다.

[0030] 이미지 캡쳐 모듈(110)에 의해 캡쳐된 이미지들은, 안면 인식 및 추적 모듈(120)로 전달될 수도 있다. 안면 인식 및 추적 모듈(120)은 먼저, 이미지 캡쳐 모듈(110)로부터 수신된 이미지 내에 존재하는 각각의 안면을 로케이팅시킬 수도 있다. 안면 인식 및 추적 모듈(120)은, 말했던 사람의 안면의 이미지를 캡쳐 및 저장할 수도 있다. 그러므로, 말했던 사람의 이미지가 저장될 수도 있다. 그 후, 안면 인식 및 추적 모듈(120)은, 안면이 이전에-식별된 사람에 대응하는지를 결정할 수도 있다. 안면 인식 및 추적 모듈(120)은, 사용자가 이전에 교류했던 사람들의 데이터베이스로의 액세스를 가질 수도 있다. 그러한 데이터베이스는, 언어 번역 서비스들이 그 사람에 대해 필요한지 또는 필요하지 않은지를 표시할 수도 있다. 일단 사람이 로케이팅되고 가급적 식별되면, 그들이 사용자에 의해 뷰잉된 장면 내에서 그리고 내로 그리고 외부로 이동함에 따라, 사람의 위치(또는 더 상세하게는, 가급적 사람의 안면의 위치)가 추적될 수도 있다. 안면과 연관된 사람의 아이텐티티가 식별되지 않으면, 사람은 이방인(stranger)으로서 식별될 수도 있다. 몇몇 실시예들에서, 사람의 눈들의 위치가 추적된다. 사람의 눈들을 추적하는 것은, 그 사람들이 말하고 있는 사람을 결정하기 위해, 그리고 사람의 안면 및/또는 눈들 위에 가상 오브젝트들을 중첩시키기 위해 유용할 수도 있으므로, 가상 오브젝트가 사용자에 의해 뷰잉되는 경우, 사용자는 적어도 그 사람과의 눈맞춤을 유지하는 것으로 나타난다.

[0031] 오디오 캡쳐 및 포지셔닝 모듈(130)은 시스템(100) 근방에서 오디오를 캡쳐할 수도 있다. 예를 들어, 오디오 캡쳐 및 포지셔닝 모듈(130)은, 사용자에 의해 뷰잉되는 장면 내에 존재하는 사람들(또한 스피커들로서 지칭됨)에 의해 말해진 스피치를 캡쳐하도록 구성될 수도 있다. 오디오 캡쳐 및 포지셔닝 모듈(130)은 하나 또는 그 초과의 마이크로폰들을 포함할 수도 있다. 다수의 마이크로폰들은, 예컨대 비행 시간 분석에 기초하여, 오디오가 기원됐던 위치를 결정하는 것을 보조하는데 사용될 수도 있다. 오디오 캡쳐 및 포지셔닝 모듈(130)은, 스피치와 같은 사운드가 기원됐던 방향 또는 위치를 결정하도록 구성될 수도 있다. 그러므로, 오디오 캡쳐 및 포지셔닝 모듈(130)은, 오디오를 캡쳐하고 오디오의 소스를 결정하는데 사용될 수도 있다. 예를 들어, 다수의 사람들이 대화에 참가하고 있다면, 오디오 캡쳐 및 포지셔닝 모듈(130)은 사람의 스피치를 캡쳐하고, 어떤 사람이 스피치를 말했는지를 결정할 수도 있다. 몇몇 실시예들에서, 오디오 캡쳐 및 포지셔닝 모듈(130)은 사용자에 의해 뷰잉된 장면에 존재하지 않는 사람들의 오디오를 캡쳐하는데 사용될 수도 있다. 예를 들어, 사용자의 뒤에서 발생하는 스피치가 여전히 캡쳐되고 그의 소스가 결정될 수도 있다.

[0032] 사용자 선호도 모듈(150)은, 사용자의 선호도들을 저장하도록 구성된 컴퓨터-판독가능 저장 매체일 수도 있다. 사용자 선호도 모듈(150)은, 사용자가 어떤 언어를 사용자의 모국어로 번역되기를 원하거나 원치않는지를 사용자가 특정하게 할 수도 있다. 사용자 선호도 모듈(150)은 또한, 사용자가 자신의 모국어를 특정하게 할 수도 있다. 사용자 선호도 모듈(150)은, 스피치의 텍스트가 다른 AR 디바이스들로부터 요청될지를 사용자가 특정하게 할 수도 있다. 텍스트 사이즈, 텍스트 컬러, 및/또는 키워드들이 하이라이트될지 여부와 같은 다른 선호도들은 사용자에 의해 특정될 수도 있고, 사용자 선호도 모듈(150)을 사용하여 저장될 수도 있다. 예를 들어, 사용자는, (사용자에게 특정하게 지향되었을 가능성이 있는 스피치의 단서로서 기능할 수도 있는) 사용자의 이름과 같이 사용자가 텍스트로 하이라이트되기를 원할 특정한 키워드들을 특정할 수 있을 수도 있다.

[0033] 오디오 캡쳐 및 포지셔닝 모듈(130)이 오디오를 캡쳐하는 경우, 오디오는, 스피치가 사용자의 모국어로 존재하는지를 결정하기 위하여 오디오 프로세싱 엔진(135)에 의해 로컬적으로 분석될 수도 있다(몇몇 실시예들에서, 그러한 프로세싱은 시스템(100)으로부터 원격으로 수행될 수도 있음). 스피치가 사용자의 모국어인 것으로 결정되면, 언어의 어떠한 추가적인 프로세싱도 수행되지 않을 수도 있다. 그러나, 스피치가 사용자의 모국어 이외의 언어인 것으로 결정되면, 부가적인 프로세싱이 번역된 텍스트를 사용자에게 제공하기 위해 시스템(100)에 의해 또는 원격으로 수행될 수도 있다. 몇몇 실시예들에서, 원격 컴퓨터 시스템은 번역 및/또는 변환 서비스들을 수행하는데 사용될 수도 있다. 스피치가 사용자의 모국어가 아닌 것으로 결정되면, 텍스트의 디지털 표현은 번역 및 변환을 위해 원격 시스템으로 송신될 수도 있다. 몇몇 실시예들에서, 오디오 프로세싱 엔진(135)은 번역 및/또는 변환 서비스들을 수행할 수도 있다. 스피치가 다른 언어로 번역될지 또는 번역되지 않을지와는 관계없이, 스피치는 저장, 다른 AR 디바이스로의 송신, 및/또는 AR 디바이스의 HMD를 통한 사용자로의 디스플레이를 위해 텍스트로 변환될 수도 있다.

[0034] 통신 모듈(140)은, 번역 및/또는 변환을 위해 (사용자의 모국어 또는 선택된 언어와는 다른 외국어일 수도 있는) 스피치의 디지털 표현을 송신하는데 사용될 수도 있다. 오디오의 디지털 표현은, 인터넷과 같은 하나 또는 그 초과의 네트워크들을 통해 원격 서버에 무선으로 송신될 수도 있다. 원격 서버는 오디오를 텍스트로 번역 및/또는 변환할 수도 있다. 통신 모듈(140)은 또한, AR 디바이스에 의해 저장될 수도 있고 그리고/또는 AR 디바이스의 HMD를 통해 사용자에게 디스플레이될 수도 있는 텍스트를 수신하도록 기능할 수도 있다.

[0035] 부가적으로, 통신 모듈(140)은, 시스템(100)과 유사한 시스템들과 같이 다른 사람들에 대한 서비스들을 제공하는 다른 시스템들/디바이스들과 통신하도록 기능할 수도 있다. 그러한 통신은 스피치의 텍스트가, 디바이스-투-디바이스 프로토콜을 통해 또는 원격 시스템을 통해 AR 디바이스 사이에서 직접 교환되게 할 수도 있다. 그러한 어레인지먼트들은 사용자들이, 사용자 및 사용자의 AR 디바이스가 스피치 동안 존재하지 않았던 경우 그러한 스피치가 다른 AR 디바이스에 의해 캡쳐되었다면, 말해진 스피치에 대응하는 텍스트를 판독하게 할 수도 있다. 그러므로, 시스템(100)은 통신 모듈(140)을 통해, 사용자로의 디스플레이를 위하여 다른 AR 디바이스들과 같은 다른 시스템들로부터 디지털화된 스피치 또는 텍스트를 수신하도록 구성될 수도 있다. 다른 AR 디바이스와 같은 다른 시스템으로부터 통신 모듈(140)을 통해 수신된 스피치 또는 텍스트는, 스피치를 말했던 사람을 식별하는 식별자와 연관될 수도 있다. 식별자는, 사람이 보는 것과 같은 것에 대응하는 이미지 또는 몇몇 다른 형태의 데이터일 수도 있다. 식별자는, 스피치를 말했던 사람에 의해 소유되는 시스템에 대응하는 몇몇 형태의 고유한 식별자일 수도 있다. 그러므로, 식별자는 시스템(100)이 텍스트가 어떤 사람에게서 기인되어야 하는지를 결정하게 할 수도 있다.

[0036] HMD일 수도 있는 디스플레이 모듈(170)은 텍스트를 사용자에게 제시하기 위한 출력 디바이스로서 기능할 수도 있다. 예를 들어, 디스플레이 모듈(170)은, 사용자의 한쪽 또는 양쪽의 눈들로 직접 광을 투영하거나 사용자가 뷰잉하는 반사형 표면 상으로 광을 투영하는 프로젝터를 포함할 수도 있다. 몇몇 실시예들에서, 사용자는, 광이 디스플레이 모듈(170)에 의해 투영되는 글래스들(또는 단일 렌즈)을 착용한다. 따라서, 사용자는 장면에 존재하는 가상 오브젝트들 및 실제-세계 오브젝트들을 동시에 뷰잉할 수도 있다. HMD가 가상 오브젝트들을 사용자에게 제시하는데 사용될 수도 있으므로, 사용자를 제외한 다른 사람들은 가상 오브젝트들을 볼 수 없을 수도 있다. 그러므로, 스피치 버블이 가상 오브젝트로서 제시되면, 사용자만이 텍스트 버블을 볼 수도 있다.

[0037] 다양한 어레인지먼트들은, 특정한 사람에게서 기인될 텍스트를 사용자에게 제시하기 위하여 디스플레이 모듈(170)에 의해 사용될 수도 있다. 사용자에게 제시될 텍스트는, 스피치 버블과 같은 가상 오브젝트의 형태로 제시될 수도 있다. 스피치 버블은, 스피치 버블 내의 텍스트가 어떤 사람에게서 기인되어야 하는지를 표시하는 그래픽 엘리먼트일 수도 있다. 스피치 버블들은, 그들이 텍스트에 의해 표현된 스피치를 말했던 사람 주변에 나타나도록 실제-세계 장면 상에서 중첩될 수도 있다. 스피치 버블들은, 실제-세계 장면에서 스피치 버블 "뒤에" 있는 것을 사용자가 볼 수도 있도록 부분적으로 투명할 수도 있다. 디스플레이 모듈(170)은 또한, 장면 내에 존재하는 사람들의 이름 및 언어와 같은 부가적인 정보를 제시하는데 사용될 수도 있다. 다른 실시예들에서, 텍스트는, 스피치를 말했던 사람의 안면 위의 가상 오브젝트가 발생하는 경우 중첩될 수도 있다. 그러므로, 사용자가 텍스트를 판독하고 있는 경우, 사용자는 스피치를 말했던 사람을 볼 것이다. 스피치를 말했던 사람에게는, 사용자가 눈맞춤을 행하고 있는 것처럼 나타날 수도 있다. 이것은, 청각장애인에 대한 언어 번역 및/또는 서비스들에 특히 유용할 수도 있으며: 사용자는 스피커와의 눈맞춤의 외관(appearance)을 적어도 유지하면서 스피치에 대응하는 텍스트를 판독할 수도 있다. 몇몇 실시예들에서, 스피치에 대응하는 텍스트는, 사용자와 스피커 사이의 눈맞춤의 외관을 추가적으로 용이하게 하기 위해 스피커의 눈들에 걸쳐 스크롤링될 수도 있다.

[0038] 사용자 인터페이스 모듈(160)은 사용자가 입력을 제공하도록 허가할 수도 있다. 예를 들어, 사용자 인터페이스 모듈(160)은 팔찌(bracelet)일 수도 있으며, 그 팔찌는 자신 상에 하나 또는 그 초과의 버튼들을 갖는다. 사용자는 시스템(100)에 입력을 제공하기 위해 이들 버튼들을 작동시킬 수 있을 수도 있다. 예를 들어, 사용자는, 스피치 번역 서비스들을 활성화 또는 비활성화시키거나 사용자가 존재하지 않았던 (또는 주의를 기울이지 않았던) 동안 발생했던 스피치에 대응하는 텍스트를 요청하기를 원할 수도 있다. 사용자는 또한, 이전의 스피치의 텍스트를 통해 스크롤링하기 위하여 사용자 인터페이스 모듈(160)을 사용할 수도 있다. 팔찌가 일 형태의 사용자 인터페이스이지만, 음성-인식 모듈 또는 시선-추적 모듈과 같은 다양한 다른 사용자 인터페이스들이 사용자가 입력을 제공하기 위해 사용될 수도 있음을 이해해야 한다.

[0039] 모션/포커스 추적 모듈(175)은, 사용자의 머리의 각도 및/또는 사용자의 눈 포커스의 방향을 결정하는데 사용될 수도 있다. 사용자의 머리의 각도를 추적하기 위해, 가속도계 또는 자이로스코프가 사용될 수도 있다. 몇몇 실시예들에서, 사용자의 머리의 각도에 의존하여, 사람들의 안면들 상에 중첩된 가상 오브젝트들은 디스플레이를 위해 안면들로부터 언앵커링(unanchor)될 수도 있다. 이것은, 근방의 다른 사람들이 사용자가 자신의 주의를 가상 오브젝트들에 지향시키고 있다는 것을 아는지 여부를 사용자가 신경쓰지 않는다면 유용할 수도 있다. 대안적으로, 사용자는, 실제로 직접 가상 오브젝트들에 자신의 주의를 기울이는 동안 골돌히 생각하는 것처럼(lost in thought) 위를 볼 수도 있다.

[0040] 모션/포커스 추적 모듈(175)은, 사용자의 눈들의 포커스가 지향되는 곳을 결정하는데 사용될 수도 있는 카메라 또는 다른 형태의 시선 추적 디바이스를 포함할 수도 있다. 사용자의 머리가 특정한 각도에 있을 필요가 있기보다는, 사용자의 눈들의 포커스의 방향은, 사람들의 안면들 상에 중첩된 가상 오브젝트들이 디스플레이를 위해 언앵커링될 수도 있는지를 결정할 수도 있다. 그러므로, 사용자의 머리의 각도 및/또는 사용자의 눈들의 포커스의 방향에 의해 결정될 수도 있는 사용자의 시야각이 수평선으로부터 임계 각도를 초과하면, 사람들의 안면들 상에 중첩된 가상 오브젝트들은 디스플레이를 위해 언앵커링될 수도 있으며, 예컨대 수평 시리즈로 배열되는 대안적인 포맷으로 제시될 수도 있다.

[0041] 안면 중첩 모듈(180)은, 안면 식별 및 추적 모듈(120)로부터 안면들(및/또는 머리들)과 연관된 위치들 및 아이덴티티들을 수신할 수도 있다. 안면 중첩 모듈(180)은, 안면(또는 더 상세하게는 눈들 및 눈들 주변의 안면 영역)이 사람에 의해 말해진 스피치에 대응하는 텍스트와 같은 가상 오브젝트와 중첩되어야 하는지를 결정할 수도 있다. 예를 들어, 사용자로부터 수신된 입력에 기초하여, 안면 중첩 모듈(180)은 어떠한 안면 상에도 가상 오브젝트들을 중첩시키지 않을 수 있다(즉, 사용자는 안면들 상의 가상 오브젝트들의 중첩을 턴온 및 오프하기 위한 능력을 가질 수도 있음). 안면 중첩 모듈(180)은, 어떠한 가상 오브젝트가 안면 위에 중첩되어야 하는지를 결정할 수도 있다. 어떤 가상 오브젝트가 안면 위에 중첩되어야 하는지를 결정하는 것은, 안면과 연관된 사람의 아이덴티티, 안면과 연관된 사람이 말하고 있는지, 사용자가 사람을 보고 있는지, 사용자가 사람과 말하고 있는지, 및/또는 사용자에 의해 정의된 사용자 선호도들의 세트에 기초할 수도 있다. 몇몇 실시예들에서, 텍스트가 사람의 안면 위에 중첩되게 하는 것보다는, 안면 중첩 모듈(180)은 스피치 버블들의 사이즈, 컬러, 투명도, 선명도, 및/또는 위치를 제어할 수도 있다.

[0042] 시스템(100)의 모듈들 중 적어도 몇몇은, 도 7의 컴퓨터 시스템과 같은 컴퓨터화된 디바이스를 사용하여 구현될 수도 있다. 시스템(100)의 모듈들은 더 적거나 더 많은 수들의 모듈들로 결합 또는 분리될 수도 있다. 다수의 모듈들은 컴퓨터화된 디바이스에 의해 구현될 수도 있다. 예를 들어, 오디오 캡쳐 및 추적 모듈(120)의 적어도 일부들은 컴퓨터화된 디바이스(예를 들어, 프로세서, 컴퓨터 시스템)에 의해 실행된 명령들로서 구현될 수도 있다.

[0043] 도 1b는 AR 디바이스들 사이 및/또는 원격 컴퓨터 시스템과의 통신을 허가하도록 구성된 시스템(100B)의 일 실시예를 도시한다. 시스템(100B)은, 원격 컴퓨터 시스템 및 또한 다른 AR 디바이스들과의 AR 디바이스에 의한 통신을 허가할 수도 있다. 도 1b에서, AR 디바이스(185-1) 및 AR 디바이스(185-2)는 도 1a의 시스템(100A)을 각각 포함할 수도 있다. AR 디바이스(185-1) 및 AR 디바이스(185-2)는, BLUETOOTH 또는 WI-FI DIRECT와 같은 디바이스 투 디바이스 프로토콜을 통해 직접 통신할 수 있을 수도 있다. 따라서, AR 디바이스(185-1)는 AR 디바이스(185-2)로 데이터를 송신하고, AR 디바이스(185-2)로부터 데이터를 수신할 수도 있다.

[0044] AR 디바이스(185-1)는 또한, 하나 또는 그 초과의 사설 및/또는 공용 네트워크들을 포함할 수도 있는 네트워크와 무선으로 통신할 수 있을 수도 있다. 사설 네트워크는 회사 인트라넷을 포함할 수도 있고, 공용 네트워크는 인터넷을 포함할 수도 있다. 네트워크를 사용함으로써, AR 디바이스(185-1)는 원격 서버(190)와 같은 원격 서버와 통신할 수 있을 수도 있다. 원격 서버(190)는, 언어 번역 및/또는 변환 서비스들과 같은 AR 디바이스(185-1)로부터 원격인 서비스들을 수행하는데 사용될 수도 있다.

[0045] AR 디바이스(185-1)만이 다른 AR 디바이스 및 네트워크 둘 모두와 통신하는 것으로서 도시되지만, AR 디바이스(185-2)가 또한 그러한 통신이 가능할 수도 있음을 이해해야 한다. 또한, 제한된 수의 AR 디바이스들(185) 및 원격 서버들만이 간략화를 위해 도시되며; 다른 실시예들에서, 더 적거나 더 많은 수들의 AR 디바이스들(185) 및 원격 컴퓨터 시스템이 존재할 수도 있음을 이해해야 한다.

[0046] 도 2는, 사용자가 존재하지 않았던 스피치에 대응하는 텍스트를 제공하는데 사용되는 AR 디바이스의 헤드-마운티드 디스플레이(HMD)의 제 1 사람 관점(200)의 일 실시예를 도시한다. 도 2는, AR 디바이스의 사용자의 제 1 사람 관점(200)으로부터 제시된다. AR 디바이스의 사용자는, 사람(210)과 사람(220) 사이의 대화 중 적어도 일부들에 대해 존재하지 않을 수도 있다(또는 청취하지 않았음). 그러므로, AR 디바이스의 사용자는 사람(210)과 사람(220) 사이에서 말해진 적어도 몇몇 스피치를 듣지 못했다. 도 2의 실시예에서, 사람(210) 및 사람(220) 중 적어도 한명은 AR 디바이스를 또한 사용하고 있다. 사용자가 대화에 진입할 시에, 사용자는, 사용자가 도달되기 전에 (또는 사용자가 주의를 기울이기 전에) 사람(210)과 사람(220) 사이에서 말해진 스피치의 콘텐츠를 알기를 원할 수도 있다. 예를 들어, 사용자가 "대화에 진입"하는 때는, 사용자와 사람(210) 및/또는 사람(220) 사이의 거리, 사용자와 사람(210) 및/또는 사람(220) 사이의 눈맞춤, 사용자의 AR 디바이스와 사람(210) 및/또는 사람(220)의 AR 디바이스 사이에 통신 링크가 존재하는지 등에 기초하여 결정될 수도 있다. 사용자에 의해 사용되는 AR 디바이스는, 허가가 주어지면, 사람(210) 또는 사람(220) 중 어느 한명에 의해 사용된 AR 디바이스로부터 사람(210)과 사람(220) 사이의 스피치에 대응하는 정보를 요청 및 획득할 수도 있다. 획득된 정보는, 스피치의 텍스트가 적절한 사람에게서 기인될 수도 있도록 스피치를 말했던 각각의 사람의 식별자를 표시할 수도 있다.

[0047] 사용자의 AR 디바이스에 의해 수신된 텍스트는 AR 디바이스의 HMD를 통해 사용자에게 제시될 수도 있다. 스피치 버블들(230)은, 사용자가 대화에 진입하기 전에 사람(210)과 사람(220) 사이에서 말해진 스피치에 대응하는 텍스트를 제시하도록 AR 디바이스에 의해 사용될 수도 있다. 사람(210)에 의해 말해진 스피치에 대응하는 텍스트는 스피치 버블(230-1)에 의해 디스플레이될 수도 있다. 사람(220)에 의해 말해진 스피치에 대응하는 텍스트는 스피치 버블(230-2)을 통해 디스플레이될 수도 있다. 스피치 버블(230-1)을 참조하면, 사람(210)은 텍스트(260-1)에 대응하는 스피치를 말했다. 이러한 텍스트는, AR 디바이스의 사용자가 사람(210)과 사람(220) 사이의 대화에 진입하기 전에 사람(210)에 의해 말해졌을 수도 있다. 이것은, 사용자의 AR 디바이스 및 사람(210)(또는 사람(220))의 AR 디바이스가 통신하기 전에, 텍스트(260-1)가 사람(210)에 의해 말해졌다는 것을 의미할 수도 있다. 사용자가 존재하지 않았던 동안 말해졌던 텍스트를 디스플레이하는데 스피치 버블들(230)이 사용될 수도 있지만, 스피치 버블들(230)은 또한, 사용자가 존재했던 동안 말해졌던 텍스트를 디스플레이하는데 사용될 수도 있다. 이것은, 사용자의 마음이 흐트려졌다면(wander), 사용자가 사람(210) 및/또는 사람(220)을 듣는 것에 어려움을 가지고 그리고/또는 사용자가 대화의 세부사항들에 대해 자신을 리프레쉬(refresh)하기를 원하는 경우에 유용할 수도 있다. 스피치 버블들은 새로운 스피치가 발생할 때마다 업데이트될 수도 있다.

[0048] 그래픽 엘리먼트들(240)은 스피치 버블들(230)의 일부일 수도 있으며, 스피치 버블 내의 텍스트에 대응하는 스피치를 말했던 특정한 사람을 표시하는데 사용될 수도 있다. 예를 들어, 스피치 버블(230-1)의 그래픽 엘리먼트(240-1)는, 사람(210)이 텍스트(260-1)에 대응하는 스피치를 말했다는 것을 표시한다. 스피치 버블(230-1)이 HMD를 통해 사용자에게 스피치 버블(230-1)을 디스플레이하는 AR 디바이스에 의해 리포지셔닝되면, 그래픽 엘리먼트(240-1)의 형상은, 사람(210)이 스피치 버블(230-1)의 콘텐츠를 말했다는 것을 계속 표시하기 위해 변경될 수도 있다.

[0049] 사용자는, 스피치 버블들(230)을 통해 현재 디스플레이되는 것 이외의 부가적인 텍스트를 검토할 수 있을 수도 있다. 예를 들어, 스크롤바들(250)은, 더 이전에 말해졌던 스피치 또는 더 추후에 말해진 스피치에 대응하는 텍스트를 뷰잉하기 위하여 (예컨대, AR 디바이스의 사용자 입력 모듈을 통해) 사용자에 의해 조작될 수도 있다. 사용자가 사람(220)에 의한 더 이전의 스피치에 대응하는 텍스트로 다시 스크롤하기 위해 스크롤바(250-2)와 상호작용하면, 스피치 버블(230-1)의 콘텐츠는, 스피치 버블(230-2) 내에 현재(now) 디스플레이된 스피치 직전 또는 직후에 사람(210)에 의해 말해진 스피치에 대응하는 텍스트를 디스플레이하도록 변경될 수도 있다. 따라서, 사용자는, 스피치 버블(230-2) 내에 존재하는 스피치의 맥락을 더 양호하게 이해할 수 있을 수도 있다. 예를 들어, 텍스트(260-2)는, 텍스트(260-2)가 응답이었던 텍스트(260-1)를 판독하지 않으면 사용자에게 거의 의미가 통하지 않을 수도 있다. 스피치 버블들(230) 및 스크롤바들(250)의 사용은, AR 디바이스의 HMD를 착용하는 사용자에게 스피치에 대응하는 텍스트를 디스플레이하는데 사용된 예시적인 가상 오브젝트들임을 이해해야 한다. 다른 어레인지먼트들은 텍스트를 제시하는데 사용될 수도 있다. 예를 들어, 몇몇 실시예들에서, 텍스트는 텍스트를 말했던 사람의 안면 위에 중첩될 수도 있다. 그러므로, 사용자가 텍스트를 판독하고 있는 경우, 사용자는 텍스트를 판독하고 동시에, 텍스트에 대응하는 스피치를 말했던 사람과의 눈맞춤을 유지하는 것으로 적어도 나타날 수 있을 수도 있다. 사용자가 스피치 버블로부터 사람으로 자신의 눈들의 포커스를 시프트하면, 스피치 버블 및 그의 텍스트는 투명하게, 숨겨지게, 흐릿하게, 이동되게, 또는 사이즈가 감소되게 될 수도 있다. 사용자의 눈 포커스가 텍스트로 리턴하는 경우, 스피치 버블 및 텍스트는 더 불투명하게, 선명하게, 이동되게, 또는 사이즈가 확대되게 될 수도 있다.

[0050] 스피치 버블들(230) 내에 제시된 몇몇 텍스트는, 사용자가 대화에 진입하기 전에 말해졌던 스피치에 대응할 수도 있지만, 사람들(210 및 220)이 계속 말하고 있으면, 부가적인 텍스트가 스피치 버블들에 부가될 수도 있다. 그러므로, 스피치 버블들(230)의 콘텐츠는 대화에 매칭하도록 실시간으로 또는 거의 실시간으로 업데이트될 수도 있다. 사용자가 더 이전의 대화를 검토하기 위해 스크롤바들(250)과 상호작용하면, 가장 최근의 텍스트가 디스플레이되어야 한다는 것을 표시하기 위해 스크롤바들(250)이 사용되는 경우, 가장 최근의 스피치에 대응하는 텍스트가 사용자에 의한 판독을 위해 이용가능할 수도 있다. 스피치 버블들(230)을 통해 제시된 텍스트는 시간 스탬핑(time stamp)될 수도 있다.

[0051] 도 2의 실시예는 2명의 사람(플러스 사용자)이 대화의 일부이라는 것을 도시하지만, 더 많거나 더 적은 수들의 사람들이 대화의 일부일 수도 있음을 이해해야 한다. 본 명세서에 상세히 설명된 실시예들은, 프리젠테이션 또는 스피치가 청중에게 사람에 의해 제공되는 것과 같이, 더 많은 사람들이 존재하는 상황에 지향될 수도 있다. 사용자가 스피치에 대응하는 텍스트를 수신하기 위해, 스피커는 AR 디바이스를 사용할 필요가 없을 수도 있으며, 오히려, 청중의 다른 멤버가 제 2 AR 디바이스를 사용하고 있고 스피치의 오디오를 캡쳐하고 있는 한, 스피치에 대응하는 텍스트는 청중 내의 제 2 AR 디바이스로부터 직접적으로 또는 제 2 AR 디바이스로부터 스피치에 대응하는 데이터를 수신하는 컴퓨터 시스템을 통해 간접적으로 수신될 수도 있다.

[0052] 도 3은 언어 번역 서비스들을 제공하기 위해 사용되는 AR 디바이스의 헤드-마운티드 디스플레이의 제 1 사람 관점(300)의 일 실시예를 도시한다. AR 디바이스는, 도 1의 시스템(100) 또는 언어 번역 및 변환 서비스들을 제공하도록 구성된 몇몇 다른 시스템의 일 실시예를 포함할 수도 있다. 도 3의 제 1 사람 관점(300)은 AR 디바이스의 HMD를 통해 뷰잉되는 사용자의 관점으로부터의 것일 수도 있다. 사용자는, 사람(210) 및 사람(220)과 같은 실제-세계 아이템들을 포함하는 실제-세계 장면을 뷰잉할 수 있을 수도 있다. 가상 오브젝트들은 AR 디바이스에 의해 실제-세계 장면 상에 중첩될 수도 있다. 제 1 사람 관점(200)에서, 2개의 가상 오브젝트들, 즉 스피치 버블(330-1) 및 스피치 버블(330-2)은 실제-세계 장면 상에 중첩된다. 도 3에서, 사람(210) 및 사람(220)은 사용자의 선호된 언어(예를 들어, 모국어) 이외의 언어들을 말하고 있다.

[0053] 도 3의 제 1 사람 관점(300)에서, 사용자는 사람(210) 및 사람(220)과 말하고 있다. 도시된 실시예에서, 사람(210)은 문장을 말하는 것을 방금 완료했지만, 사람(220)은 사람(210) 이전에 말했다. 이들 사람들 각각은 사용자에게는 모국어가 아니었던 언어로 말했다. 일 예로서, 사용자의 모국어 또는 사용자가 텍스트를 뷰잉하기를 선호하는 언어는 영어라고 가정한다. 본 명세서에 상세히 설명된 실시예들이 영어 이외의 언어들로의 번역을 위해 사용될 수도 있음을 이해해야 한다.

[0054] 스피치 버블들(330)은, HMD를 통해 실제-세계 장면 위에 중첩되는 그래픽 가상 오브젝트들일 수도 있다. 스피치 버블들(330)은 번역되고 변환되는 텍스트를 포함할 수도 있다. 스피치 버블들(330)의 각각의 스피치 버블은, 스피치 버블이 어떤 사람과 연관되는지를 식별하기 위한 그래픽 피쳐를 포함한다. 그래픽 엘리먼트(340-1)는, 스피치 버블(330-1)이 사람(210)에 의해 말해진 스피치와 연관된다는 것을 표시한다. 그래픽 엘리먼트(340-2)는, 스피치 버블(330-2)이 사람(220)에 의해 말해진 스피치와 연관된다는 것을 표시한다. 스피치 버블들은, 스피치가 번역되었던 언어를 식별하는 표시들(310)을 포함할 수도 있다. 스피치 버블(330-1)을 참조하면, 사람(210)이 말했던 언어는, 표시(310-1)에 의해 디스플레이된 바와 같이 네팔어(Nepali)이다. 스피치 버블(330-2)을 참조하면, 사람(220)이 말했던 언어는 표시(310-2)에 의해 표시된 바와 같이 힌두어이다. 번역 및 변환 서비스들은, 사용자의 AR 디바이스에 의해 수행될 수도 있거나, 몇몇 실시예들에서, AR 디바이스에 의해 캡쳐된 오디오는 번역 및 변환 서비스들을 위해 원격 컴퓨터 시스템으로 송신될 수도 있다. AR 디바이스는, 사용자의 모국어와 같이 사용자에 의해 특정된 언어의 텍스트를 원격 컴퓨터 시스템으로부터 수신할 수도 있다.

[0055] 스피치가 사용자에 대해 상이한 언어로 번역되는 것에 부가하여, 사용자는 더 이상 디스플레이되지 않는 이전에 말해진 텍스트에 대응하는 텍스트의 스피치 버블들(330)에서 텍스트를 뷰잉하도록 허가될 수도 있다. 예를 들어, 사용자는, 예컨대 도 1의 시스템(100)의 사용자 인터페이스 모듈(160)을 통해 입력을 제공할 수도 있으며, 사용자는, 자신이 이전에 번역된 스피치와 연관된 텍스트를 뷰잉하기를 원한다는 것을 표시하는 입력을 제공할 수도 있다. 몇몇 실시예들에서, 이전의 스피치의 텍스트를 통해 스크롤하기 위해, 스크롤바들(250)이 선택될 수도 있고, 사용자로 하여금 입력을 제공하게 할 수도 있다. 사람(210)과 연관된 텍스트가 스크롤되면, 사람(220)(및 가급적, 장면에 존재하는 다른 사람들)과 연관된 텍스트는, 사람(210)과 거의 동시에 사람(220)에 의해 말해진 스피치가 사람(210)에 대한 스피치의 텍스트와 동시에 디스플레이되도록 스크롤될 수도 있다. 이것은 사용자가, 사람(210)에 대한 스피치에 대응하는 텍스트의 맥락을 결정하게 할 수도 있다. 예를 들어, 사용자가 스피치에 대한 이전에 연관된 텍스트를 검토하고, 시간 1:24PM에서, 사람(210)에 대한 스피치의 번역된 텍스트가 간단히 "예"라고 말하면, 이것은, 사람들의 응답의 맥락을 이해하지 않으면, 사용자에게 거의 가치가 없을 수도 있다. 그러므로, 사람(220)에 대한 스피치 버블(330-2)은, 1:23PM에서 사람(220)이, 예를 들어, "새로운 미팅 시간을 당신의 동료에게 통보(alert)할 수 있었나요?" 라고 말했다는 것을 디스플레이하도록 변경될 수도 있다.

[0056] 사람(210) 및 사람(220)이 이동함에 따라, 그들의 대응하는 스피치 버블들은 그들과 함께 이동할 수도 있다. 몇몇 실시예들에서, 스피치 버블들은 정적으로 유지될 수도 있지만, 스피치 버블들(330)의 그래픽 엘리먼트들(340)은, 예컨대 텍스트에 대응하는 스피치를 말했던 사람을 표시하기 위해 변경될 수도 있다. 예를 들어, 그래픽 엘리먼트(340)의 포인트는 스피치 버블의 텍스트에 대응하는 사람의 안면, 입, 또는 몸 상에 또는 그 주변에서 유지될 수도 있다. 사람이 사용자로부터 떨어져 임계 거리를 초과하여 이동하고 그리고/또는 사용자를 대면하지 않으면, 사람의 스피치 버블은 숨겨질 수도 있다. 사람이 임계 거리 내로 다시 오고 그리고/또는 사용자를 대면하면, 사람의 스피치 버블은 HMD를 통해 사용자에게 리디스플레이될 수도 있다.

[0057] 스피치 버블들(330)을 사용하기보다는, 번역되었던 텍스트는 스피치를 말했던 사람의 안면 위에 HMD에 의해 중첩된 바와 같이 사용자에게 제시될 수도 있다. 그러므로, 사용자가 번역된 텍스트를 판독하고 있는 경우, 사용자는 스피치를 말했던 사람과의 눈맞춤을 유지할 수 있을 수도 있다(또는 적어도 유지할 수 있는 것을 나타날 수도 있음). 몇몇 실시예들에서, 새로운 스피치가 번역됨에 따라, 새로운 스피치에 대응하는 텍스트는, 대응하는 스피치를 말했던 사람의 눈들 위에 제시된다. 그러므로, 사용자가 텍스트를 판독하고 있는 경우, 적어도 눈맞춤의 외관이 유지될 수도 있다. 사용자가 텍스트로부터 사람으로 자신의 눈들의 포커스를 시프트하면, 텍스트는 투명하게, 숨겨지게, 흐릿하게, 이동되게, 또는 사이즈가 감소되게 될 수도 있다. 사용자의 눈 포커스가 텍스트로 리턴하는 경우, 텍스트는 더 불투명하게, 선명하게, 이동되게, 또는 사이즈가 확대되게 될 수도 있다.

[0058] 변환 및 번역에 부가하여, 스피치 버블들(330)은, 사용자가 존재하지 않았던 동안 발생했던 스피치에 대응하는 텍스트를 사용자에게 제시하는데 사용될 수도 있다. 도 1의 시스템(100)과 같이 스피치를 캡쳐할 수 있는 하나 또는 그 초과의 시스템들은 사람들(210 및 220)에 의해 착용되거나 그렇지 않으면 소유될 수도 있다. 사용자가 사람들의 근방으로 다가가는 경우, 사람들은 그들의 이전의 대화가 사용자에 의해 액세스되도록 허가할 수도 있다. 예를 들어, 사람(210 및 220) 각각은, 그들의 시스템들에 입력을 제공하거나, 사용자가 액세스를 허가받는다는 것을 표시하기 위해 그들의 시스템들을 사전구성하도록 요구받을 수도 있다. 텍스트 또는 오디오는, 사람들(210 및 220)의 시스템들 중 하나 또는 둘 모두로부터 사용자의 시스템으로 송신될 수도 있다. 오디오가 사용자의 시스템에 의해 수신되면, 오디오는 사용자의 모국어로 변환 및/또는 번역될 수도 있으며, 그 후, 스피치 버블의 형태로 사용자에게 디스플레이될 수도 있다. 텍스트가 사용자의 시스템에 송신되면, 필요하면, 텍스트가 번역될 수도 있으며, 스피치 버블들을 통해 사용자에게 디스플레이될 수도 있다. 텍스트 또는 오디오는 AR 디바이스들 사이에서 직접적으로 또는 원격 컴퓨터 시스템을 통해 송신될 수도 있다.

[0059] 텍스트 또는 스피치를 말했던 사람의 표시는 또한, 사용자에 의해 사용된 AR 디바이스에 의해 수신될 수도 있다. 이러한 표시는, 텍스트를 말했던 사람의 화상(picture)일 수도 있다. 예를 들어, 사람(210)의 이미지는 스피치 버블(330-1)을 통해 디스플레이될 텍스트와 연관될 수도 있다. 이미지는, 텍스트를 말했던 사람을 식별하기 위하여 사용자의 시스템에 의해 사용될 수도 있다. 몇몇 실시예들에서, 디바이스 식별자는 스피치 버블(330-1)을 통해 디스플레이될 텍스트와 연관될 수도 있다. 디바이스 식별자는, 사람(210)에 의해 착용되거나 그렇지 않으면 소유되는 AR 디바이스에 대응할 수도 있다. 사용자의 시스템은, 디바이스 식별자와 연관된 AR 디바이스의 포지션을 결정할 수 있을 수도 있으며, AR 디바이스를 착용하거나 그렇지 않으면 소유하는 사람에게 텍스트 또는 스피치를 기인시킬 수도 있다.

[0060] 몇몇 실시예들에서, AR 디바이스의 HMD에 의해 사용자에게 디스플레이된 텍스트 내의 키워드들이 강조될 수도 있다. 그러한 강조는, 텍스트에 기인한 사람에 의해 행해진 키 포인트들에 대한 텍스트를 사용자가 신속하게 검토하게 할 수도 있다. 키워드들은, 단어를 말했던 사람에 의해 적용된 강조에 기초하여 또는 특정한 단어들에 강조를 할당하는 사전(dictionary)에 기초하여 결정될 수도 있다. 도 3을 참조하면, 강조된 키워드들은 키워드(320-1) 및 키워드(320-2)를 포함한다. 강조는, 하이라이트하는 것, 이탤릭체로 하는 것, 볼드체로 하는 것, 상이한 컬러를 사용하는 것, 플래싱(flash)하는 것, 및/또는 텍스트의 일부를 다른 텍스트로부터 두드러지게 하는 것을 포함할 수도 있다. 특정한 키워드들은 AR 디바이스의 사용자에 의해 정의될 수도 있으며, 사용자 선호도 데이터베이스에 저장될 수도 있다. 예를 들어, 사용자의 이름은 키워드로서 사용자에 의해 선택될 수도 있다. 이것은, 특정한 스테이트먼트가 사용자에게 특정하게 지향되는지를 사용자가 결정하기 위해 특히 유용할 수도 있다.

[0061] 다양한 방법들은 도 2 및 도 3에서와 같이, 실제-세계 장면 위에 가상 오브젝트들을 중첩시키기 위해 도 1의 시스템을 사용하여 수행될 수도 있다. 도 4는, 사용자가 존재하지 않았던 스피치에 대응하는 텍스트를 제공하기 위해 증강 현실 디바이스를 사용하기 위한 방법(400)의 일 실시예를 도시한다. 방법(400)은 사용자에 의한 AR 디바이스의 사용을 수반할 수도 있으며, AR 디바이스는 도 1의 시스템(100)을 포함할 수도 있다. 방법(400)을 수행하기 위한 수단은 HMD를 갖는 AR 디바이스를 포함한다. 방법(400)을 수행하기 위한 수단은, 하나 또는 그 초과의 마이크로폰들을 포함할 수도 있는 오디오 캡쳐 및 포지셔닝 모듈; 하나 또는 그 초과의 카메라들을 포함할 수도 있는 이미지 캡쳐 모듈; 안면 인식 및 추적 모듈; 안면 중첩 모듈; 컴퓨터-판독가능 저장 매체를 포함할 수도 있는 사용자 선호도 모듈; 헤드-마운티드 디스플레이(HMD)를 포함할 수도 있는 디스플레이 모듈, 하나 또는 그 초과의 카메라들을 포함할 수도 있는 모션/포커스 추적 모듈; 사용자 인터페이스 모듈; 통신 모듈; 및 오디오 프로세싱 엔진을 더 포함한다. 다양한 모듈들 및 엔진들 중 적어도 몇몇은 하나 또는 그 초과의 프로세서들에 의해 수행될 수도 있다. 더 일반적으로, 방법(400)의 단계들은 컴퓨터 시스템과 같은 컴퓨터화된 디바이스에 의해 수행될 수도 있다.

[0062] 단계(410)에서, 실제-세계 장면 내에 존재하는 사람에 의해 말해진 스피치는 제 1 AR 디바이스에 의해 캡쳐될 수도 있다. 실제-세계 장면 내에서 말해진 스피치는 한명 또는 그 초과의 사람들로부터의 스피치를 포함할 수도 있다. 제 1 AR 디바이스 상에 존재하는 하나 또는 그 초과의 마이크로폰들은, 스피치를 캡쳐하고 스피치가 기원됐던 방향을 결정하기 위해 사용될 수도 있다. 몇몇 실시예들에서, 제 1 AR 디바이스에 의해 캡쳐된 스피치의 적어도 몇몇은, 제 1 AR 디바이스를 착용하거나 그렇지 않으면 사용하는 사람에 의해 말해질 수도 있다. 몇몇 실시예들에서, 제 1 AR 디바이스에 의해 캡쳐된 스피치는 로컬적으로 저장된다. 다른 실시예들에서, 스피치의 디지털 표현은 저장 및/또는 변환을 위해 원격 컴퓨터 시스템으로 송신된다.

[0063] 단계(420)에서, 단계(410)에서 캡쳐된 스피치는 텍스트로 변환된다. 이러한 단계는 제 1 AR 디바이스에 의해 수행될 수도 있거나, 단계(410)에서 캡쳐된 스피치는 원격 컴퓨터 시스템으로 송신될 수도 있고, 그 후, 그 시스템은 스피치의 텍스트로의 변환을 수행할 수도 있다. 텍스트에 대응하는 스피치를 말했던 사람의 표시가 텍스트와 함께 저장될 수도 있다. 몇몇 실시예들에서, 텍스트를 말했던 사람의 표시는 사람의 이미지이다. 이러한 이미지는 제 1 AR 디바이스에 의해 캡쳐될 수도 있다. 다른 실시예들에서, 식별자는, 스피치가 기원됐던 방향에 기초하여 스피치를 말했던 사람에게 할당될 수도 있거나, 식별자는 사람에 의한 사용중인 AR 디바이스에 기초할 수도 있다.

[0064] 몇몇 실시예들에서, AR 디바이스의 사용자가 말하고 있는 동안, AR 디바이스의 프로세서는 유휴상태(예를 들어, 몇몇 다른 사람에 의한 스피치를 번역하거나 변환하지 않음)에 있을 수도 있다. 유휴상태를 유지하기보다는, AR 디바이스의 프로세서는, 번역 및/또는 변환을 개선시키기 위해 이전에 저장된 스피치를 리프로세싱하도록 전념(devote)될 수도 있다. 그러므로, 이전의 스피치의 저장된 변환은 더 정확해지게 업데이트될 수도 있다. 이것은, 변환이 추후에 다른 사람들에게 제공된다면, 특히 유용할 수도 있다.

[0065] 스피치에 대응하는 텍스트는 단계(430)에서 저장될 수도 있다. 텍스트는, 제 1 AR 디바이스에 의해 저장될 수도 있거나, 원격 컴퓨터 시스템에 의해 원격으로 저장될 수도 있다. 변환 서비스들이 원격 컴퓨터 시스템에 의해 수행되지만 텍스트가 제 1 AR 디바이스에 의해 로컬적으로 저장되면, 텍스트를 포함하는 데이터는 원격 컴퓨터 시스템으로부터 제 1 AR 디바이스로 송신될 수도 있다.

[0066] 단계(440)에서, 단계(410)에서 캡쳐된 스피치에 대응하는 텍스트에 대한 요청이 제 2 AR 디바이스로부터 수신될 수도 있다. 제 2 AR 디바이스는, 단계(410)에서 캡쳐된 스피치가 말해졌던 때에 존재하지 않았던 사용자에 의해 착용되거나 그렇지 않으면 사용될 수도 있다. 그러므로, 단계(440)에서 수신된 요청은, 단계(410)에서 말해졌던 스피치를 포함하는 대화(또는 스피치, 프리젠테이션 등)에 사용자가 진입하는 경우 발생할 수도 있다. 스피치에 대응하는 텍스트에 대한 요청은 제 2 AR 디바이스로부터 제 1 AR 디바이스에 의해 수신될 수도 있다. 텍스트에 대한 요청은, 제 2 AR 디바이스가 텍스트를 요청하고 있는 시간 기간을 표시할 수도 있다. 예를 들어, 제 2 AR 디바이스의 사용자는, 이전의 5분의 스피치에 대한 텍스트가 소망된다는 것을 특정하는 입력을 제 2 AR 디바이스에 제공할 수도 있다. 텍스트가 요청되는 시간 기간은, 제 2 AR 디바이스의 사용자에 의해 선택된 시간 기간, 제 1 AR 디바이스의 사용자에 의해 선택된 시간 기간, 제 1 AR 디바이스가 오디오를 캡쳐했던 시간 길이, 스피치에 대응하는 텍스트가 저장되는 미리 정의된 시간 기간 등을 포함하는 수 개의 팩터들에 기초할 수도 있다. 단계(440)에서의 스피치에 대한 요청은, 제 2 증강 현실 디바이스의 사용자가 텍스트를 요청하는 입력을 제공하는 경우에만 발생할 수도 있다. 다른 실시예들에서, 제 2 AR 디바이스는 사용자 입력을 요구하지 않으면서 텍스트를 요청할 수도 있다. 사용자 입력이 요구되는지 또는 요구되지 않는지는, 제 2 AR 디바이스에 의해 저장된 사용자 선호도에 기초할 수도 있다.

[0067] 단계(450)에서, 제 1 AR 디바이스의 사용자가 허가를 제공했다고 가정하면, 단계(410)에서 캡쳐된 스피치의 텍스트에 대응하는 데이터가 제 2 AR 디바이스로 송신될 수도 있다. 그러한 송신은 제 1 AR 디바이스로부터 제 2 AR 디바이스로 직접적일 수도 있다. 그러한 송신은 또한 간접적일 수도 있으며, 즉 텍스트를 포함하는 데이터는, 단계(410)에서 제 1 AR 디바이스에 의해 캡쳐된 스피치에 대응하는 텍스트를 저장했던 원격 컴퓨터 시스템으로부터 제 2 AR 디바이스에 의해 수신될 수도 있다. 스피치의 텍스트에 부가하여, 단계(450)에서 송신된 데이터는, 텍스트에 대응하는 스피치를 말했던 사람들의 표시들을 포함할 수도 있다. 그러므로, 텍스트는, 대응하는 스피치를 말했던 적절한 사람에게서 기인될 수도 있다. 몇몇 실시예들에서, 표시들은, 스피치를 말했던 한명 또는 그 초과의 사람들의 이미지들일 수도 있다. 표시들이 이미지들이면, 제 2 AR 디바이스는, 텍스트를 말했던 사람을 식별하기 위해, 이미지들에 존재하는 사람들을 실제-세계 장면에 존재하는 사람들과 매칭시킬 수도 있다. 다른 실시예들에서, 시리얼 넘버 또는 IP 어드레스와 같은 식별자는, 텍스트를 말했던 사람에 의해 착용된 AR 디바이스에서 표시하기 위해 사용될 수도 있다. 그러므로, 식별자에 의해 표시된 AR 디바이스의 위치를 결정함으로써, 텍스트의 스피커가 식별될 수도 있다.

[0068] 단계(460)에서, 텍스트는 하나 또는 그 초과의 가상 오브젝트들의 형태로 제 2 AR 디바이스의 사용자에게 제시될 수도 있다. 제 2 AR 디바이스는, 실제-세계 장면 위에 중첩된 바와 같은 텍스트를 사용자에게 제시하기 위해 자신의 HMD를 사용할 수도 있다. 그러므로, 사용자가 단계(410)에서 캡쳐된 스피치를 말했던 사람들 중 한명 또는 그 초과를 보고 있으면, 그러한 사람들에 의해 말해진 스피치에 대응하는 텍스트 중 적어도 일부는 실제-세계 장면 상에서 HMD에 의해 중첩된 바와 같이 디스플레이될 수도 있다. HMD가 텍스트를 사용자에게 제시하기 위해 사용되므로, 사용자만이 텍스트를 뷰잉할 수 있을 수도 있다. 사용자의 근방에 존재하는 다른 사람들은, 그러한 텍스트가 사용자에게 제시되고 있다는 것을 인식하지 못할 수도 있다. 사용자에게 제시된 가상 오브젝트들은, 도 2 및 도 3에 제시된 것들과 같은 하나 또는 그 초과의 스피치 버블들을 포함할 수도 있다. 각각의 스피치 버블은, 텍스트에 기인되는 사람의 머리 위에 떠다닐 수도 있다(hover). 다른 실시예들에서, 텍스트는, 대응하는 스피치를 말했던 사람의 안면 위에 중첩될 수도 있으며, 그에 의해, 사용자가 텍스트를 판독하는 경우, 텍스트에 대응하는 스피치를 말했던 사람과 사용자가 눈맞춤을 하고 있다는 것이 사용자 근방에 존재하는 사람들에게 나타날 것이다. 부가적인 스피치가 사용자의 근방의 사람들에 의해 말해진 경우, 텍스트를 제시하는 가상 오브젝트들은 새로운 스피치에 대응하는 텍스트를 포함하도록 업데이트될 수도 있다. 제 2 AR 디바이스가 존재하는 그러한 스피치에 대해, 스피치의 변환을 캡쳐하는 것은, 제 1 AR 디바이스를 통하기보다는 제 2 AR 디바이스에 의해 직접적으로 수행될 수도 있다.

[0069] 도 5는 언어 번역 서비스들을 제공하기 위해 AR 디바이스를 사용하기 위한 방법(500)의 일 실시예를 도시한다. 방법(500)에서, 번역 서비스들은 스피커의 AR 디바이스 또는 청취자의 AR 디바이스에 의해 수행될 수도 있으며, (예를 들어, 전력 소비 및/또는 프로세싱의 총 양에 기초하여) 어느 것이든 더 효율적인 것으로 결정된다. 방법(500)은 사용자에 의한 AR 디바이스의 사용을 수반할 수도 있고, AR 디바이스는 도 1의 시스템(100)을 포함할 수도 있다. 방법(500)을 수행하기 위한 수단은 HMD들을 갖는 다수의 AR 디바이스들을 포함한다. 방법(500)을 수행하기 위한 수단은, 하나 또는 그 초과의 마이크로폰들을 포함할 수도 있는 오디오 캡쳐 및 포지셔닝 모듈; 하나 또는 그 초과의 카메라들을 포함할 수도 있는 이미지 캡쳐 모듈; 안면 인식 및 추적 모듈; 안면 중첩 모듈; 컴퓨터-판독가능 저장 매체를 포함할 수도 있는 사용자 선호도 모듈; 헤드-마운티드 디스플레이(HMD)를 포함할 수도 있는 디스플레이 모듈, 하나 또는 그 초과의 카메라들을 포함할 수도 있는 모션/포커스 추적 모듈; 사용자 인터페이스 모듈; 통신 모듈; 및 오디오 프로세싱 엔진의 예시들을 더 포함한다. 다양한 모듈들 및 엔진들 중 적어도 몇몇은 하나 또는 그 초과의 프로세서들에 의해 수행될 수도 있다. 더 일반적으로, 방법(500)의 단계들은 컴퓨터 시스템과 같은 컴퓨터화된 디바이스에 의해 수행될 수도 있다.

[0070] 2명의 사람들이 일-대-일 대화를 하고 있는 경우, 다른 사람과 연관된 AR 디바이스 대신에, 모든 언어 번역 서비스들을 수행하는 사람들 중 한명의 AR 디바이스를 갖는 것에 대해 아무런 효율 이득들이 존재하지 않을 수도 있다. 그러나, 더 큰 그룹에서, 이것은 참으로 유지되지는 않을 수도 있다. 예를 들어, 스피커가 제 1 언어로 말하는 동안 복수의 청취자들 각각이 동일한 제 2 언어를 선호하면, (청취자들의 각각의 AR 디바이스가 번역 서비스들을 개별적으로 수행하게 하기보다는) 스피커의 AR 디바이스가 번역 서비스들을 핸들링하고, 각각의 다른 AR 디바이스에게 텍스트를 제공하는 것이 더 효율적일 수도 있다. 따라서, 스피커의 AR 디바이스가 언어 번역 서비스들을 수행하게 하는 것이 더 효율적인지 또는 청취자들의 AR 디바이스들이 언어 번역 서비스들을 수행하는 것이 더 효율적인지를 결정하기 위한 분석이 수행될 수도 있다. 일 예로서, 스피커가 스피치 또는 프리젠테이션을 제공하고 있으면, 각각의 청중 멤버의 AR 디바이스가 번역 서비스들을 수행하는 것보다는, 스피커의 AR 디바이스가 번역 서비스들을 수행하는 것이 더 효율적일 수도 있다.

[0071] 단계(505)에서, 선호된 언어의 표시는, 미리 정의된 거리 내의, 통신 범위 내의, 그리고/또는 제 1 사용자에 대면하는 다른 사용자들의 AR 디바이스들로부터 제 1 사용자의 AR 디바이스에 의해 수신될 수도 있다. 이들 표시들에 기초하여, 제 1 사용자의 AR 디바이스는, 많은 번역들이 어떻게 요구되는지 및 어떤 언어들로의 것인지를 결정할 수 있을 수도 있다. 표시들은, 다이렉트 통신 프로토콜(예를 들어, BLUETOOTH, WIFI DIRECT)을 통해 또는 네트워크(예를 들어, WIFI 네트워크)를 통해 수신될 수도 있다.

[0072] 단계(510)에서, 제 1 사용자의 AR 디바이스가 적어도 몇몇 번역 서비스들을 핸들링해야 하는지 또는 다른 사용자들의 AR 디바이스들이 번역 서비스들을 핸들링해야 하는지에 대한 결정이 미리 정의된 기준들에 기초하여 행해질 수도 있다. 미리 결정된 기준들은, 특정한 수(예를 들어, 2, 3, 4, 또는 그 초과)의 AR 디바이스들이 동일한 선호된 언어와 연관되면, 제 1 사용자의 AR 디바이스가 번역 서비스들을 핸들링하고, 다른 사용자들의 AR 디바이스들 중 적어도 몇몇에 텍스트를 제공해야 한다는 것을 특정할 수도 있다. 어떤 AR 디바이스가 언어 번역 서비스들을 수행(또는 관리)해야 하는지를 결정하기 위해 부가적인 또는 대안적인 기준들이 사용될 수도 있다. 각각의 AR 디바이스의 배터리 충전 레벨이 하나의 팩터일 수도 있다. 다른 사용자들의 AR 디바이스들 중 하나 또는 그 초과의 배터리 레벨들이 낮으면(예를 들어, 10% 미만이면), 전력을 보존하기 위해, 제 1 사용자의 AR 디바이스는, 번역 서비스들을 수행하고, 다른 사용자들의 AR 디바이스들(또는 적어도, 낮은 배터리 레벨을 갖는 AR 디바이스)에게 텍스트를 제공할 수도 있다. 또한, 스피커에 소유된 AR 디바이스의 마이크로폰이 스피커의 스피치를 더 정확하게 캡쳐할 수 있을 수도 있기 때문에, 스피커의 AR 디바이스가 번역 서비스들을 수행하게 하는 것이 더 정확할 수도 있다. 그러므로, 몇몇 실시예들에서, 스피커의 AR 디바이스(말하고 있는 모든 사람의 AR 디바이스)는 번역 서비스들을 수행 또는 관리한다.

[0073] 단계(510)는, 어떤 AR 디바이스(들)이 언어 번역 서비스들을 수행할지를 통신하기 위해, 제 1 사용자의 AR 디바이스와 하나 또는 그 초과의 다른 사용자들의 AR 디바이스들 사이의 통신을 수반할 수도 있다(그러한 결정은 번역 방식으로 지칭됨). 제 1 사용자의 AR 디바이스가 언어 번역 서비스들을 수행할 것이라면, 다른 사용자들의 AR 디바이스들은 그러한 통지를 수신할 수도 있으며, 이는, 언어 번역 서비스들을 수행하기보다는 디스플레이를 위해 텍스트가 수신되기를 대기하도록 다른 사용자들의 AR 디바이스들을 트리거링할 수도 있다. 추가적으로, 이용가능한 전력에 기초하여, 어떤 AR 디바이스(들)가 언어 번역 서비스들을 수행하기에 최상으로 적절한지를 결정할 시에 사용하기 위해, 배터리 충전 레벨 정보가 AR 디바이스들 사이에서 교환될 수도 있다. 네트워크 이용가능도(예를 들어, 제 1 사용자의 AR 디바이스는 무선 네트워크로의 액세스를 가질 수도 있지만, 다른 사용자들의 AR 디바이스들은 그렇지 않을 수도 있음)와 같은 다른 팩터들이 번역 방식을 결정하기 위해 단계(520)에서 사용될 수도 있다. 추가적으로, 다수의 다른 사용자들이 상이한 선호된 언어들을 가지면, 제 1 사용자의 AR 디바이스는 가장 일반적인 선호된 언어로의 언어 번역 서비스들을 수행할 수도 있지만, 다른 선호된 언어들과 연관된 AR 디바이스들은 (캡쳐된 오디오, 또는 제 1 사용자의 AR 디바이스에 의해 제공된 텍스트 중 어느 하나로부터) 별개의 번역을 수행할 수도 있다.

[0074] 단계(510)에 후속하여, 제 1 사용자의 AR 디바이스가 언어 번역 서비스들 중 적어도 일부를 수행하는 것이 더 효율적이라고 결정될 수도 있다. 그러므로, 제 1 사용자가 말하고 있다고 가정하면, 번역 방식은, 단계(515)로 계속되는 방법(500)에 의해 스피치의 기원 포인트에서 제 1 사용자의 AR 디바이스에 의해 번역 서비스들이 핸들링되는 것을 수반할 수도 있다. 단계(515)에서, 제 1 사용자에 의해 말해진 스피치는 (제 1 사용자에 의해 착용되거나 그렇지 않으면 소유될 수도 있는) 제 1 AR 디바이스에 의해 캡쳐될 수도 있다. 제 1 AR 디바이스 상에 존재하는 하나 또는 그 초과의 마이크로폰들은 제 1 사용자로부터의 스피치를 캡쳐하는데 사용될 수도 있다. 몇몇 실시예들에서, 제 1 AR 디바이스에 의해 캡쳐된 스피치는 로컬적으로 저장될 수도 있다. 다른 실시예들에서, 스피치의 디지털 표현은, 저장 및/또는 변환을 위해 원격 컴퓨터 시스템으로 송신된다.

[0075] 단계(520)에서, 단계(515)에서 캡쳐된 스피치는 텍스트로 번역 및 변환될 수도 있다. 번역의 언어는, 단계(505)에서 수신된 선호된 언어들(예를 들어, 다수의 AR 디바이스들 중 가장 인기있는 선호된 언어)의 표시들에 기초할 수도 있다. 이러한 단계는 제 1 AR 디바이스에 의해 수행될 수도 있거나, 단계(515)에서 캡쳐된 스피치는 원격 컴퓨터 시스템으로 송신될 수도 있으며, 그 후, 그 시스템은 스피치의 텍스트로의 번역 및/또는 변환을 수행할 수도 있다.

[0076] 단계(525)에서, 제 1 AR 디바이스의 사용자가 허가를 제공했다고 가정하면, 단계(515)에서 캡쳐된 스피치의 번역된 텍스트에 대응하는 데이터는, 스피치가 번역됐던 언어와 연관된 다른 AR 디바이스들로 송신될 수도 있다. 그러한 송신은 제 1 AR 디바이스로부터 다른 AR 디바이스들로 직접적일 수도 있다. 그러한 송신은 또한 간접적일 수도 있으며, 즉 텍스트를 포함하는 데이터는, 텍스트를 저장했던 원격 컴퓨터 시스템으로부터 다른 AR 디바이스들에 의해 수신될 수도 있다. 스피치의 텍스트에 부가하여, 단계(525)에서 송신된 데이터는, 텍스트에 대응하는 스피치를 말했던 사람들의 표시들을 포함할 수도 있다. 그러므로, 텍스트는, 대응하는 스피치를 말했던 적절한 사람에게서 기인될 수도 있다. 몇몇 실시예들에서, 시리얼 넘버 또는 IP 어드레스와 같은 식별자는, 텍스트에 대응하는 스피치를 말했던 사람에 의해 착용된 제 1 AR 디바이스를 표시하기 위해 사용될 수도 있다.

[0077] 단계(530)에서, 텍스트는, 하나 또는 그 초과의 가상 오브젝트들의 형태로 다른 AR 디바이스들의 사용자들에게 제시될 수도 있다. 다른 AR 디바이스들은, 실제-세계 장면 위에 중첩된 바와 같은 텍스트를 연관된 사용자들에게 제시하기 위해 그들의 HMD들을 사용할 수도 있다. 그러므로, 다른 사용자들이 단계(515)에서 캡쳐된 스피치를 말했던 제 1 사용자를 보고 있으면, 그러한 사람들에 의해 말해진 스피치에 대응하는 텍스트 중 적어도 일부는 실제-세계 장면 상에서 HMD에 의해 중첩된 바와 같이 디스플레이될 수도 있다. HMD가 텍스트를 각각의 사용자에게 제시하기 위해 사용되므로, HMD를 착용한 사용자만이 텍스트를 뷰잉할 수 있을 수도 있다. 사용자의 근방에 존재하는 다른 사람들은, 그러한 텍스트가 사용자에게 제시되고 있다는 것을 인식하지 못할 수도 있다. 각각의 사용자에게 제시된 가상 오브젝트들은, 도 2 및 도 3에 제시된 것들과 같은 하나 또는 그 초과의 스피치 버블들을 포함할 수도 있다. 각각의 스피치 버블은, 텍스트에 기인되는 사람의 머리 위에 떠다닐 수도 있다. 다른 실시예들에서, 텍스트는, 대응하는 스피치를 말했던 사람의 안면 위에 중첩될 수도 있으며, 그에 의해, 사용자가 텍스트를 판독하는 경우, 텍스트에 대응하는 스피치를 말했던 사람과 사용자가 눈맞춤을 하고 있다는 것이 사용자 근방에 존재하는 사람들에게 나타날 것이다. 부가적인 스피치가 사용자의 근방의 사람들에 의해 말해진 경우, 텍스트를 제시하는 가상 오브젝트들은 새로운 스피치에 대응하는 텍스트를 포함하도록 업데이트될 수도 있다.

[0078] 단계(510)으로 리턴하면, 번역 서비스들이 제 1 AR 디바이스 이외의 AR 디바이스들에 의해 수행될 경우, 방법(500)은 단계(535)로 진행할 수도 있다. 단계(535)에서, 제 1 AR 디바이스에 의해 수행된 번역 서비스들이 비활성화될 수도 있다. 그러나, 몇몇 실시예들에서, 단계(510)에 대한 기원지 및 목적지 옵션들 둘 모두가 상이한 AR 디바이스들에 대해 후속될 수도 있다. 예를 들어, 제 1 AR 디바이스는 가장 일반적인 선호된 언어로의 번역을 수행할 수도 있지만, 특정한 AR 디바이스의 사용자에 의해 선호된 언어로의 번역은 목적지 AR 디바이스에서 수행된다.

[0079] 단계(540)에서, 제 1 AR 디바이스의 제 1 사용자에 의한 스피치는, (목적지인) 하나 또는 그 초과의 사용자들의 AR 디바이스들을 사용하여 캡쳐될 수도 있다. 이러한 스피치는, AR 디바이스의 사용자에 의해 뷰잉된 실제-세계 장면에서 제 1 사용자에 의해 말해졌을 수도 있다. 도 1의 시스템(100)을 참조하면, 스피치는, 하나 또는 그 초과의 다른 사용자들에 의해 착용되거나 그렇지 않으면 소유되는 AR 디바이스 내의 오디오 캡쳐 및 포지셔닝 모듈(130)에 의해 캡쳐될 수도 있다. 이러한 스피치는, 분석되기에 그리고/또는 분석을 위해 원격 컴퓨터 시스템으로 송신되기에 적절한 포맷으로 오디오 프로세싱 엔진(135)에 의해 디지털화될 수도 있다.

[0080] 단계(545)에서, 단계(540)에서 캡쳐된 스피치는 텍스트로 번역 및/또는 변환될 수도 있다. 번역의 언어는, 단계(540)에서 스피치를 캡쳐했던 AR 디바이스들의 각각의 사용자의 선호된 언어에 기초할 수도 있다. 변환 및 번역은 단계(540)에서 스피치를 캡쳐했던 다수의 AR 디바이스들 각각에 의해 수행될 수도 있거나, 스피치는 원격 컴퓨터 시스템으로 송신될 수도 있으며, 그 후, 그 시스템은 스피치의 텍스트로의 번역 및/또는 변환을 수행할 수도 있다. AR 디바이스들 중 하나에 의해 번역 및/또는 변환되었던 텍스트는 다른 AR 디바이스들(예를 들어, 동일한 선호된 언어를 갖는 AR 디바이스들)과 공유될 수도 있다.

[0081] 단계(550)에서, 텍스트는, 하나 또는 그 초과의 가상 오브젝트들의 형태로 다른 AR 디바이스들의 사용자들에게 제시될 수도 있다. 다른 AR 디바이스들은, 실제-세계 장면 위에 중첩된 바와 같은 텍스트를 연관된 사용자들에게 제시하기 위해 그들의 HMD들을 사용할 수도 있다. 그러므로, 다른 사용자들이 단계(540)에서 캡쳐된 스피치를 말했던 제 1 사용자를 보고 있으면, 그러한 사람들에 의해 말해진 스피치에 대응하는 텍스트 중 적어도 일부는 실제-세계 장면 상에서 HMD에 의해 중첩된 바와 같이 디스플레이될 수도 있다. HMD가 텍스트를 각각의 사용자에게 제시하기 위해 사용되므로, HMD를 착용한 사용자만이 텍스트를 뷰잉할 수 있을 수도 있다. 사용자의 근방에 존재하는 다른 사람들은, 그러한 텍스트가 사용자에게 제시되고 있다는 것을 인식하지 못할 수도 있다. 각각의 사용자에게 제시된 가상 오브젝트들은, 도 2 및 도 3에 제시된 것들과 같은 하나 또는 그 초과의 스피치 버블들을 포함할 수도 있다. 각각의 스피치 버블은, 텍스트가 기인되는 사람의 머리 위에 떠다닐 수도 있다. 다른 실시예들에서, 텍스트는, 대응하는 스피치를 말했던 사람의 안면 위에 중첩될 수도 있으며, 그에 의해, 사용자가 텍스트를 판독하는 경우, 텍스트에 대응하는 스피치를 말했던 사람과 사용자가 눈맞춤을 하고 있다는 것이 사용자 근방에 존재하는 사람들에게 나타날 것이다. 부가적인 스피치가 사용자의 근방의 사람들에 의해 말해진 경우, 텍스트를 제시하는 가상 오브젝트들은 새로운 스피치에 대응하는 텍스트를 포함하도록 업데이트될 수도 있다. 사용자들에게는, 단계(530 및 550)가 동일하거나 거의 동일할 수도 있으며, 차이는, 어떤 AR 디바이스가 번역 및 변환을 수행/관리하는 것을 담당했는가이다.

[0082] 도 6은 언어 번역 서비스들을 제공하기 위해 AR 디바이스를 사용하기 위한 방법의 일 실시예를 도시한다. 방법(600)은 사용자에 의한 AR 디바이스의 사용을 수반할 수도 있고, AR 디바이스는 도 1의 시스템(100)을 포함할 수도 있다. 방법(600)을 수행하기 위한 수단은 HMD들을 갖는 AR 디바이스를 포함한다. 방법(600)을 수행하기 위한 수단은, 하나 또는 그 초과의 마이크로폰들을 포함할 수도 있는 오디오 캡쳐 및 포지셔닝 모듈; 하나 또는 그 초과의 카메라들을 포함할 수도 있는 이미지 캡쳐 모듈; 안면 인식 및 추적 모듈; 안면 중첩 모듈; 컴퓨터-판독가능 저장 매체를 포함할 수도 있는 사용자 선호도 모듈; 헤드-마운티드 디스플레이(HMD)를 포함할 수도 있는 디스플레이 모듈, 하나 또는 그 초과의 카메라들을 포함할 수도 있는 모션/포커스 추적 모듈; 사용자 인터페이스 모듈; 통신 모듈; 및 오디오 프로세싱 엔진을 더 포함한다. 다양한 모듈들 및 엔진들 중 적어도 몇몇은 하나 또는 그 초과의 프로세서들에 의해 수행될 수도 있다. 더 일반적으로, 방법(600)의 단계들은 컴퓨터 시스템과 같은 컴퓨터화된 디바이스에 의해 수행될 수도 있다.

[0083] 단계(610)에서, 외국어의 스피치가 AR 디바이스를 사용하여 캡쳐될 수도 있다. 이러한 스피치는, AR 디바이스의 사용자에 의해 뷰잉된 실제-세계 장면에서 말해질 수도 있다. 도 1의 시스템(100)을 참조하면, 스피치는 오디오 캡쳐 및 포지셔닝 모듈(130)에 의해 캡쳐될 수도 있다. 이러한 스피치는, 분석되기에 그리고/또는 분석을 위해 원격 컴퓨터 시스템으로 송신되기에 적절한 포맷으로 오디오 프로세싱 엔진(135)에 의해 디지털화될 수도 있다.

[0084] 스피치는, 스피치가 사용자의 선호된 언어(예를 들어, 모국어)인지를 결정하기 위해 AR 디바이스에서 분석될 수도 있다. 이러한 분석은, 사용자의 선호된 언어에 대해 통상적인 사운드 패턴들에 기초할 수도 있다. 스피치가 사용자의 선호된 언어이면, 어떠한 언어 번역 또는 변환 서비스들도 수행되지 않을 수도 있다. 몇몇 실시예들에서, 변환 서비스들만이 수행될 수도 있다.

[0085] 캡쳐되는 스피치의 위치는 단계(620)에서 결정될 수도 있다. 이것은, 다수의 사람들이 AR 디바이스의 사용자에 의해 뷰잉되는 실제-세계 장면 내에 존재하는 경우 특히 유용할 수도 있다. 캡쳐된 오디오의 위치를 결정함으로써, 적절한 사람이 캡쳐된 스피치게 기인될 수도 있다. 비행-시간 분석 및 다수의 마이크로폰들은, 스피치가 기원됐던 곳을 결정하는데 사용될 수도 있다. 다른 실시예들에서, 다른 어레인지먼트들이 스피치의 소스를 결정하기 위해 사용될 수도 있다. 예를 들어, 스피커에 의해 착용된 AR 디바이스는, 스피커가 말하는 사람이라는 표시를 송신할 수도 있다.

[0086] 단계(630)에서, 외국어의 스피치의 디지털 표현은 원격 프로세싱을 위해 원격 컴퓨터 시스템으로 송신될 수도 있다. 도 1의 시스템(100)을 참조하면, 통신 모듈(140)은, 번역 및/또는 변환을 위해 원격 서버에 스피치의 디지털 표현을 송신하도록 구성될 수도 있다. 몇몇 실시예들에서, 스피치는 로컬적으로 분석될 수도 있으며, 스피치의 디지털 표현의 원격 컴퓨터 시스템으로의 어떠한 송신도 필요하지 않다.

[0087] 송신되면, 원격 컴퓨터 시스템은 (가급적, 사용자의 모국어 또는 선호된 언어의 표시와 함께) 스피치의 디지털 표현을 수신하고, 스피치를 텍스트로 변환하며, 사용자의 모국어(또는 선호된 언어)의 텍스트로 텍스트를 번역할 수도 있다. 몇몇 실시예들에서, 스피치는 사용자의 모국어(또는 선호된 언어)로 번역되며, 그 후, 텍스트로 변환된다. 사용자의 AR 디바이스로 사용자에 의해 입력된 사용자 선호도를 통해, 어떤 언어로의 번역이 소망되는지가 사용자에 의해 특정될 수도 있다. 스피치가 번역될 언어의 표시는, 스피치의 디지털 표현과 함께 원격 컴퓨터 시스템으로 송신될 수도 있다. 원격 컴퓨터 시스템은, 사용자에게 디스플레이될 텍스트 내에서 강조될 키워드들을 식별할 수도 있다. 이러한 분석은, 이름들, 장소들, 시간들, 날짜들 등과 같이 중요할 가능성이 있는 단어들의 저장된 데이터베이스에 기초할 수도 있다. 원격 컴퓨터 시스템은, 사용자의 모국어 또는 선호된 언어의 텍스트를 사용자에 의해 사용된 AR 디바이스의 시스템으로 다시 송신할 수도 있다. 몇몇 실시예들에서, 번역 및 변환은 방법(600)을 수행하는 시스템에 의해 로컬적으로 수행된다. 번역 및 변환 서비스들은 또한 AR 디바이스에 의해 수행될 수도 있다.

[0088] 단계(640)에서, 스피치의 디지털 표현이 번역 및/또는 변환을 위해 원격 컴퓨터 시스템으로 송신되었다면, 사용자의 모국어 또는 선호된 언어의 텍스트가 원격 서버로부터 수신될 수도 있다. 실제-세계 장면 내의 어떤 사람에게서 텍스트가 기인되어야 하는지에 대한 표시가 텍스트와 함께 포함될 수도 있다. 프로세싱이 방법(600)을 수행하는 시스템에 의해 로컬적으로 수행되면, 이러한 단계는 불필요할 수도 있다.

[0089] 단계(650)에서, 사용자에 의해 뷰잉된 장면의 이미지가 AR 디바이스에 의해 캡쳐될 수도 있다. 이러한 장면은, 단계(610)에서 캡쳐된 스피치를 말했던 사람을 포함할 수도 있다. 스피치가 기원한 것으로 결정됐던 위치에 기초하여, 장면 내의 어떤 사람이 단계(610)의 스피치를 말했는지가 결정될 수도 있다.

[0090] 단계(660)에서, 단계(640)에서 수신된 텍스트는 실제-세계 장면의 사용자의 뷰 상으로 중첩될 수도 있다. 그러므로, 단계(640)에서 수신된 텍스트를 포함하는 가상 오브젝트가 헤드-마운티드 디스플레이를 통해 실제-세계 장면 상에 중첩될 수도 있으면서, 사용자는 실제-세계 장면을 직접적으로 뷰잉할 수도 있다. 단계(660)에서 디스플레이된 텍스트는 스피치 버블의 일부로서 디스플레이될 수도 있다. 스피치 버블은, 도 3에서와 같이 텍스트를 말했던 사람을 표시하기 위해 그래픽적으로 디스플레이될 수도 있다. 스피치 버블이 어떤 사람에게 또는 어떤 사람 근방에 포인팅되는지에 기초하여, 사용자는, 텍스트가 그 사람에게서 기인되도록 의도된다고 결정할 수도 있다. 몇몇 실시예들에서, 텍스트를 디스플레이하기 위해 스피치 버블을 사용하기보다는, 사람의 안면 위에 중첩되는 바와 같이 텍스트를 말했던 사람 위에 텍스트가 중첩될 수도 있다. 그러므로, 사용자는 또한, 텍스트를 판독하면서, 동시에 눈맞춤의 외관을 적어도 유지할 수 있을 수도 있다. 사용자의 시선들이 사람의 안면 상에 포커싱되면, HMD를 통해 사용자에게 AR 디바이스에 의해 디스플레이되는 텍스트는 부분적으로 또는 완전하게 투명하게, 흐릿하게, 또는 숨겨지게 될 수도 있다. 사용자의 시선들이 텍스트 상에 포커싱되면, 텍스트는 더 불투명하게, 선명하게, 또는 더 두드러지게 디스플레이되게 될 수도 있다.

[0091] 부가적인 스피치가 장면 내의 사람 또는 다른 사람에 의해 말해진 경우, 방법(600)은 번역된 텍스트를 사용자에게 제공하도록 반복될 수도 있다. 이전의 스피치와 연관된 텍스트는, 새로운 텍스트가 이용가능하게 되는 경우 스피치 버블 내의 뷰 바깥에서 스크롤링될 수도 있다.

[0092] 방법들(400, 500, 및 600)의 양상들은, 사람이 듣는데 존재하지 않았던 (또는 주의를 기울이지 않았던) 스피치에 대응하는 텍스트 및 언어 번역 서비스들을 제공하도록 결합될 수도 있다. 도 7은, 언어 번역 서비스들을 제공하고, 사용자가 존재하지 않았던 스피치에 대응하는 텍스트를 또한 제공하기 위해 증강 현실 디바이스를 사용하기 위한 방법의 일 실시예를 도시한다. 방법(700)은 사용자에 의한 AR 디바이스의 사용을 수반할 수도 있고, AR 디바이스는 도 1의 시스템(100)을 포함할 수도 있다. 방법(700)을 수행하기 위한 수단은 HMD들을 갖는 AR 디바이스를 포함한다. 방법(700)을 수행하기 위한 수단은, 하나 또는 그 초과의 마이크로폰들을 포함할 수도 있는 오디오 캡쳐 및 포지셔닝 모듈; 하나 또는 그 초과의 카메라들을 포함할 수도 있는 이미지 캡쳐 모듈; 안면 인식 및 추적 모듈; 안면 중첩 모듈; 컴퓨터-판독가능 저장 매체를 포함할 수도 있는 사용자 선호도 모듈; 헤드-마운티드 디스플레이(HMD)를 포함할 수도 있는 디스플레이 모듈, 하나 또는 그 초과의 카메라들을 포함할 수도 있는 모션/포커스 추적 모듈; 사용자 인터페이스 모듈; 통신 모듈; 및 오디오 프로세싱 엔진을 더 포함한다. 다양한 모듈들 및 엔진들 중 적어도 몇몇은 하나 또는 그 초과의 프로세서들에 의해 수행될 수도 있다. 더 일반적으로, 방법(700)의 단계들은 컴퓨터 시스템과 같은 컴퓨터화된 디바이스에 의해 수행될 수도 있다.

[0093] 단계(705)에서, 외국어의 스피치가 AR 디바이스를 사용하여 캡쳐될 수도 있다. 이러한 스피치는 AR 디바이스의 사용자에 의해 뷰잉된 실제-세계 장면에서 말해질 수도 있다. 도 1의 시스템(100)을 참조하면, 스피치는 오디오 캡쳐 및 포지셔닝 모듈(130)에 의해 캡쳐될 수도 있다. 이러한 스피치는, 분석되기에 그리고/또는 분석을 위해 원격 컴퓨터 시스템으로 송신되기에 적절한 포맷으로 오디오 프로세싱 엔진(135)에 의해 디지털화될 수도 있다.

[0094] 캡쳐된 스피치의 위치는 단계(710)에서 결정될 수도 있다. 이것은, 다수의 사람들이 AR 디바이스의 사용자에 의해 뷰잉되는 실제-세계 장면 내에 존재하는 경우 특히 유용할 수도 있다. 캡쳐된 오디오의 위치를 결정함으로써, 적절한 사람이 캡쳐된 스피치에 기인할 수도 있다. 비행-시간 분석 및 다수의 마이크로폰들은, 스피치가 기원됐던 곳을 결정하는데 사용될 수도 있다. 다른 실시예들에서, 다른 어레인지먼트들이 스피치의 소스를 결정하기 위해 사용될 수도 있다. 예를 들어, 스피커에 의해 착용된 AR 디바이스는, 스피커가 말하는 사람이라는 표시를 송신할 수도 있다.

[0095] 단계(715)에서, 외국어의 스피치의 디지털 표현은 원격 프로세싱을 위해 원격 컴퓨터 시스템으로 송신될 수도 있다. 도 1의 시스템(100)을 참조하면, 통신 모듈(140)은, 번역 및/또는 변환을 위해 원격 서버에 스피치의 디지털 표현을 송신하도록 구성될 수도 있다. 몇몇 실시예들에서, 스피치는 로컬적으로 분석될 수도 있으며, 스피치의 디지털 표현의 원격 컴퓨터 시스템으로의 어떠한 송신도 필요하지 않다.

[0096] 송신되면, 원격 컴퓨터 시스템은 (가급적, 사용자의 모국어 또는 선호된 언어의 표시와 함께) 스피치의 디지털 표현을 수신하고, 스피치를 텍스트로 변환하며, 사용자의 모국어(또는 선호된 언어)의 텍스트로 텍스트를 번역할 수도 있다. 몇몇 실시예들에서, 스피치는 사용자의 모국어(또는 선호된 언어)로 번역되며, 그 후, 텍스트로 변환된다. 사용자의 AR 디바이스로 사용자에 의해 입력된 사용자 선호도를 통해, 어떤 언어로 번역이 소망되는지가 사용자에 의해 특정될 수도 있다. 스피치가 번역될 언어의 표시는, 스피치의 디지털 표현과 함께 원격 컴퓨터 시스템으로 송신될 수도 있다. 원격 컴퓨터 시스템은, 사용자에게 디스플레이될 텍스트 내에서 강조될 키워드들을 식별할 수도 있다. 이러한 분석은, 이름들, 장소들, 시간들, 날짜들 등과 같이 중요할 가능성이 있는 단어들의 저장된 데이터베이스에 기초할 수도 있다. 원격 컴퓨터 시스템은, 사용자의 모국어 또는 선호된 언어의 텍스트를 사용자에 의해 사용된 AR 디바이스의 시스템으로 다시 송신할 수도 있다. 몇몇 실시예들에서, 번역 및 변환은 방법(700)을 수행하는 시스템에 의해 로컬적으로 수행된다.

[0097] 단계(720)에서, 스피치의 디지털 표현이 번역 및/또는 변환을 위해 원격 컴퓨터 시스템으로 송신되었다면, 사용자의 모국어 또는 선호된 언어의 텍스트는, 오디오를 초기에 캡쳐했던 AR 디바이스에 의해 원격 서버로부터 수신될 수도 있다. 이러한 텍스트는 저장될 수도 있다. 그러므로, 텍스트는 중간 디스플레이를 위해 및 AR 디바이스로부터의 추후의 리트리벌(retrieval)을 위해 이용가능할 수도 있다. 몇몇 실시예들에서, 텍스트는, 번역 및 변환 서비스들을 제공했던 원격 컴퓨터 시스템에 의해 저장될 수도 있다. 실제-세계 장면 내의 어떤 사람에게서 텍스트가 기인되어야 하는지에 대한 표시가 텍스트와 함께 포함될 수도 있다. 프로세싱이 방법(700)을 수행하는 시스템에 의해 로컬적으로 수행되면, 이러한 단계는 불필요할 수도 있다.

[0098] 단계(725)에서, 사용자에 의해 뷰잉된 장면의 이미지가 AR 디바이스에 의해 캡쳐될 수도 있다. 이러한 장면은, 단계(705)에서 캡쳐된 스피치를 말했던 사람을 포함할 수도 있다. 스피치가 기원한 것으로 결정됐던 위치에 기초하여, 장면 내의 어떤 사람이 단계(705)의 스피치를 말했는지가 결정될 수도 있다. 또한, 스피치를 말했던 사람의 이미지가 캡쳐 및 저장될 수도 있다. 이러한 이미지는, 어떤 사람이 텍스트를 말했는지를 결정하기 위하여 다른 AR 디바이스에 의해 나중에 사용될 수도 있다.

[0099] 단계(730)에서, 단계(720)에서 수신된 텍스트는 실제-세계 장면의 사용자의 뷰 상으로 중첩될 수도 있다. 그러므로, 단계(720)에서 수신된 텍스트를 포함하는 가상 오브젝트가 헤드-마운티드 디스플레이를 통해 실제-세계 장면 상에 중첩될 수도 있으면서, 사용자는 실제-세계 장면을 직접적으로 뷰잉할 수도 있다. 단계(730)에서 디스플레이된 텍스트는 스피치 버블의 일부로서 디스플레이될 수도 있다. 스피치 버블은, 도 3에서와 같이 텍스트를 말했던 사람을 표시하기 위해 그래픽적으로 디스플레이될 수도 있다. 스피치 버블이 어떤 사람에게 또는 어떤 사람 근방에 포인팅되는지에 기초하여, 사용자는, 텍스트가 그 사람에게서 기인되도록 의도된다고 결정할 수도 있다. 몇몇 실시예들에서, 텍스트를 디스플레이하기 위해 스피치 버블을 사용하기보다는, 사람의 안면 위에 중첩되는 바와 같이 텍스트를 말했던 사람 위에 텍스트가 중첩될 수도 있다. 그러므로, 사용자는 또한, 텍스트를 판독하면서, 동시에 눈맞춤의 외관을 적어도 유지할 수 있을 수도 있다. 사용자의 시선들이 사람의 안면 상에 포커싱되면, HMD를 통해 제 1 AR 디바이스에 의해 사용자에게 디스플레이되는 텍스트는 투명하게, 흐릿하게, 또는 숨겨지게 될 수도 있다. 사용자의 시선들이 텍스트 상에 포커싱되면, 텍스트는 더 불투명하게, 선명하게, 또는 더 두드러지게 디스플레이되게 될 수도 있다. 부가적인 스피치가 장면 내의 사람 또는 다른 사람에 의해 말해진 경우, 방법(700)은 번역된 텍스트를 사용자에게 제공하도록 반복될 수도 있다. 이전의 스피치와 연관된 텍스트는, 새로운 텍스트가 이용가능하게 되는 경우 스피치 버블 내의 뷰 바깥에서 스크롤링될 수도 있다.

[0100] 단계(735)에서, 단계(705)에서 캡쳐된 스피치에 대응하는 텍스트에 대한 요청이 제 2 AR 디바이스로부터 수신될 수도 있다. 제 2 AR 디바이스는, 단계(705)에서 캡쳐된 스피치가 말해졌던 때에 존재하지 않았던 (또는 주의를 기울이지 않았던) 사용자에 의해 착용되거나 그렇지 않으면 사용될 수도 있다. 그러므로, 단계(735)에서 수신된 요청은, 단계(705)에서 캡쳐된 스피치를 포함하는 대화(또는 스피치, 프리젠테이션 등)에 사용자가 진입하는 경우 발생할 수도 있다. 스피치에 대응하는 텍스트에 대한 요청은 예컨대, 디바이스-투-디바이스 통신 프로토콜을 통해 제 2 AR 디바이스로부터 제 1 AR 디바이스에 의해 무선으로 수신될 수도 있다. 텍스트에 대한 요청은, 제 2 AR 디바이스가 요청하고 있는 이전의 텍스트의 시간의 길이를 표시할 수도 있다. 예를 들어, 제 2 AR 디바이스의 사용자는, 이전의 5분의 스피치에 대응하는 텍스트가 소망된다는 것을 특정하는 입력을 제 2 AR 디바이스에 제공할 수도 있다. 텍스트가 요청되는 시간 기간은, 제 2 AR 디바이스의 사용자에 의해 선택된 시간 기간, 제 1 AR 디바이스의 사용자에 의해 선택된 시간 기간, 제 1 AR 디바이스가 오디오를 캡쳐했던 시간 길이, 스피치에 대응하는 텍스트가 저장되는 미리 정의된 시간 기간 등을 포함하는 수 개의 팩터들에 기초할 수도 있다. 단계(735)에서의 스피치에 대응하는 텍스트에 대한 요청은, 제 2 증강 현실 디바이스의 사용자가 텍스트를 요청하는 입력을 제공하는 경우에만 발생할 수도 있다. 다른 실시예들에서, 제 2 AR 디바이스는 사용자 입력을 요구하지 않으면서 텍스트를 요청할 수도 있다. 제 2 AR 디바이스의 사용자로부터의 사용자 입력이 요구되는지 또는 요구되지 않는지는, 제 2 AR 디바이스에 의해 저장된 사용자 선호도에 기초할 수도 있다.

[0101] 단계(740)에서, 제 1 AR 디바이스의 사용자는, 제 2 AR 디바이스가 단계(705)에서 캡쳐된 스피치에 대응하는 텍스트를 요청하고 있다는 표시를 제시받을 수도 있다. 제 2 사용자가 텍스트를 소망하는 마지막 10분과 같은 시간 기간의 표시가 표시될 수도 있다. 제 1 사용자는 요청을 수용 또는 거부하기 위한 능력을 가질 수도 있다. 몇몇 실시예들에서, 말했던 각각의 사람은 승낙을 제공하도록 요구될 수도 있다.

[0102] 단계(745)에서 제 1 사용자에 의한 동의가 제 1 AR 디바이스의 사용자 입력 디바이스를 통해 또는 그러한 요청들을 항상 허가한다는 미리 정의된 사용자 선호도를 통해 제 1 AR 디바이스에 제공된다고 가정하면, 방법(700)은 단계(750)로 진행할 수도 있다. 단계(750)에서, 단계(720)에서 저장된 스피치의 텍스트에 대응하는 데이터가 제 2 AR 디바이스로 송신될 수도 있다. 따라서, 스피치에 대응하는 데이터는 단계(750)에서 제 2 AR 디바이스에 의해 수신될 수도 있다. 그러한 송신은 제 1 AR 디바이스로부터 제 2 AR 디바이스로 직접적일 수도 있다. 그러한 송신은 또한 간접적일 수도 있으며, 즉 텍스트를 포함하는 데이터는, 단계(705)에서 제 1 AR 디바이스에 의해 캡쳐된 스피치에 대응하는 텍스트를 저장했던 원격 컴퓨터 시스템(예를 들어, 번역 및 변환 서비스들을 제 1 AR 디바이스에 제공했던 원격 컴퓨터 시스템)으로부터 제 2 AR 디바이스에 의해 수신될 수도 있다.

[0103] 스피치의 텍스트에 부가하여, 텍스트에 대응하는 스피치를 말했던 사람들의 표시들은 단계(755)에서 송신될 수도 있다. 그러므로, 텍스트는, 대응하는 스피치를 말했던 적절한 사람에게서 기인될 수도 있다. 몇몇 실시예들에서, 표시들은, 스피치를 말했던 한명 또는 그 초과의 사람들의 이미지들일 수도 있으며; 그러한 이미지들은 단계(725)에서 캡쳐될 수도 있다. 표시들이 이미지들이면, 제 2 AR 디바이스는, 텍스트를 말했던 사람을 식별하기 위해, 이미지들에 존재하는 사람들을 실제-세계 장면에 존재하는 사람들과 매칭시킬 수도 있다. 더 이상 존재하지 않는 사람에 대응하는 텍스트가 수신되면, 텍스트는 디스플레이되지 않을 수도 있거나, 더 이상 존재하지 않는 사람의 이미지와 함께 디스플레이될 수도 있다. 텍스트를 디스플레이하는 것은, 다른 텍스트가 사용자에게 제시되는 것에 관해 맥락에 유용할 수도 있다. 다른 실시예들에서, 시리얼 넘버 또는 IP 어드레스와 같은 식별자는, 텍스트를 말했던 사람이 착용한 AR 디바이스를 표시하기 위해 사용될 수도 있다. 그러므로, 식별자에 의해 표시된 AR 디바이스의 위치를 결정함으로써, 텍스트의 스피커가 식별될 수도 있다.

[0104] 단계(760)에서, 제 2 AR 디바이스의 사용자는 부가적인 언어 번역 서비스들을 요구할 수도 있다. 부가적인 언어 번역 서비스들은 원격 컴퓨터 시스템에 의해 수행될 수도 있다. 몇몇 실시예들에서, 부가적인 언어 번역 서비스들은 제 2 AR 디바이스에 의해 로컬적으로 수행될 수도 있다. 예를 들어, 도 3을 참조하면, 사람(210)은 네팔어를 말하고, 사람(220)은 힌두어를 말하며, 사용자는 영어를 말할 수도 있다. 그러므로, 제 1 AR 디바이스로부터 제 2 AR 디바이스로 송신되는 텍스트는, 네팔어로부터 힌두어로 이전에 번역됐을 수도 있으며, 이제는 힌두어로부터 영어로 번역될 필요가 있을 수도 있다. 몇몇 실시예들에서, 다른 언어로부터 이미 번역됐던 제 2 시간 동안 텍스트를 번역하기보다는, 스피치의 본래의 오디오가 제 2 AR의 사용자에 의해 선호된 언어로 번역될 수도 있다. 몇몇 실시예들에서, 본래의 말해진 언어의 텍스트의 변환은 후속 번역들을 위해 저장된다. 본래의 오디오 또는 본래의 말해진 언어의 텍스트의 변환은 원격 컴퓨터 시스템 또는 제 1 AR 디바이스 중 어느 하나에 의해 저장될 수도 있다.

[0105] 단계(765)에서, 제 2 AR 디바이스의 사용자의 선호된 언어로 번역됐던 텍스트는, 하나 또는 그 초과의 가상 오브젝트들의 형태로 제 2 AR 디바이스의 사용자에게 제시될 수도 있다. 이러한 텍스트는, 제 2 AR 디바이스의 사용자가 존재하지 않았거나 청취하지 않았던 동안 말해진 스피치에 대응하는 텍스트를 포함할 수도 있다. 제 2 AR 디바이스는, 실제-세계 장면 위에 중첩된 바와 같은 텍스트를 사용자에게 제시하기 위해 자신의 HMD를 사용할 수도 있다. 그러므로, (제 2 AR 디바이스의 사용자가 존재했는지 또는 존재하지 않았는지에 관계없이) 사용자가 단계(705)에서 캡쳐된 스피치를 말했던 사람들 중 한명 또는 그 초과를 보고 있으면, 그러한 사람들에 의해 말해진 스피치에 대응하는 텍스트 중 적어도 일부는 실제-세계 장면 상에서 HMD에 의해 중첩된 바와 같이 디스플레이될 수도 있다. HMD가 텍스트를 사용자에게 제시하기 위해 사용되므로, HMD를 착용한 사용자만이 텍스트를 뷰잉할 수 있을 수도 있다. 사용자의 근방에 존재하는 다른 사람들은 심지어, 그러한 텍스트가 사용자에게 제시되고 있다는 것을 인식하지 못할 수도 있다. 사용자에게 제시된 가상 오브젝트들은, 도 2 및 도 3에 제시된 것들과 같은 하나 또는 그 초과의 스피치 버블들을 포함할 수도 있다. 각각의 스피치 버블은, 텍스트가 기인되는 사람의 머리 위에 떠다닐 수도 있다. 다른 실시예들에서, 텍스트는, 대응하는 스피치를 말했던 사람의 안면 위에 중첩될 수도 있으며, 그에 의해, 사용자가 텍스트를 판독하는 경우, 텍스트에 대응하는 스피치를 말했던 사람과 사용자가 눈맞춤을 하고 있다는 것이 사용자 근방에 존재하는 사람들에게 나타날 것이다. 부가적인 스피치가 사용자의 근방의 사람들에 의해 말해진 경우, 텍스트를 제시하는 가상 오브젝트들은 새로운 스피치에 대응하는 텍스트를 포함하도록 업데이트될 수도 있다. 제 2 AR 디바이스가 존재하는 그러한 스피치에 대해, 스피치의 변환을 캡쳐하는 것은, 제 1 AR 디바이스를 통하기보다는 제 2 AR 디바이스에 의해 직접적으로 수행될 수도 있다.

[0106] 도 8에 도시된 바와 같은 컴퓨터 시스템은 이전에 설명된 컴퓨터 시스템들 및 컴퓨터화된 디바이스들의 일부로서 포함될 수도 있다. 예를 들어, 컴퓨터 시스템(800)은, 본 명세서에 설명된 시스템(100), 증강 현실 디바이스들, HMD들, 및 원격 컴퓨터 시스템의 컴포넌트들 중 몇몇을 표현할 수 있다. 도 8은, 다양한 다른 실시예들에 의해 제공된 방법들을 수행할 수 있는 컴퓨터 시스템(800)의 일 실시예의 개략적인 예시를 제공한다. 도 8은 다양한 컴포넌트들의 일반화된 예시를 제공하기 위해서만 의도되며, 이들 중 임의의 것 또는 모두가 적절하게 이용될 수도 있음을 유의해야 한다. 따라서, 도 8은, 개별적인 시스템 엘리먼트들이 비교적 분리된 방식으로 어떻게 구현될 수도 있는지 또는 비교적 더 많이 통합된 방식으로 어떻게 구현될 수도 있는지를 광범위하게 도시한다.

[0107] 컴퓨터 시스템(800)은, 버스(805)를 통해 전기적으로 커플링될 수 있는 (또는 그렇지 않으면, 적절하게, 통신할 수도 있는) 하드웨어 엘리먼트들을 포함하는 것으로 도시된다. 하드웨어 엘리먼트들은, (디지털 신호 프로세싱 칩들, 그래픽 가속 프로세서들 등과 같은) 하나 또는 그 초과의 범용 프로세서들 및/또는 하나 또는 그 초과의 특수-목적 프로세서들을 제한없이 포함하는 하나 또는 그 초과의 프로세서들(810); 마우스, 키보드 등을 제한없이 포함할 수 있는 하나 또는 그 초과의 입력 디바이스들(815); 및 디스플레이 유닛, 프린터 등을 제한없이 포함할 수 있는 하나 또는 그 초과의 출력 디바이스들(820)을 포함할 수도 있다.

[0108] 컴퓨터 시스템(800)은, 로컬 및/또는 네트워크 액세스가능한 저장부를 제한없이 포함할 수 있고 그리고/또는 디스크 드라이브, 드라이브 어레이, 광학 저장 디바이스, 랜덤 액세스 메모리("RAM")와 같은 고체-상태 저장 디바이스, 및/또는 프로그래밍가능, 플래시-업데이트가능 등이 가능할 수 있는 판독-전용 메모리("ROM")를 제한없이 포함할 수 있는 하나 또는 그 초과의 비-일시적인 저장 디바이스들(825)을 더 포함(및/또는 그들과 통신)할 수도 있다. 그러한 저장 디바이스들은, 다양한 파일 시스템들, 데이터베이스 구조들 등을 제한없이 포함하는 임의의 적절한 데이터 저장부들을 구현하도록 구성될 수도 있다.

[0109] 컴퓨터 시스템(800)은, 모뎀, 네트워크 카드(무선 또는 유선), 적외선 통신 디바이스, 무선 통신 디바이스, 및/또는 (블루투스^TM 디바이스, 802.11 디바이스, WiFi 디바이스, WiMax 디바이스, 셀룰러 통신 설비들 등과 같은) 칩셋 등을 제한없이 포함할 수 있는 통신 서브시스템(830)을 또한 포함할 수도 있다. 통신 서브시스템(830)은 데이터가, (하나 예를 들자면, 후술되는 네트워크와 같은) 네트워크, 다른 컴퓨터 시스템들, 및/또는 본 명세서에 설명된 임의의 다른 디바이스들과 교환되도록 허용할 수도 있다. 많은 실시예들에서, 컴퓨터 시스템(800)은 상술된 바와 같이, RAM 또는 ROM 디바이스를 포함할 수 있는 작동 메모리(835)를 더 포함할 것이다.

[0110] 컴퓨터 시스템(800)은 본 명세서에 설명된 바와 같이, 운영 시스템(840), 디바이스 드라이버들, 실행가능한 라이브러리들, 및/또는 다양한 실시예들에 의해 제공되는 컴퓨터 프로그램들을 포함할 수도 있고, 그리고/또는 다른 실시예들에 의해 제공된 방법들을 구현하고 그리고/또는 시스템들을 구성하도록 설계될 수 있는 하나 또는 그 초과의 애플리케이션 프로그램들(845)과 같은 다른 코드를 포함하는, 작동 메모리(835) 내에 현재 로케이팅되는 것으로 도시되는 소프트웨어 엘리먼트들을 또한 포함할 수 있다. 단지 예로서, 상술된 방법(들)에 대해 설명된 하나 또는 그 초과의 절차들은 컴퓨터(및/또는 컴퓨터 내의 프로세서)에 의해 실행가능한 코드 및/또는 명령들로서 구현될 수도 있고; 일 양상에서, 그 후, 그러한 코드 및/또는 명령들은, 설명된 방법들에 따라 하나 또는 그 초과의 동작들을 수행하도록 범용 컴퓨터(또는 다른 디바이스)를 구성 및/또는 적응하는데 사용될 수 있다.

[0111] 이들 명령들 및/또는 코드의 세트는, 상술된 비-일시적인 저장 디바이스(들)(825)와 같은 비-일시적인 컴퓨터-판독가능 저장 매체 상에 저장될 수도 있다. 몇몇 경우들에서, 저장 매체는 컴퓨터 시스템(800)과 같은 컴퓨터 시스템 내에 포함될 수도 있다. 다른 실시예들에서, 저장 매체는 컴퓨터 시스템(예를 들어, 컴팩트 디스크와 같은 착탈형 매체)으로부터 분리될 수도 있고, 그리고/또는 설치 패키지에 제공될 수도 있으므로, 저장 매체는, 명령들/코드가 저장된 범용 컴퓨터를 프로그래밍, 구성 및/또는 적응하는데 사용될 수 있다. 이들 명령들은, 컴퓨터 시스템(800)에 의해 실행가능한 실행가능 코드의 형태를 취할 수도 있고, 그리고/또는 소스 및/또는 설치가능한 코드의 형태를 취할 수도 있으며, 그 후, 그 소스 및/또는 설치가능한 코드는 (예를 들어, 임의의 다양한 일반적으로 이용가능한 컴파일러들, 설치 프로그램들, 압축/압축해제 유틸리티들 등을 사용하여) 컴퓨터 시스템(800) 상에서의 컴파일 및/또는 설치 시에, 실행가능한 코드의 형태를 취한다.

[0112] 실질적인 변화들이 특정한 요건들에 따라 행해질 수도 있다는 것은 당업자들에게는 명백할 것이다. 예를 들어, 맞춤화된 하드웨어가 또한 사용될 수도 있고, 그리고/또는 특정한 엘리먼트들이 하드웨어, (애플릿(applet)들 등과 같은 휴대용 소프트웨어를 포함하는) 소프트웨어, 또는 둘 모두로 구현될 수도 있다. 추가적으로, 네트워크 입력/출력 디바이스들과 같은 다른 컴퓨팅 디바이스들로의 접속이 이용될 수도 있다.

[0113] 상술된 바와 같이, 일 양상에서, 몇몇 실시예들은, 본 발명의 다양한 실시예들에 따른 방법들을 수행하기 위해 (컴퓨터 시스템(800)과 같은) 컴퓨터 시스템을 이용할 수도 있다. 실시예들의 세트에 따르면, 그러한 방법들의 절차들 중 몇몇 또는 전부는, 프로세서(810)가 작동 메모리(835)에 포함된 (운영 시스템(840) 및/또는 애플리케이션 프로그램(845)과 같은 다른 코드에 포함될 수도 있는) 하나 또는 그 초과의 명령들의 하나 또는 그 초과의 시퀀스들을 실행하는 것에 응답하여, 컴퓨터 시스템(800)에 의해 수행된다. 그러한 명령들은, 비-일시적인 저장 디바이스(들)(825) 중 하나 또는 그 초과와 같은 다른 컴퓨터-판독가능 매체로부터 작동 메모리(835)로 판독될 수도 있다. 단지 예로서, 작동 메모리(835)에 포함된 명령들의 시퀀스들의 실행은 프로세서(들)(810)가, 본 명세서에 설명된 방법들의 하나 또는 그 초과의 절차들을 수행하게 할 수도 있다.

[0114] 본 명세서에서 사용된 바와 같이, 용어들 "머신-판독가능 매체" 및 "컴퓨터-판독가능 매체"는, 머신이 특정한 방식으로 동작하게 하는 데이터를 제공하는 것에 참가하는 임의의 매체를 지칭한다. 컴퓨터 시스템(800)을 사용하여 구현된 실시예에서, 다양한 컴퓨터-판독가능 매체들은, 실행하기 위해 프로세서(들)(810)에 명령들/코드를 제공하는 것에 수반될 수도 있고 그리고/또는 그러한 명령들/코드를 저장 및/또는 반송하는데 사용될 수도 있다. 많은 구현들에서, 컴퓨터-판독가능 매체는 물리적 및/또는 유형의 저장 매체이다. 그러한 매체는 비-휘발성 매체들 또는 휘발성 매체들의 형태를 취할 수도 있다. 비-휘발성 매체들은, 예를 들어, 비-일시적인 저장 디바이스(들)(825)와 같은 광학 및/또는 자기 디스크들을 포함한다. 휘발성 매체들은, 작동 메모리(835)와 같은 동적 메모리를 제한없이 포함한다.

[01115] 일반적인 형태들의 물리적 및/또는 유형의 컴퓨터-판독가능 매체들은, 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 또는 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학 매체, 펀치카드들, 페이퍼테이프, 홀(hole)들의 패턴들을 갖는 임의의 다른 물리적 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 또는 컴퓨터가 명령들 및/또는 코드를 판독할 수 있는 임의의 다른 매체를 포함한다.

[0116] 다양한 형태들의 컴퓨터-판독가능 매체들은, 실행을 위해 하나 또는 그 초과의 명령들의 하나 또는 그 초과의 시퀀스들을 프로세서(들)(810)에 반송하는 것에 수반될 수도 있다. 단지 예로서, 명령들은 초기에, 원격 컴퓨터의 자기 디스크 및/또는 광학 디스크 상에서 반송될 수도 있다. 원격 컴퓨터는 컴퓨터 시스템(800)에 의해 수신되고 그리고/또는 실행되기 위해, 자신의 동적 메모리로 명령들을 로딩할 수도 있고, 송신 매체를 통해 신호들로서 명령들을 전송할 수도 있다.

[0117] 통신 서브시스템(830)(및/또는 그의 컴포넌트들)은 일반적으로 신호들을 수신할 것이며, 그 후, 버스(805)는, 프로세서(들)(810)이 명령들을 리트리브 및 실행하는 작동 메모리(835)에 신호들(및/또는 신호들에 의해 반송된 데이터, 명령들 등)을 반송할 수도 있다. 작동 메모리(835)에 의해 수신된 명령들은 선택적으로, 프로세서(들)(810)에 의해 실행되기 전에 또는 그 이후에 비-일시적인 저장 디바이스(825) 상에 저장될 수도 있다.

[0118] 상술된 방법들, 시스템들, 및 디바이스들은 예들이다. 다양한 구성들은 적절하게 다양한 절차들 또는 컴포넌트들을 생략, 대체, 또는 부가할 수도 있다. 예를 들어, 대안적인 구성들에서, 방법들은 그 설명된 것과는 상이한 순서로 수행될 수도 있고, 그리고/또는 다양한 스테이지들이 부가, 생략, 및/또는 결합될 수도 있다. 또한, 특정한 구성들에 대해 설명된 특성들은 다양한 다른 구성들에서 결합될 수도 있다. 구성들의 상이한 양상들 및 엘리먼트들은 유사한 방식으로 결합될 수도 있다. 또한, 기술이 진보하며, 따라서, 엘리먼트들의 대부분은 예들이고, 본 발명 또는 청구항들의 범위를 제한하지 않는다.

[0119] 특정한 세부사항들이, (구현들을 포함하는) 예시적인 구성들의 완전한 이해를 제공하기 위해 설명부에서 제시되었다. 그러나, 구성들은 이들 특정한 세부사항들 없이 실시될 수도 있다. 예를 들어, 잘 알려진 회로들, 프로세스들, 알고리즘들, 구조들, 및 기술들은 구성들을 불명료하는 것을 회피하기 위해 불필요한 세부사항 없이 도시된다. 이러한 설명은 단지 예시적인 구성들을 제공할 뿐이며, 청구항들의 범위, 적용가능성, 또는 구성들을 제한하지 않는다. 오히려, 구성들의 이전 설명은, 설명된 기술들을 구현하기 위한 가능한 설명을 당업자들에게 제공할 것이다. 본 발명의 사상 또는 범위를 벗어나지 않으면서 다양한 변화들이 엘리먼트들의 기능 및 어레인지먼트에서 행해질 수도 있다.

[0120] 또한, 구성들은, 흐름도 또는 블록도로서 도시된 프로세스로서 설명될 수도 있다. 각각이 순차적인 프로세스로서 동작들을 설명할 수도 있지만, 대부분의 동작들은 병렬로 또는 동시에 수행될 수 있다. 부가적으로, 동작들의 순서는 재배열될 수도 있다. 프로세스는 도면에 포함되지 않는 부가적인 단계들을 가질 수도 있다. 또한, 방법들의 예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 설명 언어들, 또는 이들의 임의의 결합에 의해 구현될 수도 있다. 소프트웨어, 펌웨어, 미들웨어, 또는 마이크로코드로 구현되는 경우, 필요한 태스크들을 수행하기 위한 프로그램 코드 또는 코드 세그먼트들은, 저장 매체와 같은 비-일시적인 컴퓨터-판독가능 매체에 저장될 수도 있다. 프로세서들은 설명된 태스크들을 수행할 수도 있다.

[0121] 수 개의 예시적인 구성들을 설명했지만, 다양한 변형들, 대안적인 구조들, 및 등가물들이 본 발명의 사상을 벗어나지 않으면서 사용될 수도 있다. 예를 들어, 상기 엘리먼트들은 더 큰 시스템의 컴포넌트일 수도 있으며, 여기서, 다른 법칙들은 본 발명의 애플리케이션에 우선할 수도 있거나 그렇지 않으면 본 발명의 애플리케이션을 변경시킬 수도 있다. 또한, 다수의 단계들은, 상기 엘리먼트들이 고려되기 전에, 그 동안, 또는 그 이후에 착수될 수도 있다. 따라서, 청구항들의 범위는 상기 설명에 의해 제한되지 않는다.

Claims

증강 현실 디바이스들을 사용하기 위한 방법으로서,
제 1 증강 현실 디바이스에 의해, 사람이 상기 제 1 증강 현실 디바이스의 사용자의 시야(field of view) 내의 실제 장면(real-world scene)에 있는 동안 상기 사람에 의해 말해진 스피치를 캡쳐하는 단계 ― 상기 제 1 증강 현실 디바이스는 상기 사용자에 의해 착용되는 제 1 헤드-마운티드(head-mounted) 디스플레이를 포함함 ―;
상기 스피치를 추적하고 그리고 상기 제 1 증강 현실 디바이스에 의해 상기 사람의 안면(face)을 인식함으로써, 상기 실제 장면에서 상기 스피치를 누가 말했는지를 결정하는 단계;
상기 스피치를 누가 말했는지를 결정하는 것에 기초하여, 상기 스피치를 말한 상기 사람의 표시를 생성하는 단계;
상기 제 1 증강 현실 디바이스에 의해, 상기 스피치에 대응하는 텍스트를 수신할 제 2 증강 현실 디바이스를 결정하는 단계 ― 상기 제 2 증강 현실 디바이스는 제 2 헤드-마운티드 디스플레이를 포함함 ―; 및
상기 제 1 증강 현실 디바이스에 의해, 상기 스피치에 대응하는 상기 텍스트 및 상기 스피치를 말한 상기 사람의 상기 표시를 상기 제 2 증강 현실 디바이스에 송신하는 단계를 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 1 항에 있어서,
상기 제 2 증강 현실 디바이스는 상기 스피치 동안 존재하지 않았던, 증강 현실 디바이스들을 사용하기 위한 방법.
제 1 항에 있어서,
상기 텍스트를 상기 실제 장면 상에 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속(attribute)되도록, 상기 사람에 의한 스피치에 대응하는 상기 텍스트를 상기 제 2 증강 현실 디바이스의 상기 제 2 헤드-마운티드 디스플레이에 의해 디스플레이하는 단계를 더 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 3 항에 있어서,
상기 실제 장면 상에 중첩되는 텍스트를 포함하는 그래픽 스피치 버블(bubble)을 통해 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 3 항에 있어서,
상기 제 2 증강 현실 디바이스에 의해, 중요한 것으로 카테고리화된 하나 또는 그 초과의 단어들을 결정하는 단계를 더 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 5 항에 있어서,
상기 사람에 의한 스피치에 대응하는 상기 텍스트를 상기 제 2 증강 현실 디바이스의 상기 제 2 헤드-마운티드 디스플레이에 의해 디스플레이하는 단계는, 중요한 것으로 결정되었던 상기 텍스트의 하나 또는 그 초과의 단어들을 강조하는 단계를 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 1 항에 있어서,
상기 스피치에 대응하는 텍스트로 상기 스피치를 변환(transcribe)하는 단계를 더 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 1 항에 있어서,
상기 제 2 증강 현실 디바이스에 의해, 상기 스피치에 대응하는 텍스트에 액세스하도록 상기 제 2 증강 현실 디바이스의 사용자로부터 입력을 수신하는 단계를 더 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 1 항에 있어서,
상기 제 1 증강 현실 디바이스에 의해, 상기 실제 장면에서 상기 사람에 의해 말해진 스피치에 대응하는 데이터를 원격 서버로 송신하는 단계 － 상기 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용하고; 그리고 상기 스피치는 제 2 언어로 말해짐 －;
상기 제 1 증강 현실 디바이스에 의해, 상기 스피치의 텍스트를 수신하는 단계 － 상기 텍스트는 상기 제 1 언어로 존재함 －; 및
상기 실제 장면 상에 상기 텍스트를 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되도록, 상기 사람에 의한 스피치에 대응하는 상기 텍스트를 상기 제 1 증강 현실 디바이스의 제 1 헤드-마운티드 디스플레이에 의해 디스플레이하는 단계 － 상기 텍스트는 상기 제 1 언어로 존재함 － 를 더 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 9 항에 있어서,
상기 사람에 의한 스피치에 대응하는 상기 텍스트는, 상기 텍스트가 상기 사람의 안면 위에 중첩되도록 디스플레이되는, 증강 현실 디바이스들을 사용하기 위한 방법.
제 10 항에 있어서,
상기 스피치에 대응하는 상기 텍스트는 상기 사람의 눈들에 걸쳐 스크롤링되는, 증강 현실 디바이스들을 사용하기 위한 방법.
증강 현실 시스템으로서,
제 1 증강 현실 디바이스를 포함하고,
상기 제 1 증강 현실 디바이스는,
마이크로폰;
통신 모듈;
제 1 프로세서;
상기 제 1 증강 현실 디바이스의 사용자에 의해 착용되는 제 1 헤드-마운티드 디스플레이; 및
상기 제 1 프로세서와 통신가능하게 커플링되고 상기 제 1 프로세서에 의해 판독가능하며, 프로세서-판독가능 명령들의 제 1 세트가 저장된 메모리를 포함하고,
상기 프로세서-판독가능 명령들의 제 1 세트는, 상기 제 1 프로세서에 의해 실행되는 경우, 상기 제 1 프로세서로 하여금,
사람이 상기 제 1 증강 현실 디바이스의 사용자의 시야 내의 실제 장면에 있는 동안 상기 사람에 의해 말해진 스피치를, 상기 마이크로폰으로부터, 캡쳐하게 하고;
상기 스피치를 추적하고 그리고 상기 사람의 안면을 인식함으로써, 상기 실제 장면에서 상기 스피치를 누가 말했는지를 결정하게 하고;
상기 스피치를 누가 말했는지를 결정하는 것에 기초하여, 상기 스피치를 말한 상기 사람의 표시를 생성하게 하고;
상기 스피치에 대응하는 텍스트를 수신할 제 2 헤드-마운티드 디스플레이를 포함하는 제 2 증강 현실 디바이스를 결정하게 하고; 그리고
상기 스피치에 대응하는 상기 텍스트 및 상기 스피치를 말한 상기 사람의 상기 표시가 상기 통신 모듈을 통해 상기 제 2 증강 현실 디바이스에 송신되도록 하는, 증강 현실 시스템.
제 12 항에 있어서,
상기 제 2 증강 현실 디바이스는 상기 스피치 동안 존재하지 않았던, 증강 현실 시스템.
제 12 항에 있어서,
상기 제 2 증강 현실 디바이스는,
상기 제 2 헤드-마운티드 디스플레이;
제 2 프로세서; 및
상기 제 2 프로세서와 통신가능하게 커플링되고 상기 제 2 프로세서에 의해 판독가능하며, 프로세서-판독가능 명령들의 제 2 세트가 저장된 제 2 메모리를 포함하고,
상기 프로세서-판독가능 명령들의 제 2 세트는, 상기 제 2 프로세서에 의해 실행되는 경우, 상기 제 2 프로세서로 하여금,
상기 텍스트를 상기 실제 장면 상에 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되도록, 상기 사람에 의한 상기 스피치에 대응하는 상기 텍스트를 상기 제 2 헤드-마운티드 디스플레이가 디스플레이하게 하는, 증강 현실 시스템.
제 14 항에 있어서,
상기 실제 장면 상에 중첩되는 상기 텍스트를 포함하는 그래픽 스피치 버블을 통해 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되는, 증강 현실 시스템.
제 14 항에 있어서,
상기 프로세서-판독가능 명령들의 제 2 세트는, 상기 제 2 프로세서에 의해 실행되는 경우, 상기 제 2 프로세서로 하여금, 중요한 것으로 카테고리화된 하나 또는 그 초과의 단어들을 결정하게 하도록 추가적으로 구성되는, 증강 현실 시스템.
제 16 항에 있어서,
상기 텍스트를 상기 실제 장면 상에 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되도록, 상기 사람에 의한 스피치에 대응하는 상기 텍스트를 상기 제 2 헤드-마운티드 디스플레이가 디스플레이하게 하는 상기 프로세서-판독가능 명령들의 제 2 세트의 프로세서-판독가능 명령들은, 상기 제 2 프로세서로 하여금, 중요한 것으로 결정되었던 상기 텍스트의 하나 또는 그 초과의 단어들을 강조하게 하도록 구성된 프로세서-판독가능 명령들을 포함하는, 증강 현실 시스템.
제 12 항에 있어서,
상기 프로세서-판독가능 명령들의 제 1 세트는, 상기 제 1 프로세서에 의해 실행되는 경우, 상기 제 1 프로세서로 하여금, 상기 스피치에 대응하는 텍스트로 상기 스피치를 변환하게 하도록 추가적으로 구성되는, 증강 현실 시스템.
제 14 항에 있어서,
상기 프로세서-판독가능 명령들은, 상기 제 2 프로세서에 의해 실행되는 경우, 상기 제 2 프로세서로 하여금, 상기 스피치에 대응하는 텍스트에 액세스하도록 상기 제 2 증강 현실 디바이스의 사용자로부터 입력을 수신하게 하도록 추가적으로 구성되는, 증강 현실 시스템.
제 12 항에 있어서,
상기 프로세서-판독가능 명령들의 제 1 세트는, 상기 제 1 프로세서에 의해 실행되는 경우, 상기 제 1 프로세서로 하여금,
상기 실제 장면에서 상기 사람에 의해 말해진 스피치에 대응하는 데이터가 상기 통신 모듈을 통해 원격 서버로 송신되도록 하고 － 상기 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용하고; 그리고 상기 스피치는 제 2 언어로 말해짐 －;
상기 통신 모듈을 통해 상기 스피치의 상기 텍스트를 수신하게 하고 － 상기 텍스트는 상기 제 1 언어로 존재함 －; 그리고
상기 실제 장면 상에 상기 텍스트를 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되도록, 상기 사람에 의한 스피치에 대응하는 상기 텍스트가 상기 제 1 증강 현실 디바이스의 제 1 헤드-마운티드 디스플레이에 의해 디스플레이되게 하도록 － 상기 텍스트는 상기 제 1 언어로 존재함 －
추가로 구성되는, 증강 현실 시스템.
제 20 항에 있어서,
상기 사람에 의한 스피치에 대응하는 상기 텍스트는, 상기 텍스트가 상기 사람의 안면 위에 중첩되도록 디스플레이되는, 증강 현실 시스템.
제 21 항에 있어서,
상기 스피치에 대응하는 상기 텍스트는 상기 사람의 눈들에 걸쳐 스크롤링되는, 증강 현실 시스템.
증강 현실 디바이스로서,
상기 증강 현실 디바이스의 사용자에 의해 착용되는 제 1 헤드-마운티드 디스플레이 수단;
사람이 상기 증강 현실 디바이스의 사용자의 시야 내의 실제 장면에 있는 동안 상기 사람에 의해 말해진 스피치를 캡쳐하기 위한 수단;
상기 실제 장면에서 상기 스피치를 누가 말했는지를 결정하기 위한 수단 ― 상기 결정하기 위한 수단은, 상기 스피치를 추적하기 위한 수단 및 상기 증강 현실 디바이스에 의해 상기 사람의 안면을 인식하기 위한 수단을 포함함 ―;
상기 스피치를 누가 말했는지를 결정하는 것에 기초하여, 상기 스피치를 말한 상기 사람의 표시를 생성하기 위한 수단;
상기 스피치에 대응하는 텍스트를 수신할 제 2 증강 현실 디바이스를 결정하기 위한 수단 ― 상기 제 2 증강 현실 디바이스는 제 2 헤드-마운티드 디스플레이 수단을 포함함 ―; 및
상기 스피치에 대응하는 상기 텍스트 및 상기 스피치를 말한 상기 사람의 상기 표시를 상기 제 2 증강 현실 디바이스에 송신하기 위한 수단을 포함하는, 증강 현실 디바이스.
제 23 항에 있어서,
상기 제 2 증강 현실 디바이스는 상기 스피치 동안 존재하지 않았던, 증강 현실 디바이스.
제 23 항에 있어서,
상기 스피치에 대응하는 텍스트로 상기 스피치를 변환하기 위한 수단을 더 포함하는, 증강 현실 디바이스.
제 23 항에 있어서,
상기 실제 장면에서 상기 사람에 의해 말해진 스피치에 대응하는 데이터를 원격 서버로 송신하기 위한 수단 － 상기 증강 현실 디바이스의 사용자는 제 1 언어를 사용하고; 그리고 상기 스피치는 제 2 언어로 말해짐 －;
상기 스피치의 텍스트를 수신하기 위한 수단 － 상기 텍스트는 상기 제 1 언어로 존재함 －
을 더 포함하고,
상기 제 1 헤드-마운티드 디스플레이 수단은, 상기 실제 장면 상에 상기 텍스트를 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되도록 상기 사람에 의한 스피치에 대응하는 상기 텍스트를 디스플레이하기 위한 수단 － 상기 텍스트는 상기 제 1 언어로 존재함 － 을 포함하는, 증강 현실 디바이스.
제 26 항에 있어서,
상기 사람에 의한 스피치에 대응하는 상기 텍스트는, 상기 텍스트가 상기 사람의 안면 위에 중첩되도록 디스플레이되는, 증강 현실 디바이스.
제 27 항에 있어서,
상기 스피치에 대응하는 상기 텍스트는 상기 사람의 눈들에 걸쳐 스크롤링되는, 증강 현실 디바이스.
증강 현실을 위한 프로세서-판독가능 저장 매체로서,
상기 프로세서-판독가능 저장 매체는 프로세서-판독가능 명령들을 포함하고,
상기 프로세서-판독가능 명령들은, 제 1 증강 현실 디바이스의 사용자에 의해 착용되는 제 1 헤드-마운티드 디스플레이를 포함하는 상기 제 1 증강 현실 디바이스의 프로세서로 하여금,
사람이 상기 제 1 증강 현실 디바이스의 사용자의 시야 내의 실제 장면에 있는 동안 상기 사람에 의해 말해진 스피치를 캡쳐하게 하고;
상기 스피치를 추적하고 그리고 상기 제 1 증강 현실 디바이스에 의해 상기 사람의 안면을 인식함으로써, 상기 실제 장면에서 상기 스피치를 누가 말했는지를 결정하게 하고;
상기 스피치를 누가 말했는지를 결정하는 것에 기초하여, 상기 스피치를 말한 상기 사람의 표시를 생성하게 하고;
상기 스피치에 대응하는 텍스트를 수신할 제 2 헤드-마운티드 디스플레이를 포함하는 제 2 증강 현실 디바이스를 결정하게 하고; 그리고
상기 스피치에 대응하는 상기 텍스트 및 상기 스피치를 말한 상기 사람의 상기 표시가 상기 제 1 증강 현실 디바이스에 의해 상기 제 2 증강 현실 디바이스로 송신되도록 하는, 증강 현실을 위한 프로세서-판독가능 저장 매체.
제 29 항에 있어서,
상기 제 2 증강 현실 디바이스는 상기 스피치 동안 존재하지 않았던, 증강 현실을 위한 프로세서-판독가능 저장 매체.
제 29 항에 있어서,
상기 프로세서-판독가능 명령들은, 상기 프로세서로 하여금, 상기 스피치에 대응하는 텍스트로 상기 스피치를 변환하게 하도록 구성된 프로세서-판독가능 명령들을 더 포함하는, 증강 현실을 위한 프로세서-판독가능 저장 매체.
제 29 항에 있어서,
상기 프로세서-판독가능 명령들은,
상기 프로세서로 하여금,
상기 실제 장면에서 상기 사람에 의해 말해진 스피치에 대응하는 데이터가 원격 서버로 송신되도록 하고 － 상기 제 1 증강 현실 디바이스의 사용자는 제 1 언어를 사용하고; 그리고 상기 스피치는 제 2 언어로 말해짐 －;
상기 스피치의 텍스트를 수신하게 하고 － 상기 텍스트는 상기 제 1 언어로 존재함 －; 그리고
상기 실제 장면 상에 상기 텍스트를 중첩함으로써 상기 텍스트가 상기 사람에게 그래픽적으로 귀속되도록, 상기 사람에 의한 스피치에 대응하는 상기 텍스트가 상기 제 1 헤드-마운티드 디스플레이를 통해 디스플레이되게 하도록 － 상기 텍스트는 상기 제 1 언어로 존재함 －
구성된 프로세서-판독가능 명령들을 더 포함하는, 증강 현실을 위한 프로세서-판독가능 저장 매체.
제 32 항에 있어서,
상기 사람에 의한 스피치에 대응하는 상기 텍스트는, 상기 텍스트가 상기 사람의 안면 위에 중첩되도록 디스플레이되는, 증강 현실을 위한 프로세서-판독가능 저장 매체.
제 33 항에 있어서,
상기 스피치에 대응하는 상기 텍스트는 상기 사람의 눈들에 걸쳐 스크롤링되는, 증강 현실을 위한 프로세서-판독가능 저장 매체.
제 1 항에 있어서,
상기 제 1 증강 현실 디바이스에 의해, 상기 실제 장면 내에서 상기 스피치를 말한 상기 사람을 로케이팅(locating)하는 단계를 더 포함하는, 증강 현실 디바이스들을 사용하기 위한 방법.
삭제
삭제
삭제