KR102357633B1

KR102357633B1 - 대화 감지

Info

Publication number: KR102357633B1
Application number: KR1020167031864A
Authority: KR
Inventors: 아더 찰스 톰린; 조나단 파울로비치; 에반 마이클 케이블러; 제이슨 스캇; 카메론 브라운; 조나단 윌리엄 플럼
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2014-04-17
Filing date: 2015-04-07
Publication date: 2022-01-28
Also published as: EP3132444A1; MX366249B; CN106233384A; JP6612250B2; MX2016013630A; WO2015160561A1; RU2016140453A; RU2685970C2; JP2017516196A; CA2943446C; US20150302867A1; BR112016023776A2; RU2016140453A3; CN106233384B; US10529359B2; EP3132444B1; AU2015248061B2; KR20160145719A; CA2943446A1; AU2015248061A1

Abstract

컴퓨팅 디바이스 상의 콘텐츠의 표현 동안 대화를 감지하는 것, 및 대화를 감지한 것에 응답하여 하나 이상의 액션을 취하는 것에 관한 다양한 실시예들이 개시된다. 일 예시에서, 하나 이상의 센서로부터 오디오 데이터 스트림이 수신되고, 오디오 데이터 스트림에 기반하여 제 1 사용자와 제 2 사용자 사이의 대화가 감지되며, 대화를 감지한 것에 응답하여 디지털 콘텐츠 아이템의 표현이 컴퓨팅 디바이스에 의해 변형된다.

Description

대화 감지{CONVERSATION DETECTION}

본 발명은 대화 감지에 관한 것이다.

컴퓨팅 디바이스 상의 콘텐츠의 표현(presentation) 동안 대화를 감지하는 것, 및 대화를 감지한 것에 응답하여 하나 이상의 액션을 취하는 것에 관한 다양한 실시예들이 개시된다. 일 예시에서, 하나 이상의 센서로부터 오디오 데이터 스트림(stream)이 수신되고, 오디오 데이터 스트림에 기반하여 제 1 사용자와 제 2 사용자 사이의 대화가 감지되며, 대화를 감지한 것에 응답하여 디지털 콘텐츠 아이템의 표현이 컴퓨팅 디바이스에 의해 변형된다.

본 요약은 아래의 상세한 설명에서 보다 상세하게 설명되는 개념들의 선택을 단순한 형태로 소개하기 위해 제공된 것이다. 본 요약은 청구된 발명내용의 중요한 특징들 또는 필수적인 특징들을 식별시키려는 의도는 없으며, 또한 청구된 발명내용의 범위를 제한시키려는 의도도 없다. 뿐만 아니라, 청구된 발명내용은 본 개시의 임의의 부분에서 언급된 단점들 모두 또는 그 일부를 해결하는 구현예들에 제한되지 않는다.

도 1은 머리 장착형 디스플레이(head-mounted display; HMD) 디바이스를 통한 디지털 콘텐츠 아이템들의 표현의 예시를 도시한다.
도 2는 다른 사람과 대화를 갖는 도 1의 HMD 디바이스의 착용자를 도시한다.
도 3 내지 도 5는 착용자와 다른 사람 사이의 대화를 감지한 것에 응답하여, 도 1의 디지털 콘텐츠 표현에 대해 이루어질 수 있는 예시적인 변형예들을 도시한다.
도 6은 디지털 콘텐츠 아이템들의 다른 예시적인 표현을 도시한다.
도 7은 다른 사람과 대화를 갖는 도 6의 사용자를 도시한다.
도 8은 사용자와 다른 사람 사이의 대화를 감지한 것에 응답하여, 도 6의 디지털 콘텐츠 표현에 대해 이루어질 수 있는 예시적인 변형예를 도시한다.
도 9는 대화 감지 프로세싱 파이프라인의 예시를 도시한다.
도 10은 대화를 감지하기 위한 방법의 예시를 도시하는 흐름도를 도시한다.
도 11은 예시적인 HMD 디바이스를 도시한다.
도 12는 예시적인 컴퓨팅 시스템을 도시한다.

컴퓨팅 디바이스들은 다양한 형태들로 디지털 콘텐츠를 표현하는데 사용될 수 있다. 몇몇 경우들에서, 컴퓨팅 디바이스들은 가령 3차원(three dimensional; 3D) 이미지들 및/또는 홀로그래픽 이미지들을 디스플레이함으로써, 실감적(immersive)이고 몰입적(engrossing)인 방식으로 콘텐츠를 제공할 수 있다. 또한, 그러한 시각적 콘텐츠는 보다 더 실감적인 경험을 제공하기 위해 오디오 콘텐츠의 표현과 조합될 수 있다.

디지털 콘텐츠 표현들은, 컴퓨팅 디바이스들이 점점 휴대가능해짐에 따라 종래의 엔터테인먼트 설정들 이외의 설정들로 소비될 수 있다. 그와 같이, 종종 그러한 컴퓨팅 디바이스의 사용자는 콘텐츠 표현 동안 다른 사람들과의 대화에 가담할 수 있다. 표현의 속성(nature)에 따라, 표현은 대화를 산만하게 할 수 있다.

따라서, 사용자들 사이의 대화를 자동으로 감지하는 것, 및 예를 들어 대화 동안 표현의 주목성(noticeability)을 감소시키도록 대화가 일어나는 동안 디지털 콘텐츠의 표현을 변화시키는 것에 관한 실시예들이 본원에 개시된다. 대화들을 감지함으로써, 사람 음성들의 단순 존재와 대조적으로, 그러한 컴퓨팅 디바이스들은, 다른 사람과의 대화에 가담하기 위해, 디스플레이되고 있는 콘텐츠로부터 적어도 부분적으로 해방되고자 하는 컴퓨팅 디바이스들의 사용자들의 의도 가능성을 결정할 수 있다. 또한, 콘텐츠로부터의 사용자 해방을 용이하게 하기 위해, 콘텐츠의 표현에 대한 적절한 변형들이 실행될 수 있다.

대화들은 임의의 적절한 방식으로 감지될 수 있다. 예를 들어, 사용자들 사이의 대화는 사람 말(speech)의 분절음(segment)(예를 들어, 적어도 몇몇 단어들)을 말하는 제 1 사용자, 이어서 사람 말의 분절음을 말하는 제 2 사용자, 이어서 사람 말의 분절음을 말하는 제 1 사용자를 감지함으로써 감지될 수 있다. 환언하면, 대화는 상이한 소스 위치들 사이를 오가는 사람 말의 일련의 분절음들로서 감지될 수 있다.

도 1 내지 도 5는, 착용자(102)가 머리 장착형 디스플레이(HMD) 디바이스(104) 형태의 컴퓨팅 디바이스와 상호작용하고 있는 물리적 환경(100)의 예시적인 시나리오를 도시한다. HMD 디바이스(104)는 착용자에게 하나 이상의 디지털 콘텐츠 아이템들을 표현하고, 착용자와 다른 사람 사이의 대화를 감지한 것에 응답하여 표현을 변형시키도록 구성될 수 있다. HMD 디바이스(104)는 아래에서 더욱 상세히 논의될 바와 같이, 예를 들어 하나 이상의 센서로부터 수신되는 오디오 및/또는 비디오 데이터를 사용하여 대화를 감지할 수 있다.

도 1에서, 홀로그래픽 객체(object)들(106)의 형태의 복수의 디지털 콘텐츠 아이템들은, 착용자(102)의 관점으로부터 HMD 디바이스(104)의 시스루(see-through) 디스플레이(108) 상에 디스플레이되고 있는 것으로서 도시된다. 복수의 홀로그래픽 객체들(106)은 물리적 환경(100) 내에서 부유(floating)하는 것처럼 착용자(102)를 둘러싸는 가상 객체들로서 나타날 수 있다. 다른 예시에서, 홀로그래픽 객체들은 또한, 물리적 환경 내에서 벽들 또는 다른 표면들과 연관된 다른 것 상에 매달린(hanging) 것처럼 나타날 수 있다.

도시된 실시예에서, 홀로그래픽 객체들은 다양한 콘텐츠를 디스플레이하는데 사용될 수 있는 "슬레이트(slate)들"로서 디스플레이된다. 그러한 슬레이트들은 임의의 적절한 비디오, 이미지, 또른 다른 가상 콘텐츠를 포함할 수 있다. 일 예시에서, 제 1 슬레이트는 이메일 포털을 표현할 수 있고, 제 2 슬레이트는 소셜 네트워크 포털을 표현할 수 있으며, 제 3 슬레이트는 뉴스 피드를 표현할 수 있다. 다른 예시에서, 상이한 슬레이트들은 상이한 스포츠 경기들과 같은 상이한 텔레비전 채널들을 표현할 수 있다. 또 다른 예시에서, 하나의 슬레이트가 비디오 게임을 표현할 수 있고, 다른 슬레이트들이 채팅방, 소셜 네트워킹 애플리케이션, 게임 통계 및 업적 추적 애플리케이션, 또는 다른 적절한 애플리케이션과 같은 비디오 게임에 대한 동반(companion) 애플리케이션들을 표현할 수 있다. 몇몇 경우들에서, 단일 디지털 콘텐츠 아이템이 시스루 디스플레이를 통해 디스플레이될 수 있다. 도 1의 슬레이트들이 예시의 목적을 위해 도시된 점과, 홀로그래픽 콘텐츠가 임의의 다른 적절한 형태로 디스플레이될 수 있다는 점이 이해될 것이다.

HMD 디바이스(104)는 또한, 착용자(102)에게 오디오 콘텐츠를 단독으로 또는 비디오 콘텐츠와의 조합으로 출력하도록 구성될 수 있다. 예를 들어, HMD 디바이스(104)는 오디오 콘텐츠를 플레이하기 위한 빌트인(built-in) 스피커들 또는 헤드폰들을 포함할 수 있다.

HMD 디바이스가 착용자에게 임의의 적절한 타입의 그리고 다수의 디지털 콘텐츠 아이템들을 표현하도록 구성될 수 있다는 점이 이해될 것이다. 표현될 수 있는 디지털 콘텐츠의 비제한적인 예시들은 영화들, 텔레비전 쇼들, 비디오 게임들, 애플리케이션들, 노래들, 라디오 방송들, 팟캐스트(podcast)들, 웹사이트들, 텍스트 문서들, 이미지들, 사진들 등을 포함한다.

도 2에서, 착용자(102)가 시스루 디스플레이(108)를 통해 디스플레이되는 복수의 홀로그래픽 객체들(106)에 몰두하는 동안, 다른 사람(110)이 물리적 환경(100)으로 들어온다. 다른 사람(110)을 보자마자, 착용자(102)는 다른 사람과의 대화(112)를 개시한다. 대화는 착용자 및 다른 사람 각각이 서로에게 사람 말의 분절음들을 말하는 것을 포함한다. 따라서, HMD 디바이스는 다른 사람이 말하기 전 그리고 다른 사람이 말한 후 모두의 착용자 말을 감지함으로써 대화를 감지하도록 구성될 수 있다. 유사하게, HMD 디바이스는 HMD 디바이스의 착용자가 말하기 전 그리고 HMD 디바이스의 착용자가 말한 후 모두의 다른 사람 말을 감지함으로써 대화를 감지하도록 구성될 수 있다.

도 3 내지 도 5는, HMD 디바이스가 착용자와 다른 사람 사이의 대화를 감지한 것에 응답하여, 디스플레이되고 있는 홀로그래픽 객체들의 표현을 어떻게 변형시킬 수 있는지의 비제한적인 예시들을 도시한다. 제일 먼저 도 3을 참조하면, 대화를 감지한 것에 응답하여, HMD 디바이스(104)는 복수의 객체들을 시스루 디스플레이(108) 상의 뷰로부터 은폐하도록 구성될 수 있다. 몇몇 구현예들에서, 시스루 디스플레이는 임의의 가상 객체들 또는 오버레이들이 완전히 지워질 수 있다. 마찬가지로, 몇몇 구현예들에서, 객체들이 은폐될 수 있고, 가상 보더(border), 오버레이, 또는 대시보드가 시스루 디스플레이 상에 디스플레이되는 채로 남아있을 수 있다. 객체들이 비디오 및/또는 오디오 콘텐츠를 표현하는 시나리오들에서, 그러한 콘텐츠는 슬레이트들이 뷰로부터 은폐되는 것에 응답하여 일시정지될 수 있다. 이러한 방식으로, 착용자는 대화가 종료되었을 때 콘텐츠가 일시정지된 지점에서 콘텐츠의 소비를 재개할 수 있다.

도 4에 도시된 다른 예시에서, 대화를 감지한 것에 응답하여, HMD 디바이스(104)는 착용자의 중앙 뷰의 외측일 수 있는 시스루 디스플레이 상의 상이한 위치에 복수의 객체들 중 하나 이상의 객체를 이동시켜서 다른 사람에 대한 착용자의 뷰를 차단할 가능성을 낮추도록 구성될 수 있다. 또한, 몇몇 구현예들에서, HMD 디바이스는 착용자에 관한 다른 사람의 위치를 결정하고, 다른 사람의 방향을 차단하지 않는 시스루 디스플레이 상의 위치로 복수의 객체들을 이동시키도록 구성될 수 있다. 예를 들어, 다른 사람의 방향은 오디오 데이터[예를 들어, 마이크로폰 어레이로부터의 방향적(directional) 오디오 데이터], 비디오 데이터(컬러, 적외선, 깊이 등), 이들의 조합들 또는 임의의 다른 적절한 데이터를 사용하여 결정될 수 있다.

도 5에 도시된 다른 예시에서, 대화를 감지한 것에 응답하여, HMD 디바이스(104)는 디스플레이되는 객체들의 사이즈들을 변경하고, 시스루 디스플레이 상의 상이한 위치로 복수의 객체들을 이동시키도록 구성될 수 있다. 비제한적인 일 예시로서, 복수의 객체들의 각각의 사이즈가 감소될 수 있고, 복수의 객체들이 시스루 디스플레이의 코너부로 이동될 수 있다. 복수의 객체들은, 착용자가 대화에 가담하기 전 소비하고 있었던 콘텐츠의 리마인더로서 역할할 수 있는 코너부 내의 탭(tab)들로서 나타나도록 변형될 수 있거나, 또는 임의의 다른 적절한 외형(appearance)을 가질 수 있다. 또 다른 예시로서, 복수의 객체들의 표현을 변형시키는 것은, 착용자가 시스루 디스플레이를 통해 다른 사람을 볼 수 있도록, 디스플레이되는 객체들의 반투명도(translucency)를 증가시키는 것을 포함할 수 있다.

위에서 설명된 시나리오들에서, 시스루 디스플레이를 통해 표현되는 가상 객체들은 HMD 디바이스의 착용자에 관해 몸 고정형(body-locked)이다. 환언하면, 가상 객체의 위치는 HMD 디바이스의 착용자의 위치에 관해 고착되거나 또는 고정되어 나타난다. 그와 같이, 몸 고정형 가상 객체는 착용자가 물리적 환경 내로 이동할 때에도 착용자의 관점으로부터의 시스루 디스플레이 상의 동일 위치 내에 남아있는 상태로 나타날 수 있다.

몇몇 구현예들에서, 시스루 디스플레이를 통해 표현되는 가상 객체들은 세계 고정형(world-locked)으로서 착용자에게 나타날 수 있다. 환언하면, 가상 객체의 위치는 물리적 환경 내의 실세계(real-world) 위치에 관련하여 고정되어 나타난다. 예를 들어, 홀로그래픽 슬레이트는 물리적 환경 내의 벽에 걸린 것처럼 나타날 수 있다. 몇몇 경우들에서, 세계 고정형 가상 객체의 위치는 대화를 방해할 수 있다. 따라서, 몇몇 구현예들에서, 대화를 감지한 것에 응답하여 가상 객체의 표현을 변형시키는 것은 세계 고정형 가상 객체의 실세계 위치를 변경시키는 것을 포함할 수 있다. 예를 들어, HMD 디바이스의 착용자와 다른 사용자 사이의 실세계 위치에 위치된 가상 객체는 착용자와 사용자 사이가 아닌 상이한 실세계 위치로 이동될 수 있다. 일 예시에서, 위치는 사용자의 방향 이외의 방향 내에 있을 수 있다.

몇몇 구현예들에서, HMD 디바이스는 또한 대화의 종료를 감지하도록 구성될 수 있다. 대화의 종료를 감지한 것에 응답하여, HMD 디바이스는 시스루 디스플레이 상의 객체들의 시각적 상태를 대화가 감지되기 전에 존재했던 객체들의 상태로 되돌리도록 구성될 수 있다(예를 들어, 은폐해제, 보다 적은 투명도, 뷰 내의 보다 중앙 등). 다른 구현예들에서, 착용자는 시스루 디스플레이 상의 복수의 객체들의 디스플레이를 재개하기 위한 수동 명령(예를 들어, 버튼 누름, 음성 명령, 제스처 등)을 제공할 수 있다.

위에서 설명된 바와 같은 대화 감지는 비제한적인 예시로서 도 1 내지 도 5의 HMD를 포함하는 임의의 적절한 컴퓨팅 디바이스로 이용될 수 있다. 도 6 내지 도 8은, 물리적 환경(600) 내의 제 1 사용자(602)가 대규모(large-scale) 디스플레이(604)와 상호작용하고 있는 다른 예시적인 시나리오를 도시한다. 디스플레이 디바이스(604)는 엔터테인먼트 컴퓨팅 디바이스(606)와 통신할 수 있다. 또한, 컴퓨팅 디바이스(606)는 물리적 환경(600)에 대한 데이터를 캡처하도록 구성되는 하나 이상의 센서를 포함하는 센서 디바이스(608)와 통신할 수 있다. 센서 디바이스는 오디오 데이터 스트림을 캡처하기 위한 하나 이상의 오디오 센서를 포함할 수 있다. 몇몇 구현예들에서, 센서 디바이스는 비디오 데이터 스트림을 캡처하기 위한 하나 이상의 이미지 센서(예를 들어, 깊이 이미지 센서들, 적외선 이미지 센서들, 가시 광 이미지 센서들 등)를 포함할 수 있다.

엔터테인먼트 컴퓨팅 디바이스(606)는 디스플레이(604)를 통한 다른 사람에 대한 하나 이상의 디지털 아이템의 표현을 제어하도록 구성될 수 있다. 또한, 엔터테인먼트 컴퓨팅 디바이스(606)는 센서 디바이스(608)로부터 수신되는 오디오 및/또는 비디오 데이터에 기반하여 사용자들 사이의 대화를 감지하고, 대화를 감지한 것에 응답하여 복수의 디지털 콘텐츠 아이템들 중 하나 이상의 아이템의 표현을 변형시키도록 구성될 수 있다. 센서 디바이스, 대규모 디스플레이, 및 엔터테인먼트 컴퓨팅 디바이스가 분리된 컴포넌트들로서 도시되지만, 몇몇 구현예들에서 센서 디바이스, 대규모 디스플레이, 및 엔터테인먼트 컴퓨팅 디바이스가 단일 하우징 내에서 조합될 수 있다.

도 6에서, 제 1 사용자(602)는 엔터테인먼트 컴퓨팅 디바이스(606)에 의해 실행되는 비디오 게임을 플레이하고 있다. 제 1 사용자가 비디오 게임을 플레이하는 동안, 센서 디바이스(608)는 물리적 환경(600) 내의 소리들을 나타내는 오디오 데이터를 캡처하고 있다. 도 7에서, 제 1 사용자(602)가 대규모 디스플레이(604) 상에 디스플레이되는 비디오 게임을 플레이하는데 몰두하는 동안, 제 2 사용자(610)가 물리적 환경(600)에 들어온다. 제 2 사용자(610)를 보자마자, 제 1 사용자(602)는 제 2 사용자와의 대화(612)를 개시한다. 대화는 제 1 사용자 및 제 2 사용자 각각이 서로에게 사람 말의 분절음들을 말하는 것을 포함한다. 일 예시로서, 대화는 제 2 사용자가 말하기 전 그리고 제 2 사용자가 말한 후의 제 1 사용자 말에 의해, 또는 제 1 사용자가 말하기 전 그리고 제 1 사용자가 말한 후의 제 2 사용자 말에 의해 감지될 수 있다.

제 1 사용자와 제 2 사용자 사이의 대화는 센서 디바이스(608)에 의해 수신되고 오디오 데이터 스트림으로서 출력할 수 있고, 엔터테인먼트 컴퓨팅 디바이스(606)는 센서 디바이스(608)로부터 오디오 데이터 스트림을 수신할 수 있다. 엔터테인먼트 컴퓨팅 디바이스(606)는 오디오 데이터 스트림에 기반하여 제 1 사용자(602)와 제 2 사용자(610) 사이의 대화를 감지하고, 대화를 감지한 것에 응답하여 대화 동안 비디오 게임의 주목성을 줄이기 위해 비디오 게임의 표현을 변형시키도록 구성될 수 있다.

엔터테인먼트 컴퓨팅 디바이스(606)는 대화를 감지한 것에 응답하여 임의의 적절한 액션들을 취할 수 있다. 일 예시에서, 도 8에 도시된 바와 같이, 엔터테인먼트 컴퓨팅 디바이스(606)는 비디오 게임을 일시정지함으로써 비디오 게임의 표현을 변형시킬 수 있다. 또한, 몇몇 구현예들에서, 비디오 게임의 표현이 변형되었음을 표시하기 위해 시각적 표시자(614)가 디스플레이될 수 있고, 시각적 표시자는 엔터테인먼트 컴퓨팅 디바이스가 대화의 감지에 반응하고 있음을 나타내는 은은한(subtle) 표시를 사용자에게 제공할 수 있다. 다른 예시로서, 대화를 감지한 것에 응답하여, 엔터테인먼트 컴퓨팅 디바이스는 비디오 게임을 일시정지하지 않고 비디오 게임의 볼륨을 음소거하거나 낮출 수 있다.

몇몇 구현예들에서, 대화를 감지한 것에 응답하여, 디지털 콘텐츠의 표현이 하나 이상의 인자(factor)에 기반하여 상이하게 변형될 수 있다. 일 예시에서, 디지털 콘텐츠 아이템의 표현은 디지털 콘텐츠 아이템의 콘텐츠 타입에 기반하여 상이하게 변형될 수 있다. 예를 들어, 비디오 게임들은 일지정지될 수 있고, 라이브 텔레비전 쇼들은 축소될 수 있으며, 볼륨은 감소될 수 있다. 일 예시에서, 디지털 콘텐츠 아이템의 표현은 디지털 콘텐츠 아이템에 대한 관여도(involvement) 또는 몰입도(engagement)의 레벨에 기반하여 상이하게 변형될 수 있다. 예를 들어, "관여도 미터(involvement meter)"와 같은, 다양한 센서 표시들에 기반하여 몰입도의 레벨을 추정하기 위한 메커니즘이 구현될 수 있다. 일 예시에서, 사용자가 높은 레벨의 관여도를 갖는 것으로 결정되면, 이어서 디지털 콘텐츠 아이템의 표현은 단지 볼륨 레벨을 낮춤으로써 변형될 수 있다. 일 예시에서, 사용자가 낮은 레벨의 관여도를 갖는 것으로 결정되면, 이어서 디지털 콘텐츠 아이템의 표현은 디지털 콘텐츠 아이템을 은폐하고 음소거함으로써 변형될 수 있다. 디지털 콘텐츠 아이템의 표현이 어떻게 변형될지를 결정하는데 사용될 수 있는 다른 비제한적 인자들은 시각(time of day), 지리학적 위치, 물리적 환경[예를 들어, 직장(work), 집, 커피 숍 등]을 포함할 수 있다.

대화의 발생(occurrence)은 다양한 방식들로 결정될 수 있다. 예를 들어, 대화는 오디오 데이터, 비디오 데이터, 또는 이들의 조합에 기반하여 감지될 수 있다. 도 9는 대화를 감지하기 위해 하나 이상의 컴퓨팅 디바이스에서 구현될 수 있는 대화 프로세싱 파이프라인(900)의 예시를 도시한다. 대화 프로세싱 파이프라인(900)은 물리적 환경에 대한 정보를 캡처하는 복수의 상이한 센서들(902)로부터 수신되는 데이터 스트림들을 프로세싱하도록 구성될 수 있다.

도시된 실시예에서, 오디오 데이터 스트림(904)은 마이크로폰 어레이(904)로부터 수신될 수 있고, 이미지 데이터 스트림(924)은 이미지 센서(906)로부터 수신될 수 있다. 오디오 데이터 스트림(908)은 오디오 데이터 스트림이 사람 음성 또는 다른 잡음(background noise)을 나타내는지의 여부를 결정하도록 구성되는 음성 활성분 감지(voice activity detection; VAD) 스테이지(910)를 통과할 수 있다. 음성 활성분(912)을 포함하는 것으로서 표시된 오디오 데이터는 VAD 스테이지(910)로부터 출력되고, 음성 활성분으로부터 말의 부분들을 감지하도록 구성된 말 인식 스테이지(914)로 제공될 수 있다. 말 인식 스테이지(914)는 사람 말 분절음들(916)을 출력할 수 있다. 예를 들어, 사람 말 분절음들은 단어들의 일부 및/또는 완전한 단어들을 포함할 수 있다.

몇몇 구현예들에서, 말 인식 스테이지는 사람 말 분절음과 연관된 신뢰도(confidence) 레벨을 출력할 수 있다. 대화 프로세싱 파이프라인은 신뢰도 문턱값(예를 들어, 말 분절음이 단어일 때 50% 신뢰도)을 설정하도록 구성될 수 있고, 신뢰도 문턱값보다 작은 신뢰도 레벨을 갖는 사람 말 분절음들을 거절할 수 있다.

몇몇 구현예들에서, 말 인식 스테이지는 컴퓨팅 디바이스 상에 로컬로 구현될 수 있다. 다른 구현예들에서, 말 인식 스테이지는 원격 컴퓨팅 디바이스 상에 위치되는 서비스로서 구현되거나(예를 들어, 컴퓨팅 클라우드 네트워크 내에서 구현됨), 또는 로컬 및 원격 디바이스들 사이에 분배될 수 있다.

말 인식 스테이지(914)로부터 출력되는 사람 말 분절음들(916)은 사람 말 분절음의 소스 위치를 결정하도록 구성되는 말 소스 위치탐지(locator) 스테이지(918)로 제공될 수 있다. 몇몇 구현예들에서, 소스 위치는 트랜스듀서 볼륨들 및/또는 마이크로폰 어레이(904) 내의 마이크로폰들의 위상들을 비교함으로써 추정될 수 있다. 예를 들어, 어레이 내의 각각의 마이크로폰은 볼륨 트랜스듀서 레벨 및/또는 어레이 내의 다른 마이크로폰들에 관한 위상을 보고하도록 캘리브레이션될 수 있다. 디지털 신호 프로세싱을 사용하면, 각각의 마이크로폰 트랜스듀서로부터의 인식된 제곱 평균(root-mean-square) 소리의 세기(loudness)가, 어떤 마이크로폰들이 보다 큰 오디오 볼륨을 얼만큼 큰지와 함께 보고하고 있는지를 표시하는 가중 함수(weighted function)를 제공하도록 (예를 들어, 20 미리초마다, 또는 다른 적절한 간격에서) 계산될 수 있다. 어레이 내의 마이크로폰들 각각의 트랜스듀서 볼륨 레벨들의 비교는 캡처된 오디오 데이터의 소스 위치를 추정하는데 사용될 수 있다.

몇몇 구현예들에서, 빔형성(beamforming) 공간 필터가, 캡처된 오디오 데이터의 소스 위치를 추정하도록 마이크로폰 어레이의 복수의 오디오 샘플들에 적용될 수 있다. HMD 디바이스의 경우, 빔형성된 오디오 스트림은 착용자의 입과 정렬되도록 HMD 디바이스로부터 바로 전방으로 겨냥될 수 있다. 그와 같이, 착용자 및 착용자의 바로 앞에 있는 누군가의 오디오가 멀리서도 또렷할 수 있다. 몇몇 구현예들에서, 트랜스듀서 볼륨 레벨들의 비교 및 빔형성 공간 필터는 캡처된 오디오 데이터의 소스 위치를 추정하도록 조합으로 사용될 수 있다.

말 소스 위치탐지 스테이지(918)는, 사람 말의 분절음들이 상이한 소스 위치들 사이를 오가는지를 결정하는 것에 기반하여 대화를 감지하도록 구성되는 대화 감지기 스테이지(922)에 사람 말 분절음들(920)의 소스 위치들을 제공할 수 있다. 오가는 패턴은 상이한 사용자들이 대화 중 서로 앞뒤로 말하고 있는 것을 표시할 수 있다.

몇몇 구현예들에서, 대화 감지기 스테이지(922)는, 사람 말의 분절음들이 문턱값 시구간(period of time) 내에서 상이한 소스 위치들 사이를 오가거나 또는 사람 말의 분절음들이 지정된 케이던스(cadence) 범위 내에서 발생하면 대화를 감지하도록 구성될 수 있다. 문턱값 시구간 및 케이던스는 임의의 적절한 방식으로 설정될 수 있다. 문턱값 구간은, 오가는 사람 말의 분절음들이, 관련없는 말 분절음들을 제외하고 시간적으로 대화가 되기에 충분할 정도에 근사하여 발생하는 것을 보장할 수 있다.

몇몇 구현예들에서, 대화 프로세싱 파이프라인(900)은 오디오 데이터 스트림(908)을 분석하여 사람 말의 하나 이상의 분절음이 디스플레이 상에 표현되고 있는 영화 또는 텔레비전 쇼로부터와 같이, 전자 오디오 디바이스로부터 기인하는지의 여부를 결정하도록 구성될 수 있다. 일 예시에서, 결정은 전자 오디오 디바이스의 오디오 또는 볼륨 시그니처(signature)를 식별하는 것에 기반하여 수행될 수 있다. 다른 예시에서, 결정은 전자 오디오 디바이스의 알고있는 소스 위치에 기반하여 수행될 수 있다. 또한, 대화 프로세싱 파이프라인(900)은, 사람 말의 분절음들이 상이한 소스 위치들 사이에서 오간다고 결정했을 때, 전자 오디오 디바이스에 의해 제공되는 사람 말의 그 하나 이상의 분절음을 활성적으로(actively) 무시하도록 구성될 수 있다. 이러한 방식으로, 예를 들어, 영화 속 캐릭터들 사이에서 발생하는 대화가 실제 사람 사용자들 사이의 대화로 오인되지 않을 수 있다.

몇몇 구현예들에서, 오디오 데이터 스트림의 분석은 이미지 센서(906)로부터 수신되는 이미지 데이터 스트림(924)의 분석에 의해 증대될 수 있다. 예를 들어, 이미지 데이터 스트림은 대화에 잠재적으로 가담하는 한명의 또는 양 화자들의 이미지들(예를 들어, HMD 디바이스의 착용자의 관점으로부터의 사용자의 이미지들 또는 센서 디바이스의 관점으로부터의 양 사용자들의 이미지들)을 포함할 수 있다. 이미지 데이터 스트림(924)은 특징(feature) 인식 스테이지(926)에 제공될 수 있다. 특징 인식 스테이지(926)는, 예를 들어 이미지들을 분석하여 사용자의 입이 움직이고 있는지의 여부를 결정하도록 구성될 수 있다. 특징 인식 스테이지(926)는 식별된 특징 및/또는 사용자가 말하고 있다는 신뢰도의 레벨을 표시하는 신뢰도 레벨(930)을 출력할 수 있다. 신뢰도 레벨(930)은 대화를 감지하기 위해 오디오 데이터 스트림의 분석과의 조합으로 대화 감지기 스테이지(922)에 의해 사용될 수 있다.

이미지 데이터 스트림(924)은 또한 사용자 식별 스테이지(928)로 제공될 수 있다. 사용자 식별 스테이지(928)는 이미지들을 분석하여 말하고 있는 사용자를 인식하도록 구성될 수 있다. 예를 들어, 사용자를 식별하기 위해 얼굴 또는 몸 구조가 사용자 프로파일들과 비교될 수 있다. 사용자가 임의의 적절한 시각적 분석에 기반하여 식별될 수 있다는 점이 이해될 것이다. 사용자 식별 스테이지(928)는 대화 감지기 스테이지(922)에, 결정에 있어서의 신뢰도를 반영한 신뢰도 레벨뿐만 아니라, 화자(932)의 신원을 출력할 수 있다. 대화 감지기 스테이지(922)는, 사람 말의 분절음들을, 식별된 특정 사용자들이 말하고 있는 것으로 분류하기 위해 화자 신원(932)을 사용할 수 있다. 이러한 방식으로, 대화 감지의 신뢰도가 증가될 수 있다. 도시된 대화 프로세싱 파이프라인이 단지, 대화를 감지하기 위해 오디오 데이터 스트림이 분석되는 방식의 일 예시일뿐이고, 임의의 적절한 접근법이 본 개시의 범위로부터 벗어나지 않고 대화를 감지하기 위해 구현될 수 있다는 점이 이해될 것이다.

도 10은, 대화 동안의 콘텐츠 표현의 주목성을 감소시키는 것을 돕기 위해 컴퓨팅 디바이스를 통해 대화를 감지하기 위한 예시적인 방법(1000)을 도시하는 흐름도를 도시한다. 방법(1000)은, 예를 들어 도 1에 도시된 HMD 디바이스(104), 도 6에 도시된 엔터테인먼트 컴퓨팅 디바이스(606), 또는 임의의 다른 적절한 컴퓨팅 디바이스에 의해 수행될 수 있다.

동작(1002)에서, 방법(1000)은 하나 이상의 디지털 콘텐츠 아이템을 표현하는 동작을 포함한다. 예를 들어, 표현하는 동작은 디스플레이 상에 비디오 콘텐츠 아이템을 디스플레이하는 동작을 포함할 수 있다. 다른 예시에서, 표현하는 동작은 오디오 콘텐츠 아이템을 플레이하는 동작을 포함할 수 있다. 또한, 동작(1004)에서, 방법(1000)은 하나 이상의 센서로부터 오디오 데이터 스트림을 수신하는 동작을 포함한다. 일 예시에서, 오디오 데이터 스트림은 마이크로폰 어레이로부터 수신될 수 있다.

동작(1006)에서, 방법(1000)은 음성 활성분에 대한 오디오 데이터 스트림을 분석하는 동작 및, 동작(1008)에서 오디오 데이터 스트림이 음성 활성분을 포함하는지의 여부를 결정하는 동작을 포함한다. 오디오 데이터 스트림이 음성 활성분을 포함하면, 이어서 방법(1000)은 동작(1010)으로 이동한다. 그렇지 않으면, 방법(1000)은 다른 동작들로 리턴한다.

동작(1010)에서, 방법(1000)은 사람 말 분절음들에 대한 음성 활성분을 분석하는 동작, 및 동작(1012)에서 음성 활성분이 사람 말 분절음들을 포함하는지의 여부를 결정하는 동작을 포함한다. 음성 활성분이 사람 말 분절음들을 포함하면, 이어서 방법(1000)은 동작(1014)으로 이동한다. 그렇지 않으면, 방법(1000)은 다른 동작들로 리턴한다.

동작(1014)에서, 방법(1000)은 임의의 사람 말 분절음들이 전자 오디오 디바이스에 의해 제공되는지의 여부를 결정하는 동작을 포함한다. 임의의 사람 말 분절음들이 전자 오디오 디바이스에 의해 제공되면, 이어서 방법(1000)은 동작(1016)으로 이동한다. 그렇지 않으면, 방법(1000)은 동작(1018)으로 이동한다. 동작(1016)에서, 방법(1000)은 전자 오디오 디바이스에 의해 제공되는 그 사람 말 분절음들을 활성적으로 무시하는 동작을 포함한다. 환언하면, 그 사람 말 분절음들은 대화 감지의 임의의 고려사항(consideration)으로부터 제외될 수 있다. 동작(1018)에서, 방법(1000)은 오디오 데이터 스트림의 각각의 사람 말 분절음의 소스 위치를 결정하는 동작을 포함한다. 또한, 동작(1020)에서, 방법(1000)은 사람 말 분절음들이 상이한 소스 위치들 사이를 오가는지의 여부를 결정하는 동작을 포함한다. 일 예시에서, 대화는 제 1 사용자가 말하는 사람 말 분절음들이 제 2 사용자가 말하는 사람 말 분절음 전에 그리고 제 2 사용자가 말하는 사람 말 분절음 후에 발생할 때 감지될 수 있다. 다른 예시에서, 대화는 제 2 사용자가 말하는 사람 말 분절음들이 제 1 사용자가 말하는 사람 말 분절음 전에 그리고 제 1 사용자가 말하는 사람 말 분절음 후에 발생할 때 감지될 수 있다. 몇몇 구현예들에서, 이는, 오가는 사람 말 분절음들이 지정된 시구간 내에 있는지를 결정하는 것을 포함할 수 있다. 또한, 몇몇 구현예들에서, 이는, 오가는 사람 말 분절음들이 지정된 케이던스 범위 내에서 발생하는지를 결정하는 것을 포함할 수 있다. 사람 말 분절음들이 상이한 소스 위치들 사이를 오가면 (그리고, 지정된 시구간 내에 있고 지정된 케이던스 범위 내에서 발생하면), 이어서 대화가 감지되고 방법(1000)은 동작(1022)으로 이동한다. 그렇지 않으면, 방법(1000)은 다른 동작들로 리턴한다.

대화가 감지되면, 이어서 동작(1022)에서 방법(1000)은 대화를 감지한 것에 응답하여 하나 이상의 디지털 콘텐츠 아이템의 표현을 변형시키는 동작을 포함한다. 예를 들어, 표현이 일시정지될 수 있고, 오디오 콘텐츠 아이템의 볼륨이 낮춰질 수 있으며, 하나 이상의 시각적 콘텐츠 아이템이 디스플레이 상의 뷰로부터 은폐될 수 있고, 하나 이상의 시각적 콘텐츠 아이템이 디스플레이 상의 상이한 위치로 이동될 수 있으며, 그리고/또는 디스플레이 상의 하나 이상의 시각적 콘텐츠 아이템들의 사이즈가 변형될 수 있다.

사용자들 사이의 대화를 감지한 것에 응답하여 디지털 컨텐츠 아이템의 표현을 변형시킴으로써, 디지털 콘텐츠 아이템의 표현은 대화 동안 보다 적게 주목되게 될 수 있다. 또한, 이러한 방식으로, 사용자는 대화가 개시되었을 때 콘텐츠의 재생을 수동으로 일시정지하거나 볼륨을 줄이는 등과 같이, 디지털 콘텐츠 아이템의 표현을 수동으로 변형시킬 필요가 없다.

본원에 설명된 대화 감지 구현예들은 임의의 적절한 컴퓨팅 디바이스로 사용될 수 있다. 예를 들어, 몇몇 실시예들에서, 개시되는 구현예는 HMD 디바이스를 사용하여 구현될 수 있다. 도 11은 투명 디스플레이(1102)를 갖는 한 쌍의 웨어러블 안경의 형태의 HMD 디바이스(1100)의 비제한적인 예시를 도시한다. HMD 디바이스가, 투명, 반투명, 및/또는 불투명 디스플레이가 보는이의 눈 또는 눈들의 앞에 지원되는 임의의 다른 적절한 형태를 취할 수 있다는 점이 이해될 것이다.

HMD 디바이스(1100)는 시스루 디스플레이(1102)의 동작을 제어하도록 구성되는 제어기(1104)를 포함한다. 시스루 디스플레이(1102)는 홀로그래픽 객체들과 같은 이미지들이 HMD 디바이스(1100)의 착용자의 눈들에 전달되도록 할 수 있다. 시스루 디스플레이(1102)는 투명 디스플레이를 통해 물리적 환경을 보는 착용자에 대해 실세계, 물리적 환경의 외형을 시각적으로 증강시키도록 구성될 수 있다. 예를 들어, 물리적 환경의 외형은 혼합 현실 환경을 생성하도록, 투명 디스플레이(1102)를 통해 표현되는 그래픽 콘텐츠에 의해 증강될 수 있다. 일 예시에서, 디스플레이는 하나 이상의 시각적 디지털 콘텐츠 아이템을 디스플레이하도록 구성될 수 있다. 몇몇 경우들에서, 디지털 콘텐츠 아이템들은 실세계 환경 앞에 오버레이되는 시각적 객체들일 수 있다. 마찬가지로, 몇몇 경우들에서, 디지털 콘텐츠 아이템들은 투명 디스플레이(1102)를 통해 보여지는 실세계 환경의 실세계 객체들의 엘리먼트들을 통합할 수 있다.

투명 디스플레이(1102)를 통해 이미지들을 디스플레이하기 위해 임의의 적절한 메커니즘이 사용될 수 있다. 예를 들어, 투명 디스플레이(1102)는 렌즈들(1106) 내에 위치되는 [예를 들어, 시스루 유기 발광 다이오드(Organic Light-Emitting Diode; OLED) 디스플레이와 같은] 이미지 생성 엘리먼트들을 포함할 수 있다. 다른 예시로서, 투명 디스플레이(1102)는 HMD 디바이스(1100)의 프레임 내에 위치되는 광 모듈레이터를 포함할 수 있다. 이 예시에서 렌즈들(1106)은 광 모듈레이터로부터의 광을 착용자의 눈들에 전달하기 위한 광 안내기로서 역할할 수 있다. 그러한 광 안내기는 착용자가 보고 있는 물리적 환경 내에 위치되는 3D 홀로그래픽 이미지를 착용자가 인지할 수 있도록 하고, 또한 착용자가 물리적 환경 내의 물리적 객체들을 볼 수 있도록 하므로 혼합 현실 환경을 생성한다.

HMD 디바이스(1100)는 또한, 제어기(1104)에 정보를 제공하기 위해 다양한 센서들 및 관련된 시스템들을 포함할 수 있다. 그러한 센서들은, 비제한적인 예시로서 마이크로폰 어레이, 하나 이상의 외향(outward facing) 이미지 센서(1108), 및 관성 측정 유닛(inertial measurement unit; IMU)(1110)을 포함할 수 있다.

비제한적인 예시로서, 마이크로폰 어레이는 HMD 디바이스(1100)의 상이한 부분들 상에 위치되는 6개의 마이크로폰들을 포함할 수 있다. 몇몇 구현예들에서, 마이크로폰들(1112 및 1114)은 렌즈(1106)의 상단부 상에 위치될 수 있고, 일반적으로 전향(forward facing)일 수 있다.

마이크로폰들(1112 및 1114)은 HMD 디바이스(1100)의 전방에 관해 45도 각도로 겨냥될 수 있다. 마이크로폰들(1112 및 1114)은 또한 HMD 디바이스(1100)의 평평한 수평 평면 내에 겨냥될 수 있다. 마이크로폰들(1112 및 1114)은 HMD 디바이스(1100)의 앞의 일반적인 영역/방향에 있어서의 소리를 캡처하도록 구성되는 전방위(omnidirectional) 마이크로폰들일 수 있거나, 또는 임의의 다른 적절한 형태를 취할 수 있다.

마이크로폰들(1116 및 1118)은 렌즈(1106)의 바닥 부분 상에 위치될 수 있다. 하나의 비제한적인 예시로서, 마이크로폰들(1116 및 1118)은 착용자의 입으로부터 방출되는 소리를 캡처하도록 전향일 수 있고 하향으로 겨냥될 수 있다. 몇몇 구현예들에서, 마이크로폰들(1116 및 1118)은 방향성(directional) 마이크로폰들일 수 있다. 몇몇 구현예들에서, 마이크로폰들(1112, 1114, 1116, 및 1118)은 렌즈(1106)를 둘러싸는 프레임 내에 위치될 수 있다.

마이크로폰들(1120 및 1122) 각각은 HMD 디바이스(1100)의 측부 프레임 상에 위치될 수 있다. 마이크로폰들(1120 및 1122)은 HMD 디바이스(1100)의 전방에 관해 90도 각도로 겨냥될 수 있다. 마이크로폰들(1120 및 1122)은 또한 HMD 디바이스(1100)의 평평한 수평 평면 내에 겨냥될 수 있다. 마이크로폰들(1120 및 1122)은 HMD 디바이스(1100)의 각각의 측부 상의 일반적인 영역/방향에 있어서의 소리를 캡처하도록 구성되는 전방위 마이크로폰들일 수 있다. 위에서 설명된 마이크로폰 어레이 이외의 임의의 다른 적절한 마이크로폰 어레이가 또한 사용될 수 있다는 점이 이해될 것이다.

위에서 논의된 바와 같이, 마이크로폰 어레이는 HMD 디바이스의 착용자와 다른 사람 사이의 대화를 감지하기 위해 제어기(1104)에 의해 분석될 수 있는 오디오 데이터 스트림을 생성할 수 있다. 하나의 비제한적인 예시에서, 디지털 신호 프로세싱을 사용하면, 각각의 마이크로폰 트랜스듀서로부터의 인식된 제곱 평균 소리의 세기가 계산될 수 있고, 가중 함수는 좌측 또는 우측 상의 마이크로폰들이 보다 큰 소리를 얼만큼 큰지와 함께 보고하고 있는지를 보고할 수 있다. 유사하게, "입을 향함" 및 "입으로부터 멀어짐", 및 "전방 대 측부"에 대한 값들이 보고될 수 있다. 이 데이터는 사람 말 분절음들의 소스 위치를 결정하는데 사용될 수 있다. 또한, 제어기(1104)는, 사람 말 분절음들이 상이한 소스 위치들 사이를 오가는지를 결정함으로써 대화를 감지하도록 구성될 수 있다.

도시된 마이크로폰 어레이가 단지, 적절한 마이크로폰 어레이의 하나의 비제한적인 예시일뿐이고, 임의의 적절한 구성의 임의의 적절한 수의 마이크로폰들이 본 개시의 범위를 벗어나지 않고 구현될 수 있다는 점이 이해될 것이다.

하나 이상의 외향 이미지 센서(1108)는 HMD 디바이스(1100)가 위치되는 물리적 환경으로부터 시각적 데이터를 캡처하도록 구성될 수 있다. 예를 들어, 외향 센서들(1108)은 착용자에 의해 또는 시야 내의 사람 또는 물리적 객체에 의해 수행되는 이동들과 같은, 디스플레이(1102)의 시야 내의 이동들을 감지하도록 구성될 수 있다. 일 예시에서, 외향 센서들(1108)은 HMD 디바이스의 착용자에게 말하는 사용자를 감지할 수 있다. 외향 센서들은 또한 환경 내의 물리적 환경 및 물리적 객체들로부터의 2D 이미지 정보 및 깊이 정보를 캡처할 수 있다. 위에서 논의된 바와 같이, 그러한 이미지 데이터는 사용자가 착용자에게 말하고 있는 것을 시각적으로 인식하기 위해 사용될 수 있다. 그러한 분석은 대화 감지의 신뢰도를 증가시키기 위해 오디오 데이터 스트림의 분석과 조합될 수 있다.

IMU(1110)는 제어기(1104)에 HMD 디바이스(1100)의 위치 및/또는 배향 데이터를 제공하도록 구성될 수 있다. 일 실시예에서, IMU(1110)는 자유 위치 센서 시스템의 3축 또는 3각으로서 구성될 수 있다. 이 예시적인 위치 센서 시스템은, 예를 들어 3개의 직교 축들(예를 들어, x, y, z)[예를 들어, 롤(roll), 피치(pitch), 요(yaw)]에 관한 3D 공간 내의 HMD 디바이스(1100)의 배향에 있어서의 변경을 표시하거나 또는 측정하기 위해 3개의 자이로스코프들을 포함할 수 있다. IMU의 센서 신호들로부터 유래되는 배향은, HMD 디바이스의 착용자와 대화 중인 사용자의 방향을 결정하는데 사용될 수 있다.

다른 예시에서, IMU(1110)는 자유 위치 센서 시스템의 6축 또는 6각으로서 구성될 수 있다. 그러한 구성은 3개의 직교 축들을 따르는 HMD 디바이스(1100)의 위치에 있어서의 변경 및 3개의 직교 축들에 대한 디바이스 배향에 있어서의 변경을 표시하거나 측정하기 위해 3개의 가속도계들 및 3개의 자이로스코프들을 포함할 수 있다. 몇몇 실시예들에서, 이미지 센서(1108) 및 IMU(1110)로부터의 위치 및 배향 데이터는 HMD 디바이스(100)의 위치 및 배향을 결정하는 것과 연계되어 사용될 수 있다.

HMD 디바이스(1100)는 또한, HMD 디바이스의 착용자게에 소리를 출력하도록 구성되는 스피커들(1124 및 1126)을 포함할 수 있다. 스피커들(1124 및 1126)은 착용자의 귀들에 근접한 HMD 디바이스의 각각의 측부 프레임 부분 상에 위치될 수 있다. 예를 들어, 스피커들(1124 및 1126)은 시스루 디스플레이(1102)를 통해 디스플레이되는 시각적 콘텐츠에 대한 음악, 또는 사운드트랙과 같은 오디오 콘텐츠를 플레이할 수 있다. 몇몇 경우들에서, 스피커들의 볼륨은 착용자와 다른 사람 사이의 대화가 감지된 것에 응답하여 낮춰지거나 또는 음소거될 수 있다.

컨트롤러(1104)는 HMD 디바이스(1100)의 다양한 센서들 및 디스플레이와 통신할 수 있는, 도 12에 대해 아래에서 보다 상세히 논의될 바와 같은, 논리 머신 및 저장 머신을 포함할 수 있다. 일 예시에서, 저장 머신은, 마이크로폰 어레이와 같은 하나 이상의 센서로부터 오디오 데이터 스트림을 수신하고, 오디오 데이터 스트림에 기반하여 착용자와 사용자 사이의 대화를 감지하고, 대화를 감지한 것에 응답하여 디지털 콘텐츠 아이템의 표현을 변형시키기 위해 논리 머신에 의해 실행가능한 명령어들을 포함할 수 있다.

몇몇 실시예들에서, 본원에서 설명된 방법들 및 프로세스들은 하나 이상의 컴퓨팅 디바이스의 컴퓨팅 시스템에 결부될 수 있다. 특히, 그러한 방법들 및 프로세스들은 컴퓨터 애플리케이션 프로그램 또는 서비스, 애플리케이션 프로그래밍 인터페이스(application-programming interface; API), 라이브러리, 및/또는 다른 컴퓨터 프로그램 제품으로서 구현될 수 있다.

도 12은 위에서 설명된 방법들 및 프로세스들 중 하나 이상을 실행할 수 있는 컴퓨팅 시스템(1200)의 비제한적인 실시예를 개략적으로 도시한다. 컴퓨팅 시스템(1200)은 단순화된 형태로 도시된다. 컴퓨팅 시스템(1200)은 하나 이상의 개인용 컴퓨터, 서버 컴퓨터, 태블릿 컴퓨터, 홈 엔터테인먼트 컴퓨터, 네트워크 컴퓨팅 디바이스, 게이밍 디바이스, 모바일 컴퓨팅 디바이스, 모바일 통신 디바이스(예를 들어, 스마트 폰), 및/또는 다른 컴퓨팅 디바이스의 형태를 취할 수 있다. 예를 들어, 컴퓨팅 시스템은 도 1에 도시된 HMD 디바이스(104), 도 6에 도시된 엔터테인먼트 컴퓨팅 디바이스(606), 또는 다른 적절한 컴퓨팅 디바이스의 형태를 취할 수 있다.

컴퓨팅 시스템(1200)은 논리 머신(1202) 및 저장 머신(1204)을 포함한다. 컴퓨팅 시스템(1200)은 디스플레이 서브시스템(106), 입력 서브시스템(1208), 통신 서브시스템(1210), 및/또는 도 12에 도시되지 않은 다른 컴포넌트들을 선택적으로 포함할 수 있다.

논리 머신(1202)은 명령어들을 실행하도록 구성되는 하나 이상의 물리적 디바이스를 포함한다. 예를 들어, 논리 머신은 하나 이상의 애플리케이션, 서비스, 프로그램, 루틴, 라이브러리, 객체, 컴포넌트, 데이터 구조, 또는 다른 논리 구성의 일부인 명령어들을 실행하도록 구성될 수 있다. 그러한 명령어들은 태스크를 수행하거나, 데이터 타입을 구현하거나, 하나 이상의 컴포넌트의 상태를 변환시키거나, 기술적 효과를 달성하거나, 또는 이와 다르게 희망하는 결과에 도달하도록 구현될 수 있다.

논리 머신은 소프트웨어 명령어들을 실행하도록 구성되는 하나 이상의 프로세서를 포함할 수 있다. 추가적으로 또는 대안적으로, 논리 머신은 하드웨어 또는 펌웨어 명령어들을 실행하도록 구성되는 하나 이상의 하드웨어 또는 펌웨어 논리 머신을 포함할 수 있다. 논리 머신의 프로세서들은 단일 코어 또는 다중 코어일 수 있고, 이들 상에서 실행되는 명령어들은 순차적 프로세싱, 병렬 프로세싱, 및/또는 분배형 프로세싱을 위해 구성될 수 있다. 논리 머신의 개별적인 컴포넌트들은 통합(coordinated) 프로세싱을 위해 원격으로 위치되고/되거나 구성될 수 있는 두 개 이상의 분리된 디바이스들 사이에 선택적으로 분배될 수 있다. 논리 머신의 양태들은 클라우드 컴퓨팅 구성으로 구성된, 원격으로 액세스가능한 네트워크화된 컴퓨팅 디바이스들에 의해 가상화되고 실행될 수 있다.

저장 머신(1204)은 본원에서 설명된 방법들 및 프로세스들을 구현하기 위해 논리 머신에 의해 실행가능한 명령어들을 홀딩하도록 구성되는 하나 이상의 물리적 디바이스를 포함한다. 그러한 방법들 및 프로세스들이 구현될 때, 저장 머신(1204)의 상태는, 예를 들어 상이한 데이터를 홀딩하도록 변환될 수 있다.

저장 머신(1204)은 착탈가능한 디바이스 및/또는 내장형(built-in) 디바이스를 포함할 수 있다. 저장 머신(1204)은 다른 것들 중, 광학 메모리(예를 들어, CD, DVD, HD-DVD, 블루레이 디스크 등), 반도체 메모리(예를 들어, RAM, EPROM, EEPROM 등), 및/또는 자기 메모리(예를 들어, 하드 디스크 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, MRAM 등)을 포함할 수 있다. 저장 머신(1204)은 휘발성, 비휘발성, 동적, 정적, 판독/기록, 판독 전용, 랜덤 액세스, 순차적 액세스, 위치 어드레스가능, 파일 어드레스가능, 및/또는 콘텐츠 어드레스가능 디바이스들을 포함할 수 있다.

저장 머신(1204)이 하나 이상의 물리적 디바이스를 포함하는 점이 이해될 것이다. 그러나, 본원에서 설명되는 명령어들의 양태들은 대안적으로, 한정된 지속기간(duration) 동안 물리적 디바이스에 의해 홀딩되지 않는 통신 매체(예를 들어, 전자기 신호, 광학 신호 등)에 의해 전파될 수 있다.

논리 머신(1202) 및 저장 머신(1204)의 양태들은 하나 이상의 하드웨어 논리 컴포넌트 내로 함께 통합될 수 있다. 그러한 하드웨어 논리 컴포넌트들은 예를 들어, FPGA(field-programmable gate array), PASIC/ASIC(program application specific integrated circuit and application specific integrated circuit), PSSP/ASSP(program specific standard product and application specific standard product), SOC(system-on-a-chip), 및 CPLD(complex programmable logic device)를 포함할 수 있다.

본원에서 사용되는 바와 같은 "서비스"가 다중 사용자 세션들에 걸쳐 실행가능한 애플리케이션 프로그램인 점이 이해될 것이다. 서비스는 하나 이상의 시스템 컴포넌트, 프로그램, 및/또는 다른 서비스에 이용가능할 수 있다. 몇몇 구현예들에서, 서비스는 하나 이상의 서버 컴퓨팅 디바이스 상에서 실행될 수 있다.

디스플레이 서브시스템(1206)이 포함될 때, 디스플레이 서브시스템(1206)은 저장 머신(1204)에 의해 홀딩되는 데이터의 시각적 표현을 제공하는데 사용될 수 있다. 이러한 시각적 표현은 그래픽 사용자 인터페이스(graphical user interface; GUI)의 형태를 취할 수 있다. 본원에 설명된 방법들 및 프로세스들은 저장 머신에 의해 홀딩된 데이터를 변경시키고, 이에 따라 저장 머신의 상태를 변환시키므로, 디스플레이 서브시스템(1206)의 상태도 이와 마찬가지로 기저(underlying) 데이터에 있어서의 변경들을 시각적으로 표현하도록 변환될 수 있다. 디스플레이 서브시스템(1206)은 사실상 임의의 타입의 기술을 이용하는 하나 이상의 디스플레이 디바이스를 포함할 수 있다. 그러한 디스플레이 디바이스들은 논리 머신(1202) 및/또는 저장 머신(1204)과 공유형(shared) 인클로저 내에서 조합될 수 있거나, 또는 그러한 디스플레이 디바이스들은 주변 디스플레이 디바이스들일 수 있다.

입력 서브시스템(1208)이 포함될 때, 입력 서브시스템(1208)은 키보드, 마우스, 터치 스크린, 또는 게임 제어기와 같은 하나 이상의 사용자 입력 디바이스를 포함하거나 또는 이와 인터페이싱될 수 있다. 몇몇 실시예들에서, 입력 서브시스템은 선택된 자연 사용자 입력(natural user input; NUI) 컴포넌트들을 포함하거나 또는 이들과 인터페이싱될 수 있다. 그러한 컴포넌트들은 통합되거나 또는 주변장치일 수 있고, 입력 액션들의 변환 및/또는 프로세싱은 온 보드 또는 오프 보드로 다루어질 수 있다. 예시적인 NUI 컴포넌트들은 말 및/또는 목소리 인식을 위한 마이크로폰; 머신 비전 및/또는 제스처 인식을 위한 적외선, 컬러, 입체, 및/또는 깊이 카메라; 모션 검출 및/또는 의도 인식을 위한 머리 추적기, 눈 추적기, 가속도계, 및/또는 자이로스코프뿐만이 아니라, 두뇌 활동을 가늠하기 위한 전기장 감지 컴포넌트를 포함할 수 있다. 예를 들어, 입력 서브시스템(1208)은 도 6에 도시된 센서 디바이스(608)로부터 센서 데이터 스트림을 수신하도록 구성될 수 있다.

통신 서브시스템(1210)이 포함될 때, 통신 서브시스템(1210)은 컴퓨팅 시스템(1200)을 하나 이상의 다른 컴퓨팅 디바이스와 통신가능하게 커플링하도록 구성될 수 있다. 통신 서브시스템(1210)은 하나 이상의 상이한 통신 프로토콜과 호환가능한 유선 및/또는 무선 통신 디바이스들을 포함할 수 있다. 비제한적인 예시들로서, 통신 서브시스템은 무선 전화 네트워크, 또는 유선 또는 무선 근거리 통신망 또는 원거리 통신망을 통한 통신을 위해 구성될 수 있다. 몇몇 실시예들에서, 통신 서브시스템은 컴퓨팅 시스템(1200)이 인터넷과 같은 네트워크를 통해 다른 디바이스들과 메시지들을 주고받도록 할 수 있다.

본원에서 설명된 구성들 및/또는 접근법들이 사실상 예시적인 것이며, 이들 특정 실시예들 또는 예시들이 다양한 변형들이 가능하기 때문에 한정적인 의미로 간주되어서는 안된다는 점이 이해될 것이다. 본원에서 설명된 특정 루틴들 또는 방법들은 임의의 수의 프로세싱 전략들 중 하나 이상의 전략을 표현할 수 있다. 그와 같이, 예시되고/되거나 설명된 다양한 액트들은 예시되고/되거나 설명된 시퀀스로, 다른 시퀀스들로, 병렬로 수행될 수 있거나, 또는 생략될 수 있다. 마찬가지로, 위에서 설명된 프로세스들의 순서는 변경될 수 있다.

본 개시의 발명내용은 본원에 개시된 다양한 프로세스들, 시스템들 및 구성들과, 다른 특징들, 기능들, 액트들, 및/또는 특성들의 모든 신규하고 비자명한 조합들 및 서브조합들뿐만이 아니라, 이들의 임의의 그리고 모든 등가물들을 포함한다.

Claims

사용자 사이의 대화를 감지(detect)하기 위한 컴퓨터 구현 방법에 있어서,
오디오 데이터 스트림(audio data stream)을 하나 이상의 센서로부터 수신하는 단계;
상기 오디오 데이터 스트림에 기반하여 제 1 사용자와 제 2 사용자 사이의 대화를 감지하는 단계; 및
상기 대화를 감지하는 것에 응답하여 디지털 콘텐츠 아이템의 표현을 변형(modify)시키는 단계
를 포함하고,
상기 디지털 콘텐츠 아이템은 하나 이상의 시각적 콘텐츠 아이템을 포함하고,
상기 디지털 콘텐츠 아이템의 표현을 변형시키는 단계는, 상기 하나 이상의 시각적 콘텐츠 아이템을 디스플레이 상의 뷰로부터 은폐(hide)시키는 단계, 상기 하나 이상의 시각적 콘텐츠 아이템을 상기 디스플레이 상의 상이한 위치로 이동시키는 단계, 상기 하나 이상의 시각적 콘텐츠 아이템의 반투명도(translucency)를 변경시키는 단계, 및 상기 디스플레이 상에서 상기 하나 이상의 시각적 콘텐츠 아이템의 사이즈를 변경시키는 단계 중 하나 이상을 포함하고,
상기 제 1 사용자와 상기 제 2 사용자 사이의 대화를 감지하는 단계는,
상기 오디오 데이터 스트림 내의 음성 활성분(voice activity)을 감지하고, 상기 음성 활성분이 사람 말(speech)의 분절음(segment)들을 포함하는 것을 결정하는 단계, 및
상기 사람 말의 분절음들이 상이한 소스 위치들 사이에서 오가는(alternate) 것을 결정하는 단계
를 포함하고,
사람 말의 하나 이상의 분절음이 전자 오디오 디바이스에 의해 제공된다고 결정하는 단계,
상기 사람 말의 오가는 하나 이상의 분절음들이 상이한 소스 위치들 사이에서 오간다고 결정했을 때, 상기 전자 오디오 디바이스에 의해 제공된 상기 사람 말의 하나 이상의 분절음을 무시(ignore)하는 단계,
상기 제 1 사용자와 상기 제 2 사용자 - 상기 제 1 사용자와 상기 제 2 사용자는 머리 장착형 디스플레이 디바이스의 착용자 및 다른 사람을 포함함 - 사이에서 오가는 사람 말 분절음들을 상기 오디오 데이터 스트림에 기반하여 감지하는 단계,
상기 머리 장착형 디스플레이 디바이스의 광학 센서로부터, 상기 다른 사람을 포함하는 장면(scene)의 이미지를 수신하는 단계, 및
상기 이미지의 분석에 기반하여 상기 다른 사람의 입이 움직이고 있는지의 여부를 결정한 후, 상기 다른 사람이 상기 착용자에게 말하고 있는지를 판단하는 단계
를 더 포함하는 것인, 컴퓨터 구현 방법.
제 1 항에 있어서, 상기 하나 이상의 센서는 복수의 마이크로폰들을 포함하는 마이크로폰 어레이를 포함하고, 사람 말의 분절음의 소스 위치를 결정하는 것은, 상이한 소스 위치들을 추정하기 위해 상기 마이크로폰 어레이의 복수의 오디오 샘플들에 빔형성 공간 필터(beamforming spatial filter)를 적용하는 것을 포함하는 것인, 컴퓨터 구현 방법.
제 1 항에 있어서, 상기 제 1 사용자와 상기 제 2 사용자 사이의 대화를 감지하는 단계는, 상기 사람 말의 분절음들이 지정된 케이던스 범위(cadence range) 내에서 발생한다고 결정하는 단계를 더 포함하는 것인, 컴퓨터 구현 방법.
제 1 항에 있어서, 상기 제 1 사용자와 상기 제 2 사용자 사이의 대화를 감지하는 단계는, 상기 사람 말의 분절음들이 상이한 소스 위치들 사이에서 문턱 시구간(threshold period of time) 내에서 오가는지의 여부를 결정하는 단계를 더 포함하는 것인, 컴퓨터 구현 방법.
제 1 항에 있어서, 상기 디지털 콘텐츠 아이템은 오디오 콘텐츠 아이템와 비디오 콘텐츠 아이템 중 하나 이상을 포함하고, 상기 디지털 콘텐츠 아이템의 표현을 변형시키는 단계는, 상기 오디오 콘텐츠 아이템 또는 상기 비디오 콘텐츠 아이템의 표현을 일시정지하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
제 1 항에 있어서, 상기 디지털 콘텐츠 아이템은 오디오 콘텐츠 아이템을 포함하고, 상기 디지털 콘텐츠 아이템의 표현을 변형시키는 단계는, 상기 오디오 콘텐츠 아이템의 볼륨을 낮추는 단계를 포함하는 것인, 컴퓨터 구현 방법.
제 1 항 내지 제 6 항 중 어느 한 항의 컴퓨터 구현 방법을 수행하도록 컴퓨팅 시스템의 논리 머신에 의해 실행가능한 명령어들을 홀딩하는 하드웨어 저장 머신.
머리 장착형 디스플레이 디바이스(head-mounted display device)에 있어서,
오디오 데이터 스트림을 캡처하도록 구성된 하나 이상의 오디오 센서;
장면(scene)의 이미지를 캡처하도록 구성된 광학 센서;
디지털 콘텐츠 아이템을 디스플레이하도록 구성된 시스루 디스플레이(see-through display);
논리 머신; 및
제 7 항의 하드웨어 저장 머신
을 포함하는, 머리 장착형 디스플레이 디바이스.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제