KR20200087284A

KR20200087284A - 영상 회의 시스템에서의 아바타 이용

Info

Publication number: KR20200087284A
Application number: KR1020207020092A
Authority: KR
Inventors: 에릭 에이치씨 리우
Original assignee: 구글 엘엘씨
Priority date: 2012-08-01
Filing date: 2013-06-25
Publication date: 2020-07-20
Also published as: EP2880858B1; EP2880858A4; KR102444825B1; US20140036027A1; CN104871528B; US10225519B2; WO2014022022A1; US9723265B2; EP2880858A1; CN104871528A; US9432626B2; US20160337616A1; US9191619B2; KR20150040322A; US20160037130A1; US20170332046A1

Abstract

아바타를 이용하여 영상 회의를 행하는 시스템들 및 방법들이 기술된다. 사용자의 존재는 디지털 카메라에 의해 캡처된 비디오를 분석함으로써 검출될 수 있다. 아바타는 검출된 사용자를 나타내기 위해 원격 디바이스에 제공될 수 있다.

Description

영상 회의 시스템에서의 아바타 이용{USING AN AVATAR IN A VIDEOCONFERENCING SYSTEM}

이 출원은 2012년 8월 1일자로 출원된 "Using An Avatar In A Videoconferencing System"이란 제목의 미국 가출원 번호 제61/678,535호의 우선권을 주장하고, 그 개시 내용은 전체적으로 본 명세서에 참조되어 포함된다.

일반적으로 본 개시 내용은 영상 회의 시스템에서 아바타(avatar)를 이용하는 것에 관련된다. 더 구체적으로, 본 개시 내용은 비디오 스트림에서 사용자의 존재를 검출하고 사용자를 아바타로서 나타내는 것에 관련된다.

일반적으로 영상 회의는 비디오 스트림과 오디오 스트림을 결합하는 것을 수반함으로써, 사용자들이 서로를 보고 듣게 해준다. 예를 들어, 영상 회의가 일본 도쿄의 사용자와 일리노이 주 락포드의 사용자 사이에 개시될 수 있다. 각각의 사용자는 카메라, 마이크로폰, 디스플레이, 및 스피커를 포함하는 영상 회의 디바이스를 조작할 수 있다. 하나의 디바이스에서 카메라를 통해 캡처된 비디오는 다른 디바이스에 전송될 수 있고 그 다른 디바이스의 디스플레이에 제시될 수 있다. 유사하게, 하나의 디바이스에서 마이크로폰을 통해 캡처된 오디오는 다른 디바이스에 전송될 수 있고 그 다른 디바이스의 스피커를 통해 재생될 수 있다. 그러한 시스템은 한 위치의 사용자가 마치 원격 사용자가 같은 방에 위치한 것처럼 원격 사용자와 대화하게 해준다.

영상 회의 시스템에서 아바타를 이용하는 시스템들 및 방법들의 구현들이 본 명세서에 설명된다. 하나의 구현은 영상 회의를 개시하는 방법이다. 이 방법은 프로세싱 회로에서, 디지털 카메라에 의해 캡처된 비디오 데이터를 수신하는 단계를 포함한다. 이 방법은 또한 사용자의 존재를 검출하기 위해 상기 프로세싱 회로에 의해 상기 비디오 데이터를 분석하는 단계를 포함한다. 이 방법은 또한 네트워크 인터페이스를 통해 원격 디바이스에 표시 데이터를 제공하는 단계를 포함하고, 상기 표시 데이터는 상기 원격 디바이스로 하여금 디스플레이에 아바타를 표시하게 하도록 구성되고, 상기 사용자의 존재가 검출되는 것에 응답하여 제공된다. 이 방법은 또한 상기 비디오 데이터를 상기 원격 디바이스에 제공함으로써 상기 영상 회의를 개시하는 단계를 포함한다.

다른 구현은 영상 회의를 개시하는 시스템이다. 이 시스템은 디지털 카메라에 의해 캡처된 비디오 데이터를 수신하고, 사용자의 존재를 검출하기 위해 상기 비디오 데이터를 분석하도록 동작 가능한 프로세싱 회로를 포함한다. 프로세싱 회로는 또한 네트워크 인터페이스를 통해 원격 디바이스에 표시 데이터를 제공하도록 동작 가능하고, 상기 표시 데이터는 상기 원격 디바이스로 하여금 디스플레이에 아바타를 표시하게 하도록 구성되고, 상기 사용자의 존재가 검출되는 것에 응답하여 제공된다. 프로세싱 회로는 또한 상기 비디오 데이터를 상기 원격 디바이스에 제공함으로써 상기 영상 회의를 개시하도록 동작 가능하다.

또 다른 구현은 제1 사람과 제2 사람 간의 통신 세션을 개시하는 시스템이다. 이 시스템은 환경을 모니터하는 비디오 카메라로부터 비디오 신호를 수신하고, 상기 환경 내의 상기 제1 사람의 존재를 검출하도록 구성된 제1 프로세싱 회로를 포함한다. 제1 프로세싱 회로는 또한 상기 환경 내의 제1 사람의 존재의 지시를 전송하도록 구성된다. 이 시스템은 또한 상기 제1 사람의 존재의 지시를 수신하고, 상기 제1 사람을 나타내는 아바타를 포함하는 표시 데이터를 디스플레이 디바이스에 제공하도록 구성된 제2 프로세싱 회로를 포함한다. 제2 프로세싱 회로는 또한 상기 제1 사람과의 통신 세션을 개시하기 위한 상기 제2 사람으로부터의 요청을 수신하고, 상기 제1 사람과 상기 제2 사람 간의 통신 세션을 개시하도록 구성된다.

하나 이상의 구현들의 상세 내용이 첨부 도면 및 하기의 설명에 기재된다. 본 개시 내용의 다른 특징들, 양태들, 및 이점들은 설명, 도면, 및 청구범위로부터 명확하게 될 것이다.
도 1은 예시의 컴퓨터 시스템을 나타내는 도면이다.
도 2는 영상 회의 시스템에서 아바타를 이용하기 위한 프로세스의 예시적 흐름도이다.
도 3은 다양한 구현들에 따라 개시되고 있는 영상 회의를 나타내는 도면이다.
도 4는 영상 회의를 개시하도록 구성된 프로세싱 회로의 개략적인 블록도이다.
도 5는 배경 그래픽 및 아바타를 보여주는 영상 회의 시스템의 전자 디스플레이를 나타내는 예시적 도면이다.
도 6은 복수의 윈도우들을 보여주는 영상 회의 시스템의 전자 디스플레이를 나타내는 예시적 도면이다.

본 개시 내용의 일부 양태들에 따르면, 사용자를 나타내기 위해 영상 회의 시스템 내에서 아바타가 이용될 수 있다. 시스템은 비디오 내에서 사용자의 존재를 검출할 수 있고, 검출에 응답하여 원격 디바이스에 아바타를 제공한다. 예를 들어, 사용자의 존재가 비디오 스트림 내에서 검출되면 (예를 들어, 사용자가 거실로 걸어 들어간다), 사용자는 하나 이상의 다른 원격 디바이스에 아바타로서 나타내어질 수 있다. 따라서, 영상 회의를 개시하기 전에, 사용자의 존재가 다른 사용자들에게 전달될 수 있다. 원격 사용자가 영상 회의를 요청하고, 아바타에 의해 나타내어지는 사용자가 수락하면, 두 개의 디바이스들 간에 비디오 및/또는 오디오 데이터를 공유함으로써 영상 회의가 개시될 수 있다(예를 들어, 사용자의 아바타는 원격 디바이스에서 사용자의 비디오 스트림으로 교체된다).

도 1을 참조하면, 다양한 구현들에 따라, 컴퓨터 시스템(100)의 예시적 도해가 도시된다. 시스템(100)은 일반적으로 둘 이상의 사용자들이 영상 회의를 개시하게 해주도록 구성된다. 예를 들어, 사용자(102)는 사용자(104)와 영상 회의를 하기 위해 시스템(100)을 활용할 수 있다. 시스템(100)은 사용자들(102, 104)이 영상 회의를 할 수 있도록 하기 위한 임의의 개수의 전자 디바이스들을 포함할 수 있다. 도시된 바와 같이, 사용자(102)는 영상 회의 디바이스(106)를 조작할 수 있고 사용자(104)는 대응하는 영상 회의 디바이스(108)를 조작할 수 있다. 디바이스들(106, 108)은 네트워크(120)를 통해 통신할 수 있고 서로 간에 비디오 및/또는 오디오를 전송하도록 구성될 수 있다. 어떤 구현들에서, 시스템(100)은 디바이스들(106, 108) 간의 영상 회의를 코디네이트하는 영상 회의 서버(122)를 포함할 수 있다.

네트워크(120)는 디바이스들(106, 108)과 서버(122) 간에 정보를 중계하는 컴퓨터 네트워크의 임의의 형태일 수 있다. 예를 들어, 네트워크(120)는 인터넷 및/또는 다른 타입들의 데이터 네트워크들, 예를 들면, 로컬 에어리어 네트워크(local area network: LAN), 와이드 에어리어 네트워크(wide area network: WAN), 셀룰러 네트워크, 위성 네트워크, 또는 다른 타입들의 데이터 네트워크들을 포함할 수 있다. 네트워크(120)는 또한 네트워크(120) 내에서 데이터를 수신 및/또는 송신하도록 구성된 임의의 개수의 컴퓨팅 디바이스들(예를 들어, 컴퓨터, 서버들, 라우터들, 네트워크 스위치들, 등)을 포함할 수 있다. 네트워크(120)는 또한 임의의 개수의 하드와이어드 및/또는 무선 접속들을 포함할 수 있다. 예를 들어, 디바이스(106)는 네트워크(120) 내의 다른 디바이스들에 (예를 들어, 광 섬유 케이블, CAT5 케이블, 등을 통해) 하드와이어드된 송수신기와 (예를 들어, WiFi, 셀룰러, 레이더, 등을 통해) 무선으로 통신할 수 있다.

영상 회의 디바이스들(106, 108)은 네트워크(120)를 통해 통신하도록 구성된 임의의 개수의 상이한 사용자 전자 디바이스들(예를 들어, 랩톱 컴퓨터들, 데스크톱 컴퓨터들, 태블릿 컴퓨터들, 스마트 폰들, 스마트 텔레비전들, 텔레비전들의 셋톱 박스들, 비디오 게임 콘솔들, 등)일 수 있다. 다양한 구현들에서, 디바이스들(106, 108)은 카메라들(110, 112)을 각각 포함한다. 카메라들(110, 112)은 디바이스들(106, 108) 내에 통합될 수 있거나, 또는 (예를 들어, 유선 또는 무선 접속들을 통해) 디바이스들(106, 108)과 통신하는 독립형 카메라일 수 있다. 예를 들어, 카메라(110)는 랩톱 컴퓨터에 통합된 카메라일 수 있거나, 또는 유니버설 시리얼 버스(universal serial bus: USB) 케이블을 통해 스마트 텔레비전에 연결된 독립형 카메라일 수 있다. 영상 회의 동안, 카메라들(110, 112)은 그들 각각의 주위들에 대한 비디오 데이터를 캡처한다. 예를 들어, 카메라(110)는 사용자(102)의 거실의 비디오를 캡처할 수 있다. 사용자(102)가 거실에 그리고 카메라(110)의 시야 내에 존재하면, 비디오 데이터는 또한 사용자(102)의 이미지들을 포함할 수 있다. 영상 회의 동안 캡처된 비디오 데이터는 그 후 네크워크(120)를 통해 그들 각각의 디바이스들에 통신될 수 있다(예를 들어, 사용자(102)의 비디오는 영상 회의 동안 디바이스(108)에 통신될 수 있다).

영상 회의 디바이스들(106, 108)은 또한 디스플레이들(116, 118)을 각각 포함할 수 있다. 영상 회의 동안, 카메라(110)에 의해 캡처된 비디오 데이터는 디스플레이(118)에 의해 표시될 수 있다. 유사하게, 카메라(112)에 의해 캡처된 비디오 데이터는 디스플레이(116)에 의해 표시될 수 있다. 예를 들어, 사용자(102)가 카메라(110) 앞에 위치한다면, 사용자(102)는 화상 회의 동안 디스플레이(118)에 나타날 수 있다. 영상 회의가 오디오를 포함하는 구현들에서, 디바이스들(106, 108) 중 하나 또는 둘 다는 마이크로폰들 및 스피커들(도시되지 않음)을 포함할 수 있다. 디바이스들(106, 108) 간의 비디오의 전달과 유사하게, 디바이스들 중 하나의 마이크로폰으로부터의 오디오 데이터가 다른 디바이스에 통신될 수 있다. 오디오는 그 후 스피커들을 통해 수신 디바이스에 의해 재생될 수 있다. 예를 들어, 사용자(102)는 영상 회의 동안 "안녕, Bob"이라고 말할 수 있고, 이것은 디바이스(108)에 의해 사용자(104)에게 재생될 수 있다.

서버(122)는 디바이스들(106, 108)과 시스템(100) 내의 임의의 다른 영상 회의 디바이스들 간의 영상 회의를 코디네이트할 수 있다. 예를 들어, 서버(122)는 영상 회의를 위해 대응하는 디바이스의 가용성에 관한 가용성 데이터를 디바이스들(106, 108)에 제공할 수 있다. 어떤 구현들에서, 사용자들(102, 104)은 서버(122)에 사용자 프로필들을 가질 수 있다. 사용자 프로필은 예를 들어, 사용자에 관한 정보(예를 들어, 사용자의 이름, 위치, 등)를 포함할 수 있다. 어떤 경우들에서, 사용자 프로필은 또한 사용자와 사회적으로 관계가 있는 다른 사용자들(예를 들어, 친구들, 친척들, 동료들, 등)의 목록을 포함할 수 있다. 그러한 목록은 가용성 데이터를 디바이스들(106, 108)에 제공하기 위해 서버(122)에 의해 이용될 수 있다. 예를 들어, 사용자(104)가 서버(122)를 통해 사용자(102)와 사회적으로 관계가 있다면, 서버(122)는 사용자(102)가 영상 회의가 가능한지에 관한 가용성 데이터를 디바이스(108)에 제공할 수 있다. 사용자(102)가 가능하다면, 사용자(104)는 사용자(102)와의 영상 회의를 요청하기 위해 디바이스(108)를 조작할 수 있다. 그러한 경우에, 서버(122)는 요청을 디바이스(106)에 전달할 수 있고, 사용자(102)가 요청을 수락하면, (예를 들어, 디바이스들(106, 108) 간에 비디오 및/또는 오디오 데이터를 중계함으로써) 영상 회의를 개시할 수 있다.

하나의 구현에서, 사용자들(102, 104)은 영상 회의에 참여하기 위한 그들의 가용성을 지시하기 위해 디바이스들(106, 108)을 조작할 수 있다. 예를 들어, 사용자(102)는 서버(122)상의 그의 사용자 프로필에 접속할 수 있고 그의 프로필 상태를 "가용"으로 변경할 수 있다. 그와 동시에 사용자(104)가 또한 그의 사용자 프로필에 접속된다면, 사용자(104)는 사용자(102)와의 영상 회의를 요청할 수 있다. 그러나, 영상 회의의 이러한 개시 방법은 전형적으로 사전 계획을 필요로 한다(예를 들어, 사용자들(102, 104)은 특정 시간에 로그온하기로 미리 동의할 수 있다). 또한, 사용자의 상태가 달리 지시하더라도, 사용자는 가능하지 않을 수 있다. 예를 들어, 사용자(102)가 그의 프로필 상태를 "가용"으로 변경한 후 낮잠을 자기 위해 방을 떠난다고 가정한다. 그러한 경우에, 사용자(104)는 포기하기 전에 사용자(102)와의 영상 회의를 개시하기 위해 여러 번 시도할 수 있다.

다른 구현들에서, 서버(122)는 디바이스들(106, 108)로부터 비디오 데이터를 수신하고 영상 회의가 개시되기 전에 사용자들(102, 104)의 존재를 검출할 수 있다. 예를 들어, 카메라(110)는 사용자(102)의 거실의 비디오를 캡처할 수 있고 비디오 데이터를 서버(122)에 전송할 수 있다. 그에 응답하여, 서버(122)는 비디오 내의 사용자(102)의 존재를 검출하기 위해 이미지 및/또는 얼굴 인식을 이용할 수 있다. 어떤 구현들에서, 사용자(102)는 그의 이미지를 그의 사용자 프로필의 일부로서 서버(122)에 등록할 수 있다. 그 후 서버(122)는 사용자(102)가 존재하는지를 결정하기 위해 비디오 데이터와 등록된 이미지를 비교할 수 있다. 어떤 경우들에서, 서버(122)는 또한 사용자 프로필들을 갖고 있지 않은 사용자들의 존재를 검출하도록 구성될 수 있다. 예를 들어, 사용자(102)의 친구가 방에 들어오고 서버(122)에 사용자 프로필을 갖고 있지 않다고 가정한다. 그러한 경우에, 서버(122)는 수신된 비디오 내에서 사람의 존재를 여전히 검출할 수 있다. 서버(122)는 사람이 검출되었다는 지시를 다른 대응하는 영상 회의 디바이스들에 제공할 수 있다. 예를 들어, 사용자(102)가 카메라(110) 앞에 존재한다는 지시가 서버(122)에 의해 디바이스(108)에 전송될 수 있다.

서버(122)에 의해 제공되는 존재의 하나의 가능한 지시는 아바타 형태일 수 있다. 본 명세서에 사용된 바와 같이, 아바타는 비디오 스트림에서 검출된 사람을 나타내기 위해 이용되는 이미지를 지칭한다. 어떤 경우들에서, 아바타는 사용자의 실제 이미지일 수 있다. 예를 들어, 사용자(102)는 그의 사진을 서버(122)의 그의 사용자 프로필에 업로드할 수 있다. 그의 존재가 서버(122)에 의해 검출될 때, 사용자(102)가 영상 회의가 가능함을 사용자(104)에 통지하기 위해, 해당 사진이 서버(122)에 의해 디바이스(108)에 제공될 수 있다. 다른 경우들에서, 아바타는 임의의 다른 타입의 이미지일 수 있다(예를 들어, 사용자(102)는 동물, 만화 캐릭터, 등으로서 나타내어질 수 있다). 나타내어진 사용자가 서버(122)에 의해 식별되는 경우에, 사용자의 이름 또는 스크린 이름이 아바타와 함께 제공될 수 있다. 어떤 구현들에서, 배경 그래픽이 또한 사용자의 주위들을 나타내기 위해 서버(122)에 의해 제공될 수 있다. 아바타는 정적인 이미지로서 나타날 수 있거나, 또는 나타내어진 주위들에 관련하여 배경을 가로질러 이동할 수 있다. 예를 들어, 아바타는, 그의 대응하는 사용자가 방을 가로질러 걷는다면, 배경 그래픽을 가로질러 걷는 것처럼 보일 수 있다.

일 예에서, 사용자들(102, 104)이 영상 회의를 아직 개시하지 않았지만, 그들 각각의 디바이스들(106, 108)을 활성 상태로 두었다고 가정한다. 서버(122)는 사용자(102)의 거실을 숲 장면으로서 디바이스(108)에 나타낼 수 있다. 사용자(102)가 거실에 들어가면, 서버(122)는 사용자(102)의 존재를 검출할 수 있고, 무스(moose), 즉 사용자(102)의 아바타를 보여주도록 숲 장면을 갱신할 수 있다. 따라서, 사용자(102)의 존재는 사용자(102) 또는 그의 실제 배경을 실제로 보여주지 않고 사용자(104)에게 전달될 수 있다.

어떤 구현들에서, 서버(122)는 수신된 비디오 및/또는 오디오 스트림 내에서 핸즈-프리 명령들을 해석하도록 구성될 수 있다. 핸즈-프리 명령은 예를 들어, 음성 명령(예를 들어, 사용자가 말한 특정 단어 또는 어구) 및/또는 가시적 명령(예를 들어, 특별한 손 제스처 또는 몸 움직임)일 수 있다. 예를 들어, 사용자(104)는 영상 회의를 개시하기 위해 사용자(102)의 아바타에게 손을 흔들 수 있다. 다른 예에서, 사용자(104)는 "안녕, Bob, 채팅할까?"라는 어구를 말함으로써 사용자(102)와의 영상 회의를 요청할 수 있다. 서버(122)는 영상 회의와 연관된 임의의 타입의 기능을 수행하기 위해 핸즈-프리 명령들을 해석할 수 있다. 비제한적인 예들에서, 서버(122)는 영상 회의를 요청하거나, 영상 회의를 수락하거나, 오디오의 볼륨을 (예를 들어, 볼륨을 증가시키거나, 감소시키거나, 또는 뮤트(mute)시키기 위해) 변경하거나, 오디오 또는 비디오 단독 모드로 들어가거나(예를 들어, 디바이스(106)로부터의 오디오만이 디바이스(108)에 제공됨, 디바이스(108)로부터의 비디오만이 디바이스(106)에 제공됨, 등등), 영상 회의를 종료하거나, 프로필 관련 동작들(예를 들어, 아바타를 변경)을 수행하거나, 또는 상이한 영상 회의 디바이스들로부터의 장면들을 나타내는 배경 그래픽들을 통하여 순환하기 위해 핸즈-프리 명령들을 해석할 수 있다.

서버(122)에 관해 설명된 기능들 중 일부 또는 전부가 디바이스들(106, 108)에 통합될 수 있다. 예를 들어, 디바이스(106) 자체가 사용자(102)로부터의 핸즈-프리 명령들을 해석하도록 구성될 수 있다. 다른 예에서, 사용자의 아바타 및/또는 배경이 디바이스들(106, 108) 중 하나에 의해 저장될 수 있고 다른 디바이스에 제공될 수 있다. 어떤 구현들에서, 서버(122)가 영상 회의를 수행하기 위해 이용되지 않을 수도 있다. 예를 들어, 서버(122)가 영상 회의를 코디네이트하지 않고, 디바이스(106)가 네트워크(120)를 통해 디바이스(108)와 직접 통신할 수 있다.

이제 도 2를 참조하면, 하나의 구현에 따른, 영상 회의 시스템에서 아바타를 이용하기 위한 프로세스(200)의 예시적 흐름도가 도시된다. 프로세스(200)는 영상 회의와 연관된 임의의 전자 디바이스에 의해 구현될 수 있다. 예를 들어, 프로세스(200)는 최종 사용자(end-user) 영상 회의 디바이스에 의해, 또는 최종 사용자 디바이스들 간의 영상 회의들을 코디네이트하는 영상 회의 서버에 의해 수행될 수 있다. 다양한 구현들에서, 프로세스(200)는 전자 디바이스의 하나 이상의 프로세서로 하여금 프로세스(200)를 수행하게 하는 머신 명령들로서 구현될 수 있다. 예를 들어, 영상 회의 서버는 프로세스(200)를 수행하기 위해 메모리에 저장된 소프트웨어를 실행할 수 있다.

프로세스(200)는 비디오 데이터를 수신하는 것(블록 202)을 포함한다. 비디오 데이터는 비디오 스트림일 수 있거나, 또는 최종 사용자 영상 회의 디바이스에 대한 하나 이상의 카메라에 의해 생성된 다른 형태의 비디오일 수 있다. 어떤 경우들에서, 비디오 데이터는 하나 이상의 카메라로부터 직접 수신될 수 있다. 예를 들어, 최종 사용자 영상 회의 디바이스는 비디오 데이터를 수신할 수 있다. 다른 경우들에서, 비디오 데이터는 네트워크를 통해 수신될 수 있다. 예를 들어, 영상 회의 서버가 네트워크를 통해 최종 사용자 영상 회의 디바이스로부터 비디오 데이터를 수신할 수 있다. 또 다른 예에서, 비디오 데이터는 다른 최종 사용자 디바이스에 의해 수신될 수 있다(예를 들어, 제1 최종 사용자 디바이스로부터의 비디오 데이터가 다른 최종 사용자 디바이스에 통신될 수 있다).

프로세스(200)는 비디오 데이터 내에서 사용자의 존재를 검출하는 것(블록 204)을 포함한다. 다양한 구현들에서, 사용자의 존재를 검출하기 위해 비디오 데이터를 수신하는 디바이스에 의해 이미지 및/또는 얼굴 인식이 이용될 수 있다. 수신 디바이스는 비디오 내에 사람이 존재하는지 그리고/또는 몇 명의 사람이 존재하는지를 결정하기 위해 비디오 데이터를 분석할 수 있다. 예를 들어, 수신 디바이스는 비디오 내의 모션을 검출할 수 있거나, 또는 비디오 내의 사람 같은 형상을 검출할 수 있다. 어떤 구현들에서, 수신 디바이스는 비디오 내의 특정 사용자의 존재를 결정하기 위해 얼굴 인식을 이용할 수 있다. 예를 들어, 사용자가 (예를 들어, 사용자의 이미지를 업로딩함으로써, 카메라로 사용자의 닮은 초상을 캡처함으로써, 등등) 그의 닮은 초상을 디바이스에 등록한다고 가정한다. 그러한 경우에, 디바이스는 사용자를 특정적으로 식별하기 위해 등록된 닮은 초상을 이용할 수 있다. 또 다른 구현들에서, 사람이 아닌 엔티티들도 식별될 수 있다. 예를 들어, 사용자의 애완동물의 존재가 검출될 수 있고 사람인 사용자들과 유사한 방식으로 취급될 수 있다.

프로세스(200)는 검출된 사용자를 나타내기 위한 아바타를 결정하는 것(블록 206)을 포함한다. 사용자 프로필을 갖고 있는 사용자는 사용자를 영상 회의 시스템의 다른 사용자들에게 나타내기 위해 하나 이상의 아바타의 집합을 규정할 수 있다. 예를 들어, 사용자는 늑대의 이미지를 사용자의 아바타로서 지정할 수 있다. 사용자가 이미지 및/또는 얼굴 인식을 통해 일의적으로 식별되었다면, 사용자는 그의 아바타에 의해 영상 회의 시스템의 다른 사용자들에게 나타내어질 수 있다. 하나의 구현에서, 사용자는 특정 아바타가 특정 사용자들에게만 제시될 것임을 지정할 수 있다. 예를 들어, 사용자는 그의 친구들에게는 뱀 아바타로서 그러나 그의 약혼녀에게는 토끼 아바타로서 나타내어지도록 선택할 수 있다. 다른 구현들에서, 검출된 사용자를 대신하여 아바타가 선택될 수 있다. 예를 들어, 아바타는 랜덤하게, 또는 이미 이용 중인 아바타에 기초하여 선택될 수 있다(예를 들어, 제1 사용자가 현재 늑대로서 나타내어지고 있다면, 방에 들어오는 제2 사용자도 역시 늑대로서 나타내어질 수 있다). 이러한 방법으로, (예를 들어, 사용자가 사용자 프로필을 갖고 있지 않고, 사용자의 얼굴이 불분명하고, 등등) 검출은 되지만 식별될 수 없는 사용자는 그래도 아바타에 의해 다른 사용자들에게 나타내어질 수 있다.

프로세스(200)는 전자 디스플레이에 아바타를 제공하는 것(블록 208)을 포함한다. 어떤 실시예들에서, 검출된 사용자를 나타내는 아바타는 표시를 위해 영상 회의 디바이스에 제공될 수 있다. 예를 들어, 제1 영상 회의 디바이스에서의 사용자의 존재는 제2 영상 회의 디바이스의 디스플레이에 아바타로서 나타내어질 수 있다. 어떤 경우들에서, 비디오 내의 사용자를 둘러싸는 경치는 또한 배경 그래픽으로서 나타내어질 수 있다. 예를 들어, 사용자의 무스 아바타는 삼림 지대 장면의 일부로서 제시될 수 있다. 아바타는 배경 그래픽 내에서 정적일 수 있거나, 또는 장면에서 움직일 수 있다(예를 들어, 카메라 앞에서의 사용자 움직임에 비례하여, 랜덤하게, 등등). 어떤 구현들에서, 아바타는 그것의 대응하는 사용자로부터의 핸즈-프리 명령에 응답하여 반응할 수 있다. 예를 들어, 새(bird) 아바타로서 나타내어지는 사용자는 새 아바타가 배경 그래픽 내에서 날도록 하기 위해 자신의 팔을 펄럭거릴 수 있다.

이제 도 3을 참조하면, 일 실시예에 따라, 개시되는 영상 회의의 도해(300)가 도시된다. 도시된 바와 같이, 제1 영상 회의 디바이스 또는 시스템은 네트워크를 통해 제2 영상 회의 디바이스 또는 시스템과 통신할 수 있다. 영상 회의 서버는 두 개의 최종 사용자 시스템들 간의 영상 회의의 개시를 코디네이트 및 중개할 수 있다.

도시된 예에서, 제1 최종 사용자 시스템은 제1 배경 그래픽을 표시할 수 있다(블록 302). 예를 들어, 들판의 그림이 디스플레이상에서 보여질 수 있어서, 제1 최종 사용자 시스템이 그 주위의 분위기를 향상시키게 해준다(예를 들어, 채팅 애플리케이션 대신에 심미적으로 마음에 드는 이미지를 표시함으로써). 어떤 구현들에서, 그래픽은 제2 최종 사용자 시스템에 의해 캡처되는 장면에 대응할 수 있다. 예를 들어, 들판의 그림은 제2 사용자의 침실을 나타낼 수 있다. 다른 예에서, 들판의 그림은 제3 영상 회의 시스템으로부터의 장면을 나타낼 수 있다.

사용자는 제2 시스템과 동일한 방에 위치할 수 있다(블록 306). 예를 들어, 사용자는 제2 시스템의 카메라의 앞의 의자에 앉아 있을 수 있다. 제2 시스템은 제2 최종 사용자 시스템에, 제1 최종 사용자 시스템에 의해 캡처된 장면을 나타내는 제2 배경 그래픽을 표시할 수 있다(블록 308). 예를 들어, 제1 사용자의 거실을 나타내기 위해 부두의 그림이 제2 시스템에 의해 표시될 수 있다. 제2 배경 그래픽은 제2 사용자로부터의 요청에 응답하여 표시될 수 있거나(예를 들어, 제2 사용자는 제1 사용자가 가능한지를 알고 싶어한다), 회전 방식으로 표시될 수 있거나(예를 들어, 사용자의 친구들의 위치들을 나타내는 배경들이 주기적으로 순환될 수 있다), 또는 랜덤하게 표시될 수 있다.

어떤 구현들에서, 각각의 최종 사용자 디바이스들에 의해 표시되는 배경들은 영상 회의 서버에 의해 제공될 수 있다. 예를 들어, 서버는 디바이스들 중 하나로부터의 비디오 데이터를 분석할 수 있고, 캡처된 경치의 그래픽 표현을 대응하는 디바이스에 제공할 수 있다. 도시된 바와 같이, 제1 사용자가 제1 시스템 앞의 방에 들어갈 수 있다(블록 304). 그 후 서버는 수신된 비디오 내의 제1 사용자의 존재를 검출할 수 있다(블록 310). 제1 사용자가 사용자 프로필을 갖는 경우들에 있어서, 서버는 또한 사용자를 식별할 수 있고 사용자의 사회적 관계들의 표시들을 갱신할 수 있다. 예를 들어, 제1 사용자와 제2 사용자가 사회적 관계들이라고 가정한다(예를 들어, 제2 사용자는 제1 사용자의 연락처 목록에 있음, 그 두 사용자들은 동일한 소셜 네트워킹 그룹에 속함, 등등). 그러한 경우에, 서버는 제1 사용자가 영상 회의가 가능함을 다른 사용자들에게 통지하기 위해, 하나 이상의 다른 영상 회의 디바이스들에 제1 사용자의 존재의 지시를 제공할 수 있다.

서버는 검출된 제1 사용자를 아바타로서 나타낼 수 있고 제2 시스템의 디스플레이로 하여금 아바타를 보여주도록 할 수 있다(블록 312). 예를 들어, 서버는 제1 사용자를 새 아바타로서 나타낼 수 있다. 그러한 경우에, 제2 디바이스에 표시되는 부두 장면은 부두에 착륙하는 새를 보여주도록 서버에 의해 갱신될 수 있다. 따라서, 제2 사용자는, 제1 사용자를 실제로 표시하지 않고, 제1 영상 회의 디바이스 앞에 제1 사용자가 존재한다는 통지를 수신할 수 있다.

제2 사용자는 요청을 제1 사용자에게 전송함으로써 영상 회의를 개시할 수 있다(블록 314). 어떤 구현들에서, 요청은 핸즈-프리 명령에 응답하여 전송될 수 있다. 예를 들어, 제2 사용자는 새 아바타에게 손을 흔들 수 있으며 그리고/또는 제1 사용자의 이름을 부를 수 있다. 요청은 또한 제2 사용자가 키패드, 터치 스크린 디스플레이, 포인팅 디바이스, 또는 유사한 사용자 인터페이스를 조작하는 것에 응답하여 전송될 수 있다. 요청을 수신하는 것에 응답하여, 제1 시스템은 영상 회의가 요청되고 있음을 제1 사용자에게 통지할 수 있다. 예를 들어, 제1 시스템은 아이콘을 보여줄 수 있거나, 음향을 생성할 수 있거나, 또는 어떤 다른 형태의 통지를 제1 사용자에게 제공할 수 있다.

제1 사용자는 영상 회의에 대한 착신되는 요청을 수락하기로 선택할 수 있다(블록 316). 수락은 요청 명령과 유사한 방식으로 행해질 수 있다(예를 들어, 핸즈-프리 명령을 통해 또는 사용자 인터페이스를 조작함으로써). 예를 들어, 제1 사용자는 제1 시스템에 손을 흔들어줌으로써 영상 회의에 대한 요청을 수락할 수 있다.

제1 사용자가 요청을 수락하면, 영상 회의가 개시될 수 있다(블록 318). 영상 회의 동안, 서버는 하나의 최종 사용자 시스템에 의해 캡처된 비디오 및/또는 오디오 데이터가 다른 최종 사용자 시스템에 중계되도록 할 수 있다. 예를 들어, 제2 시스템에서 보여지는 그래픽은 제1 시스템에 의해 캡처된 스트리밍 비디오로 교체될 수 있다. 유사하게, 제2 시스템에 의해 캡처된 스트리밍 비디오가 영상 회의 동안 제1 시스템의 디스플레이에 제공될 수 있다.

도 4를 참조하면, 하나의 구현에 따른 프로세싱 회로(400)의 상세 블록도가 도시된다. 프로세싱 회로(400)는 영상 회의 서버(예를 들어, 도 1의 서버(122) 또는 다른 서버), 또는 영상 회의를 코디네이트하는 다른 전자 디바이스의 컴포넌트일 수 있다. 프로세싱 회로(400)는 프로세서(402) 및 메모리(404)를 포함한다. 프로세서(402)는 하나 이상의 마이크로프로세서, 주문형 반도체(application specific integrated circuit: ASIC), 하나 이상의 프로세싱 컴포넌트들을 포함하는 회로, 분산 프로세싱 컴포넌트들의 그룹, 마이크로프로세서를 지원하는 회로, 또는 데이터를 처리하기 위해 구성된 다른 하드웨어일 수 있거나, 또는 그것을 포함할 수 있다. 프로세서(402)는 또한 본 명세서에 기술된 동작들을 완수하고 용이하게 하기 위해 메모리(404)에 저장된 컴퓨터 코드를 실행하도록 구성된다. 메모리(404)는 본 명세서에 기술된 동작들에 관련된 컴퓨터 코드 또는 데이터를 저장할 수 있는 임의의 휘발성 또는 비휘발성 컴퓨터 판독가능 매체일 수 있다. 예를 들어, 메모리(404)는 존재 검출기(414), 명령 해석기(416), 스크린 생성기(418), 및 회의 코디네이터(420)를 포함하는 것으로 도시되고, 이들은 프로세서(402)에 의한 실행을 위해 구성된 컴퓨터 코드(예를 들어, 실행가능 코드, 오브젝트 코드, 소스 코드, 스크립트 코드, 머신 코드, 등)를 이용하여 구현될 수 있다. 프로세서(402)에 의해 실행될 때, 프로세싱 회로(400)는 본 명세서에 기술된 동작들을 완수하도록 구성된다. 메모리(404)에 묘사된 다양한 데이터 및 소프트웨어가 단일 프로세싱 회로(400)의 일부로서 도시되지만, 임의의 개수의 프로세싱 회로들이 데이터 및 소프트웨어의 일부들을 저장 및 실행할 수 있다. 예를 들어, 명령 해석기(416)는 최종 사용자 디바이스의 프로세싱 회로에 의해, 또는 영상 회의 서버의 일부인 프로세싱 회로(400)에 의해 저장 및 실행될 수 있다.

프로세싱 회로(400)는 또한 존재 검출기(414), 명령 해석기(416), 스크린 생성기(418), 및 회의 코디네이터(420)의 컴퓨터 코드의 실행을 지원하는 하드웨어 회로를 포함한다. 예를 들어, 프로세싱 회로(400)는 네트워크(즉, 네트워크 인터페이스)를 통해 비디오 및/또는 오디오 데이터를 다른 디바이스들에 제공하는 하드웨어 인터페이스들(예를 들어, 출력(408))을 포함한다. 프로세싱 회로(400)는 또한 예를 들어, 사용자 프로필 데이터(410), 스트리밍된 비디오 및/또는 오디오 데이터, 및 하나 이상의 연락처 목록들(412)을 최종 사용자 영상 회의 디바이스로부터 수신하기 위한 입력(406)을 포함할 수 있다. 다양한 구현들에서, 입력(406)은 출력(408)과 동일한 하드웨어 인터페이스의 일부일 수 있거나, 또는 별도의 인터페이스일 수 있다.

사용자 프로필 데이터(410)는 하나 이상의 사용자 전자 디바이스들로부터 입력(406)을 통해 수신될 수 있고 메모리(404)에 저장될 수 있다. 사용자 프로필 데이터(410)는 프로세싱 회로(400)에 의해 예를 들어, 복수의 사용자 전자 디바이스들에 걸쳐 특정 사용자를 식별하는 데 활용될 수 있다. 예를 들어, 사용자 프로필 데이터(410)는 영상 회의 디바이스를 갖고 있는 특정 사용자에 대한 계정 데이터를 포함할 수 있다. 어떤 구현들에서, 사용자 프로필 데이터(410)는 특정 사용자로부터의 하나 이상의 이미지 및/또는 오디오 파일을 포함할 수 있다. 예를 들어, 사용자는 미래에 사용자 식별의 목적을 위해 사용자의 이미지를 프로세싱 회로(400)에 업로드할 수 있다. 다른 예에서, 사용자가 특정 단어들 또는 어구들을 말하는 것을 녹음한 오디오가 또한 사용자 프로필 데이터(410)의 일부로서 저장될 수 있다.

사용자 프로필 데이터(410)는 사용자 프로필과 연관된 하나 이상의 아바타를 포함할 수 있다. 다양한 구현들에서, 아바타는 비디오 스트림이 영상 회의 디바이스들 간에 공유되고 있지 않은 시간들 동안 사용자를 나타내기 위해 이용될 수 있다. 사용자 프로필과 연관된 하나 이상의 아바타는 사용자에 의해 업로드될 수 있거나, 또는 사용자 프로필 데이터(410) 내의 기존의 아바타들의 세트로부터 선택될 수 있다. 예를 들어, 사용자는 사용자를 나타내기 위해 커스텀 이미지(custom image)를 업로드할 수 있다. 유사하게, 사용자 프로필 데이터(410)는 사용자의 영상 회의 디바이스의 카메라에 의해 캡처된 장면을 나타내기 위한 하나 이상의 배경 그래픽을 포함할 수 있다.

연락처 목록들(412) 또한 하나 이상의 최종 사용자 디바이스들로부터 입력(406)을 통해 수신될 수 있고 메모리(404)에 저장될 수 있다. 일반적으로, 연락처 목록은 사용자 프로필을 하나 이상의 다른 사용자 프로필과 관련시킨다. 어떤 구현들에서, 사용자 프로필은 복수의 연락처 목록들을 가질 수 있다. 예를 들어, 사용자는 사용자의 친구들에 대한 제1 목록, 사용자의 동료들에 대한 제2 목록, 사용자의 가족에 대한 제3 목록을 생성할 수 있다. 어떤 경우들에서, 연락처 목록은 소셜 네트워킹 그룹의 멤버들에 대응할 수 있다. 어떤 구현들에서, 사용자의 아바타 및/또는 배경 그래픽은 사용자에 의해 연락처에 할당될 수 있다. 즉, 사용자는 특정 아바타 및/또는 배경이 사용자를 특정 연락처 또는 연락처 목록에 나타내기 위해 이용되도록 지정할 수 있다.

메모리(404)는 다양한 구현들에 따른 존재 검출기(414)를 포함할 수 있다. 존재 검출기(414)는 비디오 내에서 하나 이상의 사용자의 존재를 검출하기 위해 비디오 데이터를 분석하도록 구성된다. 존재 검출기(414)는 영상 회의 디바이스로부터 입력(406)을 통해 비디오 데이터를 수신할 수 있다. 예를 들어, 영상 회의 디바이스의 사용자가 카메라 앞에서 걸을 수 있다. 카메라에 의해 캡처된 비디오 데이터는 그 후 프로세싱 회로(400)에 의해 수신될 수 있고 존재 검출기(414)에 의해 분석될 수 있다. 어떤 구현들에서, 존재 검출기(414)는 비디오 내의 움직임을 검출함으로써 사용자의 존재를 검출할 수 있다. 예를 들어, 비디오는 사용자가 방을 가로질러 걷고 있는 것일 수 있고, 존재 검출기(414)는 비디오 내에서 사람-형상이 움직이고 있다고 결정할 수 있다.

어떤 구현들에서, 존재 검출기(414)는 비디오 내에 존재하는 것으로 결정된 사용자를 식별할 수 있다. 존재 검출기(414)는 특정 사용자를 식별하기 위해 얼굴 인식 및/또는 이미지 인식을 이용할 수 있다. 예를 들어, 존재 검출기(414)는 사용자 프로필 데이터(410) 내의 업로드된 이미지를 수신된 비디오와 비교할 수 있다. 존재 검출기(414)가 매칭이 발견되었다고 결정하면, 존재 검출기(414)는 비디오를 식별된 사용자와 연관시킬 수 있다. 따라서, 사용자 프로필 데이터(410) 내의 정보는 검출된 사용자(사용자의 실제 이름, 사용자의 스크린 이름, 등)와 연관될 수 있다. 하나의 구현에서, 존재 검출기(414)는 사용자의 존재를 검출하기 위해 최종 사용자 디바이스에 의해 캡처된 오디오 데이터를 분석할 수 있다. 예를 들어, 사용자를 식별하기 위해, 사용자의 프로필과 연관된 음성 데이터가, 수신된 오디오 데이터와 매칭될 수 있다. 존재 검출기(414)가 음성 분석을 활용한다면, 비디오 데이터 분석에 추가하여, 또는 그 대신에 음성 분석을 할 수 있다. 예를 들어, 사용자는 할로윈 파티를 준비중일 수 있고, 마스크를 쓰고 있을 수 있다. 사용자의 얼굴이 불분명하기 때문에, 존재 검출기(414)는 얼굴 인식을 통해 사용자를 식별하는 것이 가능하지 않을 수 있다. 그러나, 존재 검출기(414)는 사용자를 식별하기 위해, 수신된 오디오의 사용자의 음성을, 사용자 프로필 데이터(410) 내의 저장된 오디오 데이터와 매칭시킬 수 있다. 어떤 경우들에서, 존재 검출기(414)는 사용자의 애완동물 등과 같은 사람이 아닌 엔티티의 존재를 검출하도록 구성될 수 있다.

메모리(404)는 입력(406)을 통해 수신된 명령들을 해석하도록 구성된 명령 해석기(416)를 포함할 수 있다. 예시의 명령들은 영상 회의들을 개시하기 위한 요청들, 그러한 요청들의 수락들, 사용자 프로필 데이터(410) 및/또는 연락처 목록들(412)을 추가, 변경, 또는 삭제하기 위한 명령들, 영상 회의를 중단하기 위한 명령들, 및 다른 디바이스로의 오디오 및/또는 비디오의 제시를 변경하기 위한 명령들을 포함하지만, 이것으로 제한되지 않는다. 어떤 구현들에서, 명령 해석기(416)는 터치 스크린 디스플레이, 키패드, 마우스, 또는 다른 형태의 포인팅 디바이스로부터 수신된 명령을 해석할 수 있다. 또 다른 구현들에서, 명령 해석기(416)는 수신된 비디오 및/또는 오디오 내의 명령을 해석하도록 구성될 수 있다. 예를 들어, 명령 해석기(416)는 사용자의 제스처 또는 모션을 검출하기 위해 영상 회의 디바이스의 카메라에 의해 캡처된 비디오를 분석할 수 있다. 그러한 제스처 또는 모션은 특정 동작을 수행하기 위한 요청인 것으로 명령 해석기(416)에 의해 해석될 수 있다. 유사하게, 수신된 오디오 스트림 내의 음성 명령이 명령 해석기(416)에 의해 검출될 수 있다.

메모리(404)는 스크린 생성기(418)를 포함할 수 있다. 일반적으로, 스크린 생성기(418)는 영상 회의 디바이스에 제공될 표시 데이터를 생성하도록 구성된다. 사용자 프로필 데이터(410) 내의 사용자 프로필에 대해, 스크린 생성기(418)는 연관된 배경 그래픽을 사용자의 하나 이상의 연락처에 제공할 수 있다. 배경 그래픽은 스크린 생성기(418)에 의해 다른 영상 회의 디바이스에 제공될 수 있다. 어떤 경우들에 있어서, 배경 그래픽은 제1 디바이스의 카메라가 활성화되었는지에 기초하여(예를 들어, 비디오 데이터가 입력(406)을 통해 제1 디바이스로부터 수신되는지에 기초하여) 제2 영상 회의 디바이스에 제공될 수 있다. 다른 경우들에 있어서, 배경 그래픽은 그것의 대응하는 영상 회의 디바이스가 활성화되었는지에 상관없이 제공될 수 있다.

스크린 생성기(418)는 하나 이상의 사용자의 존재 및/또는 하나 이상의 사용자의 신원에 관한 지시를 존재 검출기(414)로부터 수신할 수 있다. 그러한 경우들에서, 스크린 생성기(418)는 검출된 사용자를 아바타로서 나타낼 수 있다. 사용자가 식별되었다면, 그의 아바타가 스크린 생성기(418)에 의해 사용자 프로필 데이터(410)로부터 검색될 수 있다. 스크린 생성기(418)는 또한 사용자에 대한 스크린 이름, 실제 이름, 또는 다른 타입의 식별자를 검색할 수 있고, 그것을 생성된 스크린의 일부로서 제공할 수 있다. 예를 들어, 사용자의 이름이 아바타와 함께 스크린에 나타날 수 있다. 사용자가 검출되지만 식별되지 않는다면, 스크린 생성기(418)는 사용자를 아바타로서 여전히 나타낼 수 있지만, 사용자가 식별될 수 없다는 레이블(label)을 또한 제공할 수 있다. 어떤 구현들에서, 스크린 생성기(418)는 수신된 비디오 데이터를 분석하고 사용자의 모션을 사용자의 대응하는 아바타에 매칭시키도록 구성될 수 있다. 예를 들어, 스크린 생성기(418)는, 사용자가 카메라 앞에서 방을 가로질러 걷는다면, 사용자의 아바타가 배경 그래픽을 가로질러 걷도록 할 수 있다.

어떤 구현들에서, 스크린 생성기(418)는 복수의 영상 회의 디바이스들로부터의 스크린들을 단일 스크린으로 한데 모을 수 있다. 예를 들어, 스크린 생성기(418)에 의해 생성된 스크린은 두 개의 상이한 영상 회의 디바이스들로부터의 장면들을 나타내기 위해 두 개의 배경들을 포함할 수 있다. 어떤 경우들에서, 단일 스크린에 표시되는 배경들의 개수 및 선택은 명령 해석기(416)로부터 수신된 명령을 통해 스크린 생성기(418)에 의해 결정될 수 있다. 예를 들어, 사용자는 그의 친구 Beth와 Becca를 동일한 스크린상에서 계속 추적하길 원한다고 지정할 수 있다. 다른 경우들에서, 스크린 생성기(418)는 어떤 배경들이 표시될지를 랜덤하게 선택할 수 있다. 어떤 구현들에서, 스크린 생성기(418)는 사용자의 연락처 목록 또는 사용자의 연락처들의 서브세트를 통하여 주기적으로 순환할 수 있다. 예를 들어, 스크린 생성기(418)는 제1 연락처에 대한 배경을 제공할 수 있고, 5분 후에 제2 연락처에 대한 배경을 제공할 수 있다.

메모리(404)는 다양한 구현들에서, 회의 코디네이터(420)를 포함할 수 있다. 일반적으로, 회의 코디네이터(420)는 두 개 이상의 최종 사용자 영상 회의 디바이스들 간의 영상 회의를 개시하도록 구성된다. 예를 들어, 회의 코디네이터(420)는 명령 해석기(416)로부터 영상 회의를 개시하기 위한 요청, 및 스크린 생성기(418)로부터 어느 영상 회의 디바이스들이 영상 회의에 포함될 것인지에 관한 지시를 수신할 수 있다. 회의 코디네이터(420)는 임의의 영상 회의 디바이스들에 요청을 제공할 수 있으며, 요청받은 영상 회의 디바이스는 다른 사용자 또는 사용자들에게 이 요청을 경고할 수 있다. 명령 해석기(416)가 요청받은 영상 회의 디바이스들 중 하나 이상이 요청을 수락했다고 결정하면, 회의 코디네이터(420)는 요청하고 수락하는 디바이스들 간에 비디오 및/또는 오디오 스트림들을 중계함으로써(예를 들어, 스크린 생성기(418)에 의해 생성된 스크린을 비디오 스트림으로 교체함으로써) 영상 회의를 개시할 수 있다. 유사하게, 회의 코디네이터(420)는 명령 해석기(416)로부터 영상 회의를 중단하기 위한 명령을 수신할 수 있다. 그러한 경우에, 회의 코디네이터(420)는 비디오 및/또는 오디오 스트림들의 중계를 중지할 수 있고 스크린 생성기(418)가 아바타들을 포함한 표시 데이터를 영상 회의 디바이스들에 제공하게 해줄 수 있다.

도 5는 하나의 구현에 따른, 배경 그래픽(500) 및 아바타(502)를 보여주는 도 1의 전자 디스플레이(118)의 예시적 도면이다. 도시된 바와 같이, 배경 그래픽(500)은 카메라(110)의 뷰를 나타내기 위해 영상 회의 서버(122)에 의해 영상 회의 디바이스(108)에 제공될 수 있다. 예를 들어, 배경 그래픽(500)은 피사의 사탑의 묘사를 포함할 수 있다. 배경 그래픽(500)은 사용자(102)에 대한 사용자 프로필에 부분적으로 기초하여 또는 랜덤하게 영상 회의 서버(122)에 의해 선택될 수 있다. 사용자(102)가 카메라(110)의 앞에 존재한다면, 영상 회의 서버(122)는 또한 검출된 사용자(102)의 존재를 나타내기 위해, 배경 그래픽(500)과 함께 아바타(502)를 제공할 수 있다. 예를 들어, 사용자(102)가 영상 회의 서버(122)의 사용자 프로필에 그의 이름이 "Bob"이라고 지정했고, 사용자 프로필이 (예를 들어, 업로드된 이미지 등을 통해) Bob의 초상에 관한 데이터를 포함한다고 가정한다. 영상 회의 서버(122)는 사용자(102)를 식별할 수 있고 디스플레이(118)상에 Bob을 나타내는 것으로서 아바타(502)를 레이블할 수 있다. 어떤 구현들에서, 아바타(502)는 사용자(102)의 움직임을 디스플레이(118)상에 흉내 낼 수 있다. 예를 들어, 사용자(102)가 방을 가로질러 걷는다면, 아바타(502)는 디스플레이(118)를 가로질러 이동할 수 있다. 다른 예에서, 사용자(102)가 특정 모션 또는 제스처를 행한다면, 아바타(502)는 특정 동작(예를 들어, 달을 보고 울부짖기)을 행할 수 있다.

배경 및/또는 아바타와 함께 본문의 메시지들이 영상 회의 서버(122)에 의해 중계될 수 있다. 예를 들어, 사용자(102)는 Chan이 파티에 참석할 것인지를 사용자(104)에게 묻기 위해 (예를 들어, 메시지(504)를 타이핑하여) 영상 회의 디바이스(106)의 키패드를 조작할 수 있다. 그 후 메시지(504)는 디스플레이(118)에 보여지는 스크린의 일부로서 영상 회의 서버(122)에 의해 제공될 수 있다.

어떤 구현들에서, 배경 그래픽(500)이 표시되고 있는 동안, 오디오 스트림이 영상 회의 디바이스들(106, 108) 간에 전송될 수 있다. 예를 들어, 사용자(104)는 영상 회의의 개시 전에 사용자(102)의 말을 듣는 것만 가능할 수 있다. 영상 회의는 또한 일방향성일 수 있다(예를 들어, 사용자(102)는 사용자(104)를 볼 수 있지만, 사용자(104)는 디스플레이(118)에 아바타(502)로서 나타내어진다).

도 6은 복수의 윈도우를 보여주는 전자 디스플레이(118)의 다른 예시의 도면이다. 어떤 구현들에서, 영상 회의 서버(122)는 복수의 영상 회의 디바이스들로부터의 장면들을 동일한 스크린 내에 묘사할 수 있다. 예를 들어, 영상 회의 서버(122)는 배경 그래픽들(500, 600, 602)을 포함하는 스크린을 영상 회의 디바이스(108)에 제공할 수 있다. 배경 그래픽(500)은 영상 회의 디바이스(106)를 나타낼 수 있고, 배경 그래픽들(600, 602)은 영상 회의 서버(122)에 연결된 추가의 영상 회의 디바이스들을 나타낼 수 있다. 따라서, 사용자(104)는 복수의 사용자들의 가용성을 동시에 검토할 수 있다.

도시된 바와 같이, 배경 그래픽(500)과 함께 하나의 아바타도 표시되지 않는데, 이것은 사용자(102)가 영상 회의가 가능하지 않다는 것(예를 들어, 사용자(102)가 카메라(110) 앞에 있지 않음, 카메라(110)의 전원이 꺼져 있음, 등등)을 지시한다. 유사하게, 사용자 "Alan"이 영상 회의가 가능함을 나타내기 위해 아바타(604)가 배경 그래픽(600)과 함께 나타내어질 수 있다. 어떤 구현들에서는, 사용자의 아바타가 다른 사용자의 배경에 제공될 수 있다. 예를 들어, Alan이 카메라(110) 앞에 존재한다면, 아바타(604)가 배경 그래픽(500)과 함께 제공될 수 있다. 영상 회의 서버(122)에 의해 식별되지 않는 사용자들이 또한 나타내어질 수 있다. 예를 들어, 미지의 사용자가 대응하는 카메라 앞에 있음을 나타내기 위해 아바타(606)가 배경 그래픽(602)과 함께 제공될 수 있다.

본 명세서에서 기술된 동작들 및 발명 대상의 구현들은, 본 명세서에 개시된 구조들 및 이들의 구조적인 균등물들, 또는 이들 중의 하나 이상의 조합들을 포함하여, 디지털 전자 회로로, 또는 유형의 매체에 구현된 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로 구현될 수 있다. 본 명세서에서 설명되는 발명 대상의 구현들은 데이터 프로세싱 장치에 의한 실행을 위해 또는 그것의 동작의 제어를 위해 하나 이상의 컴퓨터 저장 매체에 인코딩되는 하나 이상의 컴퓨터 프로그램, 즉 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 대안적으로, 또는 추가로, 프로그램 명령들은, 데이터 프로세싱 장치에 의한 실행을 위한 적절한 수신기 장치로의 전송을 위한 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 전파 신호, 예를 들어, 머신-생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 저장 디바이스, 컴퓨터 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 디바이스 또는 이들 중 하나 이상의 조합일 수 있거나 또는 그 안에 포함될 수 있다. 또한, 컴퓨터 저장 매체가 전파 신호는 아니지만, 컴퓨터 저장 매체는 인위적으로 생성되는 전파 신호 내에 인코딩되는 컴퓨터 프로그램 명령들의 소스 또는 대상일 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 컴포넌트 또는 매체(예컨대, 다수의 CD들, 디스크들 또는 다른 저장 디바이스들)일 수 있거나 그 안에 포함될 수 있다. 따라서, 컴퓨터 저장 매체는 유형적일 수 있으며 비일시적일 수 있다.

본 명세서에서 설명되는 동작들은 하나 이상의 컴퓨터 판독 가능 저장 디바이스들에 저장되거나 다른 소스들로부터 수신되는 데이터에 대해 데이터 프로세싱 장치에 의해 수행되는 동작들로서 구현될 수 있다.

용어 "클라이언트" 또는 "서버"는, 예를 들어, 프로그램 가능한 프로세서, 컴퓨터, 시스템 온 칩, 또는 전술 항목들 중 복수 개 또는 이들의 조합들을 포함하는, 데이터를 처리하기 위한 모든 종류의 장치, 디바이스들 및 머신들을 포함한다. 장치는 특수 목적 논리 회로, 예를 들어, FPGA(field programmable gate array) 또는 ASIC(application-specific integrated circuit)를 포함할 수 있다. 장치는 또한 하드웨어 이외에도, 문제의 컴퓨터 프로그램을 위한 실행 환경을 생성시키는 코드, 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 크로스-플랫폼(cross-platform) 실행시간 환경, 가상 머신, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스, 분산 컴퓨팅 및 격자 컴퓨팅 인프라구조와 같은 다양한 상이한 컴퓨팅 모델 인프라구조들을 구현할 수 있다.

(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려진) 컴퓨터 프로그램은 컴파일 또는 해석 언어, 선언 또는 절차 언어를 포함하는 임의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴, 객체 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛으로서 배치되는 것을 포함하여, 임의의 형태로 배치될 수 있다. 반드시 그러한 것은 아니지만, 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있다. 프로그램은 다른 프로그램 또는 데이터(예를 들어, 마크업 언어 문서 내에 저장된 하나 이상의 스크립트)를 유지하는 파일의 일부 내에, 해당 프로그램에 전용화된 단일 파일 내에, 또는 다수의 협력 파일(예를 들어, 하나 이상의 모듈, 서브프로그램 또는 코드의 부분을 저장하는 파일들) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터상에서, 또는 하나의 위치에 배치되어 있거나, 또는 다수의 위치에 걸쳐 분산되어 통신 네트워크에 의해 상호 연결되는 다수의 컴퓨터상에서 실행되도록 배치될 수 있다.

본 명세서에서 설명되는 프로세스들 및 논리 흐름들은 입력 데이터에 작용하여 출력을 생성함으로써 동작들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래밍 가능 프로세서에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 특수 목적의 논리 회로, 예를 들어, FPGA(field programmable gate array) 또는 ASIC(application-specific integrated circuit)에 의해 수행될 수 있으며, 장치 또한 그러한 특수 목적의 논리 회로로서 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서들에는 예를 들자면, 범용 및 특수 목적의 마이크로프로세서 모두, 및 모든 종류의 디지털 컴퓨터 중 어느 하나 이상의 프로세서가 포함된다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 이들 양자로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령들에 따라 동작들을 수행하기 위한 프로세서, 및 명령들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어, 자기, 광자기 디스크 또는 광 디스크를 포함하거나, 이들에 기능적으로 결합되어 데이터를 수신하거나 데이터를 전송하거나, 또는 이들 양자일 것이다. 그러나, 컴퓨터가 그와 같은 디바이스를 반드시 가지는 것은 아니다. 또한, 컴퓨터는 다른 디바이스, 예를 들어, 단지 몇 가지 예로서, 이동 전화, 개인 휴대 단말기(personal digital assistant: PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, 글로벌 포지셔닝 시스템(Global Positioning System: GPS) 수신기 또는 휴대용 저장 디바이스(예를 들어, 유니버설 직렬 버스(USB) 플래시 드라이브) 내에 내장될 수 있다. 컴퓨터 프로그램 명령들 및 데이터를 저장하는 데 적합한 디바이스들은 예를 들어, 반도체 메모리 디바이스, 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스; 자기 디스크, 예를 들어, 내부 하드 디스크 또는 이동식 디스크; 광자기 디스크; 및 CD-ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 상기 프로세서 및 메모리에 특수 목적 논리 회로가 보충될 수 있거나 또는 상기 프로세서 및 메모리가 특수 목적 논리 회로에 통합될 수 있다.

사용자와의 상호작용을 가능하게 하기 위해, 본 명세서에 설명되는 발명 대상의 구현들은 사용자에게 정보를 표시하기 위한 표시 장치, 예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이), OLED(유기 발광 다이오드), TFT(박막 트랜지스터), 플라즈마, 기타 플렉시블 구성, 또는 사용자에게 정보를 표시하기 위한 임의의 다른 모니터, 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드, 포인팅 디바이스, 예를 들어, 마우스 또는 트랙볼, 등 또는 터치 스크린, 터치 패드, 등을 구비하는 컴퓨터상에서 구현될 수 있다. 사용자와의 상호작용을 가능하게 하기 위해 다른 종류의 장치들도 물론 사용될 수 있으며; 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백, 예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있고; 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자에 의해 사용되는 디바이스로 문서를 전송하고 그로부터 문서를 수신함으로써; 예를 들면, 사용자의 클라이언트 디바이스상의 웹 브라우저로부터 수신된 요청에 응답하여 해당 웹 브라우저로 웹 페이지를 전송함으로써 사용자와 상호작용할 수 있다.

이 명세서에 기술된 발명 대상의 구현들은 예를 들어, 데이터 서버로서 백-엔드 컴포넌트를 포함하거나, 또는 미들웨어 컴포넌트, 예를 들어, 애플리케이션 서버를 포함하거나, 또는 프런트-엔드 컴포넌트, 예를 들어, 사용자가 이 명세서에 기술된 발명 대상의 구현과 상호작용할 수 있게 해주는 웹 브라우저 또는 그래픽 사용자 인터페이스를 가지는 클라이언트 컴퓨터를 포함하거나, 또는 하나 이상의 이러한 백-엔드, 미들웨어, 또는 프런트-엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신, 예를 들어, 통신 네트워크에 의해 상호 연결될 수 있다. 통신 네트워트의 예에는 로컬 에어리어 네트워크("LAN") 및 와이드 에어리어 네트워크("WAN"), 인터-네트워크(inter-network)(예를 들어, 인터넷), 및 피어-투-피어(peer-to-peer) 네트워크 (예를 들어, 애드 혹 피어-투-피어 네트워크(ad hoc peer-to-peer networks))가 포함된다.

본 명세서가 다수의 특정 구현 상세항목들을 포함하지만, 이들은 임의의 발명의 또는 청구될 수 있는 것의 범위에 대한 제한들로서 해석되지 않아야 하며, 오히려, 특정 발명들의 특정 구현들에 대해 특정한 특징들의 기재로서 해석되어야 한다. 개별 구현들의 맥락에서 본 명세서에서 설명되는 소정의 특징들은 또한 단일 구현 내에서의 조합으로 구현될 수 있다. 반대로, 단일 구현의 맥락에서 설명된 여러 가지 특징이 또한 독립적으로 복수의 구현들로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 또한, 비록 특징이 특정 조합들로 작용하는 것으로 앞서서 설명되었을 수 있고 그렇게 초기에 주장되었을 수 있지만, 청구된 조합으로부터의 하나 이상의 특징이, 어떤 경우들에 있어서, 조합으로부터 배제될 수 있고, 그리고 청구된 조합이 하위 조합 또는 하위 조합의 변형에 관한 것일 수 있을 것이다.

유사하게, 동작들이 특정한 순서로 도면에 묘사되어 있더라도, 이는 그러한 동작들이 도시된 특정 순서로 또는 순차적인 순서로 실행되거나, 또는 원하는 결과를 얻기 위해 도시된 동작들이 모두 실행되어야 하는 것으로 이해되지 않아야 한다. 특정한 상황들에서는, 멀티태스킹 및 병렬 처리가 유리할 수 있다. 또한, 전술한 구현들에서 각종 시스템 컴포넌트들을 분리하는 것은 모든 구현들에서 이렇게 분리되어야 함을 요구하는 것으로 이해되어서는 안 되고, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 유형의 매체상에 구현되는 하나의 소프트웨어 제품으로 함께 통합될 수 있거나, 또는 복수의 소프트웨어 제품들로 패키징될 수 있다고 이해되어야 한다.

따라서, 발명 대상의 특별한 구현들이 설명되었다. 기타 구현들은 다음의 청구항들의 범위 내에 있다. 어떤 경우들에서, 청구항들에 기재된 동작들은 상이한 순서로 수행될 수 있으며, 여전히 바람직한 결과들을 달성할 수 있다. 또한, 첨부 도면들에 묘사된 프로세스들은 바람직한 결과들을 달성하기 위해, 도시된 특정 순서 또는 순차적인 순서를 반드시 필요로 하지는 않는다. 특정 구현들에서는 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다.

Claims

영상 회의를 개시하는 방법으로서,
프로세싱 회로에서, 디지털 카메라에 의해 캡처된 비디오 데이터를 수신하는 단계;
사용자의 존재를 검출하기 위해 상기 프로세싱 회로에 의해 상기 비디오 데이터를 분석하는 단계;
네트워크 인터페이스를 통해 원격 디바이스에 표시 데이터를 제공하는 단계 - 상기 표시 데이터는 상기 원격 디바이스로 하여금 디스플레이에 아바타를 표시하게 하도록 구성되고, 상기 표시 데이터는 상기 사용자의 존재가 검출되는 것에 응답하여 제공됨 -; 및
상기 비디오 데이터를 상기 원격 디바이스에 제공함으로써 상기 영상 회의를 개시하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 사용자를 식별하기 위해 상기 비디오 데이터를 분석하는 단계; 및
상기 사용자의 신원에 부분적으로 기초하여 상기 아바타를 선택하는 단계를 더 포함하는, 방법.
제2항에 있어서,
제2 사용자의 존재를 결정하기 위해 상기 비디오 데이터를 상기 프로세싱 회로에 의해 분석하는 단계;
상기 제2 사용자를 식별하기 위해 상기 프로세싱 회로에 의해 상기 비디오 데이터를 분석하는 단계; 및
상기 제2 사용자의 신원에 부분적으로 기초하여 제2 아바타를 선택하는 단계를 더 포함하고,
상기 표시 데이터는 또한 상기 원격 디바이스로 하여금 상기 디스플레이에 상기 제2 아바타를 표시하게 하도록 구성되는, 방법.
제1항에 있어서,
상기 사용자가 식별 불가능하다는 결정에 부분적으로 기초하여 상기 아바타를 선택하는 단계를 더 포함하는, 방법.
제1항에 있어서,
상기 사용자에 의한 제스처를 검출하기 위해 상기 프로세싱 회로에 의해 상기 비디오 데이터를 분석하는 단계;
상기 프로세싱 회로에 의해 상기 제스처를 상기 영상 회의를 요청하는 명령과 연관시키는 단계; 및
상기 요청을 상기 네트워크 인터페이스를 통해 상기 원격 디바이스에 제공하는 단계를 더 포함하는, 방법.
제5항에 있어서,
상기 프로세싱 회로에서, 상기 원격 디바이스로부터 제2 비디오 데이터를 수신하는 단계; 및
제2 사용자에 의한 제스처를 검출하기 위해 상기 제2 비디오 데이터를 분석하는 단계를 더 포함하고,
상기 영상 회의는 상기 제2 사용자에 의한 제스처가 상기 영상 회의의 수락과 연관되는지에 기초하여 개시되는, 방법.
제1항에 있어서,
상기 표시 데이터는 상기 영상 회의의 개시 전에 제공되는, 방법.
제3항에 있어서,
상기 제1 사용자와 상기 제2 사용자는 동일한 장소에 있지 않은, 방법.
영상 회의를 개시하는 시스템으로서,
프로세싱 회로를 포함하고, 상기 프로세싱 회로는:
디지털 카메라에 의해 캡처된 비디오 데이터를 수신하고;
사용자의 존재를 검출하기 위해 상기 비디오 데이터를 분석하고;
네트워크 인터페이스를 통해 원격 디바이스에 표시 데이터를 제공하고 - 상기 표시 데이터는 상기 원격 디바이스로 하여금 디스플레이에 아바타를 표시하게 하도록 구성되고, 상기 표시 데이터는 상기 사용자의 존재가 검출되는 것에 응답하여 제공됨 -;
상기 비디오 데이터를 상기 원격 디바이스에 제공함으로써 상기 영상 회의를 개시하도록 동작 가능한, 시스템.
제9항에 있어서,
상기 프로세싱 회로는 또한:
상기 사용자를 식별하기 위해 상기 비디오 데이터를 분석하고;
상기 사용자의 신원에 부분적으로 기초하여 상기 아바타를 선택하도록 동작 가능한, 시스템.
제10항에 있어서,
상기 프로세싱 회로는 또한:
제2 사용자의 존재를 결정하기 위해 상기 비디오 데이터를 분석하고;
상기 제2 사용자를 식별하기 위해 상기 비디오 데이터를 분석하고;
상기 제2 사용자의 신원에 부분적으로 기초하여 제2 아바타를 선택하도록 동작 가능하고,
상기 표시 데이터는 또한 상기 원격 디바이스로 하여금 상기 디스플레이에 상기 제2 아바타를 표시하게 하도록 구성되는, 시스템.
제9항에 있어서,
상기 프로세싱 회로는 또한:
상기 사용자의 존재를 검출하기 위해 상기 비디오 데이터를 분석하고;
상기 사용자가 식별 불가능하다는 결정에 부분적으로 기초하여 상기 아바타를 선택하도록 동작 가능한, 시스템.
제9항에 있어서,
상기 프로세싱 회로는 또한:
상기 사용자에 의한 제스처를 검출하기 위해 상기 비디오 데이터를 분석하고;
상기 제스처를 상기 영상 회의를 요청하는 명령과 연관시키고;
상기 요청을 상기 네트워크 인터페이스를 통해 상기 원격 디바이스에 제공하도록 동작 가능한, 시스템.
제13항에 있어서,
상기 프로세싱 회로는 또한:
상기 원격 디바이스로부터 제2 비디오 데이터를 수신하고;
제2 사용자에 의한 제스처를 검출하기 위해 상기 제2 비디오 데이터를 분석하도록 동작 가능하고,
상기 영상 회의는 상기 제2 사용자에 의한 제스처가 상기 영상 회의의 수락과 연관되는지에 기초하여 개시되는, 시스템.
제9항에 있어서,
상기 표시 데이터는 상기 영상 회의의 개시 전에 제공되는, 시스템.
제9항에 있어서,
상기 프로세싱 회로는 또한:
마이크로폰으로부터 오디오 데이터를 수신하고;
상기 사용자로부터의 음성 명령을 검출하기 위해 상기 오디오 데이터를 분석하도록 동작 가능하고,
상기 영상 회의는 상기 음성 명령이 상기 영상 회의의 수락과 연관되는지에 기초하여 개시되는, 시스템.
제1 사람과 제2 사람 간의 통신 세션을 개시하는 시스템으로서,
환경을 모니터하는 비디오 카메라로부터 비디오 신호를 수신하고,
상기 환경 내의 상기 제1 사람의 존재를 검출하고,
상기 환경 내의 제1 사람의 존재의 지시를 전송하도록 구성된 제1 프로세싱 회로; 및
상기 제1 사람의 존재의 지시를 수신하고,
상기 제1 사람을 나타내는 아바타를 포함하는 표시 데이터를 디스플레이 디바이스에 제공하고,
상기 제1 사람과의 통신 세션을 개시하기 위한 상기 제2 사람으로부터의 요청을 수신하고,
상기 제1 사람과 상기 제2 사람 간의 통신 세션을 개시하도록 구성된 제2 프로세싱 회로
를 포함하는 시스템.
제17항에 있어서,
상기 제2 사람으로부터의 요청은 상기 제2 프로세싱 회로와 통신하는 카메라에 의해 캡처된 제스처를 통해 수신되는, 시스템.
제17항에 있어서,
상기 제2 사람으로부터의 요청은 상기 제2 프로세싱 회로와 통신하는 마이크로폰에 의해 캡처된 음성 명령을 통해 수신되는, 시스템.
제17항에 있어서,
상기 표시 데이터는 상기 통신 세션의 개시 전에 제공되는, 시스템.