KR101732613B1

KR101732613B1 - 비디오 화상회의 동안 참가자의 외모 수정

Info

Publication number: KR101732613B1
Application number: KR1020147025624A
Authority: KR
Inventors: 조나한 비베카난단; 프랜크 피터슨; 토르 카펜터
Original assignee: 구글 인코포레이티드
Priority date: 2012-03-14
Filing date: 2013-03-13
Publication date: 2017-05-04
Also published as: DE112013001461T5; CN110677613A; WO2013138531A1; JP2015516625A; JP6259808B2; KR20140129171A; CN104170374A; US9060095B2; DE112013001461B4; US20130242031A1; AU2013204970A1; AU2013204970B2

Abstract

본 개시내용의 구현예들은 일반적으로 비디오 화상회의 동안 참가자의 외모를 수정하는 것에 관한 것이다. 일부 구현예들에서, 방법이 제공되며, 이 방법은 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 것을 포함하고, 여기서 적어도 하나의 프레임은 제 1 얼굴을 포함하며 제 1 얼굴은 사용자와 관련된 얼굴의 이미지이다. 본 방법은 또한, 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 것을 포함한다. 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 것을 포함한다. 본 방법은 또한, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함한다.

Description

비디오 화상회의 동안 참가자의 외모 수정{MODIFYING AN APPEARANCE OF A PARTICIPANT DURING A VIDEO CONFERENCE}

비디오 화상회의는 비즈니스 환경에서 종종 사용되며 참가자들로 하여금 지리적으로 분산된 위치에서 실시간으로 상호 간에 비디오 및 오디오 콘텐츠를 공유할 수 있도록 한다. 각각의 위치에서의 통신 디바이스는 비디오 및 오디오 스트림들을 전송하기 위해 통상적으로 비디오 카메라 및 마이크로폰을 사용하며, 수신된 비디오 및 오디오 스트림들을 재생시키기 위해 비디오 모니터 및 스피커를 사용한다. 비디오 화상회의는 하나의 위치에서 또 하나의 다른 위치로 네트워크를 통해 실시간으로 전송되는 비디오 및 오디오 스트림들의 디지털 압축을 수반한다. 통신 디바이스들은 비디오 및 오디오 스트림들의 압축 및 압축해제를 수행하고 네트워크를 통한 데이터 연계성(data linkage)을 유지시킨다.

본 개시내용의 구현예들은 일반적으로 비디오 화상회의 동안 참가자의 외모를 수정하는 것에 관한 것이다. 일부 구현예들에서, 방법이 제공되며, 이 방법은 미디어 스트림(media stream)으로부터 적어도 하나의 프레임(frame)을 획득하는 것을 포함하고, 여기서 적어도 하나의 프레임은 제 1 얼굴(face)을 포함하며 제 1 얼굴은 사용자와 관련된 얼굴의 이미지(image)이다. 본 방법은 또한, 적어도 하나의 프레임 내에서 복수의 좌표들(coordinates)을 결정하는 것을 포함한다. 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템(media content item)을 획득하는 것을 포함한다. 본 방법은 또한, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함한다.

이러한 방법에 관하여 추가적으로, 일부 구현예들에서, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 복수의 좌표들을 결정하는 것은 얼굴 인식 알고리즘(facial recognition algorithm)을 사용하여 수행되며, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴(substitute face)을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴과는 다른 것이다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 사용자와는 다른 사람과 관련된다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴의 만화 형상(cartoon version)과 관련된다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터(parameter)들을 획득하는 것을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 것은, 적어도 하나의 프레임 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이(overlay)시키는 것과, 그리고 하나 이상의 프레임들의 적어도 일부분을 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 것 중 하나 이상을 포함한다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 적어도 하나의 오디오 콘텐츠 아이템(audio content item)을 획득하는 것과, 그리고 적어도 하나의 오디오 콘텐츠 아이템을 미디어 스트림에 추가하는 것을 포함한다.

일부 구현예들에서, 방법이 제공되며, 이 방법은 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 것을 포함하며, 여기서 적어도 하나의 프레임은 제 1 얼굴을 포함하고 제 1 얼굴은 사용자와 관련된 얼굴의 이미지이다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 것을 포함하며, 여기서 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함하고, 복수의 좌표들을 결정하는 것은 얼굴 인식 알고리즘을 사용하여 수행된다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 것을 포함하고, 여기서 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 대체 얼굴은 제 1 얼굴의 만화 형상과 관련된다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터들을 획득하는 것을 포함한다. 일부 구현예들에서, 본 방법은 또한, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함하며, 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 것은, 적어도 하나의 프레임 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 것과, 그리고 하나 이상의 프레임들의 적어도 일부분을 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 것 중 하나 이상을 포함한다.

일부 구현예들에서, 시스템이 제공되며, 이 시스템은 하나 이상의 프로세서들과, 그리고 이러한 하나 이상의 프로세서들에 의해 실행되기 위해 하나 이상의 유형의 매체들(tangible media)에 인코딩(encoding)된 로직(logic)을 포함한다. 로직은 하나 이상의 프로세서들에 의해 실행될 때, 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 것을 포함하는 동작들을 수행하도록 동작가능하며, 여기서 적어도 하나의 프레임은 제 1 얼굴을 포함하고, 제 1 얼굴은 사용자와 관련된 얼굴의 이미지이다. 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 것을 포함하는 동작들을 수행하도록 동작가능하다. 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 것을 포함하는 동작들을 수행하도록 동작가능하다. 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함하는 동작들을 수행하도록 동작가능하다.

이러한 시스템에 관하여 추가적으로, 일부 구현예들에서, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 복수의 좌표들을 결정하는 것은 얼굴 인식 알고리즘을 사용하여 수행되며, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴과는 다른 것이다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 사용자와는 다른 사람과 관련된다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴의 만화 형상과 관련된다. 일부 구현예들에서, 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터들을 획득하는 것을 포함하는 동작들을 수행하도록 동작가능하다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 것은, 적어도 하나의 프레임 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 것과, 그리고 하나 이상의 프레임들의 적어도 일부분을 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 것 중 하나 이상을 포함한다. 일부 구현예들에서, 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 것과, 그리고 적어도 하나의 오디오 콘텐츠 아이템을 미디어 스트림에 추가하는 것을 포함하는 동작들을 수행하도록 동작가능하다.

도 1은 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 네트워크 환경의 블록도를 나타낸다.
도 2는 일부 구현예들에 따른 비디오 화상회의 동안 참가자의 외모를 수정하기 위한 예시적인 간략화된 흐름도를 나타낸다.
도 3은 일부 구현예들에 따른 예시적인 간략화된 사용자 인터페이스를 나타낸다.
도 4는 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 서버 디바이스의 블록도를 나타낸다.

본 명세서에서 설명되는 구현예들은, 비디오(video), 오디오(audio) 및 채팅(chat) 스트림들과 같은 미디어 스트림들이 비디오 화상회의 동안 참가자의 상이한 외모를 시뮬레이트(simulate)하도록 사용될 수 있게 한다. 예를 들어, 참가자는 자신들의 화상(likeness) 혹은 외모(appearance)가 만화 얼굴(cartoon face), 유명인사(celebrity)의 얼굴, 혹은 아바타(avatar)와 같은 특정 대체 얼굴(substitute face)로 나타나도록 선택할 수 있다.

아래에서 보다 상세히 설명되는 바와 같이, 다양한 구현예들에서, 시스템은 미디어 스트림으로부터 프레임들을 획득하고, 여기서 프레임들은 사용자(예를 들어, 비디오 화상회의에서의 참가자)의 얼굴을 포함한다. 시스템은 또한, 프레임들 각각 내에서 좌표들을 결정하는바, 여기서 좌표들은 프레임들 각각에서 얼굴 및/또는 얼굴의 요소들이 어디에 위치하고 있는지를 설명한다. 시스템은 또한, 하나 이상의 미디어 콘텐츠 아이템들을 획득하는바, 여기서 하나 이상의 미디어 콘텐츠 아이템들은 대체 얼굴(예를 들어, 만화 얼굴, 유명인사의 얼굴, 아바타 등)의 이미지를 포함할 수 있다. 그 다음에 시스템은 좌표들에 근거하여 하나 이상의 미디어 콘텐츠 아이템들을 프레임들 각각에 추가한다.

도 1은 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 네트워크 환경(100)의 블록도를 나타낸다. 일부 구현예들에서, 네트워크 환경(100)은 시스템(102)을 포함하며, 시스템(102)은 서버 디바이스(104) 및 소셜 네트워크 데이터베이스(106)를 포함한다. 용어 "시스템(102)" 및 어구 "소셜 네트워크 시스템"은 상호교환가능하게 사용될 수 있다. 네트워크 환경(100)은 또한, 클라이언트 디바이스들(110, 120, 130 및 140)을 포함하고, 이들은 시스템(102) 및 네트워크(150)를 통해 서로 통신할 수 있다.

예시적 설명을 용이하게 하기 위해, 도 1에서는 시스템(102), 서버 디바이스(104) 및 소셜 네트워크 데이터베이스(106) 각각이 하나의 블록으로 제시되어 있으며, 클라이언트 디바이스들(110, 120, 130, 및 140)이 네 개의 블록으로 제시되어 있다. 블록들(102, 104, 및 106)은 복수의 시스템들, 서버 디바이스들, 및 소셜 네트워크 데이터베이스들을 나타낼 수 있다. 또한, 임의 개수의 클라이언트 디바이스들이 존재할 수 있다. 다른 구현예들에서, 네트워크 환경(100)은 제시된 컴포넌트들을 모두 갖지 않을 수 있고, 그리고/또는 본 명세서에서 제시되는 것들 대신에 혹은 이에 추가하여 다른 타입의 요소들을 포함하는 다른 요소들을 가질 수 있다.

다양한 구현예들에서, 사용자들(Ul, U2, U3, 및 U4)은 각각의 클라이언트 디바이스들(110, 120, 130, 및 140)을 사용하여 서로 통신할 수 있다. 예를 들어, 사용자들(Ul, U2, U3, 및 U4)은 복수-사용자 비디오 화상회의에서 서로 상호대화할 수 있는바, 이 경우 각각의 클라이언트 디바이스들(110, 120, 130, 및 140)은 서로에게 미디어 스트림들을 전송한다.

다양한 구현예들에서, 미디어 스트림들은 상이한 타입의 미디어 스트림들(예를 들어, 하나 이상의 비디오 스트림들 및/또는 하나 이상의 오디오 스트림들)을 포함할 수 있다. 예를 들어, 이러한 미디어 스트림들은 사용자들(Ul, U2, U3, 및 U4)을 디스플레이하는 비디오 스트림들을 포함할 수 있고, 아울러 관련된 오디오 스트림들을 포함할 수 있다. 또한, 미디어 스트림들은 각각의 클라이언트 디바이스(110, 120, 130, 및 140)에 대해 서로 다른 방향으로 전송되는 미디어 스트림들(예를 들어, 하나 이상의 발신 스트림들 및/또는 하나 이상의 착신 스트림들)을 포함할 수 있다.

도 2는 일부 구현예들에 따른 비디오 화상회의 동안 참가자의 외모를 수정하기 위한 예시적인 간략화된 흐름도를 나타낸다. 도 1 및 도 2를 모두 참조하면, 블록(202)에서 방법이 개시되는바, 블록(202)에서 시스템(102)은 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는데, 여기서 적어도 하나의 프레임은 사용자의 얼굴을 포함한다. 다양한 구현예들에서, 사용자는 비디오 화상회의의 참가자일 수 있다. 이러한 경우, 미디어 스트림은 비디오 화상회의와 관련된 비디오 스트림일 수 있다.

본 명세서에서 설명되는 다양한 구현예들에서, 용어 "얼굴(face)" 및 어구 "얼굴의 이미지(image)"는 상황에 따라 상호교환가능하게 사용될 수 있다. 예를 들어, 일부 상황에서(예를 들어, 미디어 스트림 프레임의 경우), 얼굴에 대한 언급은 프레임 내의 사용자의 얼굴의 이미지를 말하는 것일 수 있다. 어떤 상황에서는, 얼굴에 대한 언급은 "사용자의 얼굴"에서와 같이 실제 얼굴을 말하는 것일 수 있다.

도 3은 일부 구현예들에 따른 예시적인 간략화된 사용자 인터페이스(300)를 나타낸다. 사용자 인터페이스(300)는 복수의 동시 참가자들이 음성, 타이핑방식 채팅(typed chat), 및 비디오를 통해 통신할 수 있도록 하는 멀티-웨이 비디오 화상회의 플랫폼(multi-way video conferencing platform)의 실시형태를 보여준다. 사용자 인터페이스(300)는 가장 눈에 띄는 위치(대형 비디오 피드(large video feed))에 제시되는 현재 말하고 있는 화자(speaker)의 표현(representation) 및 컨셉(concept), 그리고 모든 참가자의 썸네일(thumbnail)들을 제시하는 필름 스트립(film strip)을 시각적으로 나타내는 것에 중점을 둘 수 있다. 제시되는 바와 같이, 사용자(U3)는 비디오 화상회의에서의 수 명의 참가자들 중 하나이며, 사용자(U3)는 현재 말하고 있는 화자다. 사용자 인터페이스는 또한 타이핑방식 대화의 채팅 로그(chat log)를 포함하는 채팅 윈도우(chat window)를 디스플레이할 수 있다.

본 명세서에서 설명되는 다양한 구현예들은 미디어 스트림의 단일 프레임의 상황에서 설명된다. 이러한 구현예들은 또한 미디어 스트림의 복수 프레임들에 적용된다. 예를 들어, 앞서 언급된 바와 같이, 소정의 미디어 스트림은 비디오 화상회의와 관련된 비디오 스트림일 수 있다. 이러한 경우, 시스템(102)은 도 2에서와 같은 다양한 방법 구현예들에 따라, 비디오 스트림의 복수의 프레임들을 획득할 수 있고, 일련의 프레임들의 각각의 프레임에서의 소정의 얼굴의 이미지를 프로세싱할 수 있다.

도 2 및 도 3을 모두 참조하면, 블록(204)에서, 시스템(102)은 적어도 하나의 프레임 내에서의 좌표들을 결정한다. 다양한 구현예들에서, 좌표들은 사용자(예를 들어, 사용자(U3))의 얼굴(302)의 위치들에 대응하고, 그리고/또는 사용자의 얼굴의 일부분들(예를 들어, 눈, 코, 입 등)에 대응한다. 예시적 설명을 용이하게 하기 위해, 사용자(U3)의 간략화된 머리(head)가 제시된다.

일부 구현예들에서, 시스템(102)은 프레임 내에서의 좌표들을 결정하기 위해 얼굴 인식 알고리즘 혹은 소프트웨어를 사용할 수 있다. 좌표들은 소정의 프레임에서의 사용자의 얼굴(예를 들어, 비디오 화상회의에서의 참가자의 얼굴 등)의 좌표들을 포함할 수 있고, 사용자의 얼굴의 요소들(예를 들어, 눈, 코, 귀 등)의 좌표들을 또한 포함할 수 있다.

아래에서 보다 상세히 설명되는 봐와 같이, 시스템(102)은 소셜 네트워크 시스템의 사용자들로 하여금 개인적 정보의 사용을 특정 및/또는 허락할 수 있게 하는데, 이것은 시스템(102)이 사진(photo)들 내에서의 이들의 얼굴들을 사용하는 것, 또는 사진들 내에서 식별된 사람들을 인식함에 있어 이들의 아이덴티티 정보(identity information)를 사용하는 것을 포함할 수 있다. 일부 구현예들에서, 시스템(102)은 참가자의 입이 열렸는지, 닫혔는지, 미소를 짓고 있는지, 등을 결정하기 위해, 참가자가 눈을 뜨고 있는지 혹은 감고 있는지 등을 결정하기 위해, 뿐만 아니라 얼굴의 다른 특징들을 결정하기 위해 얼굴 인식 소프트웨어를 사용할 수 있다. 일부 구현예들에서, 시스템(102)은 특정 위치들 및/또는 얼굴 요소들의 서로에 대한 거리들, 등에 관한 정보를 포함하는 얼굴 라이브러리(facial library)에 좌표들과 관련된 정보를 저장할 수 있다.

블록(206)에서, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 획득한다. 보다 더 상세히 설명되는 바와 같이, 시스템(102)은 사용자의 얼굴을 하나 이상의 미디어 콘텐츠 아이템들로 대체할 수 있다.

일부 구현예들에서, 하나 이상의 미디어 콘텐츠 아이템들은 대체 얼굴을 포함할 수 있다. 다양한 구현예들에서, 대체 얼굴은 시스템(102)이 사용자의 실제 얼굴의 이미지에 대해 대체하기 위해 사용할 수 있는 얼굴의 이미지이다. 다양한 구현예들에서, 대체 얼굴은 사용자의 얼굴(예를 들어, 비디오회의 참가자의 얼굴)과는 다른 것일 수 있다.

일부 구현예들에서, 대체 얼굴은 사용자의 얼굴의 만화 형상과 관련될 수 있다. 예를 들어, 도 3에 제시된 바와 같이, 만화 얼굴인 미디어 콘텐츠 아이템(304)은 대체 얼굴일 수 있다. 일부 구현예들에서, 대체 얼굴은 임의의 아바타와 관련될 수 있다. 일부 구현예들에서, 사용자는 다양한 대체 얼굴들 중에서 대체 얼굴을 선택할 수 있다. 일부 구현예들에서, 대체 얼굴은 사용자와는 다른 사람과 관련될 수 있다. 예를 들어, 도 3에 제시된 바와 같이, 사용자(U3)의 얼굴과는 다른 미디어 콘텐츠 아이템(306)이 대체 얼굴일 수 있다. 예를 들어, 대체 얼굴은 특정 유명인사의 얼굴일 수 있다. 일부 구현예들에서, 다양한 대체 얼굴들은 참가자를 익명화시키기 위해 사용될 수 있다.

일부 구현예들에서, 참가자는 유명인사, 만화, 아바타 등의 얼굴을 스캔(scan)할 수 있고, 그 다음에 이 얼굴을 소셜 네트워크 시스템에 업로드(upload)할 수 있다. 예시적 설명을 용이하게 하기 위해, 용어 "얼굴"이 사용되고 있음에 유의해야 한다. 다양한 구현예들에서, 용어 "얼굴"은 얼굴 혹은 대체 얼굴과 관련된 다양한 실시형태들 및 시각들을 나타낼 수 있다. 예를 들어, 용어 "얼굴"은 또한 얼굴의 요소들 및 일부분들(예를 들어, 눈, 코, 입, 얼굴의 특징, 등), 얼굴 주변에 있는 요소들 및 요소들의 일부분들(예를 들어, 귀, 목, 등), 몸의 털 요소들(예를 들어, 머리를 덮고 있는 머리카락, 눈썹, 콧수염, 턱수염, 등)을 포함할 수 있다. 또한, 얼굴과 관련된 구현예들은 이러한 다양한 요소들 및 일부분들에도 적용되고, 뿐만 아니라 인물 그림에서와 같이 어깨 및 가슴 영역과 같은 얼굴과 함께 수반될 수 있는 다른 신체 부분들에도 적용되며, 그리고 팔, 손 등에도 적용된다.

다양한 구현예들에서, 시스템(102)은 또한 하나 이상의 미디어 콘텐츠 아이템들 각각과 관련된 하나 이상의 파라미터들을 획득할 수 있다. 다양한 구현예들에서, 하나 이상의 파라미터들은 하나 이상의 미디어 콘텐츠 아이템들과 관련되게 된다. 예를 들어, 만약 미디어 콘텐츠 아이템이 얼굴이거나 대체 얼굴이라며, 하나 이상의 파라미터들은 얼굴의 크기 및 치수, 얼굴의 형상, 얼굴의 요소들과 관련될 수 있고 이러한 것들을 정의할 수 있으며, 그리고/또는 얼굴 등과 관련될 수 있다.

다양한 구현예들에서, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 획득할 수 있고, 그리고/또는 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터들을 임의의 적절한 저장 위치(예를 들어, 로컬 메모리(local memory))로부터 획득할 수 있다.

블록(208)에서, 시스템(102)은 좌표들에 적어도 부분적으로 근거하여 하나 이상의 미디어 콘텐츠 아이템들을 적어도 하나의 프레임에 추가한다. 예를 들어, 도 3의 미디어 콘텐츠 아이템(304)이 프레임에 추가될 수 있고, 그럼으로써 사용자(U3)의 얼굴(302)이 대체되게 된다. 앞서 언급된 바와 같이, 본 명세서에서는 다양한 구현예들이 단일 프레임의 상황에서 설명되고 있지만, 이러한 구현예들은 또한 복수 프레임들(예를 들어, 애니메이션 프레임들(animated frames) 등)에 적용된다. 예를 들어, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 프레임들의 스트림 혹은 일련의 프레임들(예를 들어, 도 3에서 제시되는 바와 같은, 비디오 스트림에서의 일련의 프레임들)에 추가할 수 있다.

일부 구현예들에서, 미디어 콘텐츠 아이템을 추가하는 것은 시스템(102)이 프레임의 일부분 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 것을 포함할 수 있다. 다양한 구현예들에서, 이러한 오버레이시키는 것은 프레임 내에서의 좌표들에 근거하며, 그리고 하나 이상의 미디어 콘텐츠 아이템들과 관련된 파라미터들에 또한 근거한다. 일부 구현예들에서, 미디어 콘텐츠 아이템을 추가하는 것은 시스템(102)이 프레임의 일부분을 하나 이상의 미디어 콘텐츠 아이템들로 교체하는 것을 포함할 수 있다. 다양한 구현예들에서, 이러한 교체하는 것은 프레임 내에서의 좌표들에 근거하며, 그리고 하나 이상의 미디어 콘텐츠 아이템들과 관련된 파라미터들에 근거한다.

예를 들어, 시스템(102)은 사용자의 얼굴의 상이한 부분들이 프레임 내에서 어디에 위치하는지를 (예를 들어, 좌표들을 사용하여) 결정할 수 있다. 그 다음에, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들의 파라미터들을 결정할 수 있다(예를 들어, 눈, 코, 입, 등). 그 다음에, 시스템(102)은 사용자의 얼굴의 일부분 혹은 사용자의 전체 얼굴을 하나 이상의 미디어 콘텐츠 아이템들로 대체할 수 있다. 결과적으로, 하나 이상의 미디어 콘텐츠 아이템들을 프레임에 추가함으로써 사용자의 얼굴이 대체 얼굴로 교체되는 결과가 일어날 수 있다. 또 다른 예의 경우, 비디오 화상회의에서, 시스템(102)은 비디오 스트림에서의 소정의 사용자의 얼굴을 대체 얼굴(예를 들어, 아바타, 만화 얼굴, 등)로 대체할 수 있다. 다양한 구현예들에서, 사용자/비디오 화상회의 참가자는 사용자 선택에 따라 참가자의 화상 혹은 외모가 다양한 특정 대체 얼굴들로 나타나도록 선택을 할 수 있다.

일부 구현예들에서, 시스템(102)은 스크린 상의 대체 얼굴이 사용자를 따르도록 이동시키기 위해 얼굴 추적 알고리즘을 사용할 수 있다. 예를 들어, 만약 사용자가 비디오 카메라의 한쪽으로(예를 들어, 뷰어(viewer)의 우측으로) 움직이면, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 적절하게(예를 들어, 뷰어의 우측에) 추가하기 위해 좌표에서의 변화를 추적한다. 일부 구현예들에서, 시스템(102)은 그에 맞게 대체 얼굴을 스케일링(scaling)할 수 있다. 예를 들어, 만약 사용자가 비디오 카메라에 대한 거리를 변경시킨다면(예를 들어, 비디오 카메라에 더 가깝게 움직인다면), 시스템(102)은 좌표에서의 변화를 추적하고, 그에 맞게 하나 이상의 미디어 콘텐츠 아이템들을 수정 및 추가한다(예를 들어, 변하는 좌표에 매칭(match)되도록 하나 이상의 미디어 콘텐츠 아이템들을 확대시키는 것).

일부 구현예들에서, 시스템(102)은 참가자가 존재함이 없이 참가자의 환경의 배경을 캡처(capture)할 수 있다. 이것은 이후 참가자의 얼굴을 대체 얼굴로 대체할 때 시스템(102)을 용이하게 한다. 예를 들어, 시스템(102)은 배경을 유지시킨 상태에서 참가자 얼굴을 잘라내고 대체 얼굴을 삽입할 수 있다.

다양한 구현예들에서, 오디오 스트림은 대체 얼굴의 입과 같은 얼굴의 일부분들 및/또는 요소들이 움직이도록 하기 위해 사용될 수 있다. 일부 구현예들에서, 오디오 스트림은 참가자가 발설하는 단어들 및 소리들에 대응할 수 있다. 일부 구현예들에서, 시스템(102)은 적어도 하나의 미디어 콘텐츠 아이템과 관련된 적어도 하나의 오디오 콘텐츠 아이템을 획득한다. 일부 구현예들에서, 만약 오디오 콘텐츠 아이템이 특정 유명인사의 얼굴이라면, 오디오 콘텐츠는 그 특정 유명인사의 음성의 특징들(예를 들어, 피치(pitch), 음질(quality), 등)을 포함할 수 있다. 일부 구현예들에서, 시스템(102)은 오디오 콘텐츠 아이템을 미디어 스트림에 추가할 수 있다. 일부 구현예들에서, 시스템(102)은 오디오 콘텐츠 아이템을 미디어 스트림에 혼합(mix)시킬 수 있다. 일부 구현예들에서, 시스템(102)은 미디어 스트림의 적어도 일부분을 오디오 콘텐츠 아이템으로 교체할 수 있다. 결과적으로, 참가자가 단어들 혹은 소리들을 발설함에 따라, 시스템(102)은 사용자에 의해 발설된 것이기는 하지만 특정 유명인사의 음성으로 수정된 동일한 단어들 혹은 소리들을 생성한다.

단계들, 동작들, 혹은 연산들이 특정 순서로 제시될 수 있지만, 이러한 순서는 특정 구현예들에서 변경될 수 있다. 특정 구현예에 따라 다른 순서의 단계들이 가능하다. 일부 특정 구현예들의 경우, 본 명세서에서 순차적으로 제시되는 복수의 단계들은 동시에 수행될 수 있다. 또한, 일부 구현예들은 제시되는 모든 단계들을 갖지 않을 수 있으며, 그리고/또는 본 명세서에서 제시되는 것들 대신에 혹은 이에 추가하여 다른 단계들을 가질 수 있다.

시스템(102)이 본 명세서의 구현예들에서 설명되는 바와 같은 단계들을 수행하는 것으로 설명되고 있지만, 시스템(102)의 컴포넌트들 중 임의의 적절한 컴포넌트 혹은 시스템(102)의 컴포넌트들의 임의의 적절한 조합, 또는 시스템(102)과 관련된 임의의 적절한 프로세서 혹은 프로세서들이 본 명세서에서 설명되는 단계들을 수행할 수 있다.

본 명세서에서 설명되는 구현예들은 다양한 혜택들을 제공한다. 예를 들어, 본 구현예들은 참가자들로 하여금 서로 재미있게 상호대화할 수 있게 한다. 본 구현예들은 비디오 화상회의에서의 참가자들이 익명화될 수 있게 한다. 본 명세서에서 설명되는 구현예들은 소셜 네트워킹 환경에서 말단-사용자들 간의 전체적인 참여(engagement)를 증가시킨다.

도 4는 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 서버 디바이스(400)의 블록도를 나타낸다. 예를 들어, 서버 디바이스(400)는 도 1의 서버 디바이스(104)를 구현하기 위해 사용될 수 있을 뿐만 아니라 본 명세서에서 설명되는 방법 구현예들을 수행하기 위해 사용될 수 있다. 일부 구현예들에서, 서버 디바이스(400)는 프로세서(402), 오퍼레이팅 시스템(operating system)(404), 메모리(406), 및 입력/출력(Input/Output)(I/O) 인터페이스(408)를 포함한다. 서버 디바이스(400)는 또한, 소셜 네트워크 엔진(410), 및 미디어 애플리케이션(412)을 포함하며, 이들은 메모리(406) 내에 저장될 수 있거나 혹은 임의의 다른 적절한 저장 위치나 컴퓨터-판독가능 매체 상에 저장될 수 있다. 미디어 애플리케이션(412)은 프로세서(402)로 하여금 본 명세서에서 설명되는 기능들 및 다른 기능들을 수행할 수 있게 하는 명령들을 제공한다.

예시적 설명을 용이하게 하기 위해, 도 4에서는 프로세서(402), 오퍼레이팅 시스템(404), 메모리(406), I/O 인터페이스(408), 소셜 네트워크 엔진(410) 및 미디어 애플리케이션(412) 각각이 하나의 블록으로 제시되어 있다. 이러한 블록들(402, 404, 406, 408, 410, 및 412)은 복수의 프로세서들, 오퍼레이팅 시스템들, 메모리들, I/O 인터페이스들, 소셜 네트워크 엔진들, 및 미디어 애플리케이션들을 나타낼 수 있다. 다른 구현예들에서, 서버 디바이스(400)는 제시된 컴포넌트들을 모두 갖지 않을 수 있고, 그리고/또는 본 명세서에서 제시되는 것들 대신에 혹은 이에 추가하여 다른 타입의 요소들을 포함하는 다른 요소들을 가질 수 있다.

다양한 구현예들에서, 시스템(102)은 미디어 내에서 얼굴들, 랜드마크들(landmarks), 오브젝트들(objects), 등을 인식하기 위해 다양한 인식 알고리즘들을 이용할 수 있다. 이러한 인식 알고리즘들은 시스템(102)에 통합될 수 있다. 시스템(102)은 또한, 시스템(102)의 외부에 있으며 시스템(102)이 액세스하는 소프트웨어에 의해 제공되는 인식 알고리즘들에 액세스할 수 있다.

다양한 구현예들에서, 시스템(102)은 소셜 네트워크 시스템의 사용자들로 하여금 개인적 정보의 사용을 특정 및/또는 허락할 수 있게 하는데, 이것은 시스템(102)이 사진들 내에서의 이들의 얼굴들을 사용하는 것, 또는 사진들 내에서 식별된 사람들을 인식함에 있어 이들의 아이덴티티 정보를 사용하는 것을 포함할 수 있다. 예를 들어, 시스템(102)은 개인적 정보의 사용을 특정 및/또는 허락하는 것에 관한 복수의 선택들을 사용자들에게 제공할 수 있다. 예를 들어, 이러한 특정 및/또는 허락하는 것에 관한 선택들은 개개의 사진들, 모든 사진들, 개개의 사진 앨범들, 모든 사진 앨범들 등과 관련될 수 있다. 이러한 선택들은 다양한 방식으로 구현될 수 있다. 예를 들어, 시스템(102)은 버튼(button)들 혹은 체크 박스(check box)들이 다양한 선택들 옆에 디스플레이되도록 할 수 있다. 일부 구현예들에서, 시스템(102)은 소셜 네트워크의 사용자들로 하여금 일반적으로 얼굴 인식을 위해 이들의 사진들을 사용하는 것의 용도를 특정 및/또는 허락할 수 있게 한다. 얼굴들 및 다른 오브젝트들을 인식하기 위한 예시적인 구현예들이 아래에서 보다 상세히 설명된다.

다양한 구현예들에서, 시스템(102)은 소셜 네트워크 시스템의 사용자들의 참조 이미지(reference image)들을 획득하며, 여기서 각각의 참조 이미지는 임의의 알려진 사용자와 관련된 얼굴의 이미지를 포함한다. 시스템(102)이 사용자의 아이덴티티 정보(예를 들어, 사용자의 이름 및 다른 프로필 정보와 같은 것)을 갖는 경우, 사용자는 알려진 사용자이다. 일부 구현예들에서, 참조 이미지는 예를 들어, 사용자가 업로드한 프로필 이미지일 수 있다. 일부 구현예들에서, 참조 이미지는 일 그룹의 참조 이미지들의 복합체에 근거할 수 있다.

일부 구현예들의 경우, 사진 내에서 얼굴을 인식하기 위해, 시스템(102)은 얼굴(즉, 얼굴의 이미지)을 소셜 네트워크 시스템의 사용자들의 참조 이미지들과 비교할 수 있음과 아울러 해당 얼굴을 이러한 참조 이미지들에 매칭시킬 수 있다. 용어 "얼굴" 및 어구 "얼굴의 이미지"는 상호교환가능하게 사용됨에 유의해야 한다. 예시적 설명을 용이하게 하기 위해, 본 명세서에서 설명되는 예시적인 구현예들 중 일부에서는 하나의 얼굴의 인식이 설명된다. 이러한 구현예들은 또한, 인식될 복수의 얼굴들 중 각각의 얼굴에 적용될 수 있다.

일부 구현예들에서, 시스템(102)은 사진 내에서의 얼굴과 유사한 임의의 하나 이상의 참조 이미지들을 식별하기 위해 참조 이미지들을 검색할 수 있다. 일부 구현예들의 경우, 소정의 참조 이미지에 대해서, 시스템(102)은 분석을 위해 사진 내에서의 얼굴의 이미지로부터 특징들을 추출할 수 있고, 그 다음에 이러한 특징들을 하나 이상의 참조 이미지들의 특징들과 비교할 수 있다. 예를 들어, 시스템(102)은 얼굴 특징들(예를 들어, 눈, 코, 광대뼈, 입, 턱 등)의 상대적 위치, 크기, 및/또는 형상을 분석할 수 있다. 일부 구현예들에서, 시스템(102)은 사진 내에서의 얼굴을 매칭되는 혹은 유사한 특징들을 갖는 하나 이상의 참조 이미지들에 매칭시키기 위해 분석으로부터 수집된 데이터를 사용할 수 있다. 일부 구현예들에서, 시스템(102)은 복수의 참조 이미지들을 정규화(normalize)할 수 있고, 이러한 이미지들로부터의 얼굴 데이터를 정보(예를 들어, 얼굴 특징 데이터)를 갖는 복합 표현으로 압축할 수 있으며, 그 다음에 얼굴 인식을 위해 사진 내에서의 얼굴을 이러한 복합 표현과 비교할 수 있다.

어떤 시나리오들에서, 사진 내의 얼굴은 동일한 사용자와 관련된 복수의 참조 이미지들과 유사할 수 있다. 이러한 경우, 사진 내의 얼굴과 관련된 사람이 참조 이미지들과 관련된 사람과 동일한 사람일 확률은 매우 높게 된다.

어떤 시나리오들에서, 사진 내의 얼굴은 다양한 사용자들과 관련된 복수의 참조 이미지들과 유사할 수 있다. 이러한 경우, 사진 내의 사람이 참조 이미지들과 관련된 임의의 소정의 사람과 매칭될 확률은 적절히 높기는 하지만 감소될 것이다. 이러한 상황을 처리하기 위해, 시스템(102)은 다양한 타입의 얼굴 인식 알고리즘들을 사용할 수 있고 이에 따라 가능한 범위를 좁힐 수 있고 이상적으로는 하나의 최상의 후보까지 좁힐 수 있게 된다.

예를 들어, 일부 구현예들에서, 얼굴 인식을 용이하게 하기 위해, 시스템(102)은 특징 구분에 기반을 둔 기하학적 얼굴 인식 알고리즘들을 사용할 수 있다. 시스템(102)은 또한, 측광 알고리즘들(photometric algorithms)을 사용할 수 있는 바, 이러한 측광 알고리즘들은 얼굴 특징에서 비교를 위한 값들을 추출해 내는 통계적 접근법(statistical approach)에 기반을 두고 있다. 사진 내의 얼굴을 하나 이상의 참조 이미지들과 비교할 때 기하학적 접근법과 측광 접근법의 조합이 또한 사용될 수 있다.

다른 얼굴 인식 알고리즘들이 사용될 수 있다. 예를 들어, 시스템(102)은 주 성분 분석(principal component analysis), 선형 판별 분석(linear discriminate analysis), 일레스틱 번치 그래프 매칭(Elastic Bunch Graph Matching, EBGM), 은닉 마르코브 모델(Hidden Markov Models, HMM), 및 동적 링크 매칭(dynamic link matching) 중 하나 이상을 사용하는 얼굴 인식 알고리즘들을 사용할 수 있다. 시스템(102)이 다른 알려진 혹은 이후에 개발되는 얼굴 인식 알고리즘들, 기법들 및/또는 시스템들을 사용할 수 있음을 이해해야 할 것이다.

일부 구현예들에서, 시스템(102)은 사진 내의 얼굴이 소정의 참조 이미지와 매칭될 가능성(혹은 확률)을 표시하는 출력을 발생시킬 수 있다. 일부 구현예들에서, 이러한 출력은 사진 내의 얼굴이 소정의 참조 이미지와 매칭될 신뢰도와 관련된 퍼센티지와 같은 그러한 메트릭(metric)(혹은 수치적 값)으로서 표현될 수 있다. 예를 들어, 1.0의 값은 100% 매칭 신뢰도를 나타낼 수 있다. 예를 들어, 이것은 비교되는 이미지들이 동일하거나 혹은 거의 동일한 경우 일어날 수 있다. 이 값은 매칭 가능성이 50%인 경우 더 낮을 수 있는바, 예를 들어, 0.5일 수 있다. 다른 타입의 출력들이 가능하다. 예를 들어, 일부 구현예들에서, 출력은 매칭에 대한 신뢰도 점수일 수 있다.

본 명세서의 설명이 특정 실시예들에 관해 기술되고 있지만, 이러한 특정 실시예들은 단지 예시적인 것이며 한정의 의미를 갖지 않는다. 이러한 예들에서 제시되는 개념들은 다른 예들 및 구현예들에 적용될 수 있다.

본 개시내용에서 설명되는 기능적 블록들, 방법들, 디바이스들, 및 시스템들은 본 발명의 기술분야에서 숙련된 자들에게 알려져 있는 바와 같이, 통합될 수 있거나 또는, 시스템들, 디바이스들, 및 기능적 블록들의 다양한 조합들로 분할될 수 있다.

특정 실시예들의 루틴(routine)들을 구현하기 위해 임의의 적절한 프로그래밍 언어들 및 프로그래밍 기법들이 사용될 수 있다. 절차형 혹은 객체-지향형과 같은 다양한 프로그래밍 기법들이 사용될 수 있다. 루틴들은 단일 프로세싱 디바이스 상에서 실행될 수 있거나 혹은 복수의 프로세서들 상에서 실행될 수 있다. 단계들, 동작들, 혹은 연산들이 특정 순서로 제시될 수 있지만, 이러한 순서는 다양한 특정 실시예들에서 변경될 수 있다. 일부 특정 실시예들의 경우, 본 명세서에서 순차적으로 제시된 복수의 단계들은 동시에 수행될 수 있다.

"프로세서(processor)"는 데이터, 신호들 혹은 다른 정보를 프로세싱하는 임의의 적절한 하드웨어 및/또는 소프트웨어 시스템, 메커니즘, 혹은 컴포넌트를 포함한다. 프로세서는 범용 중앙 처리 장치를 갖는 시스템, 복수의 프로세싱 장치들을 갖는 시스템, 기능 달성을 위한 전용 회로를 갖는 시스템, 혹은 다른 시스템들을 포함할 수 있다. 프로세싱은 지리적 위치에 한정될 필요는 없으며, 또는 시간적 제약을 가질 필요도 없다. 예를 들어, 프로세서는 "실시간(real-time)"으로, "오프라인(offline)"으로, "일괄 모드(batch mode)"로, 기타 등등으로 프로세서의 기능들을 수행할 수 있다. 프로세싱의 일부분들은 상이한 시간에 상이한 위치에서 상이한(혹은 동일한) 프로세싱 시스템들에 의해 수행될 수 있다. 컴퓨터는 메모리와 통신하는 임의의 프로세서일 수 있다. 메모리는 임의의 적절한 프로세서-판독가능 저장 매체일 수 있는바, 예컨대 랜덤-액세스 메모리(Random-Access Memory, RAM), 판독-전용 메모리(Read-Only Memory, ROM), 자기 혹은 광학 디스크, 또는 프로세서에 의해 실행되는 명령들을 저장하는데 적합한 다른 유형의 매체들(tangible media)일 수 있다.

Claims

비디오 화상회의 동안 사용하기 위한 방법으로서, 상기 방법은:
미디어 스트림(media stream)으로부터 적어도 하나의 프레임(frame)을 획득하는 단계 ― 상기 적어도 하나의 프레임은 사용자의 제 1 얼굴(face)의 이미지(image)를 포함함 ―;
얼굴 인식 알고리즘(facial recognition algorithm)을 사용하여, 상기 제 1 얼굴의 좌표(coordinate)들을 포함하는, 상기 적어도 하나의 프레임 내의 복수의 제 1 좌표들을 결정하는 단계;
적어도 하나의 대체 얼굴을 포함하는 적어도 하나의 미디어 콘텐츠 아이템(media content item)을 획득하는 단계 ― 상기 대체 얼굴은 상기 제 1 얼굴의 만화 형상(cartoon version)과 관련됨 ―;
상기 복수의 좌표들에 근거하여 상기 적어도 하나의 미디어 콘텐츠 아이템을 상기 적어도 하나의 프레임에 추가하는 단계 ― 상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 단계는, 상기 적어도 하나의 프레임 상에 상기 적어도 하나의 미디어 콘텐츠 아이템을 오버레이(overlay)시키는 단계 및 상기 적어도 하나의 프레임의 적어도 부분을 상기 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 단계 중 하나 이상을 포함함 ―;
상기 사용자의 이동을 따르거나 또는 그에 맞게 상기 대체 얼굴을 스케일링하기 위해 상기 미디어 스트림 내의 프레임들 사이의 상기 복수의 좌표들에서의 변화들을 추적하는 단계;
상기 제 1 얼굴의 만화 형상과 관련된 음성 특징들(voice characteristics)에 근거해서 상기 사용자로부터의 오디오에 대한 수정(modification)을 나타내는 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 단계 ― 상기 음성 특징들은 피치(pitch) 및 음질(quality) 중 적어도 하나를 포함함 ―; 및
상기 적어도 하나의 오디오 콘텐츠 아이템(audio content item)을 상기 미디어 스트림에 추가하는 단계
를 포함하는,
비디오 화상회의 동안 사용하기 위한 방법.
비디오 화상회의 동안 사용하기 위한 방법으로서, 상기 방법은:
미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 단계 ― 상기 적어도 하나의 프레임은 사용자의 제 1 얼굴의 이미지임 ―;
상기 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 단계 ― 상기 복수의 좌표들은 상기 제 1 얼굴의 부분들의 좌표들을 포함함 ―;
대체 얼굴을 포함하는 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 단계;
상기 적어도 하나의 프레임 내에서 보일 수 있는 상기 제 1 얼굴의 부분들에 대한 상기 대체 얼굴의 부분들을 대체함으로써 상기 복수의 좌표들에 근거하여 상기 적어도 하나의 프레임에 상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 단계;
상기 대체 얼굴과 관련된 음성 특징들에 근거해서 상기 사용자로부터의 오디오에 대한 수정을 나타내는 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 단계― 상기 음성 특징들은 피치 및 음질 중 적어도 하나를 포함함 ― ; 및
상기 적어도 하나의 오디오 콘텐츠 아이템을 상기 미디어 스트림에 추가하는 단계
를 포함하는,
비디오 화상회의 동안 사용하기 위한 방법.
삭제
삭제
삭제
제2항에 있어서,
상기 대체 얼굴은 상기 제 1 얼굴과는 다른,
비디오 화상회의 동안 사용하기 위한 방법.
제2항에 있어서,
상기 대체 얼굴은 상기 사용자와는 다른 사람과 관련되는,
비디오 화상회의 동안 사용하기 위한 방법.
제2항에 있어서,
상기 대체 얼굴은 상기 제 1 얼굴의 만화 형상과 관련되는,
비디오 화상회의 동안 사용하기 위한 방법.
삭제
제2항에 있어서,
상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 단계는,
상기 적어도 하나의 프레임 상에 상기 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 단계; 및
상기 적어도 하나의 프레임의 적어도 부분을 상기 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 단계
중 하나 이상을 포함하는,
비디오 화상회의 동안 사용하기 위한 방법.
제2항에 있어서,
상기 적어도 하나의 오디오 콘텐츠 아이템은 상기 사용자가 발설(utter)한 소리들에 대응하는,
비디오 화상회의 동안 사용하기 위한 방법.
비디오 화상회의 동안 사용하기 위한 시스템으로서, 상기 시스템은:
하나 이상의 프로세서들; 및
상기 하나 이상의 프로세서들에 의한 실행을 위해 하나 이상의 유형의 매체들(tangible media)에 인코딩(encoding)된 로직(logic)을 포함하고,
상기 로직은 실행될 때:
미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 동작 ― 상기 적어도 하나의 프레임은 사용자의 제 1 얼굴의 이미지를 포함함 ―;
상기 적어도 하나의 프레임 내에서 복수의 제 1 좌표들을 결정하는 동작 ― 상기 복수의 제 1 좌표들은 상기 제 1 얼굴의 부분들의 좌표들을 포함함 ―;
대체 얼굴을 포함하는 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 동작;
상기 적어도 하나의 프레임 내에서 보일 수 있는 상기 제 1 얼굴의 부분들에 대한 상기 대체 얼굴의 부분들을 대체함으로써 상기 복수의 좌표들에 근거하여 상기 적어도 하나의 프레임에 상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 동작;
상기 대체 얼굴과 관련된 음성 특징들에 근거하여 상기 사용자로부터의 오디오에 대한 수정을 나타내는 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 동작― 상기 음성 특징들은 피치 및 음질 중 적어도 하나를 포함함 ―; 및
상기 미디어 스트림에 상기 적어도 하나의 오디오 콘텐츠 아이템을 추가하는 동작
을 포함하는 동작들을 수행하도록 동작가능한,
비디오 화상회의 동안 사용하기 위한 시스템.
삭제
삭제
삭제
제12항에 있어서,
상기 대체 얼굴은 상기 제 1 얼굴과는 다른,
비디오 화상회의 동안 사용하기 위한 시스템.
제12항에 있어서,
상기 대체 얼굴은 상기 사용자와는 다른 사람과 관련되는,
비디오 화상회의 동안 사용하기 위한 시스템.
제12항에 있어서,
상기 대체 얼굴은 상기 제 1 얼굴의 만화 형상과 관련되는,
비디오 화상회의 동안 사용하기 위한 시스템.
삭제
제12항에 있어서,
상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 동작은,
상기 적어도 하나의 프레임 상에 상기 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 동작; 및
상기 적어도 하나의 프레임의 적어도 부분을 상기 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 동작
중 하나 이상을 포함하는,
비디오 화상회의 동안 사용하기 위한 시스템.
제2항에 있어서,
상기 대체 얼굴 및 상기 적어도 하나의 오디오 콘텐츠 아이템은 상기 사용자를 익명으로 만드는,
비디오 화상회의 동안 사용하기 위한 방법.