KR101732613B1 - 비디오 화상회의 동안 참가자의 외모 수정 - Google Patents

비디오 화상회의 동안 참가자의 외모 수정 Download PDF

Info

Publication number
KR101732613B1
KR101732613B1 KR1020147025624A KR20147025624A KR101732613B1 KR 101732613 B1 KR101732613 B1 KR 101732613B1 KR 1020147025624 A KR1020147025624 A KR 1020147025624A KR 20147025624 A KR20147025624 A KR 20147025624A KR 101732613 B1 KR101732613 B1 KR 101732613B1
Authority
KR
South Korea
Prior art keywords
face
content item
frame
media content
coordinates
Prior art date
Application number
KR1020147025624A
Other languages
English (en)
Other versions
KR20140129171A (ko
Inventor
조나한 비베카난단
프랜크 피터슨
토르 카펜터
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20140129171A publication Critical patent/KR20140129171A/ko
Application granted granted Critical
Publication of KR101732613B1 publication Critical patent/KR101732613B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

본 개시내용의 구현예들은 일반적으로 비디오 화상회의 동안 참가자의 외모를 수정하는 것에 관한 것이다. 일부 구현예들에서, 방법이 제공되며, 이 방법은 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 것을 포함하고, 여기서 적어도 하나의 프레임은 제 1 얼굴을 포함하며 제 1 얼굴은 사용자와 관련된 얼굴의 이미지이다. 본 방법은 또한, 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 것을 포함한다. 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 것을 포함한다. 본 방법은 또한, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함한다.

Description

비디오 화상회의 동안 참가자의 외모 수정{MODIFYING AN APPEARANCE OF A PARTICIPANT DURING A VIDEO CONFERENCE}
비디오 화상회의는 비즈니스 환경에서 종종 사용되며 참가자들로 하여금 지리적으로 분산된 위치에서 실시간으로 상호 간에 비디오 및 오디오 콘텐츠를 공유할 수 있도록 한다. 각각의 위치에서의 통신 디바이스는 비디오 및 오디오 스트림들을 전송하기 위해 통상적으로 비디오 카메라 및 마이크로폰을 사용하며, 수신된 비디오 및 오디오 스트림들을 재생시키기 위해 비디오 모니터 및 스피커를 사용한다. 비디오 화상회의는 하나의 위치에서 또 하나의 다른 위치로 네트워크를 통해 실시간으로 전송되는 비디오 및 오디오 스트림들의 디지털 압축을 수반한다. 통신 디바이스들은 비디오 및 오디오 스트림들의 압축 및 압축해제를 수행하고 네트워크를 통한 데이터 연계성(data linkage)을 유지시킨다.
본 개시내용의 구현예들은 일반적으로 비디오 화상회의 동안 참가자의 외모를 수정하는 것에 관한 것이다. 일부 구현예들에서, 방법이 제공되며, 이 방법은 미디어 스트림(media stream)으로부터 적어도 하나의 프레임(frame)을 획득하는 것을 포함하고, 여기서 적어도 하나의 프레임은 제 1 얼굴(face)을 포함하며 제 1 얼굴은 사용자와 관련된 얼굴의 이미지(image)이다. 본 방법은 또한, 적어도 하나의 프레임 내에서 복수의 좌표들(coordinates)을 결정하는 것을 포함한다. 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템(media content item)을 획득하는 것을 포함한다. 본 방법은 또한, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함한다.
이러한 방법에 관하여 추가적으로, 일부 구현예들에서, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 복수의 좌표들을 결정하는 것은 얼굴 인식 알고리즘(facial recognition algorithm)을 사용하여 수행되며, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴(substitute face)을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴과는 다른 것이다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 사용자와는 다른 사람과 관련된다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴의 만화 형상(cartoon version)과 관련된다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터(parameter)들을 획득하는 것을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 것은, 적어도 하나의 프레임 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이(overlay)시키는 것과, 그리고 하나 이상의 프레임들의 적어도 일부분을 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 것 중 하나 이상을 포함한다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 적어도 하나의 오디오 콘텐츠 아이템(audio content item)을 획득하는 것과, 그리고 적어도 하나의 오디오 콘텐츠 아이템을 미디어 스트림에 추가하는 것을 포함한다.
일부 구현예들에서, 방법이 제공되며, 이 방법은 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 것을 포함하며, 여기서 적어도 하나의 프레임은 제 1 얼굴을 포함하고 제 1 얼굴은 사용자와 관련된 얼굴의 이미지이다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 것을 포함하며, 여기서 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함하고, 복수의 좌표들을 결정하는 것은 얼굴 인식 알고리즘을 사용하여 수행된다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 것을 포함하고, 여기서 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 대체 얼굴은 제 1 얼굴의 만화 형상과 관련된다. 일부 구현예들에서, 본 방법은 또한, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터들을 획득하는 것을 포함한다. 일부 구현예들에서, 본 방법은 또한, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함하며, 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 것은, 적어도 하나의 프레임 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 것과, 그리고 하나 이상의 프레임들의 적어도 일부분을 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 것 중 하나 이상을 포함한다.
일부 구현예들에서, 시스템이 제공되며, 이 시스템은 하나 이상의 프로세서들과, 그리고 이러한 하나 이상의 프로세서들에 의해 실행되기 위해 하나 이상의 유형의 매체들(tangible media)에 인코딩(encoding)된 로직(logic)을 포함한다. 로직은 하나 이상의 프로세서들에 의해 실행될 때, 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 것을 포함하는 동작들을 수행하도록 동작가능하며, 여기서 적어도 하나의 프레임은 제 1 얼굴을 포함하고, 제 1 얼굴은 사용자와 관련된 얼굴의 이미지이다. 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 것을 포함하는 동작들을 수행하도록 동작가능하다. 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 것을 포함하는 동작들을 수행하도록 동작가능하다. 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 복수의 좌표들에 근거하여 적어도 하나의 미디어 콘텐츠 아이템을 적어도 하나의 프레임에 추가하는 것을 포함하는 동작들을 수행하도록 동작가능하다.
이러한 시스템에 관하여 추가적으로, 일부 구현예들에서, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 복수의 좌표들을 결정하는 것은 얼굴 인식 알고리즘을 사용하여 수행되며, 복수의 제 1 좌표들은 제 1 얼굴의 좌표들을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함한다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴과는 다른 것이다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 사용자와는 다른 사람과 관련된다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템은 적어도 하나의 대체 얼굴을 포함하고, 여기서 대체 얼굴은 제 1 얼굴의 만화 형상과 관련된다. 일부 구현예들에서, 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터들을 획득하는 것을 포함하는 동작들을 수행하도록 동작가능하다. 일부 구현예들에서, 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 것은, 적어도 하나의 프레임 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 것과, 그리고 하나 이상의 프레임들의 적어도 일부분을 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 것 중 하나 이상을 포함한다. 일부 구현예들에서, 로직은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 적어도 하나의 미디어 콘텐츠 아이템과 관련된 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 것과, 그리고 적어도 하나의 오디오 콘텐츠 아이템을 미디어 스트림에 추가하는 것을 포함하는 동작들을 수행하도록 동작가능하다.
도 1은 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 네트워크 환경의 블록도를 나타낸다.
도 2는 일부 구현예들에 따른 비디오 화상회의 동안 참가자의 외모를 수정하기 위한 예시적인 간략화된 흐름도를 나타낸다.
도 3은 일부 구현예들에 따른 예시적인 간략화된 사용자 인터페이스를 나타낸다.
도 4는 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 서버 디바이스의 블록도를 나타낸다.
본 명세서에서 설명되는 구현예들은, 비디오(video), 오디오(audio) 및 채팅(chat) 스트림들과 같은 미디어 스트림들이 비디오 화상회의 동안 참가자의 상이한 외모를 시뮬레이트(simulate)하도록 사용될 수 있게 한다. 예를 들어, 참가자는 자신들의 화상(likeness) 혹은 외모(appearance)가 만화 얼굴(cartoon face), 유명인사(celebrity)의 얼굴, 혹은 아바타(avatar)와 같은 특정 대체 얼굴(substitute face)로 나타나도록 선택할 수 있다.
아래에서 보다 상세히 설명되는 바와 같이, 다양한 구현예들에서, 시스템은 미디어 스트림으로부터 프레임들을 획득하고, 여기서 프레임들은 사용자(예를 들어, 비디오 화상회의에서의 참가자)의 얼굴을 포함한다. 시스템은 또한, 프레임들 각각 내에서 좌표들을 결정하는바, 여기서 좌표들은 프레임들 각각에서 얼굴 및/또는 얼굴의 요소들이 어디에 위치하고 있는지를 설명한다. 시스템은 또한, 하나 이상의 미디어 콘텐츠 아이템들을 획득하는바, 여기서 하나 이상의 미디어 콘텐츠 아이템들은 대체 얼굴(예를 들어, 만화 얼굴, 유명인사의 얼굴, 아바타 등)의 이미지를 포함할 수 있다. 그 다음에 시스템은 좌표들에 근거하여 하나 이상의 미디어 콘텐츠 아이템들을 프레임들 각각에 추가한다.
도 1은 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 네트워크 환경(100)의 블록도를 나타낸다. 일부 구현예들에서, 네트워크 환경(100)은 시스템(102)을 포함하며, 시스템(102)은 서버 디바이스(104) 및 소셜 네트워크 데이터베이스(106)를 포함한다. 용어 "시스템(102)" 및 어구 "소셜 네트워크 시스템"은 상호교환가능하게 사용될 수 있다. 네트워크 환경(100)은 또한, 클라이언트 디바이스들(110, 120, 130 및 140)을 포함하고, 이들은 시스템(102) 및 네트워크(150)를 통해 서로 통신할 수 있다.
예시적 설명을 용이하게 하기 위해, 도 1에서는 시스템(102), 서버 디바이스(104) 및 소셜 네트워크 데이터베이스(106) 각각이 하나의 블록으로 제시되어 있으며, 클라이언트 디바이스들(110, 120, 130, 및 140)이 네 개의 블록으로 제시되어 있다. 블록들(102, 104, 및 106)은 복수의 시스템들, 서버 디바이스들, 및 소셜 네트워크 데이터베이스들을 나타낼 수 있다. 또한, 임의 개수의 클라이언트 디바이스들이 존재할 수 있다. 다른 구현예들에서, 네트워크 환경(100)은 제시된 컴포넌트들을 모두 갖지 않을 수 있고, 그리고/또는 본 명세서에서 제시되는 것들 대신에 혹은 이에 추가하여 다른 타입의 요소들을 포함하는 다른 요소들을 가질 수 있다.
다양한 구현예들에서, 사용자들(Ul, U2, U3, 및 U4)은 각각의 클라이언트 디바이스들(110, 120, 130, 및 140)을 사용하여 서로 통신할 수 있다. 예를 들어, 사용자들(Ul, U2, U3, 및 U4)은 복수-사용자 비디오 화상회의에서 서로 상호대화할 수 있는바, 이 경우 각각의 클라이언트 디바이스들(110, 120, 130, 및 140)은 서로에게 미디어 스트림들을 전송한다.
다양한 구현예들에서, 미디어 스트림들은 상이한 타입의 미디어 스트림들(예를 들어, 하나 이상의 비디오 스트림들 및/또는 하나 이상의 오디오 스트림들)을 포함할 수 있다. 예를 들어, 이러한 미디어 스트림들은 사용자들(Ul, U2, U3, 및 U4)을 디스플레이하는 비디오 스트림들을 포함할 수 있고, 아울러 관련된 오디오 스트림들을 포함할 수 있다. 또한, 미디어 스트림들은 각각의 클라이언트 디바이스(110, 120, 130, 및 140)에 대해 서로 다른 방향으로 전송되는 미디어 스트림들(예를 들어, 하나 이상의 발신 스트림들 및/또는 하나 이상의 착신 스트림들)을 포함할 수 있다.
도 2는 일부 구현예들에 따른 비디오 화상회의 동안 참가자의 외모를 수정하기 위한 예시적인 간략화된 흐름도를 나타낸다. 도 1 및 도 2를 모두 참조하면, 블록(202)에서 방법이 개시되는바, 블록(202)에서 시스템(102)은 미디어 스트림으로부터 적어도 하나의 프레임을 획득하는데, 여기서 적어도 하나의 프레임은 사용자의 얼굴을 포함한다. 다양한 구현예들에서, 사용자는 비디오 화상회의의 참가자일 수 있다. 이러한 경우, 미디어 스트림은 비디오 화상회의와 관련된 비디오 스트림일 수 있다.
본 명세서에서 설명되는 다양한 구현예들에서, 용어 "얼굴(face)" 및 어구 "얼굴의 이미지(image)"는 상황에 따라 상호교환가능하게 사용될 수 있다. 예를 들어, 일부 상황에서(예를 들어, 미디어 스트림 프레임의 경우), 얼굴에 대한 언급은 프레임 내의 사용자의 얼굴의 이미지를 말하는 것일 수 있다. 어떤 상황에서는, 얼굴에 대한 언급은 "사용자의 얼굴"에서와 같이 실제 얼굴을 말하는 것일 수 있다.
도 3은 일부 구현예들에 따른 예시적인 간략화된 사용자 인터페이스(300)를 나타낸다. 사용자 인터페이스(300)는 복수의 동시 참가자들이 음성, 타이핑방식 채팅(typed chat), 및 비디오를 통해 통신할 수 있도록 하는 멀티-웨이 비디오 화상회의 플랫폼(multi-way video conferencing platform)의 실시형태를 보여준다. 사용자 인터페이스(300)는 가장 눈에 띄는 위치(대형 비디오 피드(large video feed))에 제시되는 현재 말하고 있는 화자(speaker)의 표현(representation) 및 컨셉(concept), 그리고 모든 참가자의 썸네일(thumbnail)들을 제시하는 필름 스트립(film strip)을 시각적으로 나타내는 것에 중점을 둘 수 있다. 제시되는 바와 같이, 사용자(U3)는 비디오 화상회의에서의 수 명의 참가자들 중 하나이며, 사용자(U3)는 현재 말하고 있는 화자다. 사용자 인터페이스는 또한 타이핑방식 대화의 채팅 로그(chat log)를 포함하는 채팅 윈도우(chat window)를 디스플레이할 수 있다.
본 명세서에서 설명되는 다양한 구현예들은 미디어 스트림의 단일 프레임의 상황에서 설명된다. 이러한 구현예들은 또한 미디어 스트림의 복수 프레임들에 적용된다. 예를 들어, 앞서 언급된 바와 같이, 소정의 미디어 스트림은 비디오 화상회의와 관련된 비디오 스트림일 수 있다. 이러한 경우, 시스템(102)은 도 2에서와 같은 다양한 방법 구현예들에 따라, 비디오 스트림의 복수의 프레임들을 획득할 수 있고, 일련의 프레임들의 각각의 프레임에서의 소정의 얼굴의 이미지를 프로세싱할 수 있다.
도 2 및 도 3을 모두 참조하면, 블록(204)에서, 시스템(102)은 적어도 하나의 프레임 내에서의 좌표들을 결정한다. 다양한 구현예들에서, 좌표들은 사용자(예를 들어, 사용자(U3))의 얼굴(302)의 위치들에 대응하고, 그리고/또는 사용자의 얼굴의 일부분들(예를 들어, 눈, 코, 입 등)에 대응한다. 예시적 설명을 용이하게 하기 위해, 사용자(U3)의 간략화된 머리(head)가 제시된다.
일부 구현예들에서, 시스템(102)은 프레임 내에서의 좌표들을 결정하기 위해 얼굴 인식 알고리즘 혹은 소프트웨어를 사용할 수 있다. 좌표들은 소정의 프레임에서의 사용자의 얼굴(예를 들어, 비디오 화상회의에서의 참가자의 얼굴 등)의 좌표들을 포함할 수 있고, 사용자의 얼굴의 요소들(예를 들어, 눈, 코, 귀 등)의 좌표들을 또한 포함할 수 있다.
아래에서 보다 상세히 설명되는 봐와 같이, 시스템(102)은 소셜 네트워크 시스템의 사용자들로 하여금 개인적 정보의 사용을 특정 및/또는 허락할 수 있게 하는데, 이것은 시스템(102)이 사진(photo)들 내에서의 이들의 얼굴들을 사용하는 것, 또는 사진들 내에서 식별된 사람들을 인식함에 있어 이들의 아이덴티티 정보(identity information)를 사용하는 것을 포함할 수 있다. 일부 구현예들에서, 시스템(102)은 참가자의 입이 열렸는지, 닫혔는지, 미소를 짓고 있는지, 등을 결정하기 위해, 참가자가 눈을 뜨고 있는지 혹은 감고 있는지 등을 결정하기 위해, 뿐만 아니라 얼굴의 다른 특징들을 결정하기 위해 얼굴 인식 소프트웨어를 사용할 수 있다. 일부 구현예들에서, 시스템(102)은 특정 위치들 및/또는 얼굴 요소들의 서로에 대한 거리들, 등에 관한 정보를 포함하는 얼굴 라이브러리(facial library)에 좌표들과 관련된 정보를 저장할 수 있다.
블록(206)에서, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 획득한다. 보다 더 상세히 설명되는 바와 같이, 시스템(102)은 사용자의 얼굴을 하나 이상의 미디어 콘텐츠 아이템들로 대체할 수 있다.
일부 구현예들에서, 하나 이상의 미디어 콘텐츠 아이템들은 대체 얼굴을 포함할 수 있다. 다양한 구현예들에서, 대체 얼굴은 시스템(102)이 사용자의 실제 얼굴의 이미지에 대해 대체하기 위해 사용할 수 있는 얼굴의 이미지이다. 다양한 구현예들에서, 대체 얼굴은 사용자의 얼굴(예를 들어, 비디오회의 참가자의 얼굴)과는 다른 것일 수 있다.
일부 구현예들에서, 대체 얼굴은 사용자의 얼굴의 만화 형상과 관련될 수 있다. 예를 들어, 도 3에 제시된 바와 같이, 만화 얼굴인 미디어 콘텐츠 아이템(304)은 대체 얼굴일 수 있다. 일부 구현예들에서, 대체 얼굴은 임의의 아바타와 관련될 수 있다. 일부 구현예들에서, 사용자는 다양한 대체 얼굴들 중에서 대체 얼굴을 선택할 수 있다. 일부 구현예들에서, 대체 얼굴은 사용자와는 다른 사람과 관련될 수 있다. 예를 들어, 도 3에 제시된 바와 같이, 사용자(U3)의 얼굴과는 다른 미디어 콘텐츠 아이템(306)이 대체 얼굴일 수 있다. 예를 들어, 대체 얼굴은 특정 유명인사의 얼굴일 수 있다. 일부 구현예들에서, 다양한 대체 얼굴들은 참가자를 익명화시키기 위해 사용될 수 있다.
일부 구현예들에서, 참가자는 유명인사, 만화, 아바타 등의 얼굴을 스캔(scan)할 수 있고, 그 다음에 이 얼굴을 소셜 네트워크 시스템에 업로드(upload)할 수 있다. 예시적 설명을 용이하게 하기 위해, 용어 "얼굴"이 사용되고 있음에 유의해야 한다. 다양한 구현예들에서, 용어 "얼굴"은 얼굴 혹은 대체 얼굴과 관련된 다양한 실시형태들 및 시각들을 나타낼 수 있다. 예를 들어, 용어 "얼굴"은 또한 얼굴의 요소들 및 일부분들(예를 들어, 눈, 코, 입, 얼굴의 특징, 등), 얼굴 주변에 있는 요소들 및 요소들의 일부분들(예를 들어, 귀, 목, 등), 몸의 털 요소들(예를 들어, 머리를 덮고 있는 머리카락, 눈썹, 콧수염, 턱수염, 등)을 포함할 수 있다. 또한, 얼굴과 관련된 구현예들은 이러한 다양한 요소들 및 일부분들에도 적용되고, 뿐만 아니라 인물 그림에서와 같이 어깨 및 가슴 영역과 같은 얼굴과 함께 수반될 수 있는 다른 신체 부분들에도 적용되며, 그리고 팔, 손 등에도 적용된다.
다양한 구현예들에서, 시스템(102)은 또한 하나 이상의 미디어 콘텐츠 아이템들 각각과 관련된 하나 이상의 파라미터들을 획득할 수 있다. 다양한 구현예들에서, 하나 이상의 파라미터들은 하나 이상의 미디어 콘텐츠 아이템들과 관련되게 된다. 예를 들어, 만약 미디어 콘텐츠 아이템이 얼굴이거나 대체 얼굴이라며, 하나 이상의 파라미터들은 얼굴의 크기 및 치수, 얼굴의 형상, 얼굴의 요소들과 관련될 수 있고 이러한 것들을 정의할 수 있으며, 그리고/또는 얼굴 등과 관련될 수 있다.
다양한 구현예들에서, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 획득할 수 있고, 그리고/또는 미디어 콘텐츠 아이템과 관련된 하나 이상의 파라미터들을 임의의 적절한 저장 위치(예를 들어, 로컬 메모리(local memory))로부터 획득할 수 있다.
블록(208)에서, 시스템(102)은 좌표들에 적어도 부분적으로 근거하여 하나 이상의 미디어 콘텐츠 아이템들을 적어도 하나의 프레임에 추가한다. 예를 들어, 도 3의 미디어 콘텐츠 아이템(304)이 프레임에 추가될 수 있고, 그럼으로써 사용자(U3)의 얼굴(302)이 대체되게 된다. 앞서 언급된 바와 같이, 본 명세서에서는 다양한 구현예들이 단일 프레임의 상황에서 설명되고 있지만, 이러한 구현예들은 또한 복수 프레임들(예를 들어, 애니메이션 프레임들(animated frames) 등)에 적용된다. 예를 들어, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 프레임들의 스트림 혹은 일련의 프레임들(예를 들어, 도 3에서 제시되는 바와 같은, 비디오 스트림에서의 일련의 프레임들)에 추가할 수 있다.
일부 구현예들에서, 미디어 콘텐츠 아이템을 추가하는 것은 시스템(102)이 프레임의 일부분 상에 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 것을 포함할 수 있다. 다양한 구현예들에서, 이러한 오버레이시키는 것은 프레임 내에서의 좌표들에 근거하며, 그리고 하나 이상의 미디어 콘텐츠 아이템들과 관련된 파라미터들에 또한 근거한다. 일부 구현예들에서, 미디어 콘텐츠 아이템을 추가하는 것은 시스템(102)이 프레임의 일부분을 하나 이상의 미디어 콘텐츠 아이템들로 교체하는 것을 포함할 수 있다. 다양한 구현예들에서, 이러한 교체하는 것은 프레임 내에서의 좌표들에 근거하며, 그리고 하나 이상의 미디어 콘텐츠 아이템들과 관련된 파라미터들에 근거한다.
예를 들어, 시스템(102)은 사용자의 얼굴의 상이한 부분들이 프레임 내에서 어디에 위치하는지를 (예를 들어, 좌표들을 사용하여) 결정할 수 있다. 그 다음에, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들의 파라미터들을 결정할 수 있다(예를 들어, 눈, 코, 입, 등). 그 다음에, 시스템(102)은 사용자의 얼굴의 일부분 혹은 사용자의 전체 얼굴을 하나 이상의 미디어 콘텐츠 아이템들로 대체할 수 있다. 결과적으로, 하나 이상의 미디어 콘텐츠 아이템들을 프레임에 추가함으로써 사용자의 얼굴이 대체 얼굴로 교체되는 결과가 일어날 수 있다. 또 다른 예의 경우, 비디오 화상회의에서, 시스템(102)은 비디오 스트림에서의 소정의 사용자의 얼굴을 대체 얼굴(예를 들어, 아바타, 만화 얼굴, 등)로 대체할 수 있다. 다양한 구현예들에서, 사용자/비디오 화상회의 참가자는 사용자 선택에 따라 참가자의 화상 혹은 외모가 다양한 특정 대체 얼굴들로 나타나도록 선택을 할 수 있다.
일부 구현예들에서, 시스템(102)은 스크린 상의 대체 얼굴이 사용자를 따르도록 이동시키기 위해 얼굴 추적 알고리즘을 사용할 수 있다. 예를 들어, 만약 사용자가 비디오 카메라의 한쪽으로(예를 들어, 뷰어(viewer)의 우측으로) 움직이면, 시스템(102)은 하나 이상의 미디어 콘텐츠 아이템들을 적절하게(예를 들어, 뷰어의 우측에) 추가하기 위해 좌표에서의 변화를 추적한다. 일부 구현예들에서, 시스템(102)은 그에 맞게 대체 얼굴을 스케일링(scaling)할 수 있다. 예를 들어, 만약 사용자가 비디오 카메라에 대한 거리를 변경시킨다면(예를 들어, 비디오 카메라에 더 가깝게 움직인다면), 시스템(102)은 좌표에서의 변화를 추적하고, 그에 맞게 하나 이상의 미디어 콘텐츠 아이템들을 수정 및 추가한다(예를 들어, 변하는 좌표에 매칭(match)되도록 하나 이상의 미디어 콘텐츠 아이템들을 확대시키는 것).
일부 구현예들에서, 시스템(102)은 참가자가 존재함이 없이 참가자의 환경의 배경을 캡처(capture)할 수 있다. 이것은 이후 참가자의 얼굴을 대체 얼굴로 대체할 때 시스템(102)을 용이하게 한다. 예를 들어, 시스템(102)은 배경을 유지시킨 상태에서 참가자 얼굴을 잘라내고 대체 얼굴을 삽입할 수 있다.
다양한 구현예들에서, 오디오 스트림은 대체 얼굴의 입과 같은 얼굴의 일부분들 및/또는 요소들이 움직이도록 하기 위해 사용될 수 있다. 일부 구현예들에서, 오디오 스트림은 참가자가 발설하는 단어들 및 소리들에 대응할 수 있다. 일부 구현예들에서, 시스템(102)은 적어도 하나의 미디어 콘텐츠 아이템과 관련된 적어도 하나의 오디오 콘텐츠 아이템을 획득한다. 일부 구현예들에서, 만약 오디오 콘텐츠 아이템이 특정 유명인사의 얼굴이라면, 오디오 콘텐츠는 그 특정 유명인사의 음성의 특징들(예를 들어, 피치(pitch), 음질(quality), 등)을 포함할 수 있다. 일부 구현예들에서, 시스템(102)은 오디오 콘텐츠 아이템을 미디어 스트림에 추가할 수 있다. 일부 구현예들에서, 시스템(102)은 오디오 콘텐츠 아이템을 미디어 스트림에 혼합(mix)시킬 수 있다. 일부 구현예들에서, 시스템(102)은 미디어 스트림의 적어도 일부분을 오디오 콘텐츠 아이템으로 교체할 수 있다. 결과적으로, 참가자가 단어들 혹은 소리들을 발설함에 따라, 시스템(102)은 사용자에 의해 발설된 것이기는 하지만 특정 유명인사의 음성으로 수정된 동일한 단어들 혹은 소리들을 생성한다.
단계들, 동작들, 혹은 연산들이 특정 순서로 제시될 수 있지만, 이러한 순서는 특정 구현예들에서 변경될 수 있다. 특정 구현예에 따라 다른 순서의 단계들이 가능하다. 일부 특정 구현예들의 경우, 본 명세서에서 순차적으로 제시되는 복수의 단계들은 동시에 수행될 수 있다. 또한, 일부 구현예들은 제시되는 모든 단계들을 갖지 않을 수 있으며, 그리고/또는 본 명세서에서 제시되는 것들 대신에 혹은 이에 추가하여 다른 단계들을 가질 수 있다.
시스템(102)이 본 명세서의 구현예들에서 설명되는 바와 같은 단계들을 수행하는 것으로 설명되고 있지만, 시스템(102)의 컴포넌트들 중 임의의 적절한 컴포넌트 혹은 시스템(102)의 컴포넌트들의 임의의 적절한 조합, 또는 시스템(102)과 관련된 임의의 적절한 프로세서 혹은 프로세서들이 본 명세서에서 설명되는 단계들을 수행할 수 있다.
본 명세서에서 설명되는 구현예들은 다양한 혜택들을 제공한다. 예를 들어, 본 구현예들은 참가자들로 하여금 서로 재미있게 상호대화할 수 있게 한다. 본 구현예들은 비디오 화상회의에서의 참가자들이 익명화될 수 있게 한다. 본 명세서에서 설명되는 구현예들은 소셜 네트워킹 환경에서 말단-사용자들 간의 전체적인 참여(engagement)를 증가시킨다.
도 4는 본 명세서에서 설명되는 구현예들을 구현하기 위해 사용될 수 있는 예시적인 서버 디바이스(400)의 블록도를 나타낸다. 예를 들어, 서버 디바이스(400)는 도 1의 서버 디바이스(104)를 구현하기 위해 사용될 수 있을 뿐만 아니라 본 명세서에서 설명되는 방법 구현예들을 수행하기 위해 사용될 수 있다. 일부 구현예들에서, 서버 디바이스(400)는 프로세서(402), 오퍼레이팅 시스템(operating system)(404), 메모리(406), 및 입력/출력(Input/Output)(I/O) 인터페이스(408)를 포함한다. 서버 디바이스(400)는 또한, 소셜 네트워크 엔진(410), 및 미디어 애플리케이션(412)을 포함하며, 이들은 메모리(406) 내에 저장될 수 있거나 혹은 임의의 다른 적절한 저장 위치나 컴퓨터-판독가능 매체 상에 저장될 수 있다. 미디어 애플리케이션(412)은 프로세서(402)로 하여금 본 명세서에서 설명되는 기능들 및 다른 기능들을 수행할 수 있게 하는 명령들을 제공한다.
예시적 설명을 용이하게 하기 위해, 도 4에서는 프로세서(402), 오퍼레이팅 시스템(404), 메모리(406), I/O 인터페이스(408), 소셜 네트워크 엔진(410) 및 미디어 애플리케이션(412) 각각이 하나의 블록으로 제시되어 있다. 이러한 블록들(402, 404, 406, 408, 410, 및 412)은 복수의 프로세서들, 오퍼레이팅 시스템들, 메모리들, I/O 인터페이스들, 소셜 네트워크 엔진들, 및 미디어 애플리케이션들을 나타낼 수 있다. 다른 구현예들에서, 서버 디바이스(400)는 제시된 컴포넌트들을 모두 갖지 않을 수 있고, 그리고/또는 본 명세서에서 제시되는 것들 대신에 혹은 이에 추가하여 다른 타입의 요소들을 포함하는 다른 요소들을 가질 수 있다.
다양한 구현예들에서, 시스템(102)은 미디어 내에서 얼굴들, 랜드마크들(landmarks), 오브젝트들(objects), 등을 인식하기 위해 다양한 인식 알고리즘들을 이용할 수 있다. 이러한 인식 알고리즘들은 시스템(102)에 통합될 수 있다. 시스템(102)은 또한, 시스템(102)의 외부에 있으며 시스템(102)이 액세스하는 소프트웨어에 의해 제공되는 인식 알고리즘들에 액세스할 수 있다.
다양한 구현예들에서, 시스템(102)은 소셜 네트워크 시스템의 사용자들로 하여금 개인적 정보의 사용을 특정 및/또는 허락할 수 있게 하는데, 이것은 시스템(102)이 사진들 내에서의 이들의 얼굴들을 사용하는 것, 또는 사진들 내에서 식별된 사람들을 인식함에 있어 이들의 아이덴티티 정보를 사용하는 것을 포함할 수 있다. 예를 들어, 시스템(102)은 개인적 정보의 사용을 특정 및/또는 허락하는 것에 관한 복수의 선택들을 사용자들에게 제공할 수 있다. 예를 들어, 이러한 특정 및/또는 허락하는 것에 관한 선택들은 개개의 사진들, 모든 사진들, 개개의 사진 앨범들, 모든 사진 앨범들 등과 관련될 수 있다. 이러한 선택들은 다양한 방식으로 구현될 수 있다. 예를 들어, 시스템(102)은 버튼(button)들 혹은 체크 박스(check box)들이 다양한 선택들 옆에 디스플레이되도록 할 수 있다. 일부 구현예들에서, 시스템(102)은 소셜 네트워크의 사용자들로 하여금 일반적으로 얼굴 인식을 위해 이들의 사진들을 사용하는 것의 용도를 특정 및/또는 허락할 수 있게 한다. 얼굴들 및 다른 오브젝트들을 인식하기 위한 예시적인 구현예들이 아래에서 보다 상세히 설명된다.
다양한 구현예들에서, 시스템(102)은 소셜 네트워크 시스템의 사용자들의 참조 이미지(reference image)들을 획득하며, 여기서 각각의 참조 이미지는 임의의 알려진 사용자와 관련된 얼굴의 이미지를 포함한다. 시스템(102)이 사용자의 아이덴티티 정보(예를 들어, 사용자의 이름 및 다른 프로필 정보와 같은 것)을 갖는 경우, 사용자는 알려진 사용자이다. 일부 구현예들에서, 참조 이미지는 예를 들어, 사용자가 업로드한 프로필 이미지일 수 있다. 일부 구현예들에서, 참조 이미지는 일 그룹의 참조 이미지들의 복합체에 근거할 수 있다.
일부 구현예들의 경우, 사진 내에서 얼굴을 인식하기 위해, 시스템(102)은 얼굴(즉, 얼굴의 이미지)을 소셜 네트워크 시스템의 사용자들의 참조 이미지들과 비교할 수 있음과 아울러 해당 얼굴을 이러한 참조 이미지들에 매칭시킬 수 있다. 용어 "얼굴" 및 어구 "얼굴의 이미지"는 상호교환가능하게 사용됨에 유의해야 한다. 예시적 설명을 용이하게 하기 위해, 본 명세서에서 설명되는 예시적인 구현예들 중 일부에서는 하나의 얼굴의 인식이 설명된다. 이러한 구현예들은 또한, 인식될 복수의 얼굴들 중 각각의 얼굴에 적용될 수 있다.
일부 구현예들에서, 시스템(102)은 사진 내에서의 얼굴과 유사한 임의의 하나 이상의 참조 이미지들을 식별하기 위해 참조 이미지들을 검색할 수 있다. 일부 구현예들의 경우, 소정의 참조 이미지에 대해서, 시스템(102)은 분석을 위해 사진 내에서의 얼굴의 이미지로부터 특징들을 추출할 수 있고, 그 다음에 이러한 특징들을 하나 이상의 참조 이미지들의 특징들과 비교할 수 있다. 예를 들어, 시스템(102)은 얼굴 특징들(예를 들어, 눈, 코, 광대뼈, 입, 턱 등)의 상대적 위치, 크기, 및/또는 형상을 분석할 수 있다. 일부 구현예들에서, 시스템(102)은 사진 내에서의 얼굴을 매칭되는 혹은 유사한 특징들을 갖는 하나 이상의 참조 이미지들에 매칭시키기 위해 분석으로부터 수집된 데이터를 사용할 수 있다. 일부 구현예들에서, 시스템(102)은 복수의 참조 이미지들을 정규화(normalize)할 수 있고, 이러한 이미지들로부터의 얼굴 데이터를 정보(예를 들어, 얼굴 특징 데이터)를 갖는 복합 표현으로 압축할 수 있으며, 그 다음에 얼굴 인식을 위해 사진 내에서의 얼굴을 이러한 복합 표현과 비교할 수 있다.
어떤 시나리오들에서, 사진 내의 얼굴은 동일한 사용자와 관련된 복수의 참조 이미지들과 유사할 수 있다. 이러한 경우, 사진 내의 얼굴과 관련된 사람이 참조 이미지들과 관련된 사람과 동일한 사람일 확률은 매우 높게 된다.
어떤 시나리오들에서, 사진 내의 얼굴은 다양한 사용자들과 관련된 복수의 참조 이미지들과 유사할 수 있다. 이러한 경우, 사진 내의 사람이 참조 이미지들과 관련된 임의의 소정의 사람과 매칭될 확률은 적절히 높기는 하지만 감소될 것이다. 이러한 상황을 처리하기 위해, 시스템(102)은 다양한 타입의 얼굴 인식 알고리즘들을 사용할 수 있고 이에 따라 가능한 범위를 좁힐 수 있고 이상적으로는 하나의 최상의 후보까지 좁힐 수 있게 된다.
예를 들어, 일부 구현예들에서, 얼굴 인식을 용이하게 하기 위해, 시스템(102)은 특징 구분에 기반을 둔 기하학적 얼굴 인식 알고리즘들을 사용할 수 있다. 시스템(102)은 또한, 측광 알고리즘들(photometric algorithms)을 사용할 수 있는 바, 이러한 측광 알고리즘들은 얼굴 특징에서 비교를 위한 값들을 추출해 내는 통계적 접근법(statistical approach)에 기반을 두고 있다. 사진 내의 얼굴을 하나 이상의 참조 이미지들과 비교할 때 기하학적 접근법과 측광 접근법의 조합이 또한 사용될 수 있다.
다른 얼굴 인식 알고리즘들이 사용될 수 있다. 예를 들어, 시스템(102)은 주 성분 분석(principal component analysis), 선형 판별 분석(linear discriminate analysis), 일레스틱 번치 그래프 매칭(Elastic Bunch Graph Matching, EBGM), 은닉 마르코브 모델(Hidden Markov Models, HMM), 및 동적 링크 매칭(dynamic link matching) 중 하나 이상을 사용하는 얼굴 인식 알고리즘들을 사용할 수 있다. 시스템(102)이 다른 알려진 혹은 이후에 개발되는 얼굴 인식 알고리즘들, 기법들 및/또는 시스템들을 사용할 수 있음을 이해해야 할 것이다.
일부 구현예들에서, 시스템(102)은 사진 내의 얼굴이 소정의 참조 이미지와 매칭될 가능성(혹은 확률)을 표시하는 출력을 발생시킬 수 있다. 일부 구현예들에서, 이러한 출력은 사진 내의 얼굴이 소정의 참조 이미지와 매칭될 신뢰도와 관련된 퍼센티지와 같은 그러한 메트릭(metric)(혹은 수치적 값)으로서 표현될 수 있다. 예를 들어, 1.0의 값은 100% 매칭 신뢰도를 나타낼 수 있다. 예를 들어, 이것은 비교되는 이미지들이 동일하거나 혹은 거의 동일한 경우 일어날 수 있다. 이 값은 매칭 가능성이 50%인 경우 더 낮을 수 있는바, 예를 들어, 0.5일 수 있다. 다른 타입의 출력들이 가능하다. 예를 들어, 일부 구현예들에서, 출력은 매칭에 대한 신뢰도 점수일 수 있다.
본 명세서의 설명이 특정 실시예들에 관해 기술되고 있지만, 이러한 특정 실시예들은 단지 예시적인 것이며 한정의 의미를 갖지 않는다. 이러한 예들에서 제시되는 개념들은 다른 예들 및 구현예들에 적용될 수 있다.
본 개시내용에서 설명되는 기능적 블록들, 방법들, 디바이스들, 및 시스템들은 본 발명의 기술분야에서 숙련된 자들에게 알려져 있는 바와 같이, 통합될 수 있거나 또는, 시스템들, 디바이스들, 및 기능적 블록들의 다양한 조합들로 분할될 수 있다.
특정 실시예들의 루틴(routine)들을 구현하기 위해 임의의 적절한 프로그래밍 언어들 및 프로그래밍 기법들이 사용될 수 있다. 절차형 혹은 객체-지향형과 같은 다양한 프로그래밍 기법들이 사용될 수 있다. 루틴들은 단일 프로세싱 디바이스 상에서 실행될 수 있거나 혹은 복수의 프로세서들 상에서 실행될 수 있다. 단계들, 동작들, 혹은 연산들이 특정 순서로 제시될 수 있지만, 이러한 순서는 다양한 특정 실시예들에서 변경될 수 있다. 일부 특정 실시예들의 경우, 본 명세서에서 순차적으로 제시된 복수의 단계들은 동시에 수행될 수 있다.
"프로세서(processor)"는 데이터, 신호들 혹은 다른 정보를 프로세싱하는 임의의 적절한 하드웨어 및/또는 소프트웨어 시스템, 메커니즘, 혹은 컴포넌트를 포함한다. 프로세서는 범용 중앙 처리 장치를 갖는 시스템, 복수의 프로세싱 장치들을 갖는 시스템, 기능 달성을 위한 전용 회로를 갖는 시스템, 혹은 다른 시스템들을 포함할 수 있다. 프로세싱은 지리적 위치에 한정될 필요는 없으며, 또는 시간적 제약을 가질 필요도 없다. 예를 들어, 프로세서는 "실시간(real-time)"으로, "오프라인(offline)"으로, "일괄 모드(batch mode)"로, 기타 등등으로 프로세서의 기능들을 수행할 수 있다. 프로세싱의 일부분들은 상이한 시간에 상이한 위치에서 상이한(혹은 동일한) 프로세싱 시스템들에 의해 수행될 수 있다. 컴퓨터는 메모리와 통신하는 임의의 프로세서일 수 있다. 메모리는 임의의 적절한 프로세서-판독가능 저장 매체일 수 있는바, 예컨대 랜덤-액세스 메모리(Random-Access Memory, RAM), 판독-전용 메모리(Read-Only Memory, ROM), 자기 혹은 광학 디스크, 또는 프로세서에 의해 실행되는 명령들을 저장하는데 적합한 다른 유형의 매체들(tangible media)일 수 있다.

Claims (21)

  1. 비디오 화상회의 동안 사용하기 위한 방법으로서, 상기 방법은:
    미디어 스트림(media stream)으로부터 적어도 하나의 프레임(frame)을 획득하는 단계 ― 상기 적어도 하나의 프레임은 사용자의 제 1 얼굴(face)의 이미지(image)를 포함함 ―;
    얼굴 인식 알고리즘(facial recognition algorithm)을 사용하여, 상기 제 1 얼굴의 좌표(coordinate)들을 포함하는, 상기 적어도 하나의 프레임 내의 복수의 제 1 좌표들을 결정하는 단계;
    적어도 하나의 대체 얼굴을 포함하는 적어도 하나의 미디어 콘텐츠 아이템(media content item)을 획득하는 단계 ― 상기 대체 얼굴은 상기 제 1 얼굴의 만화 형상(cartoon version)과 관련됨 ―;
    상기 복수의 좌표들에 근거하여 상기 적어도 하나의 미디어 콘텐츠 아이템을 상기 적어도 하나의 프레임에 추가하는 단계 ― 상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 단계는, 상기 적어도 하나의 프레임 상에 상기 적어도 하나의 미디어 콘텐츠 아이템을 오버레이(overlay)시키는 단계 및 상기 적어도 하나의 프레임의 적어도 부분을 상기 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 단계 중 하나 이상을 포함함 ―;
    상기 사용자의 이동을 따르거나 또는 그에 맞게 상기 대체 얼굴을 스케일링하기 위해 상기 미디어 스트림 내의 프레임들 사이의 상기 복수의 좌표들에서의 변화들을 추적하는 단계;
    상기 제 1 얼굴의 만화 형상과 관련된 음성 특징들(voice characteristics)에 근거해서 상기 사용자로부터의 오디오에 대한 수정(modification)을 나타내는 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 단계 ― 상기 음성 특징들은 피치(pitch) 및 음질(quality) 중 적어도 하나를 포함함 ―; 및
    상기 적어도 하나의 오디오 콘텐츠 아이템(audio content item)을 상기 미디어 스트림에 추가하는 단계
    를 포함하는,
    비디오 화상회의 동안 사용하기 위한 방법.
  2. 비디오 화상회의 동안 사용하기 위한 방법으로서, 상기 방법은:
    미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 단계 ― 상기 적어도 하나의 프레임은 사용자의 제 1 얼굴의 이미지임 ―;
    상기 적어도 하나의 프레임 내에서 복수의 좌표들을 결정하는 단계 ― 상기 복수의 좌표들은 상기 제 1 얼굴의 부분들의 좌표들을 포함함 ―;
    대체 얼굴을 포함하는 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 단계;
    상기 적어도 하나의 프레임 내에서 보일 수 있는 상기 제 1 얼굴의 부분들에 대한 상기 대체 얼굴의 부분들을 대체함으로써 상기 복수의 좌표들에 근거하여 상기 적어도 하나의 프레임에 상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 단계;
    상기 대체 얼굴과 관련된 음성 특징들에 근거해서 상기 사용자로부터의 오디오에 대한 수정을 나타내는 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 단계― 상기 음성 특징들은 피치 및 음질 중 적어도 하나를 포함함 ― ; 및
    상기 적어도 하나의 오디오 콘텐츠 아이템을 상기 미디어 스트림에 추가하는 단계
    를 포함하는,
    비디오 화상회의 동안 사용하기 위한 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제2항에 있어서,
    상기 대체 얼굴은 상기 제 1 얼굴과는 다른,
    비디오 화상회의 동안 사용하기 위한 방법.
  7. 제2항에 있어서,
    상기 대체 얼굴은 상기 사용자와는 다른 사람과 관련되는,
    비디오 화상회의 동안 사용하기 위한 방법.
  8. 제2항에 있어서,
    상기 대체 얼굴은 상기 제 1 얼굴의 만화 형상과 관련되는,
    비디오 화상회의 동안 사용하기 위한 방법.
  9. 삭제
  10. 제2항에 있어서,
    상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 단계는,
    상기 적어도 하나의 프레임 상에 상기 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 단계; 및
    상기 적어도 하나의 프레임의 적어도 부분을 상기 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 단계
    중 하나 이상을 포함하는,
    비디오 화상회의 동안 사용하기 위한 방법.
  11. 제2항에 있어서,
    상기 적어도 하나의 오디오 콘텐츠 아이템은 상기 사용자가 발설(utter)한 소리들에 대응하는,
    비디오 화상회의 동안 사용하기 위한 방법.
  12. 비디오 화상회의 동안 사용하기 위한 시스템으로서, 상기 시스템은:
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 의한 실행을 위해 하나 이상의 유형의 매체들(tangible media)에 인코딩(encoding)된 로직(logic)을 포함하고,
    상기 로직은 실행될 때:
    미디어 스트림으로부터 적어도 하나의 프레임을 획득하는 동작 ― 상기 적어도 하나의 프레임은 사용자의 제 1 얼굴의 이미지를 포함함 ―;
    상기 적어도 하나의 프레임 내에서 복수의 제 1 좌표들을 결정하는 동작 ― 상기 복수의 제 1 좌표들은 상기 제 1 얼굴의 부분들의 좌표들을 포함함 ―;
    대체 얼굴을 포함하는 적어도 하나의 미디어 콘텐츠 아이템을 획득하는 동작;
    상기 적어도 하나의 프레임 내에서 보일 수 있는 상기 제 1 얼굴의 부분들에 대한 상기 대체 얼굴의 부분들을 대체함으로써 상기 복수의 좌표들에 근거하여 상기 적어도 하나의 프레임에 상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 동작;
    상기 대체 얼굴과 관련된 음성 특징들에 근거하여 상기 사용자로부터의 오디오에 대한 수정을 나타내는 적어도 하나의 오디오 콘텐츠 아이템을 획득하는 동작― 상기 음성 특징들은 피치 및 음질 중 적어도 하나를 포함함 ―; 및
    상기 미디어 스트림에 상기 적어도 하나의 오디오 콘텐츠 아이템을 추가하는 동작
    을 포함하는 동작들을 수행하도록 동작가능한,
    비디오 화상회의 동안 사용하기 위한 시스템.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 제12항에 있어서,
    상기 대체 얼굴은 상기 제 1 얼굴과는 다른,
    비디오 화상회의 동안 사용하기 위한 시스템.
  17. 제12항에 있어서,
    상기 대체 얼굴은 상기 사용자와는 다른 사람과 관련되는,
    비디오 화상회의 동안 사용하기 위한 시스템.
  18. 제12항에 있어서,
    상기 대체 얼굴은 상기 제 1 얼굴의 만화 형상과 관련되는,
    비디오 화상회의 동안 사용하기 위한 시스템.
  19. 삭제
  20. 제12항에 있어서,
    상기 적어도 하나의 미디어 콘텐츠 아이템을 추가하는 동작은,
    상기 적어도 하나의 프레임 상에 상기 적어도 하나의 미디어 콘텐츠 아이템을 오버레이시키는 동작; 및
    상기 적어도 하나의 프레임의 적어도 부분을 상기 적어도 하나의 미디어 콘텐츠 아이템으로 교체하는 동작
    중 하나 이상을 포함하는,
    비디오 화상회의 동안 사용하기 위한 시스템.
  21. 제2항에 있어서,
    상기 대체 얼굴 및 상기 적어도 하나의 오디오 콘텐츠 아이템은 상기 사용자를 익명으로 만드는,
    비디오 화상회의 동안 사용하기 위한 방법.
KR1020147025624A 2012-03-14 2013-03-13 비디오 화상회의 동안 참가자의 외모 수정 KR101732613B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261610984P 2012-03-14 2012-03-14
US61/610,984 2012-03-14
PCT/US2013/031092 WO2013138531A1 (en) 2012-03-14 2013-03-13 Modifying an appearance of a participant during a video conference
US13/802,241 2013-03-13
US13/802,241 US9060095B2 (en) 2012-03-14 2013-03-13 Modifying an appearance of a participant during a video conference

Publications (2)

Publication Number Publication Date
KR20140129171A KR20140129171A (ko) 2014-11-06
KR101732613B1 true KR101732613B1 (ko) 2017-05-04

Family

ID=49157223

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147025624A KR101732613B1 (ko) 2012-03-14 2013-03-13 비디오 화상회의 동안 참가자의 외모 수정

Country Status (7)

Country Link
US (1) US9060095B2 (ko)
JP (1) JP6259808B2 (ko)
KR (1) KR101732613B1 (ko)
CN (2) CN104170374A (ko)
AU (1) AU2013204970B2 (ko)
DE (1) DE112013001461B4 (ko)
WO (1) WO2013138531A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190081393A (ko) 2017-12-29 2019-07-09 서울과학기술대학교 산학협력단 멀티 레이어 디스플레이 기반 아바타 시스템

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855369B2 (en) * 2012-06-22 2014-10-07 Microsoft Corporation Self learning face recognition using depth based tracking for database generation and update
WO2015130309A1 (en) * 2014-02-28 2015-09-03 Hewlett-Packard Development Company, L.P. Customizable profile to modify an identified feature in video feed
US9277180B2 (en) 2014-06-30 2016-03-01 International Business Machines Corporation Dynamic facial feature substitution for video conferencing
US9204098B1 (en) 2014-06-30 2015-12-01 International Business Machines Corporation Dynamic character substitution for web conferencing based on sentiment
US8954521B1 (en) 2014-07-22 2015-02-10 Google Inc. Management and presentation of notification content
CN104902282B (zh) * 2015-06-04 2018-09-11 深圳市明日空间信息技术有限公司 在视频帧上嵌入水印图片的处理方法及装置
CN105611216B (zh) * 2015-12-31 2018-09-11 北京奇艺世纪科技有限公司 一种美肤视频通话方法和设备
EP3349178A1 (de) 2017-01-17 2018-07-18 Zechner, Stefan Verfahren und vorrichtung zur veränderung der affektiven visuellen information im gesichtsfeld eines benutzers
WO2017220667A1 (de) 2016-06-21 2017-12-28 Stefan Zechner Verfahren und vorrichtung zur veränderung der affektiven visuellen information im gesichtsfeld eines benutzers
CN106331569B (zh) * 2016-08-23 2019-08-30 广州华多网络科技有限公司 即时视频画面中人物脸部变换方法以及系统
CN106534757B (zh) * 2016-11-22 2020-02-28 香港乐蜜有限公司 人脸交换方法、装置、主播终端及观众终端
CN106604147A (zh) * 2016-12-08 2017-04-26 天脉聚源(北京)传媒科技有限公司 一种视频处理方法及装置
CN106686463A (zh) * 2016-12-09 2017-05-17 天脉聚源(北京)传媒科技有限公司 一种视频中的角色替换方法及装置
KR102256110B1 (ko) 2017-05-26 2021-05-26 라인 가부시키가이샤 영상 압축 방법 및 영상 복원 방법
US10573349B2 (en) * 2017-12-28 2020-02-25 Facebook, Inc. Systems and methods for generating personalized emoticons and lip synching videos based on facial recognition
US11012389B2 (en) 2018-05-07 2021-05-18 Apple Inc. Modifying images with supplemental content for messaging
US10681310B2 (en) * 2018-05-07 2020-06-09 Apple Inc. Modifying video streams with supplemental content for video conferencing
WO2019244896A1 (ja) * 2018-06-18 2019-12-26 ソニー株式会社 情報処理システム、情報処理装置及び情報処理方法
US11238885B2 (en) * 2018-10-29 2022-02-01 Microsoft Technology Licensing, Llc Computing system for expressive three-dimensional facial animation
DE102018220880B4 (de) 2018-12-04 2023-06-29 Audi Ag Verfahren und Vorrichtung zum Modifizieren einer Bildanzeige eines Fahrzeuginnenraums bei einem Videotelefonat in einem Fahrzeug sowie ein Kraftfahrzeug
WO2020129959A1 (ja) * 2018-12-18 2020-06-25 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び表示方法
KR20220133249A (ko) 2020-01-30 2022-10-04 스냅 인코포레이티드 온 디맨드로 미디어 콘텐츠 아이템들을 생성하기 위한 시스템
US11356720B2 (en) 2020-01-30 2022-06-07 Snap Inc. Video generation system to render frames on demand
US11991419B2 (en) 2020-01-30 2024-05-21 Snap Inc. Selecting avatars to be included in the video being generated on demand
US11036781B1 (en) 2020-01-30 2021-06-15 Snap Inc. Video generation system to render frames on demand using a fleet of servers
US11284144B2 (en) 2020-01-30 2022-03-22 Snap Inc. Video generation system to render frames on demand using a fleet of GPUs
US10904488B1 (en) 2020-02-20 2021-01-26 International Business Machines Corporation Generated realistic representation of video participants
JP7408486B2 (ja) 2020-05-27 2024-01-05 株式会社日立製作所 証拠保全方法
US11652921B2 (en) 2020-08-26 2023-05-16 Avaya Management L.P. Contact center of celebrities
US11134217B1 (en) * 2021-01-11 2021-09-28 Surendra Goel System that provides video conferencing with accent modification and multiple video overlaying
KR102453323B1 (ko) * 2021-03-22 2022-10-11 강은영 Ai 기반의 개인맞춤형 사용자환경을 제공하는 화상회의방법
GB2606713A (en) 2021-05-13 2022-11-23 Twyn Ltd Video-based conversational interface
US11663750B2 (en) * 2021-06-25 2023-05-30 Hewlett-Packard Development Company, L.P. Image data bars
DE102021118514A1 (de) 2021-07-17 2023-01-19 blue it up GmbH & Co. KG Verfahren zum Schützen mindestens eines Bildobjekts
KR20230063112A (ko) * 2021-11-01 2023-05-09 라인플러스 주식회사 영상 통화 시 바디 이펙트를 제공하는 방법, 장치, 및 컴퓨터 프로그램
WO2023087215A1 (en) * 2021-11-18 2023-05-25 Citrix Systems, Inc. Online meeting non-participant detection and remediation
JP7133257B1 (ja) 2022-01-14 2022-09-08 株式会社キッズプレート プログラム、情報処理方法、情報処理装置、および情報処理システム
US11769233B1 (en) 2022-07-05 2023-09-26 Motorola Solutions, Inc. Random image substitution used for video redaction
DE102023001761A1 (de) 2023-05-02 2024-04-18 Mercedes-Benz Group AG Verfahren zur Durchführung einer Videokonferenz in einem Fahrzeug

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006186933A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0646414A (ja) * 1992-07-23 1994-02-18 Matsushita Electric Ind Co Ltd テレビ電話
JP3970520B2 (ja) * 1998-04-13 2007-09-05 アイマティック・インターフェイシズ・インコーポレイテッド 人間の姿を与えたものを動画化するためのウェーブレットに基づく顔の動きの捕捉
US7139767B1 (en) * 1999-03-05 2006-11-21 Canon Kabushiki Kaisha Image processing apparatus and database
US6807563B1 (en) * 1999-05-21 2004-10-19 Terayon Communications Systems, Inc. Automatic teleconferencing control system
US7106887B2 (en) * 2000-04-13 2006-09-12 Fuji Photo Film Co., Ltd. Image processing method using conditions corresponding to an identified person
JP4291963B2 (ja) * 2000-04-13 2009-07-08 富士フイルム株式会社 画像処理方法
EP1311124A1 (en) * 2001-11-13 2003-05-14 Matsushita Electric Industrial Co., Ltd. Selective protection method for images transmission
JP2004289254A (ja) * 2003-03-19 2004-10-14 Matsushita Electric Ind Co Ltd テレビ電話端末
JP2004312634A (ja) * 2003-04-10 2004-11-04 Nec Corp テレビ電話端末、テレビ電話システム、及びそれらの画面表示設定方法
JP2007279776A (ja) * 2004-07-23 2007-10-25 Matsushita Electric Ind Co Ltd Cgキャラクタエージェント装置
KR101240261B1 (ko) 2006-02-07 2013-03-07 엘지전자 주식회사 이동통신 단말기의 영상 통화 장치 및 방법
US20070230794A1 (en) * 2006-04-04 2007-10-04 Logitech Europe S.A. Real-time automatic facial feature replacement
EP2106664A2 (en) * 2007-01-23 2009-10-07 Euclid Discoveries, LLC Systems and methods for providing personal video services
US8649604B2 (en) * 2007-03-05 2014-02-11 DigitalOptics Corporation Europe Limited Face searching and detection in a digital image acquisition device
EP2201761B1 (en) * 2007-09-24 2013-11-20 Qualcomm Incorporated Enhanced interface for voice and video communications
JP5088161B2 (ja) * 2008-02-15 2012-12-05 ソニー株式会社 画像処理装置、カメラ装置、通信システム、画像処理方法、およびプログラム
CN101626482B (zh) * 2008-07-11 2011-11-09 华为技术有限公司 视频会议实现方法、设备及系统
JP5423379B2 (ja) 2009-08-31 2014-02-19 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
US20120060095A1 (en) * 2010-09-03 2012-03-08 Rovi Technologies Corporation Systems and methods for generating personalized media content embedding images of multiple users
US9088697B2 (en) * 2011-12-13 2015-07-21 Google Inc. Processing media streams during a multi-user video conference
US9088426B2 (en) 2011-12-13 2015-07-21 Google Inc. Processing media streams during a multi-user video conference

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006186933A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190081393A (ko) 2017-12-29 2019-07-09 서울과학기술대학교 산학협력단 멀티 레이어 디스플레이 기반 아바타 시스템

Also Published As

Publication number Publication date
DE112013001461T5 (de) 2014-12-04
CN110677613A (zh) 2020-01-10
WO2013138531A1 (en) 2013-09-19
JP2015516625A (ja) 2015-06-11
JP6259808B2 (ja) 2018-01-10
KR20140129171A (ko) 2014-11-06
CN104170374A (zh) 2014-11-26
US9060095B2 (en) 2015-06-16
DE112013001461B4 (de) 2023-03-23
US20130242031A1 (en) 2013-09-19
AU2013204970A1 (en) 2013-10-03
AU2013204970B2 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
KR101732613B1 (ko) 비디오 화상회의 동안 참가자의 외모 수정
US10621991B2 (en) Joint neural network for speaker recognition
CN110266973B (zh) 视频处理方法、装置、计算机可读存储介质和计算机设备
US11551393B2 (en) Systems and methods for animation generation
US20160134840A1 (en) Avatar-Mediated Telepresence Systems with Enhanced Filtering
US11017575B2 (en) Method and system for generating data to provide an animated visual representation
US20040218827A1 (en) System and method for low bandwidth video streaming for face-to-face teleconferencing
KR20170136538A (ko) 비디오 회의에서의 감정 인식
US11568646B2 (en) Real-time video dimensional transformations of video for presentation in mixed reality-based virtual spaces
EP4073682B1 (en) Generating videos, which include modified facial images
US9286710B2 (en) Generating photo animations
US20230095526A1 (en) Target speaker mode
CN116758189A (zh) 基于语音驱动的数字人图像生成方法、装置及存储介质
Kumar et al. Multi modal adaptive normalization for audio to video generation
JP2020038432A (ja) 画像解析装置、画像解析方法、およびプログラム
Kumar et al. ENHANCED SHARED EXPERIENCES IN HETEROGENEOUS NETWORK WITH GENERATIVE AI
JP2018063352A (ja) フレーム選択装置、フレーム選択方法及びプログラム
Yamazaki et al. Visual-only Voice Activity Detection using Human Motion in Conference Video.
Adversarial Speech-Driven Expressive Talking Lips with Conditional Sequential Generative Adversarial Networks
Akatsuka et al. Estimation of Unmasked Face Images Based on Voice and 3DMM
Chang et al. Virtual Talk: a model-based virtual phone using a layered audio-visual integration
Cai et al. Listen, Disentangle, and Control: Controllable Speech-Driven Talking Head Generation
WO2023049407A1 (en) Target speaker mode
WO2022238908A2 (en) Method and system for virtual 3d communications
Xiong et al. Detection of mouth movements and its applications to cross-modal analysis of planning meetings

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
E902 Notification of reason for refusal
E902 Notification of reason for refusal
GRNT Written decision to grant