KR102443026B1

KR102443026B1 - 가상 아바타 발생 방법 및 장치, 및 저장 매체

Info

Publication number: KR102443026B1
Application number: KR1020207015327A
Authority: KR
Inventors: 팅하오 류; 리천 자오; 취안 왕; 천 첸
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2019-05-15
Filing date: 2020-02-10
Publication date: 2022-09-13
Also published as: TW202046249A; SG11202008025QA; US11403874B2; WO2020228384A1; KR20200132833A; US20200380246A1; JP2021528719A; CN110111246A; CN110111246B

Abstract

본 개시내용은 가상 아바타 발생 방법 및 장치, 및 저장 매체를 제공한다. 방법의 실시예들 중 하나는 적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정하는 단계 - 적어도 하나의 타깃 얼굴 특성은 각각 복수의 미리 정해진 얼굴 특성 중 하나임 -; 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 타깃 태스크에 따라, 적어도 얼굴을 포함하는 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하는 단계; 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정하는 단계; 및 타깃 가상 아바타 템플릿에 기초하여 타깃 영상 상에 가상 아바타를 발생하는 단계를 포함한다.

Description

가상 아바타 발생 방법 및 장치, 및 저장 매체

본 개시내용은 영상 처리의 분야, 및 특히, 가상 아바타 발생 방법 및 장치, 및 저장 매체에 관한 것이다.

얼굴 특징 점 위치설정은 눈가, 입가, 코 끝 등과 같은, 얼굴을 포함하는 화상 상의 많은 미리 정해진 특징 점들의 각각의 위치들의 계산을 참조한다. 현재, 얼굴 특징 점 위치설정은 눈 윤곽 및 입 윤곽과 같은, 얼굴 상의 일부 간단한 특징들을 정할 수 있지만, 더 미세한 특징 정보를 정확하게 위치설정할 수 없다.

이것에 비추어서, 본 개시내용은 가상 아바타 발생 방법 및 장치, 및 저장 매체를 제공한다.

본 개시내용의 실시예들의 제1 양태에 따르면, 적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정하는 단계 - 타깃 얼굴 특성은 복수의 미리 정해진 얼굴 특성 중 하나임 -; 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 타깃 태스크에 따라, 적어도 얼굴을 포함하는 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하는 단계; 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정하는 단계; 및 타깃 가상 아바타 템플릿에 기초하여 타깃 영상 상에 가상 아바타를 발생하는 단계를 포함하는, 가상 아바타 발생 방법이 제공된다.

일부 임의적 실시예들에서, 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하는 단계는 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크를 결정하는 단계; 타깃 신경 네트워크에 의해 출력된 추정된 값들을 획득하기 위해 타깃 영상을 타깃 신경 네트워크 내로 입력하는 단계 - 추정된 값들은 타깃 영상이 타깃 얼굴 특성과 연관된 하나 이상의 얼굴 특성 특징을 갖는 각각의 확률들을 나타냄 -; 및 타깃 얼굴 특성 특징으로서, 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하는 단계를 포함한다.

일부 임의적 실시예들에서, 타깃 얼굴 특성은 적어도 하나의 미리 정해진 서브클래스를 포함하고; 타깃 얼굴 특성 특징으로서 최대 값에 대응하는 얼굴 특성 특징을 취하는 단계는 타깃 얼굴 특성 내에 포함된 적어도 하나의 서브클래스의 제1 서브클래스에 대해, 제1 서브클래스에 대응하는 타깃 얼굴 특성 특징으로서, 제1 서브클래스에 대한 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하는 단계를 포함한다.

일부 임의적 실시예들에서, 타깃 신경 네트워크는 적어도 얼굴을 포함하는 적어도 하나의 샘플 영상을 제1 신경 네트워크 내로 입력함으로써 - 적어도 하나의 샘플 영상 각각은 복수의 미리 정해진 얼굴 특성 중 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징으로 라벨링되고, 제1 신경 네트워크는 제1 얼굴 특성에 대응하는 제1 서브-네트워크를 포함함 -; 그리고 예측된 값으로서, 제1 신경 네트워크에 의해 출력된, 적어도 하나의 샘플 영상 상의 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징을 취하고, 실제 값으로서, 적어도 하나의 샘플 영상 상에 라벨링되는, 제1 얼굴 특성에 대응하는 적어도 하나의 얼굴 특성 특징을 취함으로써 트레이닝되어, 제1 서브-네트워크를 트레이닝하여, 트레이닝 후에 타깃 신경 네트워크를 획득한다.

일부 임의적 실시예들에서, 제1 서브-네트워크는 잔차 신경 네트워크의 네트워크 구조를 갖고 적어도 하나의 잔차 유닛을 포함한다.

일부 임의적 실시예들에서, 적어도 하나의 잔차 유닛 각각은 적어도 하나의 컨볼루션 계층 및 적어도 하나의 배치 정규화 계층(batch normalization layer)을 포함하고; 적어도 하나의 잔차 유닛이 복수의 잔차 유닛을 포함하는 경우에, 복수의 잔차 유닛 중 제2 잔차 유닛은 복수의 잔차 유닛 중 제1 잔차 유닛보다 큰 수의 컨볼루션 계층들 및 큰 수의 배치 정규화 계층들을 포함한다.

일부 임의적 실시예들에서, 제1 서브-네트워크는 출력 세그먼테이션 계층을 추가로 포함하고, 출력 세그먼테이션 계층은 하나 이상의 서브클래스와 각각 연관된 하나 이상의 얼굴 특성 특징에 대한 각각의 추정된 값들을 획득하기 위해, 샘플 영상으로부터 추출된 특징 정보를, 제1 얼굴 특성 내에 포함된 하나 이상의 미리 정해진 서브클래스에 따라, 세그먼트하도록 구성된다.

일부 임의적 실시예들에서, 방법은 정면화된 얼굴 영상을 획득하기 위해 관심있는 영상에 대해 어파인(affine) 변환을 수행하는 단계; 및 타깃 영상 또는 샘플 영상을 획득하기 위해 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립하는 단계를 추가로 포함하고, 타깃 영역은 얼굴 주요 점이 위치하는 영역을 적어도 포함한다. 또한, 임의적으로, 타깃 영역은 타깃 얼굴 특성에 대응하는 얼굴 부분 외부의 프리셋 면적을 갖는 영역을 추가로 포함한다.

본 개시내용의 실시예들의 제2 양태에 따르면, 적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정하도록 구성된 태스크 결정 모듈 - 타깃 얼굴 특성은 복수의 미리 정해진 얼굴 특성 중 하나임 -; 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 타깃 태스크에 따라, 적어도 얼굴을 포함하는 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하도록 구성된 얼굴 특성 분석 모듈; 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정하도록 구성된 가상 아바타 템플릿 결정 모듈; 및 타깃 가상 아바타 템플릿에 기초하여 타깃 영상 상에 가상 아바타를 발생하도록 구성된 아바타 발생 모듈을 포함하는, 가상 아바타 발생 장치가 제공된다.

일부 임의적 실시예들에서, 얼굴 특성 분석 모듈은 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크를 결정하도록 구성된 네트워크 결정 서브-모듈; 타깃 신경 네트워크에 의해 출력된 추정된 값들을 획득하기 위해 타깃 영상을 타깃 신경 네트워크 내로 입력하도록 구성된 추정된 값 결정 서브-모듈 - 추정된 값들은 타깃 영상이 타깃 얼굴 특성과 연관된 하나 이상의 얼굴 특성 특징을 갖는 각각의 확률들을 나타냄 -; 및 타깃 얼굴 특성 특징으로서, 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하도록 구성된 특징 결정 서브-모듈을 포함한다.

일부 임의적 실시예들에서, 타깃 얼굴 특성은 적어도 하나의 미리 정해진 서브클래스를 포함하고; 특징 결정 서브-모듈은 타깃 얼굴 특성 내에 포함된 적어도 하나의 서브클래스의 제1 서브클래스에 대해, 제1 서브클래스에 대응하는 타깃 얼굴 특성 특징으로서, 제1 서브클래스에 대한 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하도록 구성된다.

일부 임의적 실시예들에서, 장치는 트레이닝 모듈을 추가로 포함하고, 트레이닝 모듈은 적어도 얼굴을 포함하는 적어도 하나의 샘플 영상을 제1 신경 네트워크 내로 입력하고 - 적어도 하나의 샘플 영상 각각은 복수의 미리 정해진 얼굴 특성 중 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징으로 라벨링되고, 제1 신경 네트워크는 제1 얼굴 특성에 대응하는 제1 서브-네트워크를 포함함 -; 예측된 값으로서, 제1 신경 네트워크에 의해 출력된, 적어도 하나의 샘플 영상 상의 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징을 취하고, 실제 값으로서, 적어도 하나의 샘플 영상 상에 라벨링되는, 제1 얼굴 특성에 대응하는 적어도 하나의 얼굴 특성 특징을 취하여, 제1 서브-네트워크를 트레이닝하고, 타깃 신경 네트워크로서 트레이닝된 제1 서브-네트워크를 취하도록 구성된다.

일부 임의적 실시예들에서, 적어도 하나의 잔차 유닛 각각은 적어도 하나의 컨볼루션 계층 및 적어도 하나의 배치 정규화 계층을 포함하고; 적어도 하나의 잔차 유닛이 복수의 잔차 유닛을 포함하는 경우에, 복수의 잔차 유닛 중 제2 잔차 유닛은 복수의 잔차 유닛 중 제1 잔차 유닛보다 큰 수의 컨볼루션 계층들 및 큰 수의 배치 정규화 계층들을 포함한다.

일부 임의적 실시예들에서, 제1 서브-네트워크는 출력 세그먼테이션 계층을 포함하고, 출력 세그먼테이션 계층은 하나 이상의 서브클래스와 각각 연관된 하나 이상의 얼굴 특성 특징에 대한 각각의 추정된 값들을 획득하기 위해, 샘플 영상으로부터 추출된 특징 정보를, 제1 얼굴 특성 내에 포함된 하나 이상의 미리 정해진 서브클래스에 따라, 세그먼트하도록 구성된다.

일부 임의적 실시예들에서, 장치는 정면화된 얼굴 영상을 획득하기 위해 관심있는 영상에 대해 어파인 변환을 수행하도록 구성된 얼굴 정면화 처리 모듈; 및 타깃 영상 또는 샘플 영상을 획득하기 위해 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립하도록 구성된 영상 클립 모듈을 추가로 포함하고, 타깃 영역은 얼굴 주요 점이 위치하는 영역을 적어도 포함한다. 또한, 임의적으로, 타깃 영역은 타깃 얼굴 특성에 대응하는 얼굴 부분 외부의 프리셋 면적을 갖는 영역을 추가로 포함한다.

본 개시내용의 실시예들의 제3 양태에 따르면, 제1 양태의 어느 한 항목에 따른 가상 아바타 발생 방법을 구현하는 컴퓨터 프로그램을 저장하는, 컴퓨터 판독가능 저장 매체가 제공된다.

본 개시내용의 실시예들의 제4 양태에 따르면, 프로세서; 및 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리를 포함하는 가상 아바타 발생 장치가 제공되고; 여기서 프로세서는 메모리 내에 저장된 명령어들이 제1 양태의 어느 한 항목에 따른 가상 아바타 발생 방법을 구현하게 하도록 구성된다.

본 개시내용의 실시예들에서, 적어도 얼굴을 포함하는 타깃 영상 상의 얼굴 특성 특징들이 적어도 하나의 얼굴 특성과 연관된 타깃 태스크에 따라 추출될 수 있고, 다음에, 대응하는 타깃 가상 아바타 템플릿이 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 타깃 영상에 대해 결정되고, 가상 아바타는 타깃 가상 아바타 템플릿에 기초한 타깃 영상에 기초하여 발생된다. 적어도 하나의 얼굴 특성과 연관된 타깃 태스크를 통해, 보다 정확한 얼굴 특성 분석이 가상 아바타를 발생하기 위해 적어도 얼굴을 포함하는 영상에 대해 수행됨으로써, 사용자에 대한 풍부한 초기화 얼굴 특성 패턴들을 제공한다.

상기 일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명적이고, 본 개시내용을 제한하려는 것이 아니라는 것을 이해하여야 한다.

명세서 내에 포함되고 명세서의 일부를 구성하는 본원의 첨부 도면들은 본 개시내용에 따른 실시예들을 예시하고 본 개시내용의 원리들을 설명하기 위해 명세서와 함께 사용된다.
도 1은 본 개시내용의 예시적인 실시예에 따른 가상 아바타 발생 방법의 플로우차트이다.
도 2는 본 개시내용의 예시적인 실시예에 따른 가상 아바타 발생의 예시적인 도면이다.
도 3은 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생의 예시적인 도면이다.
도 4는 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생 방법의 플로우차트이다.
도 5는 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생 방법의 플로우차트이다.
도 6은 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생 방법의 플로우차트이다.
도 7은 본 개시내용의 예시적인 실시예에 따른 신경 네트워크의 예시적인 도면이다.
도 8은 본 개시내용의 예시적인 실시예에 따른 가상 아바타 발생 장치의 블록도이다.
도 9는 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생 장치의 블록도이다.
도 10은 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생 장치의 블록도이다.
도 11은 본 개시내용의 예시적인 실시예에 따른 또 하나의 가상 아바타 발생 장치의 블록도이다.
도 12는 본 개시내용의 예시적인 실시예에 따른 가상 아바타 발생 장치의 개략 구조도이다.

예시적인 실시예들이 본원에 상세히 설명될 것이고, 그것의 예들이 첨부 도면들에 나타내진다. 다음의 설명이 첨부 도면들에 관한 것일 때, 달리 표시되지 않는다면, 상이한 첨부 도면들 내의 동일한 번호들은 동일하거나 유사한 요소들을 나타낸다. 다음의 예시적인 실시예들에서 설명된 구현들은 본 개시내용과 일치하는 모든 구현들을 나타내지는 않는다. 반대로, 그들은 첨부된 청구범위에 상세히 설명된 것과 같은 본 개시내용의 일부 양태들과 일치하는 장치들 및 방법들의 예들에 불과하다.

본 개시내용에서의 용어들은 단지 특정한 실시예들을 설명하기 위한 것이고 본 개시내용을 제한하려는 것이 아니다. 본 개시내용 및 첨부된 청구범위 내의 단수 형태들은 또한 다른 의미들이 문맥에서 분명히 나타내지지 않는다면, 복수 형태를 포함하고자 한다. 본 개시내용에서의 용어 "및/또는"은 하나 이상의 연관된 나열된 항목을 포함하는 가능한 조합들의 임의의 것 또는 모두를 참조한다는 것을 또한 이해하여야 한다.

용어들 "제1", "제2", "제3" 등이 다양한 정보를 설명하기 위해 본 개시내용에서 사용되지만, 정보는 이들 용어로 제한되지 않는다는 것을 이해하여야 한다. 이들 용어는 단지 동일한 유형의 정보를 구별하기 위해 사용된다. 예를 들어, 본 개시내용의 범위에서 벗어나지 않고서, 제1 정보는 또한 제2 정보라고 하고, 유사하게 제2 정보는 또는 제1 정보라고 한다. 문맥에 따라, 예를 들어, 본 개시내용에 사용된 "한다면"이란 용어는 "할 때" 또는 "하는 동안", 또는 "결정에 응답하여"로서 설명될 수 있다.

본 개시내용의 실시예들은 아바타(Avatar)와 같은 얼굴-구동 디바이스에 의해 수행될 수 있는, 가상 아바타 발생 방법을 제공한다.

도 1에 도시한 것과 같이, 도 1은 본 개시내용의 실시예들에 따른 가상 아바타 발생 방법의 예이다.

단계 101에서, 적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정한다. 적어도 하나의 타깃 얼굴 특성은 각각 복수의 미리 정해진 얼굴 특성 중 하나이다.

본 개시내용의 실시예들에서, 얼굴 특성은 헤어스타일, 수염, 안경, 눈꺼풀 등을 포함할 수 있지만, 이들로 제한되지 않는다.

얼굴-구동 디바이스는 사용자에 대한 복수의 미리 정해진 얼굴 특성을 제공할 수 있고, 사용자는 자신의 요건들에 따라 이들 얼굴 특성으로부터 분석될 타깃 얼굴 특성을 결정한다. 타깃 태스크는 적어도 하나의 얼굴 특성을 분석할 수 있다. 예를 들어, 타깃 태스크는 헤어스타일을 분석할 수 있거나, 수염, 눈꺼풀 등을 분석할 수 있다.

단계 102에서, 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 타깃 태스크에 따라, 적어도 얼굴을 포함하는 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행한다.

얼굴-구동 디바이스가 카메라에 의해 수집된 타깃 영상에 대해 얼굴 특성 분석을 수행할 때, 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하도록, 타깃 태스크에 대응하는 타깃 얼굴 특성을 단지 분석하는 것이 가능하다.

예를 들어, 타깃 얼굴 특성이 눈꺼풀이라고 가정하면, 눈꺼풀은 홑꺼풀, 가늘어지는 쌍꺼풀, 평행한 쌍꺼풀, 속쌍꺼풀 등을 포함하는 복수의 미리 정해진 특징과 연관될 수 있다. 얼굴-구동 디바이스는 타깃 영상 상의 눈꺼풀에 관한 얼굴 특성 분석을 수행함으로써, 평행한 쌍꺼풀과 같은, 타깃 얼굴 특성 특징을 획득할 수 있다.

단계 103에서, 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정한다.

얼굴-구동 디바이스는 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계를 저장할 수 있다. 예를 들어, 각각의 가상 아바타 템플릿은 적어도 하나의 얼굴 특성 특징에 대응한다. 임의적으로, 가상 아바타 템플릿은 만화 캐릭터 영상을 사용할 수 있다.

얼굴-구동 디바이스는 타깃 얼굴 특성 특징을 결정한 후에, 미리 저장된 가상 아바타 템플릿 라이브러리 내의 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정할 수 있다. 타깃 가상 아바타 템플릿들의 수는 하나 이상일 수 있고, 본 개시내용에서 이로 제한되지 않는다.

단계 104에서, 타깃 가상 아바타 템플릿에 기초하여 타깃 영상 상에 가상 아바타를 발생한다.

아바타와 같은 얼굴-구동 디바이스에서, 타깃 가상 아바타 템플릿은 타깃 영상 상에 발생될 가상 아바타로서 직접 취해질 수 있다.

타깃 가상 아바타 템플릿들의 수가 다수이면, 사용자는 그들 중 하나를 가상 아바타로서 선택하고, 얼굴-구동 디바이스는 타깃 영상 상에 가상 아바타를 발생한다.

예를 들어, 타깃 영상이 도 2에 도시한 것이고, 타깃 태스크가 헤어스타일에 대한 얼굴 특성 분석이라고 가정하면, 발생된 가상 아바타는 도 3의 우상부 모서리에 도시한 것과 같을 수 있다.

전술한 실시예들에서, 적어도 얼굴을 포함하는 타깃 영상 상의 얼굴 특성 특징이 적어도 하나의 얼굴 특성과 연관된 타깃 태스크에 따라 추출될 수 있고, 타깃 영상에 대응하는 타깃 가상 아바타 템플릿이 다음에 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계와 조합하여 결정되고, 가상 아바타는 타깃 가상 아바타 템플릿에 기초한 타깃 영상에 기초하여 발생된다. 그러므로, 보다 정확한 얼굴 특성 분석이 적어도 얼굴을 포함하는 영상에 대해 수행될 수 있고, 따라서, 발생된 가상 아바타는 사용자에 대한 보다 풍부한 초기화 얼굴 특성 패턴들을 제공할 수 있다.

일부 임의적 실시예들에서, 예를 들어, 도 4에 도시한 것과 같이, 단계 102는 다음의 단계들을 포함할 수 있다.

단계 102-1에서, 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크를 결정한다.

본 개시내용의 실시예들에서, 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크는 적어도 하나의 얼굴 특성과 연관된 타깃 태스크에 대해 트레이닝될 수 있다. 타깃 태스크가 수행될 필요가 있을 때, 타깃 신경 네트워크는 후속하는 얼굴 특성 분석을 위해 대응하는 신경 네트워크로서 취해질 수 있다.

단계 102-2에서, 타깃 신경 네트워크에 의해 출력된 추정된 값들을 획득하기 위해 타깃 영상을 타깃 신경 네트워크 내로 입력하고, 여기서, 추정된 값들은 타깃 영상이 타깃 얼굴 특성과 연관된 하나 이상의 얼굴 특성 특징을 갖는 각각의 확률들을 나타낸다.

얼굴-구동 디바이스는 적어도 얼굴을 포함하는 타깃 영상을 타깃 신경 네트워크 내로 입력할 수 있고, 타깃 신경 네트워크는 타깃 영상이 타깃 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징을 갖는 확률들을 나타내는 추정된 값들을 출력한다. 타깃 영상이 소정의 얼굴 특성 특징을 갖는 확률을 나타내는 추정된 값은 또한 얼굴 특성 특징에 대한 추정된 값, 또는 얼굴 특성 특징의 추정된 값으로서 간단히 표현될 수 있다.

예를 들어, 타깃 얼굴 특성이 눈꺼풀이라고 가정하면, 타깃 신경 네트워크는 타깃 영상이 눈꺼풀과 연관된 적어도 하나의 얼굴 특성 특징을 갖는 확률들을 나타내는 추정된 값들을 각각, 표 1에 도시한 것과 같이, 출력할 수 있다.

단계 102-3에서, 타깃 얼굴 특성 특징으로서, 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취한다.

예를 들어, 표 1에 따라, 추정된 값들에서 최대 값 0.6에 대응하는 얼굴 특성 특징, 즉, 가늘어지는 쌍꺼풀이 타깃 얼굴 특성 특징으로서 취해질 수 있다.

일부 임의적 실시예들에서, 위에 언급된 얼굴 특성들은 얼굴 특성들을 보다 정확하게 설명하기 위해, 각각의 얼굴 특성이 각각 포함하는 적어도 하나의 서브클래스를 획득하기 위해 구분될 수 있다. 구분 방식은 표 2에 도시한 방식들을 포함할 수 있지만, 이들로 제한되지 않는다.

또한, 각각의 얼굴 특성의 서브클래스들은 예를 들어, 표 3에 도시한 것과 같이, 적어도 하나의 얼굴 특성 특징을 포함할 수 있다.

본 개시내용에서의 얼굴 특성들의 구분은 위에 설명된 방식들을 포함하지만, 이들로 제한되지 않는다.

본 개시내용의 실시예들에서, 표 3에서의 구분에 따라, 타깃 태스크에 의해 분석될 필요가 있는 타깃 얼굴 특성은 적어도 하나의 미리 정해진 서브클래스를 포함할 수 있다. 예를 들어, 타깃 얼굴 특성이 헤어스타일이면, 얼굴 특성, 헤어스타일은 각각 앞머리, 곱슬머리, 및 머리 길이 등인 3개의 서브클래스들을 포함한다. 각각의 상이한 서브클래스는 적어도 하나의 얼굴 특성 특징을 추가로 포함한다. 각각의 서브클래스와 연관된 모든 얼굴 특성 특징들의 추정된 값들의 합은 1이다. 예를 들어, 곱슬머리의 서브클래스에 대해, 4개의 얼굴 특성 특징들, 즉, 머리가 없음, 직모, 웨이브, 및 곱슬에 각각 대응하는 추정된 값들은 각각 0.1, 0.6, 0.2, 및 0.1일 수 있고, 합은 1이다.

따라서, 전술한 실시예들에서, 타깃 얼굴 특성의 적어도 하나의 서브클래스의 어느 하나에 대해, 타깃 신경 네트워크가 서브클래스와 연관된 적어도 하나의 얼굴 특성 특징의 확률의 추정된 값을 출력한 후에, 얼굴-구동 디바이스는 서브클래스에 대응하는 타깃 얼굴 특성 특징으로서 타깃 신경 네트워크에 의해 출력된 서브클래스에 대한 추정된 값들에서 최대 값에 대응하는 얼굴 특성 특징을 취한다. 예를 들어, 타깃 얼굴 특성이 헤어스타일이라고 가정하면, 서브클래스, 앞머리의 추정된 값들에서 최대 값에 대응하는 얼굴 특성 특징은 앞머리 없음이고; 서브클래스, 곱슬머리의 추정된 값들에서 최대 값에 대응하는 얼굴 특성 특징은 직모이고; 서브클래스, 머리 길이의 추정된 값들에서 최대 값에 대응하는 얼굴 특성 특징은 어깨 길이의 짧은 머리이고, 마지막으로, 얼굴-구동 디바이스는 3개의 서브클래스들, 즉, 앞머리, 곱슬머리, 및 머리 길이에 대응하는 타깃 얼굴 특성 특징들로서, 3개의 얼굴 특성 특징들, 즉, 앞머리 없음, 직모 및 어깨 길이의 짧은 머리를 각각 취할 수 있다.

일부 임의적 실시예들에서, 예를 들어, 도 5에 도시한 것과 같이, 적어도 단계 102를 수행하기 전에, 가상 아바타 발생 방법은 다음의 단계들을 추가로 포함할 수 있다.

단계 100-1에서, 정면화된 얼굴 영상을 획득하기 위해 관심있는 영상에 대해 어파인 변환을 수행한다.

본 개시내용의 실시예들에서, 관심있는 영상은 얼굴을 포함하는 미리 촬영된 영상일 수 있고, 얼굴-구동 디바이스는 관심있는 영상에 대해 어파인 변환을 수행할 수 있음으로써, 관심있는 영상 내의 측면 얼굴을 정면화한다.

단계 100-2에서, 타깃 영상을 획득하기 위해 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립한다.

본 개시내용의 실시예들에서, 얼굴-구동 디바이스는 얼굴 특징 점 위치설정 방법을 채택할 수 있고, 타깃 영역은 얼굴 주요 점이 위치하는 영역을 적어도 포함한다. 이 방식으로, 얼굴 주요 점이 위치하는 영역을 적어도 포함하는 영상이 타깃 영상으로서 정면화된 얼굴 영상으로부터 클립될 수 있다. 얼굴 주요 점들은 눈썹, 눈, 코, 입, 얼굴 윤곽 등을 포함하지만, 이들로 제한되지 않는다.

따라서, 단계 102를 실행할 때, 얼굴-구동 디바이스는 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해 타깃 영상에 대해 얼굴 특성 분석을 수행할 수 있다. 타깃 얼굴 특성 특징을 획득하는 방법은 전술한 실시예들에서의 방법과 일치한다. 상세들은 여기서 다시 설명되지 않는다.

본 개시내용의 실시예들에서, 얼굴 주요 점이 위치하는 영역을 포함하는 타깃 영상이 얼굴 정면화가 관심있는 영상에 대해 수행된 후에 클립될 수 있고, 다음에 얼굴 특성 분석이 타깃 영상에 대해 수행되므로, 얼굴 특성 분석은 보다 정확하다.

일부 임의적 실시예들에서, 단계 100-2에 대해, 얼굴-구동 디바이스가 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립할 때, 얼굴 주요 점이 위치하는 영역 외에, 타깃 영역은 타깃 얼굴 특성에 대응하는 얼굴 부분 외부의 프리셋 면적을 갖는 영역을 추가로 포함한다. 임의적으로, 상이한 타깃 얼굴 특성들에 대응하는 얼굴 부분들 외부의 프리셋 면적들은 상이할 수 있다.

예를 들어, 타깃 얼굴 특성들이 수염, 안경, 또는 눈꺼풀이면, 대응하는 얼굴 부분들은 입, 눈썹, 눈 등이고, 프리셋 면적들은 대응하는 얼굴 부분들에 의해 차지된 면적의 절반 미만일 수 있다. 예를 들어, 입이 타깃 얼굴 특성으로서 취해지면, 타깃 영상에 대해, 입이 위치하는 영역이 클립될 필요가 있는 영역뿐만 아니라, 입 외부의 프리셋 면적을 갖는 영역이 또한 클립될 수 있고, 프리셋 면적은 입이 위치하는 클립된 영역의 면적의 절반 미만일 수 있다.

또 하나의 예를 들면, 타깃 얼굴 특성이 헤어스타일이면, 대응하는 얼굴 부분은 얼굴 윤곽이다. 이 경우에, 헤어스타일의 추출에서 편차들을 피하기 위해, 프리셋 면적은 전체 얼굴 윤곽의 면적의 절반 이상일 수 있다.

전술한 실시예들에서, 얼굴 주요 점이 위치하는 영역 외에, 타깃 영역은 타깃 얼굴 특성에 대응하는 얼굴 부분 외부의 프리셋 면적을 갖는 영역을 추가로 포함함으로써, 타깃 얼굴 특성 분석을 수행하는 정확도를 개선시킨다.

일부 임의적 실시예들에서, 타깃 신경 네트워크는 상이한 얼굴 특성들에 대응하는 복수의 서브-네트워크를 포함할 수 있다. 예를 들어, 타깃 신경 네트워크는 헤어스타일, 수염, 안경, 및 눈꺼풀에 각각 대응하는 4개의 서브-네트워크들을 포함한다.

본 개시내용의 실시예들에서, 도 6에 도시한 것과 같이, 타깃 신경 네트워크를 트레이닝하는 프로세스는 다음의 단계들을 포함한다.

단계 201에서, 적어도 얼굴을 포함하는 적어도 하나의 샘플 영상을 제1 신경 네트워크 내로 입력한다. 적어도 하나의 샘플 영상 각각은 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징으로 라벨링되고, 제1 신경 네트워크는 제1 얼굴 특성에 대응하는 제1 서브-네트워크를 포함한다.

적어도 하나의 샘플 영상은 적어도 얼굴을 포함하는 적어도 하나의 미리 수집된 영상에 대해 어파인 변환을 수행하고, 다음에 타깃 영역의 영상을 클립합으로써 획득될 수 있다.

본 개시내용의 실시예들에서, 어파인 변환이 얼굴을 정면화하기 위해 적어도 얼굴을 포함하는 각각의 미리 수집된 영상에 대해 수행하고, 다음에 타깃 영역의 영상은 대응하는 샘플 영상을 획득하도록, 정면화된 얼굴 영상으로부터 클립된다. 타깃 영역은 얼굴 주요 점이 위치하는 영역을 적어도 포함한다.

단계 202에서, 예측된 값으로서, 제1 신경 네트워크에 의해 출력된, 적어도 하나의 샘플 영상 상의 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징을 취하고, 실제 값으로서, 적어도 하나의 샘플 영상 상에 라벨링된, 제1 얼굴 특성에 대응하는 적어도 하나의 얼굴 특성 특징을 취하여, 제1 서브-네트워크를 트레이닝한다. 이 방식으로, 트레이닝된 제1 서브-네트워크는 타깃 신경 네트워크로서 사용될 수 있다.

본 개시내용의 실시예들에서, 제1 얼굴 특성은 복수의 미리 정해진 얼굴 특성 중 어느 하나일 수 있고, 예를 들어, 눈꺼풀, 헤어스타일, 수염, 및 안경 중 어느 하나일 수 있다.

위에 설명된 것과 같이, 샘플 영상 상의 제1 얼굴 특성과 연관된 얼굴 특성 특징은 알려져 있다. 바꾸어 말하면, 샘플 영상은 제1 얼굴 특성과 연관된 얼굴 특성 특징들로 라벨링될 수 있다. 예를 들어, 제1 얼굴 특성이 수염이라고 가정하면, 소정의 샘플 영상 상의 수염에 대응하는 얼굴 특성 특징들은 인중 내에 수염이 없음, 턱의 중심에 수염이 없음, 및 턱의 양 측 상에 수염이 없음을 포함할 수 있다.

본 개시내용의 실시예들에서, 타깃 신경 네트워크에 의해 출력된 적어도 하나의 샘플 영상 상의 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징이 신경 네트워크의 예측된 값으로서 취해지고, 적어도 하나의 샘플 영상 상에 라벨링된 제1 얼굴 특성에 대응하는 적어도 하나의 얼굴 특성 특징이 실제 값으로서 취해지어, 제1 얼굴 특성에 대응하는 제1 서브-네트워크를 획득하도록 제1 서브-네트워크의 네트워크 특징들을 최적화하고 조정한다.

본 개시내용의 실시예들에서, 임의의 얼굴 특성에 대응하는 서브-네트워크가 위에 설명된 방식으로 트레이닝함으로써 획득된다. 복수의 서브-네트워크는 타깃 신경 네트워크를 구성한다.

일부 임의적 실시예들에서, 본 개시내용의 실시예들에서의 타깃 신경 네트워크 내에 포함된 서브-네트워크는 잔차 네트워크(Res Net)를 이용할 수 있다. 잔차 네트워크의 네트워크 구조는 도 7에 도시된다.

잔차 네트워크는 별개의 컨볼루션 계층(710)을 포함할 수 있다. 컨볼루션 계층(710)은 기본 정보를 추출하고 입력 영상(예를 들어, 적어도 얼굴을 포함하는 타깃 영상 또는 샘플 영상)의 특징 맵의 차원을 감소시키도록, 예를 들어, 3개의 차원들을 2개의 차원들로 감소시키도록 구성될 수 있다.

도 7에 도시한 것과 같이, 깊이 잔차 네트워크는 2개의 잔차 네트워크 블록들(ResNet Blob들)(721 및 722)을 추가로 포함할 수 있다. ResNet Blob들은 구조적으로 태스크의 복잡성이 태스크의 전체 입력 및 출력을 변경하지 않고 감소될 수 있도록 하나의 잔차 유닛을 갖는 것을 특징으로 한다. ResNet Blob(721)는 특징 정보를 추출하도록 구성될 수 있는 컨볼루션 계층 및 배치 정규화(BN) 계층을 포함할 수 있다. ResNet Blob(722)는 컨볼루션 계층 및 BN 계층을 포함할 수 있고, 또한 특징 정보를 추출하도록 구성될 수 있다. 그러나, ResNet Blob(722)는 구조적으로 ResNet Blob(721)보다 하나 많은 컨볼루션 계층 및 BN 계층을 가질 수 있으므로, ResNet Blob(722)는 또한 특징 맵의 차원을 감소시키도록 구성될 수 있다.

이 방식으로, 깊이 잔차 네트워크는 타깃 영상의 얼굴 특징 정보를 정확하게 획득하기 위해 이용될 수 있다. 컨볼루션 신경 네트워크 구조들 중 어느 하나는 타깃 영역의 얼굴 영상의 특징 정보를 획득하기 위해 타깃 영상의 타깃 영역에 대해 특징 추출 처리를 수행하기 위해 사용될 수 있고, 본 개시내용에서 이로 제한되지 않는다는 것을 이해하여야 한다.

도 7에 도시한 것과 같이, 깊이 잔차 네트워크는 완전히 접속된 계층(730)을 추가로 포함할 수 있다. 예를 들어, 깊이 잔차 네트워크는 3개의 완전히 접속된 계층들을 포함할 수 있다. 완전히 접속된 계층(730)은 유용한 얼굴 특성 관련 정보를 보존하면서 얼굴 영상의 특징 정보에 대해 차원 감소 처리를 수행할 수 있다.

깊이 잔차 네트워크는 출력 세그먼테이션 계층(740)을 추가로 포함할 수 있다. 출력 세그먼테이션 계층(740)은 적어도 하나의 얼굴 특성 서브클래스와 연관된 적어도 하나의 얼굴 특성 특징의 추정된 값을 획득하기 위해, 완전히 접속된 계층(730)에 대한 출력 세그먼테이션 처리, 구체적으로, 마지막으로 완전히 접속된 계층의 출력을 수행할 수 있다. 예를 들어, 마지막으로 완전히 접속된 계층의 출력이 출력 세그먼테이션 계층(740)에 의해 처리된 후에, 제1 얼굴 특성이 안경일 때 포함되는 (구체적으로 안경 타입, 안경테 타입, 렌즈 형상, 및 안경테 두께일 수 있는) 4개의 서브클래스들에 각각 대응하는 적어도 하나의 얼굴 특성 특징의 추정된 값들이 획득될 수 있다.

일부 임의적 실시예들에서, 단계 201 전에, 관심있는 미리 수집된 영상에 대한 얼굴 정면화와 같은, 처리를 수행하고, 다음에 대응하는 샘플 영상을 획득하도록, 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립하는 것이 또한 가능하다. 타깃 영역은 정면화된 얼굴 영상 상에 얼굴 주요 점이 위치하는 영역을 적어도 포함한다. 이 프로세스는 얼굴 특성 분석 프로세스에서 한번 설명된 것과 실질적으로 일치하고, 상세들은 여기서 다시 설명되지 않는다.

일부 임의적 실시예들에서, 샘플 영상이 클립될 때, 얼굴 주요 점이 위치하는 영역 외에, 타깃 영역은 상이한 타깃 얼굴 특성들에 각각 대응하는 얼굴 부분들 외부의 프리셋 면적들의 영역들을 추가로 포함한다. 이 프로세스는 또한 설명된 얼굴 특성 분석 프로세스와 실질적으로 동일하고, 상세들은 여기서 다시 설명되지 않는다.

일부 임의적 실시예들에서, 적어도 얼굴을 포함하는 관심있는 적어도 하나의 미리 수집된 영상이 얼굴 정면화되고 타깃 영역 클립된 후에, 그것은 또한 변환, 회전, 주밍(zooming) 및 수평 플립링(horizontal flipping) 중 적어도 하나의 처리를 받을 수 있고, 획득되어 처리된 영상은 또한 후속하는 네트워크 트레이닝을 위한 샘플 영상으로서 취해진다. 이 방식으로, 샘플 영상들의 세트가 효과적으로 확장되고, 후속하는 트레이닝에 의해 획득된 타깃 신경 네트워크는 얼굴 특성 분석의 보다 복잡한 장면들에 적응될 수 있다.

전술한 방법 실시예들에 대응하여, 본 개시내용은 장치 실시예들을 추가로 제공한다.

도 8에 도시한 것과 같이, 도 8은 본 개시내용의 일부 실시예들에 따라 제공된 가상 아바타 발생 장치의 블록도이다. 장치는 적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정하도록 구성된 태스크 결정 모듈(810) - 적어도 타깃 얼굴 특성은 각각 복수의 미리 정해진 얼굴 특성 중 하나임 -; 타깃 영상 상의 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 타깃 태스크에 따라, 적어도 얼굴을 포함하는 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하도록 구성된 얼굴 특성 분석 모듈(820); 얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정하도록 구성된 가상 아바타 템플릿 결정 모듈(830); 및 타깃 가상 아바타 템플릿에 기초하여 타깃 영상 상에 가상 아바타를 발생하도록 구성된 아바타 발생 모듈(840)을 포함한다.

일부 임의적 실시예들에서, 도 9에 도시한 것과 같이, 얼굴 특성 분석 모듈(820)은 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크를 결정하도록 구성된 네트워크 결정 서브-모듈(821); 타깃 신경 네트워크에 의해 출력된 추정된 값들을 획득하기 위해 타깃 영상을 타깃 신경 네트워크 내로 입력하도록 구성된 추정된 값 결정 서브-모듈(822) - 추정된 값들은 타깃 영상이 타깃 얼굴 특성과 연관된 하나 이상의 얼굴 특성 특징을 갖는 각각의 확률들을 나타냄 -; 및 타깃 얼굴 특성 특징으로서, 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하도록 구성된 특징 결정 서브-모듈(823)을 포함한다.

일부 임의적 실시예들에서, 타깃 얼굴 특성은 적어도 하나의 미리 정해진 서브클래스를 포함한다. 이 경우에, 특징 결정 서브-모듈(823)은 타깃 얼굴 특성 내에 포함된 적어도 하나의 서브클래스의 제1 서브클래스에 대해, 제1 서브클래스에 대응하는 타깃 얼굴 특성 특징으로서, 제1 서브클래스에 대한 타깃 신경 네트워크에 의해 출력된 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하도록 구성된다.

일부 임의적 실시예들에서, 도 10에 도시한 것과 같이, 장치는 정면화된 얼굴 영상을 획득하기 위해 관심있는 영상에 대해 어파인 변환을 수행하도록 구성된 얼굴 정면화 처리 모듈(850); 및 타깃 영상을 획득하기 위해 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립하도록 구성된 영상 클립 모듈(860)을 추가로 포함하고, 타깃 영역은 얼굴 주요 점이 위치하는 영역을 적어도 포함한다.

일부 임의적 실시예들에서, 타깃 영역은 타깃 얼굴 특성에 대응하는 얼굴 부분 외부의 프리셋 면적을 갖는 영역을 추가로 포함한다.

일부 임의적 실시예들에서, 타깃 신경 네트워크는 상이한 얼굴 특성들에 대응하는 복수의 서브-네트워크를 포함한다. 이 경우에, 도 11에 도시한 것과 같이, 장치는 트레이닝 모듈(870)을 추가로 포함하고, 트레이닝 모듈은 적어도 얼굴을 포함하는 적어도 하나의 샘플 영상을 제1 신경 네트워크 내로 입력하고 - 적어도 하나의 샘플 영상 각각은 복수의 미리 정해진 얼굴 특성 중 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징으로 라벨링되고, 제1 신경 네트워크는 제1 얼굴 특성에 대응하는 제1 서브-네트워크를 포함함 -; 예측된 값으로서, 제1 신경 네트워크에 의해 출력된, 적어도 하나의 샘플 영상 상의 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징을 취하고, 실제 값으로서, 적어도 하나의 샘플 영상 상에 라벨링되는, 제1 얼굴 특성에 대응하는 적어도 하나의 얼굴 특성 특징을 취하여, 제1 서브-네트워크를 트레이닝하도록 구성된다. 이 방식으로, 트레이닝된 제1 서브-네트워크는 타깃 신경 네트워크로서 사용될 수 있다.

일부 임의적 실시예들에서, 제1 서브-네트워크는 잔차 신경 네트워크의 네트워크 구조를 갖고 적어도 하나의 잔차 유닛을 포함한다. 적어도 하나의 잔차 유닛 각각은 적어도 하나의 컨볼루션 계층 및 적어도 하나의 배치 정규화 계층을 포함한다.

일부 임의적 실시예들에서, 제1 서브-네트워크가 복수의 잔차 유닛을 포함하면, 복수의 잔차 유닛 중 제2 잔차 유닛은 복수의 잔차 유닛 중 제1 잔차 유닛보다 큰 수의 컨볼루션 계층들 및 큰 수의 배치 정규화 계층들을 포함한다.

일부 임의적 실시예들에서, 관심있는 미리 수집된 영상에 대해, 얼굴 정면화와 같은, 처리를 먼저 수행하고, 다음에 대응하는 샘플 영상을 획득하도록, 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립하는 것이 또한 가능하다. 타깃 영역은 얼굴 주요 점이 정면화된 얼굴 영상 상에 위치하는 영역을 적어도 포함한다. 이 프로세스는 관심있는 영상으로부터 타깃 영상을 획득하는 설명된 프로세스와 실질적으로 일치하고, 상세들은 여기서 다시 설명되지 않는다. 또한, 샘플 영상이 클립될 때, 얼굴 주요 점이 위치하는 영역 외에, 타깃 영역은 상이한 타깃 얼굴 특성들에 각각 대응하는 얼굴 부분들 외부의 프리셋 면적들의 영역들을 추가로 포함한다.

장치 실시예들은 실질적으로 방법 실시예들에 대응하고, 그러므로, 관련된 부분에 대해서는, 방법 실시예들의 설명들을 참조할 수 있다. 위에 설명된 장치 실시예들은 단지 예시적이다. 별개의 부분들로서 설명된 유닛들은 물리적으로 분리되거나 되지 않을 수 있고, 유닛들로서 디스플레이된 부분들은 물리적 유닛들이거나 아닐 수 있고, 즉, 한 위치에 위치할 수 있거나, 복수의 네트워크 유닛 상에 분산될 수 있다. 모듈들의 일부 또는 모두가 본 개시내용의 해결책들의 목적을 달성하기 위해 실제 요건들에 따라 선택될 수 있다. 본 기술 분야의 통상의 기술자는 창의적 노력들을 들이지 않고서 실시예들을 이해하고 구현할 수 있다.

본 개시내용의 실시예들은 컴퓨터 판독가능 저장 매체를 추가로 제공하고, 여기서, 저장 매체는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 전술한 실시예들 중 어느 하나에 따른 가상 아바타 발생 방법을 수행하도록 구성된다.

본 개시내용의 실시예들은 프로세서; 및 프로세서에 의해 실행가능한 명령어들을 저장하도록 구성된 메모리를 포함하는 가상 아바타 발생 장치를 추가로 제공하고; 여기서 프로세서는 메모리 내에 저장된 실행가능한 명령어들이 전술한 실시예들 중 어느 하나에 따른 가상 아바타 발생 방법을 구현하게 하도록 구성된다.

도 12에 도시한 것과 같이, 도 12는 일부 실시예들에 따라 제공된 가상 아바타 발생 장치(1200)의 개략 구조도이다. 예를 들어, 장치(1200)는 얼굴-구동 디바이스에 적용될 가상 아바타 발생 장치로서 제공될 수 있다. 도 12를 참조하면, 장치(1200)는 하나 이상의 프로세서를 추가로 포함하는 처리 컴포넌트(1222); 및 애플리케이션 프로그램과 같은, 처리 컴포넌트(1222)에 의해 실행가능한 명령어들을 저장하도록 구성된 메모리(1232)로 대표되는 메모리 리소스를 포함한다. 메모리(1232) 내에 저장된 애플리케이션 프로그램은 그 각각이 명령어들의 세트에 대응하는 하나 이상의 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1222)는 전술한 실시예들 중 어느 하나에 따른 가상 아바타 발생 방법을 수행하도록 명령어들을 실행하도록 구성된다.

장치(1200)는 장치(1200)의 전력 관리를 수행하도록 구성된 전력 공급 컴포넌트(1226); 장치(1200)를 네트워크에 접속하도록 구성된 유선 또는 무선 네트워크 인터페이스(1250); 및 입력/출력(I/O) 인터페이스(1258)를 추가로 포함할 수 있다. 장치(1200)는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, 또는 FreeB SDTM과 같은, 메모리(1232) 내에 저장된 운영 체제를 동작시킬 수 있다.

본 기술 분야의 통상의 기술자는 명세서를 고려하고 본원에 개시된 발명을 실시한 후에 본 개시내용의 다른 구현 해결책들을 쉽게 알아낼 수 있다. 본 개시내용은 본 개시내용의 임의의 변화들, 기능들, 또는 적응적 변화들을 커버하고자 한다. 이러한 변화들, 기능들, 또는 적응적 변화들은 본 개시내용의 일반적 원리들에 따르고, 본 개시내용에서 개시되지 않는 기술 분야에서의 일반적인 지식 또는 일반적인 기술적 수단을 포함한다. 명세서 및 실시예들은 단지 예시적인 것으로 고려되고, 본 개시내용의 실제 범위 및 취지는 다음의 청구범위에 의해 지정된다.

상기 설명들은 단지 본 개시내용의 양호한 실시예들이고, 본 개시내용을 제한하려는 것이 아니다. 본 개시내용의 취지 및 원리에서 벗어나지 않고서 이루어진 임의의 수정, 등가적인 대체, 또는 개선은 본 개시내용의 보호 범위 내에 들 것이다.

Claims

가상 아바타 발생 방법으로서,
적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정하는 단계 - 상기 타깃 얼굴 특성은 복수의 미리 정해진 얼굴 특성 중 하나이고, 상기 타겟 얼굴 특성은 헤어스타일, 수염, 안경 및 눈꺼풀을 포함하고, 상기 타깃 얼굴 특성은 적어도 하나의 미리 정해진 서브클래스를 포함하고, 상기 적어도 하나의 미리 정해진 서브클래스의 각각은 적어도 하나의 얼굴 특성 특징(face property feature)을 포함함 -;
타깃 영상 상의 상기 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 상기 타깃 태스크에 따라, 적어도 얼굴을 포함하는 상기 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하는 단계;
얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 상기 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정하는 단계; 및
상기 타깃 가상 아바타 템플릿에 기초하여 상기 타깃 영상 상에 가상 아바타를 발생하는 단계
를 포함하고,
상기 타깃 영상 상의 상기 타깃 얼굴 특성과 연관된 타깃 얼굴 특성 특징을 획득하기 위해, 상기 타깃 태스크에 따라, 적어도 얼굴을 포함하는 상기 타깃 영상에 대해 타깃 얼굴 특성 분석을 수행하는 단계는,
상기 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크를 결정하는 단계;
상기 타깃 신경 네트워크에 의해 출력된 추정된 값들을 획득하기 위해 상기 타깃 영상을 상기 타깃 신경 네트워크 내로 입력하는 단계 - 상기 추정된 값들은 상기 타깃 영상이 상기 타깃 얼굴 특성과 연관된 하나 이상의 얼굴 특성 특징을 갖는 각각의 확률들을 나타냄 -; 및
상기 타깃 얼굴 특성 내에 포함된 상기 적어도 하나의 서브클래스의 제1 서브클래스에 대해, 상기 제1 서브클래스에 대응하는 상기 타깃 얼굴 특성 특징으로서, 상기 제1 서브클래스에 대한 상기 타깃 신경 네트워크에 의해 출력된 상기 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하는 단계
를 포함하는, 가상 아바타 발생 방법.
제1항에 있어서, 상기 타깃 신경 네트워크는
적어도 얼굴을 포함하는 적어도 하나의 샘플 영상을 제1 신경 네트워크 내로 입력함으로써 - 상기 적어도 하나의 샘플 영상 각각은 상기 복수의 미리 정해진 얼굴 특성 중 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징으로 라벨링되고, 상기 제1 신경 네트워크는 상기 제1 얼굴 특성에 대응하는 제1 서브-네트워크를 포함함 -; 그리고
예측된 값으로서, 상기 제1 신경 네트워크에 의해 출력된, 상기 적어도 하나의 샘플 영상 상의 상기 제1 얼굴 특성과 연관된 적어도 하나의 얼굴 특성 특징을 취하고, 실제 값으로서, 상기 적어도 하나의 샘플 영상 상에 라벨링되는, 상기 제1 얼굴 특성에 대응하는 상기 적어도 하나의 얼굴 특성 특징을 취함으로써 트레이닝되어,
상기 제1 서브-네트워크를 트레이닝하여, 상기 트레이닝 후에 상기 타깃 신경 네트워크를 획득하는 가상 아바타 발생 방법.
제2항에 있어서, 상기 제1 서브-네트워크는 잔차 신경 네트워크의 네트워크 구조를 갖고 적어도 하나의 잔차 유닛을 포함하고;
상기 적어도 하나의 잔차 유닛 각각은 적어도 하나의 컨볼루션 계층 및 적어도 하나의 배치 정규화 계층(batch normalization layer)을 포함하고;
상기 적어도 하나의 잔차 유닛이 복수의 잔차 유닛을 포함하는 경우에, 상기 복수의 잔차 유닛 중 제2 잔차 유닛은 상기 복수의 잔차 유닛 중 제1 잔차 유닛보다 큰 수의 컨볼루션 계층들 및 큰 수의 배치 정규화 계층들을 포함하는 가상 아바타 발생 방법.
제3항에 있어서,
상기 제1 서브-네트워크는 출력 세그먼테이션 계층을 추가로 포함하고,
상기 출력 세그먼테이션 계층은 하나 이상의 서브클래스와 각각 연관된 하나 이상의 얼굴 특성 특징에 대한 각각의 추정된 값들을 획득하기 위해, 상기 샘플 영상으로부터 추출된 특징 정보를, 상기 제1 얼굴 특성 내에 포함된 하나 이상의 미리 정해진 서브클래스에 따라, 세그먼트하도록 구성되는 가상 아바타 발생 방법.
제2항에 있어서,
정면화된 얼굴 영상을 획득하기 위해 관심있는 영상에 대해 어파인 변환을 수행하는 단계; 및
상기 타깃 영상 또는 상기 샘플 영상을 획득하기 위해 상기 정면화된 얼굴 영상으로부터 타깃 영역의 영상을 클립하는 단계
를 추가로 포함하고, 상기 타깃 영역은 얼굴 주요 점(face key point)이 위치하는 영역을 적어도 포함하는 가상 아바타 발생 방법.
제5항에 있어서, 상기 타깃 영역은 상기 타깃 얼굴 특성에 대응하는 얼굴 부분 외부의 프리셋 면적(preset area)을 갖는 영역을 추가로 포함하는 가상 아바타 발생 방법.
가상 아바타 발생 장치로서,
적어도 하나의 타깃 얼굴 특성과 연관된 타깃 태스크를 결정하도록 구성된 태스크 결정 모듈 - 상기 타깃 얼굴 특성은 복수의 미리 정해진 얼굴 특성 중 하나이고, 상기 타겟 얼굴 특성은 헤어스타일, 수염, 안경 및 눈꺼풀을 포함하고, 상기 타깃 얼굴 특성은 적어도 하나의 미리 정해진 서브클래스를 포함하고, 상기 적어도 하나의 미리 정해진 서브클래스의 각각은 적어도 하나의 얼굴 특성 특징을 포함함 -;
상기 타깃 얼굴 특성에 대응하는 타깃 신경 네트워크를 결정하고, 상기 타깃 신경 네트워크에 의해 출력된 추정된 값들을 획득하기 위해 적어도 얼굴을 포함하는 타깃 영상을 상기 타깃 신경 네트워크 내로 입력하고 - 상기 추정된 값들은 상기 타깃 영상이 상기 타깃 얼굴 특성과 연관된 하나 이상의 얼굴 특성 특징을 갖는 각각의 확률들을 나타냄 -, 상기 타깃 얼굴 특성 내에 포함된 상기 적어도 하나의 서브클래스의 제1 서브클래스에 대해, 상기 제1 서브클래스에 대응하는 상기 타깃 얼굴 특성 특징으로서, 상기 제1 서브클래스에 대한 상기 타깃 신경 네트워크에 의해 출력된 상기 추정된 값들 중에서 최대 값에 대응하는 얼굴 특성 특징을 취하도록 구성된 얼굴 특성 분석 모듈;
얼굴 특성 특징들과 가상 아바타 템플릿들 간의 미리 정해진 대응관계에 따라 상기 타깃 얼굴 특성 특징에 대응하는 타깃 가상 아바타 템플릿을 결정하도록 구성된 가상 아바타 템플릿 결정 모듈; 및
상기 타깃 가상 아바타 템플릿에 기초하여 상기 타깃 영상 상에 가상 아바타를 발생하도록 구성된 아바타 발생 모듈
을 포함하는, 가상 아바타 발생 장치.
제1항 내지 제6항 중 어느 한 항에 따른 가상 아바타 발생 방법을 구현하기 위한 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.
가상 아바타 발생 장치로서,
프로세서; 및
상기 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리
를 포함하고;
상기 프로세서는 상기 메모리 내에 저장된 상기 명령어들이 제1항 내지 제6항 중 어느 한 항에 따른 가상 아바타 발생 방법을 구현하게 하도록 구성되는 가상 아바타 발생 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제