KR20210103435A

KR20210103435A - 가상 객체 이미지 합성 방법, 장치, 전자 기기 및 저장 매체

Info

Publication number: KR20210103435A
Application number: KR1020210101546A
Authority: KR
Inventors: 한치 궈; 티엔슈 후; 밍밍 마; 즈빈 홍
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-09-14
Filing date: 2021-08-02
Publication date: 2021-08-23
Also published as: JP2021193599A; US11645801B2; CN112150638A; EP3882861A3; US20210312685A1; CN112150638B; JP7262540B2; EP3882861A2

Abstract

본 발명은 가상 객체 이미지 합성 방법, 장치, 전자 기기 및 저장 매체를 공개하고, 인공지능 분야, 구체적으로 컴퓨터 시각과 딥 러닝 기술에 관한 것이다. 구체적인 구현 방법은, 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하고; 가상 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하고; 각 프레임의 원초 입 형상의 얼굴 영상의 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하고; 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하고; 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다. 이로부터, 원초 입 형상의 얼굴 영상을 가상 객체 이미지 영상의 자세 및 위치로 조정하여 합병하므로, 합병후 영상 자연도가 향상된다.

Description

가상 객체 이미지 합성 방법, 장치, 전자 기기 및 저장 매체{METHOD AND APPARATUS FOR SYNTHESIZING VIRTUAL OBJECT IMAGE, ELECTRONIC DEVICE AND STORAGE MEDIUM}

본 발명은 인공지능 분야, 구체적으로 컴퓨터 시각과 딥 러닝 분야에 관한 것으로, 특히 가상 객체 이미지 합성 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

가상 객체는 디지털 영상 및 인공 지능 등과 같은 다중 기술을 결합하여 생성한 사람 모습의 비디오 영상이고, 가장 널리 사용되는 분야 중 하나는 가상 객체 음성 방송이다, 즉 가상 객체는 일반 사람이 말하는 형식으로 말하는 입 형상을 구현한다.

관련 기술에서 입 형상의 영상에서 입 형상 키포인트의 좌표 관계를 추출하고, 당해 좌표 관계에 따라 가상 객체에 대응하는 가상 객체 영상에 있는 입 부분 영역의 키포인트 좌표를 조정하므로 입 형상으로 말하는 것을 시뮬레이션한다.

그러나, 전술한 입 형상으로 말하는 것을 시뮬레이션하는 융합 방법은 가상 객체 영상에서만 입 부분 영상의 키포인트 좌표 관계를 아핀하여, 한편으로는 동일한 좌표 관계, 가상 객체 영상의 입 부분과 원초 입 형상의 영상에 구현된 립 모습이 동일한 표현 음성에 해당하지 않을 수 있고, 다른 한편으로는 가상 객체 영상에서만 입 부분 영상의 키포인트 좌표 관계를 아핀하여 원초 입 부분 영상에 대한 정보를 완전히 잃어버려 영상의 융합이 구현되지 않는다.

본 발명의 첫번째 목적은 가상 객체 이미지 합성 방법를 제공한다.

본 발명의 두번째 목적은 가상 객체 이미지 합성 장치를 제공한다.

본 발명의 세번째 목적은 전자 기기를 제공한다.

본 발명의 네번째 목적은 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공한다.

제1 측면에 따르면, 가상 객체 이미지 합성 방법을 제공하고, 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하는 단계; 상기 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 상기 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하는 단계; 미리 설정된 알고리즘에 따라 상기 제1 얼굴 키포인트를 처리하여 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 단계; 미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 단계; 상기 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 상기 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 단계; 및 상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계를 포함한다.

제2 측면에 따르면, 가상 객체 이미지 합성 장치를 제공하고, 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하는 획득모듈; 상기 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 상기 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하는 추출모듈; 미리 설정된 알고리즘에 따라 상기 제1 얼굴 키포인트를 처리하여 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 제1 생성모듈; 미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 제2 생성모듈; 상기 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 상기 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 제3 생성모듈; 및 상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 합성모듈을 포함한다.

제3 측면에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하는 전자 기기를 제공하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 수행되므로, 상기 적어도 하나의 프로세서가 전술한 가상 객체 이미지 합성 방법을 수행할 수 있도록 한다.

제4 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체가 제공된다, 상기 컴퓨터 명령은 상기 컴퓨터가 전술한 실시예에 따른 가상 객체 이미지 합성 방법을 수행하도록 한다.

제5 측면에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 본 출원의 실시예에 따른 가상 객체 이미지 합성 방법이 실행된다.

전술한 본 발명의 실시예는 다음과 같은 장점 및 유익한 효과를 갖는다:

가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하고, 나아가, 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하고, 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하고, 또한 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하고, 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하고, 마지막으로, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다. 이로부터, 원초 입 형상의 얼굴 영상을 가상 객체 이미지 영상의 자세 및 위치로 조정하여 합병하므로, 합병후 영상 자연도가 향상되어 합병된 영상이 원초 입 형상의 얼굴 영상 대화 이미지를 진실감 있게 복원할 수 있도록 한다.

이해해야 하는 것은 당해 섹션에서 설명된 내용은 본 발명의 공개된 실시예들의 핵심 또는 중요한 특징들을 식별하기 위한 것이 아니며, 본 발명 내용의 범위를 제한하려는 의도가 아니다. 본 발명 내용의 다른 특징은 이하 설명에서 더욱 명확해지어 이해하기 쉬워진다.

첨부된 도면은 본 발명의 기술 방안을 더 잘 이해하기 위한 것으로 본 발명을 제한하지 않는다.
도1은 본 발명의 제1 실시예에 따른 가상 객체 이미지 합성 장면의 그래프이고;
도2는 본 발명의 제2 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고;
도3은 본 발명의 제3 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고;
도4는 본 발명의 제4 실시예에 따른 제1 3D 얼굴의 메시 모델을 구축하는 장면 그래프이고;
도5는 본 발명의 제5 실시예에 따른 자세 정보 그래프이고;
도6은 본 발명의 제6 실시예에 따른 제2 3D 얼굴 형상의 정점 정보 그래프이고;
도7은 본 발명의 제7 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고;
도8은 본 발명의 제8 실시예에 따른 가상 객체 이미지 합성 장면의 그래프이고;
도9는 본 발명의 제9 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고;
도10은 본 발명의 제10 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고;
도11은 본 발명의 제11 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고;
도12는 본 발명의 제12 실시예에 따른 가상 객체 이미지 합성 장치의 구조 개략도이고;
도13은 본 발명의 제13 실시예에 따른 가상 객체 이미지 합성 장치의 구조 개략도이고;
도14는 본 발명의 제14 실시예에 따른 가상 객체 이미지 합성 장치의 구조 개략도이고;
도15는 본 발명의 제15 실시예에 따른 가상 객체 이미지 합성 장치의 구조 개략도이고;
도16은 본 발명의 실시예에 따른 가상 객체 이미지 합성 방법을 구현하기 위한 전자 기기의 블록도이다.

이하에서는 첨부된 도면을 참조하여 본 발명의 예시적인 실시예를 설명하며, 이는 이해를 용이하게 하기 위해 본 발명의 실시예들의 다양한 세부 사항을 포함하며, 단지 예시적인 것으로 이해해야 한다. 따라서, 당업자는 본 발명의 범위 및 사상을 벗어나지 않고 여기에 설명된 실시예에 대하여 다양한 변경 및 수정이 이루어질 수 있음을 인식해야 한다. 마찬가지로, 이하의 설명에서는 명확성과 간결성을 위해 잘 알려진 기능 및 구조에 대한 설명은 생략된다.

가상 객체의 가상 객체 이미지 영상과 원초 입 형상의 영상이 융합되어 구현하지 못하고, 또한 융합시 원초 입 형상의 영상에 대응하는 진실한 립 모습을 구현하지 못하는 기술적 문제를 해결하기 위해, 본 출원은 가상 객체 이미지 영상과 원초 입 형상의 영상이 다 자세로 융합되는 구현 방법을 제공한다. 본 출원에서는 우선 원초 입 형상의 영상을 가상 객체 이미지 영상에 대응하는 제세로 조정하고, 통합된 자세를 기반으로 영상 융합을 수행하므로, 융합 효과 뿐만 아니라 가능한 인공 지능 장면에서도, 도1에 도시된 바와 같이, 가상 객체 이미지의 얼굴 이미지A가 원초 입 형상의 영상에 대응하는 얼굴 이미지B로 변경되는 것을 구현할 수 있어고, B의 자세는 A의 자세에 따라 조정되어, 컴퓨터 시각과 관련된 처리기술을 결합하여 융합 효과가 더욱 자연스럽고, 따라서 융합된 가상 객체 이미지는 말할 때 B의 입 형상을 진정으로 반영할 수 있다.

이하에서는 첨부된 도면을 참조하여 본 발명 실시예에 따른 가상 객체 이미지 합성 방법, 장치, 전자 기기 및 저장 매체를 설명한다. 본 발명 실시예에 따른 가상 객체 이미지 합성 방법, 장치, 전자 기기 및 저장 매체는 인공지능 장면에서 실제 인물 시뮬레이션에 적용될 수 있다. 예를 들어, A의 가상 객체 이미지를 제어하여 B의 입 부분 형태를 반영하는 형식으로 음성 표시를 수행하므로, 융합된 가상 객체 이미지가 A의 신체 자세를 유지할 뿐만 아니라 말할 때 B의 입 부분 형태 등을 반영될 수 있다.

구체적으로, 도2는 본 발명 실시예에 따른 가상 객체 이미지 합성 방법의 흐름도이고, 도2에 도시된 바와 같이, 당해 방법은 하기와 같은 단계를 포함한다:

단계101, 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득한다.

이해 가능한 바로는, 본 발명 실시예에 따른 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상은 융합 장면에서의 바닥판 영상일 수 있으며, 가상 객체 이미지 영상에 가상 객체의 얼굴 외에도 가상 객체의 신체 부분 등도 포함 할 수 있고, 여기서 가상 객체 이미지 영상은 사람, 동물, 심지어 풍경 등의 영상일 수 있지만, 이에 제한 되지 않는다.

그 외에, 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상은 사람 음성을 실시간으로 수집하여 당해 음성 세그먼트를 표현하는 비디오 스트림일 수 있으며, 비디오 스트림에서 영상 프레임을 추출하여 획득하고, 또한 실험 데이터에 따라 다수의 표준 입 형상에 대응하는 미리 설정된 다수의 딥 러닝 모델일 수 있으며, 당해 딥 러닝 모델에 대한 입력은 표준 입 부분 영상과 음성 세그먼트이고, 출력은 당해 음성 세그먼트에 대응하는 다수의 입 부분 영상이므로, 본 실시예에서, 한 프레임의 현재 원초 입 형상의 얼굴 영상을 획득하고, 당해 현재 원초 입 형상의 얼굴 영상에 대응하는 입 부분 영상 특징과 미리 설정된 다수의 표준 입 부분 영상의 입 부분 영상 특징을 비교하여, 비교 결과에 따라 미리 설정된 다수의 표준 입 부분 영상에서 가장 유사한 타겟 표준 입 부분 영상을 결정하고, 현재 원초 입 형상의 얼굴 영상 및 해당 음성 세그먼트를 타겟 표준 입 부분 영상에 대응하는 딥 러닝 모델에 입력하여, 당해 딥 러닝 모델의 출력에 따라 원초 입 형상의 얼굴 영상을 획득한다. 이로부터, 당해 방법은 실시간으로 영상을 수집 할 필요가 없으며, 더 많은 장면의 요구를 만족하기 위한 기술 지원을 제공하고, 예를 들어, 한 프레임의 사용자 A의 현재 원초 입 형상의 얼굴 영상만 획득하는 것으로 대응하는 가상 객체 이미지에서 사용자 A의 음성으로 해당 음성 세그먼트를 표현하는 애니메이션 효과를 구현할 수 있다.

단계102, 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 상기 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출한다.

제1 얼굴 키포인트와 제2 얼굴 키포인트는 얼굴 영역에 대응하는 키포인트로 이해 가능하고, 당해 키포인트는 눈꼬리, 코끝, 입꼬리, 턱 등과 같은 얼굴 형상 윤곽을 한정하는 다수의 키포인트를 포함한다.

단계103, 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성한다.

본 실시예에서, 자연스러운 융합 효과를 보장하기 위해 제1 얼굴 키포인트의 위치 및 자세 정보를 수집하여 원초 입 형상의 얼굴 영상을 당해 위치와 자세에 통합하도록 한다.

제1 3D 얼굴의 위치는 영상에서 얼굴의 키포인트의 좌표 위치 등을 포함하고, 자세 정보는 피치 각도, 요 각도 및 롤 각도 등을 포함한다.

설명해야 하는 바로는, 다양한 응용장면에서 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 단계에서, 미리 설정된 알고리즘이 다르다. 예시는 하기와 같다:

예시1:

본 예시에서, 도3에 도시된 바와 같이 당해 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 단계는 하기와 같은 단계를 포함한다:

단계301, 미리 설정된 변환 파라미터에 따라 제1 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 제1 3D 얼굴의 메시 모델을 생성한다.

실제 수행 과정에서 세계 좌표계의 얼굴 정보를 가상 객체 이미지 영상으로 전환하는 것은 카메라의 내부 파라미터와 외부 파라미터에 관련되어, 본 실시예의 변환 파라미터를 카메라의 내부 파라미터와 외부 파라미터, 또는 카메라의 내부 파라미터와 외부 파라미터를 반영하는 알고리즘 파라미터로 이해 가능하고, 카메라의 내부 파라미터와 외부 파라미터는Zhang Zhengyou의 바둑판 교정 방법 등으로 획득할 수 있다.

본 실시예에서, 미리 설정된 변환 파라미터에 따라 제1 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 제1 3D 얼굴의 메시 모델을 생성하므로, 도4에 도시된 바와 같이, 2차원의 제1 얼굴 키포인트를 복원하여 3차원의 제1 3D 얼굴의 메시 모델을 획득한다.

단계302, 제1 3D 얼굴의 메시 모델에서 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 추출하고, 자세 정보는 피치 각도, 요 각도 및 롤 각도를 포함한다.

본 실시예에서, 3차원의 제1 3D 얼굴의 메시 모델에서 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 추출하여, 제1 3D 얼굴의 메시 모델에 대한 다자세 파악을 구현할 수 있도록 하고, 도5에 도시된 바와 같이, 자세 정보는 pitch, yaw 및 roll의 세 가지 오일러 각도를 포함하고, 각각은 피치 각도, 요 각도 및 롤 각도이며, 피치 각도, 요 각도 및 롤 각도는 회전 행렬에 따라 풀 수 있고, 구체적으로, 카메라에 대한 물체의 공간적 위치 관계 행렬을 T로 표시하고 카메라에 대한 물체의 공간적 자세 관계 행렬을 R로 표시하고, 픽셀 좌표계에서 세계 좌표계로의 회전 행렬은 R 및 T에 따라 계산되며, 당해 회전 행렬, 제1 얼굴 키포인트의 2차원 좌표 및 3차원 좌표의 전환 계산에 따라 상술한 자세 정보를 획득할 수 있다.

예시2:

본 예시에서, 가상 객체의 얼굴에 구조형 광을 투사하여 가상 객체의 얼굴에 의해 변조된 구조형 광 영상을 획득한 다음, 구조형 광 영상을 복조하여 가상 객체 얼굴의 제1 얼굴 키포인트에 대응하는 깊이 정보를 획득하고, 당해 깊이 정보와 제1 얼굴 키포인트의 좌표 정보에 따라 제1 얼굴 키포인트에 대응하는 제1 3D 얼굴의 메시 모델을 구축할 수 있고, 따라서, 제1 3D 얼굴의 메시 모델에 대한 모델 분석을 통하여 해당 자세 정보를 획득할 수 있고, 예를 들어, 3D 좌표계(x, y, z의 세 방향 포함)를 미리 구축하고, 당해 제1 3D 얼굴의 메시 모델을 당해 좌표계에 배치하여 자세 정보의 수집(x, y, z의 세 방향의 변위를 자세 정보로 읽음)을 수행한다.

단계104, 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성한다.

도6에 도시된 바와 같이 제2 3D 얼굴 형상의 정점 정보는 원초 입 형상의 얼굴 영상에 대응하는 윤곽 정보를 한정할 수 있다는 것으로 이해 가능하며, 당해 윤곽 정보에는 얼굴 윤곽 뿐만 아니라 관련 없는 형상 윤곽 및 상대 위치 등도 포함된다. 그 외에도 이해 가능한 바로는, 제2 3D 얼굴 형상의 정점 정보를 기반하여 원초 입 형상의 얼굴 영상에 있는 얼굴의 갠트 차트도 획득할 수 있다.

본 실시예에서, 가상 객체 이미지 영상에서 원초 입 형상의 얼굴 영상의 정보를 표현하기 위해 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 획득하여, 가상 객체 이미지 영상의 얼굴로 원초 입 형상의 얼굴 영상의 얼굴 이미지를 표현할 수 있도록 한다.

설명해야 하는 바로는, 다양한 장면에서 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 방식이 다르다. 예시는 하기와 같다:

예시1:

본 예시에서, 제2 3D 얼굴 형상의 정점 정보를 더욱 정확하게 추출할 수 있도록, 3D 모델에서 대응하는 제2 3D 얼굴 형상의 정점 정보를 결정한다.

도7에 도시된 바와 같이 당해 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 단계는 하기와 같은 단계를 포함한다:

단계701, 미리 설정된 변환 파라미터에 따라 각각의 제2 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 메시 모델을 생성한다.

실제 수행 과정에서 세계 좌표계의 얼굴 정보를 원초 입 형상의 얼굴 영상으로 전환하는 것은 카메라의 내부 파라미터와 외부 파라미터에 관련되어, 본 실시예의 변환 파라미터를 카메라의 내부 파라미터와 외부 파라미터, 또는 카메라의 내부 파라미터와 외부 파라미터를 반영하는 알고리즘 파라미터로 이해 가능하고, 카메라의 내부 파라미터와 외부 파라미터는 Zhang Zhengyou의 바둑판 교정 방법 등으로 획득할 수 있다.

본 실시예에서, 미리 설정된 변환 파라미터에 따라 각각의 제2 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 제2 3D 얼굴의 메시 모델을 생성하고, 2차원의 제2 얼굴 키포인트를 복원하여 3차원의 제2 3D 얼굴의 메시 모델을 획득한다.

단계702, 각각의 제2 3D 얼굴의 메시 모델에서 제2 3D 얼굴 형상의 정점 정보를 추출한다.

본 실시예에서, 각각의 제2 3D 얼굴의 메시 모델에서 제2 3D 얼굴 형상의 정점 정보를 추출한다. 예를 들어, 제2 3D 얼굴의 메시 모델의 깊이 정보에 따라 현저한 스텝을 가진 점을 제2 3D 얼굴 형상의 정점으로 결정하여, 당해 점의 좌표 정보 등을 제2 3D 얼굴 형상의 정점 정보로 한다.

예시2:

본 예시에서, 각 프레임의 원초 입 형상의 얼굴 영상을 이치영상으로 전환하여, 이치영상에서 대응하는 제2 얼굴 키포인트를 표시하고, 따라서, 제2 얼굴 키포인트에 따라 이치영상에 있는 잡음 윤곽선을 제거하고, 즉, 제2 얼굴 키포인트를 포함하지 않은 윤곽선을 제거하고, 그 다음, 나머지 윤곽선에서 키포인트를 샘플링하여 제2 3D 얼굴 형상의 정점을 획득하고, 나머지 윤곽선에서 샘플링한 각각의 키포인트와 좌우 인접한 키포인트 사이의 경사도 차이를 계산할 수 있고 경사도 차이가 모두 일정한 수치보다 높은 샘플링한 키포인트를 제2 3D 얼굴 형상의 정점으로 결정한다.

단계105, 제1 3D 얼굴의 위치 및 자세 정보와 각각의 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성한다.

본 실시예에서, 각각의 제2 3D 얼굴 형상의 정점 정보가 제1 3D 얼굴의 위치 및 자세 정보에 따라 위치 조정하도록 제어하고, 따라서 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하여, 타겟 입 형상의 얼굴 영상의 자세 및 위치는 대응하는 가상 객체 이미지 영상과 이미 정렬된다.

예를 들어, 도8에 도시된 바와 같이 가상 객체 이미지 영상A의 제1 3D 얼굴의 위치 및 자세 정보가 도면(2차원 형식으로 표현함)에서 표시된 바와 같은 경우 원초 입 형상의 얼굴B의 각각의 제2 3D 얼굴 형상의 정점 정보를 조정한 후 제1 3D 얼굴의 위치 및 자세 정보와 일치한 타겟 입 형상의 얼굴B를 획득한다.

단계106, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다.

각 프레임의 타겟 입 형상의 얼굴 영상을 획득한 후 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 합병한다. 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 이미 3차원 각도에서 정렬하였기 때문에 가상 객체 이미지 영상에서 타겟 입 형상의 얼굴 영상의 입 형상과 똑 같은 얼굴 영상을 렌더링할 수 있고, 분명한 것은 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 합병한 후 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 획득할 수 있다.

물론, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 합병하기 전에 각 프레임의 타겟 입 형상의 얼굴 영상의 크기를 조정할 수도 있어 가상 객체 이미지 영상의 얼굴 영역의 크기와 일치되도록 구현한다.

일부 가능한 예시에서 각 프레임의 타겟 입 형상의 얼굴 영상을 투영변환하여, 가상 객체 이미지 영상의 위치와 자세하에서 각 프레임의 타겟 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 2차원적으로 투영하도록 구현하여 실제 융합 과정에서 가상 객체 이미지 영상에서 제2 3D 얼굴 형상의 정점 정보와의 중첩점의 투명도를 바꿀 수 있으며 두자의 융합을 구현한다. 예를 들어, 타겟 입 형상의 얼굴 영상의 오관 윤곽선과 대응하는 중첩점에 있어서, 화소 투명도를 100%로 설정하여 합성된 가상 객체 이미지 영상이 타겟 입 형상의 얼굴 영상의 오관을 나타낼 수 있으며, 예를 들어, 타겟 입 형상의 얼굴 영상의 오관 윤곽선 제외한 중첩점에 있어서, 화소 투명도를 0으로 설정할 수 있고, 따라서, 합성된 가상 객체 이미지 영상이 가상 객체 이미지 영상의 피부색 정보를 나타낼 수 있다. 합성된 가상 객체 이미지 영상의 오관 윤곽 영역의 화소 투명도도 100%로 설정하므로 합성된 가상 객체 이미지 영상의 순수도를 확보할 수 있다.

다른 가능한 예시에서, 가상 객체 이미지 영상에 있는 얼굴 영역을 타겟 입 형상의 얼굴 영상에 있는 얼굴 영역으로 직집 대체하여 합병을 구현한다.

종합하면, 본 발명 실시예에 따른 가상 객체 이미지 합성 방법은 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하고, 나아가, 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하고, 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하고, 또한 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하고, 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하고, 마지막으로, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다. 이로부터, 원초 입 형상의 얼굴 영상을 가상 객체 이미지 영상의 자세 및 위치로 조정하여 합병하므로, 합병후 영상 자연도가 향상되어 합병된 영상이 원초 입 형상의 얼굴 영상 대화 이미지를 진실감 있게 복원할 수 있도록 한다.

이해 가능한 바로는 타겟 입 형상의 얼굴 영상이 가상 객체 얼굴의 자세 및 위치를 복원할 수 있다. 예를 들어, 가상 객체의 얼굴이 외면된 자세인 경우 원초 입 형상의 얼굴 영상에 있는 얼굴 영역의 자세가 무엇이든 모두 똑같은 외면된 자세에 대응하는 타겟 입 형상의 얼굴 영상으로 전환된다.

다른 응용장면에서 제1 3D 얼굴의 위치 및 자세 정보와 각각의 제2 3D 얼굴 형상의 정점 정보에 따라, 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 방식이 다르다:

일부 가능한 실시예에서, 미리 설정된 전환 알고리즘에 따라 제1 3D 얼굴의 위치 및 자세 정보와 각각의 제2 3D 얼굴 형상의 정점 정보를 각각 투영변환하여, 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제1 타겟 입 형상의 얼굴 영상을 생성한다.

이해 가능한 바로는, 본 실시예에서 얼굴의 위치 및 자세 정보와 좌표점 정보의 전환을 구현할 수 있는 전환 알고리즘을 미리 구축하여, 당해 미리 설정된 전환 알고리즘에 따라 제1 3D 얼굴의 위치 및 자세 정보와 각각의 제2 3D 얼굴 형상의 정점 정보를 각각 투영변환시킨다, 즉 3D 공간의 제2 3D 얼굴 형상의 정점 정보를 가상 객체 얼굴의 자세투영을 통하여 2D의 사진공간에 투영하여 획득한 새로운 입 형상의 얼굴 사진을 제1 타겟 입 형상의 얼굴 영상으로 한다.

물론, 획득한 제1 타겟 입 형상의 얼굴 영상의 무늬는 공백이여서 텍스처를 정렬하고 렌더링하여야 완정한 타겟 입 형상의 얼굴 영상을 획득한다. 예를 들어, 가상 객체 얼굴의 텍스처 정보를 직집 샘플링하여 획득하고 당행 텍스처 정보에 따라 제1 타겟 입 형상의 얼굴 영상을 렌더링하고, 렌더링된 타겟 입 형상의 얼굴 영상은 가상 객체의 얼굴과 더욱 가깝다.

다른 예를 들면, 도9에 도시된 바와 같이 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링 과정은 다음 단계를 포함한다:

단계901, 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 위치 및 자세 정보를 생성한다.

본 실시예에서 제2 3D 얼굴의 위치 및 자세 정보를 획득하는 방법은 전술한 제1 3D 얼굴의 위치 및 자세 정보를 획득하는 방법을 참고할 수 있으며, 여기서 더 이상 설명하지 않는다.

단계902, 미리 설정된 투영변환 알고리즘에 따라 각 프레임의 원초 입 형상의 얼굴 영상에서 관련된 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치의 텍스처 정보를 획득한다.

본 실시예에서, 제2 3D 얼굴의 위치 및 자세 정보를 획득한 후 각 프레임의 원초 입 형상의 얼굴 영상에서 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치의 텍스처 정보를 찾을 수 있다, 예를 들어, 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치가 "코끝"인 경우, 원초 입 형상의 얼굴 영상에서 "코끝"에 대응하는 텍스처 정보를 찾는다.

미리 설정된 투영변환 방법에 따라 제1 3D 얼굴의 위치 및 자세 정보를 획득하고 2차원 영상에 투영한 다음 각 프레임의 원초 입 형상의 얼굴 영상에서 대응하는 회소점을 찾아, 대응하는 화소점으로 구성한 영역을 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치의 텍스처 정보로 한다.

단계903, 해당 위치의 텍스처 정보에 따라 각 프레임의 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링을 수행하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 타겟 입 형상의 얼굴 영상을 생성한다.

3차원 각도에서 텍스처 정보를 획득한 후 텍스처 정보에 대응하는 제2 3D 얼굴의 위치 및 자세 정보를 각 프레임의 제1 타겟 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 메시 모델의 위치 및 자세 정보와 매칭하여 제2 3D 얼굴의 메시 모델에서 각 영역의 텍스처 정보를 결정하고, 나아가, 각 프레임의 제1 타겟 입 형상의 얼굴 영상에서 각 영역이 대응하는 영역을 결정하여, 대응하는 텍스처 정보를 해당 영역의 텍스처 정보로 하여 각 프레임의 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링을 수행하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 타겟 입 형상의 얼굴 영상을 생성한다.

다른 가능한 실시예에서, 미리 설정된 변환 파라미터에 따라 각각의 제2 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 메시 모델을 생성한 다음 제1 3D 얼굴의 위치 및 자세 정보에 따라 제2 3D 얼굴의 메시 모델의 위치 및 자세 정보를 조정하고, 나아가, 조정된 제2 3D 얼굴의 메시 모델에 있는 제2 3D 얼굴 형상의 정점 정보를 투영하여 대응하는 제1 타겟 입 형상의 얼굴 영상을 획득한다. 제1 타겟 입 형상의 얼굴 영상에 대하여 텍스처 렌더링을 수행하여 제2 타겟 입 형상의 얼굴 영상을 생성하는 과정은 전술한 실시예를 참조할 수 있다.

또한 제2 3D 얼굴 형상의 정점 정보의 투영 좌표에 따라 샘플링할 수 있어, 원초 입 형상의 얼굴 영상에 있는 정점에 대응하는 텍스처값, 즉 당해 정점이 새로운 자세투영의 변환을 통하여 대응하는 2D 평면 위치의 텍스처값을 획득한다. 정점 사이의 영역 렌더링은 이중선형보간을 사용하여 대응하는 점의 좌표를 계산하여 텍스처 렌더링을 샘플링한다. 상기 과정을 반복하면 최신 전체 얼굴의 사진에 대한 렌더링을 완성할 수 있으며 제2 타겟 입 형상의 얼굴 영상을 획득한다.

종합하면, 본 발명 실시예에 따른 가상 객체 이미지 합성 방법은, 한편으로는, 가상 객체 얼굴의 가상 객체 이미지 영상에 따라 원초 입 형상의 얼굴 영상의 자세를 조정하여 합성된 영상의 자연도를 개선하고, 다른 한편으로는, 가상 객체 얼굴의 3차원 자세에 따라 원초 입 형상의 얼굴 영상을 조정하여 합성된 영상의 기형감을 방지할 수 있다.

가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 합성할 때 전술한 실시예에서 설명된 방법 만으로 직집 합성하면 타겟 입 형상의 얼굴 영상의 텍스처와 가상 객체 이미지의 원초 텍스처는 선명한 경계감이 있을 수 있어 두자의 텍스처를 융합하여야 한다.

본 발명의 실시예에서, 도10에 도시된 바와 같이, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계는 하기와 같은 단계를 포함한다:

단계1001, 각 프레임의 타겟 입 형상의 얼굴 영상에 대응하는 아랫 얼굴 마스크를 생성한다.

본 실시예에서, 각 프레임의 타겟 입 형상의 얼굴 영상에 대응하는 아랫 얼굴 마스크를 생성하여 각 프레임의 타겟 입 형상의 얼굴 영상의 입 부분 영상을 보존하는 것을 확보할 수 있다.

본 발명의 실시예에서, 각 프레임의 타겟 입 형상의 얼굴 영상에 대해 가장자리 검출을 수행하여 얼굴의 가장자리 포인트를 획득하고, 얼굴의 가장자리 포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 전체 얼굴 마스크를 획득한다. 당해 고정값은 "1" 등과 같은 임의의 화소값 일 수 있고, 나아가, 콧등 중심의 키포인트를 참고하여 전체 얼굴 마스크에서 아랫 얼굴 마스크를 절취한다. 콧등 중심의 키포인트는 코끝 영역의 중심점으로 이해 가능하다.

단계1002, 아랫 얼굴 마스크에 따라 미리 설정된 제1 융합 알고리즘을 통하여 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 융합 처리하여 다중 프레임의 제1 융합 영상을 생성한다.

본 실시예에서, 아랫 얼굴 마스크에 따라 미리 설정된 제1 융합 알고리즘을 통하여 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 융합 처리하여 다중 프레임의 제1 융합 영상을 생성한다. 제1 융합 알고리즘은 Poisson 융합 알고리즘, Alpha알고리즘 등 일 수 있으며, 이에 제한되지 않는다.

단계1003, 다중 프레임의 제1 융합 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다.

제1 융합 영상에서 아랫 얼굴 영역이 아랫 얼굴 마스크에 따라 융합되어 타겟 입 형상의 얼굴 영상에서 아랫 얼굴의 윤곽 정보를 보존하였으며, 제1 융합 알고리즘이 타겟 입 형상의 얼굴 영상과 가상 객체 이미지 영상의 텍스처 융합을 구현할 수 있으므로 다중 프레임의 제1 융합 영상에 따라 합성된 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트에서 타겟 입 형상의 얼굴 영상의 입 형상 정보를 보존한 뿐만 아니라 합성후 텍스처 경계도 선명하지 않아 융합 효과가 더욱 자연스럽다.

융합의 자연감을 개선하기 위해, 본 발명의 실시예에서, 각 프레임의 타겟 입 형상의 얼굴 영상에 대응하는 제1 융합 영상을 생성한 후 각 프레임의 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 생성할 수 도 있다. 각 프레임의 타겟 입 형상의 얼굴 영상의 입 부분 가장자리의 키포인트를 추출하여 각각의 입 부분 가장자리의 키포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 초기 마스크를 생성한다. 당해 고정값은 1 등과 같은 값 일 수 있고 초기 마스크를 가우스 필터링하여 각 프레임의 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 획득할 수 있다.

더 나아가, 입 부분 영역 마스크에 따라 미리 설정된 제2 융합 알고리즘을 통하여 가상 객체 이미지 영상과 각 프레임의 제1 융합 영상을 융합 처리하여 다중 프레임의 제2 융합 영상을 생성한다. 제2 융합 알고리즘은 Poisson 융합 알고리즘, Alpha알고리즘 등 일 수 있으며, 이에 제한되지 않는다.

다중 프레임의 제2 융합 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다. 제2 융합 영상에서 입 부분 영역이 입 부분 마스크에 의해 융합되기 때문에 타겟 입 형상의 얼굴 영상에서 입 부분의 윤곽 정보를 보존하였으며, 제1 융합 알고리즘은 타겟 입 형상의 얼굴 영상과 가상 객체 이미지 영상의 텍스처 융합을 구현할 수 있으므로 다중 프레임의 제2 융합 영상에 따라 합성된 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트에서 타겟 입 형상의 얼굴 영상의 입 형상 정보를 보존한 뿐만 아니라 두자의 텍스처를 더욱 융합하여 융합후 표시 효과도 개선된다.

본 분야의 기술자들이 본 출원의 가상 객체 이미지 합성 방법을 더욱 잘 이해 하도록 이하에서 구체적인 장면과 결합하여 설명한다. 당해 장면에서, 제1 융합 알고리즘은 Poisson 융합 알고리즘이고, 제2 융합 알고리즘은 Alpha알고리즘이다.

도11(한 프레임의 원초 입 형상의 얼굴 영상을 예를 들어 표시함)에 도시된 바와 같이, 가상 객체 얼굴의 가상 객체 이미지 영상의 제1 3D 얼굴의 위치 및 자세 정보, 또한 원초 입 형상의 얼굴 영상의 제2 3D 얼굴 형상의 정점 정보, 제2 3D 얼굴의 위치 및 자세 정보를 획득한다.

나아가, 제1 3D 얼굴의 위치 및 자세 정보 또한 제2 3D 얼굴 형상의 정점 정보에 따라 제2 3D 얼굴 형상의 정점 정보에 대한 투영변환 등을 수행하여, 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제1 타겟 입 형상의 얼굴 영상을 생성한다. 이때 생성된 제1 타겟 입 형상의 얼굴 영상은 2D의 영상이다.

2D의 영상을 획득한 후 제2 3D 얼굴의 위치 및 자세 정보에 따라 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링을 수행하여 제2 타겟 입 형상의 얼굴 영상을 획득한다. 우선, 반쪽 얼굴 마스크에 따라 제2 타겟 입 형상의 얼굴 영상과 가상 객체 이미지 영상을 Poisson 융합하여, 제1 융합 영상을 획득하고, 그 다음에 입 부분 마스크에 따라 제1 융합 영상과 가상 객체 이미지 영상을 Alpha 융합하여, 제2 융합 영상을 획득하여, 당해 제2 융합 영상은 마지막 융합 영상으로 볼 수 있고, 다중 프레임의 제2 융합 영상을 기반하여 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 획득할 수 있다.

종합하면, 본 발명 실시예에 따른 가상 객체 이미지 합성 방법은 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 합병할 때 각 프레임의 타겟 입 형상의 얼굴 영상에 대하여 립 모습의 보존과 융합된 텍스처의 자연도를 동시에 고려하여, 융합후 영상의 자연도를 확보할 수 있다.

전술한 실시예를 구현하기 위해 본 발명은 가상 객체 이미지 합성 장치도 제공된다. 도12는 본 발명의 실시예에 따른 가상 객체 이미지 합성 장치의 구조 개략도이고, 도12에 도시된 바와 같이, 당해 가상 객체 이미지 합성 장치는 획득모듈(1210), 추출모듈(1220), 제1 생성모듈(1230), 제2 생성모듈(1240), 제3 생성모듈(1250) 및 합성모듈(1260)을 포함한다.

획득모듈(1210)은 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하는 단계에 사용되고;

추출모듈(1220)은 상기 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 상기 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하는 단계에 사용되고;

제1 생성모듈(1230)은 미리 설정된 알고리즘에 따라 상기 제1 얼굴 키포인트를 처리하여 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 단계에 사용되고;

제2 생성모듈(1240)은 미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 단계에 사용되고;

제3 생성모듈(1250)은 상기 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 상기 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 단계에 사용되고;

합성모듈(1260)은 상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계에 사용된다.

본 발명의 실시예에서, 제1 생성모듈(1230)은 구체적으로 다음 단계에 사용된다:

미리 설정된 변환 파라미터에 따라 상기 제1 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 제1 3D 얼굴의 메시 모델을 생성하고;

상기 제1 3D 얼굴의 메시 모델에서 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 추출하고, 상기 자세 정보는 피치 각도, 요 각도 및 롤 각도를 포함한다.

본 발명의 실시예에서, 상기 제2 생성모듈(1240)은 구체적으로 다음 단계에 사용된다:

미리 설정된 변환 파라미터에 따라 각각의 상기 제2 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 메시 모델을 생성하고;

각각의 상기 제2 3D 얼굴의 메시 모델에서 제2 3D 얼굴 형상의 정점 정보를 추출한다.

설명해야 하는 바로는, 전술한 가상 객체 이미지 합성 방법에 대한 해석과 설명은 본 발명의 실시예에 따른 가상 객체 이미지 합성 장치에도 적용되고, 구현 원리가 유사하므로 더 이상 설명하지 않는다.

종합하면, 본 발명 실시예에 따른 가상 객체 이미지 합성 장치는 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하고, 나아가, 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하고, 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하고, 또한 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하고, 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하고, 마지막으로, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다. 이로부터, 원초 입 형상의 얼굴 영상을 가상 객체 이미지 영상의 자세 및 위치로 조정하여 합병하므로, 합병후 영상 자연도가 향상되어 합병된 영상이 원초 입 형상의 얼굴 영상 대화 이미지를 진실감 있게 복원할 수 있도록 한다.

일부 가능한 실시예에서, 제3 생성모듈(1250)은 구체적으로 다음 단계에 사용된다:

미리 설정된 전환 알고리즘에 따라 상기 제1 3D 얼굴의 위치 및 자세 정보와 각각의 상기 제2 3D 얼굴 형상의 정점 정보를 각각 투영변환하여, 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제1 타겟 입 형상의 얼굴 영상을 생성한다.

본 발명의 실시예에서, 도13에 도시된 바와 같이, 도12에 도시된 기반에서 제3 생성모듈(1250)은 제1 생성유닛(1251), 획득유닛(1252), 및 제2 생성유닛(1253)을 포함하고,

제1 생성유닛(1251)은 미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 위치 및 자세 정보를 생성하는 단계에 사용되고;

획득유닛(1252)은 미리 설정된 투영변환 알고리즘에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에서 관련된 상기 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치의 텍스처 정보를 획득하는 단계에 사용되고;

제2 생성유닛(1253)은 상기 해당 위치의 텍스처 정보에 따라 각 프레임의 상기 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링을 수행하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 타겟 입 형상의 얼굴 영상을 생성하는 단계에 사용된다.

종합하면, 본 발명 실시예에 따른 가상 객체 이미지 합성 장치는, 한편으로는, 가상 객체 얼굴의 가상 객체 이미지 영상에 따라 원초 입 형상의 얼굴 영상의 자세를 조정하여 합성된 영상의 자연도를 개선하고, 다른 한편으로는, 가상 객체 얼굴의 3차원 자세에 따라 원초 입 형상의 얼굴 영상을 조정하여 합성된 영상의 기형감을 방지할 수 있다.

본 발명의 실시예에서, 도14에 도시된 바와 같이, 도12에 도시된 기반에서 합성모듈(1260)은 제3 생성유닛(1261), 제4 생성유닛(1262) 및 제1 합성유닛(1263)을 포함하고,

제3 생성유닛(1261)은 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 아랫 얼굴 마스크를 생성하는 하는 단계에 사용되고;

제4 생성유닛(1262)은 상기 아랫 얼굴 마스크에 따라 미리 설정된 제1 융합 알고리즘을 통하여 상기 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 융합 처리하여 다중 프레임의 제1 융합 영상을 생성하는 단계에 사용되고;

제1 합성유닛(1263)은 다중 프레임의 상기 제1 융합 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계에 사용된다.

본 발명의 실시예에서, 제3 생성유닛은 구체적으로 다음 단계에 사용된다:

각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대해 가장자리 검출을 수행하여 얼굴의 가장자리 포인트를 획득하는 단계;

상기 얼굴의 가장자리 포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 전체 얼굴 마스크를 획득하는 단계;

콧등 중심의 키포인트를 참고하여 상기 전체 얼굴 마스크에서 아랫 얼굴 마스크를 절취하는 단계.

본 발명의 실시예에서, 도15에 도시된 바와 같이, 도12에 도시된 기반에서 합성모듈(1260)은 제5 생성유닛(1264), 제6 생성유닛(1265) 및 제2 합성유닛(1266)을 포함하고,

제5 생성유닛(1264)은 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 생성하는 단계에 사용되고;

제6 생성유닛(1265)은 상기 입 부분 영역 마스크에 따라 미리 설정된 제2 융합 알고리즘을 통하여 상기 가상 객체 이미지 영상과 각 프레임의 상기 제1 융합 영상을 융합 처리하여 다중 프레임의 제2 융합 영상을 생성하는 단계에 사용되고;

상기 제2 합성유닛(1266)은 또한 다중 프레임의 상기 제2 융합 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계에 사용된다.

본 발명의 실시예에서, 제5 생성유닛(1264)은 구체적으로 다음 단계에 사용된다:

각 프레임의 상기 타겟 입 형상의 얼굴 영상의 입 부분 가장자리의 키포인트를 추출하는 단계;

각각의 상기 입 부분 가장자리의 키포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 초기 마스크를 생성하는 단계;

상기 초기 마스크를 가우스 필터링하여 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 획득하는 단계.

종합하면, 본 발명 실시예에 따른 가상 객체 이미지 합성 장치는 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상을 합병할 때 각 프레임의 타겟 입 형상의 얼굴 영상에 대하여 립 모습의 보존과 융합된 텍스처의 자연도를 동시에 고려하여, 융합후 영상의 자연도를 확보할 수 있다.

본 발명의 실시예에 따르면, 본 발명은 또한 전자 기기 및 판독 가능 저장 매체를 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 가상 객체 이미지 합성 방법이 실행된다.

도16은 본 발명의 실시예에 따른 가상 객체 이미지 합성 방법을 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 다양한 형태의 디지털 컴퓨터를 의미한다. 예를 들어, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터. 전자 기기는 또한 다양한 형태의 모바일 장치를 의미할 수 있다, 예를 들어, 개인용 디지털 처리, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치. 본 명세서에서 표시된 구성 요소, 이들의 연결 및 관계, 또한 이들의 기능은 단지 예일 뿐이며 여기에 설명 및/또는 수요되는 본 발명의 구현을 제한하려는 것이 아니다.

도16에 도시된 바와 같이, 당해 전자 기기는 하나 또는 하나 이상의 프로세서(1601), 메모리(1602) 및 고속 인터페이스와 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 공통 메인보드에 설치하거나 필요에 따라 다른 방식으로 설치할 수 도 있다. 프로세서는 전자 기기 내부에서 수행하는 명령을 처리할 수 있고, 메모리 내에 혹은 메모리 위에 저장한 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장비)에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 다른 실시예에서, 필요한 경우, 다수의 프로세서 및 다수의 버스와 다수의 메모리 중의 적어도 하나가 다수의 메모리와 함께 사용될 수있다. 마찬가지로 다수의 전자 기기를 연결할 수 있으며 각 기기는 필요한 작업의 일부를 제공한다 (예를 들어, 서버 어레이, 블레이드 서버 세트 또는 다중 프로세서 시스템). 도16에서는 프로세서(1601)가 예시로 도시되었다.

메모리(1602)는 본 발명에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리는 적어도 하나의 프로세서에 의해 수행 가능한 명령을 저장하므로, 상기 적어도 하나의 프로세서가 본 발명에서 제공되는 가상 객체 이미지 합성 방법을 수행한다. 본 발명의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 상기 컴퓨터 명령은 컴퓨터가 본 발명에서 제공되는 가상 객체 이미지 합성 방법을 수행하는데 사용된다.

비일시적 컴퓨터 판독 가능 저장 매체로서, 메모리(1602)는 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 수행 가능한 프로그램 및 본 발명의 실시예에 따른 가상 객체 이미지 합성 방법에 대응하는 프로그램 명령/모듈과 같은 모듈을 저장하는데 사용될 수 있다. 프로세서(1601)는 메모리(1602)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 수행함으로써 수행 서버의 다양한 기능적 응용 및 데이터 처리를 수행한다. 즉 전술한 방법 실시예에 따른 가상 객체 이미지 합성 방법을 구현한다.

메모리(1602)는 저장 프로그램 영역 및 저장 데이터 영역을 포함할 수 있으며, 여기서 저장 프로그램 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고, 저장 데이터 영역은 가상 객체 이미지 합성 방법에 따른 전자 기기 사용시 창립된 데이터 등을 저장할 수 있다. 또한, 메모리(1602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 비일시적 메모리를 포함할 수도 있다, 예를 들어 적어도 하나의 자기 디스크 메모리 장치, 플래시 메모리 장치 또는 기타 비일시적 솔리드 스테이트 메모리 장치. 일부 실시예에서, 메모리(1602)는 프로세서(1601)에 대해 원격으로 제공된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 가상 객체 이미지 합성 방법을 구현하기 위한 전자 기기에 연결될 수있다. 전술한 네트워크의 예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 제한되지 않는다.

가상 객체 이미지 합성 방법을 구현하기 위한 전자 기기는 입력 장치(1603) 및 출력 장치(804)를 더 포함할 수 있다. 프로세서(1601), 메모리(1602), 입력 장치(1603) 및 출력 장치(1604)는 버스 또는 다른 방식으로 연결될 수있고, 도16에서는 버스를 통한 연결을 예시로 도시 되었다.

입력 장치(1603)는 입력된 디지털 또는 문자 정보를 수신하고, 가상 객체 이미지 합성 방법을 구현하기 위한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있다, 예를 들어 터치 스크린, 작은 키보드, 마우스, 트랙 패드, 터치 패드, 명령 스틱, 하나 또는 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 및 기타 입력 장치. 출력 장치(1604)는 디스플레이 장비, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 디스플레이 장비는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 제한되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린 일 수있다.

본 명세서에 설명된 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및 이들의 조합 중의 적어도 하나으로 구현될 수 있다. 상기 다양한 실시 방식은 다음을 포함할 수 있다: 하나 또는 하나 이상의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템에서 수행 및/또는 해석될 수있다. 당해 프로그래밍 가능한 프로세서는 전용 또는 일반용 일 수있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고 또한 데이터 및 명령을 당해 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송한다.

이러한 계산 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 또는 코드라고도 함)에는 프로그래밍 가능한 프로세서에 대한 기계 명령가 포함되어 있으며, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 활용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래밍 가능한 논리 장치(PLD))에 제공하는 것을 의미하고, 기계 판독 가능 신호로 기계 명령을 수신하는 기계 판독 가능 매체도 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하는데 사용되는 모든 신호를 의미한다.

사용자와의 상호 작용을 제공하기 위해 여기에 설명된 시스템 및 기술은 컴퓨터에서 실시될 수 있다. 당해 컴퓨터는 다음을 포함한다: 사용자에게 정보를 표시하는 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이)를 갖춘 모니터); 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼). 다른 유형의 장치를 사용하여 사용자와의 상호 작용을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감지 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)이 될 수 있고, 사용자의 입력은 모든 형식(음향 입력, 음성 입력 또는 촉각 입력 포함)으로 받을 수 있다.

여기에 설명된 시스템 및 기술은 다음과 같은 컴퓨팅 시스템에서 실시될 수 있다: 백엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프런트 엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 갖춘 사용자 컴퓨터, 사용자가 당해 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 통하여 여기에 설명된 시스템 및 기술의 실시 방식과 상호 작용할 수 있다), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소 또는 프런트 엔드 구성 요소의 임의의 조합을 포한하는 컴퓨팅 시스템. 시스템의 구성 요소는 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 있다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 보통은 통신 네트워크를 통해 상호 작용한다. 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 해당 컴퓨터에서 수행되므로 클라이언트와 서버 간의 관계를 생성한다.

본 발명 실시예에 따른 기술 방안은 가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하고, 나아가, 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하고, 미리 설정된 알고리즘에 따라 제1 얼굴 키포인트를 처리하여 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하고, 또한 미리 설정된 알고리즘에 따라 각각의 제2 얼굴 키포인트를 처리하여 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하고, 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하고, 마지막으로, 가상 객체 이미지 영상과 각 프레임의 타겟 입 형상의 얼굴 영상에 따라 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성한다. 이로부터, 원초 입 형상의 얼굴 영상을 가상 객체 이미지 영상의 자세 및 위치로 조정하여 합병하므로, 합병후 영상 자연도가 향상되어 합병된 영상이 원초 입 형상의 얼굴 영상 대화 이미지를 진실감 있게 복원할 수 있도록 한다.

이해해야 하는 것은 위에 표시된 다양한 형태의 프로세스를 사용할 수 있음, 단계 재정렬, 추가 또는 삭제를 할 수 있다. 예를 들어, 본 명세서에서 설명된 각 단계들은 본 발명의 기술 방안에 따른 기대한 결과만 획득할 수 있으면 병렬로, 순차적으로 또는 다른 순서로 수행될 수 있으며, 이는 여기에 제한되지 않는다.

전술한 구체적인 실시 방식 들은 본 발명의 보호 범위에 대한 제한을 구성하지 않는다. 본 발명이 소속된 기술분야의 일반 지식을 장악한 당업자라면 본 발명의 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 발명의 보호 범위에 포함한다.

Claims

가상 객체 이미지 합성 방법에 있어서,
가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하는 단계;
상기 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 상기 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하는 단계;
미리 설정된 알고리즘에 따라 상기 제1 얼굴 키포인트를 처리하여 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 단계;
미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 단계;
상기 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 상기 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 단계; 및
상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제1항에 있어서,
상기 미리 설정된 알고리즘에 따라 상기 제1 얼굴 키포인트를 처리하여 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 단계는,
미리 설정된 변환 파라미터에 따라 상기 제1 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 제1 3D 얼굴의 메시 모델을 생성하는 단계; 및
상기 제1 3D 얼굴의 메시 모델에서 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 추출하는 단계 - 상기 자세 정보는 피치 각도, 요 각도 및 롤 각도를 포함함 -;를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제1항에 있어서,
상기 미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 단계는,
미리 설정된 변환 파라미터에 따라 각각의 상기 제2 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 메시 모델을 생성하는 단계; 및
각각의 상기 제2 3D 얼굴의 메시 모델에서 제2 3D 얼굴 형상의 정점 정보를 추출하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제1항에 있어서,
상기 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 상기 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 단계는,
미리 설정된 전환 알고리즘에 따라 상기 제1 3D 얼굴의 위치 및 자세 정보와 각각의 상기 제2 3D 얼굴 형상의 정점 정보를 각각 투영변환하여, 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제1 타겟 입 형상의 얼굴 영상을 생성하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제4항에 있어서,
상기 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제1 타겟 입 형상의 얼굴 영상을 생성하는 단계 이후,
미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 위치 및 자세 정보를 생성하는 단계;
미리 설정된 투영변환 알고리즘에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에서 관련된 상기 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치의 텍스처 정보를 획득하는 단계; 및
상기 해당 위치의 텍스처 정보에 따라 각 프레임의 상기 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링을 수행하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 타겟 입 형상의 얼굴 영상을 생성하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제1항에 있어서,
상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계는,
각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 아랫 얼굴 마스크를 생성하는 단계;
상기 아랫 얼굴 마스크에 따라 미리 설정된 제1 융합 알고리즘을 통하여 상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상을 융합 처리하여 다중 프레임의 제1 융합 영상을 생성하는 단계; 및
다중 프레임의 상기 제1 융합 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제6항에 있어서,
상기 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 아랫 얼굴 마스크를 생성하는 단계는,
각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대해 가장자리 검출을 수행하여 얼굴의 가장자리 포인트를 획득하는 단계;
상기 얼굴의 가장자리 포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 전체 얼굴 마스크를 획득하는 단계; 및
콧등 중심의 키포인트를 참고하여 상기 전체 얼굴 마스크에서 아랫 얼굴 마스크를 절취하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제6항에 있어서,
상기 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 제1 융합 영상을 생성하는 단계 이후,
각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 생성하는 단계;
상기 입 부분 영역 마스크에 따라 미리 설정된 제2 융합 알고리즘을 통하여 상기 가상 객체 이미지 영상과 각 프레임의 상기 제1 융합 영상을 융합 처리하여 다중 프레임의 제2 융합 영상을 생성하는 단계; 및
다중 프레임의 상기 제2 융합 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
제8항에 있어서,
상기 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 생성하는 단계는,
각 프레임의 상기 타겟 입 형상의 얼굴 영상의 입 부분 가장자리의 키포인트를 추출하는 단계;
각각의 상기 입 부분 가장자리의 키포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 초기 마스크를 생성하는 단계; 및
상기 초기 마스크를 가우스 필터링하여 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 획득하는 단계를 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 방법.
가상 객체 이미지 합성 장치에 있어서,
가상 객체 얼굴을 포함하는 가상 객체 이미지 영상 및 음성 세그먼트에 대응하는 다중 프레임의 원초 입 형상의 얼굴 영상을 획득하는 획득모듈;
상기 가상 객체 얼굴의 제1 얼굴 키포인트 및 각 프레임의 상기 원초 입 형상의 얼굴 영상의 제2 얼굴 키포인트를 추출하는 추출모듈;
미리 설정된 알고리즘에 따라 상기 제1 얼굴 키포인트를 처리하여 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 생성하는 제1 생성모듈;
미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴 형상의 정점 정보를 생성하는 제2 생성모듈;
상기 제1 3D 얼굴의 위치 및 자세 정보 및 각각의 상기 제2 3D 얼굴 형상의 정점 정보에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 타겟 입 형상의 얼굴 영상을 생성하는 제3 생성모듈; 및
상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 합성모듈을 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제10항에 있어서,
상기 제1 생성모듈은 구체적으로,
미리 설정된 변환 파라미터에 따라 상기 제1 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 제1 3D 얼굴의 메시 모델을 생성하는 단계; 및
상기 제1 3D 얼굴의 메시 모델에서 상기 가상 객체의 얼굴에 대응하는 제1 3D 얼굴의 위치 및 자세 정보를 추출하고, 상기 자세 정보는 피치 각도, 요 각도 및 롤 각도를 포함하는 단계에 사용되는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제11항에 있어서,
상기 제2 생성모듈은 구체적으로,
미리 설정된 변환 파라미터에 따라 각각의 상기 제2 얼굴 키포인트에 대한 좌표 전환 처리를 수행하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 메시 모델을 생성하고,
각각의 상기 제2 3D 얼굴의 메시 모델에서 제2 3D 얼굴 형상의 정점 정보를 추출하는데 사용되는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제10항에 있어서,
상기 제3 생성모듈은 구체적으로,
미리 설정된 전환 알고리즘에 따라 상기 제1 3D 얼굴의 위치 및 자세 정보와 각각의 상기 제2 3D 얼굴 형상의 정점 정보를 각각 투영변환하여, 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제1 타겟 입 형상의 얼굴 영상을 생성하는 단계에 사용되는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제13항에 있어서,
상기 제3 생성모듈은,
미리 설정된 알고리즘에 따라 각각의 상기 제2 얼굴 키포인트를 처리하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 3D 얼굴의 위치 및 자세 정보를 생성하는 제1 생성유닛;
미리 설정된 투영변환 알고리즘에 따라 각 프레임의 상기 원초 입 형상의 얼굴 영상에서 관련된 상기 제2 3D 얼굴의 위치 및 자세 정보에 대응하는 위치의 텍스처 정보를 획득하는 획득유닛; 및
상기 해당 위치의 텍스처 정보에 따라 각 프레임의 상기 제1 타겟 입 형상의 얼굴 영상에 대한 텍스처 렌더링을 수행하여 각 프레임의 상기 원초 입 형상의 얼굴 영상에 대응하는 제2 타겟 입 형상의 얼굴 영상을 생성하는 제2 생성유닛을 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제10항에 있어서,
상기 합성모듈은,
각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 아랫 얼굴 마스크를 생성하는 제3 생성유닛;
상기 아랫 얼굴 마스크에 따라 미리 설정된 제1 융합 알고리즘을 통하여 상기 가상 객체 이미지 영상과 각 프레임의 상기 타겟 입 형상의 얼굴 영상을 융합 처리하여 다중 프레임의 제1 융합 영상을 생성하는 제4 생성유닛; 및
다중 프레임의 상기 제1 융합 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 제1 합성유닛을 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제15항에 있어서,
상기 제3 생성유닛은 구체적으로,
각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대해 가장자리 검출을 수행하여 얼굴의 가장자리 포인트를 획득하는 단계;
상기 얼굴의 가장자리 포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 전체 얼굴 마스크를 획득하는 단계; 및
콧등 중심의 키포인트를 참고하여 상기 전체 얼굴 마스크에서 아랫 얼굴 마스크를 절취하는 단계에 사용되는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제10항에 있어서,
상기 합성모듈은,
각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 생성하는 제5 생성유닛;
상기 입 부분 영역 마스크에 따라 미리 설정된 제2 융합 알고리즘을 통하여 상기 가상 객체 이미지 영상과 각 프레임의 상기 제1 융합 영상을 융합 처리하여 다중 프레임의 제2 융합 영상을 생성하는 제6 생성유닛; 및
다중 프레임의 상기 제2 융합 영상에 따라 상기 음성 세그먼트에 대응하는 가상 객체 대화 이미지 세그먼트를 합성하는 제2 합성유닛을 포함하는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
제17항에 있어서,
상기 제5 생성유닛은 구체적으로,
각 프레임의 상기 타겟 입 형상의 얼굴 영상의 입 부분 가장자리의 키포인트를 추출하는 단계;
각각의 상기 입 부분 가장자리의 키포인트를 연결하여 폐쇄된 영역을 구성하고 고정값으로 채워서 초기 마스크를 생성하고;
상기 초기 마스크를 가우스 필터링하여 각 프레임의 상기 타겟 입 형상의 얼굴 영상에 대응하는 입 부분 영역 마스크를 획득하는데 사용되는 것,
을 특징으로 하는 가상 객체 이미지 합성 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제9항 중 어느 한 항에 따른 가상 객체 이미지 합성 방법을 수행하도록 하는 것,
을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제9항 중 어느 한 항에 따른 가상 객체 이미지 합성 방법을 수행하도록 하는 것,
을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 가상 객체 이미지 합성 방법이 실행되는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.