KR20210157877A

KR20210157877A - 얼굴 편집 방법, 장치, 전자 기기 및 판독 가능 기록 매체

Info

Publication number: KR20210157877A
Application number: KR1020210077701A
Authority: KR
Inventors: 티안슈 후; 지아밍 류; 셩이 허; 즈빈 홍
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-06-22
Filing date: 2021-06-15
Publication date: 2021-12-29
Also published as: EP3929876B1; JP2022002093A; CN111861954A; US20210398335A1; JP7393388B2; EP3929876A1; KR102495252B1

Abstract

본 출원은 얼굴 편집 방법, 장치, 전자 기기 및 판독 가능 기록 매체를 공개하였으며, 이미지 처리, 딥 러닝 기술 분야에 관한 것이다. 본 출원의 얼굴을 편집할 경우 사용하는 구현 방법은 다음과 같다： 처리될 이미지 중 얼굴 이미지를 획득하며； 편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성하며； 상기 속성 이미지에 대해 시맨틱 분할한 후, 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성하며； 상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여 결과 이미지를 생성한다. 본 출원은 다양한 요구 사항에서 얼굴 중 서로 다른 부위의 자유 편집을 구현하여,얼굴 편집의 유연성을 증가한다.

Description

얼굴 편집 방법, 장치, 전자 기기 및 판독 가능 기록 매체 {METHOD, DEVICE, ELECTRONIC EQUIPMENT AND READABLE STORAGE MEDIUM FOR EDITING HUMAN FACE}

본 출원은 인터넷 기술 분야에 관한 것이고, 특히 이미지 처리, 딥 러닝 기술 분야에서 얼굴 편집 방법, 장치, 전자 기기 및 판독 가능 기록 매체에 관한 것이다.

현재, 짧은 동영상류, 라이브 스트리밍류는 점점 더 많은 사용자에 의하여 널리 사용되고 있다. 그리고 이러한 응용 프로그램에는 예를 들면 얼굴 메이크업, 얼굴 가소성, 얼굴 편집, 애니메이션 트리거 효과 등 얼굴과 관련된 대화형 기능(interactive function)이 포함되어 있다.

그중, 종래 기술은 일반적으로 얼굴 편집을 실현하기 위해 미리 설정된 스티커와 얼굴 융합을 사용한다. 그러나 얼굴 편집을 위해 인공적으로 스티커를 설정하는 방법은 한편으로 비용이 많이 들고, 다른 한편으로 모든 사용자가 하나의 스티커 세트를 사용하므로 다양한 요구 사항에서 얼굴 중 서로 다른 부분을 자유롭게 편집하는 것을 구현할 수 없다.

본 출원의 기술 문제를 해결하기 위해 사용한 기술 구성은 얼굴 편집 방법을 제공하는 것이며, 다음 단계를 포함한다: 처리될 이미지 중 얼굴 이미지를 획득한다； 편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성한다； 상기 속성 이미지에 대해 시맨틱 분할한 후 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성한다； 상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여 결과 이미지를 생성한다.

본 출원의 기술 문제를 해결하기 위해 사용한 기술 구성은 얼굴 편집 장치를 제공하며, 당해 장치는： 처리될 이미지 중 얼굴 이미지를 획득하는 획득 유닛； 편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성하는 전환 유닛； 상기 속성 이미지에 대해 시맨틱 분할을 수행한 후, 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성하는 처리 유닛； 상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여 결과 이미지를 생성하는 융합 유닛을 포함한다.

상술한 출원의 하나의 실시예는 구체적으로 다음과 같은 이점 또는 유익한 효과를 구비한다： 본 출원은 얼굴 편집 코스트를 감소할 수 있으므로 서로 다른 요구 사항에서 얼굴 중 서로 다른 부위의 자유 편집에 대해 얼굴 편집의 유연성을 증가한다. 편집 속성 처리에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성하는 기술 수단을 사용하므로 종래 기술 중 스티커에 의해 얼굴 융합을 수행하여 나타나는 코스트가 높고, 편집 유연성이 비교적 낮은 기술 문제를 해소하여 얼굴 편집의 유연성을 증가하는 기술 효과를 구현하였다.

상술한 가능한 선택 방법이 가지는 다른 효과는 아래에서 구체적인 실시예를 결합하여 설명한다.

도면은 본 기술적 해결책을 더 잘 이해하기 위하여 이용되며 본 발명을 제한하지 않는다.
도 1은 본 출원 제1 실시예에 따른 개략도이다.
도 2A~2E는 본 출원 제2 실시예에 따른 개략도이다.
도 3은 본 출원 제3 실시예에 따른 개략도이다.
도 4는 본 출원 실시예의 얼굴 편집 방법의 전자 기기의 블럭도이다.

이하, 도면을 참조하여 본 출원의 시범적인 실시예를 기술하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 기술에서는 잘 알려진 기능 및 구조의 기술을 생략하였다.

도 1은 본 출원 제1 실시예의 개략도이다. 도 1에 나타낸 바와 같이, 본 실시예의 얼굴 편집 방법은 구체적으로 다음과 같은 단계를 포함한다：

단계 S101, 처리될 이미지의 얼굴 이미지(face image)를 획득한다；

단계 S102, 편집 속성(editing attribute)에 따라 상기 얼굴 이미지에 대해 속성 전환(attribute conversion)을 수행하여 속성 이미지(attribute image)를 생성한다；

단계 S103, 상기 속성 이미지에 대해 시맨틱 분할(semantic segmentation)한 후, 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지(mask image)를 생성한다 ；

단계 S104, 상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여 결과 이미지(result image)를 생성한다.

본 실시예의 얼굴 편집 방법은 다양한 요구 사항에서의 얼굴 중 서로 다른 부위에 대한 자유 편집을 구현할 수 있으므로 얼굴 편집의 유연성을 증가한다.

본 실시예의 처리될 이미지는 하나의 이미지일 수 있고, 동영상에서 분해하여 얻은 각각의 프레임 이미지일 수도 있다. 본 실시예의 처리될 이미지가 동영상의 각각의 프레임 이미지일 경우 대응하는 각각의 프레임 이미지의 결과 이미지를 획득한 후 각각의 결과 이미지를 차례로 조합하여 결과 동영상을 생성한다.

본 실시예는 처리될 이미지의 얼굴 이미지를 획득할 경우 다음과 같은 방식을 사용할 수 있다： 처리될 이미지에 대해 얼굴 특징점을 검출하고, 얼굴 특징점 정보를 획득한다； 획득된 얼굴 특징점 정보에 따라 처리될 이미지에서 얼굴 이미지를 얻는다.

본 실시예는 또한 미리 훈련하여 얻은 신경망 모형을 사용하여 이미지에서 얼굴 이미지를 획득할 수 있음을 이해할 수 있으며, 본 실시예는 얼굴 이미지를 획득하는 방법에 대해 한정하지 않는다.

다양한 처리될 이미지는 서로 다른 사이즈를 가질 수 있으므로 서로 다른 사이즈의 처리될 이미지에 대해 모두 얼굴 편집을 완성할 수 있도록 하기 위해, 본 실시예는 얼굴 이미지를 획득한 후, 얼굴 이미지를 미리 설정된 사이즈로 아핀 변환(affine transform)할 수 있으며, 그중 미리 설정된 사이즈는 256*256일 수 있다.

더 좋은 효과의 속성 이미지를 획득하기 위해 본 실시예는 편집 속성에 따라 얼굴 이미지에 대해 속성 전환하기 전에, 다음 내용을 포함할 수 있다： 얼굴 이미지에 대해 편집 속성(editing attribute)에 대응하는 전처리를 수행하며 그중 다양한 편집 속성은 서로 다른 전처리에 대응된다.

예를 들면, 편집 속성이 “젊어짐”이고, 당해 편집 속성에 대응하는 전처리가 warp(변형)일 경우, 본 실시예는 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하기 전에 수행한 전처리는 얼굴 이미지 중 얼굴의 아래턱을 작아지게 하는 것이다； 편집 속성이 “여자로 변함”이고, 당해 편집 속성에 대응하는 전처리가 padding(패딩)일 경우, 본 실시예는 편집 속성에 따라 얼굴 이미지에 대해 속성 전환하기 전에 수행한 전처리는 얼굴 이미지 중 배경을 패딩하는 것이다(즉 머리를 패딩).

본 실시예는 얼굴 이미지를 획득한 후, 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하여 얼굴 이미지에 대응하는 속성 이미지를 생성한다. 그중, 본 실시예의 편집 속성은 성별 속성 및 연령 속성 중 적어도 한 가지를 포함하고, 성별 속성은 남자로 변함 또는 여자로 변함을 포함하고, 연령 속성은 젊어짐 또는 늙어짐을 포함하며, 즉 본 실시예는 이미지 중 얼굴의 성별 및/또는 연령을 전환한다.

따라서, 본 실시예에서 생성된 속성 이미지에서, 얼굴의 속성이 변화된 것 이외에, 이미지 중 얼굴의 신분, 표정, 자태 등 특징은 변화하지 않았다. 편집 속성이 “늙어짐”을 예로 들 때, 본 실시예는 유저 A의 한 청년 얼굴 이미지를 입력한 후, 생성된 속성 이미지는 유저 A의 하나의 노년 얼굴 이미지이고, 노년 이미지 중 유저 A의 표정, 자태 등 특징은 모두 청년 이미지에서와 일치하다.

본 실시예의 편집 속성은 유저의 선택에 따라 결정할 수 있다. 본 실시예는 또한 현재 속성에 대응하는 속성에 따라 편집 속성을 결정할 수 있다. 현재 속성은 젊음이고, 현재 속성에 대응하는 속성은 늙음이면, 편집 속성은 “늙어짐”이고； 현재 속성이 여성이고, 현재 속성에 대응하는 속성이 남성이면, 편집 속성은 “남자로 변함”일 수 있다.

본 실시예는 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성할 경우, 편집 속성에 대응하는 스티커를 먼저 획득하고, 다음 획득된 스티커와 얼굴 이미지를 융합하여 속성 이미지를 얻는다.

본 실시예는 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성할 경우, 다음 방식을 사용할 수 있다： 편집 속성 및 얼굴 이미지를 미리 훈련하여 얻은 속성 편집 모형에 입력하고, 속성 편집 모형의 출력 결과를 속성 이미지로 한다. 그중, 본 실시예의 속성 편집 모형은 딥 러닝 신경망에 속하며, 편집 속성에 따라 자동적으로 얼굴 이미지 중 얼굴의 속성에 대해 편집하여, 속성 전환 후의 속성 이미지를 얻는다.

본 실시예의 속성 편집 모형은 생성 적대 신경망의 생성 모형이고, 생성 적대 신경망 훈련 시 전경 이미지, 융합 마스크, 및 배경 이미지에 대해 동시에 모델링 하는 방식을 통해 훈련하여 얻은 생성 모형이 생성 속성 이미지 중 배경의 소실 부분을 채울 수 있도록 하여 전환 효과가 더 좋은 속성 이미지를 얻는 것을 이해할 수 있다.

본 실시예는 대응하는 얼굴 이미지의 속성 이미지를 획득한 후, 우선 생성된 속성 이미지에 대해 시맨틱 분할을 수행하여 시맨틱 분할 이미지를 얻은 후 편집 속성에 따라 획득된 시맨틱 분할 이미지에 대해 처리하여 마스크 이미지를 생성한다. 그중, 본 실시예의 생성된 마스크 이미지는 0과 1로 조성된 이진 이미지(binary image)이고 당해 마스크 이미지는 이미지 융합 영역을 제어하는데 사용되며 마스크 이미지 중 픽셀 값이 1인 영역은 속성 이미지 중 내용을 선택하며 픽셀 값이 0인 영역은 처리될 이미지 중 내용을 선택한다.

여기서, 본 실시예에서 수행하는 시맨틱 분할은 속성 이미지 중 얼굴의 각각의 부분에 대해 분할하는 것이다. 예를 들면, 얼굴의 눈, 코, 입, 눈썹, 머리 등 부위를 구분하여 시맨틱 분할 이미지에서 서로 다른 색채로 서로 다른 부위를 표시한다. 본 실시예는 종래 기술을 사용하여 속성 이미지에 대해 시맨틱 분할하여 시맨틱 분할 이미지를 얻을 수 있으며, 여기서 생략한다.

본 실시예는 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성할 경우, 다음 방식을 사용할 수 있다： 편집 속성에 대응하는 편집 부위를 결정하고 서로 다른 편집 속성에 대응하는 편집 부위는 다르다； 시맨틱 분할 이미지 중 결정된 편집 부위에 속하는 픽셀의 값을 1로 설정하고, 기타 픽셀의 값을 0으로 설정하여 마스크 이미지를 얻는다.

예를 들면, 편집 속성이 “늙어짐”일 경우, 당해 편집 속성의 편집 부위가 눈, 코, 입, 눈썹, 아래턱, 볼, 이마일 경우, 시맨틱 분할 이미지 중 상술한 부위에 속하는 픽셀의 값을 1로 설정하고, 다른 픽셀의 값을 0으로 설정한다； 편집 속성이 “여자로 변함”일 경우, 당해 편집 속성의 편집 부위가 눈, 입, 눈썹, 아래턱일 경우, 시맨틱 분할 이미지 중 상술한 부위에 속하는 픽셀의 값을 1로 설정하고, 다른 픽셀의 값을 0으로 설정한다.

따라서, 본 실시예는 편집 속성을 결합하는 것을 통해 시맨틱 분할 이미지를 처리하여, 생성된 마스크 이미지가 서로 다른 편집 속성에 대응하도록 하여 서로 다른 요구 사항에서 얼굴 중 서로 다른 부위에 대해 자유 편집하는 목적을 구현한다.

본 실시예는 마스크 이미지를 생성한 후, 생성된 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합하여 처리될 이미지에 대응하는 결과 이미지를 생성한다.

또한, 본 실시예는 생성된 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합하기 전에 다음 내용을 더 포함할 수 있다： 속성 이미지에 대해 초 고해상도 처리를 수행하여 고화질 속성 이미지를 생성한다 ； 마스크 이미지를 이용하여 고화질 속성 이미지와 처리될 이미지를 융합한다.

본 실시예는 초 고해상도 처리를 통해 고화질 속성 이미지를 얻으며 한편으로 속성 이미지의 사이즈(예를 들면 256*256의 이미지를 512*512의 이미지로 확대한다)를 확대하여 유저 얼굴의 사이즈에 더욱 양호하게 매칭할 수 있다； 다른 한편으로 속성 이미지에 존재하는 모호함을 삭제할 수 있다.

속성 이미지와 처리될 이미지 사이의 융합의 정확성을 향상시키기 위해 본 실시예는 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합할 경우, 다음 방식을 사용할 수 있다： 얼굴 위치에 따라 마스크 이미지, 속성 이미지, 및 처리될 이미지를 정렬한다； 처리될 이미지 중에서 마스크 이미지 중의 픽셀 값이 0인 영역에 대응하는 영역을 결정하고, 당해 영역의 이미지 내용이 변하지 않도록 유지한다； 처리될 이미지 중에서 마스크 이미지 중의 픽셀 값이 1인 영역에 대응하는 영역을 결정하고, 당해 영역의 이미지 내용을 속성 이미지 중 대응하는 영역의 이미지 내용으로 교체한다.

다시 말하면, 본 실시예는 생성된 마스크 이미지에 따라 속성 이미지와 처리될 이미지를 융합한다. 마스크 이미지와 편집 속성이 서로 대응되므로 속성 이미지 중 대응하는 이미지 내용만으로 처리될 이미지 중 이미지 내용을 대체하여 다양한 요구 사항에서 얼굴 중 서로 다른 부위에 대한 자유 편집의 목표를 구현하여 얼굴 편집의 유연성을 향상시킨다.

본 실시예가 얼굴 이미지를 획득한 후 사이즈 변환을 수행할 경우, 본 실시예는 얼굴 위치에 따라 마스크 이미지, 속성 이미지, 및 처리될 이미지를 정렬 시, 마스크 이미지 및 속성 이미지의 사이즈를 처리될 이미지 중 얼굴의 사이즈로 변환하여야 하는 것을 이해할 수 있다.

본 실시예에서 공개한 상술한 방법을 통해, 우선 편집 속성에 따라 얼굴 이미지를 전환하여 속성 이미지를 생성한 후, 편집 속성에 따라 속성 이미지를 처리하여 마스크 이미지를 생성하며, 마지막에 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합하여 결과 이미지를 생성하며, 다양한 요구 사항에서 얼굴 중 서로 다른 부위에 대한 자유 편집을 구현할 수 있으므로 얼굴 편집의 유연성을 증가한다.

도 2A~2E는 본 출원 제2 실시예에 따른 개략도이며, 도 2A는 처리될 이미지 및 그중 얼굴 이미지이고, 도 2B는 얼굴 이미지의 속성 이미지이고, 도 2C는 속성 이미지의 시맨틱 분할 이미지 및 마스크 이미지이고, 도 2D는 속성 이미지의 사이즈를 2배로 확대한 고화질 속성 이미지이고, 도 2E는 처리될 이미지의 결과 이미지이다. 당해 결과 이미지는 처리될 이미지와 비교할 때, 마스크 이미지 중 대응하는 부위의 얼굴 속성(늙어짐)이 변화된 것 이외에, 다른 특징은 모두 변화하지 않았다.

도 3은 본 출원 제3 실시예에 따른 개략도이다. 도 3에 나타낸 바와 같이, 본 실시예의 얼굴 편집 장치는 다음을 포함한다：

획득 유닛(301), 처리될 이미지 중 얼굴 이미지를 획득한다；

전환 유닛(302), 편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성한다；

처리 유닛(303), 상기 속성 이미지에 대해 시맨틱 분할한 후, 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성한다；

융합 유닛(304), 상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여 결과 이미지를 생성한다.

본 실시예의 획득 유닛(301)은 처리될 이미지 중 얼굴 이미지를 획득할 경우, 다음 방식을 사용할 수 있다： 처리될 이미지에 대해 얼굴 특징점을 검출하고, 얼굴 특징점 정보를 획득한다； 획득된 얼굴 특징점 정보에 따라 처리될 이미지에서 얼굴 이미지를 얻는다.

획득 유닛(301)은 미리 훈련하여 얻은 신경망 모형을 사용하여 이미지에서 얼굴 이미지를 획득할 수 있음을 이해할 수 있으며, 본 실시예는 얼굴 이미지를 획득하는 방식을 한정하지 않는다.

서로 다른 처리될 이미지는 서로 다른 사이즈를 가질 수 있으므로, 서로 다른 사이즈의 처리될 이미지에 대해 모두 얼굴의 편집을 완성할 수 있도록 하기 위해, 획득 유닛(301)은 얼굴 이미지를 획득한 후, 얼굴 이미지를 미리 설정된 사이즈로 아핀 변환할 수 있으며, 그중 미리 설정된 사이즈는 256*256일 수 있다.

효과가 더 좋은 속성 이미지를 획득할 수 있도록 하기 위해, 전환 유닛(302)은 편집 속성에 따라 얼굴 이미지에 대해 속성 전환하기 전에 다음 내용을 포함할 수 있다： 얼굴 이미지에 대해 편집 속성에 대응하는 전처리를 수행하며, 그중 서로 다른 편집 속성은 서로 다른 전처리에 대응한다.

본 실시예는 획득 유닛(301)이 얼굴 이미지를 획득한 후, 전환 유닛(302)에 의해 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하여, 얼굴 이미지에 대응하는 속성 이미지를 생성한다. 그중, 전환 유닛(302) 중 편집 속성은 성별 속성 및 연령 속성 중 적어도 한 가지를 포함하며, 성별 속성은 남자로 변함 또는 여자로 변함을 포함하며, 연령 속성은 젊어짐 또는 늙어짐을 포함하며, 즉 전환 유닛(302)은 이미지 중 얼굴의 성별 및/또는 연령에 대해 전환한다.

따라서, 전환 유닛(302)에 의해 생성된 속성 이미지에서 얼굴의 속성이 변화된 것 이외에 이미지 중 얼굴의 신분, 표정, 자태 등 특징은 모두 변하지 않는다.

전환 유닛(302) 중 편집 속성은 유저의 선택에 따라 결정될 수 있다. 전환 유닛(302)은 또한 현재 속성에 대응하는 속성에 따라 편집 속성을 결정할 수 있다.

전환 유닛(302)은 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성할 경우, 우선 편집 속성에 대응하는 스티커를 획득할 수 있으며, 다음 획득된 스티커와 얼굴 이미지를 융합하여 속성 이미지를 얻는다.

전환 유닛(302)은 편집 속성에 따라 얼굴 이미지에 대해 속성 전환을 수행하여 속성 이미지를 생성할 경우, 또한 다음 방식을 사용할 수 있다： 편집 속성 및 얼굴 이미지를 미리 훈련하여 얻은 속성 편집 모형에 입력하고, 속성 편집 모형의 출력 결과를 속성 이미지로 한다. 그중, 전환 유닛(302) 중 속성 편집 모형은 편집 속성에 따라 자동적으로 얼굴 이미지 중 얼굴의 속성에 대해 편집하여, 속성 전환 후의 속성 이미지를 얻는다.

본 실시예는 전환 유닛(302)에 의해 대응하는 얼굴 이미지의 속성 이미지를 획득한 후, 처리 유닛(303)에 의해 우선 생성된 속성 이미지에 대해 시맨틱 분할을 수행하여 시맨틱 분할 이미지를 획득한다. 다음 편집 속성에 따라 획득된 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성한다. 그중, 처리 유닛(303)에 의해 생성된 마스크 이미지는 0과 1로 조성된 하나의 이진 이미지(binary image)이고, 당해 마스크 이미지는 이미지 융합의 영역을 제어하는데 사용되며, 마스크 이미지 중 픽셀 값이 1인 영역은 속성 이미지 중 내용을 선택하고, 픽셀 값이 0인 영역은 처리될 이미지 중 내용을 선택한다.

그중, 처리 유닛(303)에 의해 수행되는 시맨틱 분할은 속성 이미지 중 얼굴의 각각의 부위에 대해 분할하는 것이다. 예를 들면 얼굴의 눈, 코, 입, 눈썹, 머리 등 부위를 구분하여 시맨틱 분할 이미지에서 서로 다른 색채를 사용하여 서로 다른 부위를 표시한다.

처리 유닛(303)은 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성할 경우, 다음 방식을 사용할 수 있다： 편집 속성에 대응하는 편집 부위를 결정하고, 서로 다른 편집 속성에 대응하는 편집 부위는 다르다； 시맨틱 분할 이미지 중 결정된 편집 부위에 속하는 픽셀의 값을 1로 설정하고, 다른 픽셀의 값을 0으로 설정하여 마스크 이미지를 얻는다.

따라서, 처리 유닛(303)은 편집 속성을 결합하여 시맨틱 분할 이미지를 처리하여, 생성된 마스크 이미지로 하여금 서로 다른 편집 속성에 대응하도록 하여, 서로 다른 요구 사항에서 얼굴 중 서로 다른 부위에 대해 자유 편집하는 목적을 구현한다.

처리 유닛(303)은 마스크 이미지를 생성한 후, 융합 유닛(304)에 의해 생성된 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합하여 처리될 이미지에 대응하는 결과 이미지를 생성한다.

또한, 융합 유닛(304)은 생성된 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합하기 전에, 다음 내용을 포함할 수 있다： 속성 이미지에 대해 초 고해상도 처리를 수행하여 고화질 속성 이미지를 생성한다； 마스크 이미지를 이용하여 고화질 속성 이미지와 처리될 이미지를 융합한다.

융합 유닛(304)은 초 고해상도 처리에 의해 고화질 속성 이미지를 얻고 한편으로 속성 이미지의 사이즈(예를 들면 256*256의 이미지를 512*512의 이미지로 확대한다)를 확대할 수 있으므로, 유저 얼굴의 사이즈를 더욱 양호하게 매칭한다 ； 다른 한편으로 속성 이미지에 존재하는 모호함을 삭제할 수 있다.

속성 이미지와 처리될 이미지 사이의 융합의 정확성을 향상시키기 위해, 융합 유닛(304)은 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합할 경우, 다음 방식을 사용할 수 있다： 얼굴 위치에 따라 마스크 이미지, 속성 이미지, 및 처리될 이미지를 정렬한다； 처리될 이미지 중에서 마스크 이미지 중의 픽셀 값이 0인 영역에 대응하는 영역을 결정하고, 당해 영역의 이미지 내용이 변하지 않도록 유지한다； 처리될 이미지 중에서 마스크 이미지 중의 픽셀 값이 1인 영역에 대응하는 영역을 결정하고, 당해 영역의 이미지 내용을 속성 이미지 중 대응하는 영역의 이미지 내용으로 교체한다.

다시 말하면, 융합 유닛(304)은 생성된 마스크 이미지에 따라 속성 이미지와 처리될 이미지를 융합하며, 마스크 이미지와 편집 속성이 대응되므로, 속성 이미지 중 대응되는 이미지 내용만 사용하여 처리될 이미지 중 이미지 내용을 교체하여, 다양한 요구 사항에서 얼굴 중 서로 다른 부위에 대해 자유 편집하는 목적을 구현하여 얼굴 편집의 유연성을 향상시킨다.

획득 유닛(301)이 얼굴 이미지를 획득한 후 사이즈 변환을 수행하면, 융합 유닛(304)은 얼굴 위치에 따라 마스크 이미지, 속성 이미지, 및 처리될 이미지를 정렬할 경우, 또한 마스크 이미지 및 속성 이미지의 사이즈를 처리될 이미지 중 얼굴의 사이즈로 변환해야 하는 것을 이해할 수 있다.

본 출원 실시예에 따르면, 본 출원은 전자 기기 및 컴퓨터 판독 가능 기록 매체를 제공한다.

도 4에 나타낸 바와 같이, 본 출원 실시예의 얼굴 편집 방법의 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 기술하거나 및/또는 요구하는 본 발명의 구현을 한정하려는 것이 아니다.

도 4에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(401), 메모리(402), 및 각각의 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 수행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 (예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 4에서는 하나의 프로세서(401)의 예를 들었다.

메모리(402)는 본 출원에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 출원에 의해 제공되는 얼굴 편집 방법을 수행하도록 한다. 본 출원의 비 일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 기억하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본 출원에 의해 제공되는 얼굴 편집 방법을 수행하도록 한다.

메모리(402)는 일종의 비 일시적 컴퓨터 판독 가능 기록 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈을 기억하는데 사용될 수 있는 바, 예를 들면 본 출원 실시예의 얼굴 편집 방법에 대응하는 프로그램 명령/모듈(예를 들면, 도 3에 나타낸 획득 유닛(301), 전환 유닛(302), 처리 유닛(303) 및 융합 유닛(304))을 기억하는데 사용될 수 있다. 프로세서(401)는 메모리(402) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 상술한 방법 실시예의 얼굴 편집 방법을 구현한다.

메모리(402)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 앱을 기억할 수 있고, 데이터 기억 영역은 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(402)는 선택적으로 프로세서(401)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

얼굴 편집 전자 기기는 입력 장치(403)와 출력 장치(404)를 더 포함할 수 있다. 프로세서(401), 메모리(402), 입력 장치(403) 및 출력 장치(404)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 4에서는 버스를 통해 연결하는 예를 들었다.

입력 장치(403)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 얼굴 편집 전자 기기의 유저 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(404)는 디스플레이 기기, 보조 조명 장치(예를 들면 LED) 및 촉각 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기억 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 계산 프로그램 (프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 (예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 (예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 (예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.

여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템 (예를 들면 응용 서버), 또는 프런트엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 (예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 수행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.

본 출원 실시예의 기술 구성에 따르면, 우선 편집 속성에 따라 얼굴 이미지를 전환시켜 속성 이미지를 생성하고, 다음 편집 속성에 따라 속성 이미지를 처리하여 마스크 이미지를 생성하며 마지막에 마스크 이미지를 이용하여 속성 이미지와 처리될 이미지를 융합하여 결과 이미지를 생성하며, 다양한 요구 사항에서 얼굴 중 서로 다른 부위의 자유 편집을 구현할 수 있으므로 얼굴 편집의 유연성을 증가한다.

상기에 나타낸 다양한 형태의 흐름을 이용하여 단어를 재정렬, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각각의 단계는 병렬로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 구현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 수행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

처리될 이미지 중 얼굴 이미지(face image)를 획득하는 단계；
편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하여, 속성 이미지(attribute image)를 생성하는 단계；
상기 속성 이미지에 대해 시맨틱 분할한 후, 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여, 마스크 이미지(mask image)를 생성하는 단계； 및
상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여, 결과 이미지(result image)를 생성하는 단계;
를 포함하는,
얼굴 편집 방법.
제1항에 있어서,
처리될 이미지 중 얼굴 이미지를 획득하는 단계의 후에,
상기 얼굴 이미지를 미리 설정된 사이즈로 변환하는 단계
를 더 포함하는,
얼굴 편집 방법.
제1항에 있어서,
편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하는 단계의 전에,
상기 얼굴 이미지에 대해 상기 편집 속성에 대응하는 전처리를 수행하는 단계
를 더 포함하는,
얼굴 편집 방법.
제1항에 있어서,
상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여, 마스크 이미지를 생성하는 단계는：
상기 편집 속성에 대응하는 편집 부위를 결정하는 단계； 및
시맨틱 분할 이미지 중 상기 편집 부위에 속하는 픽셀의 값을 1로 설정하고 다른 픽셀의 값을 0으로 설정하여 마스크 이미지를 얻는 단계;
를 포함하는,
얼굴 편집 방법.
제1항에 있어서,
상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하는 단계의 전에,
상기 속성 이미지에 대해 초 고해상도 분할을 수행하여 고화질 속성 이미지를 생성하는 단계； 및
상기 마스크 이미지를 이용하여 상기 고화질 속성 이미지와 상기 처리될 이미지를 융합하는 단계;
를 더 포함하는,
얼굴 편집 방법.
제1항에 있어서,
상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여, 결과 이미지를 생성하는 단계는：
얼굴 위치에 따라 상기 마스크 이미지, 상기 속성 이미지 및 상기 처리될 이미지를 정렬하는 단계；
상기 처리될 이미지 중에서 상기 마스크 이미지 중의 픽셀 값이 0인 영역에 대응하는 영역을 결정하고, 상기 영역의 이미지 내용이 변하지 않도록 유지하는 단계； 및
상기 처리될 이미지 중에서 상기 마스크 이미지 중의 픽셀 값이 1인 영역에 대응하는 영역을 결정하고, 상기 영역의 이미지 내용을 상기 속성 이미지 중 대응하는 영역의 이미지 내용으로 교체하는 단계;
를 포함하는,
얼굴 편집 방법.
처리될 이미지 중 얼굴 이미지를 획득하는 획득 유닛；
편집 속성(editing attribute)에 따라 상기 얼굴 이미지에 대해 속성 전환(attribute conversion)을 수행하여, 속성 이미지를 생성하는 전환 유닛；
상기 속성 이미지에 대해 시맨틱 분할(semantic segmentation)한 후, 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여, 마스크 이미지를 생성하는 처리 유닛； 및
상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여, 결과 이미지를 생성하는 융합 유닛;
을 포함하는,
얼굴 편집 장치.
제7항에 있어서,
상기 획득 유닛은:
처리될 이미지 중 얼굴 이미지를 획득한 후, 상기 얼굴 이미지를 미리 설정된 사이즈로 변환하는 것
을 수행하는,
얼굴 편집 장치.
제7항에 있어서,
상기 전환 유닛은:
편집 속성에 따라 상기 얼굴 이미지에 대해 속성 전환을 수행하기 전에,
상기 얼굴 이미지에 대해 상기 편집 속성에 대응하는 전처리를 수행하는,
얼굴 편집 장치.
제7항에 있어서,
상기 처리 유닛은 상기 편집 속성에 따라 시맨틱 분할 이미지를 처리하여 마스크 이미지를 생성할 시：
상기 편집 속성에 대응하는 편집 부위를 결정하고；
시맨틱 분할 이미지 중 상기 편집 부위에 속하는 픽셀의 값을 1로 설정하고, 다른 픽셀의 값을 0으로 설정하여 마스크 이미지를 얻는 것
을 수행하는,
얼굴 편집 장치.
제7항에 있어서,
상기 융합 유닛은:
상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하기 전에,
상기 속성 이미지에 대해 초 고해상도 분할을 수행하여 고화질 속성 이미지를 생성하며；
상기 마스크 이미지를 이용하여 상기 고화질 속성 이미지와 상기 처리될 이미지를 융합하는 것
을 수행하는,
얼굴 편집 장치.
제7항에 있어서,
상기 융합 유닛은 상기 마스크 이미지를 이용하여 상기 속성 이미지와 상기 처리될 이미지를 융합하여 결과 이미지를 생성할 시:
얼굴 위치에 따라 상기 마스크 이미지, 상기 속성 이미지 및 상기 처리될 이미지를 정렬하며；
상기 처리될 이미지 중에서 상기 마스크 이미지 중의 픽셀 값이 0인 영역에 대응하는 영역을 결정하고, 상기 영역의 이미지 내용이 변하지 않도록 유지하며；
상기 처리될 이미지 중에서 상기 마스크 이미지 중의 픽셀 값이 1인 영역에 대응하는 영역을 결정하고, 상기 영역의 이미지 내용을 상기 속성 이미지 중 대응하는 영역의 이미지 내용으로 교체하는 것
을 수행하는,
얼굴 편집 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
전자 기기.
컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
기록 매체.
비 일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 프로그램에 있어서,
상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
프로그램.