KR102625656B1

KR102625656B1 - 비대면 소통 플랫폼 맞춤형 영상 합성 방법

Info

Publication number: KR102625656B1
Application number: KR1020220035865A
Authority: KR
Inventors: 조영준; 황종원; 윤경윤; 김혜근; 황서빈
Original assignee: 전남대학교산학협력단
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2024-01-16
Also published as: KR20230138172A

Abstract

본 발명은 비대면 소통 플랫폼에서 캡쳐된 이미지 내 다수의 사용자를 임의의 배경 이미지 상에 자연스럽게 합성하는 방법에 관한 것이다. 본 발명의 일 실시예에 따른 비대면 소통 플랫폼 맞춤형 영상 합성 방법은 다수의 사용자가 분리 표현된 캡쳐 이미지를 수신하는 단계, 상기 캡쳐 이미지로부터 상기 다수의 사용자를 각각 분할하는 단계 및 상기 분할된 각 사용자의 얼굴과 상반신의 크기에 기초하여 상기 다수의 사용자를 배경 이미지에 합성하는 단계를 포함하는 것을 특징으로 한다.

Description

비대면 소통 플랫폼 맞춤형 영상 합성 방법{VIDEO SYNTHESIS METHOD CUSTOMIZED FOR UNTACT COMMUNICATION PLATFORM}

본 발명은 비대면 소통 플랫폼에서 캡쳐된 이미지 내 다수의 사용자를 배경 이미지 상에 자연스럽게 합성하는 방법에 관한 것이다.

신종 코로나 바이러스 감염증-19(이하 코로나 19) 팬데믹(pandemic)으로 인해 사회적 거리두기(social distancing)가 전세계적으로 확대됨에 따라 사람 간 직접적이 소통이 제한되고 있다. 이러한 제약에 힘입어 줌 비디오 커뮤니케이션 사의 Zoom이나 구글 사의 Meet 등의 비대면 소통 플랫폼의 활용이 급격하게 늘고 있다.

비대면 소통 플랫폼에서 미팅에 참여하는 각 사용자들은 자신의 단말을 통해 촬영된 자신의 모습과 주변 배경을 타 사용자들과 공유하게 되는데, 이러한 방식에서는 각 사용자들은 같은 공간에 모여있다는 느낌을 전혀 받을 수 없을 뿐만 아니라, 공유되는 타 사용자들의 낯선 영상으로 인해 미팅에 몰입하기 어렵다는 한계가 있다.

이러한 한계를 극복하기 위하여 최근 비대면 소통 플랫폼들은 자체적으로 각 단말에서 촬영된 사용자들을 배경으로부터 분리하고, 분리된 사용자 이미지들을 기 저장된 배경 영상에 삽입하는 기능을 제공하고 있다.

그러나 이러한 기능은 분리된 각 사용자 이미지를 배경 영상에 단순히 오버레이(overlay)하는 기술로서, 사용자들과 배경 간의 합성이 매우 부자연스럽고, 각 단말에서 촬영된 사용자의 크기가 다른 경우 합성된 영상에서도 사용자의 크기가 제각각으로 표현되어 원근감이 왜곡되는 문제가 있다.

본 발명은 사용자의 특별한 조작 없이도 비대면 소통 플랫폼에서 캡쳐된 이미지 내 다수의 사용자를 배경 이미지 상에 자연스럽게 합성하는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 비대면 소통 플랫폼 맞춤형 영상 합성 방법은 다수의 사용자가 분리 표현된 캡쳐 이미지를 수신하는 단계, 상기 캡쳐 이미지로부터 상기 다수의 사용자를 각각 분할하는 단계 및 상기 분할된 각 사용자의 얼굴과 상반신의 크기에 기초하여 상기 다수의 사용자를 배경 이미지에 합성하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 캡쳐 이미지는 복수의 분할 화면을 포함하고, 상기 분할 화면에는 각 사용자와 배경이 함께 표현되는 것을 특징으로 한다.

일 실시예에서, 상기 캡쳐 이미지를 수신하는 단계는 비대면 소통 플랫폼에서 제공하는 사용자별 분할 화면이 캡쳐된 상기 캡쳐 이미지를 수신하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 각각 분할하는 단계는 합성곱 신경망을 이용하여 상기 캡쳐 이미지에 표현된 각 사용자를 검출하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 합성곱 신경망은 상반신과 얼굴이 표현된 사람 이미지와, 상반신과 얼굴에 각각 대응하는 라벨 데이터를 이용하여 지도 학습(supervised learning)된 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 각각 분할하는 단계는 상기 캡쳐 이미지에 표현된 각 사용자를 검출하는 단계와, 상기 검출된 각 사용자를 배경으로부터 분리하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 배경 이미지에 합성하는 단계는 상기 각 사용자의 얼굴 너비를 식별하는 단계와, 상기 식별된 각 얼굴 너비를 평균값으로 정규화하여 상기 각 사용자의 크기를 보정하는 단계와, 상기 크기가 보정된 각 사용자를 상기 배경 이미지에 합성하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 각 사용자의 크기를 보정하는 단계는 상기 각 얼굴 너비를 평균값으로 정규화하기 위한 비율 인자를 각각 산출하는 단계와, 상기 비율 인자를 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 각 사용자의 크기를 보정하는 단계는 상기 각 얼굴 너비를 평균값으로 정규화하기 위한 비율 인자를 각각 산출하는 단계와, 상기 비율 인자에 정규 분포를 적용한 후 상기 비율 인자를 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 각 사용자의 크기를 보정하는 단계는 평균값이 1인 정규 분포로부터 랜덤값을 샘플링하는 단계와, 상기 랜덤값이 곱해진 상기 비율 인자를 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 배경 이미지에 합성하는 단계는 상기 각 사용자의 상반신 너비를 식별하는 단계와, 상기 식별된 각 상반신 너비의 합과 상기 배경 이미지의 너비 간의 비율에 기초하여 상기 각 사용자의 크기를 보정하는 단계와, 상기 크기가 보정된 각 사용자를 상기 배경 이미지에 합성하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 각 사용자의 크기를 보정하는 단계는 상기 각 상반신 너비의 합에 대한 상기 배경 이미지의 너비의 비율을 산출하는 단계와, 상기 비율을 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 배경 이미지에 합성하는 단계는 상기 각 사용자의 상반신이 서로 중첩되되, 상기 각 사용자의 얼굴이 중첩되지 않도록 상기 다수의 사용자를 배경 이미지에 합성하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 배경 이미지에 합성하는 단계는 인접한 사용자의 얼굴 좌표 간의 거리가 상기 각 사용자의 얼굴 너비의 평균값에 대한 미리 설정된 비율 범위 이내가 되도록 상기 다수의 사용자를 배경 이미지에 합성하는 단계를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 다수의 사용자를 배경 이미지에 합성하는 단계는 상기 배경 이미지에 합성된 다수의 사용자의 전체 너비의 중심 좌표를 상기 배경 이미지의 중앙 좌표로 이동시키는 단계를 포함하는 것을 특징으로 한다.

본 발명은 비대면 소통 플랫폼에서 캡쳐된 이미지 내 다수의 사용자를 배경 이미지 상에 자연스럽게 합성함으로써, 비대면 소통 플랫폼에 참여하는 각 사용자들에게 같은 공간에 모여있다는 느낌을 줄 수 있다.

또한, 본 발명은 캡쳐 이미지에서 분할된 각 사용자의 크기 및 간격을 균형있게 조절하여 합성 이미지를 생섬함으로써, 사용자간 및 사용자들과 배경 간 합성의 이질성을 줄일 수 있다는 장점이 있다.

상술한 효과와 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다.

도 1은 본 발명의 일 실시예에 따른 영상 합성 시스템을 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 비대면 소통 플랫폼 맞춤형 영상 합성 방법을 도시한 순서도.
도 3a 및 도 3b는 다수의 사용자가 분리 표현된 캡쳐 이미지를 각각 도시한 도면.
도 4는 도 3b에 도시된 캡쳐 이미지에서 사용자별로 얼굴과 상반신이 구획된 모습을 도시한 도면.
도 5는 합성곱 신경망을 이용하여 캡쳐 이미지 내 각 사용자의 얼굴과 상반신을 검출하는 과정을 설명하기 위한 도면.
도 6은 사용자의 얼굴과 상반신의 크기에 각각 대응하는 파라미터를 도시한 도면.
도 7은 캡쳐 이미지에서 검출된 사용자가 배경으로부터 분리된 모습을 도시한 도면.
도 8 및 도 9는 다수의 사용자를 배경 이미지에 합성하는 과정을 설명하기 위한 도면.
도 10은 본 발명의 전체 동작을 설명하기 위한 도면.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

본 명세서에서 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것으로, 특별히 반대되는 기재가 없는 한, 제1 구성요소는 제2 구성요소일 수도 있음은 물론이다.

또한, 본 명세서에서 "상부 (또는 하부)" 또는 구성요소의 "상 (또는 하)"에 임의의 구성이 배치된다는 것은, 임의의 구성이 상기 구성요소의 상면 (또는 하면)에 접하여 배치되는 것뿐만 아니라, 상기 구성요소와 상기 구성요소 상에 (또는 하에) 배치된 임의의 구성 사이에 다른 구성이 개재될 수 있음을 의미할 수 있다.

또한, 본 명세서에서 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 상기 구성요소들은 서로 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 다른 구성요소가 "개재"되거나, 각 구성요소가 다른 구성요소를 통해 "연결", "결합" 또는 "접속"될 수도 있는 것으로 이해되어야 할 것이다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 명세서에서, "A 및/또는 B" 라고 할 때, 이는 특별한 반대되는 기재가 없는 한, A, B 또는 A 및 B 를 의미하며, "C 내지 D" 라고 할 때, 이는 특별한 반대되는 기재가 없는 한, C 이상이고 D 이하인 것을 의미한다

본 발명은 비대면 소통 플랫폼에서 캡쳐된 이미지 내 다수의 사용자를 임의의 배경 이미지 상에 자연스럽게 합성하는 방법에 관한 것이다. 이하, 도 1 내지 도 9를 참조하여 본 발명의 일 실시예에 따른 비대면 소통 플랫폼 맞춤형 영상 합성 방법을 구체적으로 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 영상 합성 시스템을 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 비대면 소통 플랫폼 맞춤형 영상 합성 방법을 도시한 순서도이다.

도 3a 및 도 3b는 다수의 사용자가 분리 표현된 캡쳐 이미지를 각각 도시한 도면이고, 도 4는 도 3b에 도시된 캡쳐 이미지에서 사용자별로 얼굴과 상반신이 구획된 모습을 도시한 도면이다.

도 5는 합성곱 신경망을 이용하여 캡쳐 이미지 내 각 사용자의 얼굴과 상반신을 검출하는 과정을 설명하기 위한 도면이고, 도 6은 사용자의 얼굴과 상반신의 크기에 각각 대응하는 파라미터를 도시한 도면이다.

도 7은 캡쳐 이미지에서 검출된 사용자가 배경으로부터 분리된 모습을 도시한 도면이다. 또한, 도 8 및 도 9는 다수의 사용자를 배경 이미지에 합성하는 과정을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 영상 합성 시스템(1)은 서버(10)와 클라이언트(20)를 포함할 수 있으며, 본 발명의 비대면 소통 플랫폼 맞춤형 영상 합성 방법은 서버(10)에 의해 수행될 수 있다.

서버(10)는 연산(computing)이 가능한 서버(10)로서 GPU(Graphic Processing Unit), CPU(Central Processing Unit) 등의 처리장치를 포함할 수 있고, 이 외에도 후술하는 발명의 동작을 수행하기 위하여 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controller), 프로세서(processor), 마이크로프로세서(microprocessor), 마이크로컨트롤러(microcontroller) 중 적어도 하나의 물리적인 요소를 포함할 수 있다.

한편, 본 발명의 영상 합성 시스템(1)은 웹 기반(web-based)으로 동작할 수 있다. 구체적으로, 서버(10)는 HTTP(HyperText Transfer Protocol)를 이용하여 클라이언트(20)의 요청을 받아 처리할 수 있고, 그 결과를 웹 페이지(web page)의 형태로 클라이언트(20)에 제공할 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 비대면 소통 플랫폼 맞춤형 영상 합성 방법은 클라이언트(20)로부터 캡쳐 이미지(100)를 수신하는 단계(S10), 캡쳐 이미지(100)로부터 다수의 사용자를 분할하는 단계(S20) 및 분할된 사용자의 얼굴 및 상반신의 크기에 기초하여 다수의 사용자를 합성하는 단계(S30)를 포함할 수 있다.

다만, 도 2에 도시된 비대면 소통 플랫폼 맞춤형 영상 합성 방법은 일 실시예에 따른 것이고, 발명을 이루는 각 단계들이 도 2에 도시된 실시예에 한정되는 것은 아니며 필요에 따라 일부 단계들이 부가, 변경 또는 삭제될 수 있다.

이하, 서버(10)가 도 2에 도시된 각 단계를 수행하는 과정을 구체적으로 설명하도록 한다.

서버(10)는 클라이언트(20)로부터 캡쳐 이미지(100)를 수신할 수 있다(S10). 본 발명에서 클라이언트(20)는 임의의 사용자 단말을 포함할 수 있다. 예컨대 영상 합성 시스템(1)이 웹 기반으로 동작하는 경우 클라이언트(20)는 인터넷에 접속할 수 있는 PC, 노트북, 태블릿, 스마트폰 등의 사용자 단말을 포함할 수 있다.

도 3a 및 도 3b를 참조하면, 본 발명의 캡쳐 이미지(100)에는 다수의 사용자가 분리 표현될 수 있다. 구체적으로, 캡쳐 이미지(100)는 복수의 분할 화면(110)을 포함할 수 있고, 각 분할 화면(110)에는 사용자와 배경이 함께 표시될 수 있다. 이 때, 캡쳐 이미지(100)에 표시되는 다수의 사용자는 후술하는 바와 같이 배경 이미지에 합성되는 대상일 수 있다.

캡쳐 이미지(100)는 클라이언트(20) 또는 클라이언트(20)에서 실행되는 어플리케이션의 화면 캡쳐 기능을 통해 생성될 수 있다. 예컨대, 도 3b에 도시된 바와 같이 클라이언트(20)에서 실행되는 비대면 소통 플랫폼(예를 들어, 줌 비디오 커뮤니케이션 사의 Zoom)은 사용자별 분할 화면(110)을 제공할 수 있다. 이 때, 사용자는 클라이언트(20)의 화면 캡쳐 기능을 이용하거나 비대면 소통 플랫폼에서 제공하는 화면 캡쳐 기능을 이용하여 캡쳐 이미지(100)를 생성할 수 있다.

클라이언트(20)는 생성된 캡쳐 이미지(100)를 서버(10)에 송신할 수 있다. 구체적으로, 클라이언트(20)는 사용자의 명령에 따라 캡쳐 이미지(100)를 서버(10)에 송신할 수도 있고, 영상의 초당 프레임 수(예컨대, 초당 30회)에 따라 캡쳐 이미지(100)를 실시간으로 서버(10)에 송신할 수도 있다.

이상에서는 도 3a 및 도 3b를 예로 들어 캡쳐 이미지(100)를 설명하였으나, 본 발명에 이용되는 캡쳐 이미지(100)는 다수의 사용자가 각각 분리 표현되어 있는 임의의 이미지일 수 있음은 당연하다.

캡쳐 이미지(100)가 수신되면, 서버(10)는 캡쳐 이미지(100)로부터 다수의 사용자를 각각 분할할 수 있다(S20).

도 4를 참조하면, 서버(10)는 사용자의 신체를 검출함으로써 캡쳐 이미지(100)에 포함된 네 명의 사용자를 각각 분할할 수 있다. 구체적으로, 서버(10)는 캡쳐 이미지(100)에 표현된 각 사용자의 상반신(upper body)을 검출하고, 검출된 각 영역을 분할할 수 있다. 이에 더하여, 서버(10)는 캡쳐 이미지(100)에 표현된 각 사용자의 얼굴(face)도 검출할 수 있는데, 얼굴 검출을 통한 영상 합성 방법에 대해서는 후술하도록 한다.

사용자 검출을 위해 서버(10)는 합성곱 신경망(Convolutional Neural Network; CNN)을 이용할 수 있다. 구체적으로, 서버(10)는 합성곱 신경망에 캡쳐 이미지(100)를 입력함으로써, 합성곱 신경망이 캡쳐 이미지(100) 내 각 사용자를 검출하도록 할 수 있다.

도 5를 참조하면, 합성곱 신경망은 여러 쌍의 합성곱 레이어 및 풀링(pooling) 레이어를 포함할 수 있고, 한 쌍의 합성곱 레이어 및 풀링 레어이의 출력이 다음 쌍의 합성곱 레이어 및 풀링 레이어에 입력되는 구조를 가질 수 있다. 또한, 마지막 풀링 레이어의 출력은 완전 연결 레이어(fully connected layer)에 입력될 수 있고, 완전 연결 레이어에서는 소프트맥스(softmax) 함수를 통해 검출 결과가 출력될 수 있다.

검출 결과는 행렬의 형태로 출력될 수 있으며, 행렬의 각 성분들은 캡쳐 이미지(100) 내에서 구획된 피사체의 분류(class)와, 피사체의 위치 및 크기에 대한 정보를 포함할 수 있다.

도 5 및 도 6을 예로 들어 설명하면, 합성곱 신경망이 사용자의 얼굴과 상반신을 각각 검출하는 경우, 합성곱 신경망에서 출력되는 검출 결과는 [c_i, x_i, y_i, w_i, h_i]로 표현될 수 있다. 이 때, c_i는 얼굴과 상반신의 분류에 대응하는 바이너리 값을 가질 수 있고(예컨대, 얼굴(c_i=0), 상반신(c_i=1)), x_i, y_i는 얼굴 및 상반신의 중심 좌표((x₁, y₁), (x₂, y₂))를 나타낼 수 있으며, w_i, h_i는 얼굴과 상반신을 구획하는 영역의 너비 및 높이((w₁, h₁), (w₂, h₂))를 각각 나타낼 수 있다.

전술한 동작을 위해, 합성곱 신경망은 상반신과 얼굴이 표현된 사람 이미지와, 상반신과 얼굴에 각각 대응하는 라벨(label) 데이터를 이용하여 지도 학습(supervised learning)될 수 있다.

앞서 설명한 바와 같이, 캡쳐 이미지(100)는 비대면 소통 플랫폼에서 제공되는 화면이 캡쳐된 것일 수 있고, 이에 따라 캡쳐 이미지(100)에는 사용자의 얼굴과 상반신만이 표현될 수 있다. 이에 따라, 서버(10)는 합성곱 신경망의 학습을 위한 훈련 데이터셋(training dataset)을 구성함에 있어서, 사람의 얼굴과 상반신이 표현된 이미지를 입력 데이터로 이용할 수 있고, 상반신과 얼굴에 각각 대응하는 라벨 데이터, 즉 전술한 행렬 [c_i, x_i, y_i, w_i, h_i]을 출력 데이터(Ground Truth; GT)로 이용할 수 있다.

또한, 서버(10)는 합성곱 신경망의 거짓 양성(false positive) 출력을 방지하기 위하여, 의도적으로 사람이 포함되지 않은 배경 영상(예컨대, 사무실, 카페, 방 등)을 지도 학습의 입력 데이터로 더 활용할 수 있다.

이러한 지도 학습을 통해 합성곱 신경망을 구성하는 각 노드에 적용되는 파라미터(가중치(weight), 바이어스(bias))는 학습 및 갱신될 수 있고, 학습이 완료되면 합성곱 신경망은 임의의 캡쳐 이미지(100)를 입력받아, 해당 캡쳐 이미지(100) 내 사용자의 얼굴과 상반신에 대한 정보(예컨대, 전술한 [c_i, x_i, y_i, w_i, h_i])를 출력할 수 있다.

또한, 서버(10)는 사람을 검출하기 위해 당해 기술분야에서 널리 이용되는 신경망 모델을, 전술한 훈련 데이터셋을 활용하여 전이 학습(transfer learning)시킴으로써 본 발명에 적용될 합성곱 신경망을 생성할 수도 있다.

서버(10)는 실시간으로 수신되는 캡쳐 이미지(100)로부터 각 사용자를 분할해야 하므로, 본 발명에 적용될 수 있는 합성곱 신경망은 신경망의 아키텍쳐가 단순하여 빠른 처리시간을 갖는 YOLO(You Only Look Once) 모델로 구현될 수 있다. 한편, 본 발명의 서버(10)는 전술한 합성곱 신경망 외에도, 캡쳐 이미지(100) 내 사람을 검출하기 위한 다양한 이미지 프로세싱 기법 및/또는 딥러닝 아키텍쳐를 이용할 수 있다.

서버(10)는 캡쳐 이미지(100)에 표현된 각 사용자를 검출하고, 추가적으로 검출된 각 사용자를 배경으로부터 분리함으로써 사용자 분할 동작을 수행할 수 있다.

앞서 도 3a 및 도 3b에 도시된 것과 같이 캡쳐 이미지(100)내 분할 화면(110)에는 각 사용자와 배경이 함께 표현될 수 있다. 서버(10)는 각 분할 화면(110)에서 사용자를 검출하고, 검출된 사용자와 배경을 분리할 수 있다. 추후 합성 시 발생할 수 있는 부자연스러움을 없애기 위해, 서버(10)는 사용자의 상반신을 구획하는 영역이 아닌 사용자의 신체 경계에 따라 사용자를 배경으로부터 분리할 수 있다.

도 7을 참조하면, 서버(10)는 사용자의 신체 경계를 식별할 수 있고, 식별된 신체 경계에 따라 사용자를 구획할 수 있다. 이어서, 서버(10)는 구획된 영역 외 배경을 모두 제거함으로써 사용자를 배경으로부터 분리할 수 있다.

이러한 동작을 위해 서버(10)는 타겟 객체(object)의 엣지(edge)를 검출하는 알고리즘을 이용할 수 있고, 마스킹(masking) 기법을 통해 타겟 객체만을 분리할 수 있다. 한편, 앞서 설명한 바와 같이 서버(10)는 실시간으로 수신되는 캡쳐 이미지(100)로부터 각 사용자를 분할해야 하므로, 예컨대 서버(10)는 PointRend(Image Segmentation as Rendering) 신경망 기반으로 빠르게 분할 동작을 수행하는 PixelLib을 이용할 수 있다.

사용자 분할이 완료되면, 서버(10)는 분할된 각 사용자의 얼굴과 상반신의 크기에 기초하여 다수의 사용자를 단일 배경 이미지에 합성할 수 있다(S30). 여기서 배경 이미지는 서버(10), 구체적으로는 서버(10) 내 데이터베이스에 기 저장된 이미지로서, 임의의 랜드마크, 풍경, 건축물, 도시 등의 다양한 이미지를 포함할 수 있다.

앞서 예시한 바와 같이, 캡쳐 이미지(100)에 포함된 분할 화면(110)은 각 클라이언트(20)에서 촬영 또는 캡쳐된 화면일 수 있다. 이에 따라, 각 분할 화면(110) 내 사용자의 위치 및 크기는 제각각일 수 있다.

서버(10)는 제각각으로 분할되는 다수 사용자를 자연스럽게 합성하기 위하여, 각 사용자 간의 크기 차이가 크지 않도록 하거나, 인물들 간 얼굴이 겹치지 않게 하거나, 모든 사용자의 상반신이 배경 이미지 내 포함되도록 할 수 있고, 이러한 동작에는 사용자의 얼굴 크기 및 상반신 크기가 이용될 수 있다.

일 실시예에서, 서버(10)는 각 사용자의 얼굴 너비를 식별하고, 식별된 각 얼굴 너비를 평균값으로 정규화하여 각 사용자의 크기를 보정한 뒤, 크기가 보정된 각 사용자를 배경 이미지에 합성함으로써 합성 이미지(200)를 생성할 수 있다.

구체적으로 서버(10)는 다양한 이미지 프로세싱 기법, 예컨대 도 5 및 도 6을 참조하여 설명한 합성곱 신경망을 통해 얼굴 너비()를 식별할 수 있다. 이어서, 서버(10)는 식별된 각 얼굴 너비의 평균값을 산출할 수 있으며, 캡쳐 이미지(100)에 표현된 사용자의 수가 N명인 경우 서버(10)는 하기 [수학식 1]에 따라 평균값()을 산출할 수 있다.

이어서, 서버(10)는 앞서 각각 식별된 얼굴 너비()가 평균값()이 되도록 사용자의 크기를 보정할 수 있다. 예컨대, 제1 사용자의 얼굴 너비()가 평균값()보다 작은 경우, 서버(10)는 제1 사용자의 얼굴 너비()가 평균값()이 되도록 제1 사용자의 크기를 증가시킬 수 있다. 반면에, 제2 사용자의 얼굴 너비()가 평균값()보다 큰 경우, 서버(10)는 제2 사용자의 얼굴 너비()가 평균값()이 되도록 제2 사용자의 크기를 감소시킬 수 있다.

구체적으로, 서버(10)는 각 얼굴 너비()를 평균값()으로 정규화하기 위한 비율 인자()를 하기 [수학식 2]에 따라 산출하고, 비율 인자()를 각 사용자의 얼굴(예컨대, (, )) 및 상반신의 크기(예컨대, (, ))에 곱하여 각 사용자의 크기를 보정할 수 있다.

캡쳐 이미지(100)에 표현되는 사용자의 신체는 얼굴과 상반신이므로, 얼굴 및 상반신에 비율 인자를 곱하는 경우 사용자의 전체적 크기가 조절될 수 있다. 이어서, 서버(10)는 크기가 보정된 각 사용자를 배경 이미지에 합성함으로써 합성 이미지(200)를 생성할 수 있다.

다만, 합성된 모든 사용자의 얼굴 너비가 동일해지는 경우 오히려 합성 이미지(200)가 부자연스러울 수 있다. 이를 고려하여 서버(10)는 전술한 비율 인자에 정규 분포를 적용할 수 있다. 구체적으로, 서버(10)는 비율 인자에 정규 분포를 적용함으로써, 비율 인자를 [수학식 2]를 통해 산출된 값과 유사한 값으로 변환할 수 있다.

예컨대, 서버(10)는 평균값이 1인 정규 분포로부터 랜덤값을 샘플링하고, 샘플링된 랜덤값을 앞서 산출된 비율 인자에 곱한 후, 비율 인자를 사용자의 크기에 적용할 수 있다. 랜덤값을 샘플링할 때, 샘플링된 랜덤값과 평균값의 유사도는 정규 분포의 분산값에 의해 결정될 수 있으며, 본 발명에서는 예컨대 0.01의 분산값을 갖는 정규 분포가 적용될 수 있다.

한편, 일 실시예에서, 서버(10)는 각 사용자의 상반신 너비를 식별하고, 식별된 각 상반신 너비의 합과 배경 이미지의 너비 간의 비율에 기초하여 각 사용자의 크기를 보정한 뒤, 크기가 보정된 각 사용자를 배경 이미지에 합성 함으로써 합성 이미지(200)를 생성할 수 있다.

구체적으로 서버(10)는 다양한 이미지 프로세싱 기법, 예컨대 도 5 및 도 6을 참조하여 설명한 합성곱 신경망을 통해 상반신 너비()를 식별할 수 있다. 이어서, 서버(10)는 식별된 각 상반신 너비의 합을 산출할 수 있으며, 캡쳐 이미지(100)에 표현된 사용자의 수가 N명인 경우 서버(10)는 하기 [수학식 3]에 따라 합산값()을 산출할 수 있다.

이어서, 서버(10)는 합산값()과 배경 이미지의 너비() 간의 비율에 기초하여 사용자의 크기를 보정할 수 있다. 예컨대, 각 사용자의 상반신 너비의 합()이 배경 이미지의 너비()보다 작은 경우, 서버(10)는 각 사용자의 상반신 너비의 합()이 배경 이미지의 너비()가 되도록 각 사용자의 크기를 증가시킬 수 있다. 반면에, 각 사용자의 상반신 너비의 합()이 배경 이미지의 너비()보다 큰 경우, 서버(10)는 각 사용자의 상반신 너비의 합()이 배경 이미지의 너비()가 되도록 각 사용자의 크기를 감소시킬 수 있다.

도 8을 참조하여 구체적으로 설명하면, 서버(10)는 네 명의 사용자 중 어느 한 사용자의 상반신도 영상 밖으로 나가지 않으면서도 각 사용자가 최대한 크게 표현되도록 사용자의 크기를 보정할 수 있다. 구체적으로, 서버(10)는 사용자의 크기를 배경 이미지의 너비에 맞추기 위한 비율()을 하기 [수학식 4]에 따라 산출하고, 산출된 비율을 각 사용자의 얼굴(예컨대, (, )) 및 상반신의 크기(예컨대, (, ))에 곱하여 각 사용자의 크기를 보정할 수 있다.

이어서, 서버(10)는 크기가 보정된 각 사용자를 배경 이미지에 합성함으로써 합성 이미지(200)를 생성할 수 있다. 다만, 합성된 모든 사용자가 일정한 간격으로 배치되는 경우 오히려 합성 이미지(200)가 부자연스러울 수 있다. 이를 고려하여 서버(10)는 앞서 산출된 비율()에도 정규 분포를 적용할 수 있으며, 정규 분포 적용 방법은 전술한 것과 동일할 수 있다.

또한, 서버(10)는 각 사용자의 상반신이 서로 중첩되되, 각 사용자의 얼굴이 중첩되지 않도록 다수의 사용자를 배경 이미지에 합성할 수 있다.

다시 도 8을 참조하면, [수학식 4]에 따라 산출된 비율()에 의해 사용자의 크기가 조절되었다고 가정하였을 때, 서버(10)는 각 상반신의 중심 좌표를 조절함으로써 각 사용자의 상반신이 서로 중첩되도록 할 수 있다.

구체적으로 도 8에 도시된 네 명의 사용자를 좌측부터 제1 내지 제4 사용자로 정의하였을 때, 서버(10)는 제2 사용자 상반신의 중심 좌표를 좌측으로 이동시킴으로써 제1 사용자와 제2 사용자의 상반신이 서로 중첩되도록 할 수 있다. 이어서, 서버(10)는 제3 사용자 상반신의 중심 좌표를 좌측으로 이동시킴으로써 제2 사용자와 제3 사용자의 상반신이 서로 중첩되도록 할 수 있다. 마찬가지로, 서버(10)는 제4 사용자 상반신의 중심 좌표를 좌측으로 이동시킴으로써 제3 사용자와 제4 사용자의 상반신이 서로 중첩되도록 할 수 있다.

이 때, 각 중심 좌표가 좌측으로 이동되는 정도는 좌표 변경으로 인해 각 사용자의 얼굴이 중첩되지 않는 일정 범위에서 무작위로(randomly) 결정될 수 있다.

또한, 각 사용자의 상반신이 서로 중첩되되, 각 사용자의 얼굴이 중첩되지 않도록 하기 위해, 서버(10)는 인접한 사용자의 얼굴 좌표 간의 거리가 각 사용자의 얼굴 너비의 평균값에 대한 미리 설정된 비율 범위 이내가 되도록 다수의 사용자를 배경 이미지에 합성할 수도 있다.

도 8을 함께 참조하면, 서버(10)는 배경 이미지에 합성된 각 사용자의 얼굴 너비의 평균값을 산출할 수 있다. 이 때, 각 사용자의 얼굴 너비는 앞서 [수학식 2]에 따라 산출된 비율 인자에 의해 조절된 너비일 수 있다. 이에 따라, 여기서 산출되는 평균값은 [수학식 1]에서 산출된 값과는 달라질 수 있다.

이어서, 서버(10)는 인접한 사용자의 얼굴 좌표간의 거리(d_f)를 식별할 수 있고, 식별된 거리(d_f)가 앞서 산출된 평균값에 대하여 미리 설정된 비율 범위 이내가 되도록, 각 사용자의 얼굴 좌표를 조절할 수 있다. 이 때, 미리 설정된 비율은 사용자의 상반신이 서로 중첩될 수 있도록 설정될 수 있고, 예컨대, 각 사용자의 얼굴 너비의 평균값에 대한 0.5배 내지 1배로 설정될 수 있다.

구체적으로 도 8에 도시된 네 명의 사용자를 좌측부터 제1 내지 제4 사용자로 정의하였을 때, 서버(10)는 제2 사용자의 얼굴 좌표를 좌측으로 이동시킴으로써 제1 및 제2 사용자의 얼굴 좌표간의 거리가 미리 설정된 범위 이내가 되도록 할 수 있다. 이어서, 서버(10)는 제3 사용자의 얼굴 좌표를 좌측으로 이동시킴으로써 제2 및 제3 사용자의 얼굴 좌표간의 거리가 미리 설정된 범위 이내가 되도록 할 수 있다. 마찬가지로, 서버(10)는 제4 사용자의 얼굴 좌표를 좌측으로 이동시킴으로써 제3 및 제4 사용자의 얼굴 좌표간의 거리가 미리 설정된 범위 이내가 되도록 할 수 있다.

이 때, 각 얼굴 좌표가 좌측으로 이동되는 정도는 전술한 범위, 예컨대 각 사용자의 얼굴 너비의 평균값에 대한 0.5배 내지 1배 내에서 무작위로 결정될 수 있다.

도 9를 참조하면, 전술한 좌표 이동은 제1 사용자를 기준으로 이루어지므로 합성 이미지(200) 내 사용자들을 좌측으로 치우칠 수 있다. 서버(10)는 배경 이미지에 합성된 다수의 사용자의 전체 너비의 중심 좌표(x_c)를 식별하고, 이를 배경 이미지의 중앙 좌표(x_c')로 이동시킬 수 있다. 이에 따라, 합성 이미지(200) 내 사용자들은 배경 이미지의 중앙에 위치할 수 있다.

도 10은 본 발명의 전체 동작을 설명하기 위한 도면이다. 이하, 도 10을 참조하여 본 발명의 동작을 예시적으로 정리하도록 한다.

클라이언트(20)는 웹 페이지를 통해 서버(10)에 캡쳐 이미지(100)(captured photo)를 송신할 수 있다. 또한, 클라이언트(20)는 사용자의 선택에 따라 서버(10) 내 저장된 복수의 배경 이미지 중 어느 하나를 선택할 수 있다.

서버(10)는 캡쳐 이미지(100)에 객체 검출 알고리즘을 적용하여 캡쳐 이미지(100)에 포함된 각 사용자의 얼굴과 상반신을 검출할 수 있다. 이어서, 서버(10)는 이미지 프로세싱을 통해 사용자를 배경으로부터 분리하고, 분리된 사용자의 얼굴과 상반신의 크기에 기초하여 다수 사용자를, 앞서 클라이언트(20)에 의해 선택된 배경 이미지에 합성할 수 있다.

합성 이미지(200)가 생성되면 서버(10)는 추가적으로 이미지 스타일링 기법(예컨대, 카툰화(cartoonization))을 통해 합성 이미지(200)의 스타일을 변경할 수 있고, 가공이 완료된 합성 이미지(200)를 웹 페이지를 통해 클라이언트(20)에게 제공할 수 있다.

전술한 바와 같이, 본 발명은 비대면 소통 플랫폼에서 캡쳐된 이미지 내 다수의 사용자를 배경 이미지 상에 자연스럽게 합성함으로써, 비대면 소통 플랫폼에 참여하는 각 사용자들에게 같은 공간에 모여있다는 느낌을 줄 수 있다.

또한, 본 발명은 캡쳐 이미지(100)에서 분할된 각 사용자의 크기 및 간격을 균형있게 조절하여 합성 이미지(200)를 생섬함으로써, 사용자간 및 사용자들과 배경 간 합성의 이질성을 줄일 수 있다는 장점이 있다.

이상과 같이 본 발명에 대해서 예시한 도면을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시 예와 도면에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상의 범위 내에서 통상의 기술자에 의해 다양한 변형이 이루어질 수 있음은 자명하다. 아울러 앞서 본 발명의 실시 예를 설명하면서 본 발명의 구성에 따른 작용 효과를 명시적으로 기재하여 설명하지 않았을 지라도, 해당 구성에 의해 예측 가능한 효과 또한 인정되어야 함은 당연하다.

Claims

다수의 사용자가 분리 표현된 캡쳐 이미지를 수신하는 단계;
상기 캡쳐 이미지로부터 상기 다수의 사용자를 각각 분할하는 단계;
상기 분할된 각 사용자의 얼굴 너비를 식별하는 단계;
상기 식별된 각 얼굴 너비를 평균값으로 정규화하여 상기 각 사용자의 크기를 보정하는 단계; 및
상기 크기가 보정된 각 사용자를 배경 이미지에 합성하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
다수의 사용자가 분리 표현된 캡쳐 이미지를 수신하는 단계;
상기 캡쳐 이미지로부터 상기 다수의 사용자를 각각 분할하는 단계;
상기 분할된 각 사용자의 상반신 너비를 식별하는 단계;
상기 식별된 각 상반신 너비의 합과 상기 배경 이미지의 너비 간의 비율에 기초하여 상기 각 사용자의 크기를 보정하는 단계; 및
상기 크기가 보정된 각 사용자를 상기 배경 이미지에 합성하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 캡쳐 이미지는 복수의 분할 화면을 포함하고, 상기 분할 화면에는 각 사용자와 배경이 함께 표현되는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 캡쳐 이미지를 수신하는 단계는
비대면 소통 플랫폼에서 제공하는 사용자별 분할 화면이 캡쳐된 상기 캡쳐 이미지를 수신하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 다수의 사용자를 각각 분할하는 단계는
합성곱 신경망을 이용하여 상기 캡쳐 이미지에 표현된 각 사용자를 검출하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제5항에 있어서,
상기 합성곱 신경망은 상반신과 얼굴이 표현된 사람 이미지와, 상반신과 얼굴에 각각 대응하는 라벨 데이터를 이용하여 지도 학습(supervised learning)된
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 다수의 사용자를 각각 분할하는 단계는
상기 캡쳐 이미지에 표현된 각 사용자를 검출하는 단계와,
상기 검출된 각 사용자를 배경으로부터 분리하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항에 있어서,
상기 각 사용자의 크기를 보정하는 단계는
상기 각 얼굴 너비를 평균값으로 정규화하기 위한 비율 인자를 각각 산출하는 단계와,
상기 비율 인자를 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항에 있어서,
상기 각 사용자의 크기를 보정하는 단계는
상기 각 얼굴 너비를 평균값으로 정규화하기 위한 비율 인자를 각각 산출하는 단계와,
상기 비율 인자에 정규 분포를 적용한 후 상기 비율 인자를 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제9항에 있어서,
상기 각 사용자의 크기를 보정하는 단계는
평균값이 1인 정규 분포로부터 랜덤값을 샘플링하는 단계와,
상기 랜덤값이 곱해진 상기 비율 인자를 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제2항에 있어서,
상기 각 사용자의 크기를 보정하는 단계는
상기 각 상반신 너비의 합에 대한 상기 배경 이미지의 너비의 비율을 산출하는 단계와,
상기 비율을 상기 각 사용자의 얼굴 및 상반신의 크기에 곱하여 상기 각 사용자의 크기를 보정하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 각 사용자를 배경 이미지에 합성하는 단계는
상기 각 사용자의 상반신이 서로 중첩되되, 상기 각 사용자의 얼굴이 중첩되지 않도록 상기 다수의 사용자를 배경 이미지에 합성하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 각 사용자를 배경 이미지에 합성하는 단계는
인접한 사용자의 얼굴 좌표 간의 거리가 상기 각 사용자의 얼굴 너비의 평균값에 대한 미리 설정된 비율 범위 이내가 되도록 상기 다수의 사용자를 배경 이미지에 합성하는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
제1항 또는 제2항에 있어서,
상기 각 사용자를 배경 이미지에 합성하는 단계는
상기 배경 이미지에 합성된 다수의 사용자의 전체 너비의 중심 좌표를 상기 배경 이미지의 중앙 좌표로 이동시키는 단계를 포함하는
비대면 소통 플랫폼 맞춤형 영상 합성 방법.
삭제