WO2021020876A1

WO2021020876A1 - 워터마크의 삽입을 위한 영상 합성 장치 및 방법

Info

Publication number: WO2021020876A1
Application number: PCT/KR2020/009991
Authority: WO
Inventors: 장한얼; 김동규; 한동윤; 윤상두; 서충현; 노인우
Original assignee: 네이버 주식회사; 네이버웹툰 유한회사
Priority date: 2019-08-01
Filing date: 2020-07-29
Publication date: 2021-02-04
Also published as: US20220156873A1; KR20210015335A; JP7307266B2; KR102412135B1; JP2022543222A

Abstract

영상 합성 장치에 의한 영상 합성 방법에 있어서, 원본 영상과 워터마크 영상을 합성 모델에 입력하는 단계; 및 합성 모델에서 출력되는 합성 영상을 획득하는 단계를 포함하되, 원본 영상과 워터마크 영상 각각은 합성 모델의 제 1 서브 모델과 제 2 서브 모델 각각에서 처리된 후 결합되고, 결합된 결과는 제 3 서브 모델에서 처리되어 합성 영상이 생성되는 것을 특징으로 하는 일 실시예에 따른 영상 합성 방법이 개시된다.

Description

워터마크의 삽입을 위한 영상 합성 장치 및 방법

저작물의 중요성이 부각되면서, 저작물의 불법적인 유통/복제를 방지하기 위한 다양한 기술이 제안되고 있다.

최근, 웹툰(webtoon)과 같이 온라인을 통해 만화 컨텐츠를 소비하는 사람들이 많아짐에 따라 만화 컨텐츠를 불법적으로 유통하는 사례가 증가하고 있다. 예를 들어, 일정 금액을 결제하고 만화 컨텐츠를 구비한 사용자는, 자신의 단말에 표시된 만화 컨텐츠를 캡처 등의 방법을 이용하여 단말에 저장하고 인터넷을 통해 다른 사용자들과 공유할 수 있다.

이와 같은 만화 컨텐츠의 불법 유통을 차단하기 위해 만화 컨텐츠에 워터마크(watermark)를 삽입하는 기술이 제안되고 있으나, 사용자가 만화 컨텐츠를 변형하는 경우 워터마크 역시 변형되어 만화 컨텐츠를 불법 유통시킨 사용자나 만화 컨텐츠의 저작권자를 추적하기 어려워지는 문제점이 있다. 또한, 워터마크가 만화 컨텐츠에 삽입됨으로써 만화 컨텐츠의 가독성이 떨어질 수 있다는 문제점도 있다.

따라서, 만화 컨텐츠를 포함한 다양한 영상에 삽입되는 워터마크의 가시성을 저감시키면서도, 사용자들의 다양한 변형 공격에도 워터마크를 쉽게 추출할 수 있게 하는 방안이 요구된다.

일 실시예에 따른 영상 합성 장치 및 방법은 원본 영상과 워터마크 영상이 합성된 합성 영상에서 워터마크의 가시성을 감소시키는 것을 기술적 과제로 한다.

또한, 일 실시예에 따른 영상 합성 장치 및 방법은 합성 영상에 대한 사용자들의 다양한 변형 공격이 있더라도, 합성 영상에서 워터마크를 검출할 수 있게 하는 것을 기술적 과제로 한다.

또한, 일 실시예에 따른 영상 합성 장치 및 방법은 저작물의 불법적인 유통을 방지하여 창작자들의 창작 의욕을 고취시키는 것을 기술적 과제로 한다.

본 개시의 일 실시예에 따른 영상 합성 방법은, 원본 영상과 워터마크 영상을 합성 모델에 입력하는 단계; 및 상기 합성 모델에서 출력되는 합성 영상을 획득하는 단계를 포함하되, 상기 원본 영상과 워터마크 영상 각각은 상기 합성 모델의 제 1 서브 모델과 제 2 서브 모델 각각에서 처리된 후 결합되고, 상기 결합된 결과는 제 3 서브 모델에서 처리되어 상기 합성 영상이 생성될 수 있다.

일 실시예에 따른 영상 합성 장치 및 방법은 원본 영상과 워터마크 영상이 합성된 합성 영상에서 워터마크의 가시성을 감소시킬 수 있다.

또한, 일 실시예에 따른 영상 합성 장치 및 방법은 합성 영상에 대한 사용자들의 다양한 변형 공격이 있더라도, 합성 영상에서 워터마크를 검출할 수 있다.

또한, 일 실시예에 따른 영상 합성 장치 및 방법은 저작물의 불법적인 유통을 방지하여 창작자들의 창작 의욕을 고취시킬 수 있다.

다만, 일 실시예에 따른 영상 합성 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.

도 1은 일 실시예에 따른 영상 합성 장치의 구성을 도시하는 블록도이다.

도 2는 일 실시예에 따른 영상 합성 방법을 설명하기 위한 순서도이다.

도 3은 합성 모델을 통해 합성 영상을 생성하는 방법을 설명하기 위한 도면이다.

도 4는 일 실시예에 따른 합성 모델의 구조를 설명하기 위한 도면이다.

도 5는 일 실시예에 따른 합성 모델의 구조를 상세하게 설명하기 위한 도면이다.

도 6은 일 실시예에 따른 합성 영상에서 워터마크 영상을 추출하는 방법을 설명하기 위한 도면이다.

도 7은 추출 모델을 통해 합성 영상으로부터 워터마크 영상을 추출하는 방법을 설명하기 위한 도면이다.

도 8은 일 실시예에 따른 추출 모델의 구조를 상세하게 설명하기 위한 도면이다.

도 9는 일 실시예에 따른 합성 모델과 추출 모델을 훈련시키는 방법을 설명하기 위한 도면이다.

도 10은 도 9에 도시된 변형 모델을 설명하기 위한 도면이다.

도 11은 원본 영상, 일 실시예에 따른 영상 합성 방법에 따라 생성된 합성 영상 및 일 실시예에 따른 영상 추출 방법에 따라 생성된 워터마크 영상을 도시하는 도면이다.

도 12는 일 실시예에 따른 영상 합성 장치가 적용되는 환경을 설명하기 위한 도면이다.

본 개시의 다른 실시예에 따른 영상 합성 장치는, 프로세서 및 합성 모델 및 적어도 하나의 프로그램을 저장하는 메모리를 포함하되, 상기 프로세서는 상기 적어도 하나의 프로그램이 실행됨에 따라, 원본 영상과 워터마크 영상을 상기 합성 모델에 입력하고, 상기 합성 모델에서 출력되는 합성 영상을 획득하며, 상기 원본 영상과 워터마크 영상 각각은 상기 합성 모델의 제 1 서브 모델과 제 2 서브 모델 각각에서 처리된 후 결합되고, 상기 결합된 결과는 제 3 서브 모델에서 처리되어 상기 합성 영상이 생성될 수 있다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

도 1은 일 실시예에 따른 영상 합성 장치(100)의 구성을 도시하는 블록도이고, 도 2 및 도 3은 일 실시예에 따른 영상 합성 방법을 설명하기 위한 도면이다.

영상 합성 장치(100)는 메모리(110) 및 제어부(130)를 포함할 수 있다. 메모리(110) 및 제어부(130)는 적어도 하나의 프로세서로 구현될 수 있으며, 메모리(110)에 저장된 프로그램에 따라 동작할 수 있다.

일 실시예에서, 영상 합성 장치(100)는 서버로 구현될 수 있다. 서버는 단말 장치들이 요청한 원본 영상에 워터마크 영상을 합성하고, 합성 영상을 사용자 단말로 전송할 수 있다.

다른 실시예에서, 영상 합성 장치(100)는 단말 장치로 구현될 수도 있다. 단말 장치는 사용자가 선택한 영상을 서버로 요청하고, 서버로부터 수신된 원본 영상에 워터마크 영상을 합성하여 합성 영상을 생성할 수 있다. 일 실시예에서, 상기 단말 장치는 스마트폰, 태블릿 PC, 데스크탑 PC, 노트북 등 네트워크를 통해 서버와 통신할 수 있는 다양한 종류의 기기를 포함할 수 있다.

일 실시예 또는 다른 실시예에서 단말 장치로 전송된 합성 영상은 디스플레이를 통해 표시될 수 있다.

메모리(110)는 합성 모델을 저장할 수 있다. 합성 모델은 원본 영상과 워터마크 영상의 합성을 위해 훈련된 DNN(deep neural network)을 포함할 수 있다. 일 실시예에서, DNN은 CNN(convolution neural network)을 포함할 수도 있다. 메모리(110)는 추출 모델(700)을 더 저장할 수 있는데, 추출 모델(700)에 대해서는 도 6 내지 도 8을 참조하여 후술한다.

도 2 및 도 3을 참조하면, 제어부(130)는 S210 단계에서, 원본 영상(10)과 워터마크 영상(30)을 합성 모델(300)에 입력하고, S220 단계에서, 합성 모델(300)로부터 출력되는 합성 영상(50)을 획득할 수 있다.

제어부(130)는 합성 영상(50)을 생성하기 위해 원본 영상(10)과 워터마크 영상(30)을 획득할 수 있다. 제어부(130)는 사용자가 선택한 원본 영상(10)을 획득할 수 있다. 또한, 제어부(130)는 사용자의 식별 정보 및/또는 저작권자의 식별 정보를 포함하는 워터마크 영상(30)을 획득할 수 있다. 상기 사용자의 식별 정보 및/또는 저작권자의 식별 정보는, ID, 성명, 싸인(sign), 로고 등 사용자나 저작권자를 특정하기 위해 이용되는 다양한 기호, 문자 및/또는 도형을 포함할 수 있다. 사용자의 식별 정보 및/또는 저작권자의 식별 정보는 메모리(110)에 미리 저장될 수 있다.

일 실시예에 따른 영상 합성 장치(100)는 DNN으로 구성된 합성 모델(300)을 통해 합성 영상(50)을 생성할 수 있는데, 합성 모델(300)은 합성 영상(50) 내에서 워터마크의 가시성이 작아지도록, 그리고, 다양한 변형 공격에 따라 변형된 합성 영상(50)에서 워터마크의 추출이 가능하도록 훈련될 수 있다.

이하에서는, 도 4 및 도 5를 참조하여 합성 모델(300)의 구조에 대해 설명한다.

도 4는 일 실시예에 따른 합성 모델(300)의 구조를 설명하기 위한 도면이다.

원본 영상(10) 및 워터마크 영상(30)은 합성 모델(300)에 입력되고, 합성 모델(300)에서 원본 영상(10) 및 워터마크 영상(30)이 합성되어 합성 영상(50)이 출력된다. 합성 모델(300)은 제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350)을 포함할 수 있다.

제 1 서브 모델(310)은 원본 영상(10)을 입력받아 출력 데이터를 출력하고, 제 2 서브 모델(330)은 워터마크 영상(30)을 입력받아 출력 데이터를 출력할 수 있다. 제 1 서브 모델(310)은 원본 영상(10)의 크기를 감소시킬 수 있고, 제 2 서브 모델(330)은 워터마크 영상(30)의 크기를 감소시킬 수 있다.

제 1 서브 모델(310)의 출력 데이터와 제 2 서브 모델(330)의 출력 데이터는 결합(concatenation)되어 제 3 서브 모델(350)로 입력된다. 제 1 서브 모델(310)의 출력 데이터와 제 2 서브 모델(330)의 출력 데이터가 결합된 결과는 제 3 서브 모델(350)에서 처리되어 합성 영상(50)이 생성될 수 있다. 제 3 서브 모델(350)은 제 1 서브 모델(310)의 출력 데이터와 제 2 서브 모델(330)의 출력 데이터가 결합된 결과의 크기를 증가시킬 수 있다.

제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350) 각각은 입력된 데이터를 처리하기 위한 적어도 하나의 레이어를 포함할 수 있다. 적어도 하나의 레이어는 컨볼루션 레이어를 포함할 수 있다. 컨볼루션 레이어는 입력된 데이터에 대해 필터 커널로 컨벌루션 처리를 하고, 컨볼루션 처리된 결과를 다음 레이어로 출력할 수 있다.

일 실시예에서, 컨볼루션 레이어에서 출력된 데이터는 배치 정규화(batch normalization) 레이어 및 활성화 레이어에서 연속적으로 처리될 수 있다. 활성화 레이어는 이전 레이어의 출력 결과에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 활성화 레이어는 활성화 함수를 이용할 수 있다. 활성화 함수는 Leaky ReLU (Rectified Linear Unit) 함수, 시그모이드 함수(sigmoid function), Tanh 함수, ReLU 함수 등을 포함할 수 있다.

도 5는 일 실시예에 따른 합성 모델(300)의 구조를 상세하게 설명하기 위한 도면이다.

도 5를 참조하면, 제 1 서브 모델(310)은 A 컨볼루션 레이어(311-A), B 컨볼루션 레이어(311-B), C 컨볼루션 레이어(311-C) 및 D 컨볼루션 레이어(311-D)를 포함하고, 제 2 서브 모델(330)은 E 컨볼루션 레이어(331-E), F 컨볼루션 레이어(331-F), G 컨볼루션 레이어(331-G), H 컨볼루션 레이어(331-H)를 포함하고, 제 3 서브 모델(350)은 I 컨볼루션 레이어(351-I), J 컨볼루션 레이어(351-J), K 컨볼루션 레이어(351-K) 및 L 컨볼루션 레이어(351-L)를 포함할 수 있다.

제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350)에 포함된 컨볼루션 레이어에서 출력되는 데이터는 소정 크기 및 소정 뎁스(depth)를 가질 수 있다. 예를 들어, A 컨볼루션 레이어(311-A)에서 출력된 데이터(312-A)는 128 X 128의 크기를 가지며 뎁스는 64일 수 있다. A 컨볼루션 레이어(311-A)는 미리 결정된 크기의 필터 커널을 이용하여 미리 결정된 스트라이드(stride)에 따라 원본 영상(10)을 컨볼루션 처리하여 128 X 128의 크기를 갖는 64개의 데이터(312-A)를 출력할 수 있다.

도 5는 제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350) 모두 4개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350) 각각에 포함된 컨볼루션 레이어의 개수는 다양하게 변경될 수 있다.

또한, 제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350)에 포함된 컨볼루션 레이어들에서 출력되는 출력 데이터들의 크기 및 뎁스는 도시된 것에 한정된 것은 아니며, 당업자가 필터 커널의 크기, 개수 및 스트라이드를 다양하게 설정함으로써, 출력 데이터들의 크기 및 뎁스를 다양하게 변경할 수 있다.

도 5에는 도시되어 있지 않지만, 일 실시예에서, 제 1 서브 모델(310), 제 2 서브 모델(330) 및 제 3 서브 모델(350)에 포함된 컨볼루션 레이어들 중 적어도 하나의 컨볼루션 레이어의 후단에는 배치 정규화 레이어 및/또는 활성화 레이어가 위치할 수 있다. 예를 들어, A 컨볼루션 레이어(311-A)의 후단에 배치 정규화 레이어 및/또는 활성화 레이어가 위치하는 경우, A 컨볼루션 레이어(311-A)에서 출력된 데이터는 배치 정규화 레이어 및/또는 활성화 레이어에서 처리된 후 B 컨볼루션 레이어(311-B)로 입력될 수 있다.

원본 영상(10)은 제 1 서브 모델(310)로 입력되어 크기가 감소될 수 있다. 원본 영상(10)은 A 컨볼루션 레이어(311-A)로 입력되어 컨볼루션 처리되고, A 컨볼루션 레이어(311-A)의 출력 데이터(312-A)는 B 컨볼루션 레이어(311-B)로 입력되어 컨볼루션 처리될 수 있다. 그리고, B 컨볼루션 레이어(311-B)의 출력 데이터(312-B)는 C 컨볼루션 레이어(311-C)로 입력되어 컨볼루션 처리될 수 있고, C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)는 D 컨볼루션 레이어(311-D)로 입력되어 컨볼루션 처리될 수 있다.

워터마크 영상(30)은 제 2 서브 모델(330)로 입력되어 크기가 감소될 수 있다. 워터마크 영상(30)은 E 컨볼루션 레이어(331-E)로 입력되어 컨볼루션 처리되고, E 컨볼루션 레이어(331-E)의 출력 데이터(332-E)는 F 컨볼루션 레이어(331-F)로 입력되어 컨볼루션 처리될 수 있다. 그리고, F 컨볼루션 레이어(331-F)의 출력 데이터(332-F)는 G 컨볼루션 레이어(331-G)로 입력되어 컨볼루션 처리될 수 있고, G 컨볼루션 레이어(331-G)의 출력 데이터(332-G)는 H 컨볼루션 레이어(331-H)로 입력되어 컨볼루션 처리될 수 있다.

D 컨볼루션 레이어(311-D)의 출력 데이터(312-D)와 H 컨볼루션 레이어(331-H)의 출력 데이터(332-H)는 결합(concatenation)되어 제 3 서브 모델(350)로 입력될 수 있다.

D 컨볼루션 레이어(311-D)의 출력 데이터(312-D)와 H 컨볼루션 레이어(331-H)의 출력 데이터(332-H)가 결합된 결과는 제 3 서브 모델(350)로 입력되어 크기가 증가될 수 있다. 상기 결합된 결과는, I 컨볼루션 레이어(351-I)로 입력되어 컨볼루션 처리되고, I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)는 J 컨볼루션 레이어(351-J)로 입력되어 컨볼루션 처리될 수 있다. 그리고, J 컨볼루션 레이어(351-J)의 출력 데이터(352-J)는 K 컨볼루션 레이어(351-K)로 입력되어 컨볼루션 처리될 수 있고, K 컨볼루션 레이어(351-K)의 출력 데이터(352-K)는 L 컨볼루션 레이어(351-L)로 입력되어 컨볼루션 처리될 수 있다.

일 실시예에서, 제 1 서브 모델(310)에 포함된 적어도 하나의 컨볼루션 레이어에서 출력된 데이터는 후속하는 레이어로 입력될 수 있는 동시에, 제 3 서브 모델(350)에 포함된 적어도 하나의 컨볼루션 레이어에서 출력된 데이터에 결합(concatenation)될 수 있다. 결합된 데이터는 제 3 서브 모델(350)의 후속하는 레이어로 입력될 수 있다.

제 1 서브 모델(310)에 포함된 컨볼루션 레이어의 중간 출력 결과를 제 3 서브 모델(350)에 포함된 컨볼루션 레이어의 중간 출력 결과에 결합시키는 이유는, 워터마크의 가시성을 감소시키기 위함이다. 다시 말하면, D 컨볼루션 레이어(311-D)의 출력 데이터(312-D)와 H 컨볼루션 레이어(331-H)의 출력 데이터(332-H)가 결합된 결과가 제 3 서브 모델(350)에서 처리되는 동안, 원본 영상(10)에 대응하는 특징 맵(즉, 제 1 서브 모델(310)에 포함된 컨볼루션 레이어의 중간 출력 결과)을 결합시키는 것이다. 일 예에서, 제 2 서브 모델(330)에 포함된 컨볼루션 레이어의 중간 출력 결과는 제 3 서브 모델(350)의 중간 출력 결과에 결합되지 않는다.

C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)는 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)와 결합되어 J 컨볼루션 레이어(351-J)로 입력되고, B 컨볼루션 레이어(311-B)의 출력 데이터(312-B)는 J 컨볼루션 레이어(351-J)의 출력 데이터(352-J)와 결합되어 K 컨볼루션 레이어(351-K)로 입력될 수 있다. 그리고, A 컨볼루션 레이어(311-A)의 출력 데이터(312-A)는 K 컨볼루션 레이어(351-K)의 출력 데이터(352-K)와 결합되어 L 컨볼루션 레이어(351-L)로 입력될 수 있다.

서로 결합되는 C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)와 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I), B 컨볼루션 레이어(311-B)의 출력 데이터(312-B)와 J 컨볼루션 레이어(351-J)의 출력 데이터(352-J), 그리고, A 컨볼루션 레이어(311-A)의 출력 데이터(312-A)와 K 컨볼루션 레이어(351-K)의 출력 데이터(352-K)는 서로 동일한 크기를 가질 수 있다. 즉, 제 1 서브 모델(310)의 중간 출력 결과를 제 3 서브 모델(350)의 중간 출력 결과에 결합시킬 때, 결합되는 중간 출력 결과는 서로 동일한 크기를 갖는 것이다. 이는 서로 상이한 크기의 출력 데이터들이 결합되는 경우, 결합된 데이터에 대한 일정한 컨볼루션 처리가 어려워질 수 있기 때문이다.

일 실시예에서는, 서로 결합되는, 제 1 서브 모델(310)의 컨볼루션 레이어의 출력 데이터와 제 3 서브 모델(350)의 컨볼루션 레이어의 출력 데이터의 크기는 상이할 수도 있다. 예를 들어, C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)와 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)는 서로 상이한 크기를 가질 수 있다. 일 예에서, 일정한 컨볼루션 처리를 위해 J 컨볼루션 레이어(351-J)는 서로 상이한 크기의 복수의 필터 커널을 가질 수 있다. C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)의 크기가 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)의 크기보다 큰 경우, J 컨볼루션 레이어(351-J)는 큰 크기의 제 1 필터 커널로 C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)를 컨볼루션 처리하고, 작은 크기의 제 2 필터 커널로 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)를 컨볼루션 처리할 수 있다. 이에 의해, 제 1 필터 커널을 이용한 컨볼루션 결과 출력되는 데이터와 제 2 필터 커널을 이용한 컨볼루션 결과 출력되는 데이터는 서로 동일한 크기를 가질 수 있다.

다른 예에서, J 컨볼루션 레이어(351-J)에 할당된 필터 커널의 크기는 모두 동일하되, C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)의 크기가 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)의 크기보다 큰 경우, C 컨볼루션 레이어(311-C)의 출력 데이터(312-C)를 컨볼루션 처리하기 위한 제 1 스트라이드가 I 컨볼루션 레이어(351-I)의 출력 데이터(352-I)를 컨볼루션 처리하기 위한 제 2 스트라이드보다 클 수 있다. 이에 의해, 제 1 스트라이드에 의한 컨볼루션 결과 출력되는 데이터와 제 2 스트라이드에 의한 컨볼루션 결과 출력되는 데이터는 서로 동일한 크기를 가질 수 있다.

일 실시예에서, 원본 영상(10)은 L 컨볼루션 레이어(351-L)의 출력 데이터(352-L)에 합산될 수 있다. 도 5에 도시된 바와 같이, L 컨볼루션 레이어(351-L)의 출력 데이터(352-L)에 가중치(α)가 곱해진 후 원본 영상(10)과 합산됨으로써 합성 영상(50)이 생성될 수 있다. 원본 영상(10)을 제 3 서브 모델(350)의 출력 데이터에 합산하는 이유는, 후술하는 훈련용 원본 영상(910)과 훈련용 합성 영상(950) 사이의 차이를 반영하여 합성 모델(300)을 신속히 훈련시키기 위함이다.

원본 영상(10)을 합성 영상(50)의 예측(prediction) 값이라 하고, 제 3 서브 모델(350)의 출력 데이터를 합성 영상(50)의 잔차(residue) 값이라 하였을 때, 예측 값과 잔차 값을 합산하여 합성 영상(50)을 생성하는 것으로 볼 수 있다. 이 경우, 잔차 값에 대응하는 손실 정보를 이용하여 합성 모델(300)을 훈련시킬 때 그 훈련 속도가 매우 빨라질 수 있는 것이다.

도 6 및 도 7은 일 실시예에 따른 변형 합성 영상(70)에서 워터마크 영상(90)을 추출하는 방법을 설명하기 위한 도면이다.

도 6 및 도 7을 참조하면, 제어부(130)는 S610 단계에서, 변형 합성 영상(70)을 추출 모델(700)에 입력하고, S620 단계에서, 추출 모델(700)로부터 출력되는 워터마크 영상(90)을 획득할 수 있다.

제어부(130)는 워터마크 영상(90)의 추출을 위해, 변형 합성 영상(70)을 획득할 수 있다. 일 실시예에서, 변형 합성 영상(70)은 네트워크를 통해 외부의 장치로부터 수신된 것일 수 있다. 다른 실시예에서, 변형 합성 영상(70)은 관리자에 의해 입력된 것일 수도 있다.

변형 합성 영상(70)은, 합성 모델(300)에 의해 생성된 합성 영상(50)에 소정 종류의 변형 방법이 적용되어 변형된 영상일 수 있다. 상기 변형 방법은 예를 들어, 코덱을 통한 코딩, 노이즈 추가, 양자화, 회전, 축소, 확대, 픽셀 위치 변경 및 필터링 중 적어도 하나를 포함할 수 있다. 전술한 바와 같이, 사용자는 영상 합성 장치(100)에 의해 생성된 합성 영상(50)을 획득한 후, 불법적인 유통을 위해 합성 영상(50)에 변형 공격을 가할 수 있다.

일 실시예에 따른 영상 합성 장치(100)는 변형 합성 영상(70)을 추출 모델(700)에 입력하여 워터마크 영상(90)을 추출하고, 추출한 워터마크 영상(90)이 합성 영상(50)을 생성하기 위해 이용된 워터마크 영상(30)에 대응하는지를 판단할 수 있다. 예를 들어, 영상 합성 장치(100)는 합성 영상(50)을 생성하는데 이용된 워터마크 영상(30)들을 미리 저장하고, 변형 합성 영상(70)으로부터 추출되는 워터마크 영상(90)과 미리 저장된 워터마크 영상(30)들을 비교하여, 추출된 워터마크 영상(90)이 미리 저장된 워터마크 영상(30)에 대응하는지를 판단할 수 있다.

영상 합성 장치(100)는 추출된 워터마크 영상(90)과 미리 저장된 워터마크 영상(30)의 비교 결과, 또는 추출된 워터마크 영상(90)에서 확인된 식별 정보와 미리 저장된 사용자의 식별 정보 및/또는 저작권자의 식별 정보의 비교 결과를 나타내는 정보를 출력할 수 있다. 영상 합성 장치(100)는 프린터, 스피커, 모니터 등의 다양한 출력 장치를 통해 비교 결과를 나타내는 정보를 출력할 수 있다.

도 8은 일 실시예에 따른 추출 모델(700)의 구조를 상세하게 설명하기 위한 도면이다.

추출 모델(700)은 복수의 컨볼루션 레이어를 포함할 수 있다. 복수의 컨볼루션 레이어 중 일부는 입력되는 데이터의 크기를 감소시킬 수 있으며, 복수의 컨볼루션 레이어 중 나머지는 입력되는 데이터의 크기를 증가시킬 수 있다.

도 8을 참조하면, 추출 모델(700)은 A 컨볼루션 레이어(710-A), B 컨볼루션 레이어(710-B), C 컨볼루션 레이어(710-C), D 컨볼루션 레이어(710-D), E 컨볼루션 레이어(710-E), F 컨볼루션 레이어(710-F), G 컨볼루션 레이어(710-G) 및 H 컨볼루션 레이어(710-H)를 포함할 수 있다. A 컨볼루션 레이어(710-A), B 컨볼루션 레이어(710-B), C 컨볼루션 레이어(710-C) 및 D 컨볼루션 레이어(710-D)는 입력 데이터의 크기를 감소시키는 제 1 서브 모델에 해당할 수 있고, E 컨볼루션 레이어(710-E), F 컨볼루션 레이어(710-F), G 컨볼루션 레이어(710-G) 및 H 컨볼루션 레이어(710-H)는 입력 데이터의 크기를 증가시키는 제 2 서브 모델에 해당할 수 있다.

추출 모델(700)에 포함된 컨볼루션 레이어에서 출력되는 데이터는 소정 크기 및 소정 뎁스(depth)를 가질 수 있다. 예를 들어, A 컨볼루션 레이어(710-A)에서 출력된 데이터(720-A)는 128 X 128의 크기를 가지며 뎁스는 64일 수 있다. A 컨볼루션 레이어(710-A)는 미리 결정된 크기의 필터 커널을 이용하여 미리 결정된 스트라이드(stride)에 따라 변형 합성 영상(70)을 컨볼루션 처리하여 128 X 128의 크기를 갖는 64개의 데이터(720-A)를 출력할 수 있다. 추출 모델(700)에 포함된 컨볼루션 레이어들에서 출력되는 출력 데이터들의 크기 및 뎁스는 도시된 것에 한정된 것은 아니며, 당업자가 필터 커널의 크기, 개수 및 스트라이드를 다양하게 설정함으로써, 출력 데이터들의 크기 및 뎁스를 다양하게 변경할 수 있다.

또한, 도 8은 추출 모델(700)이 8개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 추출 모델(700)에 포함된 컨볼루션 레이어의 개수는 다양하게 변경될 수 있다.

또한, 도 8에는 도시되어 있지 않지만, 추출 모델(700)에 포함된 컨볼루션 레이어들 중 적어도 하나의 컨볼루션 레이어의 후단에는 배치 정규화 레이어 및/또는 활성화 레이어가 위치할 수 있다. 예를 들어, A 컨볼루션 레이어(710-A)의 후단에 배치 정규화 레이어 및/또는 활성화 레이어가 위치하는 경우, A 컨볼루션 레이어(710-A)에서 출력된 데이터는 배치 정규화 레이어 및/또는 활성화 레이어에서 처리된 후 B 컨볼루션 레이어(710-B)로 입력될 수 있다.

변형 합성 영상(70)은 제 1 서브 모델로 입력되어 크기가 감소될 수 있다. 변형 합성 영상(70)은 A 컨볼루션 레이어(710-A)로 입력되어 컨볼루션 처리되고, A 컨볼루션 레이어(710-A)의 출력 데이터(720-A)는 B 컨볼루션 레이어(710-B)로 입력되어 컨볼루션 처리될 수 있다. 그리고, B 컨볼루션 레이어(710-B)의 출력 데이터(720-B)는 C 컨볼루션 레이어(710-C)로 입력되어 컨볼루션 처리될 수 있고, C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)는 D 컨볼루션 레이어(710-D)로 입력되어 컨볼루션 처리될 수 있다.

D 컨볼루션 레이어(710-D)에서 출력된 데이터(720-D)는 제 2 서브 모델로 입력되어 크기가 증가될 수 있다. D 컨볼루션 레이어(710-D)에서 출력된 데이터(720-D)는 E 컨볼루션 레이어(710-E)로 입력되어 컨볼루션 처리되고, E 컨볼루션 레이어(710-E)의 출력 데이터(720-E)는 F 컨볼루션 레이어(710-F)로 입력되어 컨볼루션 처리될 수 있다. 그리고, F 컨볼루션 레이어(710-F)의 출력 데이터(720-F)는 G 컨볼루션 레이어(710-G)로 입력되어 컨볼루션 처리될 수 있고, G 컨볼루션 레이어(710-G)의 출력 데이터(720-G)는 H 컨볼루션 레이어(710-H)로 입력되어 컨볼루션 처리될 수 있다.

일 실시예에서, 제 1 서브 모델에 포함된 적어도 하나의 컨볼루션 레이어에서 출력된 데이터는 후속하는 레이어로 입력될 수 있는 동시에, 제 2 서브 모델에 포함된 적어도 하나의 컨볼루션 레이어에서 출력된 데이터에 결합(concatenation)될 수 있다. 결합된 데이터는 제 2 서브 모델의 후속하는 레이어로 입력될 수 있다.

도 8을 참조하면, C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)는 E 컨볼루션 레이어(710-E)의 출력 데이터(720-E)와 결합되어 F 컨볼루션 레이어(710-F)로 입력되고, B 컨볼루션 레이어(710-B)의 출력 데이터(720-B)는 F 컨볼루션 레이어(710-F)의 출력 데이터(720-F)와 결합되어 G 컨볼루션 레이어(710-G)로 입력될 수 있다. 그리고, A 컨볼루션 레이어(710-A)의 출력 데이터(720-A)는 G 컨볼루션 레이어(710-G)의 출력 데이터(720-G)와 결합되어 H 컨볼루션 레이어(710-H)로 입력될 수 있다.

서로 결합되는 C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)와 E 컨볼루션 레이어(710-E)의 출력 데이터(720-E), B 컨볼루션 레이어(710-B)의 출력 데이터(720-B)와 F 컨볼루션 레이어(710-F)의 출력 데이터(720-F), 그리고, A 컨볼루션 레이어(710-A)의 출력 데이터(720-A)와 G 컨볼루션 레이어(710-G)의 출력 데이터(720-G)는 서로 동일한 크기를 가질 수 있다. 즉, 제 1 서브 모델의 중간 출력 결과를 제 2 서브 모델의 중간 출력 결과에 결합시킬 때, 결합되는 중간 출력 결과는 서로 동일한 크기를 갖는 것이다.

일 실시예에서는, 서로 결합되는, 제 1 서브 모델(310)의 컨볼루션 레이어의 출력 데이터와 제 2 서브 모델(330)의 컨볼루션 레이어의 출력 데이터의 크기는 상이할 수도 있다. 예를 들어, C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)와 E 컨볼루션 레이어(710-E)의 출력 데이터(720-E)는 서로 상이한 크기를 가질 수 있다. 일 예에서, 일정한 컨볼루션 처리를 위해 F 컨볼루션 레이어(710-F)는 서로 상이한 크기의 복수의 필터 커널을 가질 수 있다. C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)의 크기가 E 컨볼루션 레이어(710-E)의 출력 데이터(720-E)의 크기보다 큰 경우, F 컨볼루션 레이어(710-F)는 큰 크기의 제 1 필터 커널로 C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)를 컨볼루션 처리하고, 작은 크기의 제 2 필터 커널로 E 컨볼루션 레이어(710-F)의 출력 데이터(720-F)를 컨볼루션 처리할 수 있다. 이에 의해, 제 1 필터 커널을 이용한 컨볼루션 결과 출력되는 데이터와 제 2 필터 커널을 이용한 컨볼루션 결과 출력되는 데이터는 서로 동일한 크기를 가질 수 있다.

다른 예에서, F 컨볼루션 레이어(710-F)에 할당된 필터 커널의 크기는 모두 동일하되, C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)의 크기가 E 컨볼루션 레이어(710-E)의 출력 데이터(720-E)의 크기보다 큰 경우, C 컨볼루션 레이어(710-C)의 출력 데이터(720-C)를 컨볼루션 처리하기 위한 제 1 스트라이드가 E 컨볼루션 레이어(710-E)의 출력 데이터(720-E)를 컨볼루션 처리하기 위한 제 2 스트라이드보다 클 수 있다. 이에 의해, 제 1 스트라이드에 의한 컨볼루션 결과 출력되는 데이터와 제 2 스트라이드에 의한 컨볼루션 결과 출력되는 데이터는 서로 동일한 크기를 가질 수 있다.

도 9는 일 실시예에 따른 합성 모델(300)과 추출 모델(700)을 훈련시키는 방법을 설명하기 위한 도면이다.

도 9를 참조하면, 훈련용 원본 영상(910)과 훈련용 워터마크 영상(930)이 합성 모델(300)로 입력되고, 합성 모델(300)에서 훈련용 합성 영상(950)이 출력될 수 있다. 그리고, 훈련용 합성 영상(950)에 대해 변형 모델(900)이 적용되어 훈련용 변형 합성 영상(970)이 생성될 수 있다. 훈련용 변형 합성 영상(970)은 추출 모델(700)에 입력되고, 추출 모델(700)에서 워터마크 영상(990)이 출력될 수 있다.

일 실시예에서, 합성 모델(300)은 훈련용 원본 영상(910)과 훈련용 합성 영상(950) 사이의 차이에 기초하여 산출되는 제 1 손실 정보가 감소되도록 훈련될 수 있다. 합성 모델(300)은 훈련용 원본 영상(910)과 훈련용 합성 영상(950) 사이의 차이에 기초하여 산출되는 제 1 손실 정보가 최소화되도록 훈련될 수도 있다. 제 1 손실 정보는 예를 들어, L¹-norm 값, L²-norm 값, SSIM 값, PSNR-HVS 값, MS-SSIM 값, VIF 값 및 VMAF 값 중 어느 하나 또는 이들 중 2개 이상을 조합한 결과가 이용될 수 있다. 또한, 일 예에서, 제 1 손실 정보는, 훈련용 원본 영상(910)과 훈련용 합성 영상(950) 각각을 특징 맵 추출을 위한 DNN에 입력한 후, DNN에서 출력되는 두 특징 맵 사이의 차이에 해당할 수도 있다. 상기 DNN은 예를 들어, VGG-16이고, 훈련용 원본 영상(910) 및 훈련용 합성 영상(950)에 대응하는 특징 맵은 VGG-16의 ReLU2_2에서 출력되는 특징 맵을 포함할 수 있다.

제 1 손실 정보가 감소 또는 최소화되도록 훈련된다는 것은, 훈련용 원본 영상(910)과 차이가 거의 없는 훈련용 합성 영상(950)이 생성된다는 것을 의미할 수 있다. 즉, 제 1 손실 정보가 감소 또는 최소화되도록 훈련됨으로써 훈련용 합성 영상(950) 내 워터마크의 가시성이 감소될 수 있다.

일 실시예에서, 추출 모델(700)은 훈련용 워터마크 영상(930)과 추출 모델(700)에서 출력되는 워터마크 영상(990) 사이의 차이에 기초하여 산출되는 제 2 손실 정보가 감소되도록 훈련될 수 있다. 추출 모델(700)은 제 2 손실 정보가 최소화되도록 훈련될 수도 있다. 제 2 손실 정보는 예를 들어, L¹-norm 값, L²-norm 값, SSIM 값, PSNR-HVS 값, MS-SSIM 값, VIF 값 및 VMAF 값 중 어느 하나 또는 이들 중 2개 이상을 조합한 결과가 이용될 수 있다. 또한, 일 예에서, 제 2 손실 정보는, 훈련용 워터마크 영상(930)과 추출 모델(700)에서 출력되는 워터마크 영상(990) 각각을 특징 맵 추출을 위한 DNN에 입력한 후, DNN에서 출력되는 두 특징 맵 사이의 차이에 해당할 수도 있다. 상기 DNN은 예를 들어, VGG-16일 수 있다.

제 2 손실 정보가 감소 또는 최소화되도록 훈련된다는 것은, 훈련용 합성 영상(950)에 대해 다양한 변형 공격이 가해지더라도 훈련용 변형 합성 영상(970)으로부터 워터마크 영상(990)이 잘 추출될 수 있게 한다는 것을 의미할 수 있다. 즉, 추출 모델(700)이 제 2 손실 정보가 감소 또는 최소화되도록 훈련됨으로써 추출 모델(700)은 훈련용 변형 합성 영상(970)으로부터 워터마크 영상(990)을 보다 정확히 추출할 수 있는 것이다.

일 실시예에서, 합성 모델(300)과 추출 모델(700)은 제 1 손실 정보와 제 2 손실 정보를 결합한 최종 손실 정보가 감소되도록 훈련될 수 있다. 또는 합성 모델(300)과 추출 모델(700)은 제 1 손실 정보와 제 2 손실 정보를 결합한 최종 손실 정보가 최소화되도록 훈련될 수도 있다.

상기 최종 손실 정보는 하기의 수학식 1에 따라 산출될 수 있다.

[수학식 1]

L = λ_{img_mse}L_{img_mse} + λ_vggL_vgg + λ_{wm_mse}L_{wm_mse}

상기 수학식 1에서 L은 최종 손실 정보, L_{img_mse}는 훈련용 원본 영상(910)과 훈련용 합성 영상(950)의 차이에 기초하여 산출되는 손실 정보로서, L¹-norm 값, L²-norm 값, SSIM 값, PSNR-HVS 값, MS-SSIM 값, VIF 값 및 VMAF 값 중 어느 하나 또는 이들 중 2개 이상을 조합한 결과, L_vgg은 훈련용 원본 영상(910)과 훈련용 합성 영상(950)을 VGG-16에 입력하여 ReLU2_2에서 출력되는 특징 맵의 차이에 기초하여 산출된 손실 정보, L_{wm_mse}는 훈련용 워터마크 영상(930)과 추출 모델(700)에서 출력되는 워터마크 영상(990) 사이의 차이에 기초하여 산출되는 손실 정보를 나타낸다. 그리고, λ_{img_mse}, λ_vgg 및 λ_{wm_mse}는 손실 정보들 각각에 적용되는 가중치를 나타낸다.

상기 수학식 1에서 λ_{img_mse} 및 λ_vgg는 λ_{wm_mse}보다 크게 설정될 수 있다. λ_{img_mse} 및 λ_vgg를 λ_{wm_mse}보다 크게 설정한다는 것은 훈련용 합성 영상(950) 내 워터마크의 가시성을 워터마크 영상(990)의 추출 강인성보다 중요하게 반영한다는 것을 의미한다. 다시 말하면, L_{img_mse}와 L_vgg에 큰 값의 가중치를 적용함으로써, 최종 손실 정보의 크기가 L_{img_mse}와 L_vgg에 보다 큰 영향을 받게 하여 훈련용 원본 영상(910)과 훈련용 합성 영상(950)의 차이를 감소시키고자 함이다.

한편, 도 9에서 변형 모델(900)은 합성 영상(50)에 가해질 수 있는 다양한 종류의 변형 공격을 모델링한 것으로서, 전술한 바와 같이, 변형 공격은 코덱을 통한 코딩, 노이즈 추가, 양자화, 회전, 축소, 확대, 픽셀 위치 변경 및 필터링을 포함할 수 있다. 변형 모델(900)은 여러 변형 공격 각각에 대응하여 결정될 수 있다.

변형 공격들 중 미분 가능한 변형 공격(예를 들어, 노이즈 추가, 축소, 확대, 픽셀 이동 등)에 대한 전파 함수(forward function) 및 역전파 함수(backward function), 그리고, 미분 불가능한 변형 공격(예를 들어, 코덱을 통한 코딩, 양자화, 메디안(median) 필터링 등))에 대한 전파 함수의 모델링은 공지된 모델링 방법에 따라 결정 가능하지만, 미분 불가능한 변형 공격의 역전파 함수에 대한 모델링은 문제가 된다.

도 10을 참조하면, x가 변형 모델(900)에 입력되고, 변형 모델(900)에서 y가 출력될 때, 미분 불가능한 변형 공격의 역전파 함수의 부분 미분은 1로 근사할 수 있다. 이는 공격자가 입력 영상에 변형 공격을 가하고자 하더라도 공격자는 입력 영상과 매우 유사한 출력 영상을 생성할 것이라는 가정에 근거한다.

최종 손실 정보를 L라 하고 x에 대한 L의 미분을 dL/dx라 할 때, dL/dx 는 미분 연쇄법칙에 의해 y에 대한 L의 미분인 dL/dy 와 x에 대한 y의 미분인 dy/dx 의 곱으로 표현된다. dy/dx는 아래의 수학식 2에 따라 1로 치환될 수 있다.

[수학식 2]

도 11은 원본 영상(1110), 일 실시예에 따른 영상 합성 방법에 따라 생성된 합성 영상(1150) 및 일 실시예에 따른 영상 추출 방법에 따라 생성된 워터마크 영상(1190)을 도시하는 도면이다.

도 11을 참조하면, 합성 모델(300)은 원본 영상(1110)과 합성 영상(1150)의 차이가 감소 또는 최소화되도록 훈련되었기 때문에 원본 영상(1110)과 합성 영상(1150)의 차이를 눈으로 식별하기 어렵다. 즉, 합성 영상(50)에서 워터마크를 발견하기 어렵다. 또한, 추출 모델(700)은 워터마크 영상(1190)의 추출 능력이 증가 또는 최대화되도록 훈련되었기 때문에 워터마크를 식별할 수 없는 합성 영상(1150)에서도 워터마크(1190)를 추출할 수 있다.

도 11에 도시된 워터마크 영상(1190) 내 점(dot)은 삽입한 워터마크로서 메시지를 나타낸다. 워터마크는 예를 들어, 0 또는 1의 값을 가질 수 있다. 예를 들어, 하얀색 점은 0의 값을, 검은색 점은 1의 값을 가질 수 있다. 다시 말하면, 워터마크는 두 개의 값 중 어느 하나를 가지도록 삽입될 수 있는 것이다. 워터마크를 구성하는 각 점은 2차원 가우시안의 형태를 가질 수 있으며, 이러한 2차원 가우시안 형태에 따라 합성 영상(1150) 내 워터마크의 가시성이 보다 감소될 수 있다.

도 12는 일 실시예에 따른 영상 합성 장치(100)가 적용되는 환경을 설명하기 위한 도면이다.

도 12를 참조하면, 서버(1210)와 단말 장치(1230)들은 네트워크를 통해 통신할 수 있다. 서버(1210)는 단말 장치(1230)의 요청에 따라 단말 장치(1230)로 영상을 전송하고, 단말 장치(1230)는 서버(1210)로부터 수신된 영상을 디스플레이에 표시할 수 있다.

일 예시에서, 상기 서버(1210)는 웹툰 서비스를 제공할 수 있다. 단말 장치(1230)는 서버(1210)에 접속하여 사용자가 선택한 웹툰의 전송을 요청하고, 서버(1210)는 단말 장치(1230)에 의해 선택된 웹툰 컨텐츠(즉, 영상)를 단말 장치(1230)로 전송할 수 있다. 실시예에서, 서버(1210)는 단말 장치(1230)의 사용자가 일정 액수의 비용을 지불하거나, 일정 포인트를 사용한 경우에 웹툰 컨텐츠를 단말 장치(1230)로 전송할 수 있다.

일 실시예에서, 전술한 영상 합성 장치(100)는 서버(1210)에 포함될 수 있다. 이 경우, 서버(1210)는 단말 장치(1230)가 요청한 원본 영상(10)과, 워터마크 영상(30)을 합성 모델(300)에 입력하여 합성 영상(50)을 생성하고, 합성 영상(50)을 단말 장치(1230)로 전송할 수 있다. 상기 워터마크 영상(30)은 단말 장치(1230)의 사용자에게 할당된 ID를 포함할 수 있다. 단말 장치(1230)는 서버(1210)로부터 수신된 합성 영상(50)을 디스플레이에 표시할 수 있다. 또한, 서버(1210)는 외부의 장치로부터 수신되거나 관리자에 의해 입력된 변형 합성 영상(70)을 추출 모델(700)에 입력하여 워터마크 영상(90)을 획득할 수도 있다. 서버(1210)는 추출한 워터마크 영상(90)이 합성 영상(50)을 생성하기 위해 이용된 워터마크 영상(30)에 대응하는지를 판단할 수 있고, 판단 결과를 모니터, 스피커, 프린터 등의 출력 장치를 통해 출력할 수 있다.

또한, 일 실시예에서, 영상 합성 장치(100)는 단말 장치(1230)에 포함될 수 있다. 단말 장치(1230)는 사용자가 선택한 영상의 전송을 서버(1210)로 요청하고, 서버(1210)로부터 원본 영상(10)을 수신할 수 있다. 단말 장치(1230)는 수신된 원본 영상(10)과 워터마크 영상(30)을 합성 모델(300)에 입력하여 합성 영상(50)을 생성하고, 생성된 합성 영상(50)을 단말 장치(1230)의 디스플레이에 표시할 수 있다. 또한, 단말 장치(1230)는 외부의 장치로부터 수신되거나 사용자에 의해 입력된 변형 합성 영상(70)을 추출 모델(700)에 입력하여 워터마크 영상(90)을 획득할 수도 있다. 단말 장치(1230)는 추출한 워터마크 영상(90)이 합성 영상(50)을 생성하기 위해 이용된 워터마크 영상(30)에 대응하는지를 판단할 수 있고, 판단 결과를 모니터, 스피커, 프린터 등의 출력 장치를 통해 출력할 수 있다.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.

매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims

영상 합성 장치에 의한 영상 합성 방법에 있어서,

원본 영상과 워터마크 영상을 합성 모델에 입력하는 단계; 및

상기 합성 모델에서 출력되는 합성 영상을 획득하는 단계를 포함하되,

상기 원본 영상과 상기 워터마크 영상 각각은 상기 합성 모델의 제 1 서브 모델과 제 2 서브 모델 각각에서 처리된 후 결합(concatenation)되고, 상기 결합된 결과는 제 3 서브 모델에서 처리되어 상기 합성 영상이 생성되는 것을 특징으로 하는 영상 합성 방법.
제1항에 있어서,

상기 제 1 서브 모델에 포함된 레이어의 출력 데이터는, 상기 제 3 서브 모델에 포함된 레이어의 출력 데이터에 결합되어 상기 제 3 서브 모델의 다음 레이어에 입력되는 것을 특징으로 하는 영상 합성 방법.
제2항에 있어서,

상기 제 1 서브 모델에 포함된 레이어의 출력 데이터의 크기와 상기 제 3 서브 모델에 포함된 레이어의 출력 데이터의 크기는 서로 동일한 것을 특징으로 하는 영상 합성 방법.
제1항에 있어서,

상기 원본 영상은 상기 제 3 서브 모델의 출력 데이터에 합산되어 상기 합성 영상이 생성되는 것을 특징으로 하는 영상 합성 방법.
제1항에 있어서,

상기 제 1 서브 모델은 상기 원본 영상의 크기를 감소시키기 위한 적어도 하나의 레이어를 포함하고, 상기 제 2 서브 모델은 상기 워터마크 영상의 크기를 감소시키기 위한 적어도 하나의 레이어를 포함하고, 상기 제 3 서브 모델은 상기 결합된 결과의 크기를 증가시키기 위한 적어도 하나의 레이어를 포함하는 것을 특징으로 하는 영상 합성 방법.
제1항에 있어서,

상기 영상 합성 방법은,

변형 합성 영상을 추출 모델에 입력하는 단계; 및

상기 추출 모델에서 출력되는 워터마크 영상을 획득하는 단계를 더 포함하되,

상기 추출 모델은 상기 변형 합성 영상의 크기를 감소시키는 제 1 서브 모델 및 상기 제 1 서브 모델의 출력 데이터의 크기를 증가시키는 제 2 서브 모델을 포함하는 것을 특징으로 하는 영상 합성 방법.
제6항에 있어서,

상기 추출 모델의 상기 제 1 서브 모델에 포함된 레이어의 출력 데이터는, 상기 추출 모델의 제 2 서브 모델에 포함된 레이어의 출력 데이터에 결합되어 상기 제 2 서브 모델의 다음 레이어에 입력되는 것을 특징으로 하는 영상 합성 방법.
제6항에 있어서,

상기 영상 합성 방법은,

훈련용 원본 영상과 훈련용 워터마크 영상을 상기 합성 모델에 입력하는 단계; 및

훈련용 변형 합성 영상을 상기 추출 모델에 입력하는 단계를 더 포함하되,

상기 합성 모델 및 상기 추출 모델은, 상기 합성 모델에서 출력되는 훈련용 합성 영상과 상기 훈련용 원본 영상 사이의 차이에 기초하여 산출되는 제 1 손실 정보, 및 상기 훈련용 워터마크 영상과 상기 추출 모델에서 출력되는 워터마크 영상 사이의 차이에 기초하여 산출되는 제 2 손실 정보를 결합한 최종 손실 정보가 감소되도록 훈련되는 것을 특징으로 하는 영상 합성 방법.
제8항에 있어서,

상기 영상 합성 방법은,

상기 훈련용 합성 영상을 변형 모델에 따라 변형하여 상기 훈련용 변형 합성 영상을 생성하는 단계를 더 포함하되,

상기 변형 모델은 복수의 변형 방법 각각에 대응하여 생성되는 것을 특징으로 하는 영상 합성 방법.
제8항에 있어서,

상기 제 1 손실 정보와 상기 제 2 손실 정보 각각에 제 1 가중치 및 제 2 가중치가 적용된 후 서로 더해짐으로써 상기 최종 손실 정보가 산출되며,,

상기 제 1 가중치는, 상기 제 2 가중치보다 큰 것을 특징으로 하는 영상 합성 방법.
제1항에 있어서,

상기 영상 합성 방법은,

서버에 접속한 단말 장치의 사용자의 식별 정보에 대응하는 상기 워터마크 영상을 획득하는 단계를 더 포함하는 것을 특징으로 하는 영상 합성 방법.
하드웨어와 결합하여 제1항 내지 제11항 중 어느 하나의 항의 영상 합성 방법을 실행하기 위하여 매체에 저장된 프로그램.
프로세서 및

합성 모델 및 적어도 하나의 프로그램을 저장하는 메모리를 포함하되,

상기 프로세서는 상기 적어도 하나의 프로그램이 실행됨에 따라,

원본 영상과 워터마크 영상을 상기 합성 모델에 입력하고,

상기 합성 모델에서 출력되는 합성 영상을 획득하며,

상기 원본 영상과 상기 워터마크 영상 각각은 상기 합성 모델의 제 1 서브 모델과 제 2 서브 모델 각각에서 처리된 후 결합되고, 상기 결합된 결과는 제 3 서브 모델에서 처리되어 상기 합성 영상이 생성되는 것을 특징으로 하는 영상 합성 장치.