KR20200114034A

KR20200114034A - 인공지능 모델을 이용한 이미지 편집 방법 및 장치

Info

Publication number: KR20200114034A
Application number: KR1020190035117A
Authority: KR
Inventors: 이활석; 백영민; 신승; 이영무
Original assignee: 네이버 주식회사
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-07
Also published as: JP2020161140A; JP6975281B2; KR102279164B1

Abstract

이미지 편집 장치에 의한 이미지 편집 방법에 있어서, 대체 텍스트에 대응하는 텍스트 데이터, 및 제 1 이미지를 이미지 편집 모델에 입력하는 단계; 및 대체 텍스트가 포함된 제 2 이미지를 이미지 편집 모델로부터 획득하는 단계를 포함하되, 이미지 편집 모델은, 제 1 이미지의 일부 영역에 대체 텍스트를 합성하여 제 2 이미지를 생성하는 것을 특징으로 하는 일 실시예에 따른 이미지 편집 방법이 개시된다.

Description

인공지능 모델을 이용한 이미지 편집 방법 및 장치{IMAGE EDITTING METHOD AND APPARATUS USING ARTIFICIAL INTELLIGENCE MODEL}

본 개시는 이미지 처리 분야에 관한 것이다. 보다 구체적으로, 본 개시는 인공지능 모델을 이용하여 이미지를 편집하는 장치 및 방법에 관한 것이다.

이미지 편집에 대한 니즈는 다양하다. 일 예로, 어떤 사용자는 이미지에 포함된 텍스트를 다른 텍스트로 변경하고자 하고, 어떤 사용자는 이미지에 포함된 소정 언어의 텍스트를 다른 언어의 텍스트로 번역하고자 한다. 또한, 인공지능 모델을 훈련시키기 위해서는 수많은 학습용 이미지가 필요한데, 일부 학습용 이미지에는 민감한 개인 정보가 포함되어 있어 학습용 이미지의 확보를 위해 개인 정보를 삭제하여야 할 필요성도 있다.

이미지에 포함된 텍스트는 일반적인 문서 편집 프로그램, 예를 들어, 마이크로소프트사의 워드프로세서 등으로 편집이 불가능하므로, 이미지 편집 프로그램을 이용하여야 한다. 그러나, 전문적인 이미지 편집 프로그램에 대한 지식없이 이미지를 자연스럽게 편집하는 것은 쉽지 않다. 특히, 이미지 편집 과정에서 주변 배경이 훼손되는 경우가 많다. 전문적인 이미지 편집 프로그램의 높은 가격으로 인해 무료의 또는 저렴한 이미지 편집 프로그램으로 이미지를 편집할 때에는 상당한 시간이 소요되기도 한다.

따라서, 전문적인 지식이 없는 사용자라도 간단한 방법으로 이미지를 편집할 수 있는 방안이 요구된다.

일 실시예에 따른 이미지 편집 방법 및 장치는 인공지능 모델을 이용하여 간단하게 이미지를 편집하는 것을 기술적 과제로 한다.

또한, 일 실시예에 따른 이미지 편집 방법 및 장치는 이미지에 포함된 텍스트 번역을 지원하는 것을 기술적 과제로 한다.

또한, 일 실시예에 따른 이미지 편집 방법 및 장치는 이미지에 포함된 개인 정보의 유출을 방지하는 것을 기술적 과제로 한다.

일 실시예에 따른 이미지 편집 방법은, 대체 텍스트에 대응하는 텍스트 데이터, 및 제 1 이미지를 이미지 편집 모델에 입력하는 단계; 및 상기 대체 텍스트가 포함된 제 2 이미지를 상기 이미지 편집 모델로부터 획득하는 단계를 포함하되, 상기 이미지 편집 모델은, 상기 제 1 이미지의 일부 영역에 상기 대체 텍스트를 합성하여 상기 제 2 이미지를 생성할 수 있다.

다른 실시예에 따른 이미지 편집 장치는, 프로세서; 및 적어도 하나의 인스트럭션을 저장하는 메모리를 포함하되, 상기 프로세서는 상기 적어도 하나의 인스트럭션에 따라, 대체 텍스트에 대응하는 텍스트 데이터, 및 제 1 이미지를 이미지 편집 모델에 입력하고, 상기 대체 텍스트가 포함된 제 2 이미지를 상기 이미지 편집 모델로부터 획득하고, 상기 이미지 편집 모델은, 상기 제 1 이미지의 일부 영역에 상기 대체 텍스트를 합성하여 상기 제 2 이미지를 생성할 수 있다.

일 실시예에 따른 이미지 편집 방법 및 장치는 인공지능 모델을 이용하여 간단하게 이미지를 편집할 수 있다.

또한, 일 실시예에 따른 이미지 편집 방법 및 장치는 이미지에 포함된 텍스트 번역을 지원할 수 있다.

또한, 일 실시예에 따른 이미지 편집 방법 및 장치는 이미지에 포함된 개인 정보의 유출을 방지할 수 있다.

다만, 일 실시예에 따른 이미지 편집 방법 및 장치가 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 일 실시예에 따른 이미지 편집 장치를 도시하는 도면이다.
도 2는 일 실시예에 따른 이미지 편집 장치에 의한 이미지 편집 방법을 나타내는 순서도이다.
도 3은 일 실시예에 따른 이미지 편집 모델을 나타내는 도면이다.
도 4는 도 3에 도시된 순환 모델을 나타내는 도면이다.
도 5는 일 실시예에 따른 제 1 이미지를 나타내는 도면이다.
도 6은 일 실시예에 따른 제 2 이미지를 나타내는 도면이다.
도 7은 다른 실시예에 따른 제 1 이미지를 나타내는 도면이다.
도 8은 다른 실시예에 따른 제 2 이미지를 나타내는 도면이다.
도 9는 일 실시예에 따른 이미지 편집 모델의 훈련 방법을 설명하기 위한 도면이다.
도 10은 다른 실시예에 따른 이미지 편집 방법을 나타내는 순서도이다.
도 11은 이미지 편집을 위한 사용자 단말의 UI 화면을 나타내는 예시적인 도면이다.
도 12는 일 실시예에 따른 이미지 편집 장치의 구성을 도시하는 블록도이다.
도 13은 일 실시예에 따른 이미지 편집 장치가 적용 가능한 서버 장치 및 클라이언트 장치를 도시하는 도면이다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

또한, 본 명세서에서, '이미지'는 정지 영상을 포함할 수 있다. 또한, 본 명세서에서, '텍스트'는 이미지에 포함된 문자, 숫자 및 기호를 포함할 수 있다.

이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

도 1은 일 실시예에 따른 이미지 편집 장치(100)를 도시하는 도면이다.

일 실시예에 따른 이미지 편집 장치(100)는 대체 텍스트에 대응하는 텍스트 데이터(30)와 제 1 이미지(10)를 획득하고, 미리 저장된 이미지 편집 모델(300)을 통해 제 1 이미지(10)에 포함되어 있던 텍스트가 대체 텍스트로 변경된 제 2 이미지(50)를 생성할 수 있다.

제 1 이미지(10)의 일부 영역(예를 들어, 텍스트를 포함하는 영역)에 대체 텍스트가 합성됨으로써 제 2 이미지(50)가 생성될 수 있다.

제 1 이미지(10)는 체크카드, 신용카드 등의 실물 카드를 촬영한 이미지, 동영상을 구성하는 적어도 하나의 이미지 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

실물 카드를 촬영한 이미지에 포함된 개인 정보(예를 들어, 카드 번호, 유효 기간 등)가 대체 정보로 변경됨으로써 개인 정보의 유출이 차단될 수 있다. 또한, 영화를 구성하는 프레임에 포함된 특정 언어의 자막이 다른 언어의 자막으로 변경될 수도 있다.

후술하는 바와 같이, 이미지 편집 장치(100)는 서버 장치 또는 클라이언트 장치에 적용될 수 있다. 이미지 편집 장치(100)가 서버 장치로 구현되는 경우, 이미지 편집 장치(100)는 클라이언트 장치로부터 수신된 제 1 이미지(10), 내부 저장 장치에 저장된 제 1 이미지(10) 및/또는 네트워크를 통해 연결된 외부 장치로부터 수신한 제 1 이미지(10)를 편집하여 제 2 이미지(50)를 생성할 수 있다.

이미지 편집 장치(100)가 클라이언트 장치로 구현된 경우, 이미지 편집 장치(100)는 카메라에 의해 촬영된 제 1 이미지(10), 내부 저장 장치에 저장된 제 1 이미지(10) 및/또는 네트워크를 통해 외부 장치로부터 수신한 제 1 이미지(10)를 편집하여 제 2 이미지(50)를 생성할 수도 있다.

도 2는 일 실시예에 따른 이미지 편집 장치(100)에 의한 이미지 편집 방법을 나타내는 순서도이다.

S210 단계에서, 이미지 편집 장치(100)는 대체 텍스트에 대응하는 텍스트 데이터(30), 및 제 1 이미지(10)를 이미지 편집 모델(300)에 입력한다. 일 예시에서, 제 1 이미지(10) 중 편집이 필요한 일부 영역의 위치 정보가 이미지 편집 모델(300)에 더 입력될 수 있다.

대체 텍스트는 제 2 이미지(50)에 포함시키고자 하는 텍스트로서, 사용자로부터 입력될 수도 있고, 또는 이미지 편집 장치(100)가 무작위로 결정하거나 소정 규칙에 따라 직접 결정할 수도 있다.

일 실시예에서, 이미지 편집 장치(100)는 제 1 이미지(10)를 이미지 편집 모델(300)에 입력하기 전에, 편집이 필요한 제 1 이미지(10)의 일부 영역(예를 들어, 텍스트를 포함하는 영역)을 식별하고, 해당 영역을 제거하는 전처리를 할 수 있다. 여기서, 제 1 이미지(10)의 일부 영역을 제거한다는 것은, 제 1 이미지(10)의 일부 영역에 포함된 값(예를 들어, 픽셀 값)들을 미리 결정된 값으로 변경하는 것을 의미할 수 있다.

S220 단계에서, 이미지 편집 장치(100)는 대체 텍스트가 포함된 제 2 이미지(50)를 이미지 편집 모델(300)로부터 획득한다. 제 1 이미지(10) 내 일부 영역이 대체 텍스트로 치환됨으로써 제 2 이미지(50)가 생성될 수 있다.

이미지 편집 모델(300)은 신경망 모델로서, 학습용 데이터들에 기초하여 훈련된 내부 파라미터를 이용하여 제 2 이미지(50)를 생성할 수 있다. 내부 파라미터는 신경망을 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치를 포함할 수 있다.

이미지 편집 모델(300)은 제 1 이미지(10)의 일부 영역에 대체 텍스트를 합성하여 제 2 이미지(50)를 생성할 수 있다.

이미지 편집 모델(300)의 구조에 대해서는 도 3을 참조하여 설명한다.

도 3은 일 실시예에 따른 이미지 편집 모델(300)을 나타내는 도면이다.

이미지 편집 모델(300)은 제 1 인코더(310), 제 1 디코더(320), 제 2 인코더(330) 및 제 2 디코더(340)를 포함할 수 있다. 제 1 인코더(310), 제 1 디코더(320), 제 2 인코더(330) 및 제 2 디코더(340) 각각은 적어도 하나의 컨볼루션 레이어(convolution layer)를 포함할 수 있다. 컨볼루션 레이어는 데이터에서 원하는 특성을 추출하기 위해 컨볼루션 연산을 수행할 수 있다.

제 1 인코더(310)는 제 1 이미지(10)에 대해 컨볼루션 연산을 적용하여 특징 맵(feature map)을 출력한다.

제 1 디코더(320)는 제 1 인코더(310)로부터 출력되는 특징 맵과 텍스트 데이터(30)를 입력받고, 그에 대응하는 이미지를 생성하여 출력한다. 제 1 인코더(310)로부터 출력되는 특징 맵과 텍스트 데이터(30)는 접합(concatenation)되어 제 1 디코더(320)로 입력될 수 있다.

제 2 인코더(330)는 제 1 디코더(320)의 출력 이미지를 입력받고, 그에 대응하는 특징 맵을 출력한다.

제 2 디코더(340)는 제 2 인코더(330)의 특징 맵 및 텍스트 데이터(30)를 입력받고, 그에 대응하는 제 2 이미지(50)를 출력한다. 제 2 인코더(330)로부터 출력되는 특징 맵과, 텍스트 데이터(30)는 접합(concatenation)되어 제 2 디코더(340)로 입력될 수 있다.

도 3은 이미지 편집 모델(300)이 두 개의 인코더와 두 개의 디코더를 포함하는 것으로 도시하고 있는데, 이는 하나의 예시이며, 인코더 및 디코더 각각의 개수는 다양하게 변경될 수 있다.

제 1 디코더(320) 및 제 2 디코더(340)에는 텍스트 데이터(30)가 입력되는데, 이 텍스트 데이터(30)는 대체 텍스트를 입력받은 순환 모델(400)로부터 출력되는 텍스트 벡터를 포함할 수 있다.

도 4를 참조하면, 순환 모델(400)은 대체 텍스트를 순차적으로 입력받고, 그에 대응하는 벡터, 예를 들어, 임베딩 벡터를 출력할 수 있다. 예를 들어, 1048 이라는 대체 텍스트에 대응하는 임베딩 벡터를 획득하고자 할 때, 우선 숫자 8이 순환 모델(400)의 레이어(A)로 입력된다. 다음으로 숫자 4가 레이어(A)로 입력된다. 이때, 숫자 8에 대응하는 임베딩 벡터가 숫자 4와 함께 레이어(A)로 입력된다. 즉, 이전 단계에서의 출력이 다음 단계에서 이용될 수 있는 것이다. 마지막 숫자 1까지 레이어(A)로 입력되면, 최종적으로 ht라는 임베딩 벡터가 획득되는데, 이 최종 임베딩 벡터가 이미지 편집 모델(300)로 입력될 수 있다.

도 5는 일 실시예에 따른 제 1 이미지(10)를 나타내는 도면이고, 도 6은 일 실시예에 따른 제 2 이미지(50)를 나타내는 도면이다.

도 5에 도시된 바와 같이, 제 1 이미지(10)는 카드를 촬영한 이미지로서, 개인 정보에 해당하는 카드 번호 등을 포함하고 있다. 제 1 이미지(10)에 포함되어 있던 텍스트인 3456을 대체 텍스트로 변경하고자 할 때, 이미지 편집 장치(100)는 제 1 이미지(10)(또는 전처리된 제 1 이미지) 및 대체 텍스트에 대응하는 텍스트 데이터(30)를 이미지 편집 모델(300)로 입력할 수 있다. 3456을 포함하는 영역(11)의 위치 정보가 이미지 편집 모델(300)로 더 입력될 수도 있다.

이미지 편집 모델(300)은 3456의 텍스트가 대체 텍스트로 변경된 제 2 이미지(50)를 생성하는데, 도 6에 도시된 바와 같이, 제 2 이미지(50)에는 3456의 텍스트 대신 0125(51)의 텍스트가 포함될 수 있다.

도 7은 다른 실시예에 따른 제 1 이미지(10)를 나타내는 도면이고, 도 8은 다른 실시예에 따른 제 2 이미지(50)를 나타내는 도면이다.

도 7에 도시된 바와 같이, 제 1 이미지(10)는 동영상을 구성하는 하나의 프레임으로서, 영어의 자막을 포함하고 있다. 영어 자막을 한글 자막으로 변경하고자 할 때, 이미지 편집 장치(100)는 제 1 이미지(10)(또는 전처리된 제 1 이미지) 및 한글 자막에 대응하는 텍스트 데이터(30)를 이미지 편집 모델(300)로 입력할 수 있다. 이미지 편집 장치(100)는 영어 자막을 포함하는 영역(11)의 위치 정보를 이미지 편집 모델(300)로 더 입력할 수도 있다.

도 8에 도시된 바와 같이, 이미지 편집 모델(300)은 영어 자막이 한글 자막(51)으로 변경된 제 2 이미지(50)를 생성할 수 있다.

도 9는 일 실시예에 따른 이미지 편집 모델(300)의 훈련 방법을 설명하기 위한 도면이다.

일 실시예에 따른 이미지 편집 장치(100)는 이미지 편집 모델(300)의 훈련을 위한 구별 모델(900)을 저장할 수 있다. 구별 모델(900)은 이미지 편집 모델(300)에서 출력되는 제 2 이미지(50)의 진위 여부를 판단한다. 구별 모델(900)은 편집되지 않은 학습용 이미지에 기초하여 훈련될 수 있다.

구별 모델(900)은 제 2 이미지(50)가 편집되지 않은 리얼(real) 이미지에 해당하는 경우, 리얼 이미지라는 판단 결과를 출력하고, 제 2 이미지(50)가 편집된 페이크(fake) 이미지에 해당하는 경우, 페이크 이미지라는 판단 결과를 출력할 수 있다.

이미지 편집 모델(300)은 구별 모델(900)에서 출력되는 판단 결과에 기초하여 내부 파라미터를 갱신할 수 있다. 이미지 편집 모델(300)은 구별 모델(900)이 제 2 이미지(50)를 리얼 이미지라고 판단할 수 있도록 내부 파라미터를 갱신할 수 있다. 즉, 이미지 편집 모델(300)은 구별 모델(900)을 속이기 위해 보다 정교한 제 2 이미지(50)를 생성할 수 있는 것이다.

일 실시예에서, 구별 모델(900)은 제 1 구별 모델(910) 및 제 2 구별 모델(930)을 포함할 수 있다. 제 1 구별 모델(910)은 제 2 이미지(50) 전체 영역에 대해 진위 여부를 판단하고, 제 2 구별 모델(930)은 제 2 이미지(50) 내 일부 영역, 예를 들어, 편집된 영역에 대해 진위 여부를 판단할 수 있다.

제 1 구별 모델(910) 및 제 2 구별 모델(930)의 판단 결과에 기초하여, 이미지 편집 모델(300)은 이미지 편집이 적용되는 일부 영역 및 전체 영역에 대해 리얼 이미지 대비 차이가 없는 제 2 이미지(50)가 생성되도록 내부 파라미터를 갱신할 수 있다.

도 10은 일 실시예에 따른 이미지 편집 방법을 나타내는 순서도이다.

S1010 단계에서, 이미지 편집 장치(100)는 제 1 이미지(10)를 획득한다. 이미지 편집 장치(100)는 네트워크를 통해 외부 장치로부터 제 1 이미지(10)를 수신하거나, 내부 저장 장치에 저장된 제 1 이미지(10)를 획득할 수 있다.

제 1 이미지(10)에는 제 1 언어의 텍스트가 포함되어 있을 수 있다.

S1020 단계에서, 이미지 편집 장치(100)는 편집이 필요한 제 1 이미지(10) 내 일부 영역을 선택한다.

이미지 편집 장치(100)는 제 1 이미지(10) 내 텍스트를 포함하는 영역을 직접 선택할 수 있다. 일 예로, 이미지 편집 장치(100)는 제 1 이미지(10)를 딥러닝 기반의 공지의 단어 영역 식별 모델에 입력하여, 제 1 이미지(10) 내 텍스트 영역을 식별할 수 있다.

다른 예로, 이미지 편집 장치(100)는 사용자로부터 제 1 이미지(10) 내 일부 영역을 선택받을 수도 있다.

S1030 단계에서, 이미지 편집 장치(100)는 대체 텍스트를 위한 제 2 언어를 선택한다. 이미지 편집 장치(100)는 미리 결정된 제 2 언어를 선택하거나, 또는, 사용자로부터 대체 텍스트를 위한 제 2 언어를 선택받을 수 있다.

S1040 단계에서, 이미지 편집 장치(100)는 제 1 이미지(10) 내 일부 영역에 포함된 텍스트에 기초하여 대체 텍스트를 결정한다.

이미지 편집 장치(100)는 제 1 이미지(10) 내 일부 영역에 포함된 제 1 언어의 텍스트를 OCR(optical character recognition)을 통해 인식하고, 인식된 텍스트에 기초하여 S1030 단계에서 선택된 제 2 언어의 텍스트를 결정할 수 있다. 예를 들어, 제 1 이미지(10)에 영어의 텍스트가 포함되어 있는 경우, 이미지 편집 장치(100)는 제 2 언어에 해당하는 한국어의 텍스트를 결정할 수 있는 것이다.

이미지 편집 장치(100)는 제 1 이미지(10) 내 일부 영역에 포함된 제 1 언어의 텍스트를 인식하기 위해 딥러닝 기반의 공지의 텍스트 식별 모델을 이용할 수 있다.

S1050 단계에서, 이미지 편집 장치(100)는 제 1 이미지(10)(또는 전처리된 제 1 이미지), 대체 텍스트를 이미지 편집 모델(300)로 입력하고, 이미지 편집 모델(300)에서 출력되는 제 2 이미지(50)를 획득할 수 있다.

도 10에 도시된 실시예는, 동영상에 포함된 제 1 언어의 자막을 제 2 언어의 자막으로 변경하는데 유용할 수 있다. 일 예에서, 사용자가 이미지 편집 장치(100)로 동영상을 구성하는 복수의 이미지들을 이미지 편집 장치(100)로 제공하면, 이미지 편집 장치(100)는 복수의 이미지 각각에서 텍스트 영역들을 식별하고, 복수의 이미지들에 포함된 제 1 언어의 텍스트를 제 2 언어의 텍스트로 변경할 수 있다. 다른 예에서, 사용자가 이미지 편집 장치(100)로 동영상을 제공한 경우, 이미지 편집 장치(100)는 해당 동영상을 복수의 이미지들로 분할하고, 복수의 이미지들에 포함된 제 1 언어의 텍스트를 제 2 언어의 텍스트로 변경할 수도 있다.

일 실시예에서, 자막 번역을 원하는 사용자가 제 1 이미지(10)를 이미지 편집 장치(100)로 제공하면, 이미지 편집 장치(100)는 딥러닝 기반의 공지의 단어 영역 식별 모델 및/또는 텍스트 식별 모델을 통해 편집이 필요한 제 1 이미지(10) 내 일부 영역을 식별하고, 식별된 일부 영역에 포함된 제 1 언어(예를 들어, 영어)의 텍스트를 확인할 수 있다. 그리고, 이미지 편집 장치(100)는 제 1 언어의 텍스트에 대응하는 제 2 언어(예를 들어, 한국어)의 텍스트를 결정한 후, 이미지 편집 모델(300)을 통해 제 2 이미지(50)를 생성할 수도 있다. 즉, 이 경우, 사용자는 제 1 이미지(10)를 이미지 편집 장치(100)로 제공하는 것만으로 번역 서비스를 제공받을 수 있는 것이다.

도 11은 이미지 편집을 위한 사용자 단말의 UI 화면을 나타내는 예시적인 도면이다.

사용자(5)는 사용자 단말의 화면에 표시된 제 1 이미지(10)에서 편집이 필요한 영역(1110)을 선택할 수 있고, 선택된 영역(1110) 내 텍스트를 변경하기 위한 언어 종류를 '언어' 메뉴(1120)를 통해 선택할 수 있다. 또한, 사용자가 '대체 텍스트' 메뉴에서 자동 버튼(1130)을 선택하면, 이미지 편집 장치(100)는 사용자가 선택한 영역(1110) 내 텍스트를 인식하고, 인식된 텍스트에 대응하는 다른 언어의 대체 텍스트를 결정할 수 있다.

사용자가 '대체 텍스트' 메뉴에서 직접 입력 버튼(1140)을 선택하고, 도시되지 않은 텍스트 입력 박스를 통해 대체 텍스트를 직접 입력한 경우, 이미지 편집 장치(100)는 언어 종류와 관계 없이 제 1 이미지(10) 내 일부 영역(1110)에 포함된 텍스트를 사용자가 입력한 대체 텍스트로 변경할 수 있다.

도 12는 일 실시예에 따른 이미지 편집 장치(100)의 구성을 도시하는 블록도이다.

도 12를 참조하면, 이미지 편집 장치(100)는 메모리(1210), 통신 모듈(1230) 및 프로세서(1250)를 포함할 수 있다. 메모리(1210)에는 적어도 하나의 인스트럭션이 저장될 수 있고, 프로세서(1250)는 적어도 하나의 인스트럭션에 따라 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나의 훈련을 제어할 수 있다.

도 12는 하나의 메모리(1210)와 하나의 프로세서(1250)만을 도시하고 있으나, 이미지 편집 장치(100)는 복수의 메모리 및/또는 복수의 프로세서를 포함할 수도 있다.

메모리(1210)는 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900)을 저장할 수 있다.

프로세서(1250)는 이미지 편집 모델(300)로 제 1 이미지(10) 및 텍스트 데이터(30)를 입력하고, 이미지 편집 모델(300)에서 출력되는 제 2 이미지(50)를 획득할 수 있다.

일 실시예에서, 프로세서(1250)는 학습용 데이터에 기초하여 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나를 훈련시킬 수 있다.

통신 모듈(1230)은 네트워크를 통해 외부 장치와 데이터를 송수신한다. 예를 들어, 통신 모듈(1230)은 외부 장치와 이미지를 송수신할 수 있다.

도 13은 일 실시예에 따른 이미지 편집 장치(100)가 적용될 수 있는 서버 장치(1310) 및 클라이언트 장치(1320)를 도시하는 도면이다.

이미지 편집 장치(100)는 서버 장치(1310)로 구현되거나 또는 클라이언트 장치(1320)로 구현될 수 있다.

이미지 편집 장치(100)가 서버 장치(1310)로 구현되는 경우, 서버 장치(1310)는 클라이언트 장치(1320)로부터 제 1 이미지(10)를 수신하고, 대체 텍스트가 합성된 제 2 이미지(50)를 생성할 수 있다. 일 예에서, 서버 장치(1310)는 네트워크를 통해 외부 장치로부터 제 1 이미지(10)를 수신하거나, 내부 저장 장치에 저장된 제 1 이미지(10)를 편집하여 제 2 이미지(50)를 생성할 수 있다.

서버 장치(1310) 제 2 이미지(50)를 내부 저장 장치에 저장한 후, 인공지능 모델의 훈련에 이용하거나, 제 2 이미지(50)를 클라이언트 장치(1320)로 전송할 수 있다.

또한, 서버 장치(1310)는 클라이언트 장치(1320)를 포함한 외부 장치로부터 학습용 데이터를 수신하거나, 또는 내부에 저장된 학습용 데이터를 이용하여 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나의 훈련을 제어할 수도 있다.

이미지 편집 장치(100)가 클라이언트 장치(1320)로 구현되는 경우, 클라이언트 장치(1320)는 클라이언트 장치(1320)의 카메라에 의해 촬영된 이미지 또는 클라이언트 장치(1320)에 저장된 제 1 이미지(10)를 편집하여 제 2 이미지(50)를 생성할 수 있다.

일 실시예에서, 클라이언트 장치(1320)는 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나의 실행을 위한 데이터를 서버 장치(1310)로부터 수신할 수 있다. 클라이언트 장치(1320)는 카메라 모듈을 통해 촬영된 이미지, 내부 메모리에 저장된 이미지 또는 외부 장치로부터 수신된 이미지를 이미지 편집 모델(300)에 입력시켜 해당 이미지를 편집할 수 있다.

클라이언트 장치(1320)는 외부 장치로부터 학습용 데이터를 수신하거나, 또는 내부에 저장된 학습용 데이터를 이용하여 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나의 훈련을 제어할 수도 있다. 구현예에 따라, 클라이언트 장치(1320)는 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나의 실행을 위한 데이터를 서버 장치(1310)로부터 수신하여 설치하고, 서버 장치(1310)는 학습용 데이터에 기초하여 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나의 훈련을 제어할 수도 있다. 이 경우, 서버 장치(1310)는 훈련 결과 갱신된 가중치 정보만을 클라이언트 장치(1320)로 전송하고, 클라이언트 장치(1320)는 수신된 정보에 따라 이미지 편집 모델(300), 순환 모델(400) 및 구별 모델(900) 중 적어도 하나를 갱신할 수 있다.

도 13은 클라이언트 장치(1320)로서, 데스크탑 PC를 도시하고 있으나, 이에 한정되는 것은 아니고 클라이언트 장치(1320)는 노트북, 스마트폰, 태블릿 PC, AI(artificial intelligence) 로봇, AI 스피커, 웨어러블 기기 등을 포함할 수 있다.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.

매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

100: 이미지 편집 장치
1210: 메모리
1230: 통신 모듈
1250: 프로세서
1310: 서버 장치
1320: 클라이언트 장치

Claims

이미지 편집 장치에 의한 이미지 편집 방법에 있어서,
대체 텍스트에 대응하는 텍스트 데이터, 및 제 1 이미지를 이미지 편집 모델에 입력하는 단계; 및
상기 대체 텍스트가 포함된 제 2 이미지를 상기 이미지 편집 모델로부터 획득하는 단계를 포함하되,
상기 이미지 편집 모델은, 상기 제 1 이미지의 일부 영역에 상기 대체 텍스트를 합성하여 상기 제 2 이미지를 생성하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 이미지 편집 모델은,
상기 제 1 이미지에 대응하는 특징 맵을 출력하는 제 1 인코더;
상기 제 1 인코더의 특징 맵 및 상기 텍스트 데이터를 입력받고, 그에 대응하는 이미지를 출력하는 제 1 디코더;
상기 제 1 디코더의 출력 이미지를 입력받고, 그에 대응하는 특징 맵을 출력하는 제 2 인코더; 및
상기 제 2 인코더의 특징 맵 및 상기 텍스트 데이터를 입력받고, 그에 대응하는 상기 제 2 이미지를 출력하는 제 2 디코더를 포함하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 이미지 편집 모델은,
상기 제 1 이미지 내 위치 정보를 더 입력받고, 입력된 위치 정보에 대응하는 상기 제 1 이미지의 일부 영역에 상기 대체 텍스트를 합성하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 이미지 편집 방법은,
상기 이미지 편집 모델에서 출력되는 상기 제 2 이미지를 구별 모델에 입력하는 단계를 더 포함하고,
상기 구별 모델에서의 상기 제 2 이미지의 진위 판단 결과에 기초하여 상기 이미지 편집 모델의 내부 파라미터가 갱신되는 것을 특징으로 하는 이미지 편집 방법.
제4항에 있어서,
상기 구별 모델은,
상기 제 2 이미지의 전체 영역에 대한 진위 여부를 판단하는 제 1 구별 모델; 및
상기 제 2 이미지의 일부 영역에 대한 진위 여부를 판단하는 제 2 구별 모델을 포함하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 텍스트 데이터는,
대체 텍스트에 기초하여 순환 모델로부터 출력되는 텍스트 벡터를 포함하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 제 1 이미지는, 카드 이미지를 포함하고,
상기 대체 텍스트는, 복수의 숫자를 포함하되,
상기 이미지 편집 모델은, 상기 카드 이미지의 일부 영역에 상기 복수의 숫자를 합성하여 상기 제 2 이미지를 생성하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 이미지 편집 방법은,
상기 제 1 이미지를 상기 이미지 편집 모델에 입력하기 전에, 상기 제 1 이미지 내 상기 일부 영역을 제거하는 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 이미지 편집 방법.
제1항에 있어서,
상기 이미지 편집 방법은,
상기 제 1 이미지 내 제 1 언어의 텍스트를 포함하는 상기 일부 영역을 식별하는 단계를 더 포함하고,
상기 이미지 편집 모델은,
상기 제 1 이미지의 일부 영역에, 제 2 언어의 대체 텍스트를 합성하여 상기 제 2 이미지를 생성하는 것을 특징으로 하는 이미지 편집 방법.
제9항에 있어서,
상기 이미지 편집 방법은,
상기 제 1 이미지의 일부 영역에 포함된 상기 제 1 언어의 텍스트를 식별하는 단계;
식별된 상기 제 1 언어의 텍스트에 대응하는 상기 제 2 언어의 대체 텍스트를 결정하는 단계; 및
상기 결정된 제 2 언어의 대체 텍스트에 대응하는 텍스트 데이터 및 상기 제 1 이미지를 상기 이미지 편집 모델에 입력하는 단계를 더 포함하는 것을 특징으로 하는 이미지 편집 방법.
하드웨어와 결합하여 제1항 내지 제10항 중 어느 하나의 항의 이미지 편집 방법을 실행하기 위하여 매체에 저장된 프로그램.
프로세서; 및
적어도 하나의 인스트럭션을 저장하는 메모리를 포함하되,
상기 프로세서는 상기 적어도 하나의 인스트럭션에 따라,
대체 텍스트에 대응하는 텍스트 데이터, 및 제 1 이미지를 이미지 편집 모델에 입력하고,
상기 대체 텍스트가 포함된 제 2 이미지를 상기 이미지 편집 모델로부터 획득하고,
상기 이미지 편집 모델은, 상기 제 1 이미지의 일부 영역에 상기 대체 텍스트를 합성하여 상기 제 2 이미지를 생성하는 것을 특징으로 하는 이미지 편집 장치.