KR102655359B1

KR102655359B1 - 생성형 ai 모델을 이용해 인페인팅 서비스 제공 서버, 시스템, 방법 및 프로그램

Info

Publication number: KR102655359B1
Application number: KR1020230197512A
Authority: KR
Inventors: 이태희; 문기환; 엄대호
Original assignee: 주식회사 더매트릭스
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-05
Also published as: KR102660062B1

Abstract

본 발명의 실시 예에 따르면, 생성형 AI 모델을 이용한 동적 객체 제거 및 인페인팅 서비스 제공 서버가 개시된다. 상기 서버는, 인페인팅 모델을 이용해 프레임에 포함된 타겟객체의 영역을 제거하고, 제거된 영역이 복원된 출력 프레임을 생성하는 인페인팅부; 및 이미지 세그멘테이션 모델 및 네거티브 워드 생성 모델을 이용해 인페인팅 모델에 입력되는 네거티브 프롬프트를 생성하는 네거티브 프롬프트 생성부를 포함한다.

Description

생성형 AI 모델을 이용해 인페인팅 서비스 제공 서버, 시스템, 방법 및 프로그램{SERVER, SYSTEM, METHOD AND PROGRAM PROVIDING INPAINTING SERVICE USING GENERATIVE AI MODEL}

본 발명은 생성형 AI 모델을 이용해 인페인팅 서비스 제공 서버, 시스템, 방법 및 프로그램에 관한 것이다.

본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.

영화 산업에서 물체 제거 및 교체 작업은 많은 시간과 비용이 소요되는 작업 중 하나다. 무수히 많은 프레임마다 물체를 제거 및 교체를 수작업으로 진행했기 때문에, 많은 시간 및 인력이 소요되었으며, 작업자의 실력에 따라 제거 및 교체 품질이 달라지는 문제가 발생되고 있다.

딥러닝을 이용한 인페인팅 모델을 이용해 물체 제거 및 교체 작업을 수행하는 경우, 자동화를 통해 작업 속도가 비약적으로 향상되며 품질의 일관성이 유지된다. 특히, 기존의 방식에 비해 많은 비용이 절감되기 때문에, 영화 산업에 인페인팅 모델의 도입이 가속화되고 있다.

이 발명은 지원한 국가연구개발사업은 아래와 같다.

과제번호(협약번호): 20177552

부처명: 창업진흥원

과제관리(전문)기관명: 주식회사 노틸러스인베스트먼트

연구사업명: 글로벌 기업 협업 프로그램

연구과제명: 3D 인공지능 기반 인물/배경 변형 기능 탑재 멀티뷰 영상 생성 서비스

과제수행기관명: 주식회사 더매트릭스

연구기간(협약기간): 2023.05.18~2023.12.31

대한민국 등록특허공보 제10-2486300호(2023.01.04) 대한민국 공개특허공보 제10-2023-0133059호(2023.09.19) 대한민국 공개특허공보 제10-2021-0144294호(2021.11.30) 대한민국 공개특허공보 제10-2338913호(2021.12.08)

본 발명은, 생성형 AI 모델을 이용한 인페인팅 서비스를 제공하는 서버, 시스템, 방법 및 프로그램을 제공하는 것을 일 목적으로 한다.

본 발명은, 생성형 AI 모델을 이용한 아웃페인팅 서비스를 제공하는 서버, 시스템, 방법 및 프로그램을 제공하는 것을 일 목적으로 한다.

본 발명은, 생성형 AI 모델을 이용해 인페인팅 서비스 제공 서버, 시스템, 방법 및 프로그램을 제공하는 것을 일 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 일 측면은, 생성형 AI 모델을 이용한 동적 객체 제거 및 인페인팅 서비스 제공 서버를 제공한다.

상기 서버는, 인페인팅 모델을 이용해 프레임에 포함된 타겟객체의 영역을 제거하고, 제거된 영역이 복원된 출력 프레임을 생성하는 인페인팅부; 및 이미지 세그멘테이션 모델 및 네거티브 워드 생성 모델을 이용해 인페인팅 모델에 입력되는 네거티브 프롬프트를 생성하는 네거티브 프롬프트 생성부를 포함한다.

또한, 상기 네거티브 프롬프트 생성부는, 이미지 세그멘테이션 모델에 프레임을 입력 값으로 입력하고, 프레임에 포함된 객체를 탐지하고, 사용자 단말에 탐지된 객체를 제공하고, 상기 사용자 단말로부터 탐지된 객체 중 적어도 하나인 타겟객체를 수신하며, 탐지된 객체 및 타겟객체를 네거티브 워드 생성 모델에 입력 값으로 입력하고, 네거티브 워드 생성 모델로부터 출력 값으로 네거티브 워드를 획득하고, 네거티브 워드를 이용해 네거티브 프롬프트를 생성한다.

또한, 네거티브 워드 생성 모델은, 훈련용 프레임에 포함된 객체, 훈련용 프레임에 포함된 객체 중 적어도 하나인 타겟객체에 네거티브 워드를 레이블링하여 생성한 훈련데이터를 이용해 학습된다.

또한, 상기 네거티브 프롬프트 생성부는, 이미지 세그멘테이션 모델에 훈련용 프레임을 입력하고, 출력 값으로 훈련용 프레임에 포함된 객체를 획득하고,

훈련용 프레임에 포함된 객체 중 적어도 하나인 훈련용 타겟객체를 설정하며,

훈련용 프레임, 훈련용 타겟객체 및 훈련용 네거티브 워드를 인페인팅 모델에 입력 값으로 입력하고, 출력 값으로 훈련용 출력 프레임을 획득하고, 훈련용 출력 프레임의 평가지표가 미리 설정된 기준치 보다 큰 경우, 훈련용 프레임에 포함된 객체 및 훈련용 타겟객체에 훈련용 네거티브 워드를 레이블링하여 훈련데이터를 생성한다.

또한, 인페인팅부는, 이미지 세그멘테이션 모델에 프레임을 입력 값으로 입력하고, 출력 값으로 프레임에 포함된 객체를 획득하며, 사용자 단말에 탐지된 객체를 제공하고, 상기 사용자 단말로부터 탐지된 객체 중 적어도 하나인 타겟객체를 수신하며, 인페인팅 모델에 프레임, 타겟객체, 입력 프롬프트 및 네거티브 프롬프트를 입력 값으로 입력하고, 출력 값으로 타겟객체가 제거된 영역이 복원된 출력 프레임을 획득한다.

본 발명의 일 실시 예에 따르면, 생성형 AI 모델을 이용해 객체가 제거된 영역이 자동으로 복원될 수 있다.

본 발명의 일 실시 예에 따르면, 생성형 AI 모델을 이용해 이미지를 확장할 수 있다.

본 발명의 일 실시 예에 따르면, 네거티브 프롬프트 생성을 통해 복원되는 프레임의 퀄리티가 향상될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 생성형 AI 모델을 이용한 동적 객체 제거 및 인페인팅 서비스를 제공하기 위한 시스템에 대한 개요도이다.
도 2는 도 1에 따른 서비스 제공 서버의 기능적 모듈을 예시적으로 나타낸 블록도이다.
도 3은 이미지 세그멘테이션 모델이 프레임에 포함된 객체 각각의 영역과 대응되는 마스크를 생성하는 과정을 도시하는 도면이다.
도 4는 인페인팅 모델이 타겟객체를 삭제하고 삭제된 영역을 복원하는 생성하는 과정을 도시하는 도면이다.
도 5는 네거티브 워드 생성 모델을 학습시키기 위한 훈련데이터 생성 과정을 도시하는 흐름도이다.
도 6은 네거티브 워드 생성 모델을 이용해 네거티브 프롬프트를 생성하는 과정을 도시하는 흐름도이다.
도 7은 아웃페인팅 모델이 프레임을 확장시키는 과정을 도시하는 도면이다.
도 8은 도 1에 따른 서비스 제공 서버의 하드웨어 구성을 예시적으로 나타낸 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른 생성형 AI 모델을 이용해 인페인팅 서비스를 제공하기 위한 시스템에 대한 개요도이다.

도 1을 참조하면, 생성형 AI 모델을 이용해 인페인팅 서비스를 제공하기 위한 시스템은, 서비스 제공 서버(100), 사용자 단말(200) 및 인공신경망 모델 서버(300)를 포함한다.

서비스 제공 서버(100), 사용자 단말(200) 및 인공신경망 모델 서버(300)는 네트워크를 통해 서로 연결된다.

아울러, 이러한 네트워크는 예컨대, 다수의 접속망(미도시) 및 코어망(미도시)을 포함하며, 외부망, 예컨대 인터넷망(미도시)을 포함하여 구성될 수 있다. 여기서, 접속망(미도시)은 서비스 제공 서버(100), 사용자 단말(200) 및 인공신경망 모델 서버(300)와 유무선 통신을 수행하는 접속망으로서, 예를 들어, BS(Base Station), BTS(Base Transceiver Station), NodeB, eNodeB 등과 같은 다수의 기지국과, BSC(Base Station Controller), RNC(Radio Network Controller)와 같은 기지국 제어기로 구현될 수 있다. 또한, 전술한 바와 같이, 상기 기지국에 일체로 구현되어 있던 디지털 신호 처리부와 무선 신호 처리부를 각각 디지털 유니트(Digital Unit, 이하 DU라 함)와 무선 유니트(Radio Unit, 이하 RU라 함)로 구분하여, 다수의 영역에 각각 다수의 RU(미도시)를 설치하고, 다수의 RU(미도시)를 집중화된 DU(미도시)와 연결하여 구성할 수도 있다.

또한, 접속망(미도시)과 함께 모바일 망을 구성하는 코어망(미도시)은 접속망(미도시)과 외부 망, 예컨대, 인터넷망(미도시)을 연결하는 역할을 수행한다.

이러한 코어망(미도시)은 앞서 설명한 바와 같이, 접속망(미도시) 간의 이동성 제어 및 스위칭 등의 이동통신 서비스를 위한 주요 기능을 수행하는 네트워크 시스템으로서, 서킷 교환(circuit switching) 또는 패킷 교환(packet switching)을 수행하며, 모바일 망 내에서의 패킷 흐름을 관리 및 제어한다. 또한, 코어망(미도시)은 주파수 간 이동성을 관리하고, 접속망(미도시) 및 코어망(미도시) 내의 트래픽 및 다른 네트워크, 예컨대 인터넷 망(미도시)과의 연동을 위한 역할을 수행할 수도 있다. 이러한 코어망(미도시)은 SGW(Serving GateWay), PGW(PDN GateWay), MSC(Mobile Switching Center), HLR(Home Location Register), MME(Mobile Mobility Entity)와 HSS(Home Subscriber Server) 등을 더 포함하여 구성될 수도 있다.

또한, 인터넷망(미도시)은 TCP/IP 프로토콜에 따라서 정보가 교환되는 통상의 공개된 통신망, 즉 공용망을 의미하는 것으로, 서비스 제공 서버(100), 사용자 단말(200) 및 인공신경망 모델 서버(300)로부터 제공되는 정보를 코어망(미도시) 및 접속망(미도시)을 거쳐 네트워크로 제공할 수 있고, 반대로 네트워크로 제공되는 정보를 코어망(미도시) 및 접속망(미도시)을 거쳐 서비스 제공 서버(100), 사용자 단말(200) 및 인공신경망 모델 서버(300)로 제공할 수도 있다. 그러나, 이에 한정되는 것은 아니며, 서비스 제공 서버(100)는 코어망(미도시)과 일체로 구현될 수도 있다.

또한, 상술한 통신 방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.

서비스 제공 서버(100)는, 동적 객체 추적 및 인페인팅 서비스를 제공하는 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다.

사용자 단말(200)은, 동적 객체 추적 및 인페인팅 서비스를 사용하려는 사용자의 단말을 의미한다.

사용자 단말(200)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크 톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 사용자 단말(200)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 사용자 단말(200)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치 를 포함할 수 있다.

인공신경망 모델 서버(300)는, 이미지 세그멘테이션 모델, 해상도 변환 모델, 인페인팅 모델, 아웃페인팅 모델을 포함할 수 있다.

이미지 세그멘테이션 모델은, 이미지의 각 픽셀을 특정 시맨틱 범주로 분류하여 다양한 객체 및 영역을 세분화할 수 있도록 학습된다. 이미지 세그멘테이션 모델은 이미지 각 픽셀에 대해 정답을 레이블링하여 세그멘테이션 마스크를 생성한 훈련데이터셋을 이용한 학습을 통해 생성될 수 있다. 이미지 세그멘테이션 모델의 학습에는 U-Net, FCN (Fully Convolutional Network), SegNet, DeepLab, Mask R-CNN등 공지된 다양한 알고리즘이 사용될 수 있으며, 손실 함수를 이용한 경사하강법을 통해 가중치를 조절하여 모델이 학습될 수 있다. 일 실시 예에서, 이미지 세그멘테이션 모델의 생성에는, Segment Anything(Kirillov, Alexander, et al. arXiv preprint arXiv:2304.02643, 2023) 방식이 사용될 수 있다.

인페인팅 모델은, 누락된 또는 손상된 부분을 복원할 수 있도록 학습된다. 인페인팅 모델은, 누락 또는 손상된 이미지와 정상적인 정답 이미지를 레이블링한 훈련데이터를 이용한 학습을 통해 생성된다. 인페인팅 모델의 학습에는, 자동 인코더(Autoencoder), 컨볼루션 신경망(CNN) 기반의 모델, GAN (Generative Adversarial Network) 기반의 알고리즘이 사용될 수 있다. 예를 들어, 인페인팅 모델의 생성에는, Stable Diffusion XL(Stability AI, GitHub Repository: Stable Diffusion XL) 방식이 사용될 수 있다. 설정한 손실 함수를 이용한 경사하강법을 이용해 가중치를 조절하여 인페인팅 모델이 학습될 수 있다.

아웃페인팅 모델은, 기존 이미지의 경계를 넘어서 이미지를 확장할 수 있도록 학습된다. 아웃페인팅 모델을 이용해 이미지를 더 넓은 시야나 환경으로 확장할 수 있다. 아웃페인팅 모델은, 원본 이미지와 확장된 이미지, 축소된 이미지와 원본 이미지를 훈련데이터로 하여 학습될 수 있다. 일 실시 예에서, Convolutional Neural Networks (CNNs), Generative Adversarial Networks (GANs), Attention Mechanisms and Transformers, Recurrent Neural Networks (RNNs) 등의 알고리즘이 인페인팅 모델의 학습에 사용될 수 있다. 설정된 손실함수를 최소화하도록 가중치를 조절하여 인페인팅 모델을 학습시킬 수 있다.

해상도 변환 모델은, 저해상도 이미지를 고해상도 이미지로 변환하도록 학습된다. 해상도 변환 모델은, 고해상도의 이미지와 고해상도 이미지를 다운샘플링한 저해상도의 이미지를 레이블링하여 훈련데이터를 생성하고, 생성한 훈련데이터를 이용한 학습을 통해 생성될 수 있다. 일 실시 예에서, Convolutional Neural Networks (CNNs), Generative Adversarial Networks (GANs), Deep Residual Networks (ResNet), Attention Mechanisms, Transformer Models 등의 알고리즘이 해상도 변환 모델의 학습에 사용될 수 있다. 설정된 손실함수를 최소화하도록 가중치를 조절하여 해상도 변환 모델을 학습시킬 수 있다.

도시된 실시 예에서, 인공신경망 모델 서버(300)가 서비스 제공 서버(100)와 별도의 서버로 도시되나, 이에 한정되는 것은 아니며 서비스 제공 서버(100)와 인공신경망 모델 서버(300)가 일체로 형성될 수 있다.

도 2는 도 1에 따른 서비스 제공 서버(100)의 기능적 모듈을 예시적으로 나타낸 블록도이다.

서비스 제공 서버(100)는, 인페인팅부(101), 네거티브 프롬프트 생성부(102) 및 아웃페인팅부(103)를 포함한다.

서비스 제공 서버(100)가 사용자 단말(200)로 동적 객체 추적 및 인페인팅 서비스를 제공하는 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 사용자 단말(200)은, 동적 객체 추적 및 인페인팅 서비스를 제공하는 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 사용자 단말(200)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: World Wide Web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(Hyper Text Mark-up Language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크 롬(Chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(Application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(App)을 포함한다.

도 3은 이미지 세그멘테이션 모델이 프레임에 포함된 객체 각각의 영역과 대응되는 마스크를 생성하는 과정을 도시하는 도면이다.

인페인팅부(101)는, 사용자 단말(200)에, 프레임(또는 이미지) 내에 관심영역(ROI)을 지정할 수 있는 사용자 인터페이스를 제공할 수 있다.

사용자 인터페이스를 통해 관심영역이 입력되면, 인페인팅부(101)는, 프레임에서 관심영역과 매칭되는 부분을 이미지 세그멘테이션 모델에 입력하고, 이미지 세그멘테이션 모델은 관심영역에 포함된 타겟객체를 식별하고 타겟객체의 영역과 나머지 배경 영역을 분리한다.

인페인팅부(101)는, 사용자 단말(200)에 프레임을 제공하고, 사용자 단말(200)로부터 첫 프레임의 관심영역을 수신하며, 첫 프레임의 관심영역과 매칭되는 부분을 이미지 세그멘테이션 모델에 입력하고, 이미지 세그멘테이션 모델이 생성한 첫 프레임에 포함된 타겟객체와 매칭되는 마스크를 획득한다.

인페인팅부(101)는, 이미지 세그멘테이션 모델에 프레임을 제공하고, 프레임에 포함된 모든 객체와 매칭되는 마스크를 획득할 수 있다.

도 4는 인페인팅 모델이 타겟객체를 삭제하고 삭제된 영역을 복원하는 생성하는 과정을 도시하는 도면이다.

인페인팅부(101)는, 인페인팅 모델에 프레임 및 타겟객체 영역인 마스크를 입력 값으로 제공하고, 인페인팅 모델로부터 마스크 부분이 제거 및 복원된 프레임을 획득할 수 있다.

인페인팅부(101)는, 인페인팅 모델에 프레임 및 타겟객체 영역인 마스크를 입력 값으로 제공하고, 인페인팅 모델로부터 마스크 부분일 제외한 배경의 제거 및 배경이 복원된 프레임을 획득할 수 있다.

인페인팅부(101)는, 사용자 단말(200)에 마스크 또는 배경에 대한 제거 및 복원 요청에 대한 사용자 프롬프트를 입력할 수 있는 사용자 인터페이스를 제공할 수 있다.

인페인팅부(101)는, 사용자 단말(200)로부터 사용자가 제공한 사용자 프롬프트를 수신한다. 인페인팅부(101)는, 사용자 프롬프트를 이용해 인페인팅 모델에 입력될 입력 프롬프트를 생성하고, 입력 프롬프트 및 네거티브 프롬프트를 프레임 및 마스크와 함께 인페인팅 모델에 제공한다. 인페인팅 모델은 입력 프롬프트 및 네거티브 프롬프트를 프레임 및 마스크를 입력받아 출력 프레임을 생성하고 이를 인페인팅부(101)에 제공한다. 일 실시 예에서, 인페인팅부(101)는, 사용자 프롬프트 동일한 입력 프롬프트를 생성할 수 있다.

인페인팅부(101)는, 출력 프레임을 사용자 단말(200)에 제공한다.

예를 들어, 입력 프레임 및 마스크와 함께 입력 프롬프트로 "remove it"이 인페인팅 모델에 입력된 경우, 인페인팅 모델은 마스크 부분을 제거하고 제거된 부분을 복원한 출력 프레임을 생성할 수 있다.

예를 들어, 입력 프레임 및 마스크와 함께 입력 프롬프트로 "remove it with tree"가 인페인팅 모델에 입력된 경우, 인페인팅 모델은 마스크 부분을 제거하고 제거된 부분에 나무를 생성한 출력 프레임을 생성할 수 있다.

일 실시 예에서, 인페인팅부(101)는, 이미지 생성 성능을 향상시키기 위해 입력 프롬프트와 함께 네거티브 프롬프트를 입력할 수 있다.

일 실시 예에서, 인페인팅 모델은 부정적인 출력이미지에 사용된 프롬프트를 네거티브 프롬프트로 레이블링한 훈련데이터를 이용해 네거티브 프롬프트 입력 시 네거티브 프롬프트에 대해 레이블링된 출력이미지를 피하도록 학습될 수 있다.

도 5는 네거티브 워드 생성 모델을 학습시키기 위한 훈련데이터 생성 과정을 도시하는 흐름도이다.

먼저, 네거티브 프롬프트 생성부(102)는, 이미지 세그멘테이션 모델에 프레임을 입력하고(S110), 이미지 세그멘테이션 모델로부터 프레임에 포함되어 있는 객체를 탐지한다(S120).

네거티브 프롬프트 생성부(102)는, 탐지된 객체 중 제거될 타겟객체를 결정한다(S130).

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 프레임 내 탐지된 객체의 영역을 디스플레이하고 디스플레이된 객체 중 제거될 타겟객체를 선택할 수 있는 사용자 인터페이스를 데이터 가공 작업자의 단말에 제공할 수 있다.

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 입력 인터페이스를 통해 객체 중 적어도 하나에 대한 선택을 수신하고, 수신한 선택과 매칭되는 객체를 타겟객체로 설정할 수 있다.

네거티브 프롬프트 생성부(102)는, 인페인팅 모델에 입력할 네거티브 워드를 설정한다(S140).

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 입력 인터페이스 장치를 통해 인페인팅 모델에 입력할 네거티브 워드를 입력받을 수 있다. 일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 외부 단말(미도시)로부터 인페인팅 모델에 입력할 네거티브 워드를 입력받을 수 있다. 일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 데이터베이스에 저장된 워드 중 랜덤하게 추출된 워드를 네거티브 워드로 설정할 수 있다.

네거티브 프롬프트 생성부(102)는, 인페인팅 모델에 프레임, 타겟객체의 영역, 입력 프롬프트, 네거티브 프롬프트를 입력 값으로 입력하고, 인페인팅 모델로부터 입력 값과 대응하는 출력 프레임을 획득할 수 있다.

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 미리 설정된 입력 프롬프트를 사용할 수 있다. 예를 들어, "remove it"이 사용될 수 있다. 일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 설정된 네거티브 워드를 나열하여 네거티브 프롬프트를 생성할 수 있다.

네거티브 프롬프트 생성부(102)는, 출력 프레임의 평가지표와 미리 설정된 기준치를 비교하고, 평가지표가 미리 설정된 기준치보다 큰 경우, 프레임에 포함된 객체, 타겟객체, 네거티브 워드를 레이블링하여 훈련데이터를 생성한다(S170).

네거티브 프롬프트 생성부(102)는, 출력 프레임의 평가지표가 기준치보다 작은 경우, S110 단계 내지 S160 단계를 재수행한다.

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 입력 인터페이스 장치를 통해 출력 프레임에 대한 평가지표를 입력받을 수 있다. 일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 외부 단말(미도시)로부터 출력 프레임에 대한 평가지표를 입력받을 수 있다.

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 미리 생성된 높은 품질의 복원 프레임과 출력 프레임 사이의 Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), Mean Squared Error (MSE), L1 Loss 등을 산출하여 평가지표로 사용할 수 있다.

일 실시 예에서, 평가지표가 기준치보다 크다는 가정 하에, 네거티브 프롬프트 생성부(102)는, 프레임에 포함된 객체가 "car", "window", "human", "balcony", "pillar", "entrance door"이고, 제거되는 객체가 "human"인 경우, "car", "window", "human", "balcony", "pillar", "entrance door", "human"을 전처리하고, 네거티브 워딩 "cartoon", "cgi", "render", "illustration", "painting", "drawing", "front door"을 레이블링하여 훈련데이터를 생성할 수 있다.

도 6은 네거티브 워드 생성 모델을 이용해 네거티브 프롬프트를 생성하는 과정을 도시하는 흐름도이다.

생성한 훈련데이터를 이용해 네거티브 워드 생성 모델에 대한 학습을 수행한다(S210).

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 프레임에 포함된 객체들, 프레임에서 제거된 객체와 네거티브 워딩을 레이블링해서 생성된 훈련데이터를 이용한 기계학습을 통해 훈련될 수 있다. 예를 들어, ANN(Artificial Neural Networks), RNN(Recurrent Neural Networks), LSTM(Long Short-Term Memory) 등 공지된 다양한 딥러닝 분야 알고리즘이 학습에 사용될 수 있다.

네거티브 프롬프트 생성부(102)는, 검증 데이터를 이용해 네거티브 워드 생성 모델을 평가한다(S220).

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 입력 인터페이스 장치를 통해 검증 데이터에 대응되는 출력 프레임에 대한 평가지표를 입력받을 수 있다. 일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 외부 단말(미도시)로부터 출력 프레임에 대한 평가지표를 입력받을 수 있다.

일 실시 예에서, 네거티브 프롬프트 생성부(102)는, 미리 생성된 높은 품질의 복원 프레임과 검증 데이터에 대응되는 출력 프레임 사이의 Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), Mean Squared Error (MSE), L1 Loss 등을 산출하여 평가지표로 사용할 수 있다.

평가지표가 미리 설정된 기준치보다 작은 경우, 네거티브 프롬프트 생성부(102)는, 네거티브 워드 생성 모델을 재학습을 통해 가중치를 조절한다.

평가지표가 미리 설정된 기준치보다 큰 경우, 네거티브 프롬프트 생성부(102)는, 네거티브 워드 생성 모델을 이용해 네거티브 워드를 생성한다(S230).

네거티브 프롬프트 생성부(102)는, 프레임을 이미지 세그멘테이션 모델에 입력하여 프레임에 포함된 모든 객체를 획득하고, 프레임에 포함된 모든 객체 및 제거될 객체를 네거티브 워드 생성 모델에 입력 값으로 입력하며, 네거티브 워드 생성 모델로부터 네거티브 워드를 출력 값으로 획득할 수 있다. 네거티브 프롬프트 생성부(102)는, 획득한 네거티브 워드를 나열하여 네거티브 프롬프트를 생성할 수 있다(S240).

예를 들어, 네거티브 워드가 "cartoon", "cgi", "render", "illustration", "painting", "drawing"인 경우, "cartoon, cgi, render, illustration, painting, drawing"을 네거티브 프롬프트로 생성한다. 인페인팅부(101)는, 프레임, 프레임의 마스크, 입력 프롬프트, 네거티브 프롬프트를 인페인팅 모델에 입력하고, 인페인팅 모델로부터 프레임과 대응되는 출력프레임을 획득할 수 있다. 인페인팅부(101)는, 프레임과 대응하여 생성된 출력프레임을 사용자 단말(200)에 제공한다.

도 7은 아웃페인팅 모델이 프레임을 확장시키는 과정을 도시하는 도면이다.

아웃페인팅부(103)는, 사용자 단말(200)에, 확장 영역을 지정할 수 있는 사용자 인터페이스를 제공할 수 있다.

사용자 인터페이스를 통해 확장영역이 입력되면, 아웃페인팅부(103)는, 아웃페인팅 모델에 입력 프롬프트, 입력 프레임 및 확장 영역을 프레임을 제공하고, 출력 프레임을 획득할 수 있다.

일 실시 예에서, "Describe what you'd like to inpaint in your image"가 입력 프롬프트로 사용될 수 있다.

도 8은 도 1에 따른 서비스 제공 서버(100)의 하드웨어 구성을 예시적으로 나타낸 도면이다.

도 8을 참조하면, 서비스 제공 서버(100)는, 적어도 하나의 프로세서(110) 및 상기 적어도 하나의 프로세서(110)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.

상기 적어도 하나의 동작은 전술한 서비스 제공 서버(100)의 구성부들(101~103)이나 기타 기능 또는 동작 방법을 포함할 수 있다.

여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시 예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120) 및 저장 장치(160) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다.

예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중 하나일 수 있고, 저장 장치(160)는, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 또는 각종 메모리 카드(예를 들어, micro SD 카드) 등일 수 있다.

또한, 서버(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 서버(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 서버(100)에 포함된 각각의 구성 요소들은 버스(bus, 170)에 의해 연결되어 서로 통신을 수행할 수 있다.

서버(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.

상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

생성형 AI 모델을 이용한 동적 객체 제거 및 인페인팅 서비스 제공 서버로서,
인페인팅 모델을 이용해 프레임에 포함된 타겟객체의 영역을 제거하고, 제거된 영역이 복원된 출력 프레임을 생성하는 인페인팅부; 및
이미지 세그멘테이션 모델 및 네거티브 워드 생성 모델을 이용해 인페인팅 모델에 입력되는 네거티브 프롬프트를 생성하는 네거티브 프롬프트 생성부를 포함하고,
상기 네거티브 프롬프트 생성부는,
이미지 세그멘테이션 모델에 프레임을 입력 값으로 입력하고, 프레임에 포함된 객체를 탐지하고,
사용자 단말에 탐지된 객체를 제공하고, 상기 사용자 단말로부터 탐지된 객체 중 적어도 하나인 타겟객체를 수신하며,
탐지된 객체와 대응하는 텍스트 및 타겟객체와 대응하는 텍스트를 네거티브 워드 생성 모델에 입력 값으로 입력하고, 네거티브 워드 생성 모델로부터 출력 값으로 네거티브 워드를 획득하고,
네거티브 워드를 이용해 네거티브 프롬프트를 생성하며,
네거티브 워드 생성 모델은,
훈련용 프레임에 포함된 객체와 대응되는 텍스트, 훈련용 프레임에 포함된 객체 중 적어도 하나인 타겟객체와 대응되는 텍스트에 네거티브 워드를 레이블링하여 생성한 훈련데이터를 이용해 학습되고,
상기 네거티브 프롬프트 생성부는,
이미지 세그멘테이션 모델에 훈련용 프레임을 입력하고, 출력 값으로 훈련용 프레임에 포함된 객체를 획득하고,
훈련용 프레임에 포함된 객체 중 적어도 하나인 훈련용 타겟객체를 설정하며,
훈련용 프레임, 훈련용 타겟객체 및 훈련용 네거티브 워드를 인페인팅 모델에 입력 값으로 입력하고, 출력 값으로 훈련용 출력 프레임을 획득하고,
훈련용 출력 프레임의 평가지표가 미리 설정된 기준치 보다 큰 경우, 훈련용 프레임에 포함된 객체 및 훈련용 타겟객체에 훈련용 네거티브 워드를 레이블링하여 훈련데이터를 생성하는,
서버.
삭제
삭제
삭제
◈청구항 5은(는) 설정등록료 납부시 포기되었습니다.◈

제1항에 있어서,
인페인팅부는,
이미지 세그멘테이션 모델에 프레임을 입력 값으로 입력하고, 출력 값으로 프레임에 포함된 객체를 획득하며,
사용자 단말에 탐지된 객체를 제공하고, 상기 사용자 단말로부터 탐지된 객체 중 적어도 하나인 타겟객체를 수신하며,
인페인팅 모델에 프레임, 타겟객체, 입력 프롬프트 및 네거티브 프롬프트를 입력 값으로 입력하고, 출력 값으로 타겟객체가 제거된 영역이 복원된 출력 프레임을 획득하는,
서버.