KR20230062429A

KR20230062429A - 문장 기반 스케치 추천 방법 및 장치

Info

Publication number: KR20230062429A
Application number: KR1020220141375A
Authority: KR
Inventors: 조시현; 김건우; 김성우
Original assignee: 서울대학교산학협력단
Priority date: 2021-10-29
Filing date: 2022-10-28
Publication date: 2023-05-09

Abstract

본 발명은 문장 기반 스케치 추천 방법 및 장치에 관한 것으로, 더욱 상세하게는 인공지능 모델을 이용하여 입력 문장에 따라 스케치를 추천하는, 문장 기반 스케치 추천 방법 및 장치에 관한 것이다.

Description

문장 기반 스케치 추천 방법 및 장치{METHOD AND APPARTUS FOR SENTENCE-BASED SKETCH RECOMMENDATION}

세계 디지털 콘텐츠 시장은 보호무역주의의 확대로 인한 경제의 불확실성이 증가함에도 불구하고 모바일 기반의 콘텐츠 소비 확대, 스트리밍 기반의 콘텐츠 소비 확대, 콘텐츠 분야 대형 주요 업체들의 OTT 서비스 출시, 5G 네트워크 상용화로 인한 AR/VR/MR 등 주요 기술기반의 콘텐츠 융합 확대 등으로 시장 규모가 점점 커지고 있다.

향후 세계 디지털 콘텐츠 시장은 5G 네트워크 상용화, 비대면 서비스 증가로 인한 XR 기술 투자 및 콘텐츠 제작 확대로 인한 콘텐츠 성장률이 고성장세를 유지할 전망이다.

디지털 콘텐츠 시장이 계속 확장됨에 따라 디지털 콘텐츠를 보다 효과적으로 제작하기 위한 소프트웨어 시장 또한 커질 것으로 전망된다.

디지털 콘텐츠로서 영상을 제작하기 위해서 보통 여러 개의 화면에 전달하고 싶은 영상을 시간적 흐름에 따라 그림으로 표현하는 스토리보드를 제작한다.

스토리보드란, 크리에이터 또는 클라이언트가 생각하는 이미지를 시각화하는 작업으로서, 촬영에 들어가기 전에 각 장면에 대한 카메라와 피사체의 움직임을 설명하고, 어떤 내용을 촬영할 것인가를 그림으로 표현하며, 촬영에 필요한 모든 것을 미리 파악하게 해주는 설계도와 같은 것이다.

예를 들어, 광고주는 스토리보드를 보고 실제 영상이 만들어 졌을 때 어떠한 내용과 이미지를 갖는지 사전에 확인할 수 있다. 이러한 스토리보드는 주로 광고나 영화 촬영에 쓰이며, 그 밖의 많은 영상매체를 작업하는데 있어 절대적으로 필요로 하는 작업이라 할 수 있다. 유사 용어로 섬네일, 콘티, 러프 스케치 등이 있다.

디지털 콘텐츠 시장이 성장함에 따라 이러한 스토리보드 초안 제작의 생산성을 높이고 퀄리티를 높이는 기술 또한 경쟁력을 갖추는데 필수 불가결한 요소가 될 것이다.

대한민국 등록특허 제10-2316114호 대한민국 등록특허 제10-2349530호

따라서, 본 발명은 상술한 바와 같은 문제를 개선하기 위하여 제안된 것으로, 인공지능 모델을 이용하여 입력 문장에 따라 스케치를 추천하는 문장 기반 스케치 추천 방법 및 장치를 제공하는데 목적이 있다.

본 발명의 목적은 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 문장 기반 스케치 추천 방법은 문장 기반 스케치 추천 장치가 스케치를 추천하는 방법에 있어서, 적어도 하나의 입력 문장을 획득하는 단계와, 유사 분석을 통해 스케치 데이터베이스로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하는 단계 및 상기 결정된 적어도 하나의 스케치 데이터를 출력하는 단계를 포함하고, 상기 스케치 데이터베이스는, 이미지 데이터와 상기 이미지 데이터와 연관된 스케치 데이터를 매핑하여 저장할 수 있다.

본 발명의 다른 실시예에 따른 문장 기반 스케치 추천 장치는 기 학습된 인공지능 모델에 대한 정보를 저장하는 메모리부 및 딥러닝 모델을 기반으로 이미지 데이터들로부터 상기 각 이미지 데이터 속 물체를 묘사하는 상기 스케치 데이터를 생성하여 스케치 데이터베이스에 저장하는 프로세서;를 포함하고, 상기 프로세서는, 유사 분석을 통해 상기 스케치데이터베이스로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정할 수 있다.

본 발명의 실시예에 따른 문장 기반 스케치 추천 방법 및 장치에 의하면, 딥러닝 모델을 문장 기반 스케치 추천 장치라는 목적에 맞게 조합하여 파이프라인을 구성한 데에서 그 효과가 발휘된다.

첫째로, 값비싼 데이터 어노테이션(data annotation) 과정 없이 크롤링만으로도 심플하게 스케치 데이터베이스를 마련할 수 있으며, 둘째로, 사용자가 입력한 문장에 대해 전문가의 세심한 로직 설계 없이도 적절한 스케치를 추천할 수 있다.

본 발명의 효과는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 본 발명의 실시예들에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템을 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 문장 기반 스케치 추천 장치의 구성을 도시하는 블록도이다.
도 3은 스케치 데이터베이스 구축부터 입력된 문장에 따른 스케치 추천에 이르는 기술적 과정을 설명하기 위한 개념도이다.
도 4는 본 발명의 일 실시예에 따른 스케치 데이터베이스를 구축하는 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 방법을 설명하기 위한 순서도이다.
도 6은 입력된 문장에 대응하여 추가 문장이 생성되는 경우의 문장 기반 스케치 추천 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 일 실시예에 따른 스케치 추천 방법을 좀 더 자세히 설명하기 위한 순서도이다.
도 8은 입력 문장과 관련된 스케치를 추천하는 과정을 설명하기 위한 개념도이다.
도 9는 사용자 단말을 통해 출력된 스케치 초안으로부터 각 스케치에 대한 사용자 수정 사항을 반영하여, 스토리보드를 생성하는 일련의 과정을 간단히 도시한다.

본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 뒤에 설명이 되는 실시 예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 뒤에 설명되는 용어들은 본 발명에서의 구조, 역할 및 기능 등을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.

그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 오로지 특허청구범위에 기재된 청구항의 범주에 의하여 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하에서는 첨부한 도면을 참조하며, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

본 발명의 일 실시예에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템은 사용자와 컴퓨터 간 원활한 상호작용을 연구하는 HCI(Human-Computer Interaction) 연구 분야에 속한다고 볼 수 있다. 관점에 따라 공개된 대규모 사전학습 딥러닝 모델을 추가 학습하여 사용하는 사전학습-미세조정(Pretraining-Fine tuning) 맥락에 포함될 수 있으며, 텍스트와 이미지라는 두 이종정보의 의미연관성을 배우는 멀티 모달(Multi-modal or cross-modal) 학습법의 맥락으로 언급될 수도 있다.

이하, 도 1 내지 도 6을 참조하여, 본 발명의 실시예들에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템을 설명한다.

도 1은 본 발명의 실시예들에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템을 설명하기 위한 개념도이고, 도 2는 본 발명의 일 실시예에 따른 문장 기반 스케치 추천 장치(200)의 구성을 도시하는 블록도이다.

본 발명의 일 실시예는 크게 두 가지 목적을 달성하고자 하는데, 첫째는 딥러닝 모델을 이용하여 데이터 기반으로 확장 가능한 스케치 데이터베이스를 구축하는 것이고, 둘째는 사용자가 입력한 문장과 관련한 스케치를 인공지능 모델 기반으로 추천하는 것이다.

도 1을 참조하면, 본 발명의 실시예들에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템(1)은 딥러닝 모델을 이용하여 스케치 데이터베이스(300)를 구축하고, 사용자(100)로부터 스케치 추천 지시로서 입력되는 적어도 하나의 문장을 수신하면, 문장과 관련된 스케치 데이터를 제공할 수 있다.

본 발명의 실시예들에 따른 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템(1)은 사용자 단말(100), 문장 기반 스케치 추천 장치(200) 및 스케치 데이터베이스(300)를 포함한다.

사용자 단말(100)은 스토리보드를 제작하는 사람 또는 기업 업체의 단말일 수 있다. 사용자 단말(100)은 스토리보드 제작을 위해 문장 기반 스케치 추천 장치(200)에 스케치 추천 지시로서 적어도 하나의 문장을 입력하여 전송할 수 있다. 문장 입력은 1회성이 아닌 연속적인 지시로서 문장 기반 스케치 추천 장치(200)에 전송될 수 있다.

스케치 데이터베이스(300)는 내부에 스케치 데이터가 저장되어 있을 수 있고, 딥러닝 모델을 이용하여 데이터 기반으로 확장 가능하다. 일 실시예로, 스케치 데이터베이스(300)는 프로세서(210)에 의해 딥러닝 모델을 기반으로 이미지 데이터들로부터 각 이미지 데이터 속 관심물체를 묘사하도록 생성된 스케치 데이터를 저장할 수 있다.

도 2를 참조하면, 문장 기반 스케치 추천 장치(200)는 기 학습된 인공지능 모델에 대한 정보를 저장하는 메모리부(210), 적어도 하나의 입력 문장을 획득하는 입력부(220), 및 메모리부(210)와 입력부(220)를 제어하는 프로세서(230)를 포함할 수 있다.

프로세서(230)는 딥러닝 모델을 기반으로 이미지 데이터들로부터 각 이미지 데이터 속 물체를 묘사하는 스케치 데이터를 생성하여 스케치 데이터베이스(300)에 저장함으로써 스케치 데이터베이스(300)를 구축할 수 있다.

스케치 데이터베이스(300)를 구축하는 방법은 다음과 같다.

먼저 프로세서(230)는 이미지 데이터들에 Mask R-CNN 모델을 이용하여 물체인식(Object detection)을 실행하여 관심있는 물체가 있는 이미지 데이터만 검출할 수 있다. 여기서, 이미지 데이터는 예를 들면, 영화 예고편을 크롤링하여 수집하여 획득할 수 있다.

그 다음, Mask R-CNN 모델의 물체검출(Object segmentation) 기능을 실행하여 이미지 데이터에서 관심물체의 영역만 세그멘테이션할 수 있다. 여기서, Mask R-CNN 모델의 물체인식 기능이나 물체검출 기능은 공지의 기술이므로 상세한 설명은 생략하기로 한다.

그리고, GAN 모델을 통해 상기 이미지 데이터 속 관심물체에 대응하는 스케치 데이터를 생성할 수 있다. 즉, GAN 모델을 이용하여 이미지 데이터 속 관심물체를 묘사하는 스케치 데이터를 생성할 수 있다. 여기서, GAN 모델이 관심물체로부터 스케치 데이터를 생성하는 기술은 공지의 기술을 이용할 수 있는 부분이므로 상세한 설명은 생략하기로 한다.

그리고, 각 이미지 데이터에 대해 CLIP 모델의 이미지 임베딩 기능을 적용하여 이미지 벡터를 생성하여, 각 이미지 데이터에 대응하는 이미지 벡터를 해당하는 스케치 데이터와 매핑하여 스케치 데이터베이스(300)에 저장할 수 있다. 이로써, 스케치 데이터베이스(300)를 구축할 수 있다.

말하자면, 프로세서(230)는 이미지 데이터 속 관심물체에 기초하여 관심물체에 대응하는 스케치 데이터를 생성할 수 있다(Image to sketch translation). 이때, 이미지 데이터에 대응하는 이미지 벡터를 생성하여, 이미지 벡터와 스케치 데이터를 매핑하여 스케치 데이터베이스(300)에 저장하는 것이다.

이와 같이, 물체검출 딥러닝 모델(Mask R-CNN)과 GAN(Generative Adversarial Network) 기반의 엣지검출 모델(Photo-Sketching)을 활용하여 별도의 레이블링 과정 없이도 기존의 이미지 데이터들을 스케치 추천 정보로 사용할 수 있다.

일 실시예로, 프로세서(230)는 영화 트레일러 데이터셋(movie trailer dataset)에 대해 크롤링을 수행하여 영화 장면 이미지 데이터들을 캡처하고, 상기 캡쳐된 영화 장면 이미지 데이터들에 대해 물체인식 딥러닝 모델을 이용하여 관심물체가 인식된 이미지 데이터를 검출할 수 있다.

이하, 입력 문장과 관련된 스케치를 인공지능 모델 기반으로 추천하는 기능에 대해 설명한다. 도 8은 입력 문장과 관련된 스케치를 추천하는 과정을 설명하기 위한 개념도이다.

도 8을 참조하면, 프로세서(230)는 적어도 하나의 입력 문장(제1 입력문장~ 제N입력문장)을 획득할 수 있다. 일 예로, 사용자 단말(100)로부터 적어도 하나의 입력 문장을 수신하여 획득하거나, 프로세서(230)에서 생성된 문장을 입력 문장으로 획득할 수 있고, 입력 문장의 출처는 이에 한정하지 않는다.

여기서, 프로세서(230)는 상기 적어도 하나의 입력 문장 중 적어도 일부와 관련된 적어도 하나의 추가 문장(추가문장1-1 ~ 추가문장 M-3)을 생성할 수 있고, 상기 적어도 하나의 추가 문장을 상기 적어도 하나의 입력 문장에 추가할 수 있다.

일 실시예로, 프로세서(230)는 상기 적어도 하나의 입력 문장에 대응하는 적어도 하나의 추가 문장을 생성하기 위해, GPT-2 모델을 기반으로 상기 적어도 하나의 입력 문장과 문맥상 인과관계, 상관관계, 동의관계, 서술관계, 종속관계 및 참조관계 중 적어도 하나의 관계에 해당하는 문장을 생성할 수 있다.

여기서, GPT-2 모델에 입력되는 입력 문장은 스토리텔링을 구성하는 복수의 입력 문장(제1 입력문장 ~ 제N 입력문장)이 될 수 있다. 이 경우, 각 입력 문장에 대해서 GPT-2 모델을 기반으로 적어도 하나의 추가 문장이 각각 생성될 수 있다.

GPT-2 모델은 입력 문장에 통계적 또는 확률적으로 이어질 확률이 가장 높은 문장을 추가 문장으로 생성하는 모델로서, 구체적으로 GPT-2 모델은 문장을 생성할 때, 토큰(단어) 단위로 생성하는데 이때, 새로이 생성하는 토큰(단어)들은 다음에 올 확률이 높은 토큰이라 할 수 있다. GPT-2 모델은 방대한 양의 문서 데이터로부터 토큰 간 관계 즉, 어떤 토큰이 특정 토큰들 다음에 자주 등장하는지를 학습한다.

본 발명에서는 GPT-2 모델을 문장 종결 토큰에 기초하여 추가 문장을 생성하도록 활용한다. 즉, 입력 문장(입력 토큰)을 받아 GPT-2 모델이 문장 종결 토큰이 나올 때까지 토큰들을 생성하도록 하고, 이는 곧 추가 문장이 될 수 있다.

따라서, GPT-2가 생성하는 추가 문장은 GPT-2가 학습한 문서 데이터에 기반했을 때, 입력 문장에 이어질 확률이 높은 문장인바, 입력 문장과 문맥상 인과관계, 상관관계, 동의관계, 서술관계, 종속관계 및 참조관계 중 적어도 하나의 관계에 해당하는 문장일 수 있는 것이다.

도 8에서는 하나의 입력 문장에 대응하여 각 세 개의 추가 문장이 생성된 경우를 도시하였으나, 생성되는 추가 문장의 개수에 대해서는 이에 한정하지 않는다.

다음으로, 프로세서(230)는 유사 분석을 통해 스케치 데이터베이스(300)로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정할 수 있다.

구체적으로, 프로세서(230)는 CLIP 모델의 텍스트 임베딩 기능을 통해 상기 각 적어도 하나의 입력 문장을 텍스트 벡터로 변환할 수 있다. 이어, 각 텍스트 벡터와 스케치 데이터베이스(300)에 저장된 각 이미지 벡터의 코사인유사도에 기반하여, 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정할 수 있다.

일 실시예로, 프로세서(230)는 입력 문장의 각 텍스트 벡터들과 스케치 데이터베이스(300)에 저장된 각 스케치 데이터들에 매핑된 이미지 벡터들 간의 코사인유사도를 계산하고, 상기 코사인유사도 값이 가장 큰 경우에 해당하는 이미지 벡터를 검출한다. 그리고, 검출된 이미지 벡터에 매핑된 스케치 데이터들을 추천하는 스케치 데이터들로서 결정할 수 있다.

여기서, 프로세서(230)는 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터들을 상기 입력 문장이 복수일 경우, 상기 입력 문장의 획득 순서에 따라 순차적으로 제공할 수 있다.

만약, 사용자 단말(100)이 스토리텔링을 구성하는 복수의 입력 문장을 입력부(220)에 입력한 경우, 프로세서(230)는 복수의 입력 문장의 획득 순서에 따라 순차적으로 스케치 데이터들을 사용자 단말(100)로 전송하고, 사용자 단말(100)에 스케치 데이터들이 상기 순서에 따라 순차적으로 디스플레이 되도록 할 수 있다.

이에, 사용자 단말(100)은 각 입력 문장에 대응하여 추천된 복수의 스케치 데이터들 중 사용자에 의해 선택된 스케치들만 새로운 창에 표시하되, 각 입력 문장의 획득 순서에 따라 상기 선택된 스케치들을 연결하여 표시함으로써, 사용자가 의도하는 상기 스토리텔링에 대응하는 스토리보드 초안이 자동 생성되도록 할 수 있다.

도 8은 복수의 추천 스케치들 중 사용자에 의해 선택된 스케치들을 연결하여 스토리보드 초안을 생성하는 일 예를 도시한다. 스토리보드 초안은 사용자 단말(100)의 화면을 통해 출력될 수 있다. 도 9는 사용자 단말을 통해 출력된 스케치 초안으로부터 각 스케치에 대한 사용자 수정 사항을 반영하여, 스토리보드를 생성하는 일련의 과정을 간단히 도시한다.

도 9를 참조하면, 프로세서(230)는 사용자 단말(100)의 화면을 통해 각 입력 문장 별로 추천한 적어도 하나의 스케치들 중 사용자에 의해 선택된 스케치들만 새로운 창에 출력되도록 할 수 있다(S410).

이때에도, 기본적으로 입력 문장의 획득 순서와 동일한 순서로 선택된 스케치들을 나열하여 출력되도록 할 수 있다. 이 단계에서 출력된 스케치들을 스케치 초안(1-2, 2-1, , N-3)이라 명명하기로 한다.

다음으로, 프로세서(230)는 사용자 단말(100)을 통해 각 스케치 초안(1-2, 2-1, , N-3)에 대한 적어도 일부 스케치에 대한 추가, 삭제, 변경 및 유지 중 적어도 하나를 포함하는 사용자 의도에 따라 발생된 수정 사항을 획득할 수 있다(S420).

이때, 사용자는 사용자 단말(100)을 통해 표시된 스케치 초안에 획을 더하거나, 제공된 스케치의 적어도 일부를 지우거나, 변경하거나, 스케치 나열 순서를 변경할 수도 있다. 즉, 사용자는 사용자 단말(100)을 통해 기본적으로 출력된 스케치 초안의 순서를 변경할 수 있다. 이 단계에서 수정된 스케치들을 스케치 수정이라 명명하기로 한다.

여기서, 스케치 초안을 생성하는 단계(S410)와 사용자 수정 입력 단계(S420)는 순서와 상관없이 번갈아 실행될 수 있다. 즉, 본 발명의 실시예에 따른 문장 기반 스케치 추천 시스템을 이용하여 사용자가 스토리보드를 제작할 때, 사용자는 추천받은 스케치를 스토리 보드 초안으로서 가져오는 실행과 스케치를 수정하는 실행을 순서에 상관없이 왕복하며 작업할 수 있다.

다음으로, 프로세서(230)는 사용자 단말(100)로부터 전달된 스케치 수정 사항에 기초하여, S420 단계에서 발생된 스케치 수정 사항을 각 스케치 데이터에 반영하여 최종 스케치를 결정할 수 있다. 이어, 결정된 최종 스케치에 기반하여 스토리보드를 생성할 수 있다(S430).

한편, 프로세서(230)는 입력 문장에 대응하여 출력된 적어도 하나의 스케치 데이터에 대한 사용자의 선택을 기반으로 CLIP 모델을 파인 튜닝(Fine tuning)하거나, 사용자 맞춤식 추천을 위한 알고리즘 계층을 더할 수 있다. 즉, 입력 문장과 그에 대응하여 출력된 스케치 데이터에 대한 사용자 선택 결과를 기반으로 CLIP 모델을 개선하거나 사용자 맞춤형 추천을 위한 알고리즘 계층을 추가하여 스케치 추천 프로세스 자체를 업그레이드 할 수 있다.

이하 도 3을 참조하여, 전술한 일련의 과정을 상세히 설명하기로 한다. 도 3은 스케치 데이터베이스 구축부터 입력된 문장에 따른 스케치 추천에 이르는 기술적 과정을 설명하기 위한 개념도이다.

도 3에 도시된 인공지능 모델을 이용한 문장 기반 스케치 추천 과정은 크게 세 부분(a, b, c)으로 도시될 수 있다.

(a)는 영화 트레일러 데이터셋(movie trailer dataset)으로부터 스케치 데이터베이스(300)를 구축하기 위한 전처리 단계를 도시한다.

일 예로, 영화 예고편을 크롤링하여 수집한 다음 영화 장면 이미지 데이터들에 Mask R-CNN 모델을 활용하여 물체인식(Object detection)을 적용하여 관심물체가 있는 이미지 데이터만 검출할 수 있다. 그 다음, Mask R-CNN 모델의 모델검출(Object segmentation) 기능을 활용하여 관심물체의 영역만 이미지 데이터에서 오려낼 수 있다. 이 과정을 통해 스케치화할 때 불필요한 선들이 생기는 것을 방지하며, 관심물체들의 구도로 장면을 구성함으로써, 스토리보드 초안 단계에서 장면표현을 위한 스케치의 목적에 일조할 수 있다.

(b)는 뒷단(back-end)에서 사용자가 입력한 문장과 관련된 문장들이 추가적으로 생성되고, 각 문장에 인접한 의미를 가지는 스케치 데이터와 문장이 매칭되는 과정을 도시한다. 이를 위해, 먼저 (b) 우측 상단의 GAN 모델을 통해 (a)에서 준비된 관심물체 이미지 데이터들이 스케치 데이터로 매핑되게 된다(Image to sketch translation). 즉, 스케치 데이터베이스가 구축된 것이다.

(b) 좌측 하단의 GPT-2 모델은 사용자 문장을 입력으로 받아 그 다음에 연관된 추가 문장을 추가적으로 생성할 수 있다. 여기서, 추가 문장은 먼저 입력된 적어도 하나 이상의 사용자 문장과 관련된 문장으로서, 제1 추가 문장, 제2 추가 문장, …… , 및 제N 추가 문장을 포함할 수 있다.

여기서, 생성된 추가문장은 사용자 문장과 인과관계, 상관관계, 동의관계, 서술관계, 종속관계 및 참조관계 중 적어도 하나의 관계를 갖는 문장일 수 있으며, 사용자 문장과 추가문장의 관계에 대해 이에 한정하지 않는다. 사용자로부터 입력된 하나의 문장으로부터 확장되는 추가 문장은 GPT-2 모델의 설계 및 기능에 따를 수 있다.

사용자 단말(100)로부터 입력된 사용자 문장과 프로세서(230)에 의해 생성된 추가문장은 CLIP 모델의 text embedding module을 통해 이미지-텍스트 공동 벡터 공간에 텍스트 벡터로 매핑되게 된다.

이때, 이미지-텍스트 공동 벡터 공간상에는 이미지 벡터가 이미 존재하는데, 이는 물체인식을 통해 선별된 영화 장면 데이터가 CLIP의 Image embedding module을 거쳐 생성된 것이다. 텍스트 벡터에 가장 가까운 이미지 벡터가 선별되고, 이에 선별된 이미지 벡터에 해당되는 스케치 데이터가 사용자 단말의 화면에 추천 스케치 데이터로서 출력될 수 있다.

즉, 각 텍스트 벡터와 이미지 벡터에 대한 코사인유사도를 계산하여, 상기 코사인유사도 값이 가장 큰 이미지 벡터에 대응하는 스케치 데이터를 검출하여, 사용자 단말(100)의 화면에 추천할 수 있다.

(c)는 사용자가 상호작용하는 앞단(front-end)의 화면을 보여준다. 즉, 사용자가 사용자 단말(100)을 통해 문장 기반 스케치 추천 장치(200)와 통신하는 화면의 일 예를 도시한다. 사용자는 문장 기반 스케치 추천 장치(200)로부터 추천받은 스케치 중에서 자신이 활용할 스케치를 골라서 활용할 수 있다. 이때 추천받은 스케치를 지우거나 그 위에 획을 더하는 등 자신의 의도 표현을 위해 자유롭게 수정할 수 있다. 즉, 추천받은 본 발명의 장치로부터 추천받은 스케치 이미지를 스토리보드 장면 묘사를 위한 스케치 초안으로 활용할 수 있다.

여기서, 인공지능 모델을 이용한 문장 기반 스케치 추천 시스템에 의하면, 사용자가 입력한 하나의 문장에 대해서 하나의 스케치만 출력되어 추천되는 것이 아니라, 하나의 사용자 문장이 입력되면 사용자 문장과 연관된 추가 문장이 생성되고, 이에 각 문장에 대응하는 스케치 데이터들이 생성되어 사용자에게 제공됨으로써, 사용자는 하나의 문장을 입력하더라도, 하나의 문장에 연관된 다양한 스케치 데이터들을 추천받을 수 있다. 즉, 하나의 입력 문장에 대응하여 추천하는 스케치들을 복수 개로 제공할 수 있어, 사용자가 스케치로 이용하기 위해 취사 선택할 수 있는 범위를 넓힐 수 있다.

본 발명의 문장 기반 스케치 추천 장치(200)에 스토리텔링을 구성하는 복수의 문장이 입력될 수 있다. 즉, 스토리텔링을 구성하는 복수의 문장이 제1 입력 문장, 제2 입력 문장, , 제M 입력 문장과 같이 순차적으로 입력될 수 있다.

이에, 문장 기반 스케치 추천 장치(200)로부터 상기 각 입력 문장에 대응하는 제1 추천 스케치 데이터들, 제2 추천 스케치 데이터들, , 제M 추천 스케치 데이터들이 순차적으로 제공되어, 사용자 단말(100)은 전체 스토리텔링에 대해 추천된 스케치 데이터들을 선택적으로 이어 붙임으로써, 스케치로 구성된 스토리보드를 쉽게 효율적으로 생성할 수 있다.

여기서, 제1 추천 스케치 데이터들 내지 제M 추천 스케치 데이터들은 도 3의 (c)에 관한 설명에서 서술했듯이, 입력된 하나의 문장에 대해 추가 문장이 생성됨에 따라 생성된 복수의 추천 스케치 데이터들을 의미한다.

아울러, 도시되지 않았지만, 상기 입력 문장과 추가 문장들 각각에 대응하는 스케치 데이터들을 출력한 이후, 출력된 적어도 하나의 스케치 데이터에 대한 사용자의 선택을 기반으로 즉, 선택된 스케치 데이터 및 입력 문장을 기반으로 CLIP 모델을 파인 튜닝(Fine tuning)할 수 있다.

도 4는 본 발명의 일 실시예에 따른 스케치 데이터베이스를 구축하는 방법을 설명하기 위한 순서도이다.

본 발명의 일 실시예에 따른 스케치 데이터베이스 구축 방법은, 도 1 및 도 2의 문장 기반 스케치 추천 장치(200)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1 및 도 2의 문장 기반 스케치 추천 장치(200)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 스케치 데이터베이스 구축 방법은 인공지능을 활용한 스케치 데이터베이스 구축을 수행하기 위한 소프트웨어(어플리케이션)에 의해 실행될 수 있다.

도 4를 참조하면, 먼저 스케치화할 적어도 하나의 이미지 데이터 데이터를 준비할 수 있다(S110). 일 예로서, 영화 트레일러 데이터셋에 대해 크롤링을 수행하여 영화 장면 이미지 데이터들을 캡처할 수 있다.

다음으로, 준비된 이미지 데이터 데이터에 관심물체의 존재 여부를 확인할 수 있다(S120). 일 예로서, 상기 캡쳐된 영화 장면 이미지 데이터들에 대해 물체인식 딥러닝 모델을 이용하여 관심물체가 인식된 이미지 데이터 데이터를 검출할 수 있다.

S120 단계에서, 이미지 데이터 데이터에 관심물체가 없는 것으로 판단된 경우, 해당 이미지 데이터는 폐기할 수 있다(S122). 반면, 이미지 데이터 데이터에 관심물체가 있는 것으로 판단된 경우, CLIP모델을 통해 이미지 데이터를 벡터 공간에 임베딩하여(S124), 이미지 벡터를 획득할 수 있다(S126).

다음으로, 관심물체가 있는 이미지 데이터 데이터에 대해 물체검출 딥러닝 모델을 적용하여 관심물체를 세그멘테이션하고(S130), 상기 세그멘테이션된 관심물체에 대해 GAN 모델을 적용하여 스케치 데이터를 생성할 수 있다(S140).

여기서, 이미지 벡터와 스케치 데이터는 고유한 이미지 ID로 매핑될 수 있다.

다음으로, 해당 관심물체와 스케치 데이터를 매핑하여 스케치 데이터베이스에 저장함으로써, 스케치 데이터베이스를 구축할 수 있다(S150).

도 5 내지 도 7은 인공지능 모델을 이용한 문장 기반 스케치 추천 방법을 설명하기 위한 순서도이다.

본 발명의 일 실시예에 따른 문장 기반 스케치 추천 방법은, 도 1 및 도 2의 문장 기반 스케치 추천 장치(200)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1 및 도 2의 문장 기반 스케치 추천 장치(200)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 문장 기반 스케치 추천 방법은 인공지능을 활용한 문장 기반 스케치 추천을 수행하기 위한 소프트웨어(어플리케이션)에 의해 실행될 수 있다.

도 5를 참조하면 먼저, 적어도 하나의 입력 문장을 획득할 수 있다(S210). 일 실시예로, 사용자 단말로부터 사용자에 의해 입력되는 문장을 수신하여 획득할 수 있다. 입력 문장의 획득 출처에 대해서는 이에 한정하지 않는다.

다음으로, 유사 분석을 통해 스케치 데이터베이스로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정할 수 있다(S220).

여기서, S220 단계에 대해 도 7을 참조하여 좀 더 자세히 설명하자면, 먼저 프로세서는 적어도 하나의 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하기 위해서, 스케치 데이터베이스에 저장된 이미지 데이터들에 대해 CLIP모델의 이미지 임베딩 기능을 실행하여 이미지 벡터들을 생성할 수 있다(S216). 이는 전술한 S216 단계에 해당한다.

그리고, CLIP 모델의 텍스트 임베딩 기능을 통해 상기 입력 문장을 각각 텍스트 벡터로 변환할 수 있다(S221).

이어, 각 텍스트 벡터와 각 이미지 벡터의 코사인유사도에 기반하여 상기 입력문장과 연관된 적어도 하나의 스케치 데이터를 결정할 수 있다(S223).

이를 위해, 프로세서(230)는 각 문장의 텍스트 벡터들과 각 스케치 데이터들의 이미지 벡터들 간의 코사인유사도를 계산하고, 상기 코사인유사도 값이 가장 큰 경우에 해당하는 이미지 벡터를 검출하고, 검출된 이미지 벡터에 해당하는 스케치 데이터들을 추천하는 스케치 데이터들로서 결정할 수 있다.

도 6은 입력된 문장에 대응하여 추가 문장이 생성되는 경우의 문장 기반 스케치 추천 방법을 설명하기 위한 순서도이다.

S310 단계는 S210 단계와 동일하다.

다음으로, 상기 획득된 입력 문장과 관련된 추가 문장을 생성할 수 있다(S320). 여기서, 추가 문장은 먼저 획득된 입력 문장과 문맥상 인과관계, 상관관계, 동의관계, 서술관계, 종속관계 및 참조관계 중 적어도 하나에 해당하는 문장일 수 있다. 이는 GPT-2 모델의 설계 및 기능에 의해 미리 설정될 수 있고, 변경될 수도 있다.

다음으로, 유사 분석을 통해 스케치 데이터베이스로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정할 수 있다(S330).

여기서, 각 입력 문장에 대응하는 스케치 데이터를 결정하는 방법은 도 7을 참조하여 설명한 방법과 동일하다.

다음으로, S330 단계에서 각 입력 문장에 대응하여 결정된 스케치 데이터들을 함께 출력함으로써, 사용자에게 스케치를 추천할 수 있다(S340).

본 발명의 실시예에 따른 문장 기반 스케치 추천 방법 및 장치에 의하면, 기존에 공개된 딥러닝 모델을 문장 기반 스케치 추천 장치라는 목적에 맞게 조합하여 파이프라인을 구성한 데에서 그 효과가 발휘된다.

전술한 문장 기반 스케치 추천 시스템은, 프로세서, 메모리, 사용자 입력장치, 프레젠테이션 장치 중 적어도 일부를 포함하는 컴퓨팅 장치에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 수 있도록 코딩되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 매체이다. 프로세서는 메모리에 저장되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다.

사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.

컴퓨팅 장치는 스마트폰, 태블릿, 랩탑, 데스크탑, 서버, 클라이언트 등의 다양한 장치를 포함할 수 있다. 컴퓨팅 장치는 하나의 단일한 스탠드-얼론 장치일 수도 있고, 통신망을 통해 서로 협력하는 다수의 컴퓨팅 장치들로 이루어진 분산형 환경에서 동작하는 다수의 컴퓨팅 장치를 포함할 수 있다.

또한 전술한 문장 기반 스케치 추천 방법은, 프로세서를 구비하고, 또한 프로세서에 의해 실행되면 인공지능 모델을 활용한 문장 기반 스케치 추천 방법을 수행할 수 있도록 코딩된 컴퓨터 판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 구조 등을 저장한 메모리를 구비하는 컴퓨팅 장치에 의해 실행될 수 있다.

상술한 본 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 실시예들에 따른 인공지능 모델을 활용한 영상 진단 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러 또는 마이크로 프로세서 등에 의해 구현될 수 있다.

예를 들어, 실시예들에 따른 문장 기반 스케치 추천 방법은 심층 신경망의 뉴런(neuron)과 시냅스(synapse)가 반도체 소자들로 구현된 인공지능 반도체 장치를 이용하여 구현될 수 있다. 이때 반도체 소자는 현재 사용하는 반도체 소자들, 예를 들어 SRAM이나 DRAM, NAND 등일 수도 있고, 차세대 반도체 소자들, RRAM이나 STT MRAM, PRAM 등일 수도 있고, 이들의 조합일 수도 있다.

실시예들에 따른 문장 기반 스케치 추천 방법을 인공지능 반도체 장치를 이용하여 구현할 때, 인공지능 모델을 소프트웨어로 학습한 결과(가중치)를 어레이로 배치된 시냅스 모방소자에 전사하거나 인공지능 반도체 장치에서 학습을 진행할 수도 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 실시예들에 따른 문장 기반 스케치 추천 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 장치, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.

또한, 위에서 설명한 "시스템", "프로세서", "컨트롤러", "컴포넌트", "모듈", "인터페이스", "모델", 또는 "유닛" 등의 용어는 일반적으로 컴퓨터 관련 엔티티 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어 또는 실행 중인 소프트웨어를 의미할 수 있다. 예를 들어, 전술한 구성요소는 프로세서에 의해서 구동되는 프로세스, 프로세서, 컨트롤러, 제어 프로세서, 개체, 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만 이에 국한되지 않는다. 예를 들어, 컨트롤러 또는 프로세서에서 실행 중인 애플리케이션과 컨트롤러 또는 프로세서가 모두 구성 요소가 될 수 있다. 하나 이상의 구성 요소가 프로세스 및/또는 실행 스레드 내에 있을 수 있으며, 구성 요소들은 하나의 장치(예: 시스템, 컴퓨팅 디바이스 등)에 위치하거나 둘 이상의 장치에 분산되어 위치할 수 있다.

한편, 또 다른 실시예는 전술한 문장 기반 스케치 추천 방법을 수행하는, 컴퓨터 기록매체에 저장되는 컴퓨터 프로그램을 제공한다. 또한 또 다른 실시예는 전술한 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

기록매체에 기록된 프로그램은 컴퓨터에서 읽히어 설치되고 실행됨으로써 전술한 단계들을 실행할 수 있다. 이와 같이, 컴퓨터가 기록매체에 기록된 프로그램을 읽어 들여 프로그램으로 구현된 기능들을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 컴퓨터의 장치 인터페이스(Interface)를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다.

이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다.

또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다.

또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는 지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.

이상에서 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있다.

또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.

도 4 내지 도 6을 통해 설명된 문장 기반 스케치 추천 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 문장 기반 스케치 추천 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있다)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 문장 기반 스케치 추천 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

이상, 본 발명의 특정 실시예에 대하여 상술하였다. 그러나, 본 발명의 사상 및 범위는 이러한 특정 실시예에 한정되는 것이 아니라, 본 발명의 요지를 변경하지 않는 범위 내에서 다양하게 수정 및 변형이 가능하다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 것이다.

따라서, 이상에서 기술한 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이므로, 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 하며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

Claims

문장 기반 스케치 추천 장치가 스케치를 추천하는 방법에 있어서,
적어도 하나의 입력 문장을 획득하는 단계;
유사 분석을 통해 스케치 데이터베이스로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하는 단계; 및
상기 결정된 적어도 하나의 스케치 데이터를 출력하는 단계;를 포함하고,
상기 스케치 데이터베이스는,
이미지 데이터와 상기 이미지 데이터와 연관된 스케치 데이터를 매핑하여 저장하는, 문장 기반 스케치 추천 방법.
제 1 항에 있어서,
상기 적어도 하나의 입력 문장을 획득하는 단계는,
상기 입력 문장 중 적어도 일부와 관련된 적어도 하나의 추가 문장을 생성하는 단계; 및
상기 적어도 하나의 추가 문장을 상기 입력 문장에 추가하는 단계;를 포함하는, 문장 기반 스케치 추천 방법.
제 1 항에 있어서,
딥러닝 모델을 기반으로 상기 이미지 데이터들로부터 각 상기 이미지 데이터 속 물체를 묘사하는 스케치 데이터를 생성하여 상기 스케치 데이터베이스를 구축하는 단계를 더 포함하는, 문장 기반 스케치 추천 방법.
제 3 항에 있어서,
상기 스케치 데이터베이스를 구축하는 단계는,
영화 트레일러 데이터셋에 대해 크롤링을 수행하여 영화 장면 이미지 데이터들을 캡처하는 단계;
캡쳐된 상기 영화 장면 이미지 데이터들에 대해 물체인식 딥러닝 모델을 이용하여 관심물체가 인식된 이미지 데이터들을 검출하는 단계;
상기 검출된 이미지 데이터에 물체검출 딥러닝 모델을 적용하여 상기 관심물체를 세그멘테이션하는 단계;
상기 세그멘테이션된 관심물체에 대해 GAN 모델을 적용하여 스케치 데이터를 생성하는 단계;
상기 이미지 데이터에 대해 CLIP 모델의 이미지 임베딩 기능을 적용하여 이미지 벡터를 생성하는 단계; 및
상기 이미지 데이터에 대응하는 상기 이미지 벡터를 상기 스케치 데이터와 매핑하여 상기 스케치 데이터베이스에 저장하는 단계;를 포함하는, 문장 기반 스케치 추천 방법.
제 1 항에 있어서,
상기 적어도 하나의 스케치 데이터를 출력하는 단계는,
CLIP 모델의 텍스트 임베딩 기능을 통해 상기 적어도 하나의 입력 문장을 각각 텍스트 벡터로 변환하는 단계; 및
상기 각 텍스트 벡터와 상기 이미지 벡터의 코사인유사도에 기반하여 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하는 단계;를 포함하는, 문장 기반 스케치 추천 방법.
제 2 항에 있어서,
상기 추가 문장을 생성하는 단계는,
GPT-2 모델을 기반으로 상기 적어도 하나의 입력 문장과 문맥상 인과관계, 상관관계, 동의관계, 서술관계, 종속관계 및 참조관계 중 적어도 하나의 관계에 해당하는 상기 추가 문장을 생성하는, 문장 기반 스케치 추천 방법.
제 5 항에 있어서,
상기 출력된 적어도 하나의 스케치 데이터에 대한 사용자의 선택을 기반으로 상기 CLIP 모델을 파인 튜닝(Finetuning)하는 단계를 더 포함하는, 문장 기반 스케치 추천 방법.
제 1 항에 있어서,
상기 스케치 데이터를 출력하는 단계는,
상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 상기 입력 문장이 복수일 경우, 상기 입력 문장의 획득 순서에 따라 순차적으로 연결하여 제공하는, 문장 기반 스케치 추천 방법.
제 1 항에 있어서,
상기 적어도 하나의 스케치 데이터를 출력하는 단계는,
상기 적어도 하나의 스케치 데이터를 사용자 단말의 화면에 상기 입력 문장의 획득 순서와 동일한 순서로 출력시키는, 문장 기반 스케치 추천 방법.
제 9 항에 있어서,
상기 적어도 하나의 스케치 데이터를 출력하는 단계 이후,
상기 사용자 단말로부터 상기 사용자 단말을 통해 상기 적어도 하나의 스케치 데이터에 대해 발생된 수정 사항을 획득하는 단계;
상기 획득된 수정 사항을 상기 스케치 데이터에 반영하여 최종 스케치를 결정하는 단계; 및
상기 최종 스케치에 기반하여 스토리보드를 생성하는 단계를 더 포함하는, 문장 기반 스케치 추천 방법.
기 학습된 인공지능 모델에 대한 정보를 저장하는 메모리부; 및
딥러닝 모델을 기반으로 이미지 데이터들로부터 각 상기 이미지 데이터 속 물체를 묘사하는 스케치 데이터를 생성하여 스케치 데이터베이스에 저장하는 프로세서;를 포함하고,
상기 프로세서는,
유사 분석을 통해 상기 스케치 데이터베이스로부터 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하는, 문장 기반 스케치 추천 장치.
제 11 항에 있어서,
상기 프로세서는,
상기 입력 문장 중 적어도 일부와 관련된 적어도 하나의 추가 문장을 생성하고, 적어도 하나의 상기 추가 문장을 상기 입력 문장에 추가하는, 문장 기반 스케치 추천 장치.
제 12 항에 있어서,
상기 프로세서는,
영화 트레일러 데이터셋에 대해 크롤링을 수행하여 영화 장면 이미지 데이터들을 캡처하고, 캡쳐된 상기 영화 장면 이미지 데이터들에 대해 물체인식 딥러닝 모델을 이용하여 관심물체가 인식된 이미지 데이터를 검출하며, 상기 검출된 이미지 데이터에 물체검출 딥러닝 모델을 적용하여 상기 관심물체를 세그멘테이션하고,
상기 세그멘테이션된 관심물체에 대해 GAN 모델을 적용하여 스케치 데이터를 생성하며, 상기 이미지 데이터에 대해 CLIP 모델의 이미지 임베딩 기능을 적용하여 이미지 벡터를 생성하고, 상기 이미지 데이터에 대응하는 상기 이미지 벡터를 상기 스케치 데이터와 매핑하여 상기 스케치 데이터베이스에 저장하는, 문장 기반 스케치 추천 장치.
제 11 항에 있어서,
상기 프로세서는,
CLIP 모델의 텍스트 임베딩 기능을 통해 상기 적어도 하나의 입력 문장을 각각 텍스트 벡터로 변환하며, 상기 각 텍스트 벡터와 상기 이미지 벡터의 코사인유사도에 기반하여 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하는, 문장 기반 스케치 추천 방법.
제 12 항에 있어서,
상기 프로세서는,
GPT-2 모델을 기반으로 상기 적어도 하나의 입력 문장과 문맥상 인과관계, 상관관계, 동의관계, 서술관계, 종속관계 및 참조관계 중 적어도 하나에 해당하는 상기 추가 문장을 생성하는, 문장 기반 스케치 추천 장치.
제 14 항에 있어서,
상기 프로세서는,
출력된 상기 적어도 하나의 스케치 데이터에 대한 사용자의 선택을 기반으로 상기 CLIP 모델을 파인 튜닝(Fine tuning)하는, 문장 기반 스케치 추천 장치.
제 11 항에 있어서,
상기 프로세서는,
상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 상기 입력 문장이 복수일 경우, 상기 입력 문장의 획득 순서에 따라 순차적으로 연결하여 제공하는, 문장 기반 스케치 추천 장치.
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
적어도 하나의 입력 문장을 획득하는 단계;
유사 분석을 통해 스케치 데이터베이스로부터 상기 입력 문장과 연관된 적어도 하나의 스케치 데이터를 결정하는 단계; 및
상기 결정된 적어도 하나의 스케치 데이터를 출력하는 단계;를 수행하도록 구성된 적어도 하나의 명령어를 포함하고,
상기 스케치 데이터베이스는,
이미지 데이터와 상기 이미지 데이터와 연관된 스케치 데이터를 매핑하여 저장하는, 컴퓨터 판독 가능한 기록매체.