WO2022019566A1 - Method for analyzing visualization map for improvement of image transform performance - Google Patents

Method for analyzing visualization map for improvement of image transform performance Download PDF

Info

Publication number
WO2022019566A1
WO2022019566A1 PCT/KR2021/009071 KR2021009071W WO2022019566A1 WO 2022019566 A1 WO2022019566 A1 WO 2022019566A1 KR 2021009071 W KR2021009071 W KR 2021009071W WO 2022019566 A1 WO2022019566 A1 WO 2022019566A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
map
visualization
style
content
Prior art date
Application number
PCT/KR2021/009071
Other languages
French (fr)
Korean (ko)
Inventor
박지은
이진호
이광희
Original Assignee
펄스나인 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210091802A external-priority patent/KR20220011090A/en
Application filed by 펄스나인 주식회사 filed Critical 펄스나인 주식회사
Publication of WO2022019566A1 publication Critical patent/WO2022019566A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a visualization map analysis method, and more particularly, in image conversion using artificial intelligence, by introducing an image conversion algorithm, image conversion performance improvement that enables conversion into a desired image in the end It relates to a visualization map analysis method for
  • deep learning is defined as a set of machine learning algorithms that attempt high-level abstraction through a combination of several nonlinear transformation methods. .
  • DNN deep neural networks
  • CNN convolutional neural network
  • RNN recurrent neural network
  • neural style transfer is to restore an image (or create a new image) from a feature map extracted using the CNN 110 by receiving an image source source. , to create new image content C by synthesizing image A and image B.
  • Patent Document 1 discloses a system for executing a CNN, and the system for executing the CNN according to the hardware processor activates the input of the convolutional layer.
  • Receive maps wherein the input activation maps are a default input activation map layout, and extract pixel values of input activation maps from the default input activation map layout, an interleaved input activation comprising a plurality of clusters of input activation map pixels.
  • output activation maps of a convolutional layer from a plurality of kernel tiles and a plurality of clusters of input activation map pixels
  • the output activation maps are output activation maps characterized in that it consists of an interleaved output activation map layout comprising a plurality of clusters of pixels.
  • pixel values of the input activation maps of the convolutional layer may be rearranged into an interleaved layout including a plurality of clusters of input activation map pixels, and the output activation maps are clusters of input activation map pixels
  • the mapping relationship between the content characteristic map and the style characteristic map it is necessary to calculate the mapping relationship between the content characteristic map and the style characteristic map, extract it as an activation map (probability map, etc.), and modify the extracted activation map. Since there is no function, if an unwanted style area is referenced, it has a problem that it cannot be corrected.
  • the present invention was created in consideration of the above, and during the image conversion process according to the execution of the image conversion algorithm, a visualization map is extracted by calculating the mapping relationship between the characteristic maps, and the extracted visualization map is modified.
  • the purpose of this is to provide a visualization map analysis method for improving image conversion performance that enables conversion to an image of a desired shape.
  • a specific region is set in the characteristic map of one reference image, and a specific region of the other characteristic maps other than the reference image is mapped to each set region for visualization can do it
  • the image conversion algorithm is a style transfer algorithm in step a
  • the similarity between the feature map of the content image and the feature map of the style image is calculated, and the content (target) data is used for the selected part. You can visualize the style (reference) area.
  • the similarity is calculated using the self-attention GAN, and the style used for the selected part in the content (target) data ( See) area can be visualized.
  • the method may further include classifying content (target) data using a pre-trained classification machine learning model.
  • the method may further include segmenting content (target) data using an object detection algorithm.
  • the visualization map may be visualized in a polygonal form and modified, or several pairs of visualization maps may be modified simultaneously by providing a plurality of mapping areas at the same time.
  • the visualization map may be modified by exchanging the characteristic map of the mapping area between the content (target) data and the style (reference) data.
  • the method may further include transforming the image according to the style selected in the style image for the region selected in the content image according to the order of drawing each of the closed curves.
  • the present invention it is possible to extract a visualization map by calculating the mapping relationship between the characteristic maps during the image conversion process according to the execution of the image conversion algorithm, and finally convert the image into a desired shape by modifying the extracted visualization map.
  • FIG. 1 is a diagram illustrating an overview of generating a new image from a feature map generated by using a CNN for an original image based on neural style transition.
  • FIG. 2 is a flowchart illustrating an execution process of a visualization map analysis method for improving image conversion performance according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a method of changing a style by selecting a specific area of a speaker.
  • FIG. 4 is a diagram illustrating division of a content image into multi-area and converting the divided multi-area into multi-style in a style image.
  • FIG. 1 is a diagram illustrating an overview of generating a new image from a feature map generated by using a CNN for an original image based on neural style transition.
  • a computer system extracts a feature map using a convolutional neural network (CNN) 110 . That is, each characteristic map for the source images A and B is extracted. After extracting the feature map for the original image in this way, finally, using the extracted feature map, a new image (image content C) is generated based on the image style transfer technique.
  • CNN convolutional neural network
  • the image is converted into a single vector.
  • a matrix consisting of the result of passing each pixel of the image through the filter can be defined. here Gram matrix using This is defined
  • a loss function is defined as follows.
  • a total loss obtained by weighting a content loss and a style loss is defined as follows.
  • the total loss as described above is a linear combination between content loss and style loss.
  • FIG. 2 is a flowchart illustrating an execution process of a visualization map analysis method for improving image conversion performance according to an embodiment of the present invention.
  • the visualization map analysis method for improving image conversion performance first receives at least one image and extracts each characteristic map by performing an image conversion algorithm (step S201) ).
  • the image conversion algorithm is a style transfer algorithm
  • the similarity between the feature map of the content image and the feature map of the style image is calculated, and the style (reference) region used for the selected part in the content (target) data. can be visualized.
  • the image conversion algorithm is GAN-based Image to Image translation
  • the similarity is calculated using the self-attention GAN algorithm, and the style (reference) area used for the selected part in the content (target) data is selected. can be visualized.
  • the self-attention generative adversarial networks (SAGAN) algorithm supplements the local convolution structure of the existing convolutional neural network (CNN) method by using a method called self-attention in generative adversarial networks (GAN).
  • GAN self-attention in generative adversarial networks
  • the method may further include classifying content (target) data using a pre-trained classification machine learning model.
  • the method may further include segmenting content (target) data using an object detection algorithm.
  • a method in which a user directly selects a part to be changed may be applied.
  • a portion of the content data to be changed to the style of the style data is selected (eg, by dragging a specific area with a mouse).
  • the same selection is made in the style data corresponding to the region selected in the content data, and the selected region is used as a style.
  • you can edit the selection area if you want to use a different area in the style data, you can edit the selection area.
  • an amplified description will be made with reference to FIG. 3 .
  • FIG. 3 is a diagram illustrating a method of changing a style by selecting a specific area of a speaker.
  • the style of the part is changed as shown in (C). That is, if you want to convert (A) the style part (large and small speaker part) in the speaker body and (B) the speaker body to the background (content) only the style part, as described above, the user selects a specific part with the mouse. If the included area is selected, as in (C), (B) the speaker body is used as the background (content) and (A) the style of the speaker (large and small speaker parts) is converted. In this case, the non-characteristic background is not converted.
  • a specific part eg, a speaker part
  • a mapping relationship between the feature maps is calculated during the image conversion process (step S202).
  • a plurality of pairs of visualization maps may be simultaneously modified by visualizing and modifying the visualization map in a polygonal form or by providing a plurality of mapping areas at the same time.
  • the visualization map may be modified by exchanging a characteristic map of a mapping area between content (target) data and style (reference) data.
  • an editing function for changing the image to select a different area in the style image may be added.
  • N simple closed curves are drawn from the content data and the style data, respectively. Then, each selected area in the content image according to the order of drawing the closing curve transforms the image according to the style selected in the style image.
  • an amplified description will be made with reference to FIG. 4 .
  • FIG. 4 is a diagram illustrating division of a content image into multi-area and converting the divided multi-area into multi-style in a style image.
  • this is a method in which there are N areas that the user wants to convert in the content image, and the N areas are converted into N styles in the style image.
  • N closed curves simple closed curves
  • N self-intersections as shown in (C) are drawn respectively.
  • the visualization map analysis method for improving image conversion performance calculates the mapping relationship between characteristic maps during the image conversion process according to the execution of the image conversion algorithm to extract the visualization map, and the extracted visualization map It has the advantage of finally being able to convert it into a desired shape image by modifying it.
  • the visualization map analysis method for improving image conversion performance of the present invention can be applied not only to art image conversion but also photo image conversion.

Abstract

The present invention relates to a method for analyzing a visualization map for the improvement of an image transform performance, the method comprising the steps of: receiving at least one image as an input, and extracting respective feature maps by means of the performance of an image transform algorithm; calculating the mapping relationship between the feature maps, during an image transform step; extracting a visualization map on the basis of the calculated mapping relationship; and modifying the extracted visualization map so as to finally transform into an image having a desired shape. According to the present invention described above, a visualization map can be extracted by calculating the mapping relationship between feature maps, during an image transform step according to the performance of an image transform algorithm, and the extracted visualization map can be modified to finally transform into an image having a desired shape.

Description

이미지 변환 성능 개선을 위한 시각화 맵 분석 방법Visualization Map Analysis Method to Improve Image Conversion Performance
본 발명은 시각화 맵(Visualization map) 분석 방법에 관한 것으로서, 더 상세하게는 인공지능을 이용한 이미지 변환에 있어서, 이미지 변환 알고리즘을 도입함으로써 최종적으로 원하는 형태의 이미지로 변환을 가능하게 하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법에 관한 것이다.The present invention relates to a visualization map analysis method, and more particularly, in image conversion using artificial intelligence, by introducing an image conversion algorithm, image conversion performance improvement that enables conversion into a desired image in the end It relates to a visualization map analysis method for
일반적으로 딥러닝(Deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고 방식을 컴퓨터에게 가르치는 기계학습의 한 분야이다.In general, deep learning is defined as a set of machine learning algorithms that attempt high-level abstraction through a combination of several nonlinear transformation methods. .
어떠한 데이터가 있을 때 이를 컴퓨터가 인식할 수 있는 형태(예를 들면, 이미지의 경우 픽셀 정보를 열 벡터로 표현하는 툴)로 표현하고, 이를 학습에 적용하기 위해 많은 연구가 진행되고 있다.When there is some data, many studies are being conducted to express it in a form that a computer can recognize (eg, a tool that expresses pixel information as a column vector in the case of an image) and apply it to learning.
DNN(deep neural networks), CNN(convolutional neural network), RNN(recurrent neural network) 등과 같은 다양한 딥러닝 기법들이 음성 신호 처리, 자연 언어 처리, 이미지(영상) 처리 등의 분야에 적용되어 우수한 성능의 응용프로그램들이 개발되고 있다.Various deep learning techniques such as deep neural networks (DNN), convolutional neural network (CNN), and recurrent neural network (RNN) have been applied to fields such as speech signal processing, natural language processing, and image (video) processing, resulting in excellent performance applications Programs are being developed.
신경 스타일 전이(neural style transfer)는 도 1에 도시된 바와 같이, 이미지 원천 소스를 입력받아 CNN(110)을 이용하여 추출한 특성 맵(feature map)으로부터 이미지를 복원(또는 새로운 이미지를 생성)하는 것으로, 이미지 A와 이미지 B을 합성해서 새로운 이미지 콘텐츠 C를 만들어낸다.As shown in FIG. 1, neural style transfer is to restore an image (or create a new image) from a feature map extracted using the CNN 110 by receiving an image source source. , to create new image content C by synthesizing image A and image B.
이상과 같은 일련의 과정에서, 신경 스타일 전이에서 특성(특징)을 추출할 때 강력한 위치 선호도로 인해 성능(스타일 표현력)이 저하되는 문제가 있다. 일반적으로 스타일의 표현력은 사용자의 주관적 판단에 의해 평가된다. 그러나 사용자마다 판단 기준이 각각 달라 평가 결과에 대한 신뢰성을 보장하기가 어렵다. 따라서, 스타일의 표현력에 대한 주관적 판단을 좀 더 객관적으로 정량화하고, 설명이 가능하도록 할 필요가 있다.In the above series of processes, there is a problem in that performance (style expression power) is deteriorated due to strong position preference when extracting characteristics (features) from neural style transition. In general, the expressive power of a style is evaluated by the user's subjective judgment. However, it is difficult to guarantee the reliability of the evaluation results because each user has different criteria for judgment. Therefore, it is necessary to more objectively quantify and explain the subjective judgment on the expressive power of style.
한편, 한국 공개특허공보 제10-2019-0062481호(특허문헌 1)에는 CNN을 실행하기 위한 시스템에 관해 개시되어 있는바, 이에 따른 CNN을 실행하기 위한 시스템은 하드웨어 프로세서가 콘볼루션 계층의 입력 활성화 맵들을 수신하고 ― 입력 활성화 맵들은 기본 입력 활성화 맵 레이아웃임 ―, 입력 활성화 맵들의 픽셀 값들을 상기 기본 입력 활성화 맵 레이아웃으로부터, 입력 활성화 맵 픽셀들의 복수의 클러스터들을 포함하는 인터리빙된(interleaved) 입력 활성화 맵 레이아웃으로 재정렬하며, 복수의 커널 타일들 및 상기 입력 활성화 맵 픽셀들의 복수의 클러스터들로부터 콘볼루션 계층의 출력 활성화 맵들을 결정하도록 실행 가능한 명령들에 의해 프로그래밍되고, 상기 출력 활성화 맵들은 출력 활성화 맵 픽셀들의 복수의 클러스터들을 포함하는 인터리빙된 출력 활성화 맵 레이아웃으로 구성된 것을 특징으로 한다.On the other hand, Korean Patent Application Laid-Open No. 10-2019-0062481 (Patent Document 1) discloses a system for executing a CNN, and the system for executing the CNN according to the hardware processor activates the input of the convolutional layer. Receive maps, wherein the input activation maps are a default input activation map layout, and extract pixel values of input activation maps from the default input activation map layout, an interleaved input activation comprising a plurality of clusters of input activation map pixels. reorder into a map layout, programmed by executable instructions to determine output activation maps of a convolutional layer from a plurality of kernel tiles and a plurality of clusters of input activation map pixels, wherein the output activation maps are output activation maps characterized in that it consists of an interleaved output activation map layout comprising a plurality of clusters of pixels.
이상과 같은 특허문헌 1의 경우, 콘볼루션 계층의 입력 활성화 맵들의 픽셀 값들은 입력 활성화 맵 픽셀들의 복수의 클러스터들을 포함하는 인터리빙된 레이아웃으로 재정렬될 수 있고, 출력 활성화 맵들은 입력 활성화 맵 픽셀들의 클러스터들 및 커널들을 사용하여 타일 단위로 결정될 수 있는 장점이 있기는 하나, 콘텐츠 특성 맵과 스타일 특성 맵 사이의 매핑 관계를 계산하여 활성화 맵(확률 맵 등)으로 추출하고, 추출된 활성화 맵을 수정하는 기능은 없어 원치않는 스타일 영역을 참조한 경우, 이를 수정할 수 없는 문제점을 내포하고 있다.In the case of Patent Document 1 as described above, pixel values of the input activation maps of the convolutional layer may be rearranged into an interleaved layout including a plurality of clusters of input activation map pixels, and the output activation maps are clusters of input activation map pixels Although it has the advantage that it can be determined on a tile-by-tile basis using fields and kernels, it is necessary to calculate the mapping relationship between the content characteristic map and the style characteristic map, extract it as an activation map (probability map, etc.), and modify the extracted activation map. Since there is no function, if an unwanted style area is referenced, it has a problem that it cannot be corrected.
본 발명은 이상과 같은 사항을 종합적으로 감안하여 창출된 것으로서, 이미지 변환 알고리즘의 수행에 따른 이미지 변환 과정 중에 특성맵들 간의 매핑 관계를 계산하여 시각화 맵을 추출하고, 추출된 시각화 맵을 수정함으로써 최종적으로 원하는 형태의 이미지로 변환을 가능하게 하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법을 제공함에 그 목적이 있다.The present invention was created in consideration of the above, and during the image conversion process according to the execution of the image conversion algorithm, a visualization map is extracted by calculating the mapping relationship between the characteristic maps, and the extracted visualization map is modified. The purpose of this is to provide a visualization map analysis method for improving image conversion performance that enables conversion to an image of a desired shape.
상기의 목적을 달성하기 위하여 본 발명에 따른 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법은,In order to achieve the above object, a visualization map analysis method for improving image conversion performance according to the present invention,
a) 적어도 하나 이상의 이미지를 입력 받아 이미지 변환 알고리즘의 수행에 의해 각각의 특성 맵을 추출하는 단계와;a) receiving at least one image and extracting each characteristic map by performing an image conversion algorithm;
b) 상기 이미지 변환 과정 중에 상기 특성 맵들 간의 매핑 관계를 계산하는 단계와;b) calculating a mapping relationship between the feature maps during the image transformation process;
c) 상기 계산된 매핑 관계를 바탕으로 시각화(visualization) 맵을 추출하는 단계; 및c) extracting a visualization map based on the calculated mapping relationship; and
d) 상기 추출된 시각화 맵을 수정함으로써 최종적으로 원하는 형태의 이미지로 변환할 수 있도록 하는 단계를 포함하는 점에 그 특징이 있다.d) by modifying the extracted visualization map, it is characterized in that it includes the step of finally converting the image into a desired shape.
여기서, 상기 단계 b)에서 상기 특성 맵들 간의 매핑 관계를 계산함에 있어서, 한 개의 기준 이미지의 특성 맵에서 특정 영역을 설정하고, 설정된 각 영역에 상기 기준 이미지 외의 나머지 특성 맵의 특정 영역을 매핑하여 시각화 해줄 수 있다.Here, in calculating the mapping relationship between the characteristic maps in step b), a specific region is set in the characteristic map of one reference image, and a specific region of the other characteristic maps other than the reference image is mapped to each set region for visualization can do it
또한, 상기 단계 a)에서 상기 이미지 변환 알고리즘이 스타일 전이 알고리즘일 때, 컨텐츠 이미지의 피처 맵(feature map)과 스타일 이미지의 피처 맵 간의 유사도를 계산하고, 콘텐츠(타겟) 데이터에서 선택한 부분에 사용된 스타일(참조) 영역을 시각화 할 수 있다.In addition, when the image conversion algorithm is a style transfer algorithm in step a), the similarity between the feature map of the content image and the feature map of the style image is calculated, and the content (target) data is used for the selected part. You can visualize the style (reference) area.
또한, 상기 단계 a)에서 상기 이미지 변환 알고리즘이 GAN 기반의 Image to Image translation일 때, 셀프 어텐션(self attention) GAN을 이용하여 유사도를 계산하여, 콘텐츠(타겟) 데이터에서 선택한 부분에 사용된 스타일(참조) 영역을 시각화할 수 있다.In addition, when the image conversion algorithm is GAN-based Image to Image translation in step a), the similarity is calculated using the self-attention GAN, and the style used for the selected part in the content (target) data ( See) area can be visualized.
또한, 상기 단계 a) 이전에, 사전 훈련된 분류 머신 러닝 모델을 활용하여 콘텐츠(타겟) 데이터를 분류하는 단계를 더 포함할 수 있다.In addition, prior to step a), the method may further include classifying content (target) data using a pre-trained classification machine learning model.
이때, 상기 콘텐츠(타겟) 데이터가 사진인 경우, 상기 사전 훈련된 분류 머신 러닝 모델을 활용하여 콘텐츠(타겟) 데이터를 분류하는 단계 이전에 시맨틱 분할(semantic segmentation) 또는 물체인식(Object Detection) 알고리즘으로 콘텐츠(타겟) 데이터를 분할하는 단계를 더 포함할 수 있다.At this time, if the content (target) data is a photo, semantic segmentation or The method may further include segmenting content (target) data using an object detection algorithm.
또한, 상기 단계 d)에서 상기 추출된 시각화 맵을 수정함에 있어서, 시각화 맵을 다각형 형태로 시각화하여 수정하거나, 다수의 매핑 영역을 동시에 제공함으로써 여러 쌍의 시각화 맵을 동시에 수정할 수도 있다.In addition, in modifying the extracted visualization map in step d), the visualization map may be visualized in a polygonal form and modified, or several pairs of visualization maps may be modified simultaneously by providing a plurality of mapping areas at the same time.
또한, 상기 단계 d)에서 상기 추출된 시각화 맵을 수정함에 있어서, 콘텐츠(타겟) 데이터와 스타일(참조) 데이터 간의 매핑 영역의 특성맵을 교환함으로써 시각화 맵을 수정할 수도 있다.In addition, in modifying the extracted visualization map in step d), the visualization map may be modified by exchanging the characteristic map of the mapping area between the content (target) data and the style (reference) data.
이때, 상기 콘텐츠(타겟) 데이터와 스타일(참조) 데이터에서 각각 N개의 단순 폐쇄 곡선(simple closed curve)을 그리는 단계; 및 At this time, drawing N simple closed curves in the content (target) data and style (reference) data, respectively; and
상기 각각 폐쇄 곡선을 그릴 때의 순서에 따라 콘텐츠 이미지 내에 선택된 영역은 스타일 이미지 내에 선택된 스타일을 따라서 이미지를 변환하는 단계를 더 포함할 수 있다.The method may further include transforming the image according to the style selected in the style image for the region selected in the content image according to the order of drawing each of the closed curves.
이와 같은 본 발명에 의하면, 이미지 변환 알고리즘의 수행에 따른 이미지 변환 과정 중에 특성맵들 간의 매핑 관계를 계산하여 시각화 맵을 추출하고, 추출된 시각화 맵을 수정함으로써 최종적으로 원하는 형태의 이미지로 변환할 수 있는 장점이 있다.According to the present invention, it is possible to extract a visualization map by calculating the mapping relationship between the characteristic maps during the image conversion process according to the execution of the image conversion algorithm, and finally convert the image into a desired shape by modifying the extracted visualization map. there are advantages to
도 1은 신경 스타일 전이에 기반하여 원천 이미지에 대해 CNN을 이용하여 생성한 특성 맵으로부터 새로운 이미지를 생성하는 개요를 나타낸 도면이다.1 is a diagram illustrating an overview of generating a new image from a feature map generated by using a CNN for an original image based on neural style transition.
도 2는 본 발명의 실시예에 따른 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법의 실행 과정을 나타낸 흐름도이다.2 is a flowchart illustrating an execution process of a visualization map analysis method for improving image conversion performance according to an embodiment of the present invention.
도 3은 스피커의 특정 영역을 선택하여 스타일을 변환하는 것을 나타낸 도면이다.3 is a diagram illustrating a method of changing a style by selecting a specific area of a speaker.
도 4는 콘텐츠 이미지를 멀티 영역으로 분할 및 분할된 멀티 영역을 스타일 이미지 내의 멀티 스타일로 변환하는 것을 나타낸 도면이다.4 is a diagram illustrating division of a content image into multi-area and converting the divided multi-area into multi-style in a style image.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.The terms or words used in the present specification and claims should not be construed as limited to their ordinary or dictionary meanings, and the inventor may appropriately define the concept of the term in order to best describe his invention. Based on the principle, it should be interpreted as meaning and concept consistent with the technical idea of the present invention.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when a part "includes" a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as “…unit”, “…group”, “module”, and “device” described in the specification mean a unit that processes at least one function or operation, which is hardware or software or a combination of hardware and software. can be implemented as
이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
여기서, 본 발명의 실시예에 대하여 본격적으로 설명하기에 앞서, 본 발명에 대한 이해를 돕기 위해 본 발명에 도입되는 이미지 스타일 전이(style transfer)에 대해 먼저 간략히 설명해 보기로 한다.Here, before describing the embodiment of the present invention in earnest, an image style transfer introduced in the present invention will be briefly described first to help the understanding of the present invention.
도 1은 신경 스타일 전이에 기반하여 원천 이미지에 대해 CNN을 이용하여 생성한 특성 맵으로부터 새로운 이미지를 생성하는 개요를 나타낸 도면이다.1 is a diagram illustrating an overview of generating a new image from a feature map generated by using a CNN for an original image based on neural style transition.
도 1을 참조하면, 어떤 임의의 원천 이미지(예컨대, 이미지 A, B)가 제공되면, 컴퓨터 시스템은 CNN(convolutional neural network; 합성곱 신경망)(110)을 이용하여 특성 맵을 추출한다. 즉, 원천 이미지 A, B에 대한 각각의 특성 맵을 추출하는 것이다. 이렇게 원천 이미지에 대한 특성 맵을 추출한 후, 최종적으로 그 추출된 특성 맵을 이용하여 이미지 스타일 전이 기법을 토대로 새로운 하나의 이미지(이미지 콘텐츠 C)를 생성한다.Referring to FIG. 1 , if any arbitrary source images (eg, images A and B) are provided, a computer system extracts a feature map using a convolutional neural network (CNN) 110 . That is, each characteristic map for the source images A and B is extracted. After extracting the feature map for the original image in this way, finally, using the extracted feature map, a new image (image content C) is generated based on the image style transfer technique.
이상과 같은 일련의 과정에서 이미지를 하나의 벡터
Figure PCTKR2021009071-appb-I000001
로 표현하면, CNN 모델에서 N 개의 필터가 있을 때, 이미지의 각 픽셀을 필터에 통과시킨 결과로 이루어진 행렬
Figure PCTKR2021009071-appb-I000002
를 정의할 수 있다. 여기서
Figure PCTKR2021009071-appb-I000003
를 이용하여 Gram 행렬
Figure PCTKR2021009071-appb-I000004
이 정의된다.
In a series of processes as above, the image is converted into a single vector.
Figure PCTKR2021009071-appb-I000001
Expressed as , when there are N filters in the CNN model, a matrix consisting of the result of passing each pixel of the image through the filter
Figure PCTKR2021009071-appb-I000002
can be defined. here
Figure PCTKR2021009071-appb-I000003
Gram matrix using
Figure PCTKR2021009071-appb-I000004
This is defined
이때
Figure PCTKR2021009071-appb-I000005
번째 레이어에서 손실 함수(loss function)는 다음과 같이 정의된다.
At this time
Figure PCTKR2021009071-appb-I000005
In the second layer, a loss function is defined as follows.
Figure PCTKR2021009071-appb-I000006
Figure PCTKR2021009071-appb-I000006
그리고 콘텐트 손실(content loss)과 스타일 손실(style loss)은 각각 다음과 같이 정의된다.And content loss and style loss are respectively defined as follows.
Figure PCTKR2021009071-appb-I000007
Figure PCTKR2021009071-appb-I000007
Figure PCTKR2021009071-appb-I000008
Figure PCTKR2021009071-appb-I000008
여기서,
Figure PCTKR2021009071-appb-I000009
은 손실에 대한 각 레이어의 원인 제공에 관한 가중 계수를 나타낸다.
here,
Figure PCTKR2021009071-appb-I000009
denotes the weighting coefficients for the contribution of each layer to the loss.
또한, 콘텐트 손실(content loss)과 스타일 손실(style loss)을 가중합한 토탈 손실(total loss)은 다음과 같이 정의된다.In addition, a total loss obtained by weighting a content loss and a style loss is defined as follows.
Figure PCTKR2021009071-appb-I000010
Figure PCTKR2021009071-appb-I000010
이상과 같은 토탈 손실(total loss)은 콘텐트 손실과 스타일 손실 간의 하나의 선형 조합이다.The total loss as described above is a linear combination between content loss and style loss.
그러면, 이하에서는 이상을 바탕으로 본 발명의 실시예에 대하여 설명해 보기로 한다.Then, in the following, an embodiment of the present invention will be described based on the above.
도 2는 본 발명의 실시예에 따른 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법의 실행 과정을 나타낸 흐름도이다.2 is a flowchart illustrating an execution process of a visualization map analysis method for improving image conversion performance according to an embodiment of the present invention.
도 2를 참조하면, 본 발명의 실시예에 따른 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법은, 먼저 적어도 하나 이상의 이미지를 입력 받아 이미지 변환 알고리즘의 수행에 의해 각각의 특성 맵을 추출한다(단계 S201). 여기서, 상기 이미지 변환 알고리즘이 스타일 전이 알고리즘일 때, 컨텐츠 이미지의 피처 맵 (feature map)과 스타일 이미지의 피처 맵 간의 유사도를 계산하고, 콘텐츠(타겟) 데이터에서 선택한 부분에 사용된 스타일(참조) 영역을 시각화 할 수 있다.Referring to FIG. 2 , the visualization map analysis method for improving image conversion performance according to an embodiment of the present invention first receives at least one image and extracts each characteristic map by performing an image conversion algorithm (step S201) ). Here, when the image conversion algorithm is a style transfer algorithm, the similarity between the feature map of the content image and the feature map of the style image is calculated, and the style (reference) region used for the selected part in the content (target) data. can be visualized.
또한, 상기 이미지 변환 알고리즘이 GAN 기반의 Image to Image translation일 때, 셀프 어텐션(self attention) GAN 알고리즘을 이용하여 유사도를 계산하여, 콘텐츠(타겟) 데이터에서 선택한 부분에 사용된 스타일(참조) 영역을 시각화할 수 있다.In addition, when the image conversion algorithm is GAN-based Image to Image translation, the similarity is calculated using the self-attention GAN algorithm, and the style (reference) area used for the selected part in the content (target) data is selected. can be visualized.
여기서, 상기 셀프 어텐션 GAN(self attention generative adversarial networks; SAGAN) 알고리즘은 self-attention이라는 방법을 GAN(generative adversarial networks)에 이용하여 기존 CNN(convolutional neural network) 방식의 지역적인 컨벌루션(convolution) 구조를 보완한 방식이다. 이와 같은 셀프 어텐션 GAN(self attention generative adversarial networks; SAGAN)에 대해서는 논문 "Zhang, H.; Goodfellow, I.; Metaxas, D.; Odena, A. Self-Attention generative adversarial networks. In Proceedings of the 36th International Conference on Machine Learning; Chaudhuri, K., Salakhutdinov, R., Eds.; PMLR: Long Beach, CA, USA, 2019; Volume 97, pp. 7354-7363."에 자세히 설명되어 있으므로, 그것을 참조하는 것으로 갈음하기로 하고, 본 실시예에서는 이에 대한 상세한 설명은 생략하기로 한다.Here, the self-attention generative adversarial networks (SAGAN) algorithm supplements the local convolution structure of the existing convolutional neural network (CNN) method by using a method called self-attention in generative adversarial networks (GAN). one way For such self-attention generative adversarial networks (SAGAN), the paper "Zhang, H.; Goodfellow, I.; Metaxas, D.; Odena, A. Self-Attention generative adversarial networks. In Proceedings of the 36th International Conference on Machine Learning; Chaudhuri, K., Salakhutdinov, R., Eds.; PMLR: Long Beach, CA, USA, 2019; Volume 97, pp. 7354-7363." Hereinafter, a detailed description thereof will be omitted in this embodiment.
또한, 상기 단계 S201 이전에, 사전 훈련된 분류 머신 러닝 모델을 활용하여 콘텐츠(타겟) 데이터를 분류하는 단계를 더 포함할 수 있다.In addition, prior to step S201, the method may further include classifying content (target) data using a pre-trained classification machine learning model.
이때, 상기 콘텐츠(타겟) 데이터가 사진인 경우, 상기 사전 훈련된 분류 머신 러닝 모델을 활용하여 콘텐츠(타겟) 데이터를 분류하는 단계 이전에 시맨틱 분할(semantic segmentation) 또는 물체인식(Object Detection) 알고리즘으로 콘텐츠(타겟) 데이터를 분할하는 단계를 더 포함할 수 있다.At this time, if the content (target) data is a photo, semantic segmentation or The method may further include segmenting content (target) data using an object detection algorithm.
또한, 이상에서 설명한 바와 같은 일련의 방식과는 다른 방식으로서, 사용자가 변경하고 싶은 부분을 직접 선택하는 방식이 적용될 수도 있다.Also, as a method different from the series of methods described above, a method in which a user directly selects a part to be changed may be applied.
즉, 콘텐츠 데이터에서 스타일 데이터의 스타일로 변경하고 싶은 부분을 선택(예를 들면, 마우스로 특정 영역을 드래그)한다. 그리고 콘텐츠 데이터에서 선택된 영역에 대응하여 스타일 데이터에서 동일하게 선택되어, 선택된 영역을 스타일로 사용한다. 이때, 만약 스타일 데이터에서 다른 영역을 사용하고 싶은 경우, 선택 영역을 수정할 수 있다. 이상과 관련하여 도 3을 참조하여 부연 설명을 해보기로 한다.That is, a portion of the content data to be changed to the style of the style data is selected (eg, by dragging a specific area with a mouse). In addition, the same selection is made in the style data corresponding to the region selected in the content data, and the selected region is used as a style. At this time, if you want to use a different area in the style data, you can edit the selection area. In relation to the above, an amplified description will be made with reference to FIG. 3 .
도 3은 스피커의 특정 영역을 선택하여 스타일을 변환하는 것을 나타낸 도면이다.3 is a diagram illustrating a method of changing a style by selecting a specific area of a speaker.
도 3의 (A) 및 (B)와 같이, 사용자가 마우스로 특정 부분(예컨대, 스피커 부분)이 포함된 영역을 선택하면, (C)와 같이 그 부분의 스타일을 변환하게 된다. 즉, (A) 스피커 본체에서의 스타일 부분(대, 소 스피커 부분)을 (B) 스피커 본체를 배경(콘텐츠)으로 스타일 부분만 변환하고자 할 경우, 위의 설명과 같이 사용자가 마우스로 특정 부분이 포함된 영역을 선택하면, (C)와 같이 (B) 스피커 본체를 배경(콘텐츠)으로 하면서 (A) 스피커의 스타일(대, 소 스피커 부분)로 변환하게 되는 것이다. 이때, 특징적이지 않은 배경은 변환되지 않는다.As shown in FIGS. 3A and 3B , when a user selects a region including a specific part (eg, a speaker part) with a mouse, the style of the part is changed as shown in (C). That is, if you want to convert (A) the style part (large and small speaker part) in the speaker body and (B) the speaker body to the background (content) only the style part, as described above, the user selects a specific part with the mouse. If the included area is selected, as in (C), (B) the speaker body is used as the background (content) and (A) the style of the speaker (large and small speaker parts) is converted. In this case, the non-characteristic background is not converted.
도 3의 (A)와 같이, 사용자가 마우스를 눈/코 등이 포함된 영역을 드래그하거나, (B)와 같이 마우스로 분할된 부분을 선택하면 그 부분의 스타일을 변환하게 된다. 이때, 배경 또는 눈, 코, 입, 귀 등 특징적이지 않은 일반 피부는 변환되지 않는다.As shown in (A) of FIG. 3 , when a user drags a region including eyes/nose, etc. with a mouse or selects a divided part with a mouse as shown in (B), the style of the part is changed. At this time, normal skin that is not characteristic such as the background or eyes, nose, mouth, and ears is not converted.
한편, 이상과 같이 입력된 이미지에 대하여 이미지 변환 알고리즘의 수행에 의해 각각의 특성 맵이 추출되면, 상기 이미지 변환 과정 중에 상기 특성 맵들 간의 매핑 관계를 계산한다(단계 S202). 여기서, 상기 특성 맵들 간의 매핑 관계를 계산함에 있어서, 한 개의 기준 이미지의 특성 맵에서 특정 영역을 설정하고, 설정된 각 영역에 상기 기준 이미지 외의 나머지 특성 맵의 특정 영역을 매핑하여 시각화 해줄 수 있다.Meanwhile, when each feature map is extracted by performing an image conversion algorithm on the input image as described above, a mapping relationship between the feature maps is calculated during the image conversion process (step S202). Here, in calculating the mapping relationship between the characteristic maps, it is possible to set a specific region in the characteristic map of one reference image, and map a specific region of the other characteristic maps other than the reference image to each set region for visualization.
이후, 상기 계산된 매핑 관계를 바탕으로 시각화(visualization) 맵을 추출한다(단계 S203).Thereafter, a visualization map is extracted based on the calculated mapping relationship (step S203).
그런 다음, 상기 추출된 시각화 맵을 수정함으로써 최종적으로 원하는 형태의 이미지로 변환할 수 있도록 한다(단계 S204). 여기서, 상기 추출된 시각화 맵을 수정함에 있어서, 시각화 맵을 다각형 형태로 시각화하여 수정하거나, 다수의 매핑 영역을 동시에 제공함으로써 여러 쌍의 시각화 맵을 동시에 수정할 수도 있다.Then, by modifying the extracted visualization map, it is finally converted into an image of a desired shape (step S204). Here, in modifying the extracted visualization map, a plurality of pairs of visualization maps may be simultaneously modified by visualizing and modifying the visualization map in a polygonal form or by providing a plurality of mapping areas at the same time.
또한, 상기 추출된 시각화 맵을 수정함에 있어서, 콘텐츠(타겟) 데이터와 스타일(참조) 데이터 간의 매핑 영역의 특성맵을 교환함으로써 시각화 맵을 수정할 수도 있다.In addition, in modifying the extracted visualization map, the visualization map may be modified by exchanging a characteristic map of a mapping area between content (target) data and style (reference) data.
이때, 상기 콘텐츠(타겟) 데이터와 스타일(참조) 데이터에서 각각 N개의 단순 폐쇄 곡선(simple closed curve)을 그리는 단계; 및 상기 각각 폐쇄 곡선을 그릴 때의 순서에 따라 콘텐츠 이미지 내에 선택된 영역은 스타일 이미지 내에 선택된 스타일을 따라서 이미지를 변환하는 단계를 더 포함할 수 있다At this time, drawing N simple closed curves in the content (target) data and style (reference) data, respectively; and transforming the image according to the style selected in the style image for the region selected in the content image according to the order of drawing each of the closed curves.
여기서, 다른 스타일로 이미지를 변환하고 싶은 경우, 스타일 이미지에서 다른 영역을 선택할 수 있도록 변경하는 편집(editing) 기능이 추가될 수 있다.Here, if it is desired to convert the image to a different style, an editing function for changing the image to select a different area in the style image may be added.
또한, 이상과 같은 일련의 과정에서 멀티 영역에 대해 멀티 스타일로 이미지를 변환하는 방식이 적용될 수도 있다.In addition, a method of converting an image into a multi-style for a multi-region in a series of processes as described above may be applied.
즉, 먼저 콘텐츠 데이터와 스타일 데이터에서 각각 N개의 단순 폐쇄 곡선(simple closed curve)을 그린다. 그런 후, 각각 폐쇄 곡선을 그릴 때의 순서에 따라 콘텐츠 이미지 내에 선택된 영역은 스타일 이미지 내에 선택된 스타일을 따라서 이미지를 변환한다. 이와 관련하여 도 4를 참조하여 부연 설명을 해보기로 한다.That is, first, N simple closed curves are drawn from the content data and the style data, respectively. Then, each selected area in the content image according to the order of drawing the closing curve transforms the image according to the style selected in the style image. In this regard, an amplified description will be made with reference to FIG. 4 .
도 4는 콘텐츠 이미지를 멀티 영역으로 분할 및 분할된 멀티 영역을 스타일 이미지 내의 멀티 스타일로 변환하는 것을 나타낸 도면이다.4 is a diagram illustrating division of a content image into multi-area and converting the divided multi-area into multi-style in a style image.
도 4를 참조하면, 이는 콘텐츠 이미지 내에 사용자가 변환하고 싶은 영역이 N 개 있고, 그 N 개의 영역을 스타일 이미지 내에 있는 N 개의 스타일로 변환하는 방법이다.Referring to FIG. 4 , this is a method in which there are N areas that the user wants to convert in the content image, and the N areas are converted into N styles in the style image.
먼저, (A)와 같은 콘텐츠 이미지와 (B)와 같은 스타일 이미지에서, (C)와 같이 각각 N 개의 자기 교차(self intersection)가 없는 폐쇄 곡선(단순 폐쇄 곡선)을 N개를 그린다.First, in the content image as shown in (A) and the style image as shown in (B), N closed curves (simple closed curves) without N self-intersections as shown in (C) are drawn respectively.
그런 후, 각각의 폐쇄 곡선을 그릴 때의 순서에 따라 콘텐츠 이미지 내에 선택된 영역은 스타일 이미지 내에 선택된 스타일을 따라서 (D)와 같이, 이미지 변환을 하게 된다. 따라서, 이와 같은 방식은 이미지 변환을 총 N번 실행하는 것이 된다.Then, according to the order of drawing each closed curve, the area selected in the content image is converted into an image as shown in (D) according to the style selected in the style image. Therefore, in this way, image conversion is performed N times in total.
이상의 설명과 같이, 본 발명에 따른 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법은 이미지 변환 알고리즘의 수행에 따른 이미지 변환 과정 중에 특성맵들 간의 매핑 관계를 계산하여 시각화 맵을 추출하고, 추출된 시각화 맵을 수정함으로써 최종적으로 원하는 형태의 이미지로 변환할 수 있는 장점이 있다.As described above, the visualization map analysis method for improving image conversion performance according to the present invention calculates the mapping relationship between characteristic maps during the image conversion process according to the execution of the image conversion algorithm to extract the visualization map, and the extracted visualization map It has the advantage of finally being able to convert it into a desired shape image by modifying it.
또한, 이와 같은 본 발명의 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법은 아트(Art) 이미지 변환뿐 아니라 포토(Photo) 이미지 변환에도 적용할 수 있다.In addition, the visualization map analysis method for improving image conversion performance of the present invention can be applied not only to art image conversion but also photo image conversion.
이상, 바람직한 실시 예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.As mentioned above, although the present invention has been described in detail through preferred embodiments, the present invention is not limited thereto, and it is common in the art that various changes and applications can be made without departing from the technical spirit of the present invention. self-explanatory to the technician. Accordingly, the true protection scope of the present invention should be construed by the following claims, and all technical ideas within the equivalent scope should be construed as being included in the scope of the present invention.

Claims (9)

  1. a) 적어도 하나 이상의 이미지를 입력 받아 이미지 변환 알고리즘의 수행에 의해 각각의 특성 맵을 추출하는 단계와;a) receiving at least one image and extracting each characteristic map by performing an image conversion algorithm;
    b) 상기 이미지 변환 과정 중에 상기 특성 맵들 간의 매핑 관계를 계산하는 단계와;b) calculating a mapping relationship between the feature maps during the image transformation process;
    c) 상기 계산된 매핑 관계를 바탕으로 시각화(visualization) 맵을 추출하는 단계; 및c) extracting a visualization map based on the calculated mapping relationship; and
    d) 상기 추출된 시각화 맵을 수정함으로써 최종적으로 원하는 형태의 이미지로 변환할 수 있도록 하는 단계를 포함하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법. d) A visualization map analysis method for improving image conversion performance, comprising the step of modifying the extracted visualization map to finally convert it into an image of a desired shape.
  2. 제1항에 있어서,According to claim 1,
    상기 단계 b)에서 상기 특성 맵들 간의 매핑 관계를 계산함에 있어서, 한 개의 기준 이미지의 특성 맵에서 특정 영역을 설정하고, 설정된 각 영역에 상기 기준 이미지 외의 나머지 특성 맵의 특정 영역을 매핑하여 시각화 해주는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.In calculating the mapping relationship between the characteristic maps in step b), a specific region is set in the characteristic map of one reference image, and a specific region of the other characteristic maps other than the reference image is mapped to each set region and visualized Visualization map analysis method to improve transformation performance.
  3. 제1항에 있어서,According to claim 1,
    상기 단계 a)에서 상기 이미지 변환 알고리즘이 스타일 전이 알고리즘일 때, 컨텐츠 이미지의 피처 맵(feature map)과 스타일 이미지의 피처 맵 간의 유사도를 계산하고, 콘텐츠(타겟) 데이터에서 선택한 부분에 사용된 스타일(참조) 영역을 시각화 하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.When the image conversion algorithm is a style transfer algorithm in step a), the similarity between the feature map of the content image and the feature map of the style image is calculated, and the style used for the selected part in the content (target) data ( See) Visualization map analysis method to improve image transformation performance to visualize regions.
  4. 제1항에 있어서,According to claim 1,
    상기 단계 a)에서 상기 이미지 변환 알고리즘이 GAN(generative adversarial networks) 기반의 Image to Image translation일 때, 셀프 어텐션(self attention) GAN을 이용하여 유사도를 계산하여, 콘텐츠(타겟) 데이터에서 선택한 부분에 사용된 스타일(참조) 영역을 시각화 하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.When the image conversion algorithm in step a) is image-to-image translation based on generative adversarial networks (GAN), the similarity is calculated using self-attention GAN and used for the selected part in the content (target) data A visualization map analysis method to improve image transformation performance to visualize the styled (reference) regions.
  5. 제3항 또는 제4항에 있어서,5. The method of claim 3 or 4,
    상기 단계 a) 이전에, 사전 훈련된 분류 머신 러닝 모델을 활용하여 콘텐츠(타겟) 데이터를 분류하는 단계를 더 포함하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.Visualization map analysis method for improving image transformation performance, further comprising the step of classifying content (target) data using a pre-trained classification machine learning model prior to step a).
  6. 제5항에 있어서,6. The method of claim 5,
    상기 콘텐츠(타겟) 데이터가 사진인 경우, 상기 사전 훈련된 분류 머신 러닝 모델을 활용하여 콘텐츠(타겟) 데이터를 분류하는 단계 이전에 시맨틱 분할(semantic segmentation) 또는 물체인식(Object Detection) 알고리즘으로 콘텐츠(타겟) 데이터를 분할하는 단계를 더 포함하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.When the content (target) data is a picture, semantic segmentation or A visualization map analysis method for improving image conversion performance, further comprising the step of segmenting content (target) data with an object detection algorithm.
  7. 제1항에 있어서,According to claim 1,
    상기 단계 d)에서 상기 추출된 시각화 맵을 수정함에 있어서, 시각화 맵을 다각형 형태로 시각화하여 수정하거나, 다수의 매핑 영역을 동시에 제공함으로써 여러 쌍의 시각화 맵을 동시에 수정하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.In modifying the visualization map extracted in step d), visualization for improving image conversion performance of modifying the visualization map in a polygonal form or modifying several pairs of visualization maps simultaneously by providing a plurality of mapping areas at the same time Map analysis method.
  8. 제1항에 있어서,According to claim 1,
    상기 단계 d)에서 상기 추출된 시각화 맵을 수정함에 있어서, 콘텐츠(타겟) 데이터와 스타일(참조) 데이터 간의 매핑 영역의 특성맵을 교환함으로써 시각화 맵을 수정하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.In revising the extracted visualization map in step d), a visualization map analysis method for improving image conversion performance to modify the visualization map by exchanging the characteristic map of the mapping area between the content (target) data and the style (reference) data .
  9. 제8항에 있어서,9. The method of claim 8,
    상기 콘텐츠(타겟) 데이터와 스타일(참조) 데이터에서 각각 N개의 단순 폐쇄 곡선(simple closed curve)을 그리는 단계; 및 drawing N simple closed curves in the content (target) data and style (reference) data, respectively; and
    상기 각각 폐쇄 곡선을 그릴 때의 순서에 따라 콘텐츠 이미지 내에 선택된 영역은 스타일 이미지 내에 선택된 스타일을 따라서 이미지를 변환하는 단계를 더 포함하는 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법.The visualization map analysis method for improving image conversion performance further comprising the step of converting an image according to the style selected in the style image for the region selected in the content image according to the order of drawing each of the closed curves.
PCT/KR2021/009071 2020-07-20 2021-07-14 Method for analyzing visualization map for improvement of image transform performance WO2022019566A1 (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2020-0089536 2020-07-20
KR20200089536 2020-07-20
KR20200089537 2020-07-20
KR10-2020-0089537 2020-07-20
KR1020210091802A KR20220011090A (en) 2020-07-20 2021-07-13 Visualization map analysis method for performance improvement of image translation
KR10-2021-0091802 2021-07-13

Publications (1)

Publication Number Publication Date
WO2022019566A1 true WO2022019566A1 (en) 2022-01-27

Family

ID=79728825

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/009071 WO2022019566A1 (en) 2020-07-20 2021-07-14 Method for analyzing visualization map for improvement of image transform performance

Country Status (1)

Country Link
WO (1) WO2022019566A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200151849A1 (en) * 2017-04-20 2020-05-14 Microsoft Technology Licensing, Llc Visual style transfer of images
KR20200065434A (en) * 2018-11-30 2020-06-09 주식회사 인공지능연구원 Apparatus for Providing Style Palette/Brush
KR20200065433A (en) * 2018-11-30 2020-06-09 주식회사 인공지능연구원 Style Trasnfer Model and Apparatus for Style Trasnfer of Composite Image based on Photo Montage
US20200226724A1 (en) * 2019-01-11 2020-07-16 Adobe Inc. Transferring Image Style to Content of a Digital Image

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200151849A1 (en) * 2017-04-20 2020-05-14 Microsoft Technology Licensing, Llc Visual style transfer of images
KR20200065434A (en) * 2018-11-30 2020-06-09 주식회사 인공지능연구원 Apparatus for Providing Style Palette/Brush
KR20200065433A (en) * 2018-11-30 2020-06-09 주식회사 인공지능연구원 Style Trasnfer Model and Apparatus for Style Trasnfer of Composite Image based on Photo Montage
US20200226724A1 (en) * 2019-01-11 2020-07-16 Adobe Inc. Transferring Image Style to Content of a Digital Image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GU SHUYANG; CHEN CONGLIANG; LIAO JING; YUAN LU: "Arbitrary Style Transfer with Deep Feature Reshuffle", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 18 June 2018 (2018-06-18), pages 8222 - 8231, XP033473745, DOI: 10.1109/CVPR.2018.00858 *

Similar Documents

Publication Publication Date Title
Zheng et al. Improving visual reasoning through semantic representation
WO2020216227A1 (en) Image classification method and apparatus, and data processing method and apparatus
WO2020062392A1 (en) Signal processing device, signal processing method and related product
WO2019004671A1 (en) Artificial intelligence based malware detection system and method
WO2021155792A1 (en) Processing apparatus, method and storage medium
WO2021147325A1 (en) Object detection method and apparatus, and storage medium
CN107463954B (en) A kind of template matching recognition methods obscuring different spectrogram picture
CN112348036A (en) Self-adaptive target detection method based on lightweight residual learning and deconvolution cascade
CN109712108B (en) Visual positioning method for generating network based on diversity discrimination candidate frame
WO2022131497A1 (en) Learning apparatus and method for image generation, and image generation apparatus and method
CN111985538A (en) Small sample picture classification model and method based on semantic auxiliary attention mechanism
WO2021051987A1 (en) Method and apparatus for training neural network model
WO2021137454A1 (en) Artificial intelligence-based method and system for analyzing user medical information
CN115328319B (en) Intelligent control method and device based on light-weight gesture recognition
CN115546500A (en) Infrared image small target detection method
CN112132815A (en) Pulmonary nodule detection model training method, detection method and device
CN115661246A (en) Attitude estimation method based on self-supervision learning
WO2020192523A1 (en) Translation quality detection method and apparatus, machine translation system, and storage medium
Huang et al. Skin lesion segmentation based on mask R-CNN
WO2022019566A1 (en) Method for analyzing visualization map for improvement of image transform performance
WO2023182702A1 (en) Artificial intelligence diagnosis data processing device and method for digital pathology images
WO2023210914A1 (en) Method for knowledge distillation and model generation
CN115376184A (en) IR image in-vivo detection method based on generation countermeasure network
US20220067992A1 (en) Artificial intelligence techniques for performing image editing operations inferred from natural language requests
CN114169408A (en) Emotion classification method based on multi-mode attention mechanism

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21846091

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 09.06.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21846091

Country of ref document: EP

Kind code of ref document: A1