WO2020130747A1 - 스타일 변환을 위한 영상 처리 장치 및 방법 - Google Patents

스타일 변환을 위한 영상 처리 장치 및 방법 Download PDF

Info

Publication number
WO2020130747A1
WO2020130747A1 PCT/KR2019/018302 KR2019018302W WO2020130747A1 WO 2020130747 A1 WO2020130747 A1 WO 2020130747A1 KR 2019018302 W KR2019018302 W KR 2019018302W WO 2020130747 A1 WO2020130747 A1 WO 2020130747A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
label
reference image
data
style data
Prior art date
Application number
PCT/KR2019/018302
Other languages
English (en)
French (fr)
Inventor
장레이
김예훈
서찬원
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to EP24190826.8A priority Critical patent/EP4432250A2/en
Priority to EP19897670.6A priority patent/EP3886037B1/en
Priority to US17/416,293 priority patent/US11887215B2/en
Publication of WO2020130747A1 publication Critical patent/WO2020130747A1/ko
Priority to US18/524,905 priority patent/US20240095972A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/67Circuits for processing colour signals for matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/73Colour balance circuits, e.g. white balance circuits or colour temperature control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals

Definitions

  • the present disclosure relates to an artificial intelligence (AI) system that simulates functions such as cognition and judgment of the human brain by utilizing machine learning algorithms such as deep learning and its application.
  • AI artificial intelligence
  • the Artificial Intelligence (AI) system is a computer system that realizes human-level intelligence, and unlike the existing Rule-based smart system, the machine learns, judges, and becomes intelligent. As the AI system is used, the recognition rate is improved and the user's taste can be understood more accurately, so the existing Rule-based smart system is gradually being replaced by a deep learning-based AI system.
  • Machine learning Deep learning
  • elemental technologies utilizing machine learning.
  • Machine learning is an algorithm technology that classifies/learns the characteristics of input data by itself
  • element technology is a technology that simulates functions such as cognition and judgment of the human brain by using machine learning algorithms such as deep learning. It consists of technical fields such as understanding, reasoning/prediction, knowledge expression, and motion control.
  • Linguistic understanding is a technology that recognizes and applies/processes human language/characters, and includes natural language processing, machine translation, conversation system, question and answer, and speech recognition/synthesis.
  • Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement.
  • Inference prediction is a technique for logically inferring and predicting information by determining information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge building (data generation/classification), knowledge management (data utilization), and so on.
  • Motion control is a technique for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (behavior control), and the like.
  • An image processing apparatus and method according to an embodiment of the present invention make it a technical task to easily convert a style of an image even if there is no special expertise.
  • an image processing apparatus and method has a technical problem of reducing the capacity of data to be stored in an apparatus that performs style conversion.
  • An image processing method may include: obtaining a label of the first image by inputting the first image into the recognition model; Obtaining reference style data of a target reference image to which the same visual sensitivity label is assigned, from among the reference images to which the visual emotion label is previously assigned, the same as the acquired label; Generating second style data based on the first style data of the first image and the obtained reference style data; And generating a second image based on the generated second style data.
  • the image processing apparatus and method according to an embodiment may easily convert the style of the image even if there is no special expertise.
  • the image processing apparatus and method according to an embodiment may reduce the capacity of data to be stored in an apparatus that performs style conversion.
  • FIG. 1 is a schematic diagram for describing an operation of an image processing apparatus according to an embodiment.
  • FIG. 2 is a flowchart illustrating an image processing method according to an embodiment.
  • 3 is an exemplary diagram showing a label obtained by inputting a first image into a recognition model and a probability value of the label.
  • FIG. 4 is an exemplary diagram illustrating a visual emotion label assigned to reference images.
  • FIG. 5 is a diagram for explaining a method of determining a target reference image among reference images.
  • FIG. 6 is a diagram for explaining a method of determining a target reference image among reference images.
  • FIG. 7 is an exemplary diagram illustrating a thumbnail image displayed on a display.
  • FIG. 8 is a diagram for explaining a method of generating a second image based on the first image.
  • FIG. 9 is a diagram illustrating in detail the feature extraction model and the feature synthesis model shown in FIG. 8.
  • FIG. 10 is an exemplary diagram illustrating reference image group information displayed on a display.
  • FIG. 11 is a diagram for describing a method in which an image processing apparatus receives data for style conversion from a server.
  • FIG. 12 is a flowchart illustrating an image processing method according to another embodiment.
  • FIG. 13 is a block diagram showing the configuration of an image processing apparatus according to an embodiment.
  • FIG. 14 is a block diagram of the processor shown in FIG. 13.
  • FIG. 15 is a block diagram of a data learning unit shown in FIG. 14.
  • FIG. 16 is a block diagram of the data recognition unit shown in FIG. 14.
  • 17 is a diagram illustrating an example of learning and recognizing data by interworking with a user device and a server according to some embodiments.
  • An image processing method may include: obtaining a label of the first image by inputting the first image into the recognition model; Obtaining reference style data of a target reference image to which the same visual sensitivity label is assigned, from among the reference images to which the visual emotion label is previously assigned, the same as the acquired label; Generating second style data based on the first style data of the first image and the obtained reference style data; And generating a second image based on the generated second style data.
  • the step of acquiring reference style data of the target reference image may include relevance to the first image for at least one candidate reference image to which the same visual sensitivity label is assigned as the label of the first image. Calculating; And selecting the target reference image from the at least one candidate reference image based on the calculated magnitude of the relatedness.
  • acquiring the label of the first image includes acquiring a plurality of labels of the first image and a probability value corresponding to each of the plurality of labels, and calculating the relevance
  • the step of calculating the average of the probability values of the one or more labels for each of the at least one candidate reference image to which the same visual sensitivity label is assigned as one or more of the plurality of labels of the first image is calculated as the relevance. can do.
  • the step of selecting the target reference image may include displaying at least one thumbnail image corresponding to the at least one candidate reference image on a display in an order based on the size of the relevance; And selecting a candidate reference image corresponding to a thumbnail image selected by a user among the at least one thumbnail image as the target reference image.
  • the step of acquiring reference style data of the target reference image is based on the user's selection frequency among at least one candidate reference image to which the same visual sensitivity label is assigned as the label of the first image. And selecting a reference image.
  • the step of acquiring a label of the first image includes acquiring a label of the region of interest by inputting a region of interest in the first image into the recognition model
  • the obtaining of reference style data may include obtaining reference style data of a target reference image to which the same visual sensitivity label as the label of the region of interest is assigned.
  • the step of obtaining reference style data of the target reference image includes: identifying at least one candidate reference image to which the same visual sensitivity label is assigned as the label of the region of interest; Calculating a degree of association with the first image for each of the at least one candidate reference image; And selecting the target reference image from the at least one candidate reference image based on the calculated magnitude of the relatedness.
  • acquiring the label of the first image includes acquiring a plurality of labels of the first image and a probability value corresponding to each of the plurality of labels, and calculating the relevance
  • the step of calculating the average of the probability values of the one or more labels for each of the at least one candidate reference image to which the same visual sensitivity label is assigned as one or more of the plurality of labels of the first image is calculated as the relevance.
  • the probability value of the label of the region of interest may be set to a preset value.
  • the image processing method includes: changing an internal parameter of the recognition model to an internal parameter corresponding to a reference image group selected by a user among a plurality of reference image groups; And inputting the first image into the recognition model in which the internal parameter is changed.
  • the plurality of reference image groups may be classified according to manufacturers of reference images.
  • the image processing method includes: accessing a server and receiving a reference image group list from the server; Receiving at least one reference video group from a user from the reference video group list; And an internal parameter of a recognition model trained based on reference images included in the selected at least one reference image group, reference style data of reference images included in the at least one reference image group, and the at least one reference image group.
  • the method may further include receiving a visual emotion label assigned to reference images included in the server from the server.
  • the image processing method includes: inputting the first image into a feature extraction model to obtain first style data of the first image; And generating, by the feature synthesis model, the second image by generating the second style data.
  • An image processing method may include selecting at least one reference image related to a first image among a plurality of reference images as at least one candidate reference image; Displaying at least one thumbnail image corresponding to the at least one candidate reference image on a display; Selecting a candidate reference image corresponding to a thumbnail image selected by a user among the at least one thumbnail image as the target reference image; And generating a second image different from the first image according to the characteristics of the target reference image.
  • An image processing apparatus includes a processor; And a memory for storing a recognition model and at least one program, wherein the processor acquires a label of the first image by inputting a first image to the recognition model as the at least one program is executed, The reference style data of a target reference image to which the same visual sensitivity label is assigned among the reference images pre-allocated with the visual sensitivity label is acquired, and the first style data and the obtained reference style data of the first image are obtained. Based on the, second style data may be generated, and a second image may be generated based on the generated second style data.
  • the processor calculates a degree of association with the first image for each of at least one candidate reference image to which the same visual sensitivity label is assigned as the label of the first image, and the size of the calculated association degree Based on the, the target reference image may be selected from the at least one candidate reference image.
  • the processor acquires a plurality of labels of the first image and probability values corresponding to each of the plurality of labels output from the recognition model, and at least one of a plurality of labels of the first image For each of at least one candidate reference image to which the same visual sensibility label as the label is assigned, an average of probability values of the one or more labels may be calculated with the relevance.
  • the processor displays at least one thumbnail image corresponding to the at least one candidate reference image on a display in an order based on the size of the relevance, and is displayed by a user among the at least one thumbnail image.
  • a candidate reference image corresponding to the selected thumbnail image may be selected as the target reference image.
  • the processor may select the target reference image based on a user's selection frequency among at least one candidate reference image to which the same visual sensitivity label is assigned as the label of the first image.
  • the processor inputs a region of interest in the first image into the recognition model to obtain a label of the region of interest, and the target reference image is assigned the same visual sensitivity label as the label of the region of interest.
  • Reference style data can be obtained.
  • one component when one component is referred to as “connected” or “connected” with another component in the present specification, the one component may be directly connected to or directly connected to the other component, but is specifically opposed It should be understood that, as long as there is no description to be made, it may be connected or connected through another component in the middle.
  • the'first image' refers to an image that is the object of style conversion
  • the'second image' refers to an image generated through style conversion
  • FIG. 1 is a schematic diagram for describing an operation of the image processing apparatus 100 according to an embodiment.
  • the image processing apparatus 100 generates a second image 90 by converting the style of the first image 10.
  • the first image 10 may be an image stored in the image processing apparatus 100 or a preview image recognized through a camera of the image processing apparatus 100.
  • the image processing apparatus 100 may generate a second image 90 by converting the style of the first image 10 according to a style of a reference image that is highly related to the first image 10 among various reference images. .
  • the objects included in the first image 10 and the second image 20 are the same, but the characteristics of the second image 20 (contrast, contrast, viewpoint, tone, white balance, sharpness, histogram, etc.)
  • the characteristics of the first image 10 may be different.
  • The'reference image' may include, for example, an image captured and/or edited by a professional producer. Since it is difficult for the user to photograph an image of the style of the reference image by himself or to edit an existing image, in one embodiment, the second image (90) converted according to the style of the reference image by a user selecting a reference image, etc. ).
  • the image processing apparatus 100 may be implemented as a user device or a server.
  • the user device may include various types of devices, such as a smart phone, a desktop computer, a notebook, and a tablet PC.
  • the operation when the image processing apparatus 100 is implemented as a user device or when implemented as a server will be described later.
  • FIG. 2 is a flowchart illustrating an image processing method according to an embodiment.
  • step S210 the image processing apparatus 100 inputs the first image 10 into the recognition model, and acquires a label of the first image 10 output from the recognition model.
  • the label may be information describing the content of the first image 10.
  • the recognition model may output a label such as'cool sea'.
  • the recognition model may be trained based on reference images to which the visual emotion label is pre-allocated, and the recognition model analyzes the first image 10 to display a label corresponding to the first image 10 among the various visual emotion labels.
  • the recognition model may include, for example, an object recognition deep neural network (DNN).
  • DNN object recognition deep neural network
  • step S220 the image processing apparatus 100 obtains reference style data of a target reference image to which the same visual sensitivity label is assigned as the label of the first image 10 among the reference images to which the visual emotion label is previously allocated.
  • the image processing apparatus 100 identifies at least one candidate reference image to which the same visual sensitivity label is assigned as one or more of the plurality of labels, and , A target reference image may be selected from at least one candidate reference image. A method of selecting a target reference image among at least one candidate reference image will be described later with reference to FIGS. 5 to 7.
  • the reference style data of the target reference image may include at least one of contrast data, contrast data, viewpoint data, tone data, white balance data, sharpness data, histogram data, and feature map of the target reference image.
  • the reference style data of the reference images may be stored in advance in the image processing apparatus 100, and when a target reference image is selected from the reference images, the image processing apparatus 100 obtains reference style data corresponding to the target reference image can do.
  • the image processing apparatus 100 generates second style data based on the first style data of the first image 10 and the reference style data of the target reference image.
  • the second style data is different from the first style data, and may be generated by converting the first style data, or may be newly generated based on the first style data and the reference style data.
  • the image processing apparatus 100 may include at least one of the contrast, viewpoint, tone, white balance, sharpness, histogram and feature map of the first image 10, the contrast, contrast, viewpoint of the target reference image,
  • the second style data may be generated by converting based on at least one of tone, white balance, sharpness, histogram, and feature map.
  • the image processing apparatus 100 may include at least one of the contrast, contrast, viewpoint, tone, white balance, sharpness, histogram and feature map of the first image 10, the contrast, contrast, viewpoint, tone of the target reference image,
  • the second style data may be generated by changing the first style data to be the same or similar to at least one of white balance, sharpness, histogram, and feature map.
  • the image processing apparatus 100 may generate a new feature map based on the feature map of the first image 10 and the reference feature map of the target reference image.
  • the image processing apparatus 100 generates the second image 90 based on the second style data.
  • the image processing apparatus 100 may generate the second image 90 by changing the first image 10 according to the second style data, and the second style data (for example, a feature map) may be DNN (deep). neural network) to generate the second image 90.
  • the second style data for example, a feature map
  • DNN deep neural network
  • FIG 3 is an exemplary diagram showing a label 21 and a probability value 25 of the label 21 obtained by inputting the first image 10 into the recognition model 300.
  • the image processing apparatus 100 inputs the first image 10 into the recognition model 300 and acquires the label 21 of the first image 10 output from the recognition model 300.
  • the label 21 corresponding to the first image 10 may include'beautiful sunset','blue sky','misty cloud', and'dashing ocean wave'.
  • the recognition model 300 may output a probability value 25 corresponding to each label 21.
  • the probability value 25 may be a value indicating how much the first image 10 is related to the label 21. Since the probability value 25 of the label 21 of the first image 10'beautiful sunset' is 90%, it can be seen that the first image 10 has a very high relationship with'beautiful sunset'.
  • the image processing apparatus 100 selects a target reference image to which the same visual sensitivity label as the label of the first image 10 is assigned. As illustrated in FIG. 4, each reference image has a time for explaining the reference image. Emotional label 31 may be assigned.
  • the visual emotion label 31 of'beautiful sunset','blue sky', and'amazing beach' is assigned to the reference image 1, and the visual emotion label of'beautiful sunrise' and'large mountain' to the reference image 2 31 may be allocated.
  • a labels, B labels, and C labels are obtained, and probability values of A labels, B labels, and C labels are 90%, 60%, and 70%, respectively.
  • the image processing apparatus 100 selects a reference image to which the same visual sensitivity label is assigned as one or more of A, B, and C labels as candidate reference images.
  • the visual sensibility labels of candidate reference image 1 are A labels and B labels, which are the same as the A labels and B labels of first image 10
  • the visual sensibility labels of candidate reference images 2 are C labels and D labels, which It can be seen that the C label is the same as the C label of the first image 10.
  • the visual sensitivity labels of the candidate reference image 3 are B labels, C labels, and E labels, of which the B labels and C labels are the same as the B labels and C labels of the first image 10.
  • the image processing apparatus 100 may select a candidate reference image having the highest frequency of user selection among at least one candidate reference image as a target reference image.
  • the image processing apparatus 100 may calculate a degree of association between each of the at least one candidate reference image and the first image 10, and select a target reference image based on the calculated degree of association. .
  • the image processing apparatus 100 may select a candidate reference image having the greatest degree of relevance as a target reference image.
  • the relevance is a value indicating how similar the contents of each candidate reference image and the first image 10 are, and may be calculated based on probability values of labels of the first image 10.
  • the relevance may be calculated as an average of probability values of the same one or more labels for each candidate reference image to which the same visual sensitivity label is assigned as one or more of the labels of the first image 10.
  • a and B labels are assigned to the candidate reference image 1 as common labels.
  • the probability value of the A label is 90% and the probability value of the B label is 60%, these An average of 75% can be calculated with the relevance of candidate reference image 1.
  • the C label is assigned to the candidate reference image 2 as a common label. Since the probability value of the C label in the first image 10 is 70%, 70% may be calculated as the relevance of the candidate reference image 2.
  • the B label and the C label are assigned as common labels. In the first image 10, since the probability value of the B label is 60% and the probability value of the C label is 70%, the average of them is 65% of the phosphorus can be calculated with the relevance of the candidate reference image 3.
  • the image processing apparatus 100 may select a candidate reference image (the first candidate reference image in FIG. 5) having the highest relevance among the candidate reference images as a target reference image.
  • the degree of relevance may be calculated based on the number of visually sensitive labels that are the same as those of the first image 10 among the visually sensitive labels of each candidate reference image.
  • two visual emotion labels identical to the labels of the first image 10 are assigned to the candidate reference image 1 and the candidate reference image 3
  • the labels of the first image 10 are assigned to the candidate reference image 2 Since the same one visual sensitivity label is assigned, the lowest relevance for candidate reference image 2 may be calculated.
  • a higher relevance may be calculated with respect to a candidate reference image having a higher probability value corresponding to the same visual sensitivity label as the label of the first image 10 of the candidate reference image 1 and the candidate reference image 3.
  • the image processing apparatus 100 may select a target reference image by further considering the label of the area of interest. For example, when the user selects a part of the first image 10 displayed on the display through a touch or the like, the image processing apparatus 100 crops a region of interest selected by the user from the first image 10 ), and input the cropped region of interest into the recognition model 300. Then, the image processing apparatus 100 may obtain a label of a region of interest output from the recognition model 300 and a probability value of the corresponding label.
  • an A label (90%), a B label (60%), and a C label (70%) are output from the recognition model 300, and a label of the region of interest As, a B label (70%) can be output from the recognition model 300.
  • the image processing apparatus 100 may acquire labels and probability values by inputting both the first image 10 and the region of interest into the recognition model 300.
  • the image processing apparatus 100 may select a target reference image from candidate reference images to which the same visual sensitivity label is assigned as the label of the region of interest. Since the region of interest is a region in which the user is particularly focused, reference images to which the same visual sensitivity label as the label of the region of interest is allocated are identified as candidate reference images.
  • candidate reference images 1 B labels, A labels, and C labels are assigned candidate reference images 2, B labels, and B labels and A labels are allocated.
  • a candidate reference image 3 to which the C label is assigned may be identified.
  • the image processing apparatus 100 may select, as the target reference image, a candidate reference image having the highest frequency of user selection among at least one candidate reference image.
  • the image processing apparatus 100 may calculate a degree of association between each of the at least one candidate reference image and the first image 10, and select a target reference image based on the calculated degree of association. .
  • the image processing apparatus 100 may select a candidate reference image having the greatest degree of relevance as a target reference image.
  • the image processing apparatus 100 sets the probability value corresponding to the label of the region of interest among the labels of the first image 10 to a preset value (for example, 100%), and then displays the first image 10.
  • the average of the probability values of the one or more labels may be calculated with respect to each candidate reference image to which the same visual sensitivity label is assigned as one or more of the labels.
  • the visual sensitivity labels identical to those of the first image 10 are the A label and the B label, so the relevance of the candidate reference image 1 is 90% and 100% It can be calculated as the average of 95%.
  • the visual sensitivity labels identical to those of the first image 10 among the visual emotion labels assigned to the candidate reference image 2 are the A label, the B label, and the C label, the relevance of the candidate reference image 2 is 90%, 100& It can be calculated as 86%, which is an average of 70%.
  • the relevance of the candidate reference image 3 is an average of 100% and 70% It can be calculated as 85% phosphorus. If the candidate reference image is assigned the same visual sensitivity label as the label of the region of interest, the relevance may be calculated as 100%.
  • the image processing apparatus 100 may select a candidate reference image (the first candidate reference image in FIG. 6) having the highest relevance among the candidate reference images as a target reference image.
  • the image processing apparatus 100 when relevance is calculated for each candidate reference image as shown in FIGS. 5 and 6, as illustrated in FIG. 7, the image processing apparatus 100 refers to each candidate in order based on the size of the relevance Thumbnail images 710, 720, and 730 corresponding to the images may be displayed on the display 700. For example, thumbnail images 710, 720, and 730 corresponding to each candidate reference image may be displayed on the display 700 in the order of high relevance.
  • the image processing apparatus 100 may select a candidate reference image corresponding to the thumbnail image selected by the user from among the thumbnail images 710, 720, and 730 displayed on the display 700 as a target reference image.
  • the image processing apparatus 100 may display the thumbnail images 710, 720, and 730 on its display.
  • the server transmits thumbnail images 710, 720, and 730 to the user device so that the user device displays thumbnail images 710, 720, and 730 on the display. It can also be displayed.
  • the image processing apparatus 100 displays a thumbnail image when the first image 10 is changed, such as the style of each candidate reference image, instead of the thumbnail images 710, 720, and 730 of each candidate reference image.
  • a candidate reference image corresponding to the thumbnail image selected by the user may be selected as the target reference image.
  • FIG. 8 is a diagram for explaining a method of generating a second image 90 based on the first image 10.
  • the first style data of the first image 10 and the reference style data of the target reference image may include at least one of contrast, contrast, viewpoint, tone, white balance, sharpness, histogram, and feature map. 8 illustrates a case in which the first style data of the first image 10 and the reference style data of the target reference image are feature maps 40 and 50.
  • the image processing apparatus 100 inputs the first image 10 into the feature extraction model 810 to obtain a first feature map 40 output from the feature extraction model 810. Then, the image processing apparatus 100 extracts the reference feature map 50 corresponding to the target reference image.
  • the image processing apparatus 100 generates a second feature map 60 based on the first feature map 40 and the reference feature map 50, and features the generated second feature map 60 as a feature synthesis model 850 ).
  • the image processing apparatus 100 may acquire the second image 90 output from the feature synthesis model 850.
  • the image processing apparatus 100 whitens the first feature map 40 and transforms the matrix related to the reference feature map 50 and the whitened transformed first feature map ( coloring transforma) to generate the second feature map 60.
  • the image processing apparatus 100 whitens and transforms the covariance matrix of the first feature map 40 and the first feature map 40 as inputs. Style information of the first image 10 is removed from the whitened transformed first feature map, and only object information in the first image 10 is included in the whitened transformed first feature map.
  • the image processing apparatus 100 may perform coloring transformation by using the inverse covariance matrix of the reference feature map 50 and the first feature map whitened.
  • the second feature map 60 generated as a result of the coloring conversion includes object information of the first image 10 and style information of the target search image.
  • FIG. 9 is a diagram illustrating in detail the feature extraction model 810 and the feature synthesis model 850 illustrated in FIG. 8.
  • the feature extraction model 810 may include a plurality of convolutional layers 811, 812, 813, 814 and 815 for extracting the feature map of the first image 10.
  • each convolutional layer (811, 812, 813, 814, 815) convolutionally input data using a predetermined size and number of filter kernels.
  • At least some of the plurality of convolutional layers 811, 812, 813, 814, 815 may include an activation layer and/or a pooling layer.
  • the active layer may impart a non-linear characteristic to the output result of the previous layer.
  • the activation layer may use an activation function.
  • the activation function may include a sigmoid function, a tanh function, and a rectified linear unit (ReLU) function, but is not limited thereto.
  • the feature composition model 850 may include a plurality of deconvolution layers 851, 852, 853, 854, and 855 that convolute the style-converted feature maps and output data of the previous layer.
  • each deconvolution layer 851, 852, 853, 854, 855 convokes input data using a predetermined size and number of filter kernels.
  • at least some of the plurality of deconvolution layers 851, 852, 853, 854, 855 may include an activation layer and/or a pooling layer.
  • the first deconvolution layer 851 includes a feature map output from the fifth convolution layer 815 and a fifth convolution layer ( After output from 815), the style-converted feature map is input and processed.
  • the second deconvolution layer 852 receives the feature map output from the first deconvolution layer 851 and the feature map converted from the style after being output from the fourth convolution layer 814 to process the convolution. do.
  • the third deconvolution layer 853 receives the feature map output from the second deconvolution layer 852 and the feature map converted from the style after being output from the third convolution layer 813 to process the convolution. do.
  • the fourth deconvolution layer 854 receives the feature map output from the third deconvolution layer 853 and the feature map converted from the style after being output from the second convolution layer 812 to process the convolution. do.
  • the fifth deconvolution layer 855 receives the feature map output from the fourth deconvolution layer 854 and the feature map converted from the style after being output from the first convolution layer 811 to process the convolution. do.
  • the feature extraction model 810 includes five convolutional layers 811, 812, 813, 814, and 815
  • the feature synthesis model 850 includes five deconvolutional layers 851, 852, 853, 854, 855), which is only an example, and the number of convolution layers and the number of deconvolution layers that can be included in the feature extraction model 810 and the feature synthesis model 850 varies. Can be changed.
  • the feature extraction model 810 and/or the feature synthesis model 850 may further include a fully connected layer (FCL).
  • FCL fully connected layer
  • the image processing apparatus 100 may select a target reference image highly related to the first image 10 from among reference images included in one reference image group among the plurality of reference image groups. .
  • the reference image groups may be classified according to manufacturers of each reference image.
  • the plurality of reference image groups may include a reference image group including reference images generated by producer A and a reference image group including reference images generated by producer B.
  • the image processing apparatus 100 may display information of each reference image group on a display, and select a target reference image highly related to the first image 10 from among reference images included in the reference image group selected by the user. .
  • each reference image group eg, identification information of a manufacturer, etc.
  • the user is information indicating one reference image group. You can choose
  • each video producer has its own style, the user can shoot the video in the style of the producer who prefers it.
  • the image processing apparatus 100 may display the reference image group information on its display. Further, as an example, when the image processing apparatus 100 is implemented as a server, the server may transmit reference image group information to the user device so that the user device displays it on the display.
  • the assignment of visual sensibility labels to reference images, training of the recognition model 300 and extraction of reference style data may be performed by a server.
  • a process that requires the reference images themselves, for example, assignment of visual sensibility labels to the reference images, training of the recognition model 300 and extraction of reference style data can be performed at a server instead of a user device.
  • the visual emotion label assigned to the reference images, reference style data of the reference images, and recognition model related data may be transmitted from the server to the user device.
  • the user device inputs the first image 10 to the recognition model 300, obtains reference style data of the target reference image according to the comparison result of the labels of the first image 10 and visual sensitivity labels of the reference images,
  • the second image 90 may be generated according to the second style data generated based on the first style data and the reference style data.
  • the user device may further store internal parameter information of the recognition model 300 corresponding to each reference image group.
  • the server individually trains the recognition model 300 for each reference image group, and may transmit internal parameter information of the recognition model 300 corresponding to each reference image group to the user device.
  • the recognition model 300 may have internal parameters optimized for the A reference image group by being trained based on reference images included in the A reference image group, and may be applied to reference images included in the B reference image group. By training on the basis, it is possible to have internal parameters optimized for the B reference image group.
  • the user device may control the recognition model 300 to operate according to an internal parameter corresponding to the reference image group selected by the user.
  • the image processing apparatus 100 changes the internal parameter of the recognition model 300 to an internal parameter corresponding to the reference image group selected by the user, and the first image from the recognition model 300 in which the internal parameter is changed ( Let the labels of 10) be extracted.
  • the server 3000 transmits a reference video group list to the user device 2000 as the user device 2000 is connected, and the user device 2000 refers to a reference selected by the user from the reference video group list
  • the video group related data is requested to the server 3000.
  • the server 3000 sets the visual emotion label 1110 of the reference images included in the reference image group selected by the user, the reference style data 1120 and the internal parameters 1130 of the recognition model 300 to the image processing apparatus 100.
  • allocation of a visual sensitivity label for reference images, training of the recognition model 300 and extraction of reference style data of reference images, etc. Can be performed at The server may generate a style-converted second image 90 from the first image 10 received from the user device, and transmit the second image 90 to the user device.
  • the image processing apparatus 100 is implemented as a user device, the assignment of visual sensitivity labels to reference images, training of the recognition model 300 and extraction of reference style data of reference images, etc. This can be done on the user device.
  • the user device may generate a second image 90 style-converted from the first image 10.
  • FIG. 12 is a flowchart illustrating an image processing method according to another embodiment.
  • the image processing apparatus 100 selects at least one reference image associated with the first image 10 among the plurality of reference images as at least one candidate reference image.
  • the image processing apparatus 100 compares the features of the plurality of reference images (contrast, contrast, viewpoint, tone, white balance, sharpness, histogram, and feature map) with the features of the first image 10 , At least one candidate reference image highly related to the first image 10 may be selected.
  • step S1220 the image processing apparatus 100 displays at least one thumbnail image corresponding to the at least one candidate reference image on the display.
  • the image processing apparatus 100 may display a thumbnail image in which the candidate reference image is reduced on the display, or display a thumbnail image when the style of the first image 10 is changed according to each candidate reference image. You may.
  • the image processing apparatus 100 when the image processing apparatus 100 is implemented as a user device, the image processing apparatus 100 may display a thumbnail image on its display.
  • the server when the image processing apparatus 100 is implemented as a server, the server may transmit a thumbnail image to the user device so that the user device displays the thumbnail image on the display.
  • step S1230 the image processing apparatus 100 selects a candidate reference image corresponding to the thumbnail image selected by the user from among the thumbnail images displayed on the display as a target reference image.
  • the user can select any one thumbnail image by a method such as touch among the thumbnail images displayed on the display.
  • the image processing apparatus 100 may generate a second image 90 changed from the first image 10 according to the characteristics of the target reference image.
  • the image processing apparatus 100 may generate the second image 90 by changing the first image 10 so that the characteristics of the first image 10 are the same/similar to those of the target reference image. have.
  • FIG. 13 is a block diagram showing the configuration of an image processing apparatus 100 according to an embodiment.
  • the image processing apparatus 100 may include a memory 1300, a communication unit 1400, and a processor 1500.
  • the memory 1300, the communication unit 1400, and the processor 1500 may operate according to programs stored in the memory 1300.
  • the memory 1300 may store the recognition model 300. Also, the memory 1300 may further store the feature extraction model 810 and the feature synthesis model 850. Also, the memory 1300 may store data related to reference images, for example, a visual sensitivity label assigned to reference images, reference style data of reference images, and internal parameters for each reference image group.
  • the communication unit 1400 transmits and receives data to and from an external device through a network.
  • the processor 1500 inputs the first image 10 into the recognition model 300 to obtain a label and/or a probability value of the label output from the recognition model 300.
  • the processor 1500 acquires reference style data of a target reference image highly related to the first image 10 among the reference images, and based on the first style data and the reference style data of the first image 10 Generate style data. Then, the processor 1500 generates the second image 90 based on the second style data.
  • the processor 1500 may train the recognition model 300 based on the reference images.
  • the processor 1500 may input reference images and visual emotion labels assigned to the reference images to the recognition model 300 so that the internal parameters of the recognition model 300 are updated.
  • FIG. 14 is a block diagram of a processor 1500 in accordance with some embodiments.
  • the processor 1500 may include a data learning unit 1510 and a data recognition unit 1520.
  • the data learning unit 1510 may learn criteria for determining a situation (eg, determining a label corresponding to an image). The data learning unit 1510 may learn criteria on what data to use to determine a predetermined situation and how to determine the situation using the data. The data learning unit 1510 acquires data to be used for learning, and applies the obtained data to the recognition model 300 to learn criteria for situation determination.
  • the data recognition unit 1520 may determine a situation based on data.
  • the data recognition unit 1520 may recognize a situation from predetermined data using the learned recognition model 300.
  • the data recognition unit 1520 acquires predetermined data according to a preset criterion by learning, and uses the recognition model 300 using the acquired data as an input value to determine a predetermined situation based on the predetermined data. Can. Also, the result value output by the recognition model 300 using the obtained data as an input value may be used to update the recognition model 300.
  • At least one of the data learning unit 1510 and the data recognition unit 1520 may be manufactured in the form of at least one hardware chip and mounted on an electronic device.
  • at least one of the data learning unit 1510 and the data recognition unit 1520 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general-purpose processor (eg, CPU Alternatively, it may be manufactured as a part of an application processor or a graphics-only processor (for example, a GPU) and mounted on various electronic devices described above.
  • AI artificial intelligence
  • CPU general-purpose processor
  • GPU graphics-only processor
  • the data learning unit 1510 and the data recognition unit 1520 may be mounted on one electronic device or may be mounted on separate electronic devices.
  • one of the data learning unit 1510 and the data recognition unit 1520 may be included in the user device 2000 and the other may be included in the server 3000.
  • the data learning unit 1510 and the data recognition unit 1520 may provide the model information constructed by the data learning unit 1510 to the data recognition unit 1520 through wired or wireless communication, or the data recognition unit ( 1520) may be provided to the data learning unit 1510 as additional learning data.
  • At least one of the data learning unit 1510 and the data recognition unit 1520 may be implemented as a software module.
  • the software module is a computer-readable, non-transitory readable It may be stored in a readable media (non-transitory computer readable media).
  • the at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application.
  • OS operating system
  • OS operating system
  • OS operating system
  • some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.
  • FIG. 15 is a block diagram of a data learning unit 1510 according to some embodiments.
  • the data learning unit 1510 includes a data acquisition unit 1510-1, a pre-processing unit 1510-2, a training data selection unit 1510-3, and a model learning unit 1510. -4) and a model evaluation unit 1510-5.
  • the data acquisition unit 1510-1 may acquire data necessary for situation determination.
  • the data acquisition unit 1510-1 may acquire data necessary for learning for situation determination.
  • the data acquisition unit 1510-1 may acquire image data captured by the camera or image data received through an network from an external device. Alternatively, the data acquisition unit 1510-1 may acquire preview image data recognized by the camera.
  • the pre-processing unit 1510-2 may pre-process the acquired data so that the acquired data can be used for learning for situation determination.
  • the pre-processing unit 1510-2 may process the acquired data in a preset format so that the model learning unit 1510-4 described later can use the acquired data for learning for situation determination.
  • the learning data selector 1510-3 may select data necessary for learning from pre-processed data.
  • the selected data may be provided to the model learning unit 1510-4.
  • the learning data selection unit 1510-3 may select data necessary for learning from pre-processed data according to a preset criterion for situation determination.
  • the learning data selection unit 1510-3 may select data according to a preset criterion by learning by the model learning unit 1510-4 described later.
  • the model learning unit 1510-4 may learn criteria on how to judge the situation based on the training data. In addition, the model learning unit 1510-4 may also learn the criteria as to what learning data to use for situation determination.
  • the model learning unit 1510-4 may train the recognition model 300 used for situation determination using learning data.
  • the recognition model 300 may be a pre-built model.
  • the recognition model 300 may be a pre-built model by receiving basic training data (eg, a sample image, etc.).
  • the recognition model 300 may be constructed in consideration of an application field of the recognition model 300, a purpose of learning, or computer performance of a device.
  • the recognition model 300 may be, for example, a model based on a neural network.
  • a model such as a deep neural network (DNN), a recurrent neural network (RNN), or a bidirectional recurrent deep neural network (BRDNN) may be used as the recognition model 300, but is not limited thereto.
  • DNN deep neural network
  • RNN recurrent neural network
  • BBDNN bidirectional recurrent deep neural network
  • the model learning unit 1510-4 learns the recognition model 300 having a high relationship between the input learning data and the basic learning data. It may be determined by the recognition model 300.
  • the basic learning data may be pre-classified for each type of data, and the recognition model 300 may be pre-built for each type of data.
  • the basic training data is classified into various criteria such as the region where the training data is generated, the time when the training data is generated, the size of the training data, the genre of the training data, the creator of the training data, and the type of object in the training data. It may be.
  • model learning unit 1510-4 may train the recognition model 300 using, for example, a learning algorithm including an error back-propagation or a gradient descent method. Can.
  • model learning unit 1510-4 may train the recognition model 300, for example, through supervised learning using learning data as an input value.
  • the model learning unit 1510-4 for example, through unsupervised learning, which discovers a criterion for situation determination by learning the type of data necessary for situation determination by itself without much guidance, The recognition model 300 can be trained.
  • the model learning unit 1510-4 may train the recognition model 300 through, for example, reinforcement learning using feedback on whether a result of situation determination according to learning is correct.
  • the model learning unit 1510-4 may store the learned recognition model 300.
  • the model learning unit 1510-4 may store the learned recognition model 300 in the memory of the electronic device including the data recognition unit 1520.
  • the model learning unit 1510-4 may store the learned recognition model 300 in the memory of the electronic device including the data recognition unit 1520 to be described later.
  • the model learning unit 1510-4 may store the learned recognition model 300 in the memory of the server 3000 connected to the electronic device through a wired or wireless network.
  • the memory in which the learned recognition model 300 is stored may store, for example, commands or data related to at least one other component of the electronic device.
  • the memory may store software and/or programs.
  • the program may include, for example, a kernel, middleware, application programming interface (API), and/or application program (or "application").
  • the model evaluation unit 1510-5 inputs evaluation data to the recognition model 300 and, if the recognition result output from the evaluation data does not satisfy a predetermined criterion, causes the model learning unit 1510-4 to learn again. can do.
  • the evaluation data may be preset data for evaluating the recognition model 300.
  • the model evaluation unit 1510-5 is a predetermined result when the number or ratio of the evaluation data whose recognition result is not accurate among the recognition results of the learned recognition model 300 for the evaluation data exceeds a preset threshold. It can be evaluated that the criteria are not satisfied. For example, when a predetermined criterion is defined as a ratio of 2%, when the learned recognition model 300 outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1000 evaluation data, the model evaluation unit 1510- 5) may evaluate that the learned recognition model 300 is not suitable.
  • the model evaluator 1510-5 evaluates whether each of the learned recognition models 300 satisfies a predetermined criterion, and a model that satisfies a predetermined criterion. Can be determined as the final recognition model 300. In this case, when there are a plurality of models satisfying a predetermined criterion, the model evaluator 1510-5 may determine, as the final recognition model 300, any one or a predetermined number of models preset in the order of highest evaluation score.
  • the data acquisition unit 1510-1, the pre-processing unit 1510-2, the learning data selection unit 1510-3, the model learning unit 1510-4, and the model evaluation unit 1510 in the data learning unit 1510 may be manufactured in the form of at least one hardware chip and mounted on an electronic device.
  • at least one of the data acquisition unit 1510-1, the pre-processing unit 1510-2, the training data selection unit 1510-3, the model learning unit 1510-4, and the model evaluation unit 1510-5 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or as part of an existing general-purpose processor (eg, CPU or application processor) or graphics-only processor (eg, GPU). It may be mounted on various electronic devices.
  • AI artificial intelligence
  • GPU graphics-only processor
  • the data acquisition unit 1510-1, the pre-processing unit 1510-2, the learning data selection unit 1510-3, the model learning unit 1510-4 and the model evaluation unit 1510-5 are one electronic It may be mounted on a device, or may be mounted on separate electronic devices, respectively.
  • some of the data acquisition unit 1510-1, the pre-processing unit 1510-2, the training data selection unit 1510-3, the model learning unit 1510-4, and the model evaluation unit 1510-5 Is included in the user device 2000, and the other part may be included in the server 3000.
  • At least one of the data acquisition unit 1510-1, the pre-processing unit 1510-2, the training data selection unit 1510-3, the model learning unit 1510-4 and the model evaluation unit 1510-5 It can be implemented as a software module.
  • At least one of the data acquisition unit 1510-1, the pre-processing unit 1510-2, the learning data selection unit 1510-3, the model learning unit 1510-4, and the model evaluation unit 1510-5 is a software module
  • the software module may be stored in a computer-readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application.
  • OS operating system
  • some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.
  • 16 is a block diagram of a data recognition unit 1520 according to some embodiments.
  • the data recognition unit 1520 includes a data acquisition unit 1520-1, a pre-processing unit 1520-2, a recognition data selection unit 1520-3, and a recognition result providing unit ( 1520-4) and a model update unit 1520-5.
  • the data acquisition unit 1520-1 may acquire data necessary for situation determination, and the pre-processing unit 1520-2 may preprocess the acquired data so that the acquired data for situation determination can be used.
  • the pre-processing unit 1520-2 may process the acquired data in a preset format so that the recognition result providing unit 1520-4 described later can use the acquired data for situation determination.
  • the recognition data selection unit 1520-3 may select data necessary for situation determination from pre-processed data.
  • the selected data may be provided to the recognition result providing unit 1520-4.
  • the recognition data selector 1520-3 may select some or all of the pre-processed data according to a preset criterion for determining the situation. Also, the recognition data selection unit 1520-3 may select data according to a preset criterion by training by the model learning unit 1510-4.
  • the recognition result providing unit 1520-4 may determine the situation by applying the selected data to the recognition model 300.
  • the recognition result providing unit 1520-4 may provide a recognition result according to the purpose of recognizing data.
  • the recognition result providing unit 1520-4 may apply the selected data to the recognition model 300 by using the data selected by the recognition data selection unit 1520-3 as an input value.
  • the recognition result may be determined by the recognition model 300.
  • the recognition result providing unit 1520-4 may apply the first image 10 selected by the recognition data selection unit 1520-3 to the recognition model 300.
  • a label corresponding to the first image 10 and a probability value of the label may be determined.
  • the model updating unit 1520-5 may allow the recognition model 300 to be updated based on the evaluation of the recognition result provided by the recognition result providing unit 1520-4. For example, the model update unit 1520-5 provides the model learning unit 1510-4 with the recognition result provided by the recognition result providing unit 1520-4, so that the model learning unit 1510-4 The recognition model 300 may be updated.
  • the data acquisition unit 1520-1, the pre-processing unit 1520-2, the recognition data selection unit 1520-3, the recognition result providing unit 1520-4 and the model update unit in the data recognition unit 1520 may be manufactured in the form of at least one hardware chip and mounted on an electronic device.
  • the data acquisition unit 1520-1, the pre-processing unit 1520-2, the recognition data selection unit 1520-3, the recognition result providing unit 1520-4 and the model update unit 1520-5 At least one may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or it may be manufactured as part of an existing general-purpose processor (for example, a CPU or application processor) or a graphics-only processor (for example, GPU). It may be mounted on various electronic devices.
  • AI artificial intelligence
  • the data acquisition unit 1520-1, the pre-processing unit 1520-2, the recognition data selection unit 1520-3, the recognition result providing unit 1520-4 and the model update unit 1520-5 are one It may be mounted on an electronic device, or may be mounted on separate electronic devices, respectively.
  • the data acquisition unit 1520-1, the pre-processing unit 1520-2, the recognition data selection unit 1520-3, the recognition result providing unit 1520-4 and the model update unit 1520-5 Some may be included in the user device 2000, and the other may be included in the server 3000.
  • At least one of the data acquisition unit 1520-1, the pre-processing unit 1520-2, the recognition data selection unit 1520-3, the recognition result providing unit 1520-4 and the model update unit 1520-5 Can be implemented as a software module.
  • At least one of the data acquisition unit 1520-1, the pre-processing unit 1520-2, the recognition data selection unit 1520-3, the recognition result providing unit 1520-4, and the model update unit 1520-5 is software.
  • the software module When implemented as a module (or a program module including an instruction), the software module may be stored in a computer-readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application.
  • some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.
  • 17 is a diagram illustrating an example of learning and recognizing data by interworking with the user device 2000 and the server 3000 according to some embodiments.
  • the server 3000 may learn a criterion for situation determination (eg, determination of a label corresponding to an image), and the user device 2000 may use the learning result by the server 3000. You can judge the situation based on that.
  • a criterion for situation determination eg, determination of a label corresponding to an image
  • the model learning unit 3340 of the server 3000 may perform the function of the data learning unit 1510 illustrated in FIG. 15.
  • the model learning unit 3340 of the server 3000 may learn criteria to use what data to determine a predetermined situation and how to determine the situation using the data.
  • the model learning unit 3340 acquires data to be used for learning, and applies the obtained data to the recognition model 300 to learn criteria for situation determination.
  • the recognition result providing unit 1520-4 of the user device 2000 applies the data selected by the recognition data selection unit 1520-3 to the recognition model 300 generated by the server 3000 to determine the situation. I can judge. For example, the recognition result providing unit 1520-4 transmits data selected by the recognition data selection unit 1520-3 to the server 3000, and the server 3000 recognizes the data selection unit 1520-3. It may request to determine the situation by applying the data selected by the recognition model 300. In addition, the recognition result providing unit 1520-4 may receive information regarding the situation determined by the server 3000 from the server 3000.
  • the recognition result providing unit 1520-4 of the user device 2000 receives the recognition model 300 generated by the server 3000 from the server 3000 and uses the received recognition model 300. You can judge the situation. In this case, the recognition result providing unit 1520-4 of the user device 2000 applies the data selected by the recognition data selection unit 1520-3 to the recognition model 300 received from the server 3000 to determine the situation. I can judge.
  • the above-described embodiments of the present disclosure can be written as a program that can be executed on a computer, and the created program can be stored in a medium.
  • the medium may be a computer that continuously stores executable programs or may be temporarily stored for execution or download.
  • the medium may be various recording means or storage means in the form of a combination of single or several hardware, and is not limited to a medium directly connected to a computer system, but may be distributed on a network.
  • Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks, And program instructions including ROM, RAM, flash memory, and the like.
  • examples of other media include an application store for distributing applications, a site for distributing or distributing various software, and a recording medium or storage medium managed by a server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

제 1 영상을 인식 모델에 입력시켜 제 1 영상의 레이블을 획득하는 단계; 참조 영상들에 미리 할당된 시각 감성 레이블들 중 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계; 제 1 영상의 제 1 스타일 데이터 및 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 일 실시예에 따른 영상 처리 방법이 개시된다.

Description

스타일 변환을 위한 영상 처리 장치 및 방법
본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
한편, 모바일 기기 및 SNS(social network service)의 광범위한 이용에 따라 사용자들은 언제 어디서나 모바일 기기의 카메라로 물체를 촬영하고, 촬영된 영상을 SNS 서버에 업로드하고 있다. 사용자들은 영상의 화질이나 분위기 등을 개선하기 위하여 여러 영상 편집 프로그램을 통해 영상을 편집하고 있는데, 이러한 편집 과정을 전문적인 지식이 없는 사용자가 하기는 어려운 측면이 있다. 따라서, 별도의 전문적인 지식이 없더라도 영상의 스타일을 사용자가 원하는 스타일에 맞춰 변환시키는 방안이 요구된다.
일 실시예에 따른 영상 처리 장치 및 방법은 별도의 전문적인 지식이 없더라도 간편하게 영상의 스타일을 변환시킬 수 있게 하는 것을 기술적 과제로 한다.
또한, 일 실시예에 따른 영상 처리 장치 및 방법은 스타일 변환을 수행하는 장치에 저장될 데이터의 용량을 감소시키는 것을 기술적 과제로 한다.
일 실시예에 따른 영상 처리 방법은, 제 1 영상을 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하는 단계; 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계; 상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및 상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 영상 처리 장치 및 방법은 별도의 전문적인 지식이 없더라도 간편하게 영상의 스타일을 변환시킬 수 있다.
또한, 일 실시예에 따른 영상 처리 장치 및 방법은 스타일 변환을 수행하는 장치에 저장될 데이터의 용량을 감소시킬 수 있다.
다만, 일 실시예에 따른 영상 처리 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 일 실시예에 따른 영상 처리 장치의 동작을 설명하기 위한 개략적인 도면이다.
도 2는 일 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.
도 3은 제 1 영상을 인식 모델에 입력시켜 획득되는 레이블 및 레이블의 확률 값을 나타내는 예시적인 도면이다.
도 4는 참조 영상들에 할당된 시각 감성 레이블을 나타내는 예시적인 도면이다.
도 5는 참조 영상들 중 타겟 참조 영상을 결정하는 방법을 설명하기 위한 도면이다.
도 6은 참조 영상들 중 타겟 참조 영상을 결정하는 방법을 설명하기 위한 도면이다.
도 7은 디스플레이에 표시되는 썸네일 영상을 도시하는 예시적인 도면이다.
도 8은 제 1 영상에 기초하여 제 2 영상을 생성하는 방법을 설명하기 위한 도면이다.
도 9는 도 8에 도시된 특징 추출 모델 및 특징 합성 모델을 상세하게 나타내는 도면이다.
도 10은 디스플레이에 표시되는 참조 영상 그룹 정보를 도시하는 예시적인 도면이다.
도 11은 영상 처리 장치가 스타일 변환을 위한 데이터를 서버로부터 수신하는 방법을 설명하기 위한 도면이다.
도 12는 다른 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.
도 13은 일 실시예에 따른 영상 처리 장치의 구성을 도시하는 블록도이다.
도 14는 도 13에 도시된 프로세서의 블록도이다.
도 15는 도 14에 도시된 데이터 학습부의 블록도이다.
도 16은 도 14에 도시된 데이터 인식부의 블록도이다.
도 17은 일부 실시예에 따른 사용자 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
일 실시예에 따른 영상 처리 방법은, 제 1 영상을 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하는 단계; 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계; 상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및 상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하는 단계; 및 상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중에서 상기 타겟 참조 영상을 선택하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 제 1 영상의 레이블을 획득하는 단계는, 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계를 포함하고, 상기 관련도를 산출하는 단계는, 상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 타겟 참조 영상을 선택하는 단계는, 상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하는 단계; 및 상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 제 1 영상의 레이블을 획득하는 단계는, 상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하는 단계를 포함하되, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상을 식별하는 단계; 상기 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하는 단계; 및 상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 제 1 영상의 레이블을 획득하는 단계는, 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계를 포함하고, 상기 관련도를 산출하는 단계는, 상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출하는 단계를 포함하되, 상기 관심 영역의 레이블의 확률 값은 기 설정된 값으로 설정될 수 있다.
예시적인 실시예에서, 상기 영상 처리 방법은, 복수의 참조 영상 그룹 중 사용자에 의해 선택된 참조 영상 그룹에 대응하는 내부 파라미터로 상기 인식 모델의 내부 파라미터를 변경하는 단계; 및 상기 내부 파라미터가 변경된 상기 인식 모델에 상기 제 1 영상을 입력하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 복수의 참조 영상 그룹은, 참조 영상들의 제작자에 따라 구분될 수 있다.
예시적인 실시예에서, 상기 영상 처리 방법은, 서버에 접속하여 참조 영상 그룹 리스트를 상기 서버로부터 수신하는 단계; 상기 참조 영상 그룹 리스트 중 사용자로부터 적어도 하나의 참조 영상 그룹을 선택받는 단계; 및 상기 선택된 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련된 인식 모델의 내부 파라미터, 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들의 참조 스타일 데이터 및 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 할당된 시각 감성 레이블을 상기 서버로부터 수신하는 단계를 더 포함할 수 있다.
예시적인 실시예에서, 상기 영상 처리 방법은, 상기 제 1 영상을 특징 추출 모델에 입력시켜 상기 제 1 영상의 제 1 스타일 데이터를 획득하는 단계; 및 상기 생성된 제 2 스타일 데이터를 특징 합성 모델이 입력시켜 상기 제 2 영상을 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 영상 처리 방법은, 복수의 참조 영상 중 제 1 영상과 관련된 적어도 하나의 참조 영상을 적어도 하나의 후보 참조 영상으로 선택하는 단계; 상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 디스플레이에 표시하는 단계; 상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계; 및 상기 타겟 참조 영상의 특징에 따라 상기 제 1 영상과 상이한 제 2 영상을 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 영상 처리 장치는, 프로세서; 및 인식 모델 및 적어도 하나의 프로그램을 저장하는 메모리를 포함하되, 상기 프로세서는, 상기 적어도 하나의 프로그램이 실행됨에 따라, 제 1 영상을 상기 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하고, 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하고, 상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하고, 상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성할 수 있다.
예시적인 실시예에서, 상기 프로세서는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하고, 상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택할 수 있다.
예시적인 실시예에서, 상기 프로세서는, 상기 인식 모델에서 출력되는 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하고, 상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출할 수 있다.
예시적인 실시예에서, 상기 프로세서는, 상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하고, 상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택할 수 있다.
예시적인 실시예에서, 상기 프로세서는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택할 수 있다.
예시적인 실시예에서, 상기 프로세서는, 상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하고, 상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득할 수 있다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 본 명세서에서 '제 1 영상'은 스타일 변환의 대상이 되는 영상을 의미하고, '제 2 영상'은 스타일 변환을 거쳐 생성된 영상을 의미한다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 1은 일 실시예에 따른 영상 처리 장치(100)의 동작을 설명하기 위한 개략적인 도면이다.
영상 처리 장치(100)는 제 1 영상(10)의 스타일을 변환시켜 제 2 영상(90)을 생성한다. 제 1 영상(10)은 영상 처리 장치(100)에 저장된 영상일 수 있고, 또는, 영상 처리 장치(100)의 카메라를 통해 인식되는 프리뷰 영상일 수도 있다.
영상 처리 장치(100)는 여러 참조 영상들 중 제 1 영상(10)과 관련성이 높은 참조 영상의 스타일에 따라 제 1 영상(10)의 스타일을 변환시켜 제 2 영상(90)을 생성할 수 있다. 제 1 영상(10)과 제 2 영상(20)에 포함된 오브젝트는 동일하지만, 제 2 영상(20)의 특징(명암, 대비, 시점, 톤, 화이트밸런스, 선예도(sharpness), 히스토그램 등)은 제 1 영상(10)의 특징과 상이할 수 있다.
'참조 영상'은 예를 들어, 전문 제작자에 의해 촬영 및/또는 편집된 영상을 포함할 수 있다. 사용자가 스스로 참조 영상의 스타일과 같은 영상을 촬영하거나 기존 영상을 편집하는 것은 어려우므로, 일 실시예에서는 사용자가 참조 영상을 선택하는 방법 등으로 간편하게 참조 영상의 스타일에 따라 변환된 제 2 영상(90)을 획득할 수 있다.
영상 처리 장치(100)는 사용자 디바이스 또는 서버로 구현될 수 있다. 예를 들어, 사용자 디바이스는 스마트폰, 데스크탑 컴퓨터, 노트북, 태블릿 PC 등의 다양한 종류의 디바이스를 포함할 수 있다. 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우 또는 서버로 구현된 경우의 동작에 대해서는 후술한다.
도 2는 일 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.
S210 단계에서, 영상 처리 장치(100)는 제 1 영상(10)을 인식 모델에 입력하고, 인식 모델에서 출력되는 제 1 영상(10)의 레이블을 획득한다.
일 실시예에서, 상기 레이블은 제 1 영상(10)을 내용을 설명하는 정보일 수 있다. 예를 들어, 제 1 영상(10)이 바다를 포함하는 경우, 인식 모델은 '시원한 바다'와 같은 레이블을 출력할 수 있다.
인식 모델은 시각 감성 레이블이 미리 할당된 참조 영상들에 기초하여 훈련될 수 있는데, 인식 모델은 제 1 영상(10)을 분석하여 여러 시각 감성 레이블들 중 제 1 영상(10)에 대응하는 레이블을 출력할 수 있다. 인식 모델은 예를 들어, 오브젝트 인식 DNN(deep neural network)을 포함할 수 있다.
S220 단계에서, 영상 처리 장치(100)는 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득한다.
인식 모델에서 제 1 영상(10)과 관련된 복수의 레이블이 출력된 경우, 영상 처리 장치(100)는 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상을 식별하고, 적어도 하나의 후보 참조 영상 중에서 타겟 참조 영상을 선택할 수 있다. 적어도 하나의 후보 참조 영상 중 타겟 참조 영상을 선택하는 방법에 대해서는 도 5 내지 도 7을 참조하여 후술한다.
타겟 참조 영상의 참조 스타일 데이터는, 타겟 참조 영상의 명암 데이터, 대비 데이터, 시점 데이터, 톤 데이터, 화이트밸런스 데이터, 선예도(sharpness) 데이터, 히스토그램 데이터 및 특징 맵(feature map) 중 적어도 하나를 포함할 수 있다. 참조 영상들의 참조 스타일 데이터는 영상 처리 장치(100)에 미리 저장되어 있을 수 있으며, 참조 영상들 중에서 타겟 참조 영상이 선택되면, 영상 처리 장치(100)는 타겟 참조 영상에 대응하는 참조 스타일 데이터를 획득할 수 있다.
S230 단계에서, 영상 처리 장치(100)는 제 1 영상(10)의 제 1 스타일 데이터와 타겟 참조 영상의 참조 스타일 데이터에 기초하여 제 2 스타일 데이터를 생성한다. 여기서, 제 2 스타일 데이터는 제 1 스타일 데이터와 상이한 것으로서, 제 1 스타일 데이터를 변환시켜 생성된 것일 수 있고, 또는, 제 1 스타일 데이터와 참조 스타일 데이터에 기초하여 새롭게 생성된 것일 수도 있다.
예를 들어, 영상 처리 장치(100)는 제 1 영상(10)의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나를, 타겟 참조 영상의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나에 기초하여 변환시킴으로써 제 2 스타일 데이터를 생성할 수 있다.
일 예로, 영상 처리 장치(100)는 제 1 영상(10)의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나가 타겟 참조 영상의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나와 동일 또는 유사해지도록 제 1 스타일 데이터를 변경시켜 제 2 스타일 데이터를 생성할 수 있다.
또한, 일 예로, 영상 처리 장치(100)는 제 1 영상(10)의 특징 맵과 타겟 참조 영상의 참조 특징 맵에 기초하여 새로운 특징 맵을 생성할 수도 있다.
S240 단계에서, 영상 처리 장치(100)는 제 2 스타일 데이터에 기초하여 제 2 영상(90)을 생성한다. 영상 처리 장치(100)는 제 1 영상(10)을 제 2 스타일 데이터에 따라 변경하여 제 2 영상(90)을 생성할 수도 있고, 제 2 스타일 데이터(예를 들어, 특징 맵)를 DNN(deep neural network)에 입력하여 제 2 영상(90)을 생성할 수도 있다.
도 3은 제 1 영상(10)을 인식 모델(300)에 입력시켜 획득되는 레이블(21) 및 레이블(21)의 확률 값(25)을 나타내는 예시적인 도면이다.
전술한 바와 같이, 영상 처리 장치(100)는 제 1 영상(10)을 인식 모델(300)에 입력시키고, 인식 모델(300)에서 출력되는 제 1 영상(10)의 레이블(21)을 획득한다. 도 3을 참조하면, 제 1 영상(10)에 대응하는 레이블(21)은 'beautiful sunset', 'blue sky', 'misty cloud', 'dashing ocean wave'를 포함할 수 있다. 또한, 인식 모델(300)은 각각의 레이블(21)에 대응하는 확률 값(25)을 출력할 수 있다. 확률 값(25)은 제 1 영상(10)이 레이블(21)과 어느 정도로 관련성이 있는지를 나타내는 값일 수 있다. 제 1 영상(10)의 레이블(21)인 'beautiful sunset'의 확률 값(25)이 90%이므로, 제 1 영상(10)은 'beautiful sunset'과 관련성이 매우 높다는 것을 알 수 있다.
영상 처리 장치(100)는 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상을 선택하는데, 도 4에 도시된 바와 같이, 각각의 참조 영상에는 참조 영상을 설명하기 위한 시각 감성 레이블(31)이 할당될 수 있다.
예를 들어, 참조 영상 1에는 'beautiful sunset', 'blue sky', 'amazing beach'의 시각 감성 레이블(31)이 할당되고, 참조 영상 2에는 'beautiful sunrise', 'large mountain'의 시각 감성 레이블(31)이 할당될 수 있다.
이하에서는, 도 5 내지 도 7을 참조하여 참조 영상들 중에서 타겟 참조 영상을 선택하는 방법에 대해 설명한다.
도 5를 참조하면, 제 1 영상(10)의 레이블로서, A 레이블, B 레이블, C 레이블이 획득되고, A 레이블, B 레이블, C 레이블 각각의 확률 값이 90%, 60%, 70%인 경우, 영상 처리 장치(100)는 A 레이블, B 레이블 및 C 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 참조 영상을 후보 참조 영상으로 선택한다.
후보 참조 영상 1의 시각 감성 레이블은 A 레이블 및 B 레이블로서, 이는 제 1 영상(10)의 A 레이블 및 B 레이블과 동일하고, 후보 참조 영상 2의 시각 감성 레이블은 C 레이블 및 D 레이블로서, 이 중 C 레이블이 제 1 영상(10)의 C 레이블과 동일한 것을 알 수 있다. 또한, 후보 참조 영상 3의 시각 감성 레이블은 B 레이블, C 레이블 및 E 레이블로서, 이 중 B 레이블 및 C 레이블이 제 1 영상(10)의 B 레이블 및 C 레이블과 동일한 것을 알 수 있다.
일 실시예에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도수가 가장 높은 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.
또한, 일 실시예에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 각각과 제 1 영상(10) 사이의 관련도를 산출하고, 산출된 관련도에 기초하여 타겟 참조 영상을 선택할 수도 있다. 예를 들어, 영상 처리 장치(100)는 가장 큰 관련도를 갖는 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.
상기 관련도는 각각의 후보 참조 영상과 제 1 영상(10)의 내용이 얼마나 유사한지를 나타내는 값으로서, 제 1 영상(10)의 레이블들의 확률 값에 기초하여 산출될 수 있다.
일 예에서, 관련도는 제 1 영상(10)의 레이블들 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 후보 참조 영상 별로 상기 동일한 하나 이상의 레이블의 확률 값의 평균으로 산출될 수 있다.
도 5에서 후보 참조 영상 1에는 A 레이블 및 B 레이블이 공통 레이블로 할당되어 있는데, 제 1 영상(10)에서 A 레이블의 확률 값은 90%이고, B 레이블의 확률 값은 60% 이므로, 이들의 평균인 75%가 후보 참조 영상 1의 관련도로 산출될 수 있다. 또한, 후보 참조 영상 2에는 C 레이블이 공통 레이블로 할당되어 있는데, 제 1 영상(10)에서 C 레이블의 확률 값은 70%이므로 70%가 후보 참조 영상 2의 관련도로 산출될 수 있다. 또한, 후보 참조 영상 3에는 B 레이블 및 C 레이블이 공통 레이블로 할당되어 있는데, 제 1 영상(10)에서 B 레이블의 확률 값은 60%이고, C 레이블의 확률 값은 70% 이므로, 이들의 평균인 65%가 후보 참조 영상 3의 관련도로 산출될 수 있다.
영상 처리 장치(100)는 후보 참조 영상들 중 관련도가 가장 높은 후보 참조 영상(도 5에서 제 1 후보 참조 영상)을 타겟 참조 영상으로 선택할 수 있다.
다른 예에서, 관련도는 각각의 후보 참조 영상의 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블의 개수에 기초하여 산출될 수 있다. 이 경우, 도 5에서 후보 참조 영상 1과 후보 참조 영상 3에 제 1 영상(10)의 레이블들과 동일한 2개의 시각 감성 레이블이 할당되었고, 후보 참조 영상 2에 제 1 영상(10)의 레이블들과 동일한 1개의 시각 감성 레이블이 할당되었으므로, 후보 참조 영상 2에 대해 가장 낮은 관련도가 산출될 수 있다. 그리고, 후보 참조 영상 1과 후보 참조 영상 3 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블에 대응하는 확률 값의 평균이 더 높은 후보 참조 영상에 대해 더 높은 관련도가 산출될 수 있다.
일 실시예에서, 사용자가 제 1 영상(10) 중 관심 영역을 선택하면, 영상 처리 장치(100)는 관심 영역의 레이블을 더 고려하여 타겟 참조 영상을 선택할 수도 있다. 예를 들어, 영상 처리 장치(100)는 사용자가 디스플레이에 표시된 제 1 영상(10)의 일부를 터치 등을 통해 선택한 경우, 사용자에 의해 선택된 관심 영역을 제 1 영상(10)으로부터 크로핑(cropping)하고, 크로핑된 관심 영역을 인식 모델(300)로 입력할 수 있다. 그리고, 영상 처리 장치(100)는 인식 모델(300)에서 출력되는 관심 영역의 레이블 및 해당 레이블의 확률 값을 획득할 수 있다.
도 6을 참조하면, 제 1 영상(10)의 레이블로서, A 레이블 (90%), B 레이블 (60%) 및 C 레이블 (70%)이 인식 모델(300)에서 출력되고, 관심 영역의 레이블로서, B 레이블 (70%)이 인식 모델(300)에서 출력될 수 있다. 영상 처리 장치(100)는 제 1 영상(10)과 관심 영역을 모두 인식 모델(300)에 입력시켜 레이블 및 확률 값을 획득할 수 있다.
영상 처리 장치(100)는 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 후보 참조 영상 중에서 타겟 참조 영상을 선택할 수 있다. 관심 영역은 사용자가 특히 집중하는 영역이므로, 해당 관심 영역의 레이블과 동일한 시각 감성 레이블이 필수로 할당된 참조 영상들이 후보 참조 영상으로 식별된다.
도 6을 참조하면, 관심 영역의 레이블로 B 레이블이 획득된 경우, B 레이블과 A 레이블이 할당된 후보 참조 영상 1, B 레이블, A 레이블 및 C 레이블이 할당된 후보 참조 영상 2, B 레이블 및 C 레이블이 할당된 후보 참조 영상 3이 식별될 수 있다.
전술한 바와 같이, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도수가 가장 높은 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.
또한, 일 실시예에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 각각과 제 1 영상(10) 사이의 관련도를 산출하고, 산출된 관련도에 기초하여 타겟 참조 영상을 선택할 수도 있다. 예를 들어, 영상 처리 장치(100)는 가장 큰 관련도를 갖는 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.
영상 처리 장치(100)는 제 1 영상(10)의 레이블들 중 관심 영역의 레이블에 대응하는 확률 값을 기 설정된 값(예를 들어, 100%)으로 설정한 후, 제 1 영상(10)의 레이블들 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 후보 참조 영상 별로 상기 하나 이상의 레이블의 확률 값의 평균을 관련도로 산출할 수 있다.
예를 들어, 후보 참조 영상 1에 할당된 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블은 A 레이블 및 B 레이블이므로, 후보 참조 영상 1의 관련도는 90%와 100%의 평균인 95%로 산출될 수 있다. 또한, 후보 참조 영상 2에 할당된 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블은 A 레이블, B 레이블 및 C 레이블이므로, 후보 참조 영상 2의 관련도는 90%, 100&, 70%의 평균인 86%로 산출될 수 있다. 또한, 후보 참조 영상 3에 할당된 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블은 B 레이블 및 C 레이블이므로, 후보 참조 영상 3의 관련도는 100%와 70%의 평균인 85%로 산출될 수 있다. 만약, 관심 영역의 레이블과만 동일한 시각 감성 레이블이 할당된 후보 참조 영상에 대해서는 관련도가 100%로 산출될 수 있다.
영상 처리 장치(100)는 후보 참조 영상들 중 관련도가 가장 높은 후보 참조 영상(도 6에서 제 1 후보 참조 영상)을 타겟 참조 영상으로 선택할 수 있다.
일 실시예에서, 도 5 및 도 6과 같이 각 후보 참조 영상별로 관련도가 산출된 경우, 도 7에 도시된 바와 같이, 영상 처리 장치(100)는 관련도의 크기에 기초한 순서대로 각 후보 참조 영상에 대응하는 썸네일 영상(710, 720, 730)을 디스플레이(700)에 표시할 수 있다. 예를 들어, 관련도가 높은 순서대로 각 후보 참조 영상에 대응하는 썸네일 영상(710, 720, 730)을 디스플레이(700)에 표시할 수 있다. 그리고, 영상 처리 장치(100)는 디스플레이(700)에 표시된 썸네일 영상(710, 720, 730) 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.
일 예로, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 영상 처리 장치(100)는 상기 썸네일 이미지(710, 720, 730)를 자신의 디스플레이에 표시할 수 있다. 또한, 일 예로, 영상 처리 장치(100)가 서버로 구현된 경우, 서버는 썸네일 영상(710, 720, 730)을 사용자 디바이스로 전송하여 사용자 디바이스가 디스플레이에 썸네일 영상(710, 720, 730)을 표시하게 할 수도 있다.
일 예에서, 영상 처리 장치(100)는 각 후보 참조 영상의 썸네일 영상(710, 720, 730) 대신, 각 후보 참조 영상의 스타일과 같이 제 1 영상(10)을 변경시켰을 때의 썸네일 영상을 디스플레이에 표시하고, 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 타겟 참조 영상으로 선택할 수도 있다.
도 8은 제 1 영상(10)에 기초하여 제 2 영상(90)을 생성하는 방법을 설명하기 위한 도면이다.
앞서 제 1 영상(10)의 제 1 스타일 데이터 및 타겟 참조 영상의 참조 스타일 데이터가 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나를 포함할 수 있음을 설명하였으나, 도 8은 제 1 영상(10)의 제 1 스타일 데이터 및 타겟 참조 영상의 참조 스타일 데이터가 특징 맵(40, 50)인 경우를 도시하고 있다.
영상 처리 장치(100)는 제 1 영상(10)을 특징 추출 모델(810)에 입력시켜, 특징 추출 모델(810)에서 출력되는 제 1 특징 맵(40)을 획득한다. 그리고, 영상 처리 장치(100)는 타겟 참조 영상에 대응하는 참조 특징 맵(50)을 추출한다.
영상 처리 장치(100)는 제 1 특징 맵(40) 및 참조 특징 맵(50)에 기초하여 제 2 특징 맵(60)을 생성하고, 생성된 제 2 특징 맵(60)을 특징 합성 모델(850)에 입력할 수도 있다. 영상 처리 장치(100)는 특징 합성 모델(850)에서 출력되는 제 2 영상(90)을 획득할 수 있다.
일 실시예에서, 영상 처리 장치(100)는 제 1 특징 맵(40)을 화이트닝 변환(whitening transform)하고, 참조 특징 맵(50)에 관련된 매트릭스와 상기 화이트닝 변환된 제 1 특징 맵을 컬러링 변환(coloring transforma)하여 제 2 특징 맵(60)을 생성할 수 있다. 예를 들어, 영상 처리 장치(100)는 제 1 특징 맵(40)의 공분산 매트릭스(covariance)과 제 1 특징 맵(40)을 입력으로 하여 화이트닝 변환한다. 화이트닝 변환된 제 1 특징 맵에서 제 1 영상(10)의 스타일 정보는 제거되고, 제 1 영상(10) 내 오브젝트 정보만이 화이트닝 변환된 제 1 특징 맵에 포함된다. 그리고, 영상 처리 장치(100)는 참조 특징 맵(50)의 역 공분산 매트릭스(inverse covariance matrix)와 화이트닝 변환된 제 1 특징 맵을 입력으로 하여 컬러링 변환을 할 수 있다. 컬러링 변환 결과 생성된 제 2 특징 맵(60)에는 제 1 영상(10)의 오브젝트 정보와 타겟 탐조 영상의 스타일 정보가 포함된다.
도 9는 도 8에 도시된 특징 추출 모델(810) 및 특징 합성 모델(850)을 상세하게 나타내는 도면이다.
도 9에 도시된 바와 같이, 특징 추출 모델(810)은 제 1 영상(10)의 특징 맵의 추출을 위한 복수의 컨볼루션 레이어(811, 812, 813, 814, 815)를 포함할 수 있다. 일 실시예에서, 각 컨볼루션 레이어(811, 812, 813, 814, 815)는 소정 크기 및 개수의 필터 커널을 이용하여 입력 데이터를 컨볼루션 처리한다.
일 실시예에서, 복수의 컨볼루션 레이어(811, 812, 813, 814, 815) 중 적어도 일부는 활성화 레이어 및/또는 풀링(pooling) 레이어를 포함할 수 있다. 활성화 레이어는 이전 레이어의 출력 결과에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 활성화 레이어는 활성화 함수를 이용할 수 있다. 활성화 함수는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
특징 합성 모델(850)은 스타일 변환된 특징 맵들과 이전 레이어의 출력된 데이터를 입력받아 컨볼루션 처리하는 복수의 디컨볼루션 레이어(851, 852, 853, 854, 855)를 포함할 수 있다.
일 실시예에서, 각 디컨볼루션 레이어(851, 852, 853, 854, 855)는 소정 크기 및 개수의 필터 커널을 이용하여 입력 데이터를 컨볼루션 처리한다. 또한, 일 실시예에서, 복수의 디컨볼루션 레이어(851, 852, 853, 854, 855) 중 적어도 일부는 활성화 레이어 및/또는 풀링 레이어를 포함할 수 있다.
복수의 디컨볼루션 레이어(851, 852, 853, 854, 855) 중 제 1 디컨볼루션 레이어는(851), 제 5 컨볼루션 레이어(815)로부터 출력되는 특징 맵과, 제 5 컨볼루션 레이어(815)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.
제 2 디컨볼루션 레이어(852)는, 제 1 디컨볼루션 레이어(851)로부터 출력되는 특징 맵과, 제 4 컨볼루션 레이어(814)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.
제 3 디컨볼루션 레이어(853)는, 제 2 디컨볼루션 레이어(852)로부터 출력되는 특징 맵과, 제 3 컨볼루션 레이어(813)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.
제 4 디컨볼루션 레이어(854)는, 제 3 디컨볼루션 레이어(853)로부터 출력되는 특징 맵과, 제 2 컨볼루션 레이어(812)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.
제 5 디컨볼루션 레이어(855)는, 제 4 디컨볼루션 레이어(854)로부터 출력되는 특징 맵과, 제 1 컨볼루션 레이어(811)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.
도 9는 특징 추출 모델(810)이 5개의 컨볼루션 레이어(811, 812, 813, 814, 815)를 포함하고, 특징 합성 모델(850)이 5개의 디컨볼루션 레이어(851, 852, 853, 854, 855)를 포함하고 있는 것으로 도시하고 있는데, 이는 하나의 예시일 뿐이며, 특징 추출 모델(810) 및 특징 합성 모델(850)에 포함 가능한 컨볼루션 레이어의 개수와 디컨볼루션 레이어의 개수는 다양하게 변경될 수 있다. 또한, 일 실시예에서, 특징 추출 모델(810) 및/또는 특징 합성 모델(850)은 FCL(fully connected layer)을 더 포함할 수도 있다.
한편, 일 실시예에서, 영상 처리 장치(100)는 복수의 참조 영상 그룹 중 어느 하나의 참조 영상 그룹에 포함된 참조 영상들 중에서 제 1 영상(10)과 관련성이 높은 타겟 참조 영상을 선택할 수도 있다.
상기 참조 영상 그룹은 각각의 참조 영상의 제작자에 따라 구분될 수 있다. 예를 들어, 복수의 참조 영상 그룹은 A 제작자에 의해 생성된 참조 영상들을 포함하는 참조 영상 그룹, B 제작자에 의해 생성된 참조 영상들을 포함하는 참조 영상 그룹 등을 포함할 수 있다.
영상 처리 장치(100)는 각각의 참조 영상 그룹의 정보를 디스플레이에 표시하고, 사용자가 선택한 참조 영상 그룹에 포함된 참조 영상들 중에서 제 1 영상(10)과 관련성이 높은 타겟 참조 영상을 선택할 수 있다.
이를 위해, 도 10에 도시된 바와 같이, 디스플레이(1000)에는 각각의 참조 영상 그룹을 나타내는 정보(예를 들어, 제작자의 식별 정보 등)가 표시되고, 사용자는 어느 하나의 참조 영상 그룹을 나타내는 정보를 선택할 수 있다.
영상의 제작자마다 고유의 스타일이 존재하므로, 사용자는 자신이 선호하는 제작자의 스타일대로 영상을 촬영할 수 있게 된다.
일 예로, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 영상 처리 장치(100)는 상기 참조 영상 그룹 정보를 자신의 디스플레이에 표시할 수 있다. 또한, 일 예로, 영상 처리 장치(100)가 서버로 구현된 경우, 서버는 참조 영상 그룹 정보를 사용자 디바이스로 전송하여 사용자 디바이스가 디스플레이에 표시하게 할 수도 있다.
한편, 일 실시예에서, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 스타일 데이터의 추출은 서버에서 수행될 수 있다. 다시 말하면, 참조 영상들 자체를 필요로 하는 프로세스, 예를 들어, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 스타일 데이터의 추출은 사용자 디바이스 대신 서버에서 수행될 수 있다. 참조 영상들에 할당된 시각 감성 레이블, 참조 영상들의 참조 스타일 데이터 및 인식 모델 관련 데이터는 서버로부터 사용자 디바이스로 전송될 수 있다. 사용자 디바이스는 인식 모델(300)에 제 1 영상(10)을 입력하고, 제 1 영상(10)의 레이블과 참조 영상들의 시각 감성 레이블들의 비교 결과에 따라 타겟 참조 영상의 참조 스타일 데이터를 획득하고, 제 1 스타일 데이터 및 참조 스타일 데이터에 기초하여 생성된 제 2 스타일 데이터에 따라 제 2 영상(90)을 생성할 수 있다.
또한, 전술한 바와 같이, 참조 영상들이 참조 영상 그룹으로 구분된 경우, 사용자 디바이스는 각각의 참조 영상 그룹에 대응하는 인식 모델(300)의 내부 파라미터 정보를 더 저장할 수 있다. 서버는 참조 영상 그룹별로 인식 모델(300)을 개별적으로 훈련시키고, 각각의 참조 영상 그룹에 대응하는 인식 모델(300)의 내부 파라미터 정보를 사용자 디바이스로 전송할 수 있다. 예를 들어, 인식 모델(300)은 A 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련됨으로써 A 참조 영상 그룹에 최적화된 내부 파라미터를 가질 수 있고, B 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련됨으로써 B 참조 영상 그룹에 최적화된 내부 파라미터를 가질 수 있다. 사용자 디바이스는 인식 모델(300)이 사용자가 선택한 참조 영상 그룹에 대응하는 내부 파라미터에 따라 동작하도록 제어할 수 있다. 예를 들어, 영상 처리 장치(100)는 인식 모델(300)의 내부 파라미터를, 사용자가 선택한 참조 영상 그룹에 대응하는 내부 파라미터로 변경하고, 내부 파라미터가 변경된 인식 모델(300)에서 제 1 영상(10)의 레이블들이 추출되도록 한다.
도 11을 참조하면, 서버(3000)는 사용자 디바이스(2000)가 접속됨에 따라 참조 영상 그룹 리스트를 사용자 디바이스(2000)로 전송하고, 사용자 디바이스(2000)는 참조 영상 그룹 리스트 중 사용자에 의해 선택된 참조 영상 그룹 관련 데이터를 서버(3000)로 요청한다. 서버(3000)는 사용자가 선택한 참조 영상 그룹에 포함된 참조 영상들의 시각 감성 레이블(1110), 참조 스타일 데이터(1120) 및 인식 모델(300)의 내부 파라미터(1130)를 영상 처리 장치(100)로 전송할 수 있다. 즉, 도 11에서와 같이, 서버(3000)는 참조 영상들 자체가 아닌, 참조 영상들의 시각 감성 레이블(1110), 참조 스타일 데이터(1120) 및 각 참조 영상 그룹에 대응하는 내부 파라미터(1130)만을 사용자 디바이스(2000)로 전송하므로, 사용자 디바이스(2000)에 저장된 데이터의 용량을 감소시킬 수 있다.
또한, 일 실시예에서, 영상 처리 장치(100)가 서버로 구현된 경우, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 영상들의 참조 스타일 데이터의 추출 등이 서버에서 수행될 수 있다. 서버는 사용자 디바이스로부터 수신된 제 1 영상(10)으로부터 스타일 변환된 제 2 영상(90)을 생성하고, 제 2 영상(90)을 사용자 디바이스로 전송할 수 있다.
또한, 일 실시예에서, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우에도, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 영상들의 참조 스타일 데이터의 추출 등이 사용자 디바이스에서 수행될 수 있다. 사용자 디바이스는 제 1 영상(10)으로부터 스타일 변환된 제 2 영상(90)을 생성할 수 있다.
도 12는 다른 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.
S1210 단계에서, 영상 처리 장치(100)는 복수의 참조 영상 중 제 1 영상(10)과 관련된 적어도 하나의 참조 영상을 적어도 하나의 후보 참조 영상으로 선택한다. 여기서, 영상 처리 장치(100)는 복수의 참조 영상의 특징들(명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나)과 제 1 영상(10)의 특징들을 비교하여, 제 1 영상(10)과 관련성이 높은 적어도 하나의 후보 참조 영상을 선택할 수 있다.
S1220 단계에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 디스플레이에 표시한다. 영상 처리 장치(100)는 후보 참조 영상을 축소시킨 썸네일 영상을 디스플레이에 표시할 수 있고, 또는 각각의 후보 참조 영상에 따라 제 1 영상(10)의 스타일을 변환시켰을 때의 썸네일 영상을 디스플레이에 표시할 수도 있다.
일 예로, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 영상 처리 장치(100)는 썸네일 이미지를 자신의 디스플레이에 표시할 수 있다. 또한, 일 예로, 영상 처리 장치(100)가 서버로 구현된 경우, 서버는 썸네일 영상을 사용자 디바이스로 전송하여 사용자 디바이스가 디스플레이에 썸네일 영상을 표시하게 할 수도 있다.
S1230 단계에서, 영상 처리 장치(100)는 디스플레이에 표시된 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 타겟 참조 영상으로 선택한다. 사용자는 디스플레이에 표시된 썸네일 영상 중 터치 등의 방법으로 어느 하나의 썸네일 영상을 선택할 수 있다.
S1240 단계에서, 영상 처리 장치(100)는 타겟 참조 영상의 특징에 따라 제 1 영상(10)으로부터 변경된 제 2 영상(90)을 생성할 수 있다. 예를 들어, 영상 처리 장치(100)는 제 1 영상(10)의 특징이 타겟 참조 영상의 특징과 동일/유사해지도록 제 1 영상(10)을 변경하여 제 2 영상(90)을 생성할 수 있다.
도 13은 일 실시예에 따른 영상 처리 장치(100)의 구성을 도시하는 블록도이다.
도 13을 참조하면, 영상 처리 장치(100)는 메모리(1300), 통신부(1400) 및 프로세서(1500)를 포함할 수 있다. 메모리(1300), 통신부(1400) 및 프로세서(1500)는 메모리(1300)에 저장된 프로그램에 따라 동작할 수 있다.
메모리(1300)는 인식 모델(300)을 저장할 수 있다. 또한, 메모리(1300)는 특징 추출 모델(810) 및 특징 합성 모델(850)을 더 저장할 수 있다. 또한, 메모리(1300)는 참조 영상들과 관련된 데이터, 예를 들어, 참조 영상들에 할당된 시각 감성 레이블, 참조 영상들의 참조 스타일 데이터 및 참조 영상 그룹별 내부 파라미터를 저장할 수 있다.
통신부(1400)는 네트워크를 통해 외부 디바이스와 데이터를 송수신한다.
프로세서(1500)는 제 1 영상(10)을 인식 모델(300)에 입력시켜 인식 모델(300)에서 출력되는 레이블 및/또는 레이블의 확률 값을 획득한다. 프로세서(1500)는 참조 영상들 중 제 1 영상(10)과 관련성이 높은 타겟 참조 영상의 참조 스타일 데이터를 획득하고, 제 1 영상(10)의 제 1 스타일 데이터 및 참조 스타일 데이터에 기초하여 제 2 스타일 데이터를 생성한다. 그리고, 프로세서(1500)는 제 2 스타일 데이터에 기초하여 제 2 영상(90)을 생성한다.
일 실시예에서, 프로세서(1500)는 참조 영상들에 기초하여 인식 모델(300)을 훈련시킬 수도 있다. 프로세서(1500)는 참조 영상들 및 참조 영상들에 할당된 시각 감성 레이블을 인식 모델(300)에 입력시켜 인식 모델(300)의 내부 파라미터가 갱신되도록 할 수 있다.
이하에서는, 프로세서(1500)가 인식 모델(300)을 훈련시키는 경우의 세부 구성에 대해 도 14 내지 도 16을 참조하여 설명한다.
도 14는 일부 실시예에 따른 프로세서(1500)의 블록도이다.
도 14를 참조하면, 일부 실시예에 따른 프로세서(1500)는 데이터 학습부(1510) 및 데이터 인식부(1520)를 포함할 수 있다.
데이터 학습부(1510)는 상황 판단(예를 들어, 영상에 대응하는 레이블의 판단)을 위한 기준을 학습할 수 있다. 데이터 학습부(1510)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1510)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 인식 모델(300)에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.
데이터 인식부(1520)는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부(1520)는 학습된 인식 모델(300)을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(1520)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 인식 모델(300)을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 인식 모델(300)에 의해 출력된 결과 값은, 인식 모델(300)을 갱신하는데 이용될 수 있다.
데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
이 경우, 데이터 학습부(1510) 및 데이터 인식부(1520)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 하나는 사용자 디바이스(2000)에 포함되고, 나머지 하나는 서버(3000)에 포함될 수 있다. 또한, 데이터 학습부(1510) 및 데이터 인식부(1520)는 유선 또는 무선으로 통하여, 데이터 학습부(1510)가 구축한 모델 정보를 데이터 인식부(1520)로 제공할 수도 있고, 데이터 인식부(1520)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1510)로 제공될 수도 있다.
한편, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 15는 일부 실시예에 따른 데이터 학습부(1510)의 블록도이다.
도 15를 참조하면, 일부 실시예에 따른 데이터 학습부(1510)는 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5)를 포함할 수 있다.
데이터 획득부(1510-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 데이터 획득부(1510-1)는 상황 판단을 위한 학습을 위하여 필요한 데이터를 획득할 수 있다.
데이터 획득부(1510-1)는 카메라에 의해 촬영된 영상 데이터를 획득하거나, 외부 장치로부터 네트워크를 통해 수신된 영상 데이터를 획득할 수 있다. 또는 데이터 획득부(1510-1)는 카메라에 의해 인식되는 프리뷰 영상 데이터를 획득할 수 있다.
전처리부(1510-2)는 상황 판단을 위한 학습에 획득 데이터가 이용될 수 있도록, 획득 데이터를 전처리할 수 있다. 전처리부(1510-2)는 후술할 모델 학습부(1510-4)가 상황 판단을 위한 학습을 위하여 획득 데이터를 이용할 수 있도록, 획득 데이터를 기 설정된 포맷으로 가공할 수 있다.
학습 데이터 선택부(1510-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1510-4)에 제공될 수 있다. 학습 데이터 선택부(1510-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1510-3)는 후술할 모델 학습부(1510-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 학습부(1510-4)는 학습 데이터에 기초하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1510-4)는 상황 판단을 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다.
또한, 모델 학습부(1510-4)는 상황 판단에 이용되는 인식 모델(300)을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 인식 모델(300)은 미리 구축된 모델일 수 있다. 예를 들어, 인식 모델(300)은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.
인식 모델(300)은, 인식 모델(300)의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인식 모델(300)은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 인식 모델(300)로서 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(1510-4)는 미리 구축된 인식 모델(300)이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 인식 모델(300)을 학습할 인식 모델(300)로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 인식 모델(300)은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1510-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 인식 모델(300)을 학습시킬 수 있다.
또한, 모델 학습부(1510-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 인식 모델(300)을 학습시킬 수 있다. 또한, 모델 학습부(1510-4)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 인식 모델(300)을 학습시킬 수 있다. 또한, 모델 학습부(1510-4)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 인식 모델(300)을 학습시킬 수 있다.
또한, 인식 모델(300)이 학습되면, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 저장할 수 있다. 이 경우, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 데이터 인식부(1520)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 후술할 데이터 인식부(1520)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버(3000)의 메모리에 저장할 수도 있다.
이 경우, 학습된 인식 모델(300)이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(1510-5)는 인식 모델(300)에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1510-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델(300)을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(1510-5)는 평가 데이터에 대한 학습된 인식 모델(300)의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 인식 모델(300)이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1510-5)는 학습된 인식 모델(300)이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 인식 모델(300)이 복수 개가 존재하는 경우, 모델 평가부(1510-5)는 각각의 학습된 인식 모델(300)에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 인식 모델(300)로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1510-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 인식 모델(300)로서 결정할 수 있다.
한편, 데이터 학습부(1510) 내의 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 일부는 사용자 디바이스(2000)에 포함되고, 나머지 일부는 서버(3000)에 포함될 수 있다.
또한, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 16은 일부 실시예에 따른 데이터 인식부(1520)의 블록도이다.
도 16을 참조하면, 일부 실시예에 따른 데이터 인식부(1520)는 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5)를 포함할 수 있다.
데이터 획득부(1520-1)는 상황 판단에 필요한 데이터를 획득할 수 있으며, 전처리부(1520-2)는 상황 판단을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1520-2)는 후술할 인식 결과 제공부(1520-4)가 상황 판단을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(1520-3)는 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1520-4)에게 제공될 수 있다. 인식 데이터 선택부(1520-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1520-3)는 모델 학습부(1510-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
인식 결과 제공부(1520-4)는 선택된 데이터를 인식 모델(300)에 적용하여 상황을 판단할 수 있다. 인식 결과 제공부(1520-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 인식 모델(300)에 적용할 수 있다. 또한, 인식 결과는 인식 모델(300)에 의해 결정될 수 있다. 예를 들어, 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 제 1 영상(10)을 인식 모델(300)에 적용할 수 있다. 인식 결과 제 1 영상(10)에 대응하는 레이블 및 레이블의 확률 값이 결정될 수 있다.
모델 갱신부(1520-5)는 인식 결과 제공부(1520-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 인식 모델(300)이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1520-5)는 인식 결과 제공부(1520-4)에 의해 제공되는 인식 결과를 모델 학습부(1510-4)에게 제공함으로써, 모델 학습부(1510-4)가 인식 모델(300)을 갱신하도록 할 수 있다.
한편, 데이터 인식부(1520) 내의 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 일부는 사용자 디바이스(2000)에 포함되고, 나머지 일부는 서버(3000)에 포함될 수 있다.
또한, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 17은 일부 실시예에 따른 사용자 디바이스(2000) 및 서버(3000)가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 17를 참조하면, 서버(3000)는 상황 판단(예를 들어, 영상에 대응하는 레이블의 판단)을 위한 기준을 학습할 수 있으며, 사용자 디바이스(2000)는 서버(3000)에 의한 학습 결과에 기초하여 상황을 판단할 수 있다.
이 경우, 서버(3000)의 모델 학습부(3340)는 도 15에 도시된 데이터 학습부(1510)의 기능을 수행할 수 있다. 서버(3000)의 모델 학습부(3340)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 모델 학습부(3340)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 인식 모델(300)에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.
또한, 사용자 디바이스(2000)의 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 서버(3000)에 의해 생성된 인식 모델(300)에 적용하여 상황을 판단할 수 있다. 예를 들어, 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 서버(3000)에게 전송하고, 서버(3000)가 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 인식 모델(300)에 적용하여 상황을 판단할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1520-4)는 서버(3000)에 의해 판단된 상황에 관한 정보를 서버(3000)로부터 수신할 수 있다.
또는, 사용자 디바이스(2000)의 인식 결과 제공부(1520-4)는 서버(3000)에 의해 생성된 인식 모델(300)을 서버(3000)로부터 수신하고, 수신된 인식 모델(300)을 이용하여 상황을 판단할 수 있다. 이 경우, 사용자 디바이스(2000)의 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 서버(3000)로부터 수신된 인식 모델(300)에 적용하여 상황을 판단할 수 있다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.
매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims (15)

  1. 제 1 영상을 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하는 단계;
    참조 영상들에 미리 할당된 시각 감성 레이블들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계;
    상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및
    상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  2. 제1항에 있어서,
    상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
    상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하는 단계; 및
    상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중에서 상기 타겟 참조 영상을 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  3. 제2항에 있어서,
    상기 제 1 영상의 레이블을 획득하는 단계는,
    상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계를 포함하고,
    상기 관련도를 산출하는 단계는,
    상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  4. 제2항에 있어서,
    상기 타겟 참조 영상을 선택하는 단계는,
    상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하는 단계; 및
    상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  5. 제1항에 있어서,
    상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
    상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  6. 제1항에 있어서,
    상기 제 1 영상의 레이블을 획득하는 단계는,
    상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하는 단계를 포함하되,
    상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
    상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  7. 제6항에 있어서,
    상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
    상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상을 식별하는 단계;
    상기 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하는 단계; 및
    상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  8. 제7항에 있어서,
    상기 제 1 영상의 레이블을 획득하는 단계는,
    상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계를 포함하고,
    상기 관련도를 산출하는 단계는,
    상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출하는 단계를 포함하되,
    상기 관심 영역의 레이블의 확률 값은 기 설정된 값으로 설정되는 것을 특징으로 하는 영상 처리 방법.
  9. 제1항에 있어서,
    상기 영상 처리 방법은,
    복수의 참조 영상 그룹 중 사용자에 의해 선택된 참조 영상 그룹에 대응하는 내부 파라미터로 상기 인식 모델의 내부 파라미터를 변경하는 단계; 및
    상기 내부 파라미터가 변경된 상기 인식 모델에 상기 제 1 영상을 입력하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  10. 제9항에 있어서,
    상기 복수의 참조 영상 그룹은,
    참조 영상들의 제작자에 따라 구분되는 것을 특징으로 하는 영상 처리 방법.
  11. 제9항에 있어서,
    상기 영상 처리 방법은,
    서버에 접속하여 참조 영상 그룹 리스트를 상기 서버로부터 수신하는 단계;
    상기 참조 영상 그룹 리스트 중 사용자로부터 적어도 하나의 참조 영상 그룹을 선택받는 단계; 및
    상기 선택된 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련된 인식 모델의 내부 파라미터, 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들의 참조 스타일 데이터 및 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 할당된 시각 감성 레이블을 상기 서버로부터 수신하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
  12. 제1항에 있어서,
    상기 영상 처리 방법은,
    상기 제 1 영상을 특징 추출 모델에 입력시켜 상기 제 1 영상의 제 1 스타일 데이터를 획득하는 단계; 및
    상기 생성된 제 2 스타일 데이터를 특징 합성 모델이 입력시켜 상기 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  13. 복수의 참조 영상 중 제 1 영상과 관련된 적어도 하나의 참조 영상을 적어도 하나의 후보 참조 영상으로 선택하는 단계;
    상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 디스플레이에 표시하는 단계;
    상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계; 및
    상기 타겟 참조 영상의 특징에 따라 상기 제 1 영상과 상이한 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
  14. 제1항 내지 제13항 중 어느 하나의 항의 영상 처리 방법을 실행하기 위하여 매체에 저장된 프로그램.
  15. 프로세서; 및
    인식 모델 및 적어도 하나의 프로그램을 저장하는 메모리를 포함하되,
    상기 프로세서는, 상기 적어도 하나의 프로그램이 실행됨에 따라,
    제 1 영상을 상기 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하고,
    참조 영상들에 미리 할당된 시각 감성 레이블들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하고,
    상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하고,
    상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 것을 특징으로 하는 영상 처리 장치.
PCT/KR2019/018302 2018-12-21 2019-12-23 스타일 변환을 위한 영상 처리 장치 및 방법 WO2020130747A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP24190826.8A EP4432250A2 (en) 2018-12-21 2019-12-23 Image processing apparatus and method for style transformation
EP19897670.6A EP3886037B1 (en) 2018-12-21 2019-12-23 Image processing apparatus and method for style transformation
US17/416,293 US11887215B2 (en) 2018-12-21 2019-12-23 Image processing apparatus and method for style transformation
US18/524,905 US20240095972A1 (en) 2018-12-21 2023-11-30 Image processing apparatus and method for style transformation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0167895 2018-12-21
KR1020180167895A KR102646889B1 (ko) 2018-12-21 2018-12-21 스타일 변환을 위한 영상 처리 장치 및 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/416,293 A-371-Of-International US11887215B2 (en) 2018-12-21 2019-12-23 Image processing apparatus and method for style transformation
US18/524,905 Continuation US20240095972A1 (en) 2018-12-21 2023-11-30 Image processing apparatus and method for style transformation

Publications (1)

Publication Number Publication Date
WO2020130747A1 true WO2020130747A1 (ko) 2020-06-25

Family

ID=71102654

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/018302 WO2020130747A1 (ko) 2018-12-21 2019-12-23 스타일 변환을 위한 영상 처리 장치 및 방법

Country Status (4)

Country Link
US (2) US11887215B2 (ko)
EP (2) EP4432250A2 (ko)
KR (2) KR102646889B1 (ko)
WO (1) WO2020130747A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11776092B2 (en) * 2019-11-01 2023-10-03 Lg Electronics Inc. Color restoration method and apparatus
CN110880022A (zh) * 2019-11-12 2020-03-13 北京小米智能科技有限公司 标注方法、装置及存储介质
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102208685B1 (ko) * 2020-07-23 2021-01-28 주식회사 어반베이스 데이터 증강 기반 공간 분석 모델 학습 장치 및 방법
KR102208690B1 (ko) * 2020-07-23 2021-01-28 주식회사 어반베이스 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법
KR102234609B1 (ko) * 2020-07-23 2021-04-02 주식회사 어반베이스 이미지 데이터베이스 분석 기반 상품 추천 장치
KR102208688B1 (ko) * 2020-07-23 2021-01-28 주식회사 어반베이스 데이터 증강 기반 사물 분석 모델 학습 장치 및 방법
KR20230096901A (ko) 2021-12-23 2023-06-30 주식회사케이티넥스알 자율 주행 차량의 학습을 위한 데이터 증식 방법 및 그를 위한 장치
KR102702958B1 (ko) * 2022-11-29 2024-09-04 연세대학교 산학협력단 입력 영상의 스타일 변환 장치 및 방법
CN118537207A (zh) * 2023-02-17 2024-08-23 北京字跳网络技术有限公司 一种图像处理方法、装置、设备及存储介质
CN117729421B (zh) * 2023-08-17 2024-10-18 荣耀终端有限公司 图像处理方法、电子设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146071A (ja) * 2011-01-11 2012-08-02 Ricoh Co Ltd 画像処理装置
KR20180074977A (ko) * 2016-12-26 2018-07-04 연세대학교 산학협력단 영상 간의 특질 변환 시스템 및 그 방법
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
KR20180118270A (ko) * 2017-04-21 2018-10-31 (주)코믹스브이 웹툰 작가화풍에 기반하여 배경이미지를 제공하는 방법
US20180322662A1 (en) * 2015-11-06 2018-11-08 Thomson Licensing Method for transfer of a style of a reference visual object to another visual object, and corresponding electronic device, computer readable program products and computer readable storage medium

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPP764398A0 (en) * 1998-12-11 1999-01-14 Canon Kabushiki Kaisha Method and apparatus for computing the similarity between images
KR102146855B1 (ko) 2013-12-30 2020-08-21 삼성전자주식회사 촬영 설정 값을 공유하는 촬영 장치 및 방법 및 공유 시스템
KR101555428B1 (ko) 2014-02-18 2015-09-25 홍익대학교 산학협력단 전문가 배경 영상데이터를 이용한 영상 촬영 시스템 및 방법
US10095637B2 (en) 2016-09-15 2018-10-09 Advanced Micro Devices, Inc. Speculative retirement of post-lock instructions
US10402943B2 (en) 2016-10-20 2019-09-03 Htc Corporation Image enhancement device and method for convolutional network apparatus
US10093358B2 (en) 2016-10-31 2018-10-09 Nissan North America, Inc. Vehicle structure
US20190208124A1 (en) * 2017-12-29 2019-07-04 Gopro, Inc. Methods and apparatus for overcapture storytelling
CN108629747B (zh) * 2018-04-25 2019-12-10 腾讯科技(深圳)有限公司 图像增强方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146071A (ja) * 2011-01-11 2012-08-02 Ricoh Co Ltd 画像処理装置
US20180322662A1 (en) * 2015-11-06 2018-11-08 Thomson Licensing Method for transfer of a style of a reference visual object to another visual object, and corresponding electronic device, computer readable program products and computer readable storage medium
KR20180074977A (ko) * 2016-12-26 2018-07-04 연세대학교 산학협력단 영상 간의 특질 변환 시스템 및 그 방법
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
KR20180118270A (ko) * 2017-04-21 2018-10-31 (주)코믹스브이 웹툰 작가화풍에 기반하여 배경이미지를 제공하는 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3886037A4 *

Also Published As

Publication number Publication date
EP4432250A2 (en) 2024-09-18
KR20240038939A (ko) 2024-03-26
US20220067421A1 (en) 2022-03-03
EP3886037A1 (en) 2021-09-29
EP3886037A4 (en) 2022-01-19
KR20200078214A (ko) 2020-07-01
US11887215B2 (en) 2024-01-30
KR102646889B1 (ko) 2024-03-12
US20240095972A1 (en) 2024-03-21
EP3886037B1 (en) 2024-09-18

Similar Documents

Publication Publication Date Title
WO2020130747A1 (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
WO2019031714A1 (ko) 객체를 인식하는 방법 및 장치
WO2018117704A1 (en) Electronic apparatus and operation method thereof
WO2020085694A1 (ko) 이미지 획득 장치 및 그의 제어 방법
WO2019098449A1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
WO2021006482A1 (en) Apparatus and method for generating image
WO2019143227A1 (en) Electronic device providing text-related image and method for operating the same
WO2019059505A1 (ko) 객체를 인식하는 방법 및 장치
WO2019093819A1 (ko) 전자 장치 및 그 동작 방법
WO2019231130A1 (ko) 전자 장치 및 그의 제어방법
WO2022191474A1 (ko) 이미지의 화질을 개선하는 전자 장치 및 이를 이용한 이미지의 화질 개선 방법
WO2020179995A1 (ko) 전자 장치 및 이의 제어 방법
WO2021112631A1 (en) Device, method, and program for enhancing output content through iterative generation
EP3539056A1 (en) Electronic apparatus and operation method thereof
EP3545487A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2018174443A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2018097439A1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
WO2023167530A1 (en) Method for classifying images using novel classes
WO2020130260A1 (en) Mobile terminal and method of operating the same
WO2019054792A1 (ko) 컨텐트를 제공하는 방법 및 단말기
WO2019107674A1 (en) Computing apparatus and information input method of the computing apparatus
EP3707678A1 (en) Method and device for processing image
WO2021040105A1 (ko) 개체명 테이블을 생성하는 인공 지능 장치 및 그 방법
WO2019190171A1 (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19897670

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019897670

Country of ref document: EP

Effective date: 20210624