WO2021167210A1 - 서버, 전자 장치 및 그들의 제어 방법 - Google Patents

서버, 전자 장치 및 그들의 제어 방법 Download PDF

Info

Publication number
WO2021167210A1
WO2021167210A1 PCT/KR2020/016640 KR2020016640W WO2021167210A1 WO 2021167210 A1 WO2021167210 A1 WO 2021167210A1 KR 2020016640 W KR2020016640 W KR 2020016640W WO 2021167210 A1 WO2021167210 A1 WO 2021167210A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
fake
artificial intelligence
images
server
Prior art date
Application number
PCT/KR2020/016640
Other languages
English (en)
French (fr)
Inventor
권재현
남진우
송길우
신희승
최민석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2021167210A1 publication Critical patent/WO2021167210A1/ko
Priority to US17/520,245 priority Critical patent/US20220058375A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present disclosure relates to a server, an electronic device, and a control method thereof, and more particularly, to a server for identifying a fake image, an electronic device, and a control method thereof.
  • the fake image may refer to an image in which a face or a face part included in the original image is synthesized with another person's face or face part.
  • the present disclosure has been devised according to the above-mentioned necessity, and is a server, electronic, which can identify whether an image is a fake image using an artificial intelligence model learned by original images and fake images including information about landmarks. To provide an apparatus and a method for controlling them.
  • the server includes a memory in which an artificial intelligence model learned to identify a fake image is stored and a processor connected to the memory to control the server, wherein the processor transmits the image to the artificial intelligence model. It is input to identify whether the image is a fake image, and the artificial intelligence model is a model learned based on original images and fake images each including information on landmarks of a face region.
  • the artificial intelligence model is a face included in each of the original images and the fake images in which the pixel value of a pixel corresponding to a landmark in the face region included in each of the original images is adjusted to a preset pixel value. It may be a model learned based on the fake images in which the pixel value of a pixel corresponding to a landmark in the area is adjusted to a preset pixel value.
  • the AI model is trained based on at least one of a range of color values of a face region included in each of the original images and the fake images and a difference in brightness between a forehead region and a cheek region in the face region.
  • the artificial intelligence model is one of a plurality of artificial intelligence models stored in the memory, and each of the plurality of artificial intelligence models is one of the original images according to a pose of a face included in each of the original images and the fake images. and a model learned based on each of a plurality of groups into which the fake images are classified, and the processor determines a pose of a face included in the image, and artificial intelligence corresponding to the determined pose among the plurality of artificial intelligence models. By inputting an image to the model, it is possible to identify whether the image is a fake image.
  • the electronic device controls a display, a communication interface, a memory in which an artificial intelligence model learned to identify a fake image is stored, and is connected to the display, the communication interface, and the memory to control the electronic device.
  • the artificial intelligence model is a model learned based on original images and fake images each including information on landmarks of a face region
  • the processor is configured to detect a fake image among the electronic device and the server.
  • determining whether a device is an image and when it is determined that the electronic device is a device for identifying whether the image is a fake image, input the image to the artificial intelligence model to identify whether the image is a fake image,
  • the server When it is determined that the server is a device for identifying whether the image is a fake image, it transmits the image to the server through the communication interface, and when the image is a fake image, a UI screen indicating that the image is a fake image displayed on the display.
  • the artificial intelligence model is a face included in each of the original images and the fake images in which the pixel value of a pixel corresponding to a landmark in the face region included in each of the original images is adjusted to a preset pixel value. It may be a model learned based on the fake images in which the pixel value of a pixel corresponding to a landmark in the area is adjusted to a preset pixel value.
  • the processor is configured to determine a device set according to a user command among the electronic device and the server, a network state of the electronic device, the size of the image, the type of the image, the size of the face region included in the image, and the face region. Based on at least one of the number, a device for identifying whether the image is a fake image among the electronic device and the server may be determined.
  • the processor determines that the electronic device is a device for identifying whether the image is a fake image, and the device set according to the user command is the server. In this case, it may be determined that the server is a device for identifying whether the image is a fake image.
  • the processor uses the lookup table stored in the memory to at least one of a network state of the electronic device, a size of the image, a type of the image, a size of a face region included in the image, and the number of face regions. Accordingly, it is possible to determine a device for identifying whether the image is a fake image among the electronic device and the server.
  • the artificial intelligence model stored in the memory may be a compressed model of the artificial intelligence model stored in the server.
  • control method of the server includes the steps of inputting an image to an artificial intelligence model trained to identify a fake image, and based on an output value of the artificial intelligence model, the input image is a fake image and identifying recognition, wherein the artificial intelligence model may be a model learned based on original images and fake images each including information on landmarks of a face region.
  • the artificial intelligence model is a face included in each of the original images and the fake images in which the pixel value of a pixel corresponding to a landmark in the face region included in each of the original images is adjusted to a preset pixel value. It may be a model learned based on the fake images in which the pixel value of a pixel corresponding to a landmark in the area is adjusted to a preset pixel value.
  • the AI model is trained based on at least one of a range of color values of a face region included in each of the original images and the fake images and a difference in brightness between a forehead region and a cheek region in the face region.
  • the artificial intelligence model is one of a plurality of artificial intelligence models stored in the server, and each of the plurality of artificial intelligence models represents the original images according to a pose of a face included in each of the original images and the fake images. and a model learned based on each of a plurality of groups into which the fake images are classified, and the inputting step determines a pose of a face included in the image, and corresponds to the determined pose among the plurality of artificial intelligence models. You can input images into the AI model.
  • the method for controlling an electronic device in which an artificial intelligence model trained to identify a fake image includes the steps of determining a device to identify whether the image is a fake image among the electronic device and the server; When it is determined that the device is a device for identifying whether the image is a fake image, inputting the image into the artificial intelligence model to identify whether the image is a fake image, the server identifying whether the image is a fake image when it is determined that the device is a device, transmitting the image to the server; and, if the image is a fake image, displaying a UI screen indicating that the image is a fake image. It is a model trained based on original images and fake images including information on landmarks.
  • the artificial intelligence model is a face included in each of the original images and the fake images in which the pixel value of a pixel corresponding to a landmark in the face region included in each of the original images is adjusted to a preset pixel value. It may be a model learned based on the fake images in which the pixel value of a pixel corresponding to a landmark in the area is adjusted to a preset pixel value.
  • the determining may include a device set according to a user command among the electronic device and the server, a network state of the electronic device, the size of the image, the type of the image, the size of a face region included in the image, and the face Based on at least one of the number of regions, a device for identifying whether the image is a fake image among the electronic device and the server may be determined.
  • the electronic device when the device set according to the user command is the electronic device, the electronic device is determined as a device for identifying whether the image is a fake image, and the device set according to the user command is set according to the user command.
  • the server it may be determined that the server is a device for identifying whether the image is a fake image.
  • the determining may include a network state of the electronic device, a size of the image, a type of the image, a size of a face region included in the image, and the number of face regions by using a lookup table stored in the electronic device.
  • a device for identifying whether the image is a fake image may be determined from among the electronic device and the server according to at least one of
  • the artificial intelligence model stored in the electronic device may be a compressed model of the artificial intelligence model stored in the server.
  • FIG. 1 is a block diagram for explaining the configuration of a server according to an embodiment of the present disclosure
  • FIGS. 2A and 2B are diagrams for explaining a method for learning an artificial intelligence model according to an embodiment of the present disclosure
  • 3A and 3B are diagrams for explaining a method for learning an artificial intelligence model according to an embodiment of the present disclosure
  • 4A and 4B are diagrams for explaining a method for learning an artificial intelligence model according to an embodiment of the present disclosure
  • FIG. 5 is a view for explaining an example of an artificial intelligence model according to an embodiment of the present disclosure.
  • FIG. 6 is a view for explaining a method of determining a pose of a face according to an embodiment of the present disclosure
  • FIGS. 7A to 7E are diagrams for explaining a method for learning an artificial intelligence model according to an embodiment of the present disclosure.
  • FIG. 8 is a block diagram illustrating a detailed configuration of a server according to an embodiment of the present disclosure.
  • FIG. 9 is a view for explaining a system for identifying a fake image according to an embodiment of the present disclosure.
  • FIG. 10 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 11 is a view for explaining a method of executing an application for identification of a fake image according to an embodiment of the present disclosure
  • FIG. 12 is a diagram illustrating an example of a UI screen for receiving a user command for selecting an image according to an embodiment of the present disclosure
  • FIG. 13 is a diagram illustrating an example of a UI screen for receiving a user command for setting a device for identifying a fake image according to an embodiment of the present disclosure
  • FIGS. 14A to 14C are diagrams illustrating an example of a user interface provided when an image is a fake image according to an embodiment of the present disclosure
  • 15 is a flowchart for explaining a method of controlling a server according to an embodiment of the present disclosure.
  • 16 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
  • expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
  • “A or B,” “at least one of A and B,” or “at least one of A or B” means (1) includes at least one A, (2) includes at least one B; Or (3) it may refer to all cases including both at least one A and at least one B.
  • a component eg, a first component is "coupled with/to (operatively or communicatively)" to another component (eg, a second component)
  • another component eg, a second component
  • the certain element may be directly connected to the other element or may be connected through another element (eg, a third element).
  • a component eg, a first component
  • another component eg, a second component
  • a “module” or “unit” performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented with at least one processor (not shown) except for “modules” or “units” that need to be implemented with specific hardware.
  • a device configured to may mean that the device is “capable of” with other devices or parts.
  • a processor configured (or configured to perform) A, B, and C refers to a dedicated processor (eg, an embedded processor) for performing the operations, or by executing one or more software programs stored in a memory device.
  • a generic-purpose processor eg, a CPU or an application processor
  • FIG. 1 is a block diagram illustrating a configuration of a server according to an embodiment of the present disclosure.
  • the server 100 may include a memory 110 and a processor 120 .
  • the memory 110 may store various commands, programs, or data related to the operation of the server 100 .
  • the memory 110 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), or a solid state drive (SSD).
  • the memory 110 is accessed by the processor 120 , and reading/writing/modification/deletion/update of data by the processor 120 may be performed.
  • the term memory may include a memory 110 , a ROM (not shown) in the processor 120 , a RAM (not shown), or a memory card (not shown) mounted in the server 100 . have.
  • the memory 110 may store the artificial intelligence model 111 trained to identify a fake image.
  • the fake image may refer to a photo or video in which a face, eyes, nose, mouth, or the like, is synthesized with another person's face or face in the original image.
  • Such fake images can be generated by various deep learning image synthesis techniques such as Deepfake, FaceSwap, Face2Face, and the like.
  • the processor 120 may be connected to the memory 110 to control the server 100 . That is, the processor 120 may be electrically connected to the memory 110 to control overall operations and functions of the server 100 .
  • the processor 120 may include a central processing unit (CPU) or an application processor (AP), and is stored in the memory 110 according to one or more instructions stored in the memory 110 .
  • One or more software programs may be executed.
  • the processor 120 may input the image to the artificial intelligence model 111 to identify whether the image is a fake image.
  • the artificial intelligence model 111 may be a model learned based on original images and fake images.
  • the artificial intelligence model 111 is to be trained so that, when an original image is input, a probability value output from the artificial intelligence model 111, that is, a probability value indicating that the input image is an original image is greater than or equal to a preset threshold value.
  • a probability value output from the artificial intelligence model 111 that is, a probability value indicating that the input image is a fake image
  • the artificial intelligence model 111 may be trained so that a probability value output from the artificial intelligence model 111, that is, a probability value indicating that the input image is a fake image, is greater than or equal to a preset threshold value. have.
  • the original images and the fake images may be images including information on landmarks, respectively.
  • the artificial intelligence model 111 may be a model learned based on original images and fake images each including information on landmarks of the face region.
  • the landmark is a feature point of the face, and may include eyes, nose, mouth, jaw line, eyebrows, and the like.
  • including information about the landmark means that the pixel value of the pixel corresponding to the landmark is adjusted (or set) so that the pixel value of the pixel corresponding to the landmark has a preset pixel value in the face area.
  • the R, G, and B pixel values may be 0, 0, 0, or 255, 255, 255, respectively.
  • the artificial intelligence model 111 is It may be a model learned based on a fake image in which pixel values of pixels corresponding to landmarks are adjusted to preset pixel values.
  • the face regions 22 are detected from the original images 21 , and the pixel value of a pixel including a landmark in each of the face regions 22 is adjusted to a preset pixel value.
  • the artificial intelligence model 111 may be learned from the original images 23 whose pixel values are adjusted.
  • face regions 25 are detected from the fake images 24 , and a pixel value of a pixel including a landmark in each of the face regions 25 may be adjusted to a preset pixel value.
  • the artificial intelligence model 111 may be learned from the fake images 26 whose pixel values are adjusted.
  • a position detected as a landmark in a face region may include a boundary portion of a region synthesized in a fake image
  • images in which pixel values of pixels of a landmark point are adjusted
  • the artificial intelligence model can more accurately identify fake images even with a smaller amount of training data.
  • a face region is detected from each of the original images and fake images through a face detection algorithm, and specific points corresponding to landmarks in the face region (eg, the outer edge of the eye) are detected through an algorithm such as face landmark estimation. , the inner edge of the eyebrow, the bridge of the nose, the edge of the nose, the jaw line, etc.) may be detected.
  • an image including information about a landmark may be generated by adjusting pixel values of pixels including points detected in each of the original images and the fake images to a preset value.
  • the artificial intelligence model 111 may be learned based on data obtained from original images and fake images including information on landmarks, as well as data obtained from these images.
  • the artificial intelligence model 111 is based on at least one of the range of color values of the face region included in each of the original images and the fake images and the difference between the brightness values between the forehead region and the cheek region included in the face region. can be learned
  • the artificial intelligence model 111 may be a model learned based on original images, fake images, and data on a range of color values of a face region included in each of the images.
  • the color value may be a color value (hue) defined in the HSV color space, and the range of the color value may include a minimum value and a maximum value among color values of pixels included in the face region.
  • the artificial intelligence model 111 obtains the minimum color value and the maximum color obtained from the face region of the original image 23-1 and the original image 23-1 including landmark information.
  • the minimum color value obtained from the face region of the original image 23-2 and the original image 23-2 which is learned by data on values (ie, x 1 , y 1 ) and includes information on landmarks.
  • the face of the original image (23-n) and the original image (23-n) which is learned by the data for the maximum color value (ie, x 2 , y 2 ), ..., and includes information about the landmark It can be learned by data (ie, x n , y n ) for the minimum and maximum color values obtained from the region.
  • the artificial intelligence model 111 includes the minimum color value and the maximum color value obtained from the face region of the fake image 26 - 1 and the fake image 26 - 1 including information on landmarks.
  • the minimum color obtained from the face region of the fake image 26-2 and the fake image 26-2 which is learned by data (ie, x' 1 , y' 1 ) and includes information about landmarks.
  • a fake image may be generally generated by synthesizing a facial region below the eyebrows in the original image, and the synthesized portion in the fake image may have a skin color difference from the original image.
  • the artificial intelligence model when the artificial intelligence model is trained using data on the facial skin color range of each of the original images and the fake images, the artificial intelligence model can more accurately identify the fake image.
  • a method of determining a color value and a range of color values of a face region is as follows.
  • a face region is detected from each of the original images and the fake images through a face detection algorithm, and each pixel included in the face region is A color value in the HSV color space may be determined.
  • a minimum value and a maximum value among color values of pixels included in the face region may be determined as a range of color values.
  • the artificial intelligence model 111 may be a model learned based on data about original images, fake images, and differences in brightness between a forehead region and a cheek region detected in a face region included in each of these images.
  • the forehead region may be a region positioned above the eyebrows on the face
  • the cheek region may be a region positioned on both sides of the nose on the face.
  • the difference between the brightness values may be a difference between the brightness value of the forehead area and the brightness value of any one of the two cheek areas.
  • the artificial intelligence model 111 is based on the difference between the brightness values obtained from the face region of the original image 23-1 and the original image 23-1 including information on landmarks.
  • the artificial intelligence model 111 provides data on the difference in brightness values obtained from the face region of the fake image 26-1 and the fake image 26-1 including information on landmarks. (that is, z' 1 ), and data on the difference in brightness values obtained from the face region of the fake image 26-2 and the fake image 26-2 including information about landmarks (that is, , z' 2 ), ..., data on the difference in brightness values obtained from the face region of the original image 26-m and the original image 26-m including information on landmarks (ie, z' m ).
  • a fake image may be generally generated by synthesizing a facial region below the eyebrows in the original image, and the synthesized portion in the fake image may have a difference in brightness from the original image.
  • the artificial intelligence model when the artificial intelligence model is trained using data on the difference in brightness values of the face regions of the original images and the fake images, the artificial intelligence model can more accurately identify the fake images.
  • a method of determining the difference in brightness between the forehead region and the cheek region is as follows.
  • a forehead region and a cheek region may be detected from a face region of each of the original images and the fake images through a face detection algorithm.
  • the brightness value of the forehead area is calculated as an average of R, G, and B pixel values of pixels included in the forehead area
  • the brightness value of the cheek area is an average of R, G, and B pixel values of pixels included in the cheek area.
  • the artificial intelligence model 111 is learned by individually using data on the range of color values of the face region and data on the difference in brightness values between the forehead and cheek regions. , this is only an example.
  • the artificial intelligence model 111 includes original images, fake images, data on a range of color values of a face region included in each of these images, and a forehead region and a cheek region detected in a face region included in each of these images. It may be a model learned based on data on the difference in brightness values between the two.
  • the artificial intelligence model 111 includes not only data on the range of color values of the face region and data on the difference in brightness values between the forehead region and the cheek region, but also artifact data of each of the original images and the fake images. It may be learned based on
  • the memory 110 may store a plurality of artificial intelligence models.
  • the first to fifth artificial intelligence models 111-1 to 111-5 may be stored in the memory 110 .
  • each of the first to fifth artificial intelligence models 111-1 to 111-5 is included in each of a plurality of groups in which original images and fake images are classified according to a pose of a face included in the image. It may be a model trained by images.
  • the original images and the fake images may be divided into five groups according to a facing direction of a face included in each of the original images and the fake images.
  • the original images and the fake images include a first group including images in which the face faces in a front direction, a second group including images in which a face faces in a right direction, and images in which a face faces in a left direction. and a third group, a fourth group including images in which the face faces upward, and a fifth group, including images in which the face faces downward.
  • a roll angle ( ⁇ ), a pitch angle ( ⁇ ), and a yaw angle ( ⁇ ) of a face included in each image are A direction the face faces in each image may be determined based on the detected roll angle, the pitch angle, and the yaw angle.
  • the corresponding image may be classified as an image in which the face faces the front direction. .
  • the corresponding image when the pitch angle of the face detected in the image is within the range of ⁇ 1 and the yaw angle is within the range of ⁇ 2 , the corresponding image may be classified as an image in which the face faces to the right. And, when the pitch angle of the face detected in the image is within the range of ⁇ 1 and the yaw angle is within the range of ⁇ 3 , the corresponding image may be classified as an image in which the face faces in the left direction.
  • the image when the pitch angle of the face detected in the image is within the ⁇ 2 range, the image may be classified as an image in which the face faces upward. And, when the pitch angle of the face detected in the image is within the ⁇ 3 range, the image may be classified as an image in which the face faces downward.
  • the original images and the fake images may be divided into five groups according to the pose of the face.
  • each of the first to fifth artificial intelligence models 111-1 to 111-5 may be a model learned by images included in each group.
  • the first artificial intelligence model 111-1 may be a model learned from original images and fake images 71 in which the face faces the front direction.
  • the second artificial intelligence model 111 - 2 may be a model learned from original images and fake images 72 in which the face faces in the right direction.
  • the third artificial intelligence model 111-3 may be a model learned from original images and fake images 73 in which the face faces in the left direction.
  • the fourth artificial intelligence model 111-4 may be a model learned from original images and fake images 74 in which the face faces upward.
  • the fifth artificial intelligence model 111 - 5 may be a model learned by original images and fake images 75 in which the face faces downward.
  • the images included in each group may be images including information on landmarks.
  • each of the first to fifth artificial intelligence models 111-1 to 111-5 includes data on the range of color values of the face region obtained from images included in each group, and the difference in brightness between the forehead region and the cheek region. It may be a model learned by at least one of data for , and images included in each group.
  • each of the first to fifth artificial intelligence models 111-1 to 111-5 may be learned based on artifact data obtained from images included in each group.
  • the plurality of artificial intelligence models may be models learned by images classified according to facial poses. Accordingly, when identifying whether a fake image is a fake image by selectively using these models according to a pose of a face included in the image, the accuracy of identification may be improved.
  • the processor 120 may input the image to the artificial intelligence model 111 to identify whether the image is a fake image.
  • the image may be an image received from the electronic device 200 .
  • the processor 120 may access a web page using a uniform resource locator (URL) received from the electronic device 200 and receive an image from a server (not shown) that provides the web page.
  • URL uniform resource locator
  • the processor 120 may input an image to the artificial intelligence model 111 and identify whether the input image is an original image or a fake image based on a probability value output from the artificial intelligence model 111 .
  • the processor 120 may determine that the input image is the original image. Also, when a probability value indicating that the image output from the artificial intelligence model 111 is a fake image is equal to or greater than a preset threshold, the processor 120 may determine that the input image is a fake image.
  • the processor 120 may input various data acquired from an image other than the image according to the artificial intelligence model 111 to the artificial intelligence model 111 .
  • the processor 120 inputs the image to the artificial intelligence model 111 . can do.
  • the processor 120 may input the image and data on the range of color values of the face region obtained from the image to the AI model 111 .
  • the processor 120 detects a face region from the image using a face detection algorithm, etc., and uses the R, G, and B pixel values of pixels included in the detected face region to determine the value of each pixel included in the face region.
  • a color value in the HSV color space may be determined.
  • the processor 120 may determine a range of color values of the face region included in the image by determining a minimum value and a maximum value among color values of pixels included in the face region.
  • the artificial intelligence model 111 is trained based on data on the difference in brightness values between original images, fake images, and the forehead and cheek regions included in each of the landmark information.
  • the processor 120 may input the image and data on the difference in brightness values between the forehead region and the cheek region obtained from the image to the AI model 111 .
  • the processor 120 may detect a face region from the image using a face detection algorithm and determine a forehead region and a cheek region from the face region. For example, the processor 120 may determine a region located above the eyebrows on the face as a forehead region, and determine a region located on both sides of the nose on the face as a cheek region.
  • the processor 120 calculates the average of the R, G, and B pixel values of the pixels already included in the region to determine the brightness value of the forehead region, and calculates the average of the R, G, and B pixel values of the pixels included in the cheek region.
  • the brightness value of the cheek area may be determined by calculating the average, and the difference between the brightness values may be calculated to determine the difference between the brightness values between the forehead area and the cheek area.
  • the processor 120 may calculate a difference between the brightness value of the forehead area and the brightness value of any one of the two cheek areas.
  • the artificial intelligence model 111 includes original images including landmark information, fake images, data on the range of color values of the face region included in each of these images, and a forehead included in each of these images.
  • the processor 120 performs the image, data on the range of color values of the face region included in the image, and the forehead region detected in the face region. Data on the difference in brightness values between the eye area and the cheek area may be input to the artificial intelligence model 111 .
  • the processor 120 uses the artifact data acquired from the image in addition to the above-described data to the artificial intelligence model 111 . can be entered in
  • the processor 120 determines the pose of the face included in the image, determines the artificial intelligence model corresponding to the determined pose among the plurality of artificial intelligence models 111-1 to 111-5, and determines the artificial intelligence By inputting an image to the model, it is possible to identify whether the image is a fake image.
  • the processor 120 may determine the pose of the face included in the image.
  • the processor 120 may detect a face region from an image using a face detection algorithm, and detect a roll angle, a pitch angle, and a yaw angle of a face included in the face region.
  • the processor 120 may determine a pose of the face by determining the direction in which the face included in the image looks based on the detected roll angle, pitch angle, and yaw angle. Meanwhile, the method of determining the direction in which the face looks according to the roll angle, the pitch angle, and the yaw angle has been described above.
  • the processor 120 learns from the original images and fake images including the face in the same direction as the face included in the image from among the plurality of artificial intelligence models 111-1 to 111-5. It is possible to determine whether the image is a fake image by determining the artificial intelligence model and inputting the image to the determined artificial intelligence model.
  • the processor 120 transmits the image to the first artificial intelligence model 111-1 among the plurality of artificial intelligence models 111-1 to 111-5. can be entered.
  • the processor 120 may input an image to the second artificial intelligence model 111-2 among the plurality of artificial intelligence models 111-1 to 111-5.
  • the processor 120 may input an image to the third artificial intelligence model 111-3 among the plurality of artificial intelligence models 111-1 to 111-5.
  • the processor 120 may input an image to the fourth artificial intelligence model 111-4 among the plurality of artificial intelligence models 111-1 to 111-5.
  • the processor 120 may input an image to the fifth artificial intelligence model 111-5 among the plurality of artificial intelligence models 111-1 to 111-5.
  • the processor 120 may input to the AI model corresponding to the face pose of the image.
  • the processor 120 determines whether the image is an original image or a fake image using the artificial intelligence model 111 (or one of the plurality of artificial intelligence models 111-1 to 111-5). can be identified.
  • the processor 120 may identify whether the image is an original image or a fake image by using at least two of the plurality of artificial intelligence models 111-1 to 111-5.
  • the processor 120 inputs an image to at least two artificial intelligence models among the plurality of artificial intelligence models 111-1 to 111-5, and uses a probability value output from each of the artificial intelligence models to convert the image to the original image. Alternatively, whether it is a fake image may be identified.
  • the processor 120 may determine at least two artificial intelligence models to which an image is to be input according to the direction in which the face included in the image looks.
  • the processor 120 determines that the face faces the right-right direction, and a plurality of AI models Identifying the second artificial intelligence model 111-2 and the fourth artificial intelligence model 111-4 among (111-1 to 111-5) as the artificial intelligence model to which the image is to be input, and the second and fourth artificial intelligence models An image may be input to the intelligent models 111-2 and 111-4.
  • the processor 120 determines that the face faces the upper left direction, and a plurality of artificial intelligence models ( 111-1 to 111-5), the third artificial intelligence model 111-3 and the fourth artificial intelligence model 111-4 are identified as the artificial intelligence model to which the image is to be input, and the third and fourth artificial intelligence An image can be input to the models 111-3 and 11104.
  • the processor 120 determines that the face is facing the lower right direction, and a plurality of artificial intelligence models ( 111-1 to 111-5), the second artificial intelligence model 111-2 and the fifth artificial intelligence model 111-5 are identified as the artificial intelligence model to which the image is to be input, and the second and fifth artificial intelligence models are identified.
  • An image can be input to the models 111-2 and 111-5.
  • the processor 120 determines that the face is facing the lower left direction, and a plurality of artificial intelligence models ( 111-1 to 111-5), the third artificial intelligence model 111-3 and the fifth artificial intelligence model 111-5 are identified as the artificial intelligence model to which the image is to be input, and the third and fifth artificial intelligence models are identified.
  • An image can be input to the models 111-3 and 111-5.
  • the processor 120 may identify whether the image is an original image or a fake image by using the probability values output from these artificial intelligence models.
  • the processor 120 assigns weights to the probability values output from each artificial intelligence model, calculates an average value of the weighted probability values, and compares the average value with a preset threshold value to obtain the original image. Whether it is an image or a fake image may be identified.
  • a fake image is identified using a plurality of artificial intelligence models in that the image is a fake image. Accuracy for image identification may be improved.
  • the processor 120 may transmit the identification result of whether the image is a fake image to the electronic device 200 .
  • the processor 120 transmits a user interface (UI) screen including information indicating that the image is the original image to the electronic device 200, and identifies that the image is a fake image If so, a UI screen including information indicating that the image is a fake image may be transmitted to the electronic device 200 .
  • UI user interface
  • the electronic device 200 may display the UI screen received from the server 100 on the display 210 of the electronic device 200 .
  • FIG. 8 is a block diagram illustrating a detailed configuration of a server according to an embodiment of the present disclosure.
  • the server 100 may include a memory 110 , a processor 120 , and a communication interface 130 .
  • these components may be controlled by the processor 120 .
  • FIG. 8 the components shown in FIG. 8 are only examples, and it goes without saying that at least some components may be omitted or other components may be added according to embodiments.
  • the communication interface 130 is a configuration for performing communication with an external device.
  • the communication interface 130 may communicate with the electronic device 200, a server (not shown), and the like through a network.
  • the communication interface 130 may include various modules for connecting to a network, such as a network card.
  • the processor 120 may receive an image from the electronic device 200 through the communication interface 130 .
  • the processor 120 receives information about a URL providing an image from the electronic device 200 through the communication interface 130 , and accesses a web page through the communication interface 130 using the URL, An image may be received from a server (not shown) that provides the page.
  • FIG 9 illustrates a system for identifying fake images according to an embodiment of the present disclosure.
  • the system 1000 may include a server 100 and an electronic device 200 .
  • the electronic device 200 may receive a user command requesting identification of whether the image is a fake image.
  • the electronic device 200 may be implemented as a smartphone, as shown in FIG. 9 .
  • the electronic device 200 includes a notebook computer, a PDA, a media player, an MP3 player, a micro server, a GPS device, an e-book terminal, a digital broadcasting terminal, a kiosk, an electronic picture frame, a navigation system, and a wrist watch.
  • a wearable device such as a head-mounted display (HMD) and other mobile or non-mobile computing devices.
  • HMD head-mounted display
  • the electronic device 200 may determine which device among the electronic device 200 and the server 100 is a device for identifying whether an image is a fake image.
  • the electronic device 200 identifies whether the image is a fake image using the artificial intelligence model stored in the electronic device 200 and identifies A UI screen including information on the result may be displayed on the display 210 of the electronic device 200 .
  • the electronic device 200 may transmit the image to the server 100 or a URL providing the image to the server 100 . Accordingly, the server 100 may identify whether the image is a fake image, and transmit a UI screen including information on the identification result to the electronic device 200 . In this case, the electronic device 200 may display the UI screen received from the server 100 on the display 210 of the electronic device 200 .
  • FIG. 10 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 200 may include a display 210 , a communication interface 220 , a memory 230 , and a processor 240 .
  • the display 210 may display various screens. To this end, the display 210 may be implemented with various types of displays, such as a liquid crystal display (LCD), organic light emitting diodes (OLED), and active-matrix organic light-emitting diodes (AM-OLED).
  • LCD liquid crystal display
  • OLED organic light emitting diodes
  • AM-OLED active-matrix organic light-emitting diodes
  • the display 210 may additionally include an additional configuration according to its implementation method.
  • the display 210 when the display 210 is a liquid crystal type, the display 210 includes an LCD display panel (not shown), a backlight unit (not shown) for supplying light thereto, and a panel driving substrate for driving the panel (not shown). (not shown) may be included.
  • the display 210 may be implemented as a touch screen in combination with a touch sensor (not shown). Accordingly, the display 210 may receive a user command for touching the display 210 and transmit the received user command to the processor 240 .
  • the communication interface 220 is a configuration for performing communication with an external device.
  • the communication interface 220 may communicate with a server (not shown) through a network.
  • the server may include a server (not shown) that provides an image through a web page as well as the server 100 that identifies a fake image.
  • the communication interface 220 may include a Wi-Fi module (not shown) and a mobile communication module (not shown).
  • the Wi-Fi module may perform communication in a Wi-Fi method.
  • the Wi-Fi module may be connected to an access point (not shown) to communicate with a server (not shown) through the access point (not shown).
  • the mobile communication module uses a mobile communication method such as 3G (3rd Generation), 3GPP (3rd Generation Partnership Project), LTE (Long Term Evolution), 5G (5th Generation), etc. communication can be performed.
  • 3G 3rd Generation
  • 3GPP 3rd Generation Partnership Project
  • LTE Long Term Evolution
  • 5G 5th Generation
  • the memory 230 may store various commands, programs, or data related to the operation of the electronic device 200 .
  • the memory 230 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), or a solid state drive (SSD).
  • the memory 230 is accessed by the processor 240 , and reading/writing/modification/deletion/update of data by the processor 240 may be performed.
  • the term memory may include a memory 230 , a ROM (not shown) in the processor 240 , a RAM (not shown), or a memory card (not shown) mounted in the electronic device 200 .
  • the memory 230 may store the artificial intelligence model 231 trained to identify a fake image. Also, the memory 230 may store a plurality of artificial intelligence models 231-1 to 231-5 to identify each fake image, as shown in FIG. 10B .
  • the artificial intelligence model 231 (or the plurality of artificial intelligence models 231-1 to 231-5) is the artificial intelligence model 111 (or the plurality of artificial intelligence models 111 ) stored in the server 100 . -1 to 111-5)) may be in a compressed form.
  • the artificial intelligence model 231 (or the plurality of artificial intelligence models 231-1 to 231-5) is an artificial intelligence model ( 111) (or a plurality of artificial intelligence models 111-1 to 111-5) may be a compressed model.
  • the artificial intelligence model 231 (or the plurality of artificial intelligence models 231-1 to 231-5) is the artificial intelligence model 111 (or the plurality of artificial intelligence models 111-1 to 111-5). )) and capacity, processing speed, and accuracy, etc., but in the same training data (for example, original images and fake images each containing information on landmarks of the face region, and the range of color values of the face region) It can be seen as a model trained based on the data on the data about the difference in brightness values between the forehead region and the cheek region, and data on the artifacts obtained from each of the original images and the fake images).
  • the processor 240 may be connected to the display 210 , the communication interface 220 , and the memory 230 to control the electronic device 200 . That is, the processor 240 may be electrically connected to the display 210 , the communication interface 220 , and the memory 230 to control overall operations and functions of the electronic device 200 .
  • the processor 240 may include a CPU or an AP, and may execute one or more software programs stored in the memory 230 according to one or more instructions stored in the memory 230 .
  • the processor 240 may determine a device for identifying whether the image is a fake image among the electronic device 200 and the server 100 .
  • the image may be an image stored in the memory 230 .
  • the processor 240 may access a web page through the communication interface 220 using a URL and receive an image from a server (not shown) that provides the web page.
  • the processor 240 determines which device among the electronic device 200 and the server 100 is a device for identifying whether the image is a fake image. can do.
  • the processor 240 determines a device set according to a user command among the electronic device 200 and the server 100, a network state of the electronic device 200, an image size, an image type, and a facial region included in the image. Based on at least one of the size and the number of face regions, it is possible to determine a device for identifying whether the image is a fake image among the electronic device 200 and the server 100 .
  • the processor 240 may identify a fake image with the device set according to the user command. It can be considered as a device.
  • the processor 240 determines that the electronic device 200 is a device for identifying a fake image, and the device set according to the user command is the server ( 100), it may be determined that the server 100 is a device for identifying a fake image.
  • the processor 240 determines the network state of the electronic device 100, the image type, the image capacity, the size of the face region included in the image, and A device for identifying a fake image may be determined based on at least one of the number of face regions.
  • the memory 230 stores a look-up table (specifically, a multi-dimensional look up table) in which a device for identifying a fake image is predefined according to a combination of these conditions.
  • a look-up table specifically, a multi-dimensional look up table
  • the processor 240 uses the lookup table stored in the memory 230 , the network state of the electronic device 200 , the size of the image, the type of the image, the size of the face region included in the image, and the number of face regions.
  • a device for identifying whether an image is a fake image may be determined from among the electronic device 200 and the server 100 according to at least one of them.
  • the processor 240 may determine the network state of the electronic device 100 .
  • the network state includes whether the communication interface 220 is activated (ie, whether the WiFi module and the mobile communication module are activated) and the network speed of the activated communication interface 220 (ie, when the WiFi module is activated, the WiFi module). is the network speed of , and when the mobile communication module is activated, it may include the network speed of the mobile communication module).
  • the processor 240 may determine the type and capacity of the image.
  • the type of image may mean whether the image is an image or a moving picture
  • the capacity of the image may mean the capacity of an image file or a video file.
  • the processor 240 may obtain the metadata of the image from the memory 230 or the server (not shown), and determine the type and capacity of the image using the obtained metadata.
  • the processor 240 may detect a face region from the image using a face detection algorithm and determine the size and number of the detected face regions.
  • the processor 240 uses the lookup table to determine the electronic It may be determined which device among the device 200 and the server 100 is a device for identifying a fake image.
  • the mobile communication module of the electronic device 200 is activated, the network speed of the mobile communication module is 10 Mbps, the image is an image of 1 Mb, and one face region having a size of 200 ⁇ 200 is detected in the image, , in the case of such a condition in the lookup table, if the electronic device 200 is set as a device for identifying a fake image, the processor 240 may determine that the electronic device 200 is a device for identifying a fake image.
  • the Wi-Fi module is activated, the network speed of the Wi-Fi module is 250Mbps, the video is a video of 100Mb, the maximum size of the detected face area among a plurality of video frames constituting the video is 250 ⁇ 200, and the video frame If the maximum number of face regions detected for each is 3, and the lookup table has such a condition, if the server 100 is set as a device for identifying a fake image, the processor 240 identifies the fake image as the server 100 It can be judged as a device to be used.
  • the processor 240 may determine a device for identifying a fake image among the electronic device 200 and the server 100 using the lookup table.
  • the lookup table includes the face region in consideration of the network state of the electronic device 100 , the hardware system performance of the server 100 and the electronic device 200 , and the performance of the artificial intelligence models 111 and 231 stored in each device. It may be predefined in which device it is efficient to process an image having characteristics according to the number and size of .
  • a fake image may be identified in a more efficient device through such a lookup table.
  • one of the electronic device 200 and the server 100 is determined as a device to identify whether a fake image is a fake image according to a user command.
  • the processor 240 determines one of the electronic device 200 and the server 100 as a device to identify whether the fake image is a fake image according to which image the user has requested to identify as the fake image. can do.
  • the processor 240 may determine that the electronic device 200 is a device for identifying whether the image is a fake image. have. In addition, when a user command requesting identification of whether an image provided through a web page is a fake image is received, the processor 240 may determine the server 100 as a device for identifying whether the image is a fake image.
  • the processor 240 may input the image into the artificial intelligence model 231 to identify whether the image is a fake image.
  • the processor 240 may display a UI screen including information indicating that the image is an original image or a fake image on the display 210 .
  • the method of identifying whether an image is a fake image using an artificial intelligence model is the same as described in the server 100, in that the detailed overlapping description should be omitted.
  • the processor 240 may transmit the image or a URL providing the image to the server 100 through the communication interface 220 .
  • the processor 240 may display the received UI screen on the display 210 .
  • the processor 240 identifies whether the image is a fake image using the artificial intelligence model 231 .
  • the processor 240 may determine that the input image is a fake image.
  • the processor 240 transmits the image through the communication interface 220 to the server ( 100) can be transmitted.
  • the preset range may include 50%, and the maximum value of the preset range may be a value smaller than the preset threshold value.
  • the preset threshold value is 60%
  • the preset range is a range exceeding 40% and less than 60%.
  • the processor 240 may determine that the image is a fake image. However, when the probability value indicating that the image output from the artificial intelligence model 231 is a fake image is 55%, the processor 240 may transmit the image to the server 100 through the communication interface 220 .
  • the processor 240 may not perform the process of identifying whether the image is a fake image. That is, the processor 240 may terminate the corresponding process without separately determining a device for identifying whether it is a fake image.
  • the processor 240 may not perform the process of identifying whether the image is a fake image if the face region does not meet a condition set according to a user command.
  • the process of identifying whether the image is a fake image may be terminated.
  • a UI screen for displaying it (eg, "The image is an image that does not meet the input conditions, and it is not determined whether it is a fake image.”
  • a UI screen including a message such as may be displayed on the display 210 .
  • the processor 240 may perform the above-described operation through an application stored in the memory 230 .
  • the processor 240 may execute the corresponding application.
  • the user command may be a user command for selecting an icon on the home screen displayed on the display 210 .
  • the processor 240 may display a home screen 1110 including a plurality of icons indicating a plurality of applications installed in the electronic device 200 on the display 210 .
  • the processor 240 may execute the corresponding application.
  • the processor 240 may receive a user command for selecting an image through the UI screen. In this case, the processor 240 may determine the selected image according to a user command as an image to be identified as a fake image.
  • the user may select an image from among a plurality of images stored in the memory 230 or an image provided from a web page.
  • the processor 240 displays a UI screen 1210 including a UI element 1211 for selecting from a stored image and a UI element 1212 for selecting from a web page as shown in FIG. 12 ( 210) can be shown.
  • the processor 240 may display a plurality of images stored in the memory 230 on the display 210 .
  • the processor 240 may determine the selected image as an image to be identified as a fake image.
  • the processor 240 accesses the Internet through the communication interface unit 220 and accesses a web page that provides an image through the Internet according to the user command. have.
  • the processor 240 may determine an image provided from the selected web page as an image to be identified as a fake image.
  • the processor 240 may receive a user command for setting a parameter through the UI screen.
  • the parameter may include a parameter for determining a device for identifying whether a fake image is a fake image, and a parameter for setting the number and size of the face region.
  • the processor 240 transmits a UI element 1311 for setting a device for identifying a fake image to the electronic device 200 and a device for identifying a fake image to the server 100 as shown in FIG. 13 .
  • a UI screen 1310 including a UI element 1312 for setting, a UI element 1313 for setting the number of face regions, and a UI element 1314 for setting the size of the face region is displayed on the display 210 . can be displayed
  • the processor 240 may set the electronic device 200 as a device for identifying a fake image. Also, when a user command for selecting the UI element 1312 is input, the processor 240 may set the server 100 as a device for identifying a fake image.
  • the processor 240 displays a UI screen (not shown) for setting the number of face regions on the display 210 , and a UI screen (not shown)
  • the number of face regions may be set based on a user command input through .
  • the processor 240 displays a UI screen (not shown) for setting the size of the face region on the display 210, and a UI screen (not shown)
  • the size of the face region may be set based on a user command input through .
  • the processor 240 determines whether the face region detected in the image does not match the number and size of the face region set through the UI screen (not shown), and the number and size of the face region detected in the image depends on the user command. If the condition set according to the above is not met, the process of identifying whether the image is a fake image may not be performed.
  • the processor 240 may determine a device for identifying a fake image.
  • the processor 240 may determine that the electronic device 200 is a device for identifying a fake image. and when an image provided through a web page is selected, the server 100 may determine that it is a device for identifying a fake image.
  • the processor 240 identifies the fake image as the electronic device 200 . It can be determined as a device to be used, and when the server 100 is set as a device for identifying a fake image according to a user command, it can be determined that the server 100 is a device for identifying a fake image.
  • the processor 240 does not select the UI element 1311 and the UI element 1312 in FIG. 13 and "Done" is selected) , a fake image among the electronic device 200 and the server 100 based on at least one of a network state of the electronic device 200 , a size of an image, a type of an image, a size of a face region included in the image, and the number of face regions It is possible to determine which device is to be identified.
  • the processor 240 may input the image into the artificial intelligence model 231 to identify whether the image is a fake image.
  • the processor 240 may display a UI screen (not shown) indicating that the image is a fake image on the display 210 .
  • the processor 240 may transmit the selected image or a URL providing the image according to a user command to the server 100 through the communication interface 220 . .
  • the processor 240 receives a UI screen (not shown) indicating that the image is a fake image from the server 100 through the communication interface 220, and the received UI screen (not shown) hour) may be displayed on the display 210 .
  • an example of a UI screen displayed on the display 210 is as follows.
  • the processor 240 may display an image 1411 and a UI screen 1410 including a probability value 1412 indicating that the image is a fake image on the display 210 .
  • the processor 240 may display an emoticon 1413 indicating that the image is a fake image on the display 210 .
  • the processor 240 may output audio indicating that the image is a fake image, such as “It is a fake image”, through a speaker (not shown) of the electronic device 200 . .
  • the functions related to artificial intelligence according to the present disclosure are operated through the processors 120 and 240 and the memories 110 and 230 .
  • the processors 120 and 240 may be composed of one or a plurality of processors.
  • one or more processors are a general-purpose processor such as a CPU, AP, DSP (Digital Signal Processor), etc., a graphics-only processor such as GPU (Graphics Processing Unit), VPU (Vision Processing Unit), or NPU (Neural Network Processing Unit) and It may be the same AI-only processor.
  • One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory 110 .
  • the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
  • the predefined action rule or artificial intelligence model is characterized in that it is made through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created it means.
  • Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed.
  • the processor 120 determines pixels corresponding to landmarks in each of the original images and the fake images, and sets the pixel values of the determined pixels to a preset pixel. By adjusting the value, images including information on landmarks may be generated.
  • the processors 120 and 240 may train the artificial intelligence model 111 using original images and fake images each including information on landmarks.
  • the processor 120 determines at least one of the range of the color value of the face region and the difference in the brightness value between the forehead region and the cheek region in each of the original images and the fake images, and uses this data as information about the landmark.
  • the artificial intelligence model 111 may be trained by using it together with the included images.
  • the processor 120 classifies the original images and the fake images into a plurality of groups according to the pose of the face included in each of the original images and the fake images, and uses the images included in each group to model each AI model. (1111-1 to 111-5) can be learned.
  • learning may be performed through the electronic device 200 and a separate server and/or system.
  • examples of the learning algorithm include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but is not limited to the above example. .
  • An AI model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
  • the artificial neural network may include a Convolutional Neural Network (CNN)-based AlexNet, VGGNet, GoogLeNet, Inception, Xception, ShuffleNet, MesoNet, MobileNet, SqueezeNet, and the like.
  • artificial neural networks include Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), or Deep Q-Network (Deep Q).
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • RBM Restricted Boltzmann Machine
  • DNN Deep Belief Network
  • BNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Network Deep Q-Network
  • 15 is a flowchart illustrating a method of controlling a server according to an embodiment of the present disclosure.
  • an image may be input to the artificial intelligence model trained to identify a fake image (S1510).
  • the artificial intelligence model may be a model learned based on original images and fake images each including information on landmarks of the face region.
  • the artificial intelligence model is applied to the landmark in the face region included in each of the original images and the fake images in which the pixel value of the pixel corresponding to the landmark is adjusted to a preset pixel value in the face region included in each of the original images.
  • the pixel value of the corresponding pixel may be a model learned based on fake images in which the pixel value is adjusted to a preset pixel value.
  • the artificial intelligence model may be a model learned based on at least one of a range of color values of the face region included in each of the original images and the fake images and a difference in brightness values between the forehead region and the cheek region in the face region. .
  • the artificial intelligence model is one of a plurality of artificial intelligence models stored in the server, and each of the plurality of artificial intelligence models has original images and fake images classified according to the pose of the face included in each of the original images and the fake images. It is a model learned based on each of a plurality of groups, and in step S1510, a pose of a face included in an image may be determined, and an image may be input to an artificial intelligence model corresponding to the determined pose among the plurality of artificial intelligence models.
  • 16 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the electronic device may store the artificial intelligence model trained to identify the fake image.
  • a device for identifying whether an image is a fake image among electronic devices and servers may be determined ( S1610 ).
  • the image may be input to the artificial intelligence model to identify whether the image is a fake image (S1620).
  • the image may be transmitted to the server (S1630).
  • a UI screen indicating that the image is a fake image may be displayed ( S1640 ).
  • the artificial intelligence model may be a model learned based on original images and fake images each including information on landmarks of the face region.
  • the artificial intelligence model is applied to the landmark in the face region included in each of the original images and the fake images in which the pixel value of the pixel corresponding to the landmark is adjusted to a preset pixel value in the face region included in each of the original images.
  • the pixel value of the corresponding pixel may be a model learned based on fake images in which the pixel value is adjusted to a preset pixel value.
  • step S1610 based on at least one of a device set according to a user command among electronic devices and servers, a network state of the electronic device, an image size, an image type, a size of a face region included in the image, and the number of face regions. , a device for identifying whether the image is a fake image among electronic devices and servers may be determined.
  • step S1610 when the device set according to the user command is an electronic device, the electronic device is determined as a device for identifying whether the image is a fake image, and when the device set according to the user command is a server, the image is faked to the server It may be determined that the device is an image or not.
  • step S1610 the electronic device and the number of face regions according to at least one of the network state of the electronic device, the size of the image, the type of the image, the size of the face region included in the image, and the number of face regions by using the lookup table stored in the electronic device. It is possible to determine a device for identifying whether the image is a fake image from among the servers.
  • the artificial intelligence model stored in the electronic device may be a compressed model of the artificial intelligence model stored in the server.
  • the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media readable by a machine (eg, a computer).
  • a device is a device capable of calling a stored instruction from a storage medium and operating according to the called instruction, and may include the device according to the disclosed embodiments.
  • the instruction is executed by a processor, the processor directly or A function corresponding to an instruction may be performed using other components under the control of the processor.
  • An instruction may include code generated or executed by a compiler or an interpreter.
  • a device-readable storage medium is a non-transitory It may be provided in the form of a (non-transitory) storage medium, where the term 'non-transitory storage medium' only means that it is a tangible device and does not contain a signal (eg, electromagnetic wave); This term does not distinguish between a case in which data is semi-permanently stored in a storage medium and a case in which data is temporarily stored, for example, a 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be provided as included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones).
  • a portion of a computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

서버가 개시된다. 본 서버는 페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 메모리 및 메모리와 연결되어, 서버를 제어하는 프로세서를 포함하며, 프로세서는 영상을 인공지능 모델에 입력하여 영상이 페이크 영상인지를 식별하며, 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델이다.

Description

서버, 전자 장치 및 그들의 제어 방법
본 개시는 서버, 전자 장치 및 그들의 제어 방법에 관한 것으로, 보다 상세하게는 페이크 영상을 식별하기 위한 서버, 전자 장치 및 그들의 제어 방법에 관한 것이다.
페이크 영상은 원본 영상에 포함된 얼굴 또는 얼굴 부위가 다른 사람의 얼굴 또는 얼굴 부위로 합성된 영상을 의미할 수 있다.
최근 립러닝 기술의 발전으로, 일반인들도 정교한 페이크 영상을 생성이 가능하게 되었고, 이에 따라, 페이크 영상으로 생성된 가짜 뉴스, 음란물 등의 유통으로 인한 피해 사례 역시 증가하게 되었다.
이에 따라, 페이크 영상을 식별하기 위한 방안이 모색이 요청된다.
본 개시는 상술한 필요성에 따라 안출된 것으로, 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 의해 학습된 인공지능 모델을 이용하여 영상이 페이크 영상인지를 식별할 수 있는 서버, 전자 장치 및 그들의 제어 방법을 제공함에 있다.
본 개시의 일 실시 예에 따른 서버는 페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 메모리 및 상기 메모리와 연결되어, 상기 서버를 제어하는 프로세서를 포함하며, 상기 프로세서는 영상을 상기 인공지능 모델에 입력하여 상기 영상이 페이크 영상인지를 식별하며, 상기 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델이다.
여기에서, 상기 인공지능 모델은 상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 상기 인공지능 모델은 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역의 색상 값의 범위 및 상기 얼굴 영역에서 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나에 기초하여 학습된 모델일 수 있다.
또한, 상기 인공지능 모델은 상기 메모리에 저장된 복수의 인공지능 모델 중 하나이고, 상기 복수의 인공지능 모델 각각은 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴의 포즈에 따라 상기 원본 영상들 및 상기 페이크 영상들이 분류된 복수의 그룹 각각에 기초하여 학습된 모델이고, 상기 프로세서는 상기 영상에 포함된 얼굴의 포즈를 판단하고, 상기 복수의 인공지능 모델 중 상기 판단된 포즈에 대응되는 인공지능 모델에 영상을 입력하여 상기 영상이 페이크 영상인지를 식별할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치는 디스플레이, 통신 인터페이스, 페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 메모리 및 상기 디스플레이, 상기 통신 인터페이스 및 상기 메모리와 연결되어, 상기 전자 장치를 제어하는 프로세서를 포함하며, 상기 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델이고, 상기 프로세서는 상기 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단하고, 상기 전자 장치가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 인공지능 모델에 입력하여 상기 영상이 페이크 영상인지를 식별하고, 상기 서버가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 통신 인터페이스를 통해 상기 서버로 전송하고, 상기 영상이 페이크 영상인 경우, 상기 영상이 페이크 영상인 것을 나타내는 UI 화면을 상기 디스플레이에 표시한다.
여기에서, 상기 인공지능 모델은 상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 상기 프로세서는 상기 전자 장치 및 상기 서버 중에서 사용자 명령에 따라 설정된 기기, 상기 전자 장치의 네트워크 상태, 상기 영상의 사이즈, 상기 영상의 타입, 상기 영상에 포함된 얼굴 영역의 사이즈 및 상기 얼굴 영역의 개수 중 적어도 하나에 기초하여, 상기 전자 장치 및 상기 서버 중에서 상기 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
여기에서, 상기 프로세서는 상기 사용자 명령에 따라 설정된 기기가 상기 전자 장치인 경우, 상기 전자 장치를 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단하고, 상기 사용자 명령에 따라 설정된 기기가 상기 서버인 경우, 상기 서버를 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단할 수 있다.
또한, 상기 프로세서는 상기 메모리에 저장된 룩업 테이블을 이용하여, 상기 전자 장치의 네트워크 상태, 상기 영상의 사이즈, 상기 영상의 타입, 상기 영상에 포함된 얼굴 영역의 사이즈 및 상기 얼굴 영역의 개수 중 적어도 하나에 따라 상기 전자 장치 및 상기 서버 중에서 상기 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
또한, 상기 메모리에 저장된 인공지능 모델은, 상기 서버에 저장된 인공지능 모델이 압축된 모델일 수 있다.
한편, 본 개시의 일 실시 예에 따른 서버의 제어 방법은 페이크 영상을 식별하도록 학습된 인공지능 모델에 영상을 입력하는 단계 및 상기 인공지능 모델의 출력 값에 기초하여, 상기 입력된 영상이 페이크 영상인지를 식별하는 단계를 포함하며, 상기 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델일 수 있다.
여기에서, 상기 인공지능 모델은 상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 상기 인공지능 모델은 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역의 색상 값의 범위 및 상기 얼굴 영역에서 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나에 기초하여 학습된 모델일 수 있다.
또한, 상기 인공지능 모델은 상기 서버에 저장된 복수의 인공지능 모델 중 하나이고, 상기 복수의 인공지능 모델 각각은 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴의 포즈에 따라 상기 원본 영상들 및 상기 페이크 영상들이 분류된 복수의 그룹 각각에 기초하여 학습된 모델이고, 상기 입력하는 단계는 상기 영상에 포함된 얼굴의 포즈를 판단하고, 상기 복수의 인공지능 모델 중 상기 판단된 포즈에 대응되는 인공지능 모델에 영상을 입력할 수 있다.
한편, 본 개시의 일 실시 예에 따른 페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 전자 장치의 제어 방법은 상기 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단하는 단계, 상기 전자 장치가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 인공지능 모델에 입력하여 상기 영상이 페이크 영상인지를 식별하는 단계, 상기 서버가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 서버로 전송하는 단계 및 상기 영상이 페이크 영상인 경우, 상기 영상이 페이크 영상임을 나타내는 UI 화면을 표시하는 단계를 포함하며, 상기 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델이다.
여기에서, 상기 인공지능 모델은 상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 상기 판단하는 단계는 상기 전자 장치 및 상기 서버 중에서 사용자 명령에 따라 설정된 기기, 상기 전자 장치의 네트워크 상태, 상기 영상의 사이즈, 상기 영상의 타입, 상기 영상에 포함된 얼굴 영역의 사이즈 및 상기 얼굴 영역의 개수 중 적어도 하나에 기초하여, 상기 전자 장치 및 상기 서버 중에서 상기 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
여기에서, 상기 판단하는 단계는 상기 사용자 명령에 따라 설정된 기기가 상기 전자 장치인 경우, 상기 전자 장치를 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단하고, 상기 사용자 명령에 따라 설정된 기기가 상기 서버인 경우, 상기 서버를 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단할 수 있다.
또한, 상기 판단하는 단계는 상기 전자 장치에 저장된 룩업 테이블을 이용하여, 상기 전자 장치의 네트워크 상태, 상기 영상의 사이즈, 상기 영상의 타입, 상기 영상에 포함된 얼굴 영역의 사이즈 및 상기 얼굴 영역의 개수 중 적어도 하나에 따라 상기 전자 장치 및 상기 서버 중에서 상기 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
또한, 상기 전자 장치에 저장된 인공지능 모델은 상기 서버에 저장된 인공지능 모델이 압축된 모델일 수 있다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 페이크 영상을 보다 정확하게 식별할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 서버의 구성을 설명하기 위한 블록도,
도 2a 및 도 2b는 본 개시의 일 실시 예에 따라 인공지능 모델이 학습되는 방법을 설명하기 위한 도면들,
도 3a 및 도 3b는 본 개시의 일 실시 예에 따라 인공지능 모델이 학습되는 방법을 설명하기 위한 도면들,
도 4a 및 도 4b는 본 개시의 일 실시 예에 따라 인공지능 모델이 학습되는 방법을 설명하기 위한 도면들,
도 5는 본 개시의 일 실시 예에 따른 인공지능 모델의 일 예를 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 얼굴의 포즈를 판단하는 방법을 설명하기 위한 도면,
도 7a 내지 도 7e는 본 개시의 일 실시 예에 따라 인공지능 모델이 학습되는 방법을 설명하기 위한 도면들,
도 8은 본 개시의 일 실시 예에 따른 서버의 세부 구성을 설명하기 위한 블록도,
도 9는 본 개시의 일 실시 예에 따른 페이크 영상 식별을 위한 시스템을 설명하기 위한 도면,
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 11은 본 개시의 일 실시 예에 따른 페이크 영상의 식별을 위한 어플리케이션을 실행하는 방법을 설명하기 위한 도면,
도 12는 본 개시의 일 실시 예에 따른 영상을 선택하는 사용자 명령을 입력받기 위한 UI 화면의 일 예를 나타낸 도면,
도 13은 본 개시의 일 실시 예에 따른 페이크 영상을 식별할 기기를 설정하는 사용자 명령을 입력받기 위한 UI 화면의 일 예를 나타낸 도면,
도 14a 내지 도 14c는 본 개시의 일 실시 예에 따라 영상이 페이크 영상인 경우 제공되는 유저 인터페이스의 일 예를 나타내는 도면들,
도 15는 본 개시의 일 실시 예에 따른 서버의 제어 방법을 설명하기 위한 흐름도, 그리고
도 16은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
-
이하, 본 개시의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 서버의 구성을 설명하기 위한 블록도이다.
도 1을 참조하면, 서버(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다.
메모리(110)는 서버(100)의 동작과 관련된 다양한 명령어, 프로그램 또는 데이터를 저장할 수 있다.
이를 위해, 메모리(110)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 여기에서, 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.
한편, 본 개시에서 메모리라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는, 서버(100)에 장착되는 메모리 카드(미도시) 등을 포함할 수 있다.
특히, 메모리(110)는 페이크 영상을 식별하도록 학습된 인공지능 모델(111)을 저장할 수 있다.
여기에서, 페이크 영상은 원본 영상에서 얼굴이나 눈, 코, 입 등과 같은 얼굴 부위가 다른 사람의 얼굴이나 얼굴 부위로 합성된 사진이나 동영상을 의미할 수 있다. 이러한 페이크 영상은 Deepfake, FaceSwap, Face2Face 등과 같은 다양한 딥러닝 영상 합성 기술에 의해 생성될 수 있다.
프로세서(120)는 메모리(110)와 연결되어, 서버(100)를 제어할 수 있다. 즉, 프로세서(120)는 메모리(110)와 전기적으로 연결되어, 서버(100)의 전반적인 동작 및 기능을 제어할 수 있다.
여기에서, 프로세서(120)는 중앙처리장치(central processing unit, CPU) 또는 어플리케이션 프로세서(application processor, AP)를 포함할 수 있으며, 메모리(110)에 저장된 하나 이상의 인스트럭션에 따라 메모리(110)에 저장된 하나 이상의 소프트웨어 프로그램을 실행할 수 있다.
특히, 프로세서(120)는 영상을 인공지능 모델(111)에 입력하여, 영상이 페이크 영상인지를 식별할 수 있다.
여기에서, 인공지능 모델(111)은 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델일 수 있다.
구체적으로, 인공지능 모델(111)은 원본 영상을 입력하였을 때, 인공지능 모델(111)에서 출력되는 확률 값 즉, 입력된 영상이 원본 영상임을 나타내는 확률 값이 기설정된 임계 값 이상이 되도록 학습될 수 있다. 또한, 인공지능 모델(111)은 페이크 영상을 입력하였을 때, 인공지능 모델(111)에서 출력되는 확률 값 즉, 입력된 영상이 페이크 영상임을 나타내는 확률 값이 기설정된 임계 값 이상이 되도록 학습될 수 있다.
이때, 원본 영상들 및 페이크 영상들은 각각 랜드마크에 대한 정보를 포함하는 영상일 수 있다.
즉, 인공지능 모델(111)은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델일 수 있다.
여기에서, 랜드마크는 얼굴의 특징 포인트로, 눈, 코, 입, 턱선, 눈썹 등을 포함할 수 있다.
또한, 랜드마크에 대한 정보를 포함한다는 것은 얼굴 영역에서 랜드마크에 해당하는 픽셀의 픽셀 값이 기설정된 픽셀 값을 갖도록 랜드마크에 해당하는 픽셀의 픽셀 값이 조정(또는, 설정)된 것을 의미할 수 있다.
여기에서, 기설정된 픽셀 값은 R,G,B 픽셀 값이 각각 0,0,0이거나, 또는 255,255,255일 수 있다. 다만, 이는 일 예일 뿐이고, 기설정된 픽셀 값은 R,G,B 픽셀 별로 다양한 픽셀 값을 가질 수 있다.
즉, 인공지능 모델(111)은 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 페이크 영상에 기초하여 학습된 모델일 수 있다.
예를 들어, 도 2a와 같이, 원본 영상들(21)에서 얼굴 영역들(22)이 검출되고, 얼굴 영역들(22) 각각에서 랜드마크를 포함하는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정될 수 있다. 이 경우, 인공지능 모델(111)은 픽셀 값이 조정된 원본 영상들(23)에 의해 학습될 수 있다.
또한, 도 2b과 같이, 페이크 영상들(24)에서 얼굴 영역들(25)이 검출되고, 얼굴 영역들(25) 각각에서 랜드마크를 포함하는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정될 수 있다. 이 경우, 인공지능 모델(111)은 픽셀 값이 조정된 페이크 영상들(26)에 의해 학습될 수 있다.
즉, 본 개시의 일 실시 예에 따르면, 얼굴 영역에서 랜드마크로 검출된 위치는 페이크 영상에서 합성된 영역의 경계 부분을 포함할 수 있다는 점에서, 랜드마크 지점의 픽셀들의 픽셀 값이 조정된 영상들을 이용하여 인공지능 모델을 학습시키는 경우, 인공지능 모델은 더 적은 양의 학습 데이터로도 페이크 영상을 보다 정확하게 식별할 수 있게 된다.
한편, 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들을 생성하는 방법은 다음과 같다.
예를 들어, 얼굴 검출 알고리즘을 통해 원본 영상들 및 페이크 영상들 각각에서 얼굴 영역이 검출되고, face landmark estimation 등과 같은 알고리즘을 통해 얼굴 영역에서 랜드마크에 해당하는 특정한 포인트들(가령, 눈 바깥의 가장자리, 눈썹 안쪽의 가장자리, 콧등, 코 끝 가장자리, 턱선 등)이 검출될 수 있다. 그리고, 원본 영상들 및 페이크 영상들 각각에서 검출된 포인트들을 포함하는 픽셀들의 픽셀 값을 기설정된 값으로 조정하여, 랜드마크에 대한 정보를 포함하는 영상이 생성될 수 있다.
한편, 본 개시의 일 실시 예에 따르면, 인공지능 모델(111)은 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들뿐만 아니라, 이들 영상으로부터 획득되는 데이터에 기초하여 학습될 수도 있다.
구체적으로, 인공지능 모델(111)은 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴 영역의 색상 값의 범위 및 얼굴 영역에 포함된 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나에 기초하여 학습될 수 있다.
먼저, 인공지능 모델(111)은 원본 영상들, 페이크 영상들 및 이들 영상 각각에 포함된 얼굴 영역의 색상 값의 범위에 대한 데이터에 기초하여 학습된 모델일 수 있다.
여기에서, 색상 값은 HSV 색공간에서 정의되는 색상 값(hue)일 수 있고, 색상 값의 범위는 얼굴 영역에 포함된 픽셀들의 색상 값들 중 최소 값 및 최대 값을 포함할 수 있다.
이에 따라, 도 3a와 같이, 인공지능 모델(111)은 랜드마크에 대한 정보를 포함하는 원본 영상(23-1) 및 원본 영상(23-1)의 얼굴 영역으로부터 획득된 최소 색상 값 및 최대 색상 값에 대한 데이터(즉, x 1, y 1)에 의해 학습되고, 랜드마크에 대한 정보를 포함하는 원본 영상(23-2) 및 원본 영상(23-2)의 얼굴 영역으로부터 획득된 최소 색상 값 및 최대 색상 값에 대한 데이터(즉, x 2, y 2)에 의해 학습되고,..., 랜드마크에 대한 정보를 포함하는 원본 영상(23-n) 및 원본 영상(23-n)의 얼굴 영역으로부터 획득된 최소 색상 값 및 최대 색상 값에 대한 데이터(즉, x n, y n)에 의해 학습될 수 있다.
또한, 도 3b와 같이, 인공지능 모델(111)은 랜드마크에 대한 정보를 포함하는 페이크 영상(26-1) 및 페이크 영상(26-1)의 얼굴 영역으로부터 획득된 최소 색상 값 및 최대 색상 값에 대한 데이터(즉, x' 1, y' 1)에 의해 학습되고, 랜드마크에 대한 정보를 포함하는 페이크 영상(26-2) 및 페이크 영상(26-2)의 얼굴 영역으로부터 획득된 최소 색상 값 및 최대 색상 값에 대한 데이터(즉, x' 2, y' 2)에 의해 학습되고,..., 랜드마크에 대한 정보를 포함하는 페이크 영상(26-m) 및 페이크 영상(23-m)의 얼굴 영역으로부터 획득된 최소 색상 값 및 최대 색상 값에 대한 데이터(즉, x' m, y' m)에 의해 학습될 수 있다(여기에서, n과 m은 같거나 다를 수 있다).
즉, 본 개시의 일 실시 예에 따르면, 페이크 영상은 일반적으로 원본 영상에서 눈썹 이하의 얼굴 부위가 합성되어 생성될 수 있고, 또한, 페이크 영상에서 합성된 부분은 원본 영상과 피부색 차이가 있을 수 있다는 점에서, 원본 영상들과 페이크 영상들 각각의 얼굴 피부색의 범위에 대한 데이터를 이용하여 인공지능 모델을 학습시키는 경우, 인공지능 모델은 페이크 영상을 보다 정확하게 식별할 수 있게 된다.
한편, 얼굴 영역의 색상 값 및 색상 값의 범위를 판단하는 방법은 다음과 같다.
예를 들어, 얼굴 검출 알고리즘을 통해 원본 영상들 및 페이크 영상들 각각에서 얼굴 영역이 검출되고, 검출된 얼굴 영역에 포함된 픽셀들의 R,G,B 픽셀 값에 따라 얼굴 영역에 포함된 각 픽셀의 HSV 색 공간에서의 색상 값을 결정될 수 있다. 그리고, 얼굴 영역에 포함된 픽셀들의 색상 값들 중 최소 값 및 최대 값이 색상 값의 범위로서 결정될 수 있다.
한편, 인공지능 모델(111)은 원본 영상들, 페이크 영상들 및 이들 영상 각각에 포함된 얼굴 영역에서 검출된 이마 영역과 볼 영역 간의 밝기의 차이에 대한 데이터에 기초하여 학습된 모델일 수 있다.
여기에서, 이마 영역은 얼굴에서 눈썹 위에 위치하는 영역이고, 볼 영역은 얼굴에서 코 양 옆에 위치하는 영역일 수 있다. 그리고, 밝기 값 간의 차이는 이마 영역의 밝기 값과 2 개의 볼 영역 중 어느 하나의 영역의 밝기 값 간의 차이일 수 있다.
예를 들어, 도 4a와 같이, 인공지능 모델(111)은 랜드마크에 대한 정보를 포함하는 원본 영상(23-1) 및 원본 영상(23-1)의 얼굴 영역으로부터 획득된 밝기 값의 차이에 대한 데이터(즉, z 1)에 의해 학습되고, 랜드마크에 대한 정보를 포함하는 원본 영상(23-2) 및 원본 영상(23-2)의 얼굴 영역으로부터 획득된 밝기 값의 차이에 대한 데이터(즉, z 2)에 의해 학습되고,..., 랜드마크에 대한 정보를 포함하는 원본 영상(23-n) 및 원본 영상(23-n)의 얼굴 영역으로부터 획득된 밝기 값의 차이에 대한 데이터(즉, z n)에 의해 학습될 수 있다.
또한, 도 4b와 같이, 인공지능 모델(111)은 랜드마크에 대한 정보를 포함하는 페이크 영상(26-1) 및 페이크 영상(26-1)의 얼굴 영역으로부터 획득된 밝기 값의 차이에 대한 데이터(즉, z' 1)에 의해 학습되고, 랜드마크에 대한 정보를 포함하는 페이크 영상(26-2) 및 페이크 영상(26-2)의 얼굴 영역으로부터 획득된 밝기 값의 차이에 대한 데이터(즉, z' 2)에 의해 학습되고,..., 랜드마크에 대한 정보를 포함하는 원본 영상(26-m) 및 원본 영상(26-m)의 얼굴 영역으로부터 획득된 밝기 값의 차이에 대한 데이터(즉, z' m)에 의해 학습될 수 있다.
즉, 본 개시의 일 실시 예에 따르면, 페이크 영상은 일반적으로 원본 영상에서 눈썹 이하의 얼굴 부위를 합성하여 생성될 수 있고, 페이크 영상에서 합성된 부분은 원본 영상과 밝기 차이가 있을 수 있다는 점에서, 원본 영상들과 페이크 영상들 각각의 얼굴 영역의 밝기 값의 차이에 대한 데이터를 이용하여 인공지능 모델을 학습시키는 경우, 인공지능 모델은 페이크 영상을 보다 정확하게 식별할 수 있게 된다.
한편, 얼굴 영역에서 이마 영역 및 볼 영역 간의 밝기 차이를 판단하는 방법은 다음과 같다.
예를 들어, 얼굴 검출 알고리즘을 통해 원본 영상들 및 페이크 영상들 각각의 얼굴 영역에서 이마 영역 및 볼 영역이 검출될 수 있다. 이때, 이마 영역의 밝기 값은 이마 영역에 포함된 픽셀들의 R,G,B 픽셀 값들의 평균으로 산출되고, 볼 영역의 밝기 값은 볼 영역에 포함된 픽셀들의 R,G,B 픽셀 값들의 평균으로 산출될 수 있다. 이에 따라, 산출된 밝기 값 간의 차이를 산출하여 이마 영역과 볼 영역 간의 밝기 값의 차이가 산출될 수 있다.
한편, 도 3 및 도 4에서는, 얼굴 영역의 색상 값의 범위에 대한 데이터와 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터를 개별적으로 이용하여 인공지능 모델(111)이 학습되는 것으로 설명하였으나, 이는 일 예에 불과하다.
즉, 인공지능 모델(111)은 원본 영상들, 페이크 영상들 및 이들 영상 각각에 포함된 얼굴 영역의 색상 값의 범위에 대한 데이터 및 이들 영상 각각에 포함된 얼굴 영역에서 검출된 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터에 기초하여 학습된 모델일 수 있다.
또한, 인공지능 모델(111)은 얼굴 영역의 색상 값의 범위에 대한 데이터 및 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터뿐만 아니라, 원본 영상들 및 페이크 영상들 각각의 아티펙트(Artifact) 데이터에 기초하여 학습될 수도 있다.
한편, 본 개시의 일 실시 예에 따르면, 메모리(110)는 복수의 인공지능 모델을 저장할 수 있다.
예를 들어, 도 5와 같이, 제1 내지 제5 인공지능 모델(111-1 내지 111-5)이 메모리(110)에 저장되어 있을 수 있다.
여기에서, 제1 내지 제5 인공지능 모델(111-1 내지 111-5) 각각은 영상에 포함된 얼굴의 포즈(pose)에 따라 원본 영상들 및 페이크 영상들이 분류된 복수의 그룹 각각에 포함된 영상들에 의해 학습된 모델일 수 있다.
예를 들어, 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴이 바라보는 방향에 따라, 원본 영상들 및 페이크 영상들은 5 개의 그룹으로 구분될 수 있다.
구체적으로, 원본 영상들 및 페이크 영상들은 얼굴이 정면 방향을 바라보는 영상들을 포함하는 제1 그룹, 얼굴이 우측 방향을 바라보는 영상들을 포함하는 제2 그룹, 얼굴이 좌측 방향을 바라보는 영상들을 포함하는 제3 그룹, 얼굴이 상측 방향을 바라보는 영상들을 포함하는 제4 그룹 및 얼굴이 하측 방향을 바라보는 영상들을 포함하는 제5 그룹으로 구분될 수 있다.
여기에서, 얼굴이 바라보는 방향에 따라 영상들을 분류하는 방법은 다음과 같다.
예를 들어, 원본 영상들 및 페이크 영상들 각각에 대해, 각 영상에 포함된 얼굴의 롤각(roll angle)(φ), 피치각(pitch angle)(θ) 및 요각(yaw angle)(ψ)이 검출되고, 검출된 롤각, 피치각 및 요각에 기초하여 각 영상에서 얼굴이 바라보는 방향이 결정될 수 있다.
예를 들어, 도 6을 참조하면, 영상에서 검출된 얼굴의 피치각이 θ 1 범위 내에 있고, 요각이 ψ 1 범위 내에 있는 경우, 해당 영상은 얼굴이 정면 방향을 바라보는 영상으로 분류될 수 있다.
또한, 영상에서 검출된 얼굴의 피치각이 θ 1 범위 내에 있고, 요각이 ψ 2 범위 내에 있는 경우, 해당 영상은 얼굴이 우측 방향을 바라보는 영상으로 분류될 수 있다. 그리고, 영상에 검출된 얼굴의 피치각이 θ 1 범위 내에 있고, 요각이 ψ 3 범위 내에 있는 경우, 해당 영상은 얼굴이 좌측 방향을 바라보는 영상으로 분류될 수 있다.
또한, 영상에 검출된 얼굴의 피치각이 θ 2 범위 내에 있는 경우, 해당 영상은 얼굴이 상측 방향을 바라보는 영상으로 분류될 수 있다. 그리고, 영상에 검출된 얼굴의 피치각이 θ 3 범위 내에 있는 경우, 해당 영상은 얼굴이 하측 방향을 바라보는 영상으로 분류될 수 있다.
결국, 이러한 방식에 따라, 얼굴의 포즈에 따라 원본 영상들 및 페이크 영상들은 5 개의 그룹으로 구분될 수 있다.
여기에서, 제1 내지 제5 인공지능 모델(111-1 내지 111-5) 각각은 각 그룹에 포함된 영상들에 의해 학습된 모델일 수 있다.
예를 들어, 도 7a와 같이, 제1 인공지능 모델(111-1)은 얼굴이 정면 방향을 바라보는 원본 영상들 및 페이크 영상들(71)에 의해 학습된 모델일 수 있다.
또한, 도 7b와 같이, 제2 인공지능 모델(111-2)은 얼굴이 우측 방향을 바라보는 원본 영상들 및 페이크 영상들(72)에 의해 학습된 모델일 수 있다.
또한, 도 7c와 같이, 제3 인공지능 모델(111-3)은 얼굴이 좌측 방향을 바라보는 원본 영상들 및 페이크 영상들(73)에 의해 학습된 모델일 수 있다.
또한, 도 7d와 같이, 제4 인공지능 모델(111-4)은 얼굴이 상측 방향을 바라보는 원본 영상들 및 페이크 영상들(74)에 의해 학습된 모델일 수 있다.
또한, 도 7e와 같이, 제5 인공지능 모델(111-5)은 얼굴이 하측 방향을 바라보는 원본 영상들 및 페이크 영상들(75)에 의해 학습된 모델일 수 있다.
이때, 각 그룹에 포함된 영상들은 랜드마크에 대한 정보를 포함하는 영상들일 수 있다.
또한, 제1 내지 제5 인공지능 모델(111-1 내지 111-5) 각각은 각 그룹에 포함된 영상들로부터 획득된 얼굴 영역의 색상 값의 범위에 대한 데이터 및 이마 영역과 볼 영역 간의 밝기 차이에 대한 데이터 중 적어도 하나와, 각 그룹에 포함된 영상들에 의해 학습된 모델일 수 있다.
또한, 제1 내지 제5 인공지능 모델(111-1 내지 111-5) 각각은 각 그룹에 포함된 영상들로부터 획득된 아티펙트 데이터에 기초하여 학습될 수도 있다.
이와 같이, 본 개시의 일 실시 예에 따르면, 복수의 인공지능 모델은 얼굴의 포즈에 따라 구분된 영상들에 의해 학습된 모델들일 수 있다. 이에 따라, 영상에 포함된 얼굴의 포즈에 따라 이러한 모델들을 선택적으로 이용하여 페이크 영상인지를 식별하는 경우, 식별의 정확도가 향상될 수 있다.
한편, 프로세서(120)는 영상을 인공지능 모델(111)에 입력하여, 영상이 페이크 영상인지를 식별할 수 있다.
여기에서, 영상은 전자 장치(200)로부터 수신된 영상일 수 있다. 또는, 프로세서(120)는 전자 장치(200)로부터 수신된 URL(uniform resource locator)을 이용하여 웹 페이지에 접속하고, 웹 페이지를 제공하는 서버(미도시)로부터 영상을 수신받을 수 있다.
즉, 프로세서(120)는 영상을 인공지능 모델(111)에 입력하고, 인공지능 모델(111)에서 출력되는 확률 값에 기초하여 입력된 영상이 원본 영상 또는 페이크 영상인지를 식별할 수 있다.
구체적으로, 프로세서(120)는 인공지능 모델(111)에서 출력되는, 영상이 원본 영상임을 나타내는 확률 값이 기설정된 임계 값 이상인 경우, 입력된 영상이 원본 영상인 것으로 판단할 수 있다. 또한, 프로세서(120)는 인공지능 모델(111)에서 출력되는, 영상이 페이크 영상임을 나타내는 확률 값이 기설정된 임계 값 이상인 경우, 입력된 영상이 페이크 영상인 것으로 판단할 수 있다.
이 경우, 프로세서(120)는 인공지능 모델(111)에 따라 영상 이외에 영상으로부터 획득된 다양한 데이터를 인공지능 모델(111)에 입력할 수 있다.
예를 들어, 인공지능 모델(111)이 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델인 경우, 프로세서(120)는 영상을 인공지능 모델(111)에 입력할 수 있다.
다른 예로, 인공지능 모델(111)이 랜드마크에 대한 정보를 포함하는 원본 영상들, 페이크 영상들 및 이들 영상 각각에 포함된 얼굴 영역의 색상 값의 범위에 대한 데이터에 기초하여 학습된 모델인 경우, 프로세서(120)는 영상 및 영상으로부터 획득한 얼굴 영역의 색상 값의 범위에 대한 데이터를 인공지능 모델(111)에 입력할 수 있다.
이를 위해, 프로세서(120)는 얼굴 검출 알고리즘 등을 이용하여 영상에서 얼굴 영역을 검출하고, 검출된 얼굴 영역에 포함된 픽셀들의 R,G,B 픽셀 값을 이용하여 얼굴 영역에 포함된 각 픽셀의 HSV 색 공간에서의 색상 값을 판단할 수 있다. 그리고, 프로세서(120)는 얼굴 영역에 포함된 픽셀들의 색상 값들 중 최소 값 및 최대 값을 판단하여, 영상에 포함된 얼굴 영역의 색상 값의 범위를 판단할 수 있다.
다른 예로, 인공지능 모델(111)이 랜드마크에 대한 정보를 포함하는 원본 영상들, 페이크 영상들 및 이들 영상 각각에 포함된 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터에 기초하여 학습된 모델인 경우, 프로세서(120)는 영상 및 영상으로부터 획득한 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터를 인공지능 모델(111)에 입력할 수 있다.
이를 위해, 프로세서(120)는 얼굴 검출 알고리즘을 이용하여 영상에서 얼굴 영역을 검출하고, 얼굴 영역에서 이마 영역과 볼 영역을 판단할 수 있다. 예를 들어, 프로세서(120)는 얼굴에서 눈썹 위에 위치한 영역을 이마 영역으로 판단하고, 얼굴에서 코 양 옆에 위치한 영역을 볼 영역으로 판단할 수 있다.
그리고, 프로세서(120)는 이미 영역에 포함된 픽셀들의 R,G,B 픽셀 값의 평균을 산출하여 이마 영역의 밝기 값을 판단하고, 볼 영역에 포함된 픽셀들의 R,G,B 픽셀 값의 평균을 산출하여 볼 영역의 밝기 값을 판단하고, 이들 밝기 값 간의 차이를 산출하여, 이마 영역과 볼 영역 간의 밝기 값의 차이를 판단할 수 있다. 이 경우, 프로세서(120)는 이마 영역의 밝기 값과 2 개의 볼 영역 중 어느 하나의 영역의 밝기 값 간의 차이를 산출할 수 있다.
다른 예로, 인공지능 모델(111)이 랜드마크에 대한 정보를 포함하는 원본 영상들, 페이크 영상들, 이들 영상 각각에 포함된 얼굴 영역의 색상 값의 범위에 대한 데이터 및 이들 영상 각각에 포함된 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터에 기초하여 학습된 모델인 경우, 프로세서(120)는 영상, 영상에 포함된 얼굴 영역의 색상 값의 범위에 대한 데이터 및 얼굴 영역에서 검출된 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터를 인공지능 모델(111)에 입력할 수 있다.
다른 예로, 인공지능 모델(111)은 원본 영상들 및 페이크 영상들 각각의 아티펙트 데이터에 기초하여 학습된 경우, 프로세서(120)는 전술한 데이터 이외에도 영상에서 획득한 아티펙트 데이터를 인공지능 모델(111)에 입력할 수 있다.
한편, 프로세서(120)는 영상에 포함된 얼굴의 포즈를 판단하고, 복수의 인공지능 모델(111-1 내지 111-5) 중 판단된 포즈에 대응되는 인공지능 모델을 판단하고, 판단된 인공지능 모델에 영상을 입력하여, 영상이 페이크 영상인지를 식별할 수 있다.
이를 위해, 프로세서(120)는 영상에 포함된 얼굴의 포즈를 판단할 수 있다.
구체적으로, 프로세서(120)는 얼굴 검출 알고리즘을 이용하여 영상에서 얼굴 영역을 검출하고, 얼굴 영역에 포함된 얼굴의 롤각, 피치각 및 요각을 검출할 수 있다.
그리고, 프로세서(120)는 검출된 롤각, 피치각 및 요각에 기초하여 영상에 포함된 얼굴이 바라보는 방향을 결정하여, 얼굴의 포즈를 판단할 수 있다. 한편, 롤각, 피치각 및 요각에 따라 얼굴이 바라보는 방향을 결정하는 방법에 대해서는 전술한 바 있다.
이후, 프로세서(120)는 복수의 인공지능 모델(111-1 내지 111-5) 중에서, 영상에 포함된 얼굴이 바라보는 방향과 같은 방향의 얼굴을 포함하는 원본 영상들 및 페이크 영상들에 의해 학습된 인공지능 모델을 판단하고, 판단된 인공지능 모델에 영상을 입력하여, 영상이 페이크 영상인지를 식별할 수 있다.
예를 들어, 프로세서(120)는 영상에 포함된 얼굴이 정면 방향을 바라보는 경우, 복수의 인공지능 모델(111-1 내지 111-5) 중 제1 인공지능 모델(111-1)에 영상을 입력할 수 있다.
또한, 프로세서(120)는 영상에 포함된 얼굴이 우측 방향을 바라보는 경우, 복수의 인공지능 모델(111-1 내지 111-5) 중 제2 인공지능 모델(111-2)에 영상을 입력할 수 있다.
또한, 프로세서(120)는 영상에 포함된 얼굴이 좌측 방향을 바라보는 경우, 복수의 인공지능 모델(111-1 내지 111-5) 중 제3 인공지능 모델(111-3)에 영상을 입력할 수 있다.
또한, 프로세서(120)는 영상에 포함된 얼굴이 상측 방향을 바라보는 경우, 복수의 인공지능 모델(111-1 내지 111-5) 중 제4 인공지능 모델(111-4)에 영상을 입력할 수 있다.
또한, 프로세서(120)는 영상에 포함된 얼굴이 하측 방향을 바라보는 경우, 복수의 인공지능 모델(111-1 내지 111-5) 중 제5 인공지능 모델(111-5)에 영상을 입력할 수 있다.
한편, 프로세서(120)는 복수의 인공지능 모델(111-1 내지 111-5)의 학습에 이용된 학습 데이터에 따라, 영상뿐만 아니라, 영상으로부터 획득한 데이터(즉, 얼굴 영역의 색상 값의 범위에 대한 데이터, 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터)를 영상의 얼굴 포즈에 대응되는 인공지능 모델에 입력할 수도 있다.
이와 같이, 프로세서(120)는 인공지능 모델(111)(또는, 복수의 인공지능 모델(111-1 내지 111-5) 중 하나의 인공지능 모델)을 이용하여 영상이 원본 영상 또는 페이크 영상인지를 식별할 수 있다.
한편, 실시 예에 따라, 프로세서(120)는 복수의 인공지능 모델(111-1 내지 111-5) 중 적어도 2 개를 이용하여 영상이 원본 영상 또는 페이크 영상인지를 식별할 수 있다.
즉, 프로세서(120)는 복수의 인공지능 모델(111-1 내지 111-5) 중 적어도 2 개의 인공지능 모델에 영상을 입력하고, 인공지능 모델 각각에서 출력되는 확률 값을 이용하여 영상이 원본 영상 또는 페이크 영상인지를 식별할 수 있다.
이 경우, 프로세서(120)는 영상에 포함된 얼굴이 바라보는 방향에 따라, 영상이 입력될 적어도 2 개의 인공지능 모델을 판단할 수 있다.
예를 들어, 프로세서(120)는 영상에서 검출된 얼굴의 피치각이 θ 2 범위 내에 있고, 요각이 ψ 2 범위 내에 있는 경우, 얼굴이 우상측 방향을 바라보는 것으로 판단하고, 복수의 인공지능 모델(111-1 내지 111-5) 중 제2 인공지능 모델(111-2) 및 제4 인공지능 모델(111-4)을 영상이 입력될 인공지능 모델인 것으로 식별하고, 제2 및 제4 인공지능 모델(111-2, 111-4)에 영상을 입력할 수 있다.
다른 예로, 프로세서(120)는 영상에서 검출된 얼굴의 피치각이 θ 2 범위 내에 있고, 요각이 ψ 3 범위 내에 있는 경우, 얼굴이 좌상측 방향을 바라보는 것으로 판단하고, 복수의 인공지능 모델(111-1 내지 111-5) 중 제3 인공지능 모델(111-3) 및 제4 인공지능 모델(111-4)을 영상이 입력될 인공지능 모델인 것으로 식별하고, 제3 및 제4 인공지능 모델(111-3, 11104)에 영상을 입력할 수 있다.
다른 예로, 프로세서(120)는 영상에서 검출된 얼굴의 피치각이 θ 3 범위 내에 있고, 요각이 ψ 2 범위 내에 있는 경우, 얼굴이 우하측 방향을 바라보는 것으로 판단하고, 복수의 인공지능 모델(111-1 내지 111-5) 중 제2 인공지능 모델(111-2) 및 제5 인공지능 모델(111-5)을 영상이 입력될 인공지능 모델인 것으로 식별하고, 제2 및 제5 인공지능 모델(111-2, 111-5)에 영상을 입력할 수 있다.
다른 예로, 프로세서(120)는 영상에서 검출된 얼굴의 피치각이 θ 3 범위 내에 있고, 요각이 ψ 3 범위 내에 있는 경우, 얼굴이 좌하측 방향을 바라보는 것으로 판단하고, 복수의 인공지능 모델(111-1 내지 111-5) 중 제3 인공지능 모델(111-3) 및 제5 인공지능 모델(111-5)을 영상이 입력될 인공지능 모델인 것으로 식별하고, 제3 및 제5 인공지능 모델(111-3, 111-5)에 영상을 입력할 수 있다.
그리고, 프로세서(120)는 이들 인공지능 모델에서 출력되는 확률 값을 이용하여 영상이 원본 영상 또는 페이크 영상인지를 식별할 수 있다.
예를 들어, 프로세서(120)는 인공지능 모델 각각에서 출력되는 확률 값에 가중치를 부여하고, 가중치가 부여된 확률 값들의 평균 값을 산출하고, 평균 값을 기설정된 임계 값과 비교하여 영상이 원본 영상 또는 페이크 영상인지를 식별할 수 있다.
이와 같이, 본 개시의 일 실시 예에 따르면, 영상에 포함된 얼굴이 복수의 방향을 바라보는 것으로 볼 수 있을 때, 복수의 인공지능 모델을 이용하여 영상이 페이크 영상인지를 식별한다는 점에서, 페이크 영상 식별에 대한 정확도가 향상될 수 있다.
한편, 프로세서(120)는 페이크 영상인지에 대한 식별 결과를 전자 장치(200)로 전송할 수 있다.
구체적으로, 프로세서(120)는 영상이 원본 영상인 것으로 식별되면, 영상이 원본 영상임을 나타내는 정보를 포함하는 UI(user interface) 화면을 전자 장치(200)로 전송하고, 영상이 페이크 영상인 것으로 식별되면, 영상이 페이크 영상임을 나타내는 정보를 포함하는 UI 화면을 전자 장치(200)로 전송할 수 있다.
이 경우, 전자 장치(200)는 서버(100)로부터 수신된 UI 화면을 전자 장치(200)의 디스플레이(210)에 표시할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 서버의 세부 구성을 설명하기 위한 블록도이다.
도 8을 참조하면, 서버(100)는 메모리(110), 프로세서(120) 및 통신 인터페이스(130)를 포함할 수 있다. 여기에서, 이들 구성요소는 프로세서(120)에 의해 제어될 수 있다.
한편, 도 8에 도시된 구성요소는 일 예일 뿐이고, 실시 예에 따라 적어도 일부 구성요소가 생략되거나, 다른 구성요소가 추가될 수 있음은 물론이다.
또한, 메모리(110) 및 프로세서(120)는 도 1 내지 도 7에서 설명한 바 있다는 점에서, 구체적인 중복 설명은 생략하도록 한다.
통신 인터페이스(130)는 외부 기기와 통신을 수행하기 위한 구성이다. 예를 들어, 통신 인터페이스(130)는 네트워크를 통해 전자 장치(200), 서버(미도시) 등과 통신을 수행할 수 있다.
이를 위해, 통신 인터페이스(130)는 네트워크 카드 등과 같이, 네트워크에 접속하기 위한 다양한 모듈을 포함할 수 있다.
이 경우, 프로세서(120)는 통신 인터페이스(130)를 통해 전자 장치(200)로부터 영상을 수신할 수 있다.
또한, 프로세서(120)는 통신 인터페이스(130)를 통해 전자 장치(200)로부터 영상을 제공하는 URL에 대한 정보를 수신하고, URL을 이용하여 통신 인터페이스(130)를 통해 웹 페이지에 접속하여, 웹 페이지를 제공하는 서버(미도시)로부터 영상을 수신받을 수 있다.
도 9는 본 개시의 일 실시 예에 따른 페이크 영상 식별을 위한 시스템을 나타낸다.
도 9를 참조하면, 시스템(1000)은 서버(100) 및 전자 장치(200)를 포함할 수 있다.
여기에서, 서버(100)는 도 1 내지 도 8에서 설명한 바와 있다는 점에서, 구체적인 중복 설명은 생략하도록 한다.
전자 장치(200)는 영상이 페이크 영상인지에 대한 식별을 요청하는 사용자 명령을 입력받을 수 있다.
여기에서, 전자 장치(200)는 도 9에 도시된 바와 같이, 스마트폰으로 구현될 수 있다. 다만, 이는 일 예일 뿐이고, 전자 장치(200)는 노트북, PDA, 미디어 플레이어, MP3 플레이어, 마이크로 서버, GPS 장치, 전자책 단말기, 디지털방송용 단말기, 키오스크, 전자 액자, 네비게이션, 손목 시계(Wrist watch) 또는 HMD(Head-Mounted Display)와 같은 웨어러블 디바이스(Wearable device) 및 기타 모바일 또는 비모바일 컴퓨팅 장치 등으로 구현될 수도 있다.
한편, 전자 장치(200)는 사용자 명령이 입력되면, 전자 장치(200) 및 서버(100) 중 어떠한 기기가 영상이 페이크 영상인지를 식별할 기기인지를 판단할 수 있다.
이에 따라, 전자 장치(200)는 전자 장치(200)가 페이크 영상인지를 식별할 기기인 것으로 판단되면, 전자 장치(200)에 저장된 인공지능 모델을 이용하여 영상이 페이크 영상인지를 식별하고, 식별 결과에 대한 정보를 포함하는 UI 화면을 전자 장치(200)의 디스플레이(210)에 표시할 수 있다.
또한, 전자 장치(200)는 서버(100)가 페이크 영상인지를 식별할 기기인 것으로 판단되면, 영상을 서버(100)로 전송하거나, 영상을 제공하는 URL을 서버(100)로 전송할 수 있다. 이에 따라, 서버(100)는 영상이 페이크 영상인지를 식별하고, 식별 결과에 대한 정보를 포함하는 UI 화면을 전자 장치(200)로 전송할 수 있다. 이 경우, 전자 장치(200)는 서버(100)로부터 수신되는 UI 화면을 전자 장치(200)의 디스플레이(210)에 표시할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 10을 참조하면, 전자 장치(200)는 디스플레이(210), 통신 인터페이스(220), 메모리(230) 및 프로세서(240)를 포함할 수 있다.
디스플레이(210)는 다양한 화면을 표시할 수 있다. 이를 위해, 디스플레이(210)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 및 AM-OLED(Active-Matrix Organic Light-Emitting Diode) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다.
여기에서, 디스플레이(210)는 그 구현 방식에 따라 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들어, 디스플레이(210)가 액정 방식인 경우, 디스플레이(210)는 LCD 디스플레이 패널(미도시), 이에 광을 공급하는 백라이트 유닛(미도시) 및 패널(미도시)을 구동시키는 패널 구동기판(미도시)을 포함할 수 있다.
또한, 디스플레이(210)는 터치 센서(미도시)와 결합되어, 터치 스크린으로 구현될 수 있다. 이에 따라, 디스플레이(210)는 디스플레이(210)를 터치하는 사용자 명령을 수신하고, 수신된 사용자 명령을 프로세서(240)로 전달할 수 있다.
통신 인터페이스(220)는 외부 기기와 통신을 수행하기 위한 구성이다. 예를 들어, 통신 인터페이스(220)는 네트워크를 통해 서버(미도시)와 통신을 수행할 수 있다.
여기에서, 서버(미도시)는 페이크 영상의 식별을 수행하는 서버(100) 뿐만 아니라, 웹 페이지를 통해 영상을 제공하는 서버(미도시)를 포함할 수 있다.
이를 위해, 통신 인터페이스(220)는 와이파이 모듈(미도시) 및 이동통신 모듈(미도시)를 포함할 수 있다.
여기에서, 와이파이 모듈(미도시)은 와이파이 방식으로 통신을 수행할 수 있다. 예를 들어, 와이파이 모듈(미도시)은 액세스 포인트(미도시)에 연결되어, 액세스 포인트(미도시)를 통해 서버(미도시)와 통신을 수행할 수 있다.
또한, 이동통신 모듈(미도시)은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), 5G(5th Generation) 등과 같은 이동통신 방식을 이용하여 서버(미도시)와 통신을 수행할 수 있다.
메모리(230)는 전자 장치(200)의 동작과 관련된 다양한 명령어, 프로그램 또는 데이터를 저장할 수 있다.
이를 위해, 메모리(230)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 여기에서, 메모리(230)는 프로세서(240)에 의해 액세스되며, 프로세서(240)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.
한편, 본 개시에서 메모리라는 용어는 메모리(230), 프로세서(240) 내 롬(미도시), 램(미도시) 또는, 전자 장치(200)에 장착되는 메모리 카드(미도시) 등을 포함할 수 있다.
특히, 메모리(230)는 페이크 영상을 식별하도록 학습된 인공지능 모델(231)을 저장할 수 있다. 또한, 메모리(230)는 도 10b와 같이, 각각 페이크 영상을 식별하도록 복수의 인공지능 모델(231-1 내지 231-5)을 저장할 수 있다.
여기에서, 인공지능 모델(231)(또는, 복수의 인공지능 모델(231-1 내지 231-5))은 서버(100)에 저장된 인공지능 모델(111)(또는, 복수의 인공지능 모델(111-1 내지 111-5))이 압축된 형태일 수 있다.
예를 들어, 인공지능 모델(231)(또는, 복수의 인공지능 모델(231-1 내지 231-5))은 프루닝(pruning) 또는 퀀타이제이션(quantization) 등의 방식에 따라 인공지능 모델(111)(또는, 복수의 인공지능 모델(111-1 내지 111-5))이 압축된 모델일 수 있다.
이에 따라, 인공지능 모델(231)(또는, 복수의 인공지능 모델(231-1 내지 231-5))은 인공지능 모델(111)(또는, 복수의 인공지능 모델(111-1 내지 111-5))과 용량, 처리 속도 및 정확도 등에서만 차이가 있을 뿐, 동일한 학습 데이터(가령, 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들, 얼굴 영역의 색상 값의 범위에 대한 데이터, 이마 영역과 볼 영역 간의 밝기 값의 차이에 대한 데이터 및 원본 영상들 및 페이크 영상들 각각에서 획득된 아티팩트에 대한 데이터)를 기반으로 학습된 모델인 것으로 볼 수 있다.
프로세서(240)는 디스플레이(210), 통신 인터페이스(220) 및 메모리(230)와 연결되어, 전자 장치(200)를 제어할 수 있다. 즉, 프로세서(240)는 디스플레이(210), 통신 인터페이스(220) 및 메모리(230)와 전기적으로 연결되어, 전자 장치(200)의 전반적인 동작 및 기능을 제어할 수 있다.
여기에서, 프로세서(240)는 CPU 또는 AP를 포함할 수 있으며, 메모리(230)에 저장된 하나 이상의 인스트럭션에 따라 메모리(230)에 저장된 하나 이상의 소프트웨어 프로그램을 실행할 수 있다.
특히, 프로세서(240)는 전자 장치(200) 및 서버(100) 중에서 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
여기에서, 영상은 메모리(230)에 저장된 영상일 수 있다. 또는, 프로세서(240)는 URL을 이용하여 통신 인터페이스(220)를 통해 웹 페이지에 접속하여, 웹 페이지를 제공하는 서버(미도시)로부터 영상을 수신받을 수 있다.
즉, 프로세서(240)는 영상이 페이크 영상인지에 대한 식별을 요청하는 사용자 명령이 입력되면, 전자 장치(200) 및 서버(100) 중에서 어떠한 기기가 영상이 페이크 영상인지를 식별할 기기인지를 판단할 수 있다.
구체적으로, 프로세서(240)는 전자 장치(200) 및 서버(100) 중에서 사용자 명령에 따라 설정된 기기, 전자 장치(200)의 네트워크 상태, 영상의 사이즈, 영상의 타입, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 기초하여, 전자 장치(200) 및 서버(100) 중 페이크 영상인지를 식별할 기기를 판단할 수 있다.
먼저, 프로세서(240)는 사용자 명령에 따라 전자 장치(200) 및 서버(100) 중 하나의 기기가 페이크 영상을 식별할 기기로 설정되어 있는 경우, 사용자 명령에 따라 설정된 기기를 페이크 영상을 식별할 기기인 것으로 판단할 수 있다.
예를 들어, 프로세서(240)는 사용자 명령에 따라 설정된 기기가 전자 장치(200)인 경우, 전자 장치(200)를 페이크 영상을 식별할 기기인 것으로 판단하고, 사용자 명령에 따라 설정된 기기가 서버(100)인 경우, 서버(100)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있다.
한편, 프로세서(240)는 사용자 명령에 따라 페이크 영상을 식별할 기기가 설정되어 있지 않은 경우, 전자 장치(100)의 네트워크 상태, 영상의 타입, 영상의 용량, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 기초하여, 페이크 영상을 식별할 기기를 판단할 수 있다.
이를 위해, 메모리(230)는 이러한 조건들의 조합에 따라 어떠한 기기가 페이크 영상을 식별할 기기인지가 미리 정의되어 있는 룩업 테이블(구체적으로, 다차원 룩업 테이블(multi dimensional look up table))을 저장하고 있을 수 있다.
이에 따라, 프로세서(240)는 메모리(230)에 저장된 룩업 테이블을 이용하여, 전자 장치(200)의 네트워크 상태, 영상의 사이즈, 영상의 타입, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 따라 전자 장치(200) 및 서버(100) 중에서 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
이를 위해, 먼저, 프로세서(240)는 전자 장치(100)의 네트워크 상태를 판단할 수 있다.
여기에서, 네트워크 상태는 통신 인터페이스(220)의 활성화 여부(즉, 와이파이 모듈 및 이동통신 모듈의 활성화 여부) 및 활성화된 통신 인터페이스(220)의 네트워크 속도(즉, 와이파이 모듈이 활성화된 경우, 와이파이 모듈의 네트워크 속도이고, 이동통신 모듈이 활성화된 경우, 이동통신 모듈의 네트워크 속도를 포함할 수 있다).
또한, 프로세서(240)는 영상의 타입 및 용량을 판단할 수 있다. 여기에서, 영상의 타입은 영상이 이미지 또는 동영상인지를 의미하고, 영상의 용량은 이미지 파일 또는 동영상 파일의 용량을 의미할 수 있다.
이 경우, 프로세서(240)는 메모리(230) 또는 서버(미도시)로부터 영상의 메타데이터를 획득하고, 획득된 메타데이터를 이용하여 영상의 타입 및 용량을 판단할 수 있다.
또한, 프로세서(240)는 얼굴 검출 알고리즘을 이용하여 영상에서 얼굴 영역을 검출하고, 검출된 얼굴 영역의 사이즈 및 개수를 판단할 수 있다.
그리고, 프로세서(240)는 룩업 테이블을 이용하여, 전자 장치(100)의 네트워크 상태, 영상의 타입, 영상의 용량, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 따라, 전자 장치(200) 및 서버(100) 중에서 어떠한 기기가 페이크 영상인지를 식별할 기기인지를 판단할 수 있다.
예를 들어, 전자 장치(200)의 이동통신 모듈이 활성화되어 있고, 이동통신 모듈의 네트워크 속도가 10Mbps이고, 영상이 1Mb의 이미지이고, 이미지에서 200×200 사이즈를 갖는 1 개의 얼굴 영역이 검출되고, 룩업 테이블에 이러한 조건인 경우 전자 장치(200)가 페이크 영상을 식별할 기기로 설정되어 있는 경우, 프로세서(240)는 전자 장치(200)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있다.
다른 예로, 와이파이 모듈이 활성화되어 있고, 와이파이 모듈의 네트워크 속도가 250Mbps이고, 영상이 100Mb의 동영상이고, 동영상을 구성하는 복수의 영상 프레임 중에서 검출된 얼굴 영역의 최대 사이즈가 250×200이고, 영상 프레임 별로 검출된 얼굴 영역의 최대 개수가 3이고, 룩업 테이블에 이러한 조건인 경우 서버(100)가 페이크 영상을 식별할 기기로 설정되어 있는 경우, 프로세서(240)는 서버(100)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있다.
이와 같이, 프로세서(240)는 룩업 테이블을 이용하여 전자 장치(200)와 서버(100) 중에서 페이크 영상을 식별할 기기를 판단할 수 있다.
여기에서, 룩업 테이블에는 전자 장치(100)의 네트워크 상태, 서버(100)와 전자 장치(200)의 하드웨어 시스템 성능 및 각 기기에 저장된 인공지능 모델(111, 231)의 성능을 고려할 때, 얼굴 영역의 개수 및 사이즈에 따른 특성을 갖는 영상이 어떠한 기기에서 처리되는 것이 효율적인지가 미리 정의되어 있을 수 있다.
이에 따라, 본 개시의 일 실시 예에 따르면, 이러한 룩업 테이블을 통해 보다 효율적인 기기에서 페이크 영상에 대한 식별이 이루어질 수 있다.
이와 같이, 전술한 예에서는, 사용자 명령에 따라 전자 장치(200) 및 서버(100) 중에서 하나의 기기가 페이크 영상인지를 식별할 기기로 결정되는 것으로 설명하였다.
다만, 이는 일 예일 뿐이고, 프로세서(240)는 사용자가 어떠한 영상에 대해 페이크 영상인지의 식별을 요청하였는지에 따라, 전자 장치(200) 및 서버(100) 중에서 하나를 페이크 영상인지를 식별할 기기로 판단할 수 있다.
구체적으로, 프로세서(240)는 메모리(230)에 저장된 영상에 대해 페이크 영상인지의 식별을 요청하는 사용자 명령이 수신된 경우, 전자 장치(200)를 페이크 영상인지를 식별할 기기인 것으로 판단할 수 있다. 또한, 프로세서(240)는 웹 페이지를 통해 제공되는 영상에 대해 페이크 영상인지의 식별을 요청하는 사용자 명령이 수신된 경우, 서버(100)를 페이크 영상인지를 식별할 기기인 것으로 판단할 수 있다.
한편, 프로세서(240)는 전자 장치(200)가 페이크 영상인지를 식별할 기기인 것으로 판단되면, 영상을 인공지능 모델(231)에 입력하여, 영상이 페이크 영상인지를 식별할 수 있다. 그리고, 프로세서(240)는 영상이 원본 영상 또는 페이크 영상임을 나타내는 정보를 포함하는 UI 화면을 디스플레이(210)에 표시할 수 있다.
여기에서, 인공지능 모델(또는, 복수의 인공지능 모델 중 어느 하나의 인공지능 모델)을 이용하여 영상이 페이크 영상인지를 식별하는 방법은 서버(100)에서 설명한 바와 동일하다는 점에서, 구체적인 중복 설명은 생략하도록 한다.
한편, 프로세서(240)는 서버(100)가 페이크 영상인지를 식별할 기기인 것으로 판단되면, 영상 또는 영상을 제공하는 URL을 통신 인터페이스(220)를 통해 서버(100)로 전송할 수 있다.
그리고, 프로세서(240)는 영상이 원본 영상 또는 페이크 영상임을 나타내는 정보를 포함하는 UI 화면이 통신 인터페이스(220)를 통해 서버(100)로부터 수신되면, 수신된 UI 화면을 디스플레이(210)에 표시할 수 있다.
한편, 전술한 바와 같이, 프로세서(240)는 전자 장치(200)가 페이크 영상인지를 식별할 기기인 것으로 판단되면, 인공지능 모델(231)을 이용하여 영상이 페이크 영상인지를 식별하게 된다.
구체적으로, 프로세서(240)는 인공지능 모델(231)에서 출력되는, 영상이 페이크 영상임을 나타내는 확률 값이 기설정된 임계 값 이상인 경우, 입력된 영상이 페이크 영상인 것으로 판단할 수 있다.
이 경우, 실시 예에 따라, 프로세서(240)는 인공지능 모델(231)에서 출력되는, 영상이 페이크 영상임을 나타내는 확률 값이 기설정된 범위에 속하는 경우, 영상을 통신 인터페이스(220)를 통해 서버(100)로 전송할 수 있다.
여기에서, 일 예로, 기설정된 범위는 50%를 포함하고, 기설정된 범위의 최대 값은 기설정된 임계 값보다 작은 값일 수 있다.
예를 들어, 기설정된 임계 값은 60%이고, 기설정된 범위는 40%를 초과하고 60% 미만인 범위인 경우를 가정한다.
이 경우, 프로세서(240)는 인공지능 모델(231)에서 출력되는, 영상이 페이크 영상임을 나타내는 확률 값이 70%인 경우, 영상이 페이크 영상인 것으로 판단할 수 있다. 다만, 프로세서(240)는 인공지능 모델(231)에서 출력되는, 영상이 페이크 영상임을 나타내는 확률 값이 55%인 경우, 영상을 통신 인터페이스(220)를 통해 서버(100)로 전송할 수 있다.
이는, 인공지능 모델(231)에서 출력되는 확률 값이 영상이 페이크 영상인 것으로 판단하기에 명확하지 않은 범위에 속하는 경우, 인공지능 모델(231) 보다 성능이 우수한 인공지능 모델(111)에 의해 영상이 페이크 영상인지에 대한 판별을 받아보기 위함이다.
한편, 실시 예에 따라, 프로세서(240)는 영상에서 얼굴 영역이 검출되지 않는 경우, 영상이 페이크 영상인지를 식별하는 프로세스를 수행하지 않을 수 있다. 즉, 프로세서(240)는 페이크 영상인지를 식별할 기기를 별도로 판단하지 않고, 해당 프로세스를 종료할 수 있다.
또한, 프로세서(240)는 영상에서 얼굴 영역이 검출되더라도, 얼굴 영역이 사용자 명령에 따라 설정된 조건에 부합하지 않는 경우에는, 영상이 페이크 영상인지를 식별하는 프로세스를 수행하지 않을 수 있다.
예를 들어, 프로세서(240)는 영상에서 검출된 얼굴 영역의 사이즈가 사용자 명령에 따라 설정된 최대 사이즈보다 크거나, 또는, 영상에서 검출된 얼굴 영역의 개수가 사용자 명령에 따라 설정된 최대 개수보다 많은 경우, 영상이 페이크 영상인지를 식별하는 프로세스를 종료할 수 있다.
한편, 프로세서(240)는 페이크 영상인지를 식별하는 프로세스를 종료하는 경우, 이를 나타내기 위한 UI 화면(가령, "영상은 입력하신 조건에 부합하지 않는 영상으로, 페이크 영상인지를 판별하지 않았습니다."와 같은 메시지를 포함하는 UI 화면)을 디스플레이(210)에 표시할 수 있다.
한편, 프로세서(240)는 전술한 동작을 메모리(230)에 저장된 어플리케이션을 통해 수행할 수 있다.
구체적으로, 프로세서(240)는 페이크 영상의 식별을 위한 어플리케이션을 실행하기 위한 사용자 명령이 입력되면, 해당 어플리케이션을 실행할 수 있다.
여기에서, 사용자 명령은 디스플레이(210)에 표시된 홈 화면에서 아이콘을 선택하는 사용자 명령일 수 있다.
예를 들어, 도 11과 같이, 프로세서(240)는 전자 장치(200)에 설치된 복수의 어플리케이션을 나타내는 복수의 아이콘을 포함하는 홈 화면(1110)을 디스플레이(210)에 표시할 수 있다. 그리고, 프로세서(240)는 복수의 아이콘 중 페이크 영상의 식별을 위한 어플리케이션을 나타내는 아이콘(1111)을 선택하는 사용자 명령이 입력되면, 해당 어플리케이션을 실행할 수 있다.
한편, 어플리케이션이 실행되면, 프로세서(240)는 UI 화면을 통해, 영상을 선택하기 위한 사용자 명령을 입력받을 수 있다. 이 경우, 프로세서(240)는 사용자 명령에 따라 선택된 영상을 페이크 영상인지에 대한 식별이 수행될 영상으로 결정할 수 있다.
여기에서, 사용자는 메모리(230)에 저장된 복수의 영상 중에서 영상을 선택하거나, 또는, 웹 페이지에서 제공되는 영상을 선택할 수 있다.
이를 위해, 일 예로, 프로세서(240)는 도 12와 같이, 저장된 영상에서 선택하기 위한 UI 요소(1211) 및 웹 페이지에서 선택하기 위한 UI 요소(1212)를 포함하는 UI 화면(1210)를 디스플레이(210)에 표시할 수 있다.
여기에서, 프로세서(240)는 UI 요소(1211)를 선택하는 사용자 명령이 입력되면, 메모리(230)에 저장된 복수의 영상을 디스플레이(210)에 표시할 수 있다. 그리고, 프로세서(240)는 복수의 영상 중에서 하나를 선택하는 사용자 명령을 수신되면, 선택된 영상을 페이크 영상인지를 식별할 대상이 되는 영상으로 판단할 수 있다.
또한, 프로세서(240)는 UI 요소(1212)를 선택하는 사용자 명령이 입력되면, 통신 인터페이스부(220)를 통해 인터넷에 접속하고, 사용자 명령에 따라 인터넷을 통해 영상을 제공하는 웹 페이지에 접속할 수 있다. 그리고, 프로세서(240)는 웹 페이지를 선택하기 위한 사용자 명령이 입력되면, 선택된 웹 페이지에서 제공하는 영상을 페이크 영상인지를 식별할 대상이 되는 영상으로 판단할 수 있다.
이후, 프로세서(240)는 UI 화면을 통해, 파라미터를 설정하기 위한 사용자 명령을 입력받을 수 있다.
여기에서, 파라미터는 페이크 영상인지를 식별할 기기를 판단하기 위한 파라미터 및 얼굴 영역의 개수 및 사이즈를 설정하기 위한 파라미터를 포함할 수 있다.
이를 위해, 일 예로, 프로세서(240)는 도 13과 같이, 페이크 영상을 식별할 기기를 전자 장치(200)로 설정하기 위한 UI 요소(1311), 페이크 영상을 식별할 기기를 서버(100)로 설정하기 위한 UI 요소(1312), 얼굴 영역의 개수를 설정하기 위한 UI 요소(1313) 및 얼굴 영역의 사이즈를 설정하기 위한 UI 요소(1314)를 포함하는 UI 화면(1310)을 디스플레이(210)에 표시할 수 있다.
이 경우, 프로세서(240)는 UI 요소(1311)를 선택하는 사용자 명령이 입력되면, 전자 장치(200)를 페이크 영상을 식별할 기기로 설정할 수 있다. 또한, 프로세서(240)는 UI 요소(1312)를 선택하는 사용자 명령이 입력되면, 서버(100)를 페이크 영상을 식별할 기기로 설정할 수 있다.
또한, 프로세서(240)는 UI 요소(1313)를 선택하기 위한 사용자 명령이 입력되면, 얼굴 영역의 개수를 설정하기 UI 화면(미도시)를 디스플레이(210)에 표시하고, UI 화면(미도시)를 통해 입력된 사용자 명령에 기초하여, 얼굴 영역의 개수를 설정할 수 있다.
또한, 프로세서(240)는 UI 요소(1314)를 선택하기 위한 사용자 명령이 입력되면, 얼굴 영역의 사이즈를 설정하기 UI 화면(미도시)를 디스플레이(210)에 표시하고, UI 화면(미도시)를 통해 입력된 사용자 명령에 기초하여, 얼굴 영역의 사이즈를 설정할 수 있다.
한편, 프로세서(240)는 영상에서 검출된 얼굴 영역이 UI 화면(미도시)를 통해 설정된 얼굴 영역의 개수 및 사이즈에 부합하지는지를 판단하고, 영상에서 검출된 얼굴 영역의 개수 및 사이즈가 사용자 명령에 따라 설정된 조건에 부합하지 않는 경우에는, 영상이 페이크 영상인지를 식별하는 프로세스를 수행하지 않을 수 있다.
한편, 프로세서(240)는 페이크 영상을 식별할 기기를 판단할 수 있다.
예를 들어, 프로세서(240)는 도 12에 도시된 UI 화면(1210)을 통해, 메모리(230)에 저장된 영상이 선택된 경우, 전자 장치(200)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있고, 웹 페이지를 통해 제공되는 영상이 선택된 경우, 서버(100)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있다.
또한, 프로세서(240)는 도 13에 도시된 UI 화면(1310)을 통해, 사용자 명령에 따라 전자 장치(200)가 페이크 영상을 식별할 기기로 설정된 경우, 전자 장치(200)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있고, 사용자 명령에 따라 서버(100)가 페이크 영상을 식별할 기기로 설정된 경우, 서버(100)를 페이크 영상을 식별할 기기인 것으로 판단할 수 있다.
다만, 프로세서(240)는 사용자 명령에 따라 페이크 영상을 식별할 기기가 설정되지 않은 경우(가령, 도 13에서 UI 요소(1311) 및 UI 요소(1312)가 선택되지 않고 "완료"가 선택된 경우), 전자 장치(200)의 네트워크 상태, 영상의 사이즈, 영상의 타입, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 기초하여 전자 장치(200) 및 서버(100) 중 페이크 영상인지를 식별할 기기를 판단할 수 있다.
한편, 프로세서(240)는 전자 장치(200)가 페이크 영상을 식별할 기기로 판단되면, 영상을 인공지능 모델(231)에 입력하여, 영상이 페이크 영상인지를 식별할 수 있다.
그리고, 프로세서(240)는 영상이 페이크 영상인 것으로 식별되면, 영상이 페이크 영상임을 나타내는 UI 화면(미도시)을 디스플레이(210)에 표시할 수 있다.
한편, 프로세서(240)는 서버(100)가 페이크 영상을 식별할 기기로 판단되면, 사용자 명령에 따라 선택된 영상 또는 영상을 제공하는 URL을 통신 인터페이스(220)를 통해 서버(100)로 전송할 수 있다.
그리고, 프로세서(240)는 영상이 페이크 영상인 것으로 식별되면, 영상이 페이크 영상임을 나타내는 UI 화면(미도시)을 통신 인터페이스(220)를 통해 서버(100)로부터 수신하고, 수신된 UI 화면(미도시)을 디스플레(210)에 표시할 수 있다.
한편, 영상이 페이크 영상인 경우, 디스플레(210)에 표시되는 UI 화면의 일 예는 다음과 같다.
예를 들어, 도 14a와 같이, 프로세서(240)는 영상(1411) 및 영상이 페이크 영상임을 나타내는 확률 값(1412)을 포함하는 UI 화면(1410)을 디스플레이(210)에 표시할 수 있다.
이 경우, 실시 예에 따라, 도 14b와 같이, 프로세서(240)는 영상이 페이크 영상임을 나타내는 이모티콘(1413)을 디스플레이(210)에 표시할 수 있다.
또한, 실시 예에 따라, 도 14c와 같이, 프로세서(240)는 "페이크 영상 입니다"와 같이, 영상이 페이크 영상임을 나타내는 오디오를 전자 장치(200)의 스피커(미도시)를 통해 출력할 수도 있다.
한편, 본 개시에 따른 인공지능과 관련된 기능은 프로세서(120, 240)와 메모리(110, 230)를 통해 동작된다.
여기에서, 프로세서(120, 240)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU(Graphics Processing Unit), VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU(Neural Network Processing Unit)와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는 메모리(110)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
한편, 기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.
여기서, 학습을 통해 만들어진다는 것은 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다.
이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수 있다.
가령, 서버(100)에서 학습이 이루어지는 경우, 예를 들어, 프로세서(120)는 원본 영상들 및 페이크 영상들 각각에서 랜드마크에 해당하는 픽셀들을 판단하고, 판단된 픽셀들의 픽셀 값을 기설정된 픽셀 값으로 조정하여, 랜드마크에 대한 정보를 포함하는 영상들을 생성할 수 있다. 그리고, 프로세서(120, 240)는 각각 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들을 이용하여 인공지능 모델(111)을 학습시킬 수 있다.
또한, 프로세서(120)는 원본 영상들 및 페이크 영상들 각각에서 얼굴 영역의 색상 값의 범위 및 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나를 판단하고, 이러한 데이터를 랜드마크에 대한 정보를 포함하는 영상들과 함께 이용하여 인공지능 모델(111)을 학습시킬 수 있다.
또한, 프로세서(120)는 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴의 포즈에 따라 원본 영상들 및 페이크 영상들을 복수의 그룹으로 분류하고, 각 그룹에 포함된 영상들을 이용하여 각 인공지능 모델(111-1 내지 111-5)을 학습시킬 수 있다.
다만, 이는 일 예일 뿐이고, 학습은 전자 장치(200), 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다.
한편, 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다.
한편, 인공 신경망은 CNN(Convolutional Neural Network) 기반의 AlexNet, VGGNet, GoogLeNet, Inception, Xception, ShuffleNet, MesoNet, MobileNet, SqueezeNet 등을 포함할 수 있다. 뿐만 아니라, 인공 신경망은 DNN(Deep Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
도 15는 본 개시의 일 실시 예에 따른 서버의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 페이크 영상을 식별하도록 학습된 인공지능 모델에 영상을 입력할 수 있다(S1510).
이후, 인공지능 모델의 출력 값에 기초하여, 입력된 영상이 페이크 영상인지를 식별할 수 있다(S1520).
여기에서, 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 인공지능 모델은 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 인공지능 모델은 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴 영역의 색상 값의 범위 및 얼굴 영역에서 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나에 기초하여 학습된 모델일 수 있다.
또한, 인공지능 모델은 서버에 저장된 복수의 인공지능 모델 중 하나이고, 복수의 인공지능 모델 각각은 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴의 포즈에 따라 원본 영상들 및 페이크 영상들이 분류된 복수의 그룹 각각에 기초하여 학습된 모델이고, S1510 단계는 영상에 포함된 얼굴의 포즈를 판단하고, 복수의 인공지능 모델 중 판단된 포즈에 대응되는 인공지능 모델에 영상을 입력할 수 있다.
한편, 인공지능 모델 및 인공지능 모델을 이용하여 페이크 영상을 식별하는 구체적인 내용은 전술한 바 있다.
도 16은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
여기에서, 전자 장치는 페이크 영상을 식별하도록 학습된 인공지능 모델을 저장하고 있을 수 있다.
먼저, 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다(S1610).
한편, 전자 장치가 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 영상을 인공지능 모델에 입력하여 영상이 페이크 영상인지를 식별할 수 있다(S1620).
그리고, 서버가 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 영상을 서버로 전송할 수 있다(S1630).
한편, 영상이 페이크 영상인 경우, 영상이 페이크 영상임을 나타내는 UI 화면을 표시할 수 있다(S1640).
여기에서, 인공지능 모델은 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델일 수 있다.
또한, 인공지능 모델은 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 원본 영상들 및 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 페이크 영상들에 기초하여 학습된 모델일 수 있다.
한편, S1610 단계는 전자 장치 및 서버 중에서 사용자 명령에 따라 설정된 기기, 전자 장치의 네트워크 상태, 영상의 사이즈, 영상의 타입, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 기초하여, 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
또한, S1610 단계는 사용자 명령에 따라 설정된 기기가 전자 장치인 경우, 전자 장치를 영상이 페이크 영상인지를 식별할 기기인 것으로 판단하고, 사용자 명령에 따라 설정된 기기가 서버인 경우, 서버를 영상이 페이크 영상인지를 식별할 기기인 것으로 판단할 수 있다.
또한, S1610 단계는 전자 장치에 저장된 룩업 테이블을 이용하여, 전자 장치의 네트워크 상태, 영상의 사이즈, 영상의 타입, 영상에 포함된 얼굴 영역의 사이즈 및 얼굴 영역의 개수 중 적어도 하나에 따라 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단할 수 있다.
한편, 전자 장치에 저장된 인공지능 모델은 서버에 저장된 인공지능 모델이 압축된 모델일 수 있다.
한편, 전자 장치에서 페이크 영상을 식별할 기기를 판단하고, 그에 따른 동작을 수행하는 구체적인 내용에 대해서는 전술한 바 있다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 기기를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
-
-

Claims (15)

  1. 서버에 있어서,
    페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 메모리; 및
    상기 메모리와 연결되어, 상기 서버를 제어하는 프로세서;를 포함하며,
    상기 프로세서는,
    영상을 상기 인공지능 모델에 입력하여 상기 영상이 페이크 영상인지를 식별하며,
    상기 인공지능 모델은,
    각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델인 서버.
  2. 제1항에 있어서,
    상기 인공지능 모델은,
    상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델인 서버.
  3. 제1항에 있어서,
    상기 인공지능 모델은,
    상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역의 색상 값의 범위 및 상기 얼굴 영역에서 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나에 기초하여 학습된 모델인 서버.
  4. 제1항에 있어서,
    상기 인공지능 모델은, 상기 메모리에 저장된 복수의 인공지능 모델 중 하나이고,
    상기 복수의 인공지능 모델 각각은,
    상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴의 포즈에 따라 상기 원본 영상들 및 상기 페이크 영상들이 분류된 복수의 그룹 각각에 기초하여 학습된 모델이고,
    상기 프로세서는,
    상기 영상에 포함된 얼굴의 포즈를 판단하고, 상기 복수의 인공지능 모델 중 상기 판단된 포즈에 대응되는 인공지능 모델에 상기 영상을 입력하여 상기 영상이 페이크 영상인지를 식별하는 서버.
  5. 전자 장치에 있어서,
    디스플레이;
    통신 인터페이스;
    페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 메모리; 및
    상기 디스플레이, 상기 통신 인터페이스 및 상기 메모리와 연결되어, 상기 전자 장치를 제어하는 프로세서;를 포함하며,
    상기 인공지능 모델은, 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델이고,
    상기 프로세서는,
    상기 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단하고, 상기 전자 장치가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 인공지능 모델에 입력하여 상기 영상이 페이크 영상인지를 식별하고, 상기 서버가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 통신 인터페이스를 통해 상기 서버로 전송하고, 상기 영상이 페이크 영상인 경우, 상기 영상이 페이크 영상인 것을 나타내는 UI 화면을 상기 디스플레이에 표시하는 전자 장치.
  6. 제5항에 있어서,
    상기 인공지능 모델은,
    상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델인 전자 장치.
  7. 제5항에 있어서,
    상기 프로세서는,
    상기 전자 장치 및 상기 서버 중에서 사용자 명령에 따라 설정된 기기, 상기 전자 장치의 네트워크 상태, 상기 영상의 사이즈, 상기 영상의 타입, 상기 영상에 포함된 얼굴 영역의 사이즈 및 상기 얼굴 영역의 개수 중 적어도 하나에 기초하여, 상기 전자 장치 및 상기 서버 중에서 상기 영상이 페이크 영상인지를 식별할 기기를 판단하는 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 사용자 명령에 따라 설정된 기기가 상기 전자 장치인 경우, 상기 전자 장치를 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단하고, 상기 사용자 명령에 따라 설정된 기기가 상기 서버인 경우, 상기 서버를 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단하는 전자 장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 메모리에 저장된 룩업 테이블을 이용하여, 상기 전자 장치의 네트워크 상태, 상기 영상의 사이즈, 상기 영상의 타입, 상기 영상에 포함된 얼굴 영역의 사이즈 및 상기 얼굴 영역의 개수 중 적어도 하나에 따라 상기 전자 장치 및 상기 서버 중에서 상기 영상이 페이크 영상인지를 식별할 기기를 판단하는 전자 장치.
  10. 제5항에 있어서,
    상기 메모리에 저장된 인공지능 모델은, 상기 서버에 저장된 인공지능 모델이 압축된 모델인 전자 장치.
  11. 서버의 제어 방법에 있어서,
    페이크 영상을 식별하도록 학습된 인공지능 모델에 영상을 입력하는 단계; 및
    상기 인공지능 모델의 출력 값에 기초하여, 상기 입력된 영상이 페이크 영상인지를 식별하는 단계;를 포함하며,
    상기 인공지능 모델은,
    각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델인 제어 방법.
  12. 제11항에 있어서,
    상기 인공지능 모델은,
    상기 원본 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역에서 랜드마크에 대응되는 픽셀의 픽셀 값이 기설정된 픽셀 값으로 조정된 상기 페이크 영상들에 기초하여 학습된 모델인 제어 방법.
  13. 제11항에 있어서,
    상기 인공지능 모델은,
    상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴 영역의 색상 값의 범위 및 상기 얼굴 영역에서 이마 영역과 볼 영역 간의 밝기 값의 차이 중 적어도 하나에 기초하여 학습된 모델인 제어 방법.
  14. 제11항에 있어서,
    상기 인공지능 모델은, 상기 서버에 저장된 복수의 인공지능 모델 중 하나이고,
    상기 복수의 인공지능 모델 각각은,
    상기 원본 영상들 및 상기 페이크 영상들 각각에 포함된 얼굴의 포즈에 따라 상기 원본 영상들 및 상기 페이크 영상들이 분류된 복수의 그룹 각각에 기초하여 학습된 모델이고,
    상기 입력하는 단계는,
    상기 영상에 포함된 얼굴의 포즈를 판단하고, 상기 복수의 인공지능 모델 중 상기 판단된 포즈에 대응되는 인공지능 모델에 상기 영상을 입력하는 제어 방법.
  15. 페이크 영상을 식별하도록 학습된 인공지능 모델이 저장된 전자 장치의 제어 방법에 있어서,
    상기 전자 장치 및 서버 중에서 영상이 페이크 영상인지를 식별할 기기를 판단하는 단계;
    상기 전자 장치가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 인공지능 모델에 입력하여 상기 영상이 페이크 영상인지를 식별하는 단계;
    상기 서버가 상기 영상이 페이크 영상인지를 식별할 기기인 것으로 판단되면, 상기 영상을 상기 서버로 전송하는 단계; 및
    상기 영상이 페이크 영상인 경우, 상기 영상이 페이크 영상임을 나타내는 UI 화면을 표시하는 단계;를 포함하며,
    상기 인공지능 모델은, 각각 얼굴 영역의 랜드마크에 대한 정보를 포함하는 원본 영상들 및 페이크 영상들에 기초하여 학습된 모델인 제어 방법.
PCT/KR2020/016640 2020-02-21 2020-11-24 서버, 전자 장치 및 그들의 제어 방법 WO2021167210A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/520,245 US20220058375A1 (en) 2020-02-21 2021-11-05 Server, electronic device, and control methods therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0021746 2020-02-21
KR1020200021746A KR20210106790A (ko) 2020-02-21 2020-02-21 서버, 전자 장치 및 그들의 제어 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/520,245 Continuation US20220058375A1 (en) 2020-02-21 2021-11-05 Server, electronic device, and control methods therefor

Publications (1)

Publication Number Publication Date
WO2021167210A1 true WO2021167210A1 (ko) 2021-08-26

Family

ID=77390909

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/016640 WO2021167210A1 (ko) 2020-02-21 2020-11-24 서버, 전자 장치 및 그들의 제어 방법

Country Status (3)

Country Link
US (1) US20220058375A1 (ko)
KR (1) KR20210106790A (ko)
WO (1) WO2021167210A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941792B2 (en) * 2021-04-09 2024-03-26 Dell Products L.P. Machine learning-based analysis of computing device images included in requests to service computing devices
KR102664295B1 (ko) * 2021-09-24 2024-05-08 고려대학교 세종산학협력단 수어 자막 동영상 플랫폼 제공 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307929A1 (en) * 2012-06-26 2014-10-16 Google, Inc. Facial recognition
KR20180022019A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 라이브니스 검사 방법 및 장치
KR20190029800A (ko) * 2017-08-28 2019-03-21 에스케이텔레콤 주식회사 개인정보 보호가 가능한, 영상 인식을 위한 단말 장치, 서버 장치 및 시스템
JP2019508801A (ja) * 2016-07-22 2019-03-28 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. なりすまし防止顔認識のための生体検知
KR20190098858A (ko) * 2018-02-01 2019-08-23 고려대학교 산학협력단 딥러닝 기반의 포즈 변화에 강인한 얼굴 인식 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082235B2 (en) * 2011-07-12 2015-07-14 Microsoft Technology Licensing, Llc Using facial data for device authentication or subject identification
US10885531B2 (en) * 2018-01-29 2021-01-05 Accenture Global Solutions Limited Artificial intelligence counterfeit detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307929A1 (en) * 2012-06-26 2014-10-16 Google, Inc. Facial recognition
JP2019508801A (ja) * 2016-07-22 2019-03-28 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. なりすまし防止顔認識のための生体検知
KR20180022019A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 라이브니스 검사 방법 및 장치
KR20190029800A (ko) * 2017-08-28 2019-03-21 에스케이텔레콤 주식회사 개인정보 보호가 가능한, 영상 인식을 위한 단말 장치, 서버 장치 및 시스템
KR20190098858A (ko) * 2018-02-01 2019-08-23 고려대학교 산학협력단 딥러닝 기반의 포즈 변화에 강인한 얼굴 인식 방법 및 장치

Also Published As

Publication number Publication date
KR20210106790A (ko) 2021-08-31
US20220058375A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
WO2021107506A1 (en) Electronic device for providing augmented reality service and operating method thereof
WO2016060397A1 (en) Method and apparatus for processing screen using device
WO2018117619A1 (en) Display apparatus, content recognizing method thereof, and non-transitory computer readable recording medium
WO2017105018A1 (en) Electronic apparatus and notification displaying method for electronic apparatus
WO2021167210A1 (ko) 서버, 전자 장치 및 그들의 제어 방법
WO2019135621A1 (ko) 영상 재생 장치 및 그의 제어 방법
WO2021162320A1 (en) Electronic device and method for operating high speed screen of electronic device
WO2016175424A1 (ko) 이동 단말기 및 그 제어 방법
WO2020209693A1 (ko) 인공지능 모델을 갱신하는 전자 장치, 서버 및 그 동작 방법
WO2022075668A1 (ko) 인공지능 모델을 분산 처리하는 시스템 및 그 동작 방법
WO2021230485A1 (ko) 영상을 제공하는 방법 및 장치
WO2017159931A1 (en) Electronic device including touch panel and method of controlling the electronic device
WO2019031676A1 (ko) 이미지 처리 방법 및 그에 따른 장치
WO2023177144A1 (ko) 광고 대상 결정 장치 및 방법
WO2020027562A1 (en) Electronic apparatus for controlling display of virtual input interface in environment of a plurality of output screens and operating method thereof
WO2020045858A1 (en) Electronic apparatus and method of controlling the same
WO2021075752A1 (en) Method for providing screen using foldable display and electronic device for supporting same
WO2020080701A1 (en) Electronic apparatus and control method thereof
WO2017206882A1 (zh) 一种传感器控制方法、装置、存储介质及电子设备
WO2020067645A1 (en) Electronic apparatus and control method thereof
WO2019124775A1 (ko) 전자 장치 및 전자 장치에서 방송 콘텐트와 관련된 서비스 정보 제공 방법
WO2019212283A1 (ko) 전자 장치 및 그 동작 방법
WO2019093763A1 (en) Display apparatus, control system for the same, and method for controlling the same
WO2023008678A9 (ko) 영상 처리 장치 및 그 동작 방법
WO2019050265A1 (ko) 영상 표시 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20920731

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20920731

Country of ref document: EP

Kind code of ref document: A1