WO2024039025A1 - 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 - Google Patents

3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 Download PDF

Info

Publication number
WO2024039025A1
WO2024039025A1 PCT/KR2023/008123 KR2023008123W WO2024039025A1 WO 2024039025 A1 WO2024039025 A1 WO 2024039025A1 KR 2023008123 W KR2023008123 W KR 2023008123W WO 2024039025 A1 WO2024039025 A1 WO 2024039025A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
expression
target
preset
source
Prior art date
Application number
PCT/KR2023/008123
Other languages
English (en)
French (fr)
Inventor
전진수
정한솔
김창욱
Original Assignee
슈퍼랩스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 슈퍼랩스 주식회사 filed Critical 슈퍼랩스 주식회사
Publication of WO2024039025A1 publication Critical patent/WO2024039025A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • Face conversion technology using artificial intelligence is developing to a level where converted faces can be created with high resolution.
  • Face transformation technology can be provided to users in a variety of ways. For example, a specific face can be composited with a user-desired background, thereby allowing the user or another person's face to appear in the user-desired background. You can also change the face of a famous person in a video to your own or someone else's face.
  • Korea Patent Publication No. 10-1871662 (registration date June 21, 2018) discloses an image synthesis technology based on face detection.
  • An image compositing method executed on a computer device wherein the computer device includes at least one processor configured to execute computer-readable instructions included in a memory, and the image compositing method is performed by the at least one processor, using standard Generating a plurality of preset images with different expressions using a face model; and generating a result image of the target expression by compositing a source image into a preset image of the target expression by the at least one processor.
  • the plurality of preset images may be generated by modifying the expression of the 3D face model through an expression animation tool.
  • the step of generating the plurality of preset images includes transforming the expression of the 3D face model through an expression animation tool and then photographing the 3D face model of the corresponding expression as a 2D image for each expression to create the preset image. can be created.
  • generating a result image of the target expression may include selecting a preset image of the target expression through user selection or random selection according to a user's request.
  • the step of generating the plurality of preset images includes determining user preferences for each preset image, and the step of generating the resulting image of the target expression includes the step of generating the result image of the target expression according to the user's request. It may include selecting a preset image of the target facial expression from among a plurality of preset images based on the user preference.
  • generating a result image of the target expression includes extracting a facial area from a first source image and a second source image; combining a face area extracted from the first source image and a face area extracted from the second source image; generating a face composite image by combining the synthesized face area with a target image set as a style source; and generating a result image of the target expression by recombining the preset image of the target expression with the facial composite image.
  • the target image may correspond to an image selected by the user among the first source image and the second source image.
  • the target image may correspond to a separate image selected by the user that is different from the first source image or the second source image.
  • the step of combining the first facial features extracted from the face area of the first source image and the second facial features extracted from the face area of the second source image at a ratio set by the user may include a mixing step.
  • the step of generating a result image of the target expression by recombining the preset image of the target expression with the face synthesis image includes using the face synthesis image as a source image and the preset image of the target expression as the target.
  • the face synthesis image as a source image and the preset image of the target expression as the target.
  • a computer program stored in a computer-readable recording medium is provided to execute the image synthesis method on the computer device.
  • a computer device comprising: at least one processor configured to execute computer readable instructions included in a memory, the at least one processor generating a plurality of preset images of different facial expressions using a standard face model; ; and a computer device that processes a process of generating a result image of the target expression by combining the source image with the preset image of the target expression.
  • presets of various facial expressions are created based on a 3D face model and then used for face synthesis to provide facial synthesis results with the user's desired expression, thereby improving service quality and autonomous facial expression generation. It can improve user experience.
  • FIG. 1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
  • Figure 2 is a block diagram showing an example of a computer device according to an embodiment of the present invention.
  • Figure 3 is a flowchart showing an example of an image compositing method that can be performed by a computer device according to an embodiment of the present invention.
  • Figure 4 shows an example of a 3D standard model for use in autonomous facial expression generation in one embodiment of the present invention.
  • Figure 5 shows an example of a facial expression preset created based on a 3D standard model in one embodiment of the present invention.
  • Figure 6 is an example diagram for explaining the autonomous facial expression generation process in one embodiment of the present invention.
  • Figure 7 is a flowchart showing another example of the facial expression transformation process in one embodiment of the present invention.
  • Figures 8 and 9 show examples of the image synthesis process in one embodiment of the present invention.
  • Figure 10 shows an example of a face synthesis service screen in one embodiment of the present invention.
  • Figure 11 shows an example of a face synthesis result according to an embodiment of the present invention.
  • Figure 12 shows an example of a face synthesis result using an expression preset in one embodiment of the present invention.
  • Embodiments of the present invention relate to face synthesis technology using deep learning.
  • Embodiments including those specifically disclosed in this specification can create a user's desired expression while maintaining the identity of the face through image synthesis using a 3D character-based standard model.
  • the image synthesis system may be implemented by at least one computer device, and the image synthesis method according to embodiments of the present invention is performed through at least one computer device included in the image synthesis system. It can be.
  • the computer program according to an embodiment of the present invention may be installed and driven in the computer device, and the computer device may perform the image compositing method according to the embodiment of the present invention under the control of the driven computer program. .
  • the above-described computer program can be combined with a computer device and stored in a computer-readable recording medium to execute the image compositing method on the computer.
  • FIG. 1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
  • the network environment in FIG. 1 shows an example including a plurality of electronic devices 110, 120, 130, and 140, a plurality of servers 150 and 160, and a network 170.
  • Figure 1 is an example for explaining the invention, and the number of electronic devices or servers is not limited as in Figure 1.
  • the network environment in FIG. 1 only explains one example of environments applicable to the present embodiments, and the environment applicable to the present embodiments is not limited to the network environment in FIG. 1.
  • the plurality of electronic devices 110, 120, 130, and 140 may be fixed terminals or mobile terminals implemented as computer devices. Examples of the plurality of electronic devices 110, 120, 130, and 140 include smart phones, mobile phones, navigation devices, computers, laptops, digital broadcasting terminals, Personal Digital Assistants (PDAs), and Portable Multimedia Players (PMPs). ), tablet PC, etc.
  • PDAs Personal Digital Assistants
  • PMPs Portable Multimedia Players
  • FIG. 1 the shape of a smartphone is shown as an example of the electronic device 110.
  • the electronic device 110 actually communicates with other devices through the network 170 using a wireless or wired communication method. It may refer to one of various physical computer devices capable of communicating with electronic devices 120, 130, 140 and/or servers 150, 160.
  • the communication method is not limited, and may include not only a communication method utilizing a communication network that the network 170 may include (for example, a mobile communication network, wired Internet, wireless Internet, and a broadcast network), but also short-range wireless communication between devices.
  • the network 170 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN).
  • PAN personal area network
  • LAN local area network
  • CAN campus area network
  • MAN metropolitan area network
  • WAN wide area network
  • BBN broadband network
  • the network 170 may include any one or more of network topologies including a bus network, star network, ring network, mesh network, star-bus network, tree or hierarchical network, etc. Not limited.
  • Each of the servers 150 and 160 is a computer device or a plurality of computers that communicate with a plurality of electronic devices 110, 120, 130, 140 and a network 170 to provide commands, codes, files, content, services, etc. It can be implemented with devices.
  • the server 150 may be a system that provides a service (for example, a face synthesis service) to a plurality of electronic devices 110, 120, 130, and 140 connected through the network 170.
  • Figure 2 is a block diagram showing an example of a computer device according to an embodiment of the present invention.
  • Each of the plurality of electronic devices 110, 120, 130, and 140 described above or each of the servers 150 and 160 may be implemented by the computer device 200 shown in FIG. 2.
  • the image synthesis system according to embodiments of the present invention may be implemented by the computer device 200 shown in FIG. 2.
  • this computer device 200 may include a memory 210, a processor 220, a communication interface 230, and an input/output interface 240.
  • the memory 210 is a computer-readable recording medium and may include a non-permanent mass storage device such as random access memory (RAM), read only memory (ROM), and a disk drive.
  • RAM random access memory
  • ROM read only memory
  • disk drive non-perishable large-capacity recording devices such as ROM and disk drives may be included in the computer device 200 as a separate permanent storage device that is distinct from the memory 210.
  • an operating system and at least one program code may be stored in the memory 210. These software components may be loaded into the memory 210 from a computer-readable recording medium separate from the memory 210.
  • Such separate computer-readable recording media may include computer-readable recording media such as floppy drives, disks, tapes, DVD/CD-ROM drives, and memory cards.
  • software components may be loaded into the memory 210 through the communication interface 230 rather than a computer-readable recording medium.
  • software components may be loaded into memory 210 of computer device 200 based on computer programs installed by files received over network 170.
  • the processor 220 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. Commands may be provided to the processor 220 by the memory 210 or the communication interface 230. For example, processor 220 may be configured to execute received instructions according to program code stored in a recording device such as memory 210.
  • the communication interface 230 may provide a function for the computer device 200 to communicate with other devices (eg, the storage devices described above) through the network 170. For example, a request, command, data, file, etc. generated by the processor 220 of the computer device 200 according to a program code stored in a recording device such as memory 210 is transmitted to the network ( 170) and can be transmitted to other devices. Conversely, signals, commands, data, files, etc. from other devices may be received by the computer device 200 through the communication interface 230 of the computer device 200 via the network 170. Signals, commands, data, etc. received through the communication interface 230 may be transmitted to the processor 220 or memory 210, and files, etc. may be stored in a storage medium (as described above) that the computer device 200 may further include. It can be stored as a permanent storage device).
  • a storage medium as described above
  • the input/output interface 240 may be a means for interfacing with the input/output device 250.
  • input devices may include devices such as a microphone, keyboard, or mouse, and output devices may include devices such as displays and speakers.
  • the input/output interface 240 may be a means for interfacing with a device that integrates input and output functions, such as a touch screen.
  • the input/output device 250 may be configured as a single device with the computer device 200.
  • computer device 200 may include fewer or more components than those of FIG. 2 . However, there is no need to clearly show most prior art components.
  • the computer device 200 may be implemented to include at least some of the input/output devices 250 described above, or may further include other components such as a transceiver, a database, etc.
  • the face synthesis process using a deep learning model synthesizes only the facial features included in the source image, so the synthesis result follows the expression of the target image. Because the face in the target image has a fixed expression, there is a limitation in creating a face with the expression the user wants.
  • a face with an autonomous expression desired by the user can be created through image synthesis using a 3D character-based standard model in the face synthesis process using a deep learning model.
  • the computer device 200 can provide a face synthesis service to clients through a dedicated application installed on the client or through access to a web/mobile site related to the computer device 200.
  • the computer device 200 may be configured with a computer-implemented image synthesis system.
  • the image synthesis system may be implemented in the form of a program that operates independently, or may be implemented in the form of an in-app of a specific application so that it can operate on the specific application.
  • the processor 220 of the computer device 200 may be implemented as a component for performing the following image synthesis method. Depending on the embodiment, components of the processor 220 may be selectively included in or excluded from the processor 220. Additionally, depending on the embodiment, components of the processor 220 may be separated or merged to express the functions of the processor 220.
  • the processor 220 and its components can control the computer device 200 to perform the steps included in the image synthesis method below.
  • the processor 220 and its components may be implemented to execute instructions according to the code of an operating system included in the memory 210 and the code of at least one program.
  • the components of the processor 220 may be expressions of different functions performed by the processor 220 according to instructions provided by program codes stored in the computer device 200.
  • the processor 220 may read necessary instructions from the memory 210 where instructions related to controlling the computer device 200 are loaded.
  • the read command may include an command for controlling the processor 220 to execute steps that will be described later.
  • Steps included in the image synthesis method to be described later may be performed in an order different from the order shown, and some of the steps may be omitted or additional processes may be included.
  • Figure 3 is a flowchart showing an example of an image compositing method that can be performed by a computer device according to an embodiment of the present invention.
  • the image synthesis method according to this embodiment can be performed by the computer device 200 described above.
  • the processor 220 of the computer device 200 may be implemented to execute control instructions according to the code of an operating system or at least one program included in the memory 210.
  • the processor 220 is a computer device (S310 to S320) such that the computer device 200 performs the steps (S310 to S320) included in the image synthesis method of FIG. 3 according to control instructions provided by the code stored in the computer device 200. 200) can be controlled.
  • the processor 220 may generate a plurality of preset images with different facial expressions using a 3D standard model.
  • a 3D standard model corresponds to a 3D model with normal facial features that can accommodate various facial features, and may refer to a 3D facial model created through 3D facial modeling technology.
  • the processor 220 can change the facial expression of the 3D standard model to the target expression using a 3D tool, and takes a 2D photo of the 3D standard model with the target expression (for example, a snapshot, etc.) to create a 2D preset.
  • An image hereinafter referred to as a 'standard model image'
  • a 'standard model image' can be created.
  • the processor 220 is an example of a 3D tool for generating a standard model image and can use a blend shape function used for facial expression animation.
  • the processor 220 can create various expressions of the 3D standard model by changing and storing the expression of the duplicate target object without damaging the original base object through the blend shape function. Accordingly, the processor 220 can prepare in advance a plurality of facial expression presets for autonomous facial expression generation using the 3D standard model.
  • step S320 when an input image is given as a target image according to the user's facial expression transformation request, the processor 220 generates a result image of the target expression by combining the input image with the standard model image of the target expression specified by the user's selection. You can.
  • These embodiments create a 2D result by combining a 2D preset image generated from a 3D standard model with a 2D input image, but are not limited to this.
  • facial expression presets, input images, and composite results can be implemented in 2D or 3D through dimensional conversion or compatibility between 2D and 3D.
  • a 3D preset image can be combined with a 2D input image to create a 2D or 3D result.
  • Figure 4 shows an example of a 3D standard model for use in autonomous facial expression generation in one embodiment of the present invention.
  • the 3D standard model 410 is a 3D model with ordinary facial features that can well accommodate facial expressions and facial features for autonomous facial expression generation, and a 3D facial model created through 3D facial modeling can be used. .
  • the processor 220 can generate preset images of various facial expressions using the 3D standard model 410.
  • Figure 5 shows an example of a facial expression preset in one embodiment of the present invention.
  • the processor 220 can create various facial expressions through facial expression animation tools such as blend shape transformation for the 3D standard model 410, and creates a 3D standard model 410 of the corresponding expression for each expression.
  • facial expression animation tools such as blend shape transformation for the 3D standard model 410
  • creates a 3D standard model 410 of the corresponding expression for each expression By taking a snapshot, you can create a standard model image (520) corresponding to the 2D preset image.
  • the processor 220 may build a plurality of standard model images 520 with different facial expressions in advance to generate autonomous facial expressions.
  • the processor 220 may apply the standard model image 520 of the target expression specified by user selection or random selection to face synthesis according to the user's request.
  • user preference may be determined for each facial expression created from the standard model image 520, and a target facial expression may be selected and applied based on a ranking according to user preference.
  • the processor 220 may receive input according to user selection for each facial expression and calculate or predict user preference based on this. For example, among the resulting images from the face synthesis service, the user's preference for facial expressions can be determined by collecting the facial expressions applied to the images saved by the user.
  • the processor 220 may apply the standard model image 520 created as an expression preset to the face synthesis according to the user's request, starting with the user's most preferred expression in order.
  • Figure 6 is an example diagram for explaining the autonomous facial expression generation process in one embodiment of the present invention.
  • the processor 220 synthesizes the input image 630 and the standard model image 521 of the target expression to create a result image 640 of the target expression. ) can be made.
  • a resulting image 640 can be created by combining the facial features of the source image and the facial expression of the target image.
  • the processor 220 can apply the facial features of the source image to the standard model image 521 to obtain a composite result with the target expression while maintaining the facial features of the source.
  • Figure 7 is a flowchart showing another example of the facial expression transformation process in one embodiment of the present invention.
  • the processor 220 may separate a face area and a style area representing the remaining background (appearance) area excluding the face area from the first source image and the second source image, respectively.
  • the processor 220 separates the first face area and the first style area from the first source image through face detection technology, and separates the second face area and the second style area from the second source image. It can be separated.
  • the processor 220 may synthesize the first face area separated from the first source image and the second face area separated from the second source image.
  • the processor 220 creates a new face area (hereinafter referred to as 'third face') by combining the first face area and the second face area through face swap (e.g., Simple Swap), an artificial intelligence-based image synthesis technology. (referred to as ‘area’) can be created.
  • face swap e.g., Simple Swap
  • area an artificial intelligence-based image synthesis technology
  • the processor 220 may generate a result image by combining the third face area with an image set as a style source (hereinafter referred to as a 'target image').
  • the target image refers to the style source used as the background area (the remaining background area excluding the face area) of the resulting image.
  • the style source refers to the targeting style to be reflected in the resulting image. Excluding the face area of the image set as the style source, the remaining background (appearance) area is applied as the style appearance of the resulting image.
  • the processor 220 may provide an interface for selecting a target image. Through this interface, the target image selected by the user can be used as a style source for compositing with the third face area. Any one of the first source image and the second source image may be selected as the target image that is the style source, and depending on the embodiment, an image other than the first source image and the second source image may be selected as the target image. can be selected.
  • the processor 220 may generate a result image of the target expression by recombining the resulting image with the standard model image of the target expression.
  • various facial expression presets can be built in advance, and a preset image (i.e., standard model image) of a target expression specified by user selection, random selection, or ranking according to user preference is applied to face synthesis according to user request. can do.
  • the processor 220 can obtain a result image in which the facial expression is transformed into the expression of the standard model image while maintaining the facial features of the third facial region created from the source image.
  • Figures 8 and 9 show examples of the image synthesis process in one embodiment of the present invention.
  • the processor 220 may receive a first source image 910 and a second source image 920, which are target images for compositing, as the input image 80 through user input or selection. .
  • the processor 220 can detect the face area through face detection technology using deep learning DLIB (distribution library), etc., and detects the feature value and style area for the face area through a deep learning engine such as ArcFace. Feature values can be extracted (S710). In detail, the processor 220 detects a face area in the first source image 910 and then extracts a face feature (hereinafter referred to as 'first face feature') 911 from the face area through a feature decomposition process. and a style feature (hereinafter referred to as 'first style feature') 912 can be extracted from the remaining area, the style area. It is assumed that other features except the face feature can be styles.
  • DLIB distributed library
  • the processor 220 detects the face area in the second source image 920, extracts the face feature (hereinafter referred to as 'second face feature') 921 from the face area through feature decomposition, and extracts the face feature 921 from the face area through feature decomposition.
  • a style feature (hereinafter referred to as a 'second style feature') 922 can be extracted from the in-style area.
  • the processor 220 extracts the first facial features 911 and the second source image 920 extracted from the first source image 910 according to a ratio set by default or user settings through deepfake technology such as simple swap.
  • a synthetic face feature 931 can be created by mixing the second face features 921 (S720).
  • the processor 220 creates the resulting image 930 by attaching the synthetic face feature 931 to the face area of the target image 850 while maintaining the style area of the target image 850 set as the style source. Can be created (S730).
  • the processor 220 can generate the image 930 as a result of changing the face area of the target image 850 to the third face area while maintaining the style of the target image 850 through feature recombination. there is.
  • the resulting image 930 can be created by attaching the synthetic facial feature 931 to the first source image 910 selected as the target image 850.
  • the processor 220 may enhance the resolution of the resulting image 930 (S731).
  • the processor 220 may output the resulting image 930 as a high-definition image through an image enhancement deep learning engine (eg, GAN Prior Embedded Network (GPEN), etc.).
  • GPEN GAN Prior Embedded Network
  • the expression of the resulting image according to face synthesis can be freely modified using standard model images of various expressions created through a 3D tool.
  • Figure 10 shows an example of a face synthesis service screen in one embodiment of the present invention.
  • the face synthesis service screen 1000 includes a source selection interface 1010 for selecting a source image, a synthesis result interface 1020 for providing a synthesis result image, and a synthesis ratio for adjusting the synthesis ratio of the source image. It may include a ratio adjustment interface 1030, a reset interface 1040 for resetting the composite ratio of the source image, and a style selection interface 1050 for selecting a style source (target image).
  • the user can upload the A image and B image of the object for compositing through the source selection interface 1010.
  • the user can use the ratio adjustment interface 1030 to adjust the composite ratio between the A image and the B image as desired.
  • the composite ratio on the ratio adjustment interface 1030 is automatically adjusted to the initial value (for example, 50:50).
  • the processor 220 can combine the A image and B image input as the source image at a ratio desired by the user.
  • the source image selected as the A image can be applied as the style source.
  • the style selection interface 1050 one of image A and image B or another separate image can be selected and applied as a style source.
  • the composite image of image A and image B is called the source image and the style image is the target image
  • you can change only the background image while maintaining the facial features of the source image by setting the weight at a ratio of 0:100 target:source. .
  • the processor 220 may display a composite result image using the A image and the B image through the composite result interface 1020. At this time, when image A is applied as a style source, the facial expression of image A is reflected in the resulting composite image.
  • the face synthesis service screen 1000 may further include a preset selection interface 1060 for selecting a facial expression preset, and a preset release interface 1070 for releasing the facial expression preset.
  • the preset selection interface 1060 is an interface that selects standard model images created as facial expression presets one by one in a certain order or at random using a 3D standard model, and also provides a list of facial expression presets to select the desired facial expression through the list. It can be implemented in the form of an interface for selecting a preset.
  • the processor 220 may reflect the user's preference for facial expression presets when selecting facial expression presets in order or providing a list through the preset selection interface 1060.
  • the user's preferred facial expression preset may be selected first or aligned at the top.
  • the processor 220 may display a synthesis result image to which the facial expression preset selected through the preset selection interface 1060 is applied through the synthesis result interface 1020. Whenever the facial expression preset is changed through the preset selection interface 1060, a composite result image to which the changed facial expression is applied can be displayed on the composite result interface 1020.
  • the application of the facial expression preset may be canceled and the composite result image before the facial expression preset is applied may be displayed on the composite result interface 1020.
  • Figure 11 shows an example of a face synthesis result according to an embodiment of the present invention.
  • the processor 220 mixes the facial features extracted from the A image and the facial features extracted from the B image to create C, which is the result of the synthesis of the A image and the B image. You can create images.
  • the C image is created by synthesizing only the facial features included in the source image, it follows the facial expression of the target image, which is the style source.
  • a 3D standard model can be used to generate autonomous expressions, and a standard model image created as an expression preset can be used for face synthesis.
  • Figure 12 shows an example of a face synthesis result using an expression preset in one embodiment of the present invention.
  • the processor 220 converts image S, which is a standard model image of a facial expression selected according to a user's request, among standard model images created as facial expression presets using a 3D standard model, into image C, which is a composite result of images A and B. By recombining the image, you can create a D image, which is the result of a new facial expression.
  • the processor 220 can resynthesize the standard model image (S image) of the target expression into a style image in the C image, which is the result of combining the A image and the B image, to create a composite result of the user's desired facial expression.
  • S image standard model image
  • the processor 220 can diversify the facial expressions of the deep learning face synthesis results through facial expression preset synthesis based on a 3D standard model.
  • the processor 220 can output the C image, which is a result of a synthesis of the A image and the B image, or the D image, which is a result of a new facial expression, by enhancing the resolution of the corresponding image in high definition.
  • presets of various expressions are created based on a 3D face model and then substituted into the face synthesis model to create a face synthesis result of the user's desired expression, thereby improving service quality and the user through autonomous expression generation. It can improve your experience.
  • the device described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components.
  • the devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable logic unit (PLU).
  • ALU arithmetic logic unit
  • FPGA field programmable gate array
  • PLU programmable logic unit
  • It may be implemented using one or more general-purpose or special-purpose computers, such as a logic unit, microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • OS operating system
  • a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include.
  • a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • the software and/or data may be embodied in any type of machine, component, physical device, computer storage medium or device for the purpose of being interpreted by or providing instructions or data to the processing device. there is.
  • Software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • the medium may continuously store a computer-executable program, or temporarily store it for execution or download.
  • the medium may be a variety of recording or storage means in the form of a single or several pieces of hardware combined. It is not limited to a medium directly connected to a computer system and may be distributed over a network. Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And there may be something configured to store program instructions, including ROM, RAM, flash memory, etc. Additionally, examples of other media include recording or storage media managed by app stores that distribute applications, sites or servers that supply or distribute various other software, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

3D 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램이 개시된다. 이미지 합성을 통해 얼굴 표정을 생성하는 방법은, 표준 얼굴 모델을 이용하여 서로 다른 표정의 복수 개의 프리셋 이미지를 생성하는 단계; 및 타겟 표정의 프리셋 이미지에 소스 이미지를 합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계를 포함할 수 있다.

Description

3D 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
아래의 설명은 딥러닝을 이용한 얼굴 합성 기술에 관한 것이다.
인공지능을 이용한 얼굴 변환 기술은 변환된 얼굴을 높은 해상도로 생성해 낼 수 있는 수준으로 발전되고 있다.
얼굴 변환 기술은 다양한 방식으로 사용자에게 제공될 수 있다. 예를 들어, 특정 얼굴을 사용자가 원하는 배경과 합성할 수 있으며, 이에 따라 사용자가 원하는 배경에서 사용자 또는 타인의 얼굴이 나타나도록 할 수 있다. 동영상 속의 유명 인물의 얼굴을 사용자 또는 타인의 얼굴로 변경할 수도 있다.
일례로, 한국 등록특허공보 제10-1871662호(등록일 2018년 06월 21일)에는 얼굴 검출을 기반으로 한 이미지 합성 기술이 개시되어 있다.
얼굴의 아이덴티티(identity)를 유지하면서 사용자가 원하는 표정을 생성할 수 있는 방법과 장치를 제공한다.
3D 얼굴 모델을 기반으로 다양한 표정의 프리셋(preset)을 생성하여 자율 표정의 얼굴 합성에 활용할 수 있는 방법과 장치를 제공한다.
컴퓨터 장치에서 실행되는 이미지 합성 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 이미지 합성 방법은, 상기 적어도 하나의 프로세서에 의해, 표준 얼굴 모델을 이용하여 서로 다른 표정의 복수 개의 프리셋 이미지를 생성하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 타겟 표정의 프리셋 이미지에 소스 이미지를 합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계를 포함하는 이미지 합성 방법을 제공한다.
일 측면에 따르면, 상기 복수 개의 프리셋 이미지를 생성하는 단계는, 표정 애니케이션 툴을 통해 3D 얼굴 모델의 표정을 변형하여 상기 복수 개의 프리셋 이미지를 생성할 수 있다.
다른 측면에 따르면, 상기 복수 개의 프리셋 이미지를 생성하는 단계는, 표정 애니케이션 툴을 통해 3D 얼굴 모델의 표정을 변형한 후 각 표정 별로 해당 표정의 3D 얼굴 모델을 2D 이미지로 촬영함으로써 상기 프리셋 이미지를 생성할 수 있다.
또 다른 측면에 따르면, 상기 타겟 표정의 결과 이미지를 생성하는 단계는, 사용자의 요청에 따라 사용자 선택 또는 무작위 선택으로 상기 타겟 표정의 프리셋 이미지를 선택하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 복수 개의 프리셋 이미지를 생성하는 단계는, 각 프리셋 이미지에 대한 사용자 선호도를 파악하는 단계를 포함하고, 상기 타겟 표정의 결과 이미지를 생성하는 단계는, 사용자의 요청에 따라 상기 복수 개의 프리셋 이미지 중에서 상기 사용자 선호도를 기초로 상기 타겟 표정의 프리셋 이미지를 선택하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 타겟 표정의 결과 이미지를 생성하는 단계는, 제1 소스 이미지와 제2 소스 이미지에서 얼굴 영역을 추출하는 단계; 상기 제1 소스 이미지에서 추출된 얼굴 영역과 상기 제2 소스 이미지에서 추출된 얼굴 영역을 합성하는 단계; 스타일 소스로 설정된 타겟 이미지에 상기 합성된 얼굴 영역을 합성하여 얼굴 합성 이미지를 생성하는 단계; 및 상기 얼굴 합성 이미지에 상기 타겟 표정의 프리셋 이미지를 재합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 타겟 이미지는 상기 제1 소스 이미지와 상기 제2 소스 이미지 중 사용자에 의해 선택된 이미지에 해당될 수 있다.
또 다른 측면에 따르면, 상기 타겟 이미지는 상기 제1 소스 이미지나 상기 제2 소스 이미지와 다른 이미지로 사용자에 의해 선택된 별개의 이미지에 해당될 수 있다.
또 다른 측면에 따르면, 상기 합성하는 단계는, 상기 제1 소스 이미지의 얼굴 영역에서 추출된 제1 얼굴 피처와 상기 제2 소스 이미지의 얼굴 영역에서 추출된 제2 얼굴 피처를 사용자에 의해 설정된 비율로 혼합하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 얼굴 합성 이미지에 상기 타겟 표정의 프리셋 이미지를 재합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계는, 상기 얼굴 합성 이미지를 소스 이미지로 하고 상기 타겟 표정의 프리셋 이미지를 타겟 이미지로 한 딥러닝 합성을 통해 상기 얼굴 합성 이미지의 얼굴 표정이 상기 타겟 표정으로 변형된 결과 이미지를 생성할 수 있다.
상기 이미지 합성 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.
컴퓨터 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 표준 얼굴 모델을 이용하여 서로 다른 표정의 복수 개의 프리셋 이미지를 생성하는 과정; 및 타겟 표정의 프리셋 이미지에 소스 이미지를 합성하여 상기 타겟 표정의 결과 이미지를 생성하는 과정을 처리하는 컴퓨터 장치를 제공한다.
본 발명의 실시예들에 따르면, 3D 얼굴 모델을 기반으로 다양한 표정의 프리셋(preset)을 생성한 후 얼굴 합성에 활용하여 사용자가 원하는 표정의 얼굴 합성 결과를 제공함으로써 자율 표정 생성을 통해 서비스 품질과 사용자 경험을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 따른 컴퓨터 장치가 수행할 수 있는 이미지 합성 방법의 예를 도시한 흐름도이다.
도 4는 본 발명의 일실시예에 있어서 자율 표정 생성에 활용하기 위한 3D 표준 모델 예시를 나타낸 것이다.
도 5는 본 발명의 일실시예에 있어서 3D 표준 모델 기반으로 만들어진 표정 프리셋 예시를 나타낸 것이다.
도 6은 본 발명의 일실시예에 있어서 자율 표정 생성 과정을 설명하기 위한 예시 도면이다.
도 7은 본 발명의 일실시예에 있어서 표정 변형 과정의 다른 예시를 도시한 순서도이다.
도 8 내지 도 9는 본 발명의 일실시예에 있어서 이미지 합성 과정의 예시를 도시한 것이다.
도 10은 본 발명의 일실시예에 있어서 얼굴 합성 서비스 화면의 예시를 도시한 것이다.
도 11은 본 발명의 일실시예에 있어서 얼굴 합성 결과 예시를 도시한 것이다.
도 12는 본 발명의 일실시예에 있어서 표정 프리셋을 이용한 얼굴 합성 결과 예시를 도시한 것이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 딥러닝을 이용한 얼굴 합성 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 3D 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴의 아이덴티티를 유지하면서 사용자가 원하는 표정을 만들 수 있다.
본 발명의 실시예들에 따른 이미지 합성 시스템은 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 이미지 합성 방법은 이미지 합성 시스템에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 이미지 합성 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 이미지 합성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다. 또한, 도 1의 네트워크 환경은 본 실시예들에 적용 가능한 환경들 중 하나의 예를 설명하는 것일 뿐, 본 실시예들에 적용 가능한 환경이 도 1의 네트워크 환경으로 한정되는 것은 아니다.
복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 도 1에서는 전자 기기(110)의 예로 스마트폰의 형상을 나타내고 있으나, 본 발명의 실시예들에서 전자 기기(110)는 실질적으로 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있는 다양한 물리적인 컴퓨터 장치들 중 하나를 의미할 수 있다.
통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 콘텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 서버(150)는 네트워크(170)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 서비스(일례로, 얼굴 합성 서비스)를 제공하는 시스템일 수 있다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 앞서 설명한 복수의 전자 기기들(110, 120, 130, 140) 각각이나 서버들(150, 160) 각각은 도 2를 통해 도시된 컴퓨터 장치(200)에 의해 구현될 수 있다. 예를 들어, 본 발명의 실시예들에 따른 이미지 합성 시스템은 도 2를 통해 도시된 컴퓨터 장치(200)에 의해 구현될 수 있다.
이러한 컴퓨터 장치(200)는 도 2에 도시된 바와 같이, 메모리(210), 프로세서(220), 통신 인터페이스(230) 그리고 입출력 인터페이스(240)를 포함할 수 있다. 메모리(210)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(200)에 포함될 수도 있다. 또한, 메모리(210)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(210)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(210)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(230)를 통해 메모리(210)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(170)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(200)의 메모리(210)에 로딩될 수 있다.
프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신 인터페이스(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(230)는 네트워크(170)를 통해 컴퓨터 장치(200)가 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(200)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(230)의 제어에 따라 네트워크(170)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(170)를 거쳐 컴퓨터 장치(200)의 통신 인터페이스(230)를 통해 컴퓨터 장치(200)로 수신될 수 있다. 통신 인터페이스(230)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(220)나 메모리(210)로 전달될 수 있고, 파일 등은 컴퓨터 장치(200)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
입출력 인터페이스(240)는 입출력 장치(250)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(250)는 컴퓨터 장치(200)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(200)는 도 2의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(200)는 상술한 입출력 장치(250) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
이하에서는 3D 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법 및 그 장치의 구체적인 실시예를 설명하기로 한다.
딥러닝 모델을 이용한 얼굴 합성 과정은 소스 이미지에 포함된 얼굴 피처만을 합성하기 때문에 합성 결과물이 타겟 이미지의 표정을 따라가게 된다. 타겟 이미지의 얼굴은 고정된 표정을 가지므로 사용자가 원하는 표정의 얼굴을 만들 수 없는 한계가 있다.
본 실시예들은 딥러닝 모델을 이용한 얼굴 합성 과정에서 3D 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 사용자가 원하는 자율 표정의 얼굴을 만들 수 있다.
본 실시예에 따른 컴퓨터 장치(200)는 클라이언트(client)를 대상으로 클라이언트 상에 설치된 전용 어플리케이션이나 컴퓨터 장치(200)와 관련된 웹/모바일 사이트 접속을 통해 얼굴 합성 서비스를 제공할 수 있다. 컴퓨터 장치(200)에는 컴퓨터로 구현된 이미지 합성 시스템이 구성될 수 있다. 일례로, 이미지 합성 시스템은 독립적으로 동작하는 프로그램 형태로 구현되거나, 혹은 특정 어플리케이션의 인-앱(in-app) 형태로 구성되어 상기 특정 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.
컴퓨터 장치(200)의 프로세서(220)는 이하의 이미지 합성 방법을 수행하기 위한 구성요소로 구현될 수 있다. 실시예에 따라 프로세서(220)의 구성요소들은 선택적으로 프로세서(220)에 포함되거나 제외될 수도 있다. 또한, 실시예에 따라 프로세서(220)의 구성요소들은 프로세서(220)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
이러한 프로세서(220) 및 프로세서(220)의 구성요소들은 이하의 이미지 합성 방법이 포함하는 단계들을 수행하도록 컴퓨터 장치(200)를 제어할 수 있다. 예를 들어, 프로세서(220) 및 프로세서(220)의 구성요소들은 메모리(210)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
여기서, 프로세서(220)의 구성요소들은 컴퓨터 장치(200)에 저장된 프로그램 코드가 제공하는 명령에 따라 프로세서(220)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.
프로세서(220)는 컴퓨터 장치(200)의 제어와 관련된 명령이 로딩된 메모리(210)로부터 필요한 명령을 읽어들일 수 있다. 이 경우, 상기 읽어들인 명령은 프로세서(220)가 이후 설명될 단계들을 실행하도록 제어하기 위한 명령을 포함할 수 있다.
이후 설명될 이미지 합성 방법이 포함하는 단계들은 도시된 순서와 다른 순서로 수행될 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
도 3은 본 발명의 일실시예에 따른 컴퓨터 장치가 수행할 수 있는 이미지 합성 방법의 예를 도시한 흐름도이다.
본 실시예에 따른 이미지 합성 방법은 앞서 설명한 컴퓨터 장치(200)에 의해 수행될 수 있다. 이 경우, 컴퓨터 장치(200)의 프로세서(220)는 메모리(210)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(220)는 컴퓨터 장치(200)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(200)가 도 3의 이미지 합성 방법이 포함하는 단계들(S310 내지 S320)을 수행하도록 컴퓨터 장치(200)를 제어할 수 있다.
도 3을 참조하면, 단계(S310)에서 프로세서(220)는 3D 표준 모델을 이용하여 서로 다른 표정의 복수 개의 프리셋 이미지를 생성할 수 있다. 3D 표준 모델은 다양한 얼굴 특징을 잘 수용할 수 있는 평범한 얼굴 특징(normal facial feature)을 가진 3D 모델에 해당되는 것으로, 3D 얼굴 모델링(3D facial modeling) 기술을 통해 만들어진 3D 얼굴 모델을 의미할 수 있다. 프로세서(220)는 3D 툴을 이용하여 3D 표준 모델의 얼굴 표정을 타겟 표정으로 바꿀 수 있으며, 타겟 표정의 3D 표준 모델을 2D 사진으로 촬영하여(예를 들어, 스냅샷(snapshot) 등) 2D 프리셋 이미지(이하, '표준 모델 이미지'라 칭함)를 생성할 수 있다. 프로세서(220)는 표준 모델 이미지를 생성하기 위한 3D 툴의 일례로, 표정 애니메이션을 위해 사용되는 블랜드 쉐입(blend shape) 기능을 사용할 수 있다. 다시 말해, 프로세서(220)는 블랜드 쉐입 기능을 통해 원본이 되는 베이스 오브젝트를 훼손하지 않고 복제된 타겟 오브젝트의 표정을 변경하여 저장하는 방식으로 3D 표준 모델의 다양한 표정을 만들 수 있다. 따라서, 프로세서(220)는 3D 표준 모델을 이용하여 자율 표정 생성을 위한 복수 개의 표정 프리셋을 미리 만들어 준비해둘 수 있다.
단계(S320)에서 프로세서(220)는 사용자의 표정 변형 요청에 따른 대상 이미지로 입력 이미지가 주어지는 경우 사용자 선택으로 특정된 타겟 표정의 표준 모델 이미지에 입력 이미지를 합성하여 타겟 표정의 결과 이미지를 생성할 수 있다. 프로세서(220)는 입력 이미지를 소스 이미지라 하고 표준 모델 이미지를 타겟 이미지라 할 때, 0:100=target:source의 비율로 가중치를 설정한 얼굴 합성을 통해 소스 이미지의 얼굴 피처(이목구비)를 유지하면서 소스 이미지의 표정을 사용자가 원하는 표정으로 변경할 수 있다.
본 실시예들은 3D 표준 모델로부터 생성된 2D 프리셋 이미지를 2D 입력 이미지와 결합하여 2D 결과물을 만드는 것이나, 이에 한정되는 것은 아니다. 실시예에 따라서는 2D와 3D 간의 차원 변환이나 호환 등을 통해 표정 프리셋, 입력 이미지, 합성 결과물을 2D 혹은 3D로 구현할 수 있다. 예를 들어, 3D 프리셋 이미지를 2D 입력 이미지와 결합하여 2D 또는 3D 결과물을 만들 수 있다.
도 4는 본 발명의 일실시예에 있어서 자율 표정 생성에 활용하기 위한 3D 표준 모델 예시를 나타낸 것이다.
도 4를 참조하면, 3D 표준 모델(410)은 자율 표정 생성을 위해 표정이나 이목구비 특징을 잘 수용할 수 있는 평범한 얼굴 특징을 가진 3D 모델로, 3D 얼굴 모델링을 통해 만들어진 3D 얼굴 모델을 이용할 수 있다.
프로세서(220)는 3D 표준 모델(410)을 이용하여 다양한 표정의 프리셋 이미지를 생성할 수 있다.
도 5는 본 발명의 일실시예에 있어서 표정 프리셋 예시를 나타낸 것이다.
도 5를 참조하면, 프로세서(220)는 3D 표준 모델(410)에 대한 블랜드 쉐입 변형 등과 같은 표정 애니메이션 툴을 통해 다양한 얼굴 표정을 만들 수 있고, 각 표정 별로 해당 표정의 3D 표준 모델(410)을 스냅샷하여 2D 프리셋 이미지에 해당되는 표준 모델 이미지(520)를 만들 수 있다.
프로세서(220)는 자율 표정 생성을 위해 서로 다른 표정으로 이루어진 복수 개의 표준 모델 이미지(520)를 사전에 구축할 수 있다.
이때, 프로세서(220)는 사용자 요청에 따라 사용자 선택 또는 무작위 선택으로 특정된 타겟 표정의 표준 모델 이미지(520)를 얼굴 합성에 적용할 수 있다. 실시예에 따라서는 표준 모델 이미지(520)로 만들어진 각 표정에 대해 사용자 선호도를 파악하여 사용자 선호도에 따른 랭킹을 기준으로 타겟 표정을 선정하여 적용할 수 있다. 프로세서(220)는 각 표정 별로 사용자 선택에 따른 입력을 수신하여 이를 기초로 사용자 선호도를 산출하거나 예측할 수 있다. 예를 들어, 얼굴 합성 서비스에서의 결과 이미지 중 사용자가 저장한 이미지에 적용된 표정을 취합하여 표정에 대한 사용자 선호도를 파악할 수 있다. 실시예에 따라서는 얼굴 합성 서비스와 관련된 컴퓨터 시스템으로부터 해당 시스템에서 산출 또는 예측된 표정 별 사용자 선호도에 대한 정보를 획득하여 활용하는 것 또한 가능하다. 프로세서(220)는 사용자 요청에 따라 표정 프리셋으로 만들어진 표준 모델 이미지(520)를 얼굴 합성에 적용하되 사용자가 가장 선호하는 표정부터 차례로 적용할 수 있다.
도 6은 본 발명의 일실시예에 있어서 자율 표정 생성 과정을 설명하기 위한 예시 도면이다.
도 6을 참조하면, 프로세서(220)는 입력 이미지(630)가 주어지고 타겟 표정이 선택되는 경우 입력 이미지(630)와 타겟 표정의 표준 모델 이미지(521)를 합성하여 타겟 표정의 결과 이미지(640)를 만들 수 있다.
이때, 프로세서(220)는 입력 이미지(630)를 소스 이미지로 하고 표준 모델 이미지(521)를 타겟 이미지로 한 딥러닝 합성(예를 들어, 0:100=target:source의 비율로 합성)을 통해 소스 이미지의 얼굴 특징과 타겟 이미지의 표정이 결합된 결과 이미지(640)를 만들 수 있다.
다시 말해, 프로세서(220)는 소스 이미지의 얼굴 피처를 표준 모델 이미지(521)에 입혀 소스의 얼굴 피처를 유지하면서 타겟 표정을 가진 합성 결과물을 획득할 수 있다.
도 7은 본 발명의 일실시예에 있어서 표정 변형 과정의 다른 예시를 도시한 순서도이다.
도 7을 참조하면, 단계(S710)에서 프로세서(220)는 제1 소스 이미지와 제2 소스 이미지에서 각각 얼굴 영역과 얼굴 영역을 제외한 나머지 배경(외형) 영역을 나타내는 스타일 영역을 분리할 수 있다. 다시 말해, 프로세서(220)는 얼굴 검출(face detection) 기술을 통해 제1 소스 이미지에서 제1 얼굴 영역과 제1 스타일 영역을 분리하고, 제2 소스 이미지에서 제2 얼굴 영역과 제2 스타일 영역을 분리할 수 있다.
단계(S720)에서 프로세서(220)는 제1 소스 이미지에서 분리된 제1 얼굴 영역과 제2 소스 이미지에서 분리된 제2 얼굴 영역을 합성할 수 있다. 프로세서(220)는 인공지능 기반의 이미지 합성 기술인 페이스 스왑(face swap)(예를 들어, Simple Swap)을 통해 제1 얼굴 영역과 제2 얼굴 영역이 결합된 새로운 얼굴 영역(이하, '제3 얼굴 영역'이라 칭함)을 생성할 수 있다.
단계(S730)에서 프로세서(220)는 스타일 소스로 설정된 이미지(이하, '타겟 이미지'라 칭함)에 제3 얼굴 영역을 합성하여 결과 이미지를 생성할 수 있다. 타겟 이미지는 결과 이미지의 배경 영역(얼굴 영역을 제외한 나머지 배경 영역)으로 사용되는 스타일 소스를 의미한다. 스타일 소스는 결과 이미지에 반영하고자 하는 타겟팅 스타일을 의미하는 것으로, 스타일 소스로 설정된 이미지의 얼굴 영역을 제외한 나머지 배경(외형) 영역이 결과 이미지의 스타일 외형으로 적용된다. 프로세서(220)는 타겟 이미지를 선택하기 위한 인터페이스를 제공할 수 있다. 해당 인터페이스를 통해 사용자가 선택한 타겟 이미지를 제3 얼굴 영역과의 합성을 위한 스타일 소스로 사용할 수 있다. 제1 소스 이미지와 제2 소스 이미지 중 어느 하나의 이미지가 스타일 소스인 타겟 이미지로 선택될 수 있고, 실시예에 따라서는 제1 소스 이미지와 제2 소스 이미지가 아닌 별개의 다른 이미지가 타겟 이미지로 선택될 수 있다.
단계(S740)에서 프로세서(220)는 타겟 표정의 표준 모델 이미지에 결과 이미지를 재합성하여 타겟 표정의 결과 이미지를 생성할 수 있다. 본 실시예들은 다양한 표정 프리셋을 사전에 구축할 수 있으며, 사용자 요청에 따라 사용자 선택이나 무작위 선택 또는 사용자 선호도에 따른 랭킹으로 특정된 타겟 표정의 프리셋 이미지(즉, 표준 모델 이미지)를 얼굴 합성에 적용할 수 있다. 프로세서(220)는 결과 이미지를 소스 이미지라 하고 타겟 표정의 표준 모델 이미지를 타겟 이미지라 할 때, 0:100=target:source의 비율로 가중치를 설정한 얼굴 합성을 통해 소스 이미지의 얼굴 피처를 유지하면서 소스 이미지의 표정을 사용자가 원하는 표정으로 변경할 수 있다. 다시 말해, 프로세서(220)는 소스 이미지로부터 만들어진 제3 얼굴 영역의 이목구비를 유지하면서 얼굴 표정이 표준 모델 이미지의 표정으로 변형된 결과 이미지를 얻을 수 있다.
도 8 내지 도 9는 본 발명의 일실시예에 있어서 이미지 합성 과정의 예시를 도시한 것이다.
도 8 내지 도 9를 참조하면, 프로세서(220)는 사용자 입력이나 선택을 통한 입력 이미지(80)로 합성 대상 이미지인 제1 소스 이미지(910)와 제2 소스 이미지(920)를 입력받을 수 있다.
프로세서(220)는 딥러닝 DLIB(distribution library) 등을 이용한 얼굴 검출 기술을 통해 얼굴 영역을 검출할 수 있고, 아크페이스(ArcFace)와 같은 딥러닝 엔진을 통해 얼굴 영역에 대한 피처 값과 스타일 영역에 대한 피처 값을 추출할 수 있다(S710). 상세하게, 프로세서(220)는 제1 소스 이미지(910)에서 얼굴 영역을 검출한 후 피처 분해(feature decomposition) 과정으로 얼굴 영역에서 얼굴 피처(이하, '제1 얼굴 피처'라 칭함)(911)를 추출하고 나머지 영역인 스타일 영역에서 스타일 피처(이하, '제1 스타일 피처'라 칭함)(912)를 추출할 수 있다. 얼굴 피처를 제외한 나머지 피처들은 스타일이 될 수 있음을 가정하는 것이다. 마찬가지로, 프로세서(220)는 제2 소스 이미지(920)에서 얼굴 영역을 검출한 후 피처 분해를 통해 얼굴 영역에서 얼굴 피처(이하, '제2 얼굴 피처'라 칭함)(921)를 추출하고 나머지 영역인 스타일 영역에서 스타일 피처(이하, '제2 스타일 피처'라 칭함)(922)를 추출할 수 있다.
프로세서(220)는 심플 스왑과 같은 딥페이크 기술을 통해 디폴트 또는 사용자 설정으로 정해진 비율에 따라 제1 소스 이미지(910)에서 추출된 제1 얼굴 피처(911)과 제2 소스 이미지(920)에서 추출된 제2 얼굴 피처(921)를 혼합함으로써 합성 얼굴 피처(931)를 생성할 수 있다(S720).
프로세서(220)는 스타일 소스로 설정된 타겟 이미지(850)의 스타일 영역을 유지한 상태에서 타겟 이미지(850)의 얼굴 영역에 합성 얼굴 피처(931)를 어태칭(attaching)하여 결과 이미지(930)를 생성할 수 있다(S730). 프로세서(220)는 피처 재조합(feature recombination)을 통해 타겟 이미지(850)의 스타일을 유지한 상태로 타겟 이미지(850)의 얼굴 영역을 제3 얼굴 영역으로 변경한 결과 이미지(930)를 생성할 수 있다.
이때, 제1 소스 이미지(910)와 제2 소스 이미지(920) 중 제1 소스 이미지(910)가 타겟 이미지(850)로 선택된 것으로 가정한다. 타겟 이미지(850)로 선택된 제1 소스 이미지(910)에 합성 얼굴 피처(931)를 어태칭하여 결과 이미지(930)를 만들 수 있다.
그리고, 프로세서(220)는 결과 이미지(930)의 해상도를 보강할 수 있다(S731). 프로세서(220)는 이미지 강화 딥러닝 엔진(예를 들어, GPEN(GAN Prior Embedded Network) 등)을 통해 결과 이미지(930)를 고화질 이미지로 출력할 수 있다.
본 실시예들은 3D 툴을 통해 만들어진 다양한 표정의 표준 모델 이미지를 이용하여 얼굴 합성에 따른 결과 이미지의 표정을 자유롭게 변형할 수 있다.
도 10은 본 발명의 일실시예에 있어서 얼굴 합성 서비스 화면의 예시를 도시한 것이다.
도 10을 참조하면, 얼굴 합성 서비스 화면(1000)은 소스 이미지를 선택하기 위한 소스 선택 인터페이스(1010), 합성 결과 이미지를 제공하기 위한 합성 결과 인터페이스(1020), 소스 이미지의 합성 비율을 조절하기 위한 비율 조절 인터페이스(1030), 소스 이미지의 합성 비율을 리셋(reset)하기 위한 리셋 인터페이스(1040), 및 스타일 소스(타겟 이미지)를 선택하기 위한 스타일 선택 인터페이스(1050)를 포함할 수 있다.
사용자는 소스 선택 인터페이스(1010)를 통해 합성하고자 대상의 A 이미지와 B 이미지를 업로드할 수 있다.
사용자는 비율 조절 인터페이스(1030)를 이용하여 A 이미지와 B 이미지 간의 합성 비율을 원하는 대로 조절할 수 있다. 리셋 인터페이스(1040)가 입력되는 경우 비율 조절 인터페이스(1030) 상의 합성 비율이 초기값(예를 들어, 50:50)으로 자동 조정된다.
프로세서(220)는 소스 이미지로 입력된 A 이미지와 B 이미지를 사용자가 원하는 비율로 합성할 수 있고, 이때 기본적으로는 A 이미지로 선택된 소스 이미지가 스타일 소스로 적용될 수 있다. 스타일 선택 인터페이스(1050)를 통해 A 이미지와 B 이미지 중 어느 하나의 이미지 혹은 별개의 다른 이미지를 선택하여 스타일 소스로 적용할 수 있다.
A 이미지와 B 이미지의 합성 이미지를 소스 이미지라 하고 스타일 이미지를 타겟 이미지라 할 때, 0:100=target:source의 비율로 가중치를 설정하여 소스 이미지의 얼굴 피처를 유지하면서 배경 이미지만 변경할 수 있다.
프로세서(220)는 A 이미지와 B 이미지를 이용한 합성 결과 이미지를 합성 결과 인터페이스(1020)를 통해 표시할 수 있다. 이때, A 이미지를 스타일 소스로 적용한 경우 합성 결과 이미지에 A 이미지의 표정이 반영된다.
더 나아가, 얼굴 합성 서비스 화면(1000)은 얼굴 표정 프리셋을 선택하기 위한 프리셋 선택 인터페이스(1060), 및 얼굴 표정 프리셋을 해제하기 위한 프리셋 해제 인터페이스(1070)를 더 포함할 수 있다.
프리셋 선택 인터페이스(1060)는 3D 표준 모델을 이용하여 표정 프리셋으로 만들어진 표준 모델 이미지를 일정 순서로 혹은 무작위로 하나씩 선택하는 인터페이스 형태는 물론이고, 표정 프리셋에 대한 목록을 제공하여 목록을 통해 원하는 표정의 프리셋을 선택하는 인터페이스 형태 등으로 구현될 수 있다.
프로세서(220)는 프리셋 선택 인터페이스(1060)를 통해 표정 프리셋을 순서대로 선택하거나 목록을 제공할 때 표정 프리셋에 대한 사용자 선호도를 반영할 수 있다. 다시 말해, 3D 표준 모델을 이용하여 표정 프리셋으로 만들어진 표준 모델 이미지 중 사용자가 선호하는 표정의 프리셋이 우선적으로 선택되거나 혹은 상위에 정렬될 수 있다.
프로세서(220)는 프리셋 선택 인터페이스(1060)를 통해 선택된 표정 프리셋이 적용된 합성 결과 이미지를 합성 결과 인터페이스(1020)를 통해 표시할 수 있다. 프리셋 선택 인터페이스(1060)를 통해 표정 프리셋이 변경될 때마다 변경된 얼굴 표정을 적용한 합성 결과 이미지를 합성 결과 인터페이스(1020)에 표시할 수 있다.
프리셋 해제 인터페이스(1070)가 입력되는 경우 표정 프리셋 적용이 해제되어 합성 결과 인터페이스(1020) 상에 표정 프리셋이 적용되기 이전 합성 결과 이미지가 표시될 수 있다.
도 11은 본 발명의 일실시예에 있어서 얼굴 합성 결과 예시를 도시한 것이다.
도 11을 참조하면, 프로세서(220)는 소스 이미지로 A 이미지와 B 이미지가 주어지는 경우 A 이미지에서 추출된 얼굴 피처와 B 이미지에서 추출된 얼굴 피처를 혼합하여 A 이미지와 B 이미지의 합성 결과인 C 이미지를 만들 수 있다.
C 이미지는 소스 이미지에 포함된 얼굴 피처만을 합성하여 만들어진 것이므로 스타일 소스인 타겟 이미지의 표정을 따라가게 된다.
본 실시예에서는 자율 표정 생성을 위해 3D 표준 모델을 이용하여 표정 프리셋으로 만들어진 표준 모델 이미지를 얼굴 합성에 활용할 수 있다.
도 12는 본 발명의 일실시예에 있어서 표정 프리셋을 이용한 얼굴 합성 결과 예시를 도시한 것이다.
도 12를 참조하면, 프로세서(220)는 3D 표준 모델을 이용하여 표정 프리셋으로 만들어진 표준 모델 이미지 중 사용자 요청에 따라 선택된 얼굴 표정의 표준 모델 이미지인 S 이미지를 A 이미지와 B 이미지의 합성 결과인 C 이미지에 재합성하여 새로운 표정의 합성 결과인 D 이미지를 만들 수 있다.
다시 말해, 프로세서(220)는 A 이미지와 B 이미지의 합성 결과인 C 이미지에 타겟 표정의 표준 모델 이미지(S 이미지)를 스타일 이미지로 재합성하여 사용자가 원하는 표정의 합성 결과물을 탄생시킬 수 있다.
프로세서(220)는 3D 표준 모델 기반의 표정 프리셋 합성을 통해 딥러닝 얼굴 합성 결과의 얼굴 표정을 다양화시킬 수 있다.
프로세서(220)는 A 이미지와 B 이미지의 합성 결과인 C 이미지 또는 새로운 표정의 합성 결과인 D 이미지에 대해 해상도 보강을 통해 해당 이미지를 고화질로 출력할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 3D 얼굴 모델을 기반으로 다양한 표정의 프리셋을 생성한 후 얼굴 합성 모델에 대입하여 사용자가 원하는 표정의 얼굴 합성 결과를 만들어 냄으로써 자율 표정 생성을 통해 서비스 품질과 사용자 경험을 향상시킬 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터 장치에서 실행되는 이미지 합성 방법에 있어서,
    상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 이미지 합성 방법은,
    상기 적어도 하나의 프로세서에 의해, 표준 얼굴 모델을 이용하여 서로 다른 표정의 복수 개의 프리셋 이미지를 생성하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 타겟 표정의 프리셋 이미지에 소스 이미지를 합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계
    를 포함하는 이미지 합성 방법.
  2. 제1항에 있어서,
    상기 복수 개의 프리셋 이미지를 생성하는 단계는,
    표정 애니케이션 툴을 통해 3D 얼굴 모델의 표정을 변형하여 상기 복수 개의 프리셋 이미지를 생성하는 것
    을 특징으로 하는 이미지 합성 방법.
  3. 제1항에 있어서,
    상기 복수 개의 프리셋 이미지를 생성하는 단계는,
    표정 애니케이션 툴을 통해 3D 얼굴 모델의 표정을 변형한 후 각 표정 별로 해당 표정의 3D 얼굴 모델을 2D 이미지로 촬영함으로써 상기 프리셋 이미지를 생성하는 것
    을 특징으로 하는 이미지 합성 방법.
  4. 제1항에 있어서,
    상기 타겟 표정의 결과 이미지를 생성하는 단계는,
    사용자의 요청에 따라 사용자 선택 또는 무작위 선택으로 상기 타겟 표정의 프리셋 이미지를 선택하는 단계
    를 포함하는 이미지 합성 방법.
  5. 제1항에 있어서,
    상기 복수 개의 프리셋 이미지를 생성하는 단계는,
    각 프리셋 이미지에 대한 사용자 선호도를 파악하는 단계
    를 포함하고,
    상기 타겟 표정의 결과 이미지를 생성하는 단계는,
    사용자의 요청에 따라 상기 복수 개의 프리셋 이미지 중에서 상기 사용자 선호도를 기초로 상기 타겟 표정의 프리셋 이미지를 선택하는 단계
    를 포함하는 이미지 합성 방법.
  6. 제1항에 있어서,
    상기 타겟 표정의 결과 이미지를 생성하는 단계는,
    제1 소스 이미지와 제2 소스 이미지에서 얼굴 영역을 추출하는 단계;
    상기 제1 소스 이미지에서 추출된 얼굴 영역과 상기 제2 소스 이미지에서 추출된 얼굴 영역을 합성하는 단계;
    스타일 소스로 설정된 타겟 이미지에 상기 합성된 얼굴 영역을 합성하여 얼굴 합성 이미지를 생성하는 단계; 및
    상기 얼굴 합성 이미지에 상기 타겟 표정의 프리셋 이미지를 재합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계
    를 포함하는 이미지 합성 방법.
  7. 제6항에 있어서,
    상기 타겟 이미지는 상기 제1 소스 이미지와 상기 제2 소스 이미지 중 사용자에 의해 선택된 이미지에 해당되는 것
    을 특징으로 하는 이미지 합성 방법.
  8. 제6항에 있어서,
    상기 타겟 이미지는 상기 제1 소스 이미지나 상기 제2 소스 이미지와 다른 이미지로 사용자에 의해 선택된 별개의 이미지에 해당되는 것
    을 특징으로 하는 이미지 합성 방법.
  9. 제6항에 있어서,
    상기 합성하는 단계는,
    상기 제1 소스 이미지의 얼굴 영역에서 추출된 제1 얼굴 피처와 상기 제2 소스 이미지의 얼굴 영역에서 추출된 제2 얼굴 피처를 사용자에 의해 설정된 비율로 혼합하는 단계
    를 포함하는 이미지 합성 방법.
  10. 제6항에 있어서,
    상기 얼굴 합성 이미지에 상기 타겟 표정의 프리셋 이미지를 재합성하여 상기 타겟 표정의 결과 이미지를 생성하는 단계는,
    상기 얼굴 합성 이미지를 소스 이미지로 하고 상기 타겟 표정의 프리셋 이미지를 타겟 이미지로 한 딥러닝 합성을 통해 상기 얼굴 합성 이미지의 얼굴 표정이 상기 타겟 표정으로 변형된 결과 이미지를 생성하는 것
    을 특징으로 하는 이미지 합성 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 이미지 합성 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  12. 컴퓨터 장치에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    표준 얼굴 모델을 이용하여 서로 다른 표정의 복수 개의 프리셋 이미지를 생성하는 과정; 및
    타겟 표정의 프리셋 이미지에 소스 이미지를 합성하여 상기 타겟 표정의 결과 이미지를 생성하는 과정
    을 처리하는 컴퓨터 장치.
  13. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    표정 애니케이션 툴을 통해 3D 얼굴 모델의 표정을 변형하여 상기 복수 개의 프리셋 이미지를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
  14. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    표정 애니케이션 툴을 통해 3D 얼굴 모델의 표정을 변형한 후 각 표정 별로 해당 표정의 3D 얼굴 모델을 2D 이미지로 촬영함으로써 상기 프리셋 이미지를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
  15. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    사용자의 요청에 따라 사용자 선택 또는 무작위 선택으로 상기 타겟 표정의 프리셋 이미지를 선택하는 것
    을 특징으로 하는 컴퓨터 장치.
  16. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    각 프리셋 이미지에 대한 사용자 선호도를 파악하고,
    사용자의 요청에 따라 상기 복수 개의 프리셋 이미지 중에서 상기 사용자 선호도를 기초로 상기 타겟 표정의 프리셋 이미지를 선택하는 것
    을 특징으로 하는 컴퓨터 장치.
  17. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    제1 소스 이미지와 제2 소스 이미지에서 얼굴 영역을 추출하고,
    상기 제1 소스 이미지에서 추출된 얼굴 영역과 상기 제2 소스 이미지에서 추출된 얼굴 영역을 합성하고,
    스타일 소스로 설정된 타겟 이미지에 상기 합성된 얼굴 영역을 합성하여 얼굴 합성 이미지를 생성하고,
    상기 얼굴 합성 이미지에 상기 타겟 표정의 프리셋 이미지를 재합성하여 상기 타겟 표정의 결과 이미지를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
  18. 제17항에 있어서,
    상기 타겟 이미지는 상기 제1 소스 이미지와 상기 제2 소스 이미지 중 사용자에 의해 선택된 이미지에 해당되거나, 혹은 상기 제1 소스 이미지나 상기 제2 소스 이미지와 다른 이미지로 사용자에 의해 선택된 별개의 이미지에 해당되는 것
    을 특징으로 하는 컴퓨터 장치.
  19. 제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 소스 이미지의 얼굴 영역에서 추출된 제1 얼굴 피처와 상기 제2 소스 이미지의 얼굴 영역에서 추출된 제2 얼굴 피처를 사용자에 의해 설정된 비율로 혼합하는 것
    을 특징으로 하는 컴퓨터 장치.
  20. 제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 얼굴 합성 이미지를 소스 이미지로 하고 상기 타겟 표정의 프리셋 이미지를 타겟 이미지로 한 딥러닝 합성을 통해 상기 얼굴 합성 이미지의 얼굴 표정이 상기 타겟 표정으로 변형된 결과 이미지를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
PCT/KR2023/008123 2022-08-17 2023-06-13 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 WO2024039025A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0102640 2022-08-17
KR1020220102640A KR20240024537A (ko) 2022-08-17 2022-08-17 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
WO2024039025A1 true WO2024039025A1 (ko) 2024-02-22

Family

ID=89942059

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/008123 WO2024039025A1 (ko) 2022-08-17 2023-06-13 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Country Status (2)

Country Link
KR (1) KR20240024537A (ko)
WO (1) WO2024039025A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990017117A (ko) * 1997-08-21 1999-03-15 구자홍 다중 모핑을 이용한 몽타주 제작 방법
KR20030023291A (ko) * 2001-09-13 2003-03-19 주식회사 조이퍼스트 자동 캐릭터 제작 방법 및 장치
KR20100088347A (ko) * 2009-01-30 2010-08-09 서강대학교산학협력단 얼굴 표정 리타게팅 방법
KR102373606B1 (ko) * 2021-04-19 2022-03-14 주식회사 쓰리디팩토리 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
KR20220092086A (ko) * 2020-12-24 2022-07-01 한국과학기술원 3d 캐릭터의 얼굴 표정 리타게팅 방법 및 이를 위해 신경망을 학습하는 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990017117A (ko) * 1997-08-21 1999-03-15 구자홍 다중 모핑을 이용한 몽타주 제작 방법
KR20030023291A (ko) * 2001-09-13 2003-03-19 주식회사 조이퍼스트 자동 캐릭터 제작 방법 및 장치
KR20100088347A (ko) * 2009-01-30 2010-08-09 서강대학교산학협력단 얼굴 표정 리타게팅 방법
KR20220092086A (ko) * 2020-12-24 2022-07-01 한국과학기술원 3d 캐릭터의 얼굴 표정 리타게팅 방법 및 이를 위해 신경망을 학습하는 방법
KR102373606B1 (ko) * 2021-04-19 2022-03-14 주식회사 쓰리디팩토리 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램

Also Published As

Publication number Publication date
KR20240024537A (ko) 2024-02-26

Similar Documents

Publication Publication Date Title
WO2019017582A1 (ko) 클라우드 소싱 기반의 ar 컨텐츠 템플릿을 수집하여 ar 컨텐츠를 자동으로 생성하는 방법 및 시스템
US11558562B2 (en) Apparatus and method for providing 360-degree panoramic background during video call
WO2018074618A1 (ko) 영상을 위한 효과 공유 방법 및 시스템
CN108809800B (zh) 一种多媒体数据处理方法及其设备、系统
CN111222571B (zh) 图像特效的处理方法、装置、电子设备及存储介质
EP3972236A1 (en) Communication terminal, image communication system, method for displaying image, and carrier means
WO2023153834A1 (ko) 편집 기능을 갖는 3d 웹사이트 제작 플랫폼 제공 시스템, 방법 및 프로그램
CN112116690A (zh) 视频特效生成方法、装置及终端
WO2024039025A1 (ko) 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2022231267A1 (ko) 싱글 스트림을 이용하여 관심 영역 고화질 영상을 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
CN111443858A (zh) 应用界面的显示方法、装置、终端及存储介质
CN110868471A (zh) 新型设备构建方法、装置及存储介质
CN110990106A (zh) 数据展示方法、装置、计算机设备及存储介质
WO2018194340A1 (ko) 적층형 홀로그램용 콘텐츠 제공방법 및 제공장치
CN113467663B (zh) 界面配置方法、装置、计算机设备及介质
WO2024039026A1 (ko) 멀티 앵글 이미지 기반 3d 아바타를 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2021101269A1 (ko) 가상 응원봉을 이용한 인터랙션 제공 방법 및 그 장치
JP7020523B2 (ja) 画像表示システム、画像表示方法、及びプログラム
CN114911478A (zh) 页面创建方法、装置、电子设备及存储介质
WO2018124678A1 (en) Electronic device and operation method thereof
WO2020017668A1 (ko) 다시점 영상 정합을 이용한 아바타 생성 방법 및 장치
WO2024085455A1 (ko) 객체 포즈 보정 방법 및 시스템
WO2024071519A1 (ko) 다이나믹 확장현실(xr) 콘텐츠 생성 방법 및 시스템
WO2019231021A1 (ko) 방송 시청단에서 크로마키를 이용한 개인화 배경을 노출하는 방법과 시스템 및 비-일시적인 컴퓨터 판독 가능한 기록 매체
EP4250714A1 (en) Imaging device, image production method, and recording medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23854996

Country of ref document: EP

Kind code of ref document: A1