WO2022215823A1 - 영상 생성 방법 및 장치 - Google Patents

영상 생성 방법 및 장치 Download PDF

Info

Publication number
WO2022215823A1
WO2022215823A1 PCT/KR2021/017653 KR2021017653W WO2022215823A1 WO 2022215823 A1 WO2022215823 A1 WO 2022215823A1 KR 2021017653 W KR2021017653 W KR 2021017653W WO 2022215823 A1 WO2022215823 A1 WO 2022215823A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
shot
determining
image
movement
Prior art date
Application number
PCT/KR2021/017653
Other languages
English (en)
French (fr)
Inventor
장준수
윤용기
배용택
최재훈
Original Assignee
주식회사 닫닫닫
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 닫닫닫 filed Critical 주식회사 닫닫닫
Priority to JP2023562502A priority Critical patent/JP2024513515A/ja
Priority to CN202180099111.0A priority patent/CN117441192A/zh
Publication of WO2022215823A1 publication Critical patent/WO2022215823A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the following embodiments relate to a method and apparatus for generating an image, and more particularly, to a method and apparatus for generating an image including a character.
  • SNS social networking service
  • SNS is an online platform service for interacting with other users through a network.
  • SNS provides social networking functions through the exchange of information in various forms such as texts, photos, videos, and voices.
  • technologies for various types of social networking services that can freely express their individuality and thoughts and communicate with other users conveniently.
  • the following embodiments may provide a technique for generating a moving character according to a user's input and generating an image obtained by photographing the moving character using various shooting techniques.
  • the following embodiments may provide an eternal life generation technology that automatically generates elements necessary for image generation and provides an editing function of the automatically generated elements.
  • An image generating method includes: acquiring voice data, face image data including a face, and input data including a purpose of the image; determining the movement of the character based on the movement of the facial feature extracted from the facial image data and the voice data; determining a shot corresponding to the character based on the voice data and the purpose; and generating an image corresponding to the audio data based on the determined shot.
  • the determining of the shot may include: determining a length of the shot based on an utterance section in the voice data; and determining the type of the shot based on the purpose.
  • the type of the shot may be classified by the size of the shot based on the size of the character projected on the shot and the angle of the shot based on the angle of the character projected on the shot.
  • the determining of the shot may include, based on the purpose, determining a sequence of a plurality of shots, the plurality of shots including a plurality of shots having different types of shots; dividing the voice data into a plurality of utterance sections based on a change in the size of the voice data; and determining the lengths of the plurality of shots based on the plurality of utterance sections.
  • the determining of the lengths of the plurality of shots may include: determining at least one transition point at which a shot is switched based on the purpose and the plurality of utterance sections; and determining the lengths of the plurality of shots based on the turning point.
  • the determining of the shot may include: changing an order of shots in the sequence based on a user input; adding at least one shot to the sequence based on a user input; deleting at least one shot in the sequence based on a user input; changing a type of shot in the sequence based on a user's input; and changing the length of the shot in the sequence based on the user's input.
  • the determining of the movement of the character may include: determining the movement of a mouth shape of the character based on pronunciation information corresponding to the voice data; and determining the movement of the facial element of the character based on the movement of the facial feature extracted corresponding to the plurality of frames of the facial image data.
  • the determining of the movement of the character may include: determining the facial expression of the character based on the purpose; determining a movement of a facial element of the character based on the movement of the facial feature and the voice data; and combining the determined facial expression of the character and the movement of the facial element of the character.
  • the determining of the facial expression of the character may further include changing the facial expression of the character based on a user input.
  • the obtaining of the input data may further include extracting the movement of the facial feature including at least one of a movement of a pupil, a movement of an eyelid, a movement of an eyebrow, and a movement of a head from the facial image data.
  • the character may include: a first character whose movement is determined based on a movement of a first facial feature obtained from first facial image data in the face image data and first voice data in the voice data; and a second character whose movement is determined based on a movement of a second facial feature obtained from second facial image data in the face image data and second voice data in the voice data.
  • the determining of the shot includes determining a shot corresponding to the first character and the second character based on the first voice data in the voice data, the second voice data in the voice data, and the purpose can do.
  • the determining of the shot may include determining the arrangement of the first character and the second character included in the shot, based on the purpose.
  • the determining of the movement of the character may include: determining an interaction between the first character and the second character based on the purpose and at least one of the first voice data and the second voice data; and determining the movement of the first character and the movement of the second character based on the determined interaction.
  • the voice data may include first voice data acquired from the first user terminal and second voice data acquired from the second user terminal.
  • the face image data may include first face image data obtained from the first user terminal and second face image data obtained from the second user terminal.
  • An image generating apparatus obtains voice data, face image data including a face, and input data including a purpose of an image, and based on the movement of facial features extracted from the face image data and the voice data, at least one processor that determines the movement of the character, determines a shot corresponding to the character based on the voice data and the purpose, and generates an image corresponding to the voice data based on the determined shot includes
  • the processor determines a sequence of a plurality of shots, the plurality of shots including a plurality of shots having different types of shots, based on the purpose, and a size of the voice data. Based on the change, the voice data may be divided into a plurality of speech sections, and lengths of the plurality of shots may be determined based on the plurality of speech sections.
  • the processor may perform an operation of changing an order of shots in the sequence based on a user input; adding at least one shot to the sequence based on a user input; deleting at least one shot in the sequence based on a user's input; changing a type of shot in the sequence based on a user's input; and changing the length of the shot in the sequence based on the user's input.
  • the processor determines the expression of the character based on the purpose, and determines the movement of the facial element of the character based on the movement of the facial feature and the voice data, The determined facial expression of the character and the movement of the facial element of the character may be combined.
  • the processor may change the facial expression of the character based on a user's input when determining the facial expression of the character.
  • FIG. 1 is an operation flowchart of an image generating method according to an exemplary embodiment.
  • FIG. 2 is a diagram illustrating an example of various facial expressions corresponding to a character according to an embodiment.
  • 3 is a diagram illustrating examples of shots of different types determined according to the purpose of an image, according to an embodiment.
  • FIG. 4 is a diagram illustrating an example of a graph of a change in the volume of a sound according to the passage of time according to an embodiment.
  • 5 to 9 are diagrams illustrating examples of an interface for editing a determined shot according to an embodiment.
  • FIG. 10 is a block diagram illustrating a configuration of an image generating system according to an exemplary embodiment.
  • FIG. 1 is an operation flowchart of an image generating method according to an exemplary embodiment.
  • an image generating method includes obtaining input data ( 110 ), determining a character ( 120 ), determining a movement of a character ( 130 ), and a shot corresponding to the character. It may include the step of determining 140 , and the step of generating an image corresponding to the audio data ( 150 ).
  • the image generating method may be performed by at least one processor of the image generating system.
  • the image generating system is a system that processes voice data, face image data including a face, and input data including a purpose of the image, and outputs an image corresponding to the input data, and may be driven by at least one processor.
  • the image generating system may be briefly referred to as a system.
  • the image generating system may be implemented as a device, and the device in which the image generating system is implemented may include a user terminal (eg, a mobile phone, a computer) and a server.
  • the user terminal may include a user interface for receiving input data from a user and providing the user with an image according to the processing of the input data.
  • the user terminal may be operatively connected to the server through a network.
  • the user terminal may be briefly referred to as a terminal.
  • the operations of the image generating method according to an embodiment may be performed by a processor constituting a terminal or a server in the system. A detailed configuration of the image generating system according to an embodiment will be described in detail with reference to FIG. 10 below.
  • Step 110 may include acquiring voice data, face image data including a face, and input data including a purpose of the image.
  • the voice data may correspond to a sound signal generated by the user's utterance.
  • the face image data is image data including at least one face, and may include a still image and a moving image.
  • the face image data will be described using a moving picture as an example, but is not limited thereto.
  • the face image data and the voice data may correspond to data synchronized with the time axis.
  • the acquired face image data may correspond to a moving picture of the uttering user's face
  • the acquired voice data may include a uttering user's voice signal synchronized with the face image data on a time axis. .
  • the purpose of a video is to relate to the subject or style of the video being created, for example, sincere assertions, strong will, objective analysis, romantic conversations, quarrels, pleasant conversations, fun things, scary conversations, gratitude, sad experiences, It can include embarrassing situations and unfair things.
  • the input data may be obtained from a user through a user interface for input.
  • the user may input voice data and face image data by shooting a video through a user interface provided by an application installed in the user terminal.
  • the user may be provided with predetermined options selectable for the purpose of the image to the user through a user interface provided by an application installed on the user terminal, and at least one selected by the user from among the options regarding the purpose of the predetermined image It can be acquired for the purpose of the acquired image.
  • Steps 120 to 140 may include setting parameters for image generation based on the obtained input data.
  • the parameter for image generation is a factor for determining at least one element included in the image, and may include, for example, a parameter related to an appearance of a character, a parameter related to a movement of a character, and a parameter related to a shot, but is not limited thereto. it is not
  • the input data obtained in step 110 may include a user's selection input for determining the appearance of the character.
  • step 120 may include determining a character based on a user's selection input for determining the appearance of the character obtained in step 110 . Determining the character may mean determining the value of a parameter related to the appearance of the character.
  • the parameter value for the appearance of the character may include parameter values for each of the elements related to the appearance that determine the appearance of the character (eg, hairstyle, face shape, body type, skin color, eyebrows, eyes, nose, mouth, clothing). can The appearance of the character may be visually determined based on a parameter value related to the appearance of the character.
  • parameters related to various appearances of the character may be determined by a user's selection input for determining the appearance of the character.
  • a user's selection input for determining the appearance of the character.
  • parameter values related to the type of character eg, alien, animal, human
  • parameter values related to the character's style eg, Japanese manga style, American comic style
  • a plurality of predetermined candidates may be provided to the user in response to elements related to the appearance of the character, and the user selects any one of the plurality of candidates provided in response to each element. It is possible to determine the parameter values of the elements related to the appearance. For example, the user determines parameter values of elements related to the appearance of the character by selecting any one of a plurality of hairstyles, a plurality of face shapes, a plurality of eye shapes, a plurality of skin colors, and a plurality of clothes provided through the interface.
  • the plurality of candidates may include elements related to the appearance of a character created by another user.
  • operation 120 may include determining a character based on facial features extracted from the facial image data obtained in operation 110 .
  • the character may be determined based on the facial features extracted from the facial image data.
  • the facial feature is a feature of facial elements recognized in a facial image, for example, a position of a pupil obtained based on a position of a feature point(s) of a face contour, eyes, nose, mouth, and eyebrows, and an eyebrow. It can include the shape of the head and the direction of the head.
  • Facial features may be extracted from the face image data based on various face recognition algorithms or facial feature extraction algorithms.
  • a value of a parameter related to an appearance of a character may be determined based on a facial feature extracted from facial image data. For example, a parameter value related to the eyebrow element of the character may be determined based on the extracted eyebrow shape, a parameter value related to the character's head element may be determined based on the extracted head direction, and the extracted pupil position may be determined. Based on the parameter values for the eye element of the character may be determined.
  • the character may be further determined based on other features in addition to the facial features extracted from the face image data.
  • a parameter value related to the appearance of a character may be determined based on characteristics of gender, skin color, face shape, and hairstyle extracted from face image data.
  • a parameter value determined based on a facial feature or other features extracted from facial image data may also be changed by a user's selection input. For example, the eyebrow shape, gender, skin color, face shape, and hairstyle of the character already determined by the user's selection input may be changed.
  • operation 130 may include determining the movement of the character based on the movement of the facial feature extracted from the facial image data and voice data.
  • the movement of the facial feature may include a change in position and shape of at least one facial feature extracted in response to a plurality of frames of facial image data over time. For example, a movement of the pupil including a change in the position of the pupil, a movement of the eyelid including a blinking movement of the eyelid, a movement of the eyebrow including a change in the height and an angle of the eyebrow, and a change in the direction of the head may include movement.
  • the movement of the character may be determined based on the movement of the facial feature extracted from the facial image data obtained in step 110 and the voice data obtained in step 110 .
  • the movement of the character is a change in the position and/or shape of the entire character or a part of the character over time, and may include a movement corresponding to the movement of a facial feature extracted from facial image data.
  • the movement of the character may include movement over time of the position and/or shape of the character itself, the character's eyebrows, pupils, eyelids, arms, legs, or mouth corresponding to the movement of a facial feature. .
  • Step 130 includes the steps of determining the movement of the character's mouth shape based on the pronunciation information corresponding to the voice data obtained in step 110 based on the pronunciation information of the voice data ( The method may include determining the movement of the facial element of the character based on the movement of the facial feature extracted in response to the plurality of frames of the facial image data obtained in step 110).
  • a mouth shape corresponding to the pronunciation information may be predetermined.
  • the first mouth shape corresponding to the pronunciation [a] may be predetermined, and may be determined with reference to the actual mouth shape of a person for making the corresponding pronunciation sound.
  • pronunciation information corresponding to each frame of the voice data may be acquired.
  • a mouth shape corresponding to the pronunciation information of each frame may be determined based on the mouth shape predetermined in response to the pronunciation information, and by connecting the mouth shape determined corresponding to each frame in the chronological order of the frames, the movement of the mouth shape may be can be created
  • the movement of the facial element of the character may be determined based on the movement of the facial feature extracted corresponding to a plurality of frames of the facial image data.
  • the movement of the pupil of the character may be determined based on the change in the position of the pupil extracted in response to the plurality of frames, and the head of the character based on the change in the direction of the pupil extracted in response to the plurality of frames. movement can be determined.
  • the face element may include facial elements such as eyebrows and eyes included in the character's face except for the shape of the mouth.
  • Step 130 may include determining the facial expression of the character based on the obtained purpose, determining the movement of the facial element of the character based on the obtained movement of facial features and voice data, and determining the movement of the character. It may include combining the facial expression and the determined movement of the facial element of the character.
  • the face element may include a mouth shape.
  • face shapes of a plurality of characters corresponding to a plurality of facial expressions may be predetermined in response to the character determined in step 120 .
  • face shapes 201 to 205 of the character corresponding to a plurality of facial expressions corresponding to the determined character may be determined.
  • the movement of the mouth shape determined based on pronunciation information corresponding to the voice data may be combined with the shape of the character's face corresponding to the specific expression to generate the movement of the character uttering the specific expression.
  • some parameters of the mouth shape may be corrected according to the combined facial expression.
  • the parameter of the mouth shape whose movement is determined according to the pronunciation information may be corrected to have a more open mouth or a raised corner of the mouth.
  • the parameter of the shape of the mouth whose movement is determined according to the pronunciation information may be corrected in a form in which the mouth is wider to the side.
  • the movement of the character corresponding to the obtained facial image data may be generated by combining the movement of the pupil determined based on the movement of the extracted facial feature to the shape of the face of the character corresponding to the specific expression.
  • the facial expression of the character determined based on the purpose of the image may include a plurality of facial expressions.
  • the facial expression of the character may include a facial expression sequence including a plurality of facial expressions.
  • the expression of the character may be determined as the first expression from the first frame to the second frame of the face image data or the voice data, and the second expression from the third frame to the fourth frame.
  • step 140 may correspond to a step of determining a shot corresponding to a character based on the purpose of the audio data and image obtained in step 110 .
  • a shot is a basic unit of shooting, meaning a scene shot at once, and the type of shot size based on the size of the projected subject (e.g. close-up shot, bust shot, full shot, long shot), Shot types may be classified into types (eg, bird-eye view shots, high-angle shots, eye-level shots, and low-angle shots) based on the angle of the projected subject.
  • the types of shots include types based on the number of subjects included in the shot (eg one-shot, two-shot, three-shot, group shot), types based on camera manipulation (eg panning shot, tilt shot, zoom shot), It can include different types, such as types based on the movement of the camera (eg Dali Shots, Tracking Shots, Arc Shots, Aerial Shots).
  • the subject may correspond to a character whose movement is determined in steps 120 to 130
  • the determined shot may correspond to a scene in which a character moving with a virtual camera is captured in a virtual space. have.
  • Step 140 may include determining a length of a shot based on an utterance section in the acquired voice data and determining a type of a shot based on the acquired purpose.
  • the determining of the shot 140 includes determining a sequence of a plurality of shots based on the purpose of the image, and dividing the voice data into a plurality of utterance sections based on a change in the size of the voice data.
  • the method may include classifying and determining lengths of the plurality of shots based on the plurality of utterance sections.
  • Step 140 may include determining a shot sequence including at least one shot corresponding to a purpose.
  • the shot sequence may include one shot or a plurality of shots in which an order is determined.
  • the plurality of shots included in the shot sequence may include a plurality of shots having different types of shots.
  • the plurality of shots included in the shot sequence may include a plurality of shots in which at least one of a shot size and a shot angle is different from each other.
  • a shot sequence corresponding to a purpose may be determined based on a shot used when capturing a captured image for the corresponding purpose. For example, referring to FIG. 3 , if the purpose of the image is 'interview', a shot sequence including four shots used when shooting an image for the purpose of 'interview' may be determined corresponding to the purpose of 'interview'. .
  • the plurality of shots included in the shot sequence may include different types of shots.
  • the plurality of shots included in the shot sequence may include first to fourth type shots in which at least one of a size and an angle of a shot is different from each other. For example, the shot 301 and the shot 302 are shooting the subject up to the chest.
  • the size of the shot is the same, but the shot 301 is the front, and the shot 302 is the oblique direction.
  • the angle of the shot is different.
  • the angle of the bar shot for shooting the subject from the front is the same, but the shot 303 is taken to the neck of the subject, and the shot 301 is taken to the chest of the subject.
  • the size of the bar shot you are doing is different.
  • Lengths of a plurality of shots included in a shot sequence may be determined based on an utterance period in voice data.
  • An utterance section is a section in which utterances are continued in voice data, for example, a section from a point recognized as a starting point of utterance in voice data to a point recognized as an end point of the utterance or a section recognized as a starting point of utterance in voice data.
  • a section from a point to a point recognized as a start point of the next utterance of the corresponding utterance may correspond to one utterance section.
  • a start point of an utterance or an end point of an utterance may be recognized from the voice data based on a change in the volume over time included in the acquired voice data.
  • FIG. 4 shows a graph of a change in the volume of a sound over time corresponding to the acquired voice data.
  • a start point or an end point of an utterance may be recognized based on a change in the volume of a sound, and the speech data includes utterance sections 411 to 415 bordering on the recognized start or end point of the utterance.
  • the starting point or ending point of the utterance may be determined based on a point at which the loudness of the sound signal changes abruptly, a point at which the volume of the sound signal decreases below a threshold value, and a point at which the level of the sound signal increases above the threshold value, but It is not limited.
  • a point at which a sentence starts or a point at which a sentence ends may be determined as a start point or an end point of an utterance by using the speech recognition result of the voice data.
  • the start point of the specific utterance may be the same as the end point of the previous utterance, or may be recognized later than the end point of the previous utterance. For example, if the time interval between a point recognized as the start point of a specific utterance and a point recognized as the end point of the previous utterance is less than a predetermined threshold, the start point of the specific utterance and the end point of the previous utterance are the same point. can be decided. For example, referring to FIG. 4 , the end point 403 of the utterance corresponding to the section 412 and the start point 403 of the utterance corresponding to the section 413 may be determined as the same point.
  • the end point 404 of the utterance corresponding to the section 413 and the start point 405 of the utterance corresponding to the section 415 may be determined as different points, and in this case, the section 414 is the speech signal of the utterance. may not be included, but the section 414 may also be included in the utterance section.
  • the length of the shot may be determined to include at least one utterance section.
  • the first shot in a temporally advanced order starts from a start point 401 of voice data, a point 402, a point 403,
  • the length to either point 404 or point 405 may be determined.
  • the first shot may be determined to have a length including any one of 1 to 4 sections from the start point 401 of the voice data.
  • the second shot that is the next shot of the first shot may be determined to have a length including any one of 1 to 4 sections from the end point of the first shot to the end point 406 of the voice data.
  • the determining of the lengths of the plurality of shots includes determining at least one turning point at which the shot is switched based on the purpose of the image and the plurality of utterance sections, and based on the determined turning point, determining the lengths of the shots of A boundary of an utterance section included in the voice data may be determined as a transition point at which a shot transition occurs.
  • the determined number of transition points may correspond to the number of shots included in the shot sequence.
  • the chronological first shot included in the shot sequence may be determined as the length from the start point of the voice data to the first turning point in chronological order
  • the second shot may be determined as the length from the first turning point to the second turning point.
  • the last shot may be determined as the length from the end point of the previous shot to the end point of the voice data.
  • the number of shots included in the shot sequence and the number of transition points determined from the voice data may be determined based on the purpose of the acquired image. For example, when the purpose of the video is to express a sense of excitement, the number of shots included in the shot sequence and the number of transition points in the voice data may be determined so that a large number of shot changes occur.
  • the length between shots may be arbitrarily determined or may be determined based on the purpose of the image.
  • a transition point in the audio data may be determined so that the lengths of a plurality of shots included in the shot sequence are similarly determined according to the purpose of the image.
  • the transition point in the voice data may be determined as a boundary between speech sections included in the voice data.
  • a transition point in the audio data may be determined such that the number of audio sections included in each of a plurality of shots included in the shot sequence is the same according to the purpose of the video.
  • a ratio of lengths between a plurality of shots included in a shot sequence may be determined according to the purpose of an image, and a transition point in the voice data may be determined to follow the determined ratio.
  • the posture and posture movement of the character included in the shot may be determined based on the purpose of the acquired image.
  • the posture of the character may be determined as a sitting posture in response to the purpose of the image of the interview, and the movement of the posture may be determined to include a gesture of a hand motion according to an utterance in the sitting posture.
  • the background and props included in the shot may be determined based on the purpose of the acquired image.
  • the background corresponding to the interview space may be determined in response to the purpose of the video of the interview, and a chair or a camera may be included in the shot as a prop.
  • shots corresponding to the purpose of the image may be determined based on a rule-based model. For example, based on a predefined rule, a set of shots corresponding to a specific purpose or a sequence of shots corresponding to a specific purpose may be determined. When a set of shots corresponding to a specific purpose is determined based on a predefined rule, an order between the shots may be determined based on the predefined rule. The order between the shots may be arbitrarily determined or may be determined based on a predetermined priority between the shots.
  • shots corresponding to the purpose of the image may be determined based on a statistical model.
  • a statistics-based model is a set or shot of shots corresponding to an image of a specific purpose based on statistical probability, such as the frequency of shots appearing in an image for a specific purpose, and a probability that a second shot occurs after the first shot in an image of a specific purpose. It may correspond to a model that outputs a sequence of
  • shots corresponding to the purpose of the image may be determined based on a learning-based model.
  • the learning-based model learns the purpose of the image and the type of shot used in the image data from the image data, and when the purpose of the image is input, it may correspond to a model that outputs a set of shots or a sequence of shots corresponding to the input purpose.
  • the learning-based model may include a deep learning model, and the structure of the deep learning model may be configured in various ways. According to the structure of the learning-based model, it may be learned based on various learning methods.
  • the order between the shots may be arbitrarily determined or may be determined based on the second model.
  • a method of determining a set of shots corresponding to a specific purpose and a method of determining an order of shots may use different models. For example, a set of shots corresponding to a specific purpose may be determined using a first model based on statistics, and an order of shots may be determined using a second model based on a rule.
  • the lengths of shots included in the shot sequence may be determined based on at least one of a rule-based model, a statistics-based model, and a learning-based model.
  • the lengths of the shots included in the shot sequence may be determined based on voice data in a model determining the shot sequence, or may be determined based on the shot sequence and voice data in a model configured independently of the model determining the shot sequence.
  • elements included in the shot corresponding to the purpose of the image may be determined based on at least one of a rule-based model, a statistics-based model, and a learning-based model.
  • the elements included in the shot may include a posture or posture movement of a character included in the shot, a background or props included in the shot.
  • the determined shot and elements included in the shot may be changed based on a user input.
  • the order of the shot sequence determined based on the user input may be changed, the type of shot included in the shot sequence may be changed, the lengths of the determined shots may be changed, and the shot included in the shot sequence may be changed. may be added or deleted.
  • the appearance, facial expression, and posture of the character included in the shot may be changed based on the user input, and the background and props included in the shot may be changed.
  • step 150 may include generating an image corresponding to voice data based on the determined shot.
  • an image including a character whose movement is determined may be generated based on the determined shot.
  • the generated image may correspond to an image in which a character moving according to the determined movement is sequentially photographed with a length determined by a shot type according to the determined shot sequence.
  • the generated image may be output together with input audio data, and may correspond to an image synchronized with the audio data in a time axis.
  • the generated image may include a character whose movement is determined to make an utterance corresponding to the voice data.
  • a pre-processing operation such as removing noise other than a voice may be performed on the input voice data, and a modulation operation for changing a voice may be performed.
  • An image generating method may include generating an image including a plurality of characters.
  • generating an image including a plurality of characters For convenience of explanation, a case where the plural number is 2 will be described as an example, but the operation for generating an image including two characters may be applied to an operation for generating an image including two or more characters.
  • the plurality of characters includes a first character whose movement is determined based on a movement of a first facial feature obtained from the first face image data and first voice data and a second face obtained from the second face image data. It may include a second character whose movement is determined based on the movement of the feature and the second voice data.
  • the first face image data and the first voice data may correspond to input data obtained from the first user terminal
  • the second face image data and the second voice data may correspond to input data obtained from the second user terminal. can do.
  • the appearance of the first character may be determined based on a selection input for determining the appearance of the character obtained from the first user terminal, and the appearance of the second character may be determined from the appearance of the character obtained from the second user terminal.
  • the determination may be based on a selection input regarding the determination.
  • the input data received by the image generating system may include real-time video call data of the first user terminal and the second user terminal.
  • the first face image data captured by the first user terminal and the first voice data that is the user's voice received through the first user terminal may be received through the first user terminal, and through the second user terminal Second face image data captured by the second user terminal and second voice data that is a user's voice received through the second user terminal may be received.
  • the input data received by the image generating system may include first input data received from the first user terminal and second input data received from the second user terminal in relation to the first input data.
  • first input data received from the first user terminal
  • second input data corresponding to the first image is received from the terminal as the second user.
  • a second image following the first image may be generated based on the second input data.
  • the second image may be determined based on the second input data, the movement of the first character included in the first image, and other factors included in the first image. For example, if the first image includes a first character sitting on a bench and talking, the second image may be generated to include the second character sitting next to the first character and talking.
  • the determining of the movement of the character 130 may include determining the interaction between the first character and the second character based on at least one of the purpose of the image, the first voice data, and the second voice data. and determining the movement of the first character and the movement of the second character based on the determined interaction.
  • the interaction may refer to an action including interaction or mutual contact of a plurality of characters, such as talking, shaking hands, or hugging.
  • the interaction between the first character and the second character may be determined based on the purpose of the acquired image.
  • a plurality of interaction candidates may be predetermined in correspondence with each purpose of the image.
  • interactions such as holding hands and hugging may be determined as interaction candidates
  • an interaction such as shaking hands may be determined as interaction candidates. .
  • an interaction between the first character and the second character may be determined based on acquired voice data.
  • An interaction corresponding to a specific word may be determined in advance, and when a corresponding word is recognized in voice data, an interaction corresponding thereto may be determined. For example, when the word 'I love you' is recognized in the acquired first voice data or the second voice data, an interaction of hugging may be determined.
  • an interaction corresponding to a recognized word may be determined differently according to the purpose of the acquired image. For example, for a first purpose, when a first word is recognized, a first interaction may be determined, but for a second purpose, when the same first word is recognized, a second interaction different from the first interaction may be determined. According to an embodiment, any one of a plurality of predetermined interaction candidates may be selected in response to the purpose of the image based on the word recognized in the voice data.
  • the step of determining the shot 140 may include determining the shot corresponding to the first character and the second character based on the purpose of the first audio data, the second audio data, and the image.
  • the shot corresponding to the first character and the second character may include a shot including at least one of the first character and the second character.
  • the shot corresponding to the first character and the second character may be set such that only the first character appears, only the second character appears, or both the first character and the second character appear.
  • a shot in which the first character is photographed from the front may be determined when the first character speaks, and the first character is photographed from the front when the second character speaks.
  • a shot can be determined.
  • a shot taken to include the first character and the second character may be determined.
  • the determining of the shot 140 may include determining the arrangement of the first character and the second character included in the shot, based on the purpose of the image.
  • the arrangement of the first character and the second character may include a positional relationship between the first character and the second character displayed in the shot and a composition of the first character and the second character. For example, based on the purpose of the image, the arrangement may be determined so that the first character and the second character sit facing each other, the arrangement may be determined so that they stand side by side, the first character is standing, and the second character is the second character.
  • the arrangement may be determined so that the first character is seated while looking at the first character, and the arrangement in which the first character approaches the second character from behind may be determined.
  • the relationship between the first character and the second character may be determined based on the purpose of the image, and the arrangement of the first character and the second character may be determined based on the determined relationship. For example, when the relationship between the first character and the second character is determined to be a friend or a lover, the first character and the second character may be arranged side by side.
  • the type of communication or the type of situation may be determined based on the purpose of the image, and the arrangement of the first character and the second character may be determined based on the determined type of communication.
  • the first character and the second character may be arranged to face each other.
  • the arrangement of the first character and the second character may be determined so as to face the same direction.
  • the emotion between the first character and the second character may be determined based on the purpose of the image, and the arrangement of the first character and the second character may be determined based on the determined type of emotion. For example, when the type of emotion is determined as love or gratitude, the first character and the second character may be arranged to face each other, and when the type of emotion is determined as surprise or fear, the first character moves from behind the second character The arrangement can be determined to access.
  • the arrangement between the first character and the second character may be determined based on the purpose of the acquired image.
  • a plurality of placement candidates may be predetermined in correspondence with each purpose of the image.
  • placement candidates such as a side-by-side arrangement on a bench, a face-to-face arrangement, and a hand-held arrangement may be determined.
  • the arrangement of the first character and the second character may be determined based on a user input.
  • the user may input a request to determine a placement between the first character and the second character through the interface. For example, by selecting any one of predetermined placement candidates between the first character and the second character, a request for determining the placement between the first character and the second character may be input. Placement candidates between the first character and the second character may be predetermined based on the purpose of the image as described above.
  • the operations of steps 120 to 140 may be performed in parallel or sequentially.
  • the operation 120 of determining the character and the operation 130 of determining the movement of the character may be performed in parallel, and the determined character may be synthesized with the determined movement of the character, and the moving character may be included in the image.
  • the operation 140 of determining the shot corresponding to the character may be performed in parallel with the operation 120 of determining the character and the operation 130 of determining the movement of the character, and the operation of determining the shot
  • a sequence of shots for taking an arbitrary character at a specific angle and a specific size is determined by 140 , and the moving character determined by operations 120 and 130 is converted into a sequence of shots determined by operation 140 .
  • An image may be generated by photographing.
  • 5 to 9 show examples of an interface for editing a determined shot according to an embodiment.
  • the determined shot sequence may include a plurality of shots, and the plurality of shots may include shots having different types of shots.
  • the first shot 501 corresponds to the first type of shot in which the character is photographed from the frontal angle to the chest position
  • the second shot 502 is the second shot in which the character is photographed from the frontal angle to the knee position. It can correspond to two types of shots.
  • the determined shot sequence may include a plurality of shots of the same type.
  • the first shot 501 and the third shot 503 included in the determined shot sequence may correspond to the same type of shot.
  • the length of the shot may be determined based on an utterance section in voice data.
  • the points 511 to 514 at which the shots are switched are points recognized as the start point or the end point of the speech, and may correspond to the boundary of the speech section.
  • the interface may provide an interfacing object 530 for changing a sequence of a plurality of shots determined in response to the purpose of an image, and the user may provide a sequence of shots determined based on the interfacing object 530 .
  • the interfacing object 530 may correspond to an interfacing object configured to transmit a command for changing a shot sequence in response to a user input. For example, in response to a shot change input of clicking the interfacing object 530 , the order of shots included in the shot sequence may be changed, the types of shots included in the shot sequence may be changed, and the shot sequence may be changed to the shot sequence. The number of included shots may be changed, and the length of the shots may be changed.
  • the shot sequence 510 shown in FIG. 5 is changed to the shot sequence 610 shown in FIG. 6 .
  • the number of shots included in the shot sequence 610 may be changed according to a shot change input, and types of shots included in the shot sequence 610 may be changed.
  • the change of the shot sequence by the interfacing object 530 may be performed according to a predefined rule.
  • a shot sequence may be determined by selecting a part from a set of shots determined according to the purpose of the image according to a predetermined order.
  • candidates of a plurality of shot sequences may be output from a model for determining a shot sequence, and may be determined according to a predetermined order from the candidates of the output shot sequences.
  • the interface may provide a set 520 of a plurality of shots determined to correspond to the purpose of the image, and the user may change the configuration of the shot sequence determined based on the set 520 of the provided shots.
  • the user may input a request to change the shot 505 included in the shot sequence by selecting the shot 521 from the set of shots 520 through the interface, and in response to the user's change input
  • the shot sequence 510 may be changed to the shot sequence 710 shown in FIG. 7 .
  • the user may input a request for selecting at least one shot from the set of shots 520 and adding it to a specific position of the shot sequence through the interface, and in response to the user's additional input, the shot sequence 510 . ) may be changed to the shot sequence 810 shown in FIG. 8 .
  • the user may input a request to change the size or angle of at least some shots included in the determined shot sequence through the interface.
  • the user selects at least one shot included in the shot sequence to control the size of the character included in the shot, or controls the angle of the character included in the shot, thereby making a request to change the size or angle of the shot. can be entered.
  • a specific type of shot determined based on a user input may be included in the shot sequence.
  • the user may input a request to delete at least some shots included in the determined shot sequence through the interface. For example, the user may select a shot included in the shot sequence and request deletion from the shot sequence, and the shot selected by the user may be deleted from the shot sequence. As some shots included in the shot sequence are deleted, the length of a shot positioned before or after the deleted shot may be adjusted.
  • the interface may provide a function for adjusting the lengths of the plurality of shots determined in response to the purpose of the image.
  • the user may input a request for changing the determined length of the shot sequence by changing the position of the boundary of the shot through the interface.
  • the position of the shot boundary may be changed to the boundary of the firing section, and when the position of the shot boundary input by the user does not correspond to the boundary of the firing section, the position of the shot boundary is changed to the boundary of the nearby ignition section by the magnetic effect can be
  • the user may input a request to change the position 512 of the boundary of the shot 502 and the shot 503 to the position 515 through the interface, and in response to the user's change input, the shot sequence ( 510 may be changed to the shot sequence 910 shown in FIG. 9 .
  • the expression of the character determined based on the purpose of the image or the sequence of the plurality of facial expressions of the character corresponding to the image may be changed by a user's selection input.
  • the user may change the facial expression determined in response to each frame to another facial expression by a selection input for a plurality of facial expressions provided through the interface in response to the character, and by adding another facial expression to the facial expression sequence, each frame It is possible to determine the expression corresponding to the
  • visual elements and auditory elements corresponding to a specific shot may be determined by a user's input.
  • visual elements such as postures, props, backgrounds, and texts of a character corresponding to the entire shot or some shots may be set or changed by a user input.
  • auditory elements such as sound effects corresponding to a specific shot and background music corresponding to all shots or some shots may be set or changed according to a user input.
  • elements set or changed by a user's input may be determined by an input of selecting some of a plurality of candidates provided through an interface.
  • a plurality of candidates regarding various postures of the character may be provided through the interface, and the user selects any one of a plurality of candidates regarding the posture of the character, thereby determining the posture of the character in the scene determined by the shot or The sequence of postures can be determined.
  • a plurality of candidates for sound effect may be provided through the interface, and the user may determine the sound effect by selecting the sound effect to be included in the image at a specific time from among the plurality of candidates.
  • FIG. 10 is a block diagram illustrating a configuration of an image generating system according to an exemplary embodiment.
  • an image generating system may be implemented as a device, and the device in which the image generating system is implemented may include a terminal 1010 and a server 1020 .
  • the terminal 1010 and the server 1020 may correspond to an image generating apparatus that performs the above-described image generating method.
  • the configuration of the system shown in FIG. 10 is an example for description of the invention, and the number of terminals or the number of servers included in the system is not limited as in FIG. 10 .
  • the terminal 1010 may be a fixed terminal implemented as a computer device or a mobile terminal.
  • the terminal 1010 may include a smart phone, a mobile phone, a computer, a notebook computer, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia player (PMP), and a tablet PC.
  • PDA personal digital assistant
  • PMP portable multimedia player
  • the user terminal may communicate with the server 1020 and/or other electronic devices through the network 1030 using a wireless or wired communication method.
  • the server 1020 may be implemented as a computer device or a plurality of computer devices that communicate with the terminal 1010 and the network 1030 to provide commands, codes, files, contents, services, and the like.
  • the communication method is not limited, and may include a communication method using a communication network (eg, a mobile communication network, a wired Internet, a wireless Internet, a broadcasting network) that the network 1030 may include, and a short-range wireless communication method between devices.
  • the network 1030 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). , the Internet, and the like.
  • PAN personal area network
  • LAN local area network
  • CAN campus area network
  • MAN metropolitan area network
  • WAN wide area network
  • BBN broadband network
  • the server 1020 may provide a file for installing an application to the terminal 1010 accessed through the network 1030 .
  • the terminal 1010 may install an application using a file provided from the server 1020 .
  • the service or content provided by the server 1020 by accessing the server 1020 under the control of an operating system (OS) and at least one program (eg, a browser or an installed application) included in the terminal 1010 . can be provided.
  • OS operating system
  • the server 1020 transmits a code corresponding to the service request message to the terminal 1010 .
  • the terminal 1010 can provide content to the user by composing and displaying a screen according to the code according to the control of the application.
  • the terminal 1010 and the server 1020 may include memories 1011 and 1021 , processors 1013 and 1023 , communication modules 1015 and 1025 , and input/output interfaces 1017 and 1027 . .
  • the memories 1011 and 1021 may store information related to the image generating method described above with reference to FIGS. 1 to 9 or a program implementing the image generating method described above.
  • the memories 1011 and 1021 are computer-readable recording media, and may be volatile memory or non-volatile memory.
  • the program in which the above-described image generating method is implemented may include a code for a browser or application installed and driven in the terminal 1010 by files provided from the server 1020 through the network 1030 . .
  • the communication modules 1015 and 1025 may provide a function for the terminal 1010 and the server 1020 to communicate with each other through the network 1030, and for communication with other electronic devices or other servers. function can be provided. For example, a request generated by the processor 1013 of the terminal 1010 according to a program code stored in a recording device such as the memory 1011 is controlled by the communication module 1015 through the network 1030 to the server 1020 can be transmitted to For example, a control signal, command, content, file, etc. provided under the control of the processor 1023 of the server 1020 passes through the communication module 1025 and the network 1030 to the communication module 1015 of the terminal 1010 .
  • a control signal or command of the server 1020 received through the communication module 1015 may be transmitted to the processor 1013 or the memory 1011 , and the terminal 1010 further includes content or files. It may be stored as a storage medium that can be
  • the input/output interfaces 1017 and 1027 may be means for interfacing with the input/output device 1019 .
  • the input device may include a device such as a keyboard or mouse
  • the output device may include a device such as a display for displaying a communication session of an application.
  • the input/output interface 1017 may be a means for an interface with a device in which functions for input and output are integrated into one, such as a touch screen.
  • the processor 1013 of the terminal 1010 processes the command of the computer program loaded in the memory 1011, and the service screen or content configured using the data provided by the server 1020 is displayed on the input/output interface ( 1017) can be displayed on the display.
  • An input received from the user through the input/output device 1019 may be provided in a form that can be processed by the processor 1013 of the terminal 1010 through the input/output interface 1017 .
  • the terminal 1010 and the server 1020 may include other components not shown in FIG. 10 .
  • the terminal 1010 is implemented to include at least a portion of the above-described input/output device 1019 or other components such as a transceiver, a global positioning system (GPS) module, a camera, various sensors, and a database. It may include more.
  • GPS global positioning system
  • the embodiments described above may be implemented by a hardware component, a software component, and/or a combination of a hardware component and a software component.
  • the apparatus, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, may be implemented using a general purpose computer or special purpose computer.
  • the processing device may execute an operating system (OS) and a software application running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that may include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer readable medium may store program instructions, data files, data structures, etc. alone or in combination, and the program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software.
  • Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks.
  • - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware devices described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

영상 생성 방법 및 장치가 개시된다. 일 실시 예에 따른 영상 생성 방법은 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 획득하는 단계, 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임 및 음성 데이터에 기초하여, 캐릭터의 움직임을 결정하는 단계, 음성 데이터 및 목적에 기초하여, 캐릭터에 대응하는 샷을 결정하는 단계, 결정된 샷에 기초하여, 음성 데이터에 대응하는 영상을 생성하는 단계를 포함한다

Description

영상 생성 방법 및 장치
아래 실시 예들은 영상 생성 방법 및 장치에 관한 것으로, 구체적으로는 캐릭터를 포함하는 영상 생성 방법 및 장치에 관한 것이다.
최근 모바일 스마트 기기의 발달로 네트워크를 통해 다른 사용자들과 교류를 위한 온라인 플랫폼 서비스인 소셜 네트워킹 서비스(social networking service; SNS)의 이용이 증가하고 있다. SNS는 사용자 간의 의사소통, 정보 공유 및 인맥 확대 등을 통해 사회적 관계를 생성하고 강화하는 목적을 달성하기 위하여 글, 사진, 영상, 음성 등 다양한 형태의 정보 교환을 통한 소셜 네트워킹 기능을 제공한다. 자신의 개성과 생각을 자유롭게 표현하고, 다른 사용자와 편리하게 의사 소통할 수 있는 다양한 형태의 소셜 네트워킹 서비스에 대한 기술이 요구되고 있다.
아래 실시 예들은 사용자의 입력에 따른 움직이는 캐릭터를 생성하고, 움직이는 캐릭터를 다양한 촬영 기법으로 촬영한 영상을 생성하는 기술을 제공할 수 있다.
아래 실시 예들은 영상 생성을 위해 필요한 요소들을 자동으로 생성하고, 자동으로 생성된 요소들의 편집 기능을 제공하는 영생 생성 기술을 제공할 수 있다.
다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.
일 측에 따른 영상 생성 방법은 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 획득하는 단계; 상기 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여, 상기 캐릭터의 움직임을 결정하는 단계; 상기 음성 데이터 및 상기 목적에 기초하여, 상기 캐릭터에 대응하는 샷을 결정하는 단계; 및 상기 결정된 샷에 기초하여, 상기 음성 데이터에 대응하는 영상을 생성하는 단계를 포함한다.
상기 샷을 결정하는 단계는 상기 음성 데이터 내 발화 구간에 기초하여, 상기 샷의 길이를 결정하는 단계; 및 상기 목적에 기초하여, 상기 샷의 유형을 결정하는 단계를 포함할 수 있다.
상기 샷의 유형은 상기 샷에 투영된 캐릭터의 크기에 기초한 샷의 크기 및 상기 샷에 투영된 캐릭터의 각도에 기초한 샷의 앵글에 의해 구분될 수 있다.
상기 샷을 결정하는 단계는 상기 목적에 기초하여, 복수의 샷들- 상기 복수의 샷들은 샷의 유형이 서로 다른 복수의 샷들을 포함함 -의 시퀀스를 결정하는 단계; 상기 음성 데이터의 크기 변화에 기초하여, 상기 음성 데이터를 복수의 발화 구간들로 구분하는 단계; 및 상기 복수의 발화 구간들에 기초하여, 상기 복수의 샷들의 길이들을 결정하는 단계를 포함할 수 있다.
상기 복수의 샷들의 길이들을 결정하는 단계는 상기 목적 및 상기 복수의 발화 구간들에 기초하여, 샷이 전환되는 적어도 하나의 전환점을 결정하는 단계; 및 상기 전환점에 기초하여, 상기 복수의 샷들의 길이들을 결정하는 단계를 포함할 수 있다.
상기 샷을 결정하는 단계는 사용자의 입력에 기초하여, 상기 시퀀스 내 샷들의 순서를 변경하는 단계; 사용자의 입력에 기초하여, 상기 시퀀스에 적어도 하나의 샷을 추가하는 단계; 사용자의 입력에 기초하여, 상기 시퀀스 내 적어도 하나의 샷을 삭제하는 단계; 사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 유형을 변경하는 단계; 및 사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 길이를 변경하는 단계 중 적어도 하나를 더 포함할 수 있다.
상기 캐릭터의 움직임을 결정하는 단계는 상기 음성 데이터에 대응하는 발음 정보에 기초하여, 상기 캐릭터의 입 모양의 움직임을 결정하는 단계; 및 상기 얼굴 영상 데이터의 복수의 프레임들에 대응하여 추출된 상기 얼굴 특징의 움직임에 기초하여, 상기 캐릭터의 얼굴 요소의 움직임을 결정하는 단계를 포함할 수 있다.
상기 캐릭터의 움직임을 결정하는 단계는 상기 목적에 기초하여 상기 캐릭터의 표정을 결정하는 단계; 상기 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여 상기 캐릭터의 얼굴 요소의 움직임을 결정하는 단계; 및 상기 결정된 캐릭터의 표정 및 상기 캐릭터의 얼굴 요소의 움직임을 결합하는 단계를 포함할 수 있다.
상기 캐릭터의 표정을 결정하는 단계는 사용자의 입력에 기초하여, 상기 캐릭터의 얼굴 표정을 변경하는 단계를 더 포함할 수 있다.
상기 입력 데이터를 획득하는 단계는 상기 얼굴 영상 데이터에서 눈동자의 움직임, 눈꺼풀의 움직임, 눈썹의 움직임 및 고개의 움직임 중 적어도 하나를 포함하는 상기 얼굴 특징의 움직임을 추출하는 단계를 더 포함할 수 있다.
상기 캐릭터는 상기 얼굴 영상 데이터 내 제1 얼굴 영상 데이터로부터 획득된 제1 얼굴 특징의 움직임 및 상기 음성 데이터 내 제1 음성 데이터에 기초하여 움직임이 결정되는 제1 캐릭터; 및 상기 얼굴 영상 데이터 내 제2 얼굴 영상 데이터로부터 획득된 제2 얼굴 특징의 움직임 및 상기 음성 데이터 내 제2 음성 데이터에 기초하여 움직임이 결정된 제2 캐릭터를 포함할 수 있다.
상기 샷을 결정하는 단계는 상기 음성 데이터 내 제1 음성 데이터, 상기 음성 데이터 내 제2 음성 데이터 및 상기 목적에 기초하여, 상기 제1 캐릭터 및 상기 제2 캐릭터에 대응하는 샷을 결정하는 단계를 포함할 수 있다.
상기 샷을 결정하는 단계는 상기 목적에 기초하여, 상기 샷에 포함된 상기 제1 캐릭터 및 상기 제2 캐릭터의 배치를 결정하는 단계를 포함할 수 있다.
상기 캐릭터의 움직임을 결정하는 단계는 상기 목적, 상기 제1 음성 데이터 및 상기 제2 음성 데이터 중 적어도 하나에 기초하여, 상기 제1 캐릭터 및 상기 제2 캐릭터의 인터랙션을 결정하는 단계; 및 상기 결정된 인터랙션에 기초하여, 상기 제1 캐릭터의 움직임 및 상기 제2 캐릭터의 움직임을 결정하는 단계를 더 포함할 수 있다.
상기 음성 데이터는 제1 사용자 단말로부터 획득된 제1 음성 데이터 및 제2 사용자 단말로부터 획득된 제2 음성 데이터를 포함할 수 있다.
상기 얼굴 영상 데이터는 상기 제1 사용자 단말로부터 획득된 제1 얼굴 영상 데이터 및 상기 제2 사용자 단말로부터 획득된 제2 얼굴 영상 데이터를 포함할 수 있다.
일 측에 따른 영상 생성 장치는 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 획득하고, 상기 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여, 상기 캐릭터의 움직임을 결정하고, 상기 음성 데이터 및 상기 목적에 기초하여, 상기 캐릭터에 대응하는 샷을 결정하며, 상기 결정된 샷에 기초하여, 상기 음성 데이터에 대응하는 영상을 생성하는, 적어도 하나의 프로세서를 포함한다.
상기 프로세서는, 상기 샷을 결정함에 있어서, 상기 목적에 기초하여, 복수의 샷들- 상기 복수의 샷들은 샷의 유형이 서로 다른 복수의 샷들을 포함함 -의 시퀀스를 결정하고, 상기 음성 데이터의 크기 변화에 기초하여, 상기 음성 데이터를 복수의 발화 구간들로 구분하고, 상기 복수의 발화 구간들에 기초하여, 상기 복수의 샷들의 길이들을 결정할 수 있다.
상기 프로세서는, 상기 샷을 결정함에 있어서, 사용자의 입력에 기초하여, 상기 시퀀스 내 샷들의 순서를 변경하는 동작; 사용자의 입력에 기초하여, 상기 시퀀스에 적어도 하나의 샷을 추가하는 동작; 사용자의 입력에 기초하여, 상기 시퀀스 내 적어도 하나의 샷을 삭제하는 동작; 사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 유형을 변경하는 동작; 및 사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 길이를 변경하는 동작 중 적어도 하나를 더 수행할 수 있다.
상기 프로세서는, 상기 캐릭터의 움직임을 결정함에 있어서, 상기 목적에 기초하여 상기 캐릭터의 표정을 결정하고, 상기 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여 상기 캐릭터의 얼굴 요소의 움직임을 결정하며, 상기 결정된 캐릭터의 표정 및 상기 캐릭터의 얼굴 요소의 움직임을 결합할 수 있다.
상기 프로세서는, 상기 캐릭터의 표정을 결정함에 있어서, 사용자의 입력에 기초하여, 상기 캐릭터의 얼굴 표정을 변경할 수 있다.
도 1은 일 실시 예에 따른 영상 생성 방법의 동작 흐름도이다.
도 2는 일 실시 예에 따른 캐릭터에 대응하는 다양한 표정들의 예시를 도시한 도면이다.
도 3은 일 실시 예에 따른 영상의 목적에 대응하여 결정된 서로 다른 유형의 샷들의 예시를 도시한 도면이다.
도 4는 일 실시 예에 따른 시간의 흐름에 따른 소리의 크기 변화의 그래프의 예시를 도시한 도면이다.
도 5내지 도 9는 일 실시 예에 따른 결정된 샷의 편집을 위한 인터페이스의 예시를 도시한 도면들이다.
도 10은 일실시예에 따른 영상 생성 시스템의 구성을 설명하기 위한 블록도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일실시예에 따른 영상 생성 방법의 동작 흐름도이다.
도 1을 참조하면, 일 실시 예에 따른 영상 생성 방법은 입력 데이터를 획득하는 단계(110), 캐릭터를 결정하는 단계(120), 캐릭터의 움직임을 결정하는 단계(130), 캐릭터에 대응하는 샷을 결정하는 단계(140) 및 음성 데이터에 대응하는 영상을 생성하는 단계(150)를 포함할 수 있다.
일 실시 예에 따른 영상 생성 방법은 영상 생성 시스템의 적어도 하나의 프로세서에 의해 수행될 수 있다. 영상 생성 시스템은 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 처리하여, 입력 데이터에 대응하는 영상을 출력하는 시스템으로 적어도 하나의 프로세서에 의해 구동될 수 있다. 이하에서, 영상 생성 시스템은 시스템으로 간략하게 지칭될 수 있다.
일 실시 예에 따르면, 영상 생성 시스템은 장치로 구현될 수 있으며, 영상 생성 시스템이 구현된 장치는 사용자 단말(예: 휴대폰, 컴퓨터) 및 서버를 포함할 수 있다. 사용자 단말은 사용자로부터 입력 데이터를 수신하고, 사용자에게 입력 데이터의 처리에 따른 영상을 제공하기 위한 사용자 인터페이스를 포함할 수 있다. 사용자 단말은 네트워크를 통해 서버와 작동적으로 연결될 수 있다. 이하에서, 사용자 단말은 단말로 간략하게 지칭될 수 있다. 일 실시 예에 따른 영상 생성 방법의 동작들은 시스템 내 단말 또는 서버를 구성하는 프로세서에 의해 수행될 수 있다. 일 실시 예에 따른 영상 생성 시스템의 구체적인 구성은 이하의 도 10을 통해 상술한다.
일 실시 예에 따른 단계(110)는 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 획득하는 단계를 포함할 수 있다. 음성 데이터는 사용자의 발화에 의해 생성된 소리 신호에 해당할 수 있다. 얼굴 영상 데이터는 적어도 하나의 얼굴 포함하는 영상 데이터로, 정지 영상 및 동영상을 포함할 수 있다. 이하에서는, 얼굴 영상 데이터는 동영상인 경우를 예로 들어 설명하나 이에 한정되는 것은 아니다.
일 실시 예에 따른 얼굴 영상 데이터 및 음성 데이터는 시간 축으로 동기화된 데이터에 해당할 수 있다. 예를 들어, 획득된 얼굴 영상 데이터는 발화하는 사용자의 얼굴을 촬영한 동영상에 해당할 수 있고, 획득된 음성 데이터는 얼굴 영상 데이터에 시간 축으로 동기화된 발화하는 사용자의 음성 신호를 포함할 수 있다.
영상의 목적은 생성되는 영상의 주제 또는 스타일에 관한 것으로, 예를 들어 진심이 담긴 주장, 강한 의지, 객관적인 분석, 로맨틱한 대화, 언쟁, 즐거운 대화, 신나는 일, 무서운 대화, 고마운 마음, 슬픈 경험, 난처한 상황, 억울한 일을 포함할 수 있다.
일 실시 예에 따르면, 입력 데이터는 사용자로부터 입력을 위한 사용자 인터페이스를 통해 획득될 수 있다. 일 예로, 사용자는 사용자 단말에 설치된 어플리케이션에서 제공되는 사용자 인터페이스를 통해 동영상을 촬영하여 음성 데이터 및 얼굴 영상 데이터를 입력할 수 있다. 일 예로, 사용자는 사용자 단말에 설치된 어플리케이션에서 제공되는 사용자 인터페이스를 통해 영상의 목적으로 선택 가능한 미리 결정된 선택지들이 사용자에게 제공될 수 있으며, 미리 정해진 영상의 목적에 관한 선택지 중 사용자에 의해 선택된 적어도 하나가 획득된 영상의 목적으로 획득될 수 있다.
일 실시 예에 따른 단계(120) 내지 단계(140)는 획득된 입력 데이터에 기초하여 영상 생성을 위한 파라미터를 설정하는 단계를 포함할 수 있다. 영상 생성을 위한 파라미터는 영상에 포함되는 적어도 하나의 요소를 결정하기 위한 인자로, 예를 들어 캐릭터의 외형에 관한 파라미터, 캐릭터의 움직임에 관한 파라미터 및 샷에 관한 파라미터를 포함할 수 있으나 이에 제한되는 것은 아니다.
일 실시 예에 따르면, 단계(110)에서 획득된 입력 데이터는 캐릭터의 외형 결정에 관한 사용자의 선택 입력을 포함할 수 있다. 일 실시 예에 따르면, 단계(120)는 단계(110)에서 획득된 캐릭터의 외형 결정에 관한 사용자의 선택 입력에 기초하여, 캐릭터를 결정하는 단계를 포함할 수 있다. 캐릭터를 결정한다는 것은 캐릭터의 외형에 관한 파라미터의 값을 결정하는 것을 의미할 수 있다. 캐릭터의 외형에 관한 파라미터 값은 캐릭터의 외형을 결정 짓는 외형에 관한 요소들(예: 헤어스타일, 얼굴형, 체형, 피부색, 눈썹, 눈, 코, 입, 의상) 각각에 대한 파라미터 값을 포함할 수 있다. 캐릭터의 외형에 관한 파라미터 값에 기초하여 캐릭터의 외형이 시각적으로 결정될 수 있다.
일 실시 예에 따르면, 캐릭터의 외형 결정에 관한 사용자의 선택 입력에 의해 캐릭터의 다양한 외형에 관한 파라미터가 결정될 수 있다. 예를 들어, 사용자의 선택 입력에 의해 캐릭터의 유형(예: 외계인, 동물, 사람)에 관한 파라미터 값, 캐릭터의 스타일(예: 일본 망가 스타일, 미국 코믹 스타일)에 관한 파라미터 값 캐릭터의 의상에 관한 파라미터 값이 결정될 수 있다.
일 실시 예에 따르면, 캐릭터의 외형에 관한 요소들에 대응하여 미리 정해진 복수의 후보들이 사용자에게 제공될 수 있으며, 사용자는 각 요소에 대응하여 제공된 복수의 후보들 중 어느 하나를 선택하는 방식으로 캐릭터의 외형에 관한 요소들의 파라미터 값들을 결정할 수 있다. 예를 들어, 사용자는 인터페이스를 통해 제공되는 복수의 헤어스타일, 복수의 얼굴형, 복수의 눈 모양, 복수의 피부색, 복수의 의상 중 어느 하나를 선택함으로써 캐릭터의 외형에 관한 요소들의 파라미터 값들을 결정할 수 있다. 일 실시 예에 따르면, 복수의 후보들은 다른 사용자에 의해 생성된 캐릭터의 외형에 관한 요소들을 포함할 수 있다.
일 실시 예에 따르면, 단계(120)는 단계(110)에서 획득된 얼굴 영상 데이터로부터 추출된 얼굴 특징에 기초하여, 캐릭터를 결정하는 단계를 포함할 수 있다. 다시 말해, 얼굴 영상 데이터로부터 추출된 얼굴 특징에 기초하여 캐릭터가 결정될 수 있다. 일 실시 예에 따르면, 얼굴 특징은 얼굴 영상에서 인식되는 얼굴 요소들의 특징으로, 예를 들어 얼굴 윤곽, 눈, 코, 입, 눈썹의 특징점(들)의 위치에 기초하여 획득된 눈동자의 위치, 눈썹의 모양 및 고개의 방향을 포함할 수 있다. 다양한 얼굴 인식 알고리즘 또는 얼굴 특징 추출 알고리즘에 기초하여 얼굴 영상 데이터에서 얼굴 특징이 추출될 수 있다.
일 실시 예에 따르면, 얼굴 영상 데이터에서 추출된 얼굴 특징에 기초하여 캐릭터의 외형에 관한 파라미터의 값이 결정될 수 있다. 예를 들어, 추출된 눈썹 모양에 기초하여 캐릭터의 눈썹 요소에 관한 파라미터 값이 결정될 수 있고, 추출된 고개 방향에 기초하여 캐릭터의 고개 요소에 관한 파라미터 값이 결정될 수 있으며, 추출된 눈동자의 위치에 기초하여 캐릭터의 눈 요소에 관한 파라미터 값이 결정될 수 있다.
일 실시 예에 따르면, 얼굴 영상 데이터에서 추출되는 얼굴 특징 외에 다른 특징에 더 기초하여 캐릭터가 결정될 수 있다. 예를 들어, 얼굴 영상 데이터에서 추출되는 성별, 피부색, 얼굴형, 헤어스타일의 특징에 기초하여 캐릭터의 외형에 관한 파라미터 값이 결정될 수 있다.
일 실시 예에 따르면, 얼굴 영상 데이터에서 추출된 얼굴 특징 또는 다른 특징에 기초하여 결정된 파라미터 값도 사용자의 선택 입력에 의해 변경될 수 있다. 예를 들어, 사용자의 선택 입력에 의해 이미 결정된 캐릭터의 눈썹 모양, 성별, 피부색, 얼굴형, 헤어스타일이 변경될 수 있다.
일 실시 예에 따르면, 단계(130)는 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임 및 음성 데이터에 기초하여, 캐릭터의 움직임을 결정하는 단계를 포함할 수 있다. 일 실시 예에 따르면, 얼굴 특징의 움직임은 얼굴 영상 데이터의 복수의 프레임들에 대응하여 추출된 적어도 하나의 얼굴 특징의 시간의 흐름에 따른 위치 변화 및 모양 변화를 포함할 수 있다. 예를 들어, 눈동자의 위치 변화를 포함하는 눈동자의 움직임, 눈꺼풀의 깜빡이는 움직임을 포함하는 눈꺼풀의 움직임, 눈썹의 높이 변화 및 각도 변화를 포함하는 눈썹의 움직임, 고개의 방향 변화를 포함하는 고개의 움직임을 포함할 수 있다.
일 실시 예에 따르면, 단계(110)에서 획득된 얼굴 영상 데이터에서 추출된 얼굴 특징의 움직임 및 단계(110)에서 획득된 음성 데이터에 기초하여, 캐릭터의 움직임이 결정될 수 있다. 캐릭터의 움직임은 캐릭터 전체 또는 캐릭터의 일부의 위치 및/또는 모양이 시간의 흐름에 따라 변화하는 것으로, 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임에 대응하는 움직임을 포함할 수 있다. 예를 들어, 캐릭터의 움직임은 얼굴 특징의 움직임에 대응하는 캐릭터 자체, 캐릭터의 눈썹, 눈동자, 눈꺼풀, 팔, 다리, 또는 입의 위치 및/또는 모양의 시간의 흐름에 따른 움직임을 포함할 수 있다.
일 실시 예에 따른 단계(130)는 음성 데이터의 발음 정보에 기초하여, 단계(110)에서 획득된 음성 데이터에 대응하는 발음 정보에 기초하여, 캐릭터의 입 모양의 움직임을 결정하는 단계 및 단계(110)에서 획득된 얼굴 영상 데이터의 복수의 프레임들에 대응하여 추출된 얼굴 특징의 움직임에 기초하여, 캐릭터의 얼굴 요소의 움직임을 결정하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 발음 정보에 대응하는 입 모양은 미리 결정될 수 있다. 예를 들어, [a] 발음에 대응하는 제1 입 모양이 미리 결정될 수 있으며, 해당 발음을 소리 내기 위한 사람의 실제 입 모양을 참조하여 결정될 수 있다.
일 실시 예에 따르면, 단계(110)에서 획득된 음성 데이터를 음성 인식하여, 음성 데이터의 각 프레임에 대응하는 발음 정보가 획득될 수 있다. 발음 정보에 대응하여 미리 결정된 입 모양에 기초하여, 각 프레임의 발음 정보에 대응하는 입 모양이 결정될 수 있고, 각 프레임에 대응하여 결정된 입 모양을 프레임의 시간 순서로 연결함으로써, 입 모양의 움직임이 생성될 수 있다.
일 실시 예에 따르면, 캐릭터의 얼굴 요소의 움직임은 얼굴 영상 데이터의 복수의 프레임들에 대응하여 추출된 얼굴 특징의 움직임에 기초하여 결정될 수 있다. 예를 들어, 복수의 프레임들에 대응하여 추출된 눈동자의 위치의 변화에 기초하여 캐릭터의 눈동자의 움직임이 결정될 수 있고, 복수의 프레임들에 대응하여 추출된 고개 방향의 변화에 기초하여 캐릭터의 고개의 움직임이 결정될 수 있다. 여기서, 얼굴 요소는 입 모양을 제외한 캐릭터의 얼굴에 포함된 눈썹, 눈과 같은 얼굴 요소를 포함할 수 있다.
일 실시 예에 따른 단계(130)는 획득된 목적에 기초하여 캐릭터의 표정을 결정하는 단계, 획득된 얼굴 특징의 움직임 및 음성 데이터에 기초하여 캐릭터의 얼굴 요소의 움직임을 결정하는 단계 및 결정된 캐릭터의 표정 및 결정된 캐릭터의 얼굴 요소의 움직임을 결합하는 단계를 포함할 수 있다. 여기서, 얼굴 요소는 입 모양을 포함할 수 있다.
일 실시 예에 따르면, 단계(120)에서 결정된 캐릭터에 대응하여 복수의 표정들에 해당하는 복수의 캐릭터의 얼굴의 형상들이 미리 결정될 수 있다. 예를 들어, 도 2를 참조하면, 결정된 캐릭터에 대응하는 복수의 표정들에 해당하는 캐릭터의 얼굴의 형상들(201 내지 205)이 결정될 수 있다.
일 실시 예에 따르면, 특정 표정에 해당하는 캐릭터의 얼굴의 형상에 음성 데이터에 대응하는 발음 정보에 기초하여 결정된 입 모양의 움직임이 결합되어 특정 표정으로 발화하는 캐릭터의 움직임이 생성될 수 있다.
일 실시 예에 따르면, 결합된 표정에 따라 입 모양의 일부 파라미터가 보정될 수 있다. 예를 들어, 도 2를 참조하면, 웃는 표정(202)과 결합된 경우, 발음 정보에 따라 움직임이 결정된 입 모양의 파라미터는 입이 더 벌어진 형태로 보정되거나 입꼬리가 더 올라간 형태로 보정될 수 있다. 한편, 화난 표정(201)과 결합된 경우, 발음 정보에 따라 움직임이 결정된 입 모양의 파라미터는 입이 옆으로 더 벌어진 형태로 보정될 수 있다.
일 실시 예에 따르면, 특정 표정에 해당하는 캐릭터의 얼굴의 형상에 추출된 얼굴 특징의 움직임에 기초하여 결정된 눈동자의 움직임이 결합되어 획득된 얼굴 영상 데이터에 대응하는 캐릭터의 움직임이 생성될 수 있다.
일 실시 예에 따르면, 영상의 목적에 기초하여 결정된 캐릭터의 표정은 복수의 표정들을 포함할 수 있다. 다시 말해, 캐릭터의 표정은 복수의 표정들을 포함하는 표정 시퀀스를 포함할 수 있다. 예를 들어, 얼굴 영상 데이터 또는 음성 데이터의 제1 프레임 내지 제2 프레임까지는 제1 표정, 제3 프레임부터 제4 프레임까지는 제2 표정으로 캐릭터의 표정이 결정될 수 있다.
다시 도 1을 참조하면, 일 실시 예에 따른 단계(140)는 단계(110)에서 획득된 음성 데이터 및 영상의 목적에 기초하여, 캐릭터에 대응하는 샷을 결정하는 단계에 해당할 수 있다. 샷은 촬영의 기본 단위로 한 번에 촬영한 장면을 의미하는 것으로, 투영된 피사체의 크기에 기초한 샷의 크기에 관한 유형(예: 클로즈 업 샷, 바스트 샷, 풀 샷, 롱 샷), 샷에 투영된 피사체의 각도에 기초한 샷의 앵글에 관한 유형(예: 버드아이 뷰 샷, 하이앵글 샷, 아이레벨 샷, 로우앵글 샷)로 샷의 유형이 구분될 수 있다. 이 외에도 샷의 유형은 샷에 포함된 피사체의 수에 기초한 유형(예: 원 샷, 투샷, 쓰리 샷, 그룹 샷), 카메라의 조작에 기초한 유형(예: 패닝 샷, 틸트 샷, 줌 샷), 카메라의 이동에 기초한 유형(예: 달리 샷, 트래킹 샷, 아크 샷, 에어리얼 샷)과 같은 다양한 유형을 포함할 수 있다. 일 실시 예에 따르면, 피사체는 단계(120) 내지 단계(130)에 의해 움직임이 결정된 캐릭터에 해당할 수 있으며, 결정된 샷은 가상의 공간에서 가상의 카메라로 움직이는 캐릭터를 촬영한 장면에 해당할 수 있다.
일 실시 예에 따른 단계(140)는 획득된 음성 데이터 내 발화 구간에 기초하여, 샷의 길이를 결정하는 단계 및 획득된 목적에 기초하여, 샷의 유형을 결정하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 샷을 결정하는 단계(140)는 영상의 목적에 기초하여, 복수의 샷들의 시퀀스를 결정하는 단계, 음성 데이터의 크기 변화에 기초하여, 음성 데이터를 복수의 발화 구간들로 구분하는 단계, 및 복수의 발화 구간들에 기초하여, 복수의 샷들의 길이들을 결정하는 단계를 포함할 수 있다.
일 실시 예에 따른 단계(140)는 목적에 대응하는 적어도 하나의 샷을 포함하는 샷 시퀀스를 결정하는 단계를 포함할 수 있다. 샷 시퀀스는 하나의 샷 또는 순서가 정해진 복수의 샷들을 포함할 수 있다. 샷 시퀀스에 포함된 복수의 샷들은 샷의 유형이 구분되는 서로 다른 복수의 샷들을 포함할 수 있다. 일 예로, 샷 시퀀스에 포함된 복수의 샷들은 샷의 크기 및 샷의 앵글 중 적어도 하나가 서로 다른 복수의 샷들을 포함할 수 있다.
일 실시 예에 따르면, 목적에 대응하는 샷 시퀀스는 해당 목적을 위한 촬영 영상 촬영 시 활용되는 샷에 기초하여 결정될 수 있다. 예를 들어, 도 3을 참조하면, 영상의 목적이 '인터뷰'인 경우, '인터뷰'의 목적의 영상 촬영 시 활용되는 4개의 샷들을 포함하는 샷 시퀀스가 '인터뷰' 목적에 대응하여 결정될 수 있다. 샷 시퀀스에 포함된 복수의 샷들은 서로 다른 유형의 샷들을 포함할 수 있다. 샷 시퀀스에 포함된 복수의 샷들은 샷의 크기 및 샷의 앵글 중 적어도 하나가 서로 다른 제1 유형 내지 제4 유형의 샷들을 포함할 수 있다. 예를 들어, 샷(301)과 샷(302)은 피사체를 가슴까지 촬영하고 있는 바 샷의 크기는 동일하나, 샷(301)은 정면, 샷(302)은 사선 방향에서 피사체를 촬영하고 있는 바 샷의 앵글이 다르다. 또 예를 들어, 샷(301)과 샷(303)은 피사체를 정면에서 촬영하고 있는 바 샷의 앵글은 동일하나, 샷(303)은 피사체의 목까지, 샷(301)은 피사체의 가슴까지 촬영하고 있는 바 샷의 크기가 다르다.
일 실시 예에 따른 샷 시퀀스에 포함된 복수의 샷들의 길이들은 음성 데이터 내 발화 구간에 기초하여 결정될 수 있다. 발화 구간은 음성 데이터에서 발화가 지속되는 구간으로, 예를 들어 음성 데이터에서 발화 시작 지점으로 인식된 지점부터 해당 발화의 종료 지점으로 인식된 지점까지의 구간 또는 음성 데이터에서 발화의 시작 지점으로 인식된 지점부터 해당 발화의 다음 발화의 시작 지점으로 인식된 지점까지의 구간이 하나의 발화 구간에 해당할 수 있다.
일 실시 예에 따르면, 획득된 음성 데이터에 포함된 시간에 따른 소리의 크기 변화에 기초하여 음성 데이터에서 발화의 시작 지점 또는 발화의 종료 지점이 인식될 수 있다. 예를 들어, 도 4는 획득된 음성 데이터에 대응하는 시간의 흐름에 따른 소리의 크기 변화의 그래프를 도시한다. 도 4를 참조하면, 소리의 크기 변화에 기초하여 발화의 시작 지점 또는 종료 지점이 인식될 수 있으며, 음성 데이터는 인식된 발화의 시작 지점 또는 종료 지점을 경계로 하는 발화 구간들(411 내지 415)로 구분될 수 있다. 발화의 시작 지점 또는 종료 지점은 소리 신호의 크기가 급변하는 지점, 소리 신호의 크기가 임계 값 미만으로 감소하는 지점, 소리 신호의 크기가 임계 값 이상으로 증가하는 지점에 기초하여 결정될 수 있으나, 이에 한정되는 것은 아니다. 이 외에도 음성 데이터의 음성 인식 결과를 이용하여 문장이 시작되는 지점 또는 문장이 끝나는 지점이 발화의 시작 지점 또는 종료 지점으로 결정될 수 있다.
일 실시 예에 따르면, 특정 발화의 시작 지점은 이전 발화의 종료 지점과 동일할 수도 있고, 이전 발화의 종료 지점보다 이후로 인식될 수 있다. 예를 들어, 특정 발화의 시작 지점으로 인식된 지점과 이전 발화의 종료 지점으로 인식된 지점 사이의 시간 간격이 미리 정해진 임계 값 미만인 경우, 특정 발화의 시작 지점과 이전 발화의 종료 지점은 동일한 지점으로 결정될 수 있다. 예를 들어, 도 4를 참조하면, 구간(412)에 대응하는 발화의 종료 지점(403)과 구간(413)에 대응하는 발화의 시작 지점(403)은 동일한 지점으로 결정될 수 있다. 한편, 구간(413)에 대응하는 발화의 종료 지점(404)과 구간(415)에 대응하는 발화의 시작 지점(405)은 다른 지점으로 결정될 수 있으며, 이 경우 구간(414)은 발화의 음성 신호를 포함하지 않을 수 있으나, 구간(414)도 발화 구간에 포함될 수 있다.
일 실시 예에 따르면, 샷의 길이는 적어도 하나의 발화 구간을 포함하도록 결정될 수 있다. 예를 들어, 도 4를 참조하면, 2개의 샷을 포함하는 샷 시퀀스가 결정된 경우, 시간적으로 앞선 순서의 제1 샷은 음성 데이터의 시작 지점(401)부터 지점(402), 지점(403), 지점(404) 및 지점(405) 중 어느 하나까지의 길이로 결정될 수 있다. 다시 말해, 제1 샷은 음성 데이터의 시작 지점(401)부터 1개 내지 4개 중 어느 하나의 개수의 구간을 포함하는 길이로 결정될 수 있다. 샷 시퀀스에서 제1 샷의 다음 샷인 제2 샷은 제1 샷이 끝난 지점부터 음성 데이터의 종료 지점(406)까지 1 개 내지 4개 중 어느 하나의 개수의 구간을 포함하는 길이로 결정될 수 있다.
일 실시 예에 따르면, 복수의 샷들의 길이들을 결정하는 단계는 영상의 목적 및 복수의 발화 구간들에 기초하여, 샷이 전환되는 적어도 하나의 전환점을 결정하는 단계, 및 결정된 전환점에 기초하여, 복수의 샷들의 길이들을 결정하는 단계를 포함할 수 있다. 음성 데이터에 포함된 발화 구간의 경계는 샷의 전환이 발생하는 전환점으로 결정될 수 있다. 결정된 전환점의 개수는 샷 시퀀스에 포함된 샷들의 개수에 대응될 수 있다. 예를 들어, 샷 시퀀스에 포함된 시간 순서상 첫번째 샷은 음성 데이터의 시작 지점에서 시간 순서상 첫번째 전환점까지의 길이로 결정될 수 있고, 두번째 샷은 첫번째 전환점부터 두번째 전환점까지의 길이로 결정될 수 있다. 마지막 샷은 이전 샷이 종료된 지점부터 음성 데이터의 종료 지점까지의 길이로 결정될 수 있다.
일 실시 예에 따르면, 샷 시퀀스에 포함된 샷의 개수 및 음성 데이터에서 결정된 전환점의 개수는 획득된 영상의 목적에 기초하여 결정될 수 있다. 예를 들어, 영상의 목적이 박진감을 표현하기 위한 것인 경우 샷 전환이 많이 발생하도록 샷 시퀀스에 포함된 샷의 개수 및 음성 데이터 내 전환점의 개수가 결정될 수 있다.
일 실시 예에 따르면, 샷들 간의 길이는 임의로 결정될 수도 있고, 영상의 목적에 기초하여 결정될 수도 있다. 예를 들어, 영상의 목적에 따라 샷 시퀀스에 포함된 복수의 샷들의 길이가 비슷하게 결정되도록 음성 데이터 내 전환점이 결정될 수 있다. 상술한 바와 같이, 음성 데이터 내 전환점은 음성 데이터에 포함된 발화 구간 사이의 경계로 결정될 수 있다. 또 예를 들어, 영상의 목적에 따라 샷 시퀀스에 포함된 복수의 샷들 각각에 포함된 음성 구간의 개수가 동일하도록 음성 데이터 내 전환점이 결정될 수 있다. 또 예를 들어, 영상의 목적에 따라 샷 시퀀스에 포함된 복수의 샷들 사이의 길이의 비율이 결정될 수 있으며, 결정된 비율을 추종하도록 음성 데이터 내 전환점이 결정될 수 있다.
일 실시 예에 따르면, 획득된 영상의 목적에 기초하여 샷에 포함되는 캐릭터의 자세 및 자세의 움직임이 결정될 수 있다. 예를 들어, 인터뷰의 영상 목적에 대응하여 캐릭터의 자세는 앉아있는 자세로 결정될 수 있으며, 앉아있는 자세에서 발화에 따른 손 동작의 제스처를 포함하도록 자세의 움직임이 결정될 수 있다.
일 실시 예에 따르면, 획득된 영상의 목적에 기초하여 샷에 포함되는 배경 및 소품이 결정될 수 있다. 예를 들어, 인터뷰의 영상 목적에 대응하여 인터뷰 공간에 대응하는 배경이 결정될 수 있으며, 의자나 카메라가 소품으로 샷에 포함될 있다.
일 실시 예에 따르면, 영상의 목적에 대응하는 샷들은 규칙 기반 모델에 기초하여 결정될 수 있다. 예를 들어, 미리 정의된 규칙에 기초하여, 특정 목적에 대응하는 샷들의 집합 또는 특정 목적에 대응하는 샷들의 시퀀스가 결정될 수 있다. 미리 정의된 규칙에 기초하여 특정 목적에 대응하는 샷들의 집합이 결정된 경우, 미리 정의된 규칙에 기초하여 샷들 간의 순서가 결정될 수 있다. 샷들 간의 순서는 임의로 결정될 수도 있고, 샷들 간의 미리 정해진 우선 순위에 기초하여 결정될 수도 있다.
일 실시 예에 따르면, 영상의 목적에 대응하는 샷들은 통계 기반 모델에 기초하여 결정될 수 있다. 통계 기반 모델은 특정 목적의 영상에 등장하는 샷들의 빈도, 특정 목적의 영상에서 제1 샷 이후에 제2 샷이 나올 확률과 같이 통계적 확률에 기반하여 특정 목적의 영상에 대응하는 샷들의 집합 또는 샷들의 시퀀스를 출력하는 모델에 해당할 수 있다.
일 실시 예에 따르면, 영상의 목적에 대응하는 샷들은 학습 기반 모델에 기초하여 결정될 수 있다. 학습 기반 모델은 영상 데이터에서 영상의 목적과 영상 데이터에서 사용된 샷의 유형을 학습하여, 영상의 목적을 입력하는 경우 입력된 목적에 대응하는 샷들의 집합 또는 샷들의 시퀀스를 출력하는 모델에 해당할 수 있다. 학습 기반 모델은 딥 러닝 모델을 포함할 수 있으며, 딥 러닝 모델의 구조는 다양하게 구성될 수 있다. 학습 기반 모델의 구조에 따라 다양한 학습 방법에 기초하여 학습될 수 있다.
일 실시 예에 따르면, 제1 모델에 기초하여 특정 목적에 대응하는 샷들의 집합이 결정된 경우, 샷들 간의 순서는 임의로 결정될 수도 있고, 제2 모델에 기초하여 결정될 수도 있다. 다시 말해, 특정 목적에 대응하는 샷들의 집합을 결정하는 방법과 샷들의 순서를 결정하는 방법은 서로 다른 모델을 이용할 수 있다. 예를 들어, 특정 목적에 대응하는 샷들의 집합은 통계 기반의 제1 모델을 이용하여 결정되고, 샷들의 순서는 규칙 기반의 제2 모델을 이용하여 결정될 수 있다.
일 실시 예에 따르면, 샷 시퀀스에 포함된 샷들의 길이들은 규칙 기반 모델, 통계 기반 모델 및 학습 기반 모델 중 적어도 하나에 기초하여 결정될 수 있다. 샷 시퀀스에 포함된 샷들의 길이들은 샷 시퀀스를 결정하는 모델에서 음성 데이터에 기초하여 결정될 수도 있으며, 샷 시퀀스를 결정하는 모델과 독립적으로 구성된 모델에서 샷 시퀀스 및 음성 데이터에 기초하여 결정될 수도 있다.
일 실시 예에 따르면, 영상의 목적에 대응하는 샷에 포함된 요소들은 규칙 기반 모델, 통계 기반 모델 및 학습 기반 모델 중 적어도 하나에 기초하여 결정될 수 있다. 샷에 포함된 요소들은 샷에 포함된 캐릭터의 자세 또는 자세의 움직임, 샷에 포함된 배경 또는 소품을 포함할 수 있다.
일 실시 예에 따르면, 결정된 샷 및 샷에 포함된 요소들은 사용자 입력에 기초하여 변경될 수 있다. 예를 들어, 사용자 입력에 기초하여 결정된 샷 시퀀스의 순서가 변경될 수 있고, 샷 시퀀스에 포함된 샷의 유형이 변경될 수도 있고, 결정된 샷들의 길이들이 변경될 수도 있으며, 샷 시퀀스에 포함된 샷들이 추가 또는 삭제될 수도 있다. 또한, 사용자 입력에 기초하여 샷에 포함된 캐릭터의 외형, 표정, 자세가 변경될 수 있으며, 샷에 포함된 배경, 소품이 변경될 수 있다. 일 실시 예에 따른 사용자 입력에 기초하여 결정된 샷 및 샷에 포함된 요소들을 변경하는 동작은 이하의 도 5 내지 도 9를 통해 상술한다.
다시 도 1을 참조하면, 일 실시 예에 따른 단계(150)는 결정된 샷에 기초하여, 음성 데이터에 대응하는 영상을 생성하는 단계를 포함할 수 있다. 일 실시 예에 따르면, 결정된 샷에 기초하여, 움직임이 결정된 캐릭터를 포함하는 영상이 생성될 수 있다. 생성된 영상은 결정된 움직임에 따라 움직이는 캐릭터를 결정된 샷 시퀀스에 따른 샷의 유형으로 결정된 길이로 순서대로 촬영한 영상에 대응될 수 있다.
일 실시 예에 따르면, 생성된 영상은 입력된 음성 데이터와 함께 출력될 수 있으며, 음성 데이터와 시간 축으로 동기화된 영상에 해당할 수 있다. 예를 들어, 생성된 영상은 음성 데이터에 대응하는 발화를 하도록 움직임이 결정된 캐릭터를 포함할 수 있다.
일 실시 예에 따르면, 입력된 음성 데이터는 음성을 제외한 잡음을 제거하는 등의 전처리 작업이 수행될 수 있으며, 목소리를 변경하는 변조 작업이 수행될 수도 있다.
일 실시 예에 따른 영상 생성 방법은 복수의 캐릭터들을 포함하는 영상을 생성하는 동작을 포함할 수 있다. 이하에서는 설명의 편의를 위하여 복수는 2인 경우를 예로 들어 설명하겠으나, 2개의 캐릭터를 포함하는 영상을 생성하기 위한 동작은 2 이상의 캐릭터를 포함하는 영상을 생성하는 동작에 적용될 수 있다.
일 실시 예에 따른 복수의 캐릭터들은 제1 얼굴 영상 데이터로부터 획득된 제1 얼굴 특징의 움직임 및 제1 음성 데이터에 기초하여 움직임이 결정되는 제1 캐릭터 및 제2 얼굴 영상 데이터로부터 획득된 제2 얼굴 특징의 움직임 및 제2 음성 데이터에 기초하여 움직임이 결정된 제2 캐릭터를 포함할 수 있다. 여기서, 제1 얼굴 영상 데이터 및 제1 음성 데이터는 제1 사용자 단말로부터 획득된 입력 데이터에 해당할 수 있고, 제2 얼굴 영상 데이터 및 제2 음성 데이터는 제2 사용자 단말로부터 획득된 입력 데이터에 해당할 수 있다.
일 실시 예에 따르면, 제1 캐릭터의 외형은 제1 사용자 단말에서 획득된 캐릭터의 외형 결정에 관한 선택 입력에 기초하여 결정될 수 있고, 제2 캐릭터의 외형은 제2 사용자 단말에서 획득된 캐릭터의 외형 결정에 관한 선택 입력에 기초하여 결정될 수 있다.
예를 들어, 영상 생성 시스템에 수신되는 입력 데이터는 제1 사용자 단말 및 제2 사용자 단말의 실시간 영상 통화 데이터를 포함할 수 있다. 이 경우, 제1 사용자 단말을 통해 제1 사용자 단말에서 촬영된 제1 얼굴 영상 데이터 및 제1 사용자 단말을 통해 수신되는 사용자의 음성인 제1 음성 데이터가 수신될 수 있으며, 제2 사용자 단말을 통해 제2 사용자 단말에서 촬영된 제2 얼굴 영상 데이터 및 제2 사용자 단말을 통해 수신되는 사용자의 음성인 제2 음성 데이터가 수신될 수 있다.
일 실시 예에 따르면, 영상 생성 시스템에 수신되는 입력 데이터는 제1 사용자 단말로부터 수신된 제1 입력 데이터 및 제1 입력 데이터와 관련하여 제2 사용자 단말로부터 수신된 제2 입력 데이터를 포함할 수 있다. 예를 들어, 제1 사용자 단말로부터 수신된 제1 입력 데이터에 기초하여 제1 캐릭터를 포함하는 제1 영상이 생성된 경우, 제2 사용자로 단말로부터 제1 영상에 대응하는 제2 입력 데이터가 수신될 수 있으며, 제2 입력 데이터에 기초하여 제1 영상에 이어지는 제2 영상이 생성될 수 있다. 제2 영상은 제2 입력 데이터 및 제1 영상에 포함된 제1 캐릭터의 움직임 및 제1 영상에 포함된 다른 요소에 기초하여 결정될 수 있다. 예를 들어, 제1 영상에서 벤치에 앉아 말을 하는 제1 캐릭터를 포함하는 경우, 제2 영상은 제1 캐릭터의 옆에 앉아 말을 하는 제2 캐릭터를 포함하도록 생성될 수 있다.
일 실시 예에 따르면, 캐릭터의 움직임을 결정하는 단계(130)는 영상의 목적, 제1 음성 데이터 및 제2 음성 데이터 중 적어도 하나에 기초하여, 제1 캐릭터 및 제2 캐릭터의 인터랙션을 결정하는 단계 및 결정된 인터랙션에 기초하여, 제1 캐릭터의 움직임 및 제2 캐릭터의 움직임을 결정하는 단계를 더 포함할 수 있다. 인터랙션은 대화하기, 악수하기, 포옹하기와 같이 복수의 캐릭터들의 상호 작용 또는 상호 접촉을 포함하는 행동을 의미할 수 있다.
일 실시 예에 따르면, 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션은 획득된 영상의 목적에 기초하여 결정될 수 있다. 일 예로, 영상의 목적 각각에 대응하여 복수의 인터랙션 후보들이 미리 결정될 수 있다. 예를 들어, '로맨틱한 대화'의 목적의 경우, 손잡기, 포옹하기와 같은 인터랙션이 인터랙션 후보들로 결정될 수 있고, '토론하기'의 목적의 경우 악수하기와 같은 인터랙션이 인터랙션 후보들로 결정될 수 있다.
일 실시 예에 따르면, 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션은 획득된 음성 데이터에 기초하여 결정될 수 있다. 특정 단어에 대응하는 인터랙션이 미리 결정되고, 음성 데이터에서 해당 단어가 인식되는 경우 이에 대응되는 인터랙션이 결정될 수 있다. 예를 들어, 획득된 제1 음성 데이터 또는 제2 음성 데이터에서 '사랑해'의 단어가 인식된 경우, 포옹하기의 인터랙션이 결정될 수 있다.
일 실시 예에 따르면, 획득된 영상의 목적에 따라 인식된 단어에 대응하는 인터랙션이 다르게 결정될 수 있다. 예를 들어, 제1 목적에서는 제1 단어가 인식되는 경우 제1 인터랙션이 결정될 수 있으나, 제2 목적에서는 동일한 제1 단어가 인식되는 경우 제1 인터랙션과 다른 제2 인터랙션이 결정될 수 있다. 일 실시 예에 따르면, 음성 데이터에서 인식된 단어에 기초하여 영상의 목적에 대응하여 미리 결정된 복수의 인터랙션 후보들 중 어느 하나가 선택될 수 있다.
일 실시 예에 따르면, 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션은 사용자의 입력에 기초하여 결정될 수 있다. 사용자는 인터페이스를 통해 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션을 결정하기 위한 요청을 입력할 수 있다. 예를 들어 미리 결정된 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션 후보들 중 어느 하나를 선택함으로써, 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션을 결정하기 위한 요청을 입력할 수 있다. 제1 캐릭터 및 제2 캐릭터 사이의 인터랙션 후보들은 상술한 바와 같이 영상의 목적에 기초하여 미리 결정될 수 있다.
일 실시 예에 따르면, 샷을 결정하는 단계(140)는 제1 음성 데이터, 제2 음성 데이터 및 영상의 목적에 기초하여, 제1 캐릭터 및 제2 캐릭터에 대응하는 샷을 결정하는 단계를 포함할 수 있다. 제1 캐릭터 및 제2 캐릭터에 대응하는 샷을 결정하는 단계는 제1 캐릭터 및 제2 캐릭터에 대응하는 샷은 제1 캐릭터 및 제2 캐릭터 중 적어도 하나를 포함하는 샷을 포함할 수 있다. 다시 말해, 제1 캐릭터 및 제2 캐릭터에 대응하는 샷은 제1 캐릭터만 등장하거나, 제2 캐릭터만 등장하거나, 또는 제1 캐릭터 및 제2 캐릭터가 모두 등장하도록 설정될 수 있다. 예를 들어, '토론하기'의 목적의 경우, 제1 캐릭터가 발화하는 시점에는 제1 캐릭터를 정면에서 촬영하는 샷이 결정될 수 있고, 제2 캐릭터가 발화하는 시점에는 제1 캐릭터를 정면에서 촬영하는 샷이 결정될 수 있다. 또 예를 들어, '로맨틱한 대화하기'의 목적의 경우, 제1 캐릭터 및 제2 캐릭터가 포함되도록 촬영하는 샷이 결정될 수 있다.
일 실시 예에 따르면, 샷을 결정하는 단계(140)는 영상의 목적에 기초하여, 샷에 포함된 제1 캐릭터 및 제2 캐릭터의 배치를 결정하는 단계를 포함할 수 있다. 제1 캐릭터 및 제2 캐릭터의 배치는 샷에 표시되는 제1 캐릭터 및 제2 캐릭터 사이의 위치 관계 및 제1 캐릭터 및 제2 캐릭터의 구도를 포함할 수 있다. 예를 들어, 영상의 목적에 기초하여, 제1 캐릭터 및 제2 캐릭터는 마주보고 앉아 있도록 배치가 결정될 수 있고, 나란히 서 있도록 배치가 결정될 수 있으며, 제1 캐릭터는 서 있고, 제2 캐릭터는 제1 캐릭터를 바라보며 앉아있도록 배치가 결정될 수 있고, 제1 캐릭터가 제2 캐릭터의 뒤에서 접근하는 배치가 결정될 수도 있다.
일 실시 예에 따르면, 영상의 목적에 기초하여 제1 캐릭터 및 제2 캐릭터의 관계가 결정될 수 있으며, 결정된 관계에 기초하여 제1 캐릭터 및 제2 캐릭터의 배치가 결정될 수 있다. 예를 들어, 제1 캐릭터 및 제2 캐릭터의 관계가 친구 또는 연인으로 결정된 경우, 제1 캐릭터 및 제2 캐릭터는 나란히 배치될 수 있다.
일 실시 예에 따르면, 영상의 목적에 기초하여 커뮤니케이션의 종류 또는 상황의 종류가 결정될 수 있으며, 결정된 커뮤니케이션의 종류에 기초하여 제1 캐릭터 및 제2 캐릭터의 배치가 결정될 수 있다. 예를 들어, 물건을 사고 파는 커뮤니케이션, 정보를 공유하는 커뮤니케이션, 또는 언쟁 또는 싸움의 상황으로 커뮤니케이션의 종류 또는 상황의 종류가 결정된 경우, 제1 캐릭터 및 제2 캐릭터는 마주보도록 배치될 수 있고, 영상을 보는 사람에게 동의를 구하거나 판정을 구하는 상황으로 상황의 종류가 결정된 경우, 동일한 방향을 바라보도록 제1 캐릭터 및 제2 캐릭터의 배치가 결정될 수 있다.
일 실시 예에 따르면, 영상의 목적에 기초하여 제1 캐릭터 및 제2 캐릭터 사이의 감정이 결정될 수 있으며, 결정된 감정의 종류에 기초하여 제1 캐릭터 및 제2 캐릭터의 배치가 결정될 수 있다. 예를 들어, 사랑 또는 고마움으로 감정의 종류가 결정된 경우, 제1 캐릭터 및 제2 캐릭터는 마주보도록 배치될 수 있고, 놀람 또는 공포로 감정의 종류가 결정된 경우, 제1 캐릭터가 제2 캐릭터의 뒤에서 접근하도록 배치가 결정될 수 있다.
일 실시 예에 따르면, 제1 캐릭터 및 제2 캐릭터 사이의 배치는 획득된 영상의 목적에 기초하여 결정될 수 있다. 일 예로, 영상의 목적 각각에 대응하여 복수의 배치 후보들이 미리 결정될 수 있다. 예를 들어, '로맨틱한 대화'의 목적의 경우, 벤치에 나란히 앉아 있는 배치, 마주보며 앉아 있는 배치, 손잡고 서 있는 배치와 같은 배치 후보들이 결정될 수 있다.
일 실시 예에 따르면, 제1 캐릭터 및 제2 캐릭터의 배치는 사용자의 입력에 기초하여 결정될 수 있다. 사용자는 인터페이스를 통해 제1 캐릭터 및 제2 캐릭터 사이의 배치를 결정하기 위한 요청을 입력할 수 있다. 예를 들어, 미리 결정된 제1 캐릭터 및 제2 캐릭터 사이의 배치 후보들 중 어느 하나를 선택함으로써, 제1 캐릭터 및 제2 캐릭터 사이의 배치를 결정하기 위한 요청을 입력할 수 있다. 제1 캐릭터 및 제2 캐릭터 사이의 배치 후보들은 상술한 바와 같이 영상의 목적에 기초하여 미리 결정될 수 있다.
일 실시 예에 따르면, 단계(120) 내지 단계(140)의 동작들은 병렬적으로 수행될 수도 있고, 순차적으로 수행될 수도 있다. 일 예로, 캐릭터를 결정하는 동작(120)과 캐릭터의 움직임을 결정하는 동작(130)은 병렬적으로 수행될 수 있고, 결정된 캐릭터에 결정된 캐릭터의 움직임이 합성되어 움직이는 캐릭터가 영상에 포함될 수 있다. 또 일 예로, 캐릭터에 대응하는 샷을 결정하는 동작(140)은 캐릭터를 결정하는 동작(120) 및 캐릭터의 움직임을 결정하는 동작(130)과 병렬적으로 수행될 수 있으며, 샷을 결정하는 동작(140)에 의해 임의의 캐릭터를 특정 각도 및 특정 크기로 촬영하는 샷들의 시퀀스가 결정되고, 동작(120) 및 동작(130)에 의해 결정된 움직이는 캐릭터를 동작(140)에 의해 결정된 샷들의 시퀀스로 촬영함으로써 영상이 생성될 수 있다.
도 5내지 도 9는 일 실시 예에 따른 결정된 샷의 편집을 위한 인터페이스의 예시를 도시한다.
도 5를 참조하면, 결정된 샷 시퀀스는 복수의 샷들을 포함할 수 있으며, 복수의 샷들은 샷의 유형이 서로 구분되는 샷들을 포함할 수 있다. 예를 들어, 제1 샷(501)은 캐릭터를 정면의 각도에서 가슴 위치까지 촬영한 제1유형의 샷에 해당하며, 제2 샷(502)은 캐릭터를 정면의 각도에서 무릎 위치까지 촬영한 제2 유형의 샷에 해당할 수 있다. 일 실시 예에 따르면, 결정된 샷 시퀀스는 유형이 동일한 샷을 복수 개 포함할 수 있다. 예를 들어, 결정된 샷 시퀀스에 포함된 제1 샷(501)과 제3 샷(503)은 동일한 유형의 샷에 해당할 수 있다.
일 실시 예에 따르면, 결정된 샷 시퀀스는 음성 데이터 내 발화 구간에 기초하여 샷의 길이가 결정될 수 있다. 상술한 바와 같이 샷들의 전환이 일어나는 지점(511 내지 514)은 발화의 시작 지점 또는 종료 지점으로 인식된 지점으로 발화 구간의 경계에 해당할 수 있다.
일 실시 예에 따르면, 인터페이스는 영상의 목적에 대응하여 결정된 복수의 샷들의 시퀀스를 변경하기 위한 인터페이싱 객체(530)를 제공할 수 있으며, 사용자는 인터페이싱 객체(530)에 기초하여, 결정된 샷들의 시퀀스를 변경할 수 있다. 일 실시 예에 따른 인터페이싱 객체(530)는 사용자의 입력에 반응하여 샷 시퀀스를 변경하는 명령을 전달하도록 구성된 인터페이싱 객체에 해당할 수 있다. 예를 들어, 인터페이싱 객체(530)를 클릭하는 샷 변경 입력에 반응하여, 샷 시퀀스에 포함된 샷들의 순서가 변경될 수 있고, 샷 시퀀스에 포함된 샷들의 유형이 변경될 수 있고, 샷 시퀀스에 포함된 샷들의 개수가 변경될 수 있으며, 샷들의 길이가 변경될 수 있다.
예를 들어, 도 5에 도시된 인터페이스에 포함된 인터페이싱 객체(530)를 선택하는 샷 변경 입력에 따라, 도 5에 도시된 샷 시퀀스(510)가 도 6에 도시된 샷 시퀀스(610)로 변경될 수 있다. 도 6을 참조하면, 샷 변경 입력에 따라 샷 시퀀스(610)에 포함된 샷들의 개수가 변경될 수 있으며, 샷 시퀀스(610)에 포함된 샷들의 유형이 변경될 수 있다.
다시 도 5를 참조하면, 일 실시 예에 따른 인터페이싱 객체(530)에 의한 샷 시퀀스의 변경은 랜덤으로 수행될 수도 있다. 예를 들어, 영상의 목적에 대응하여 결정된 샷들의 집합에서 일부가 랜덤으로 선택되어 랜덤으로 순서가 결정될 수 있다. 또 예를 들어, 샷 시퀀스를 결정하는 모델에서 복수의 샷 시퀀스들의 후보가 출력될 수 있고, 출력된 샷 시퀀스들의 후보에서 랜덤으로 결정될 수 있다. 또 예를 들어, 결정된 샷 시퀀스에서 샷들의 순서가 랜덤으로 변경될 수 있다.
일 실시 예에 따르면, 인터페이싱 객체(530)에 의한 샷 시퀀스의 변경은 미리 정의된 규칙에 따라 수행될 수도 있다. 예를 들어, 영상의 목적에 대응하여 결정된 샷들의 집합에서 일부가 미리 정해진 순서에 따라 선택되어 샷 시퀀스가 결정될 수 있다. 또 예를 들어, 샷 시퀀스를 결정하는 모델에서 복수의 샷 시퀀스들의 후보가 출력될 수 있고, 출력된 샷 시퀀스들의 후보에서 미리 정해진 순서에 따라 결정될 수 있다.
일 실시 예에 따르면, 인터페이스는 영상의 목적에 대응하여 결정된 복수의 샷들의 집합(520)을 제공할 수 있으며, 사용자는 제공된 샷들의 집합(520)에 기초하여 결정된 샷 시퀀스의 구성을 변경할 수 있다. 예를 들어, 사용자는 인터페이스를 통해 샷들의 집합(520)에서 샷(521)을 선택하여, 샷 시퀀스에 포함된 샷(505)을 변경하는 요청을 입력할 수 있으며, 사용자의 변경 입력에 반응하여 샷 시퀀스(510)는 도 7에 도시된 샷 시퀀스(710)로 변경될 수 있다.
또 예를 들어, 사용자는 인터페이스를 통해 샷들의 집합(520)에서 적어도 하나의 샷을 선택하여 샷 시퀀스의 특정 위치에 추가하는 요청을 입력할 수 있으며, 사용자의 추가 입력에 반응하여 샷 시퀀스(510)는 도 8에 도시된 샷 시퀀스(810)로 변경될 수 있다.
일 실시 예에 따르면, 사용자는 인터페이스를 통해 결정된 샷 시퀀스에 포함된 적어도 일부의 샷의 크기 또는 앵글을 변경하는 요청을 입력할 수 있다. 예를 들어, 사용자는 샷 시퀀스에 포함된 적어도 하나의 샷을 선택하여 샷에 포함된 캐릭터의 크기를 제어하거나, 샷에 포함된 캐릭터의 각도를 제어함으로써, 샷의 크기 또는 앵글을 변경하는 요청을 입력할 수 있다. 다시 말해, 영상의 목적에 대응하여 자동으로 결정된 샷 유형 외에 사용자의 입력에 기초하여 결정된 특정 유형의 샷이 샷 시퀀스에 포함될 수 있다.
일 실시 예에 따르면, 사용자는 인터페이스를 통해 결정된 샷 시퀀스에 포함된 적어도 일부의 샷을 삭제하는 요청을 입력할 수 있다. 예를 들어, 사용자는 샷 시퀀스에 포함된 샷을 선택하여 샷 시퀀스에서 삭제할 것을 요청할 수 있으며, 사용자에 의해 선택된 샷은 샷 시퀀스에서 삭제될 수 있다. 샷 시퀀스에 포함된 일부 샷이 삭제됨에 따라, 삭제된 샷의 앞 또는 뒤에 위치한 샷의 길이가 조절될 수 있다.
일 실시 예에 따르면, 인터페이스는 영상의 목적에 대응하여 결정된 복수의 샷들의 길이를 조절할 수 있는 기능을 제공할 수 있다. 사용자는 인터페이스를 통해 샷의 경계의 위치를 변경함으로써, 결정된 샷 시퀀스의 길이를 변경하는 요청을 입력할 수 있다. 샷 경계의 위치는 발화 구간의 경계로 변경될 수 있으며, 사용자가 입력한 샷 경계의 위치가 발화 구간의 경계에 해당하지 않는 경우, 마그네틱 효과에 의해 가까운 발화 구간의 경계로 샷 경계의 위치가 변경될 수 있다. 예를 들어, 사용자는 인터페이스를 통해 샷(502)과 샷(503)의 경계의 위치(512)를 위치(515)로 변경하는 요청을 입력할 수 있으며, 사용자의 변경 입력에 반응하여 샷 시퀀스(510)는 도 9에 도시된 샷 시퀀스(910)로 변경될 수 있다.
일 실시 예에 따르면, 영상의 목적에 기초하여 결정된 캐릭터의 표정 또는 영상에 대응하는 캐릭터의 복수의 표정들의 시퀀스는 사용자의 선택 입력에 의해 변경될 수 있다. 예를 들어, 사용자는 캐릭터에 대응하여 인터페이스를 통해 제공되는 복수의 표정들에 대한 선택 입력에 의해 각 프레임에 대응하여 결정된 표정을 다른 표정으로 변경할 수 있으며, 표정 시퀀스에 다른 표정을 추가하여 각 프레임에 대응하는 표정을 결정할 수 있다.
일 실시 예에 따르면, 사용자의 입력에 의해 특정 샷에 대응하는 시각적 요소들 및 청각적 요소들이 결정될 수 있다. 예를 들어, 전체 샷 또는 일부 샷에 대응하는 캐릭터의 자세, 소품, 배경, 텍스트와 같은 시각적 요소들이 사용자의 입력에 의해 설정되거나 변경될 수 있다. 또 예를 들어, 특정 샷에 대응하는 효과음, 전체 샷 또는 일부 샷에 대응하는 배경 음악과 같은 청각적 요소들이 사용자 입력에 의해 설정되거나 변경될 수 있다.
일 실시 예에 따르면, 사용자의 입력에 의해 설정 또는 변경되는 요소들은 인터페이스를 통해 제공되는 복수의 후보들 중 일부를 선택하는 입력에 의해 결정될 수 있다. 예를 들어, 인터페이스를 통해 캐릭터의 다양한 자세에 관한 복수의 후보들이 제공될 수 있으며, 사용자는 캐릭터의 자세에 관한 복수의 후보들 중 어느 하나를 선택함으로써, 샷에 의해 결정되는 장면의 캐릭터의 자세 또는 자세의 시퀀스를 결정할 수 있다. 또 예를 들어, 인터페이스를 통해 효과음에 관한 복수의 후보들이 제공될 수 있으며, 사용자는 특정 시점에 영상에 포함될 효과음을 복수의 후보들 중 선택함으로써, 효과음을 결정할 수 있다.
도 10은 일실시예에 따른 영상 생성 시스템의 구성을 설명하기 위한 블록도이다.
도 10을 참조하면, 일 실시 예에 따른 영상 생성 시스템은 장치로 구현될 수 있으며, 영상 생성 시스템이 구현된 장치는 단말(1010) 및 서버(1020)를 포함할 수 있다. 다시 말해, 일실시예에 따른 단말(1010) 및 서버(1020)는 상술한 영상 생성 방법을 수행하는 영상 생성 장치에 해당할 수 있다. 도 10에 도시된 시스템의 구성은 발명의 설명을 위한 일 예로 시스템에 포함되는 단말의 수나 서버의 수가 도 10과 같이 한정되는 것은 아니다.
일 실시 예에 따른 단말(1010)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 예를 들면, 단말(1010)은 스마트폰(smart phone), 휴대폰, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC를 포함할 수 있다. 일 예로 사용자 단말은 무선 또는 유선 통신 방식을 이용하여 네트워크(1030)를 통해 서버(1020) 및/또는 다른 전자 기기들과 통신할 수 있다.
일 실시 예에 따른 서버(1020)는 단말(1010)과 네트워크(1030)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 통신 방식은 제한되지 않으며, 네트워크(1030)가 포함할 수 있는 통신망(예: 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식, 기기들 간의 근거리 무선 통신 방식을 포함할 수 있다. 예를 들어, 네트워크(1030)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다.
일 실시 예에 따르면, 서버(1020)는 네트워크(1030)를 통해 접속한 단말(1010)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우 단말(1010)은 서버(1020)로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다. 또한, 단말(1010)이 포함하는 운영체제(Operating System, OS) 및 적어도 하나의 프로그램(예: 브라우저 또는 설치된 어플리케이션)의 제어에 따라 서버(1020)에 접속하여 서버(1020)가 제공하는 서비스나 컨텐츠를 제공받을 수 있다. 예를 들어, 단말(1010)이 어플리케이션의 제어에 따라 네트워크(1030)를 통해 서비스 요청 메시지를 서버(1020)로 전송하면, 서버(1020)는 서비스 요청 메시지에 대응하는 코드를 단말(1010)로 전송할 수 있고, 단말(1010)은 어플리케이션의 제어에 따라 코드에 따른 화면을 구성하여 표시함으로써 사용자에게 컨텐츠를 제공할 수 있다.
일 실시 예에 따르면, 단말(1010)과 서버(1020)는 메모리(1011, 1021), 프로세서(1013, 1023), 통신 모듈(1015, 1025) 및 입출력 인터페이스(1017, 1027)를 포함할 수 있다.
프로세서(1013, 1023)는 도 1 내지 도 9를 통하여 전술한 적어도 하나의 동작을 수행할 수 있다. 예를 들어, 프로세서(1013) 또는 프로세서(1023)에서 도 1 내지 도 9를 통하여 전술한 동작들을 수행할 수도 있고, 프로세서(1013)에서 도 1 내지 도 9를 통하여 전술한 일부 동작을 수행하고, 프로세서(1023)에서 다른 일부 동작을 수행할 수도 있다. 프로세서(1013, 1023)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1011, 1021) 또는 통신 모듈(1015, 1025)에 의해 프로세서(1013, 1023)로 제공될 수 있다.
메모리(1011, 1021)는 도 1 내지 도 9를 통하여 전술한 영상 생성 방법과 관련된 정보를 저장하거나 전술한 영상 생성 방법이 구현된 프로그램을 저장할 수 있다. 메모리(1011, 1021)는 컴퓨터에서 판독 가능한 기록 매체로서, 휘발성 메모리 또는 비휘발성 메모리일 수 있다. 일 예로, 전술한 영상 생성 방법이 구현된 프로그램은 서버(1020)에서 네트워크(1030)를 통해 제공하는 파일들에 의해 단말(1010)에 설치되어 구동되는 브라우저나 어플리케이션을 위한 코드를 포함할 수 있다.
일 실시 예에 따른 통신 모듈(1015, 1025)은 네트워크(1030)를 통해 단말(1010)과 서버(1020)가 서로 통신하기 위한 기능을 제공할 수 있으며, 다른 전자 기기 또는 다른 서버와 통신하기 위한 기능을 제공할 수 있다. 일 예로, 단말(1010)의 프로세서(1013)가 메모리(1011)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이 통신 모듈(1015)의 제어에 따라 네트워크(1030)를 통해 서버(1020)로 전달될 수 있다. 일 예로, 서버(1020)의 프로세서(1023)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 통신 모듈(1025)과 네트워크(1030)를 거쳐 단말(1010)의 통신 모듈(1015)을 통해 단말(1010)로 수신될 수 있다. 예를 들어 통신 모듈(1015)을 통해 수신된 서버(1020)의 제어 신호나 명령 등은 프로세서(1013)나 메모리(1011)로 전달될 수 있고, 컨텐츠나 파일 등은 단말(1010)이 더 포함할 수 있는 저장 매체로 저장될 수 있다.
입출력 인터페이스(1017, 1027)는 입출력 장치(1019)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다. 다른 예로, 입출력 인터페이스(1017)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 단말(1010)의 프로세서(1013)는 메모리(1011)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 서버(1020)가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(1017)를 통해 디스플레이에 표시될 수 있다. 사용자로부터 수신된 입출력 장치(1019)를 통한 입력은 입출력 인터페이스(1017)를 통해 단말(1010)의 프로세서(1013)에서 처리 가능한 형태로 제공될 수 있다.
일 실시 예에 따르면, 단말(1010) 및 서버(1020)는 도 10에 도시되지 않은 다른 구성 요소들을 포함할 수 있다. 예를 들어, 단말(1010)은 상술한 입출력 장치(1019) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성 요소들을 더 포함할 수도 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 획득하는 단계;
    상기 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여, 캐릭터의 움직임을 결정하는 단계;
    상기 음성 데이터 및 상기 목적에 기초하여, 상기 캐릭터에 대응하는 샷을 결정하는 단계; 및
    상기 결정된 샷에 기초하여, 상기 음성 데이터에 대응하는 영상을 생성하는 단계
    를 포함하는,
    영상 생성 방법.
  2. 제1항에 있어서,
    상기 샷을 결정하는 단계는
    상기 음성 데이터 내 발화 구간에 기초하여, 상기 샷의 길이를 결정하는 단계; 및
    상기 목적에 기초하여, 상기 샷의 유형을 결정하는 단계
    를 포함하는,
    영상 생성 방법.
  3. 제2항에 있어서,
    상기 샷의 유형은
    상기 샷에 투영된 캐릭터의 크기에 기초한 샷의 크기 및 상기 샷에 투영된 캐릭터의 각도에 기초한 샷의 앵글에 의해 구분되는,
    영상 생성 방법.
  4. 제1항에 있어서,
    상기 샷을 결정하는 단계는
    상기 목적에 기초하여, 복수의 샷들- 상기 복수의 샷들은 샷의 유형이 서로 다른 복수의 샷들을 포함함 -의 시퀀스를 결정하는 단계;
    상기 음성 데이터의 크기 변화에 기초하여, 상기 음성 데이터를 복수의 발화 구간들로 구분하는 단계; 및
    상기 복수의 발화 구간들에 기초하여, 상기 복수의 샷들의 길이들을 결정하는 단계
    를 포함하는,
    영상 생성 방법.
  5. 제4항에 있어서,
    상기 복수의 샷들의 길이들을 결정하는 단계는
    상기 목적 및 상기 복수의 발화 구간들에 기초하여, 샷이 전환되는 적어도 하나의 전환점을 결정하는 단계; 및
    상기 전환점에 기초하여, 상기 복수의 샷들의 길이들을 결정하는 단계
    를 포함하는,
    영상 생성 방법.
  6. 제4항에 있어서,
    상기 샷을 결정하는 단계는
    사용자의 입력에 기초하여, 상기 시퀀스 내 샷들의 순서를 변경하는 단계;
    사용자의 입력에 기초하여, 상기 시퀀스에 적어도 하나의 샷을 추가하는 단계;
    사용자의 입력에 기초하여, 상기 시퀀스 내 적어도 하나의 샷을 삭제하는 단계;
    사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 유형을 변경하는 단계; 및
    사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 길이를 변경하는 단계
    중 적어도 하나를 더 포함하는,
    영상 생성 방법.
  7. 제1항에 있어서,
    상기 캐릭터의 움직임을 결정하는 단계는
    상기 음성 데이터에 대응하는 발음 정보에 기초하여, 상기 캐릭터의 입 모양의 움직임을 결정하는 단계; 및
    상기 얼굴 영상 데이터의 복수의 프레임들에 대응하여 추출된 상기 얼굴 특징의 움직임에 기초하여, 상기 캐릭터의 얼굴 요소의 움직임을 결정하는 단계
    를 포함하는,
    영상 생성 방법.
  8. 제1항에 있어서,
    상기 캐릭터의 움직임을 결정하는 단계는
    상기 목적에 기초하여 상기 캐릭터의 표정을 결정하는 단계;
    상기 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여 상기 캐릭터의 얼굴 요소의 움직임을 결정하는 단계; 및
    상기 결정된 캐릭터의 표정 및 상기 캐릭터의 얼굴 요소의 움직임을 결합하는 단계
    를 포함하는,
    영상 생성 방법.
  9. 제8항에 있어서,
    상기 캐릭터의 표정을 결정하는 단계는
    사용자의 입력에 기초하여, 상기 캐릭터의 얼굴 표정을 변경하는 단계
    를 더 포함하는,
    영상 생성 방법.
  10. 제1항에 있어서,
    상기 입력 데이터를 획득하는 단계는
    상기 얼굴 영상 데이터에서 눈동자의 움직임, 눈꺼풀의 움직임, 눈썹의 움직임 및 고개의 움직임 중 적어도 하나를 포함하는 상기 얼굴 특징의 움직임을 추출하는 단계
    를 더 포함하는,
    영상 생성 방법.
  11. 제1항에 있어서,
    상기 캐릭터는
    상기 얼굴 영상 데이터 내 제1 얼굴 영상 데이터로부터 획득된 제1 얼굴 특징의 움직임 및 상기 음성 데이터 내 제1 음성 데이터에 기초하여 움직임이 결정되는 제1 캐릭터; 및
    상기 얼굴 영상 데이터 내 제2 얼굴 영상 데이터로부터 획득된 제2 얼굴 특징의 움직임 및 상기 음성 데이터 내 제2 음성 데이터에 기초하여 움직임이 결정된 제2 캐릭터
    를 포함하고,
    상기 샷을 결정하는 단계는
    상기 음성 데이터 내 제1 음성 데이터, 상기 음성 데이터 내 제2 음성 데이터 및 상기 목적에 기초하여, 상기 제1 캐릭터 및 상기 제2 캐릭터에 대응하는 샷을 결정하는 단계
    를 포함하는,
    영상 생성 방법.
  12. 제11항에 있어서,
    상기 샷을 결정하는 단계는
    상기 목적에 기초하여, 상기 샷에 포함된 상기 제1 캐릭터 및 상기 제2 캐릭터의 배치를 결정하는 단계
    를 포함하는,
    영상 생성 방법.
  13. 제11항에 있어서,
    상기 캐릭터의 움직임을 결정하는 단계는
    상기 목적, 상기 제1 음성 데이터 및 상기 제2 음성 데이터 중 적어도 하나에 기초하여, 상기 제1 캐릭터 및 상기 제2 캐릭터의 인터랙션을 결정하는 단계; 및
    상기 결정된 인터랙션에 기초하여, 상기 제1 캐릭터의 움직임 및 상기 제2 캐릭터의 움직임을 결정하는 단계
    를 더 포함하는,
    영상 생성 방법.
  14. 제11항에 있어서,
    상기 음성 데이터는 제1 사용자 단말로부터 획득된 제1 음성 데이터 및 제2 사용자 단말로부터 획득된 제2 음성 데이터를 포함하고,
    상기 얼굴 영상 데이터는 상기 제1 사용자 단말로부터 획득된 제1 얼굴 영상 데이터 및 상기 제2 사용자 단말로부터 획득된 제2 얼굴 영상 데이터를 포함하는,
    영상 생성 방법.
  15. 하드웨어와 결합되어 제1항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  16. 음성 데이터, 얼굴을 포함하는 얼굴 영상 데이터 및 영상의 목적을 포함하는 입력 데이터를 획득하고,
    상기 얼굴 영상 데이터로부터 추출된 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여, 상기 캐릭터의 움직임을 결정하고,
    상기 음성 데이터 및 상기 목적에 기초하여, 캐릭터에 대응하는 샷을 결정하며,
    상기 결정된 샷에 기초하여, 상기 음성 데이터에 대응하는 영상을 생성하는,
    적어도 하나의 프로세서
    를 포함하는,
    영상 생성 장치.
  17. 제16항에 있어서,
    상기 프로세서는,
    상기 샷을 결정함에 있어서,
    상기 목적에 기초하여, 복수의 샷들- 상기 복수의 샷들은 샷의 유형이 서로 다른 복수의 샷들을 포함함 -의 시퀀스를 결정하고,
    상기 음성 데이터의 크기 변화에 기초하여, 상기 음성 데이터를 복수의 발화 구간들로 구분하고,
    상기 복수의 발화 구간들에 기초하여, 상기 복수의 샷들의 길이들을 결정하는,
    영상 생성 장치.
  18. 제17항에 있어서,
    상기 프로세서는,
    상기 샷을 결정함에 있어서,
    사용자의 입력에 기초하여, 상기 시퀀스 내 샷들의 순서를 변경하는 동작;
    사용자의 입력에 기초하여, 상기 시퀀스에 적어도 하나의 샷을 추가하는 동작;
    사용자의 입력에 기초하여, 상기 시퀀스 내 적어도 하나의 샷을 삭제하는 동작;
    사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 유형을 변경하 동작; 및
    사용자의 입력에 기초하여, 상기 시퀀스 내 샷의 길이를 변경하는 동작
    중 적어도 하나를 더 수행하는,
    영상 생성 장치.
  19. 제16항에 있어서,
    상기 프로세서는,
    상기 캐릭터의 움직임을 결정함에 있어서,
    상기 목적에 기초하여 상기 캐릭터의 표정을 결정하고,
    상기 얼굴 특징의 움직임 및 상기 음성 데이터에 기초하여 상기 캐릭터의 얼굴 요소의 움직임을 결정하며,
    상기 결정된 캐릭터의 표정 및 상기 캐릭터의 얼굴 요소의 움직임을 결합하는,
    영상 생성 장치.
  20. 제19항에 있어서,
    상기 프로세서는,
    상기 캐릭터의 표정을 결정함에 있어서,
    사용자의 입력에 기초하여, 상기 캐릭터의 얼굴 표정을 변경하는,
    영상 생성 장치.
PCT/KR2021/017653 2021-04-08 2021-11-26 영상 생성 방법 및 장치 WO2022215823A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023562502A JP2024513515A (ja) 2021-04-08 2021-11-26 映像生成方法及び装置
CN202180099111.0A CN117441192A (zh) 2021-04-08 2021-11-26 图像生成方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0045651 2021-04-08
KR1020210045651A KR102345729B1 (ko) 2021-04-08 2021-04-08 영상 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2022215823A1 true WO2022215823A1 (ko) 2022-10-13

Family

ID=79348226

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017653 WO2022215823A1 (ko) 2021-04-08 2021-11-26 영상 생성 방법 및 장치

Country Status (6)

Country Link
US (1) US20220328070A1 (ko)
EP (1) EP4071760A1 (ko)
JP (1) JP2024513515A (ko)
KR (2) KR102345729B1 (ko)
CN (1) CN117441192A (ko)
WO (1) WO2022215823A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102601159B1 (ko) * 2022-09-30 2023-11-13 주식회사 아리아스튜디오 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140218373A1 (en) * 1999-05-21 2014-08-07 Quonsil Pl. 3, Llc Script control for camera positioning in a scene generated by a computer rendering engine
KR20190046371A (ko) * 2017-10-26 2019-05-07 에스케이텔레콤 주식회사 얼굴 표정 생성 장치 및 방법
KR20190087230A (ko) * 2018-01-16 2019-07-24 삼성전자주식회사 복수의 카메라를 이용하여 영상 데이터를 생성하는 방법 및 서버
KR20200017266A (ko) * 2018-08-08 2020-02-18 삼성전자주식회사 아바타에 대응하는 속성에 따른 아이템을 제공하는 방법 및 장치
KR20200046417A (ko) * 2018-10-24 2020-05-07 삼성전자주식회사 보정 이미지 기반 아바타 생성 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5326910B2 (ja) * 2009-01-20 2013-10-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US8726161B2 (en) * 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
US10290320B2 (en) * 2015-12-09 2019-05-14 Verizon Patent And Licensing Inc. Automatic media summary creation systems and methods
US11114086B2 (en) * 2019-01-18 2021-09-07 Snap Inc. Text and audio-based real-time face reenactment
EP3912160A1 (en) * 2019-01-18 2021-11-24 Snap Inc. Systems and methods for template-based generation of personalized videos

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140218373A1 (en) * 1999-05-21 2014-08-07 Quonsil Pl. 3, Llc Script control for camera positioning in a scene generated by a computer rendering engine
KR20190046371A (ko) * 2017-10-26 2019-05-07 에스케이텔레콤 주식회사 얼굴 표정 생성 장치 및 방법
KR20190087230A (ko) * 2018-01-16 2019-07-24 삼성전자주식회사 복수의 카메라를 이용하여 영상 데이터를 생성하는 방법 및 서버
KR20200017266A (ko) * 2018-08-08 2020-02-18 삼성전자주식회사 아바타에 대응하는 속성에 따른 아이템을 제공하는 방법 및 장치
KR20200046417A (ko) * 2018-10-24 2020-05-07 삼성전자주식회사 보정 이미지 기반 아바타 생성 방법 및 장치

Also Published As

Publication number Publication date
US20220328070A1 (en) 2022-10-13
EP4071760A1 (en) 2022-10-12
CN117441192A (zh) 2024-01-23
KR20220139781A (ko) 2022-10-17
KR102345729B1 (ko) 2022-01-03
JP2024513515A (ja) 2024-03-25

Similar Documents

Publication Publication Date Title
WO2019164266A1 (en) Electronic device for generating image including 3d avatar reflecting face motion through 3d avatar corresponding to face and method of operating same
WO2017122900A1 (en) Apparatus and method for operating personal agent
WO2020153785A1 (ko) 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
US11657557B2 (en) Method and system for generating data to provide an animated visual representation
CN110475069B (zh) 图像的拍摄方法及装置
WO2019164374A1 (ko) 전자 장치 및 아바타 기반의 커스텀 객체 운용 방법
WO2019013517A1 (en) APPARATUS AND METHOD FOR VOICE CONTROL CONTEXT
WO2020032597A1 (en) Apparatus and method for providing item according to attribute of avatar
WO2018054056A1 (zh) 一种互动式运动方法及头戴式智能设备
WO2016028042A1 (en) Method of providing visual sound image and electronic device implementing the same
WO2020171541A1 (ko) 전자 장치 및 이를 이용한 카메라 기능과 연동하여 이모지 편집을 위한 사용자 인터페이스를 제공하는 방법
CN112199016B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
WO2020098013A1 (zh) 电视节目推荐方法、终端、系统及存储介质
WO2020159288A1 (ko) 전자 장치 및 그 제어 방법
CN111583355B (zh) 面部形象生成方法、装置、电子设备及可读存储介质
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
WO2021235636A1 (ko) 사용자의 플레잉에 기초하여 재프로그래밍되는 인터랙티브 콘텐츠 제공 방법 및 장치
WO2022215823A1 (ko) 영상 생성 방법 및 장치
JPWO2018139203A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021242005A1 (ko) 전자 장치 및 사용자 아바타 기반의 이모지 스티커를 생성하는 방법
CN111670431B (zh) 信息处理装置、信息处理方法以及程序
WO2024071884A1 (ko) 민머리 인물 이미지 생성 장치 및 방법, 및 민머리 인물 이미지 생성 장치를 포함하는 가상 헤어 스타일링 체험 장치 및 이를 이용한 가상 헤어 스타일링 방법
WO2021096339A1 (ko) 이미지 변형 방법
WO2018174311A1 (ko) 얼굴 인식 카메라의 동적 컨텐츠를 제공하는 방법 및 시스템
WO2020122513A1 (ko) 2차원 이미지 처리 방법 및 이 방법을 실행하는 디바이스

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21936161

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023562502

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 202180099111.0

Country of ref document: CN

122 Ep: pct application non-entry in european phase

Ref document number: 21936161

Country of ref document: EP

Kind code of ref document: A1