WO2022085970A1 - Method for generating image on basis of user data text, electronic device therefor, and method for generating image on basis of text - Google Patents

Method for generating image on basis of user data text, electronic device therefor, and method for generating image on basis of text Download PDF

Info

Publication number
WO2022085970A1
WO2022085970A1 PCT/KR2021/013271 KR2021013271W WO2022085970A1 WO 2022085970 A1 WO2022085970 A1 WO 2022085970A1 KR 2021013271 W KR2021013271 W KR 2021013271W WO 2022085970 A1 WO2022085970 A1 WO 2022085970A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
image
generating
database
person
Prior art date
Application number
PCT/KR2021/013271
Other languages
French (fr)
Korean (ko)
Inventor
박철민
Original Assignee
주식회사 에이아이파크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이아이파크 filed Critical 주식회사 에이아이파크
Publication of WO2022085970A1 publication Critical patent/WO2022085970A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Definitions

  • a method of generating an image based on user data text, an electronic device thereof, and a method of generating an image based on text is a method of generating an image based on text.
  • TTS text to speech
  • TTS text to speech
  • An object of the present invention to solve the above problems is to provide a method and an electronic device for generating an image based on user data text, and a method for generating an image based on text.
  • a server for achieving the above object includes a communication unit configured to communicate with a user device, a processor, and a memory, wherein the memory includes a database for generating an image based on text wherein the processor generates an image generation model based on the database, receives a first text from the user device through the communication unit, and based on the image generation model, generates a first text corresponding to the first text. It may be configured to generate one image and transmit the first image to the user device through the communication unit.
  • the database includes an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of video images corresponding to the audio and audio
  • the processor is configured to: In order to generate a generative model, a video generating model for generating a voice based on text is generated based on the voice database, and a video image is generated based on the generated voice based on the video image database. and generate an image generation model, wherein the processor generates a first image corresponding to the first text, based on the speech generation model and the first text, to generate the first image corresponding to the first text.
  • a voice is generated, a first video image corresponding to the first voice is generated based on the video image generation model and the first voice, and the first voice and the first video image are synthesized to generate the first sound.
  • the database may include a plurality of person-specific databases corresponding to a plurality of persons
  • the processor may be configured to generate a plurality of person-specific image generation models based on the plurality of person-specific databases.
  • the processor receives selection information about a first person among the plurality of people from the user device through the communication unit, and receives a first person corresponding to the first person from among the plurality of person-specific image generation models. It may be configured to generate the first image based on an image generation model for each person.
  • a method performed in a server includes an operation of storing a database for generating an image based on text, an operation of generating an image generation model based on the database, receiving a first text from the user device, generating a first image corresponding to the first text based on the image generation model, and transmitting the first image to the user device can do.
  • the database includes an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of video images corresponding to audio and audio
  • the image generation model is The generating may include generating a voice generation model for generating a voice based on text based on the voice database, and a video image generating model for generating a video image based on a voice based on the video image database. and generating the first image corresponding to the first text, wherein the generating of the first image corresponding to the first text includes generating a first voice corresponding to the first text based on the voice generation model and the first text.
  • generating a first video image corresponding to the first audio based on the video image generation model and the first audio, and synthesizing the first audio and the first video image to obtain the first It may include an operation of generating an image.
  • the database includes a plurality of person-specific databases corresponding to a plurality of persons
  • the operation of generating an image generation model based on the database includes: a plurality of person-specific image generation models based on the plurality of person-specific databases It may include an operation to create
  • the method further includes receiving selection information about a first person among the plurality of people from the user device, and the operation of generating the first image corresponding to the first text includes: and generating the first image based on an image generating model for each first person corresponding to the first person among the image generating models.
  • a non-transitory storage medium stores a command, and when the command is executed by an electronic device, the electronic device receives a first text, and the first Transmitting text to a server including a database for generating an image based on the text and an image generating model based on the database, receiving a first image corresponding to the first text from the server, and the first image can be output.
  • the command when executed by the electronic device, it causes the electronic device to display a plurality of people, receive a selection of a first person among the plurality of people, and transmit the selection of the first person to the server. to be transmitted, and the first image may be generated in the server based on an image generation model for each person corresponding to the first person.
  • the present invention it is possible to provide a method and an electronic device for generating an image based on user data text, and a method for generating an image based on text. Accordingly, by providing the visual information that can recognize the information bearer, the information can be delivered more effectively by drawing the attention of the recipient of the information.
  • FIG. 1 is a block diagram of a user device and a server according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating operations performed by a server according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating operations performed by a user device according to an embodiment of the present invention.
  • first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
  • the term “and/or” includes a combination of a plurality of related listed items or any of a plurality of related listed items.
  • user data refers to data transmitted to a server through a user device, and such user data includes text, speech or voice, and images by the user. Alternatively, it may include an image or video, a gesture, and the like.
  • text is described as an example of the user data, but the present invention is not limited thereto.
  • the user device 101 may include a communication unit 110 , a processor 120 , a memory 130 , an input interface 140 , and an output interface 150 .
  • the communication unit 110 may communicate with other electronic devices other than the user device 101 , including the server 106 .
  • the type of communication method or communication protocol performed by the communication unit 110 with other electronic devices is not limited.
  • the communication unit 110 of the user device 101 transmits the first text 191 input by the user to the server 106 , and sends the first text 191 from the server 106 to the first text 191 .
  • a corresponding first image 192 may be received.
  • the processor 120 controls other components of the user device 101 , such as the communication unit 110 , the memory 130 , the input interface 140 , and the output interface 150 , or It can receive data from other components.
  • the processor 120 performs a certain operation through other components of the user device 101 , such as the communication unit 110 , the memory 130 , the input interface 140 , and the output interface 150 . Doing this may mean controlling other components of the user device 101 to perform the corresponding operation. Also, the processor 120 may perform an operation on data received from other components of the user device 101 .
  • the processor 120 of the user device 101 transmits the first text 191 input by the user to the server 106 through the communication unit 110 , and sends the first text 191 input from the server 106 to the server 106 .
  • a first image 192 corresponding to the first text 191 may be received.
  • the memory 130 may store a result of an operation performed by the processor 120 . According to various embodiments, the memory 130 may store computer-executable instructions to perform operations performed by the user device 101 according to an embodiment of the present invention.
  • the input interface 140 may receive an input from a user of the user device 101 .
  • the input interface 140 may include at least one of a touch pad, a digitizer, a stylus pen, a microphone, a camera, a mouse, and a keyboard.
  • the processor 120 of the user device 101 may confirm input of user data such as the first text 191 from the user through the input interface 140 .
  • the output interface 150 may provide an output to a user of the user device 101 .
  • the output interface 150 may include at least one of a TV, a digital signage, a display device such as a monitor or a touch screen display, and an audio output interface such as a speaker.
  • the processor 120 of the user device 101 may output the first image 192 through the output interface 150 .
  • the server 106 may include a memory 160 , a processor 170 , and a communication unit 180 .
  • the memory 160 may include a database 161 , a voice generation model 162 , and an image generation model 1632 .
  • the database 161 is an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image including a plurality of pairs of audio and video images corresponding to the audio. It may include a database.
  • the video-to-speech generation model 162 includes a speech generation model for generating a voice based on text, which is generated based on an audio database
  • the image generation model 163 includes: and the audio generation model and the video image database. and a video image generation model for generating a video image based on a voice generated based on the .
  • the database 161 may include an image database including a plurality of combinations of text and images including audio and video images corresponding to the text.
  • the image generation model 162163 may include an image generation model that generates an image including an audio and a video image based on a voice based on a text, which is generated based on an image database.
  • the processor 170 may control other components of the server 106 , such as the communication unit 180 , or receive data from other component(s) of the user device 101 . Then, in this specification, the processor 170, such as the communication unit 180, to perform any operation through other components of the server 106, controls the other components of the server 106 to perform the operation. can mean doing In addition, the processor 170 may perform an operation on data received from other components of the server 106 .
  • the processor 170 may generate the voice generation model 162 and the image generation model 162163 based on the database 161 . Also, according to various embodiments, the processor 170 is configured to perform a first text and a first image corresponding to the first text based on the image generation model 162 received from the user device 101 through the communication unit 180 . can create
  • the communication unit 180 may communicate with other electronic devices other than the server 106 including the user device 101 .
  • the type of communication method or communication protocol performed by the communication unit 110 with other electronic devices is not limited.
  • the communication unit 180 receives the first text 191 from the user device 101 , and displays a first image 192 corresponding to the first text 191 to the user device 101 . can send
  • FIG. 2 is a flowchart illustrating operations performed by a server according to an embodiment of the present invention.
  • the processor 170 of the server 106 may generate the voice generation model 162 based on the database 161 .
  • the processor 170 of the server 106 may generate the image generation model 162163 based on the database 161 .
  • the voice and image generation models 162 and 163 are generated through deep learning, respectively.
  • the database 161 may include an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of audio and video images corresponding to the audio.
  • the processor 170 generates a voice generation model that generates a voice based on text based on the voice database, and generates a video image generation model that generates a video image based on the voice based on the video image database.
  • the database 161 may include an image database including a plurality of combinations of text and images including audio and video images corresponding to the text.
  • the processor 170 may generate an image generation model that generates an image including a voice based on text and an audio and video image based on the voice based on the image database.
  • data for voice may include Mel Frequency Cepstral Coefficients (MFCC) characteristics of voice.
  • MFCC Mel Frequency Cepstral Coefficients
  • the data for the video image may include a face image of a person to be displayed on the video.
  • the data for the video image may include data regarding the coordinates of feature points of the lips displayed on the image.
  • the database 161 may include a plurality of person-specific databases corresponding to the plurality of persons.
  • the content of data that can be included in the database for each person is the same as described with respect to the various embodiments described above.
  • the processor 170 may generate a plurality of person-specific image generation models based on the plurality of person-specific databases.
  • the processor 170 may also generate a plurality of person-specific voice generation models based on the plurality of person-specific databases.
  • the database 161 may include a plurality of context-specific databases corresponding to a plurality of contexts.
  • the plurality of situations may include at least one of an utterance situation between intimacy, a utterance situation in a public situation, a situation uttered at an angle, an utterance situation in an urgent situation, and a situation uttered in an investigation.
  • various situations may be set.
  • the content of data that can be included in the database for each situation is the same as described with respect to the various embodiments described above.
  • the processor 170 may generate a plurality of contextual image generation models based on the plurality of contextual databases. Meanwhile, the processor 170 may also generate a plurality of contextual voice generation models based on the plurality of contextual databases.
  • the process of generating the voice and image generation models 162 and 163 based on the database 161 may be performed through deep learning.
  • the processor 170 may receive the first text 191 from the user device 101 through the communication unit 180 .
  • the processor 170 receives the plurality of data from the user device 101 through the communication unit 180 . Information on the first person selected by the user from among the people of .
  • the processor 170 receives the plurality of data from the user device 101 through the communication unit 180 . Information on the first situation selected by the user may be further received among the situations of .
  • the processor 170 may generate a first image corresponding to the first text based on the image generation model 162163 .
  • the database 161 includes an audio database and a video image database
  • the image generation model 162163 includes an audio generation model and a video image generation model
  • the audio generation model 162 generates a voice
  • the processor 170 generates a first voice corresponding to the first text based on the voice generation model and the first text
  • the first video may be generated by generating a first video image corresponding to the first audio based on the video image generation model and the first audio, and synthesizing the first audio and the first video image.
  • the database 161 includes an image database
  • the image generation model 162163 includes an image generation model that generates an image including an audio and a video image based on a voice based on text and a video image.
  • the processor 170 may generate a first image including a first voice corresponding to the first text and a first video image, based on the image generation model and the first text.
  • the processor 170 determines the person corresponding to the first person selected by the user from among the plurality of persons
  • a first image corresponding to the first text may be generated based on the star voice or/and image generation model and the first text.
  • the processor 170 when information on a first situation selected by the user from among a plurality of situations is further received from the user device 101 , the processor 170 is configured to determine a situation corresponding to the first situation selected by the user from among the plurality of situations A first image corresponding to the first text may be generated based on the star voice or/and image generation model and the first text.
  • the processor 170 may transmit the first image 192 to the user device 101 through the communication unit 180 .
  • FIG. 3 is a flowchart illustrating operations performed by a user device according to an embodiment of the present invention.
  • the processor 120 of the user device 101 may confirm the input of the first text through the input interface 140 .
  • the processor 120 of the user device 101 may transmit the first text 191 to the server 106 through the communication unit 110 .
  • the processor 120 of the user device 101 may receive the first image 192 corresponding to the first text 191 from the server 106 through the communication unit 110 .
  • the processor 120 of the user device 101 may output the first image 192 through the output interface 150 .
  • the operation according to the embodiment of the present invention can be implemented as a computer-readable program or code on a computer-readable recording medium.
  • the computer-readable recording medium includes all types of recording devices in which data that can be read by a computer system is stored.
  • the computer-readable recording medium may be distributed in a network-connected computer system to store and execute computer-readable programs or codes in a distributed manner.
  • the computer-readable recording medium may include a hardware device specially configured to store and execute program instructions, such as ROM, RAM, and flash memory.
  • the program instructions may include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • aspects of the invention have been described in the context of an apparatus, it may also represent a description according to a corresponding method, wherein a block or apparatus corresponds to a method step or feature of a method step. Similarly, aspects described in the context of a method may also represent a corresponding block or item or a corresponding device feature. Some or all of the method steps may be performed by (or using) a hardware device such as, for example, a microprocessor, programmable computer or electronic circuit. In some embodiments, one or more of the most important method steps may be performed by such an apparatus.
  • a programmable logic device eg, a field programmable gate array
  • the field programmable gate array may operate in conjunction with a microprocessor to perform one of the methods described herein.
  • the methods are preferably performed by some hardware device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

A server according to an embodiment of the present invention may comprise: a communication unit configured to communicate with a user device; a processor; and a memory, wherein the memory includes a database for generating an image on the basis of text, and the processor is configured to generate an image generation model on the basis of the database, receive first text from the user device through the communication unit, generate a first image corresponding to the first text on the basis of the image generation model, and transmit the first image to the user device through the communication unit. Various other embodiments are possible.

Description

사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그를 위한 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법A method for generating an image based on user data text, an electronic device therefor, and a method for generating an image based on text
사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법에 관한 것이다.A method of generating an image based on user data text, an electronic device thereof, and a method of generating an image based on text.
언택트 커뮤니케이션 및 멀티미디어를 이용한 정보 전달이 폭발적으로 증가하는 추세에 따라, 기존에 텍스트로 전달하던 정보를 음성 또는 영상으로 전달하는 경향이 점점 강해지고 있다. 예를 들어, 텍스트를 입력하면 텍스트에 대응하는 음성을 출력하는 음성 합성(TTS, text to speech) 기술이 널리 보급되고 있다.As information transmission using untact communication and multimedia is explosively increasing, the tendency to transmit information that was previously transmitted as text through voice or video is getting stronger. For example, when text is input, a text to speech (TTS) technology for outputting a voice corresponding to the text has been widely used.
기존의 음성 합성(TTS, text to speech) 기술은 텍스트에 대응하는 음성을 출력할 수 있으나, 정보 전달자를 인식할 수 있는 시각적 정보가 없기 때문에 음성만으로는 생생하게 정보를 전달하기 어렵고, 정보를 받아들이는 사람의 집중을 이끌 수 없다.The existing text to speech (TTS) technology can output a voice corresponding to the text, but since there is no visual information to recognize the information sender, it is difficult to deliver information vividly with only voice, and the person who accepts the information can't lead the concentration of
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 전자 장치를 및 텍스트에 기반하여 영상을 생성하는 방법을 제공하는 데 있다.An object of the present invention to solve the above problems is to provide a method and an electronic device for generating an image based on user data text, and a method for generating an image based on text.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 서버는, 사용자 장치와 통신을 수행하도록 구성되는 통신부, 프로세서, 및 메모리를 포함하고, 상기 메모리는 텍스트에 기초하여 영상을 생성하기 위한 데이터베이스를 포함하고, 상기 프로세서는, 상기 데이터베이스에 기초하여 영상 생성 모델을 생성하고, 상기 통신부를 통하여 상기 사용자 장치로부터 제1 텍스트를 수신하고, 상기 영상 생성 모델에 기초하여, 상기 제1 텍스트에 대응하는 제1 영상을 생성하고, 상기 제1 영상을 상기 통신부를 통하여 상기 사용자 장치에 송신하도록 구성될 수 있다.A server according to an embodiment of the present invention for achieving the above object includes a communication unit configured to communicate with a user device, a processor, and a memory, wherein the memory includes a database for generating an image based on text wherein the processor generates an image generation model based on the database, receives a first text from the user device through the communication unit, and based on the image generation model, generates a first text corresponding to the first text. It may be configured to generate one image and transmit the first image to the user device through the communication unit.
여기서, 상기 데이터베이스는 텍스트와 텍스트에 대응하는 음성의 페어를 복수 개 포함하는 음성 데이터베이스, 및 음성과 음성에 대응하는 영상 이미지의 페어를 복수 개 포함하는 영상 이미지 데이터베이스를 포함하고, 상기 프로세서는 상기 영상 생성 모델을 생성하기 위하여, 상기 음성 데이터베이스에 기초하여, 텍스트에 기초하여 음성을 생성하는 음성 생성 모델을 생성하고, 상기 영상 이미지 데이터베이스에 기초하여, 상기 생성한 음성에 기초하여 영상 이미지를 생성하는 영상 이미지 생성 모델을 생성하도록 구성되고, 상기 프로세서는 상기 제1 텍스트에 대응하는 상기 제1 영상을 생성하기 위하여, 상기 음성 생성 모델 및 상기 제1 텍스트에 기초하여, 상기 제1 텍스트에 대응하는 제1 음성을 생성하고, 상기 영상 이미지 생성 모델 및 상기 제1 음성에 기초하여, 상기 제1 음성에 대응하는 제1 영상 이미지를 생성하고, 상기 제1 음성 및 상기 제1 영상 이미지를 합성하여 상기 제1 영상을 생성하도록 구성될 수 있다.Here, the database includes an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of video images corresponding to the audio and audio, and the processor is configured to: In order to generate a generative model, a video generating model for generating a voice based on text is generated based on the voice database, and a video image is generated based on the generated voice based on the video image database. and generate an image generation model, wherein the processor generates a first image corresponding to the first text, based on the speech generation model and the first text, to generate the first image corresponding to the first text. A voice is generated, a first video image corresponding to the first voice is generated based on the video image generation model and the first voice, and the first voice and the first video image are synthesized to generate the first sound. may be configured to generate an image.
여기서, 상기 데이터베이스는 복수의 인물에 대응하는 복수의 인물별 데이터베이스를 포함하고, 상기 프로세서는, 상기 복수의 인물별 데이터베이스에 기초하여 복수의 인물별 영상 생성 모델을 생성하도록 구성될 수 있다.Here, the database may include a plurality of person-specific databases corresponding to a plurality of persons, and the processor may be configured to generate a plurality of person-specific image generation models based on the plurality of person-specific databases.
여기서, 상기 프로세서는, 상기 통신부를 통하여 상기 사용자 장치로부터 상기 복수의 인물 중 제1 인물에 대한 선택 정보를을 수신하고, 상기 복수의 인물별 영상 생성 모델 중, 상기 제1 인물에 대응하는 제1 인물별 영상 생성 모델에 기초하여 상기 제1 영상을 생성하도록 구성될 수 있다.Here, the processor receives selection information about a first person among the plurality of people from the user device through the communication unit, and receives a first person corresponding to the first person from among the plurality of person-specific image generation models. It may be configured to generate the first image based on an image generation model for each person.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 서버에서 수행되는 방법은, 텍스트에 기초하여 영상을 생성하기 위한 데이터베이스를 저장하는 동작, 상기 데이터베이스에 기초하여 영상 생성 모델을 생성하는 동작, 상기 사용자 장치로부터 제1 텍스트를 수신하는 동작, 상기 영상 생성 모델에 기초하여, 상기 제1 텍스트에 대응하는 제1 영상을 생성하는 동작, 및 상기 제1 영상을 상기 사용자 장치에 송신하는 동작을 포함할 수 있다.According to an embodiment of the present invention for achieving the above object, a method performed in a server includes an operation of storing a database for generating an image based on text, an operation of generating an image generation model based on the database, receiving a first text from the user device, generating a first image corresponding to the first text based on the image generation model, and transmitting the first image to the user device can do.
여기서, 상기 데이터베이스는 텍스트와 텍스트에 대응하는 음성의 페어를 복수 개 포함하는 음성 데이터베이스, 및 음성과 음성에 대응하는 영상 이미지의 페어를 복수 개 포함하는 영상 이미지 데이터베이스를 포함하고, 상기 영상 생성 모델을 생성하는 동작은, 상기 음성 데이터베이스에 기초하여, 텍스트에 기초하여 음성을 생성하는 음성 생성 모델을 생성하는 동작, 및 상기 영상 이미지 데이터베이스에 기초하여, 음성에 기초하여 영상 이미지를 생성하는 영상 이미지 생성 모델을 생성하는 동작을 포함하고, 상기 제1 텍스트에 대응하는 상기 제1 영상을 생성하는 동작은, 상기 음성 생성 모델 및 상기 제1 텍스트에 기초하여, 상기 제1 텍스트에 대응하는 제1 음성을 생성하는 동작, 상기 영상 이미지 생성 모델 및 상기 제1 음성에 기초하여, 상기 제1 음성에 대응하는 제1 영상 이미지를 생성하는 동작, 및 상기 제1 음성 및 상기 제1 영상 이미지를 합성하여 상기 제1 영상을 생성하는 동작을 포함할 수 있다.Here, the database includes an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of video images corresponding to audio and audio, wherein the image generation model is The generating may include generating a voice generation model for generating a voice based on text based on the voice database, and a video image generating model for generating a video image based on a voice based on the video image database. and generating the first image corresponding to the first text, wherein the generating of the first image corresponding to the first text includes generating a first voice corresponding to the first text based on the voice generation model and the first text. generating a first video image corresponding to the first audio based on the video image generation model and the first audio, and synthesizing the first audio and the first video image to obtain the first It may include an operation of generating an image.
여기서, 상기 데이터베이스는 복수의 인물에 대응하는 복수의 인물별 데이터베이스를 포함하고, 상기 데이터베이스에 기초하여 영상 생성 모델을 생성하는 동작은, 상기 복수의 인물별 데이터베이스에 기초하여 복수의 인물별 영상 생성 모델을 생성하는 동작을 포함할 수 있다.Here, the database includes a plurality of person-specific databases corresponding to a plurality of persons, and the operation of generating an image generation model based on the database includes: a plurality of person-specific image generation models based on the plurality of person-specific databases It may include an operation to create
여기서, 상기 사용자 장치로부터 상기 복수의 인물 중 제1 인물에 대한 선택 정보를을 수신하는 동작을 더 포함하고, 상기 제1 텍스트에 대응하는 상기 제1 영상을 생성하는 동작은, 상기 복수의 인물별 영상 생성 모델 중, 상기 제1 인물에 대응하는 제1 인물별 영상 생성 모델에 기초하여 상기 제1 영상을 생성하는 동작을 포함할 수 있다.Here, the method further includes receiving selection information about a first person among the plurality of people from the user device, and the operation of generating the first image corresponding to the first text includes: and generating the first image based on an image generating model for each first person corresponding to the first person among the image generating models.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 비일시적 저장 매체는 명령어를 저장하고, 상기 명령어는 전자 장치에 의하여 실행될 때, 전자 장치로 하여금, 제1 텍스트를 입력받고, 상기 제1 텍스트를, 텍스트에 기초하여 영상을 생성하기 위한 데이터베이스 및 상기 데이터베이스에 기초한 영상 생성 모델을 포함하는 서버에 전송하고, 상기 서버로부터 상기 제1 텍스트에 대응하는 제1 영상을 수신하고, 상기 제1 영상을 출력하도록 할 수 있다.According to an embodiment of the present invention for achieving the above object, a non-transitory storage medium stores a command, and when the command is executed by an electronic device, the electronic device receives a first text, and the first Transmitting text to a server including a database for generating an image based on the text and an image generating model based on the database, receiving a first image corresponding to the first text from the server, and the first image can be output.
여기서, 상기 명령어는 전자 장치에 의하여 실행될 때, 전자 장치로 하여금, 복수의 인물을 표시하고, 상기 복수의 인물 중 제1 인물에 대한 선택을 입력받고, 상기 제1 인물에 대한 선택을 상기 서버에 전송하도록 하고, 상기 제1 영상은, 상기 제1 인물에 대응하는 인물별 영상 생성 모델에 기초하여 상기 서버에서 생성될 수 있다.Here, when the command is executed by the electronic device, it causes the electronic device to display a plurality of people, receive a selection of a first person among the plurality of people, and transmit the selection of the first person to the server. to be transmitted, and the first image may be generated in the server based on an image generation model for each person corresponding to the first person.
본 발명에 따르면, 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 전자 장치를 및 텍스트에 기반하여 영상을 생성하는 방법을 제공할 수 있다. 따라서, 정보 전달자를 인식할 수 있는 시각적 정보를 제공함으로써, 정보를 받아들이는 사람의 집중을 이끌어내어 정보를 보다 효과적으로 전달할 수 있다.According to the present invention, it is possible to provide a method and an electronic device for generating an image based on user data text, and a method for generating an image based on text. Accordingly, by providing the visual information that can recognize the information bearer, the information can be delivered more effectively by drawing the attention of the recipient of the information.
도 1는 본 발명의 일 실시예에 따른 사용자 장치 및 서버의 블록도이다.1 is a block diagram of a user device and a server according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 서버에서 수행되는 동작들을 나타내는 흐름도이다.2 is a flowchart illustrating operations performed by a server according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 사용자 장치에서 수행되는 동작들을 나타내는 흐름도이다.3 is a flowchart illustrating operations performed by a user device according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention. In describing each figure, like reference numerals have been used for like elements.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. Terms such as first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component. The term “and/or” includes a combination of a plurality of related listed items or any of a plurality of related listed items.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When an element is referred to as being “connected” or “connected” to another element, it is understood that it may be directly connected or connected to the other element, but other elements may exist in between. it should be On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as “comprise” or “have” are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, but one or more other features It should be understood that this does not preclude the existence or addition of numbers, steps, operations, components, parts, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical and scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present application. does not
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. In describing the present invention, in order to facilitate the overall understanding, the same reference numerals are used for the same components in the drawings, and duplicate descriptions of the same components are omitted.
이하, 본 명세서에서, "사용자 데이터(user data)"라 함은, 사용자 장치를 통하여 서버로 전송되는 데이터를 말하며, 이러한 사용자 데이터에는 사용자에 의한 텍스트(text), 음성(speech or voice), 이미지 또는 동영상(image or video), 제스처(gesture) 등이 포함될 수 있다. 다만, 본 발명의 이해를 돕고 설명의 편의를 위하여, 예를 들어 텍스트를 상기 사용자 데이터의 예로 하여 설명하나, 본 발명이 그에 한정되는 것은 아니다.Hereinafter, in this specification, "user data" refers to data transmitted to a server through a user device, and such user data includes text, speech or voice, and images by the user. Alternatively, it may include an image or video, a gesture, and the like. However, for better understanding of the present invention and convenience of explanation, for example, text is described as an example of the user data, but the present invention is not limited thereto.
도 1는 본 발명의 일 실시예에 따른 사용자 장치 및 서버의 블록도이다. 사용자 장치(101)는, 통신부(110), 프로세서(120), 메모리(130), 입력 인터페이스(140), 및 출력 인터페이스(150)를 포함할 수 있다. 통신부(110)는, 서버(106)를 포함한, 사용자 장치(101) 외의 다른 전자 장치와 통신을 수행할 수 있다. 통신부(110)가 다른 전자 장치와 수행하는 통신 방법 내지 통신 프로토콜의 종류는 한정되지 않는다.1 is a block diagram of a user device and a server according to an embodiment of the present invention. The user device 101 may include a communication unit 110 , a processor 120 , a memory 130 , an input interface 140 , and an output interface 150 . The communication unit 110 may communicate with other electronic devices other than the user device 101 , including the server 106 . The type of communication method or communication protocol performed by the communication unit 110 with other electronic devices is not limited.
다양한 실시예에 따라서, 사용자 장치(101)의 통신부(110)는, 서버(106)에 사용자가 입력한 제1 텍스트(191)를 송신하고, 서버(106)로부터 상기 제1 텍스트(191)에 대응되는 제1 영상(192)을 수신할 수 있다.According to various embodiments, the communication unit 110 of the user device 101 transmits the first text 191 input by the user to the server 106 , and sends the first text 191 from the server 106 to the first text 191 . A corresponding first image 192 may be received.
프로세서(120)는, 통신부(110), 메모리(130), 입력 인터페이스(140), 및 출력 인터페이스(150)와 같은, 사용자 장치(101)의 다른 구성요소들을 제어하거나, 사용자 장치(101)의 다른 구성요소들로부터 데이터를 전달받을 수 있다. 이후 본 명세서에서, 프로세서(120)가 통신부(110), 메모리(130), 입력 인터페이스(140), 및 출력 인터페이스(150)와 같은, 사용자 장치(101)의 다른 구성요소들을 통하여 어떠한 동작을 수행한다는 것은, 해당 동작을 수행하도록 사용자 장치(101)의 다른 구성요소들을 제어한다는 것을 의미할 수 있다. 또한, 프로세서(120)는, 사용자 장치(101)의 다른 구성요소들로부터 전달받은 데이터에 연산을 수행할 수 있다.The processor 120 controls other components of the user device 101 , such as the communication unit 110 , the memory 130 , the input interface 140 , and the output interface 150 , or It can receive data from other components. Hereinafter, in this specification, the processor 120 performs a certain operation through other components of the user device 101 , such as the communication unit 110 , the memory 130 , the input interface 140 , and the output interface 150 . Doing this may mean controlling other components of the user device 101 to perform the corresponding operation. Also, the processor 120 may perform an operation on data received from other components of the user device 101 .
다양한 실시예에 따라서, 사용자 장치(101)의 프로세서(120)는, 통신부(110)를 통하여, 서버(106)에 사용자가 입력한 제1 텍스트(191)를 송신하고, 서버(106)로부터 상기제1 텍스트(191)에 대응되는 제1 영상(192)을 수신할 수 있다.According to various embodiments, the processor 120 of the user device 101 transmits the first text 191 input by the user to the server 106 through the communication unit 110 , and sends the first text 191 input from the server 106 to the server 106 . A first image 192 corresponding to the first text 191 may be received.
메모리(130)는, 프로세서(120)에 의하여 수행된 연산의 결과를 저장할 수 있다. 다양한 실시예에 따라서, 메모리(130)는, 본 발명의 일 실시예에 따른 사용자 장치(101)에서 수행되는 동작들을 수행하도록 하는, 컴퓨터로 실행가능한 명령어들을 저장할 수 있다.The memory 130 may store a result of an operation performed by the processor 120 . According to various embodiments, the memory 130 may store computer-executable instructions to perform operations performed by the user device 101 according to an embodiment of the present invention.
입력 인터페이스(140)는, 사용자 장치(101)의 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 인터페이스(140)는 터치 패드, 디지타이저, 스타일러스 펜, 마이크로폰, 카메라, 마우스, 및 키보드 중 적어도 하나를 포함할 수 있다.The input interface 140 may receive an input from a user of the user device 101 . For example, the input interface 140 may include at least one of a touch pad, a digitizer, a stylus pen, a microphone, a camera, a mouse, and a keyboard.
다양한 실시예에 따라서, 사용자 장치(101)의 프로세서(120)는, 입력 인터페이스(140)를 통하여 사용자로부터 제1 텍스트(191)와 같은 사용자 데이터의 입력을 확인할 수 있다.According to various embodiments, the processor 120 of the user device 101 may confirm input of user data such as the first text 191 from the user through the input interface 140 .
출력 인터페이스(150)는, 사용자 장치(101)의 사용자에게 출력을 제공할 수 있다. 예를 들어, 출력 인터페이스(150)는, TV, 디지털 사이니지(digital signage), 모니터 또는 터치스크린 디스플레이와 같은 표시 장치, 및 스피커와 같은 음성 출력 인터페이스 중 적어도 하나를 포함할 수 있다.The output interface 150 may provide an output to a user of the user device 101 . For example, the output interface 150 may include at least one of a TV, a digital signage, a display device such as a monitor or a touch screen display, and an audio output interface such as a speaker.
다양한 실시예에 따라서, 사용자 장치(101)의 프로세서(120)는, 출력 인터페이스(150)를 통하여 제1 영상(192)을 출력할 수 있다.According to various embodiments, the processor 120 of the user device 101 may output the first image 192 through the output interface 150 .
서버(106)는, 메모리(160), 프로세서(170), 및 통신부(180)를 포함할 수 있다. 메모리(160)는, 데이터베이스(161), 음성 생성 모델(162), 및 영상 생성 모델(1632)을 포함할 수 있다. The server 106 may include a memory 160 , a processor 170 , and a communication unit 180 . The memory 160 may include a database 161 , a voice generation model 162 , and an image generation model 1632 .
다양한 실시예에 따라서, 데이터베이스(161)는, 텍스트와 텍스트에 대응하는 음성의 페어(pair)를 복수 개 포함하는 음성 데이터베이스, 및 음성과 음성에 대응하는 영상 이미지의 페어를 복수 개 포함하는 영상 이미지 데이터베이스를 포함할 수 있다. 이 경우, 영상음성 생성 모델(162)은 음성 데이터베이스에 기초하여 생성되는, 텍스트에 기초하여 음성을 생성하는 음성 생성 모델을 포함하고, 영상 생성 모델(163)은 및 상기 음성 생성 모델 및 영상 이미지 데이터베이스에 기초하여 생성되는, 음성에 기초하여 영상 이미지를 생성하는 영상 이미지 생성 모델을 포함할 수 있다.According to various embodiments, the database 161 is an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image including a plurality of pairs of audio and video images corresponding to the audio. It may include a database. In this case, the video-to-speech generation model 162 includes a speech generation model for generating a voice based on text, which is generated based on an audio database, and the image generation model 163 includes: and the audio generation model and the video image database. and a video image generation model for generating a video image based on a voice generated based on the .
다양한 실시예에 따라서, 데이터베이스(161)는, 텍스트와 텍스트에 대응하는 음성 및 영상 이미지를 포함하는 영상의 조합을 복수 개 포함하는 영상 데이터베이스를 포함할 수 있다. 이 경우, 영상 생성 모델(162163)은, 영상 데이터베이스에 기초하여 생성되는, 텍스트에 기초하여 음성에 기초하여 음성 및 영상 이미지를 포함하는 영상을 생성하는 영상 생성 모델을 포함할 수 있다.According to various embodiments, the database 161 may include an image database including a plurality of combinations of text and images including audio and video images corresponding to the text. In this case, the image generation model 162163 may include an image generation model that generates an image including an audio and a video image based on a voice based on a text, which is generated based on an image database.
프로세서(170)는, 통신부(180)와 같은 서버(106)의 다른 구성요소들을 제어하거나, 사용자 장치(101)의 다른 구성요소(들)로부터 데이터를 전달받을 수 있다. 이후 본 명세서에서, 프로세서(170)가, 통신부(180)와 같은, 서버(106)의 다른 구성요소들을 통하여 어떠한 동작을 수행한다는 것은, 해당 동작을 수행하도록 서버(106)의 다른 구성요소들을 제어한다는 것을 의미할 수 있다. 또한, 프로세서(170)는 서버(106)의 다른 구성요소들로부터 전달받은 데이터에 연산을 수행할 수 있다.The processor 170 may control other components of the server 106 , such as the communication unit 180 , or receive data from other component(s) of the user device 101 . Then, in this specification, the processor 170, such as the communication unit 180, to perform any operation through other components of the server 106, controls the other components of the server 106 to perform the operation. can mean doing In addition, the processor 170 may perform an operation on data received from other components of the server 106 .
다양한 실시예에 따라서, 프로세서(170)는 데이터베이스(161)에 기초하여 음성 생성 모델(162) 및 영상 생성 모델(162163)을 생성할 수 있다. 또한, 다양한 실시예에 따라서, 프로세서(170)는 통신부(180)를 통하여 사용자 장치(101)로부터 수신된 제1 텍스트 및 영상 생성 모델(162)에 기초하여 상기제1 텍스트에 대응되는 제1 영상을 생성할 수 있다.According to various embodiments, the processor 170 may generate the voice generation model 162 and the image generation model 162163 based on the database 161 . Also, according to various embodiments, the processor 170 is configured to perform a first text and a first image corresponding to the first text based on the image generation model 162 received from the user device 101 through the communication unit 180 . can create
통신부(180)는, 사용자 장치(101)를 포함한, 서버(106) 외의 다른 전자 장치와 통신을 수행할 수 있다. 통신부(110)가 다른 전자 장치와 수행하는 통신 방법 내지 통신 프로토콜의 종류는 한정되지 않는다. The communication unit 180 may communicate with other electronic devices other than the server 106 including the user device 101 . The type of communication method or communication protocol performed by the communication unit 110 with other electronic devices is not limited.
다양한 실시예에 따라서, 통신부(180)는 사용자 장치(101)로부터 제1 텍스트(191)를 수신하고, 사용자 장치(101)에 상기제1 텍스트(191)에 대응되는 제1 영상(192)을 송신할 수 있다.According to various embodiments, the communication unit 180 receives the first text 191 from the user device 101 , and displays a first image 192 corresponding to the first text 191 to the user device 101 . can send
도 2는 본 발명의 일 실시예에 따른 서버에서 수행되는 동작들을 나타내는 흐름도이다. 2 is a flowchart illustrating operations performed by a server according to an embodiment of the present invention.
205 동작에서, 서버(106)의 프로세서(170)는 데이터베이스(161)에 기초하여 음성 생성 모델(162)를 생성할 수 있다.In operation 205 , the processor 170 of the server 106 may generate the voice generation model 162 based on the database 161 .
210 동작에서, 서버(106)의 프로세서(170)는 데이터베이스(161)에 기초하여 영상 생성 모델(162163)을 생성할 수 있다. In operation 210 , the processor 170 of the server 106 may generate the image generation model 162163 based on the database 161 .
상기 205 동작 및 210 동작에서, 음성 및 영상 생성 모델(162,163)은 각각 딥러닝(deep learning)을 통하여 생성된다.In operation 205 and operation 210 , the voice and image generation models 162 and 163 are generated through deep learning, respectively.
다양한 실시예에 따라서, 데이터베이스(161)는 텍스트와 텍스트에 대응하는 음성의 페어를 복수 개 포함하는 음성 데이터베이스, 및 음성과 음성에 대응하는 영상 이미지의 페어를 복수 개 포함하는 영상 이미지 데이터베이스를 포함할 수 있다. 이 경우, 프로세서(170)는 음성 데이터베이스에 기초하여, 텍스트에 기초하여 음성을 생성하는 음성 생성 모델을 생성하고, 영상 이미지 데이터베이스에 기초하여, 음성에 기초하여 영상 이미지를 생성하는 영상 이미지 생성 모델을 생성할 수 있다.According to various embodiments, the database 161 may include an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of audio and video images corresponding to the audio. can In this case, the processor 170 generates a voice generation model that generates a voice based on text based on the voice database, and generates a video image generation model that generates a video image based on the voice based on the video image database. can create
다양한 실시예에 따라서, 데이터베이스(161)는, 텍스트와 텍스트에 대응하는 음성 및 영상 이미지를 포함하는 영상의 조합을 복수 개 포함하는 영상 데이터베이스를 포함할 수 있다. 이 경우, 프로세서(170)는 영상 데이터베이스에 기초하여, 텍스트에 기초한하여 음성과, 상기 음성에 기초하여 음성 및 영상 이미지를 포함하는 영상을 생성하는 영상 생성 모델을 생성할 수 있다.According to various embodiments, the database 161 may include an image database including a plurality of combinations of text and images including audio and video images corresponding to the text. In this case, the processor 170 may generate an image generation model that generates an image including a voice based on text and an audio and video image based on the voice based on the image database.
다양한 실시예에 따라서, 음성에 대한 데이터는, 음성의 MFCC(Mel Frequency Cepstral Coefficients) 특성을 포함할 수 있다. 다양한 실시예에 따라서, 영상 이미지에 대한 데이터는, 영상에 표시되기 위한 사람의 얼굴 이미지를 포함할 수 있다. 다양한 실시예에 따라서, 영상 이미지에 대한 데이터는 영상에 표시되는 입술의 특징점들의 좌표에 관한 데이터를 포함할 수 있다.According to various embodiments, data for voice may include Mel Frequency Cepstral Coefficients (MFCC) characteristics of voice. According to various embodiments, the data for the video image may include a face image of a person to be displayed on the video. According to various embodiments, the data for the video image may include data regarding the coordinates of feature points of the lips displayed on the image.
다양한 실시예에 따라서, 데이터베이스(161)는 복수의 인물에 대응하는 복수의 인물별 데이터베이스를 포함할 수 있다. 각 인물별 데이터베이스가 포함할 수 있는 데이터의 내용은 상술한 다양한 실시예에 관하여 설명한 바와 같다. 이 경우, 프로세서(170)는 복수의 인물별 데이터베이스에 기초하여 복수의 인물별 영상 생성 모델을 생성할 수 있다. 다양한 실시예에 따라서, 프로세서(170)는 복수의 인물별 데이터베이스에 기초하여 복수의 인물별 음성 생성 모델 역시 생성할 수 있다.According to various embodiments, the database 161 may include a plurality of person-specific databases corresponding to the plurality of persons. The content of data that can be included in the database for each person is the same as described with respect to the various embodiments described above. In this case, the processor 170 may generate a plurality of person-specific image generation models based on the plurality of person-specific databases. According to various embodiments, the processor 170 may also generate a plurality of person-specific voice generation models based on the plurality of person-specific databases.
다양한 실시예에 따라서, 데이터베이스(161)는 복수의 상황에 대응하는 복수의 상황별 데이터베이스를 포함할 수 있다. 예를 들어, 복수의 상황은 친밀한 사이에서의 발화 상황, 공적인 상황에서의 발화 상황, 경사에서 발화하는 상황, 긴급한 상황에서의 발화 상황, 및 조사에서 발화하는 상황 중 적어도 하나를 포함할 수 있다. 상기 예로 든 상황 외에도 다양한 상황이 설정될 수 있다. 각 상황별 데이터베이스가 포함할 수 있는 데이터의 내용은 상술한 다양한 실시예에 관하여 설명한 바와 같다. 이 경우, 프로세서(170)는 복수의 상황별 데이터베이스에 기초하여 복수의 상황별 영상 생성 모델을 생성할 수 있다. 한편, 프로세서(170)는 복수의 상황별 데이터베이스에 기초하여 복수의 상황별 음성 생성 모델도 또한 생성할 수 있다.According to various embodiments, the database 161 may include a plurality of context-specific databases corresponding to a plurality of contexts. For example, the plurality of situations may include at least one of an utterance situation between intimacy, a utterance situation in a public situation, a situation uttered at an angle, an utterance situation in an urgent situation, and a situation uttered in an investigation. In addition to the situations exemplified above, various situations may be set. The content of data that can be included in the database for each situation is the same as described with respect to the various embodiments described above. In this case, the processor 170 may generate a plurality of contextual image generation models based on the plurality of contextual databases. Meanwhile, the processor 170 may also generate a plurality of contextual voice generation models based on the plurality of contextual databases.
다양한 실시예에 따라서, 데이터베이스(161)에 기초하여 음성 및 영상 생성 모델(162,163)을 생성하는 과정은 딥러닝을 통하여 이루어질 수 있다.According to various embodiments, the process of generating the voice and image generation models 162 and 163 based on the database 161 may be performed through deep learning.
220 동작에서, 프로세서(170)는 통신부(180)를 통하여, 사용자 장치(101)로부터 제1 텍스트(191)를 수신할 수 있다. In operation 220 , the processor 170 may receive the first text 191 from the user device 101 through the communication unit 180 .
다양한 실시예에 따라서, 데이터베이스(161)가 복수의 인물에 대응하는 복수의 인물별 데이터베이스를 포함하는 경우, 220 동작에서, 프로세서(170)는 통신부(180)를 통하여, 사용자 장치(101)로부터 복수의 인물 중 사용자가 선택한 제1 인물에 대한 정보를 더 수신할 수 있다. 다양한 실시예에 따라서, 데이터베이스(161)가 복수의 상황에 대응하는 복수의 상황별 데이터베이스를 포함하는 경우, 220 동작에서, 프로세서(170)는 통신부(180)를 통하여, 사용자 장치(101)로부터 복수의 상황 중 사용자가 선택한 제1 상황에 대한 정보를 더 수신할 수 있다.According to various embodiments, when the database 161 includes a plurality of person-specific databases corresponding to a plurality of persons, in operation 220 , the processor 170 receives the plurality of data from the user device 101 through the communication unit 180 . Information on the first person selected by the user from among the people of . According to various embodiments, when the database 161 includes a plurality of context-specific databases corresponding to a plurality of contexts, in operation 220 , the processor 170 receives the plurality of data from the user device 101 through the communication unit 180 . Information on the first situation selected by the user may be further received among the situations of .
230 동작에서, 프로세서(170)는 영상 생성 모델(162163)에 기초하여, 제1 텍스트에 대응하는 제1 영상을 생성할 수 있다. 다양한 실시예에 따라서, 데이터베이스(161)가 음성 데이터베이스 및 영상 이미지 데이터베이스를 포함하고, 영상 생성 모델(162163)이 음성 생성 모델 및 영상 이미지 생성 모델을 포함하는 경우 또는 음성 생성 모델(162)이 음성 생성 모델을 포함하고 영상 생성 모델(163)이 영상 이미지 생성 모델을 포함하는 경우, 프로세서(170)는 음성 생성 모델 및 제1 텍스트에 기초하여, 제1 상기 텍스트에 대응하는 제1 음성을 생성하고, 영상 이미지 생성 모델 및 제1 음성에 기초하여, 제1 상기 음성에 대응하는 제1 영상 이미지를 생성하고, 제1 음성 및 제1 영상 이미지를 합성함으로써 제1 영상을 생성할 수 있다.In operation 230 , the processor 170 may generate a first image corresponding to the first text based on the image generation model 162163 . According to various embodiments, when the database 161 includes an audio database and a video image database, and the image generation model 162163 includes an audio generation model and a video image generation model, or the audio generation model 162 generates a voice When the model includes a model and the image generation model 163 includes a video image generation model, the processor 170 generates a first voice corresponding to the first text based on the voice generation model and the first text, The first video may be generated by generating a first video image corresponding to the first audio based on the video image generation model and the first audio, and synthesizing the first audio and the first video image.
다양한 실시예에 따라서, 데이터베이스(161)가 영상 데이터베이스를 포함하고, 영상 생성 모델(162163)이 텍스트와에 기초하여 음성에 기초하여 음성 및 영상 이미지를 포함하는 영상을 생성하는 영상 생성 모델을 포함하는 경우, 프로세서(170)는 영상 생성 모델 및 제1 텍스트에 기초하여, 제1 텍스트에 대응하는 제1 음성 및 제1 영상 이미지를 포함하는 제1 영상을 생성할 수 있다.According to various embodiments, the database 161 includes an image database, and the image generation model 162163 includes an image generation model that generates an image including an audio and a video image based on a voice based on text and a video image. In this case, the processor 170 may generate a first image including a first voice corresponding to the first text and a first video image, based on the image generation model and the first text.
다양한 실시예에 따라서, 사용자 장치(101)로부터 복수의 인물 중 사용자가 선택한 제1 인물에 대한 정보를 더 수신된 경우, 프로세서(170)는 복수의 인물 중 사용자가 선택한 제1 인물에 대응되는 인물별 음성 또는/및 영상 생성 모델 및 제1 텍스트에 기초하여, 제1 상기 텍스트에 대응하는 제1 영상을 생성할 수 있다.According to various embodiments of the present disclosure, when information on the first person selected by the user from among the plurality of persons is further received from the user device 101 , the processor 170 determines the person corresponding to the first person selected by the user from among the plurality of persons A first image corresponding to the first text may be generated based on the star voice or/and image generation model and the first text.
다양한 실시예에 따라서, 사용자 장치(101)로부터 복수의 상황 중 사용자가 선택한 제1 상황에 대한 정보를 더 수신된 경우, 프로세서(170)는 복수의 상황 중 사용자가 선택한 제1 상황에 대응되는 상황별 음성 또는/및 영상 생성 모델 및 제1 텍스트에 기초하여, 제1 상기 텍스트에 대응하는 제1 영상을 생성할 수 있다.According to various embodiments of the present disclosure, when information on a first situation selected by the user from among a plurality of situations is further received from the user device 101 , the processor 170 is configured to determine a situation corresponding to the first situation selected by the user from among the plurality of situations A first image corresponding to the first text may be generated based on the star voice or/and image generation model and the first text.
240 동작에서, 프로세서(170)는 통신부(180)를 통하여 제1 영상(192)을 사용자 장치(101)에 송신할 수 있다.In operation 240 , the processor 170 may transmit the first image 192 to the user device 101 through the communication unit 180 .
도 3은 본 발명의 일 실시예에 따른 사용자 장치에서 수행되는 동작들을 나타내는 흐름도이다.3 is a flowchart illustrating operations performed by a user device according to an embodiment of the present invention.
310 동작에서, 사용자 장치(101)의 프로세서(120)는 입력 인터페이스(140)를 통하여 제1 텍스트의 입력을 확인할 수 있다.In operation 310 , the processor 120 of the user device 101 may confirm the input of the first text through the input interface 140 .
320 동작에서, 사용자 장치(101)의 프로세서(120)는 통신부(110)를 통하여 제1 텍스트(191)를 서버(106)에 전송할 수 있다.In operation 320 , the processor 120 of the user device 101 may transmit the first text 191 to the server 106 through the communication unit 110 .
330 동작에서, 사용자 장치(101)의 프로세서(120)는 통신부(110)를 통하여 서버(106)로부터, 제1 텍스트(191)에 대응하는 제1 영상(192)을 수신할 수 있다.In operation 330 , the processor 120 of the user device 101 may receive the first image 192 corresponding to the first text 191 from the server 106 through the communication unit 110 .
340 동작에서, 사용자 장치(101)의 프로세서(120)는 출력 인터페이스(150)를 통하여 제1 영상(192)을 출력할 수 있다.In operation 340 , the processor 120 of the user device 101 may output the first image 192 through the output interface 150 .
본 발명의 실시예에 따른 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다. The operation according to the embodiment of the present invention can be implemented as a computer-readable program or code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices in which data that can be read by a computer system is stored. In addition, the computer-readable recording medium may be distributed in a network-connected computer system to store and execute computer-readable programs or codes in a distributed manner.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.In addition, the computer-readable recording medium may include a hardware device specially configured to store and execute program instructions, such as ROM, RAM, and flash memory. The program instructions may include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다. Although some aspects of the invention have been described in the context of an apparatus, it may also represent a description according to a corresponding method, wherein a block or apparatus corresponds to a method step or feature of a method step. Similarly, aspects described in the context of a method may also represent a corresponding block or item or a corresponding device feature. Some or all of the method steps may be performed by (or using) a hardware device such as, for example, a microprocessor, programmable computer or electronic circuit. In some embodiments, one or more of the most important method steps may be performed by such an apparatus.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그래머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.In embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functions of the methods described herein. In embodiments, the field programmable gate array may operate in conjunction with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by some hardware device.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art can variously modify and change the present invention within the scope without departing from the spirit and scope of the present invention as set forth in the claims below. You will understand that it can be done.

Claims (10)

  1. 서버에 있어서,in the server,
    사용자 장치와 통신을 수행하도록 구성되는 통신부;,a communication unit configured to communicate with the user device;
    프로세서;, 및 processor; and
    메모리를 포함하고,including memory;
    상기 메모리는 텍스트에 기초하여 영상을 생성하기 위한 데이터베이스를 포함하고,The memory includes a database for generating an image based on the text,
    상기 프로세서는, The processor is
    상기 데이터베이스에 기초하여 영상 생성 모델을 생성하고,generating an image generation model based on the database;
    상기 통신부를 통하여 상기 사용자 장치로부터 제1 텍스트를 수신하고,receiving the first text from the user device through the communication unit;
    상기 영상 생성 모델에 기초하여, 상기 제1 텍스트에 대응하는 제1 영상을 생성하고,generating a first image corresponding to the first text based on the image generation model;
    상기 제1 영상을 상기 통신부를 통하여 상기 사용자 장치에 송신하도록 구성되는, 서버.and transmit the first image to the user device through the communication unit.
  2. 청구항 1에 있어서,The method according to claim 1,
    상기 데이터베이스는, 텍스트와 텍스트에 대응하는 음성의 페어를 복수 개 포함하는 음성 데이터베이스, 및 음성과 음성에 대응하는 영상 이미지의 페어를 복수 개 포함하는 영상 이미지 데이터베이스를 포함하고,The database includes an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of audio and video images corresponding to the audio,
    상기 프로세서는 상기 영상 생성 모델을 생성하기 위하여, The processor to generate the image generation model,
    상기 음성 데이터베이스에 기초하여, 텍스트에 기초하여 음성을 생성하는 음성 생성 모델을 생성하고,generating a voice generation model for generating voice based on text, based on the voice database;
    상기 영상 이미지 데이터베이스에 기초하여, 상기 생성한 음성에 기초하여 영상 이미지를 생성하는 영상 이미지 생성 모델을 생성하도록 구성되고,configured to generate a video image generation model for generating a video image based on the generated voice based on the video image database,
    상기 프로세서는 상기 제1 텍스트에 대응하는 상기 제1 영상을 생성하기 위하여,The processor generates the first image corresponding to the first text,
    상기 음성 생성 모델 및 상기 제1 텍스트에 기초하여, 상기 제1 텍스트에 대응하는 제1 음성을 생성하고,generating a first voice corresponding to the first text based on the voice generation model and the first text;
    상기 영상 이미지 생성 모델 및 상기 제1 음성에 기초하여, 상기 제1 음성에 대응하는 제1 영상 이미지를 생성하고,generating a first video image corresponding to the first audio based on the video image generation model and the first audio;
    상기 제1 음성 및 상기 제1 영상 이미지를 합성하여 상기 제1 영상을 생성하도록 구성되는, 서버.and generate the first video by synthesizing the first audio and the first video image.
  3. 청구항 1에 있어서,The method according to claim 1,
    상기 데이터베이스는 복수의 인물에 대응하는 복수의 인물별 데이터베이스를 포함하고,The database includes a plurality of person-specific databases corresponding to the plurality of persons,
    상기 프로세서는,The processor is
    상기 복수의 인물별 데이터베이스에 기초하여 복수의 인물별 영상 생성 모델을 생성하도록 구성되는, 서버.and generate a plurality of person-specific image generation models based on the plurality of person-specific databases.
  4. 청구항 3에 있어서, 4. The method according to claim 3,
    상기 프로세서는,The processor is
    상기 통신부를 통하여 상기 사용자 장치로부터 상기 복수의 인물 중 제1 인물에 대한 선택 정보를을 수신하고,receiving selection information about a first person among the plurality of people from the user device through the communication unit;
    상기 복수의 인물별 영상 생성 모델 중, 상기 제1 인물에 대응하는 제1 인물별 영상 생성 모델에 기초하여 상기 제1 영상을 생성하도록 구성되는, 서버.and generate the first image based on a first person-specific image generation model corresponding to the first person among the plurality of person-specific image generation models.
  5. 서버에서 수행되는 방법에 있어서,In the method performed on the server,
    텍스트에 기초하여 영상을 생성하기 위한 데이터베이스를 저장하는 동작,an operation of storing a database for generating an image based on the text;
    상기 데이터베이스에 기초하여 영상 생성 모델을 생성하는 동작,generating an image generation model based on the database;
    상기 사용자 장치로부터 제1 텍스트를 수신하는 동작,receiving a first text from the user device;
    상기 영상 생성 모델에 기초하여, 상기 제1 텍스트에 대응하는 제1 영상을 생성하는 동작, 및generating a first image corresponding to the first text based on the image generation model; and
    상기 제1 영상을 상기 사용자 장치에 송신하는 동작을 포함하는, 방법.and transmitting the first image to the user device.
  6. 청구항 5에 있어서,6. The method of claim 5,
    상기 데이터베이스는 텍스트와 텍스트에 대응하는 음성의 페어를 복수 개 포함하는 음성 데이터베이스, 및 음성과 음성에 대응하는 영상 이미지의 페어를 복수 개 포함하는 영상 이미지 데이터베이스를 포함하고,The database includes an audio database including a plurality of pairs of text and audio corresponding to the text, and a video image database including a plurality of pairs of audio and video images corresponding to the audio,
    상기 영상 생성 모델을 생성하는 동작은, The operation of generating the image generation model includes:
    상기 음성 데이터베이스에 기초하여, 텍스트에 기초하여 음성을 생성하는 음성 생성 모델을 생성하는 동작, 및generating, based on the speech database, a speech generation model for generating speech based on text; and
    상기 영상 이미지 데이터베이스에 기초하여, 음성에 기초하여 영상 이미지를 생성하는 영상 이미지 생성 모델을 생성하는 동작을 포함하고,Based on the video image database, comprising the operation of generating a video image generation model for generating a video image based on a voice,
    상기 제1 텍스트에 대응하는 상기 제1 영상을 생성하는 동작은,The operation of generating the first image corresponding to the first text includes:
    상기 음성 생성 모델 및 상기 제1 텍스트에 기초하여, 상기 제1 텍스트에 대응하는 제1 음성을 생성하는 동작, generating a first voice corresponding to the first text based on the voice generation model and the first text;
    상기 영상 이미지 생성 모델 및 상기 제1 음성에 기초하여, 상기 제1 음성에 대응하는 제1 영상 이미지를 생성하는 동작, 및generating a first video image corresponding to the first audio based on the video image generation model and the first audio; and
    상기 제1 음성 및 상기 제1 영상 이미지를 합성하여 상기 제1 영상을 생성하는 동작을 포함하는, 방법.and generating the first video by synthesizing the first audio and the first video image.
  7. 청구항 5에 있어서,6. The method of claim 5,
    상기 데이터베이스는 복수의 인물에 대응하는 복수의 인물별 데이터베이스를 포함하고,The database includes a plurality of person-specific databases corresponding to the plurality of persons,
    상기 데이터베이스에 기초하여 영상 생성 모델을 생성하는 동작은, 상기 복수의 인물별 데이터베이스에 기초하여 복수의 인물별 영상 생성 모델을 생성하는 동작을 포함하는, 방법.The generating of the image generation model based on the database includes generating a plurality of image generation models for each person based on the plurality of person-specific databases.
  8. 청구항 7에 있어서,8. The method of claim 7,
    상기 사용자 장치로부터 상기 복수의 인물 중 제1 인물에 대한 선택 정보를을 수신하는 동작을 더 포함하고, The method further includes receiving selection information about a first person among the plurality of people from the user device,
    상기 제1 텍스트에 대응하는 상기 제1 영상을 생성하는 동작은,The operation of generating the first image corresponding to the first text includes:
    상기 복수의 인물별 영상 생성 모델 중, 상기 제1 인물에 대응하는 제1 인물별 영상 생성 모델에 기초하여 상기 제1 영상을 생성하는 동작을 포함하는, 방법.and generating the first image based on a first person-specific image generation model corresponding to the first person among the plurality of person-specific image generation models.
  9. 명령어를 저장하는 비일시적 저장 매체에 있어서, 상기 명령어는 전자 장치에 의하여 실행될 때, 전자 장치로 하여금,A non-transitory storage medium for storing instructions, wherein the instructions, when executed by an electronic device, cause the electronic device to:
    제1 텍스트를 입력받고,Receive the first text input,
    상기 제1 텍스트를, 텍스트에 기초하여 영상을 생성하기 위한 데이터베이스 및 상기 데이터베이스에 기초한 영상 생성 모델을 포함하는 서버에 전송하고,transmitting the first text to a server including a database for generating an image based on the text and an image generation model based on the database,
    상기 서버로부터 상기 제1 텍스트에 대응하는 제1 영상을 수신하고,receiving a first image corresponding to the first text from the server;
    상기 제1 영상을 출력하도록 하는, 비일시적 저장 매체.A non-transitory storage medium configured to output the first image.
  10. 청구항 9에 있어서, 상기 명령어는 전자 장치에 의하여 실행될 때, 전자 장치로 하여금,The method of claim 9, wherein the instruction, when executed by the electronic device, causes the electronic device to:
    복수의 인물을 표시하고,display multiple people,
    상기 복수의 인물 중 제1 인물에 대한 선택을 입력받고,receiving a selection of a first person among the plurality of persons;
    상기 제1 인물에 대한 선택을 상기 서버에 전송하도록 하고,to transmit the selection of the first person to the server;
    상기 제1 영상은, 상기 제1 인물에 대응하는 인물별 영상 생성 모델에 기초하여 상기 서버에서 생성되는, 비일시적 저장 매체.The first image is generated in the server based on an image generation model for each person corresponding to the first person, a non-transitory storage medium.
PCT/KR2021/013271 2020-10-23 2021-09-28 Method for generating image on basis of user data text, electronic device therefor, and method for generating image on basis of text WO2022085970A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0138104 2020-10-23
KR1020200138104A KR20220053863A (en) 2020-10-23 2020-10-23 Electronic device generating video based on text and method for generating video based on user data and electronic device therefortext

Publications (1)

Publication Number Publication Date
WO2022085970A1 true WO2022085970A1 (en) 2022-04-28

Family

ID=81290699

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/013271 WO2022085970A1 (en) 2020-10-23 2021-09-28 Method for generating image on basis of user data text, electronic device therefor, and method for generating image on basis of text

Country Status (2)

Country Link
KR (1) KR20220053863A (en)
WO (1) WO2022085970A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040076524A (en) * 2003-02-26 2004-09-01 주식회사 메세지 베이 아시아 Method to make animation character and System for Internet service using the animation character
KR20200045852A (en) * 2018-10-23 2020-05-06 스마트이어 주식회사 Speech and image service platform and method for providing advertisement service
JP2020123817A (en) * 2019-01-30 2020-08-13 シャープ株式会社 Image forming system, image forming apparatus, image forming method, and program
JP2020140326A (en) * 2019-02-27 2020-09-03 みんとる合同会社 Content generation system and content generation method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040076524A (en) * 2003-02-26 2004-09-01 주식회사 메세지 베이 아시아 Method to make animation character and System for Internet service using the animation character
KR20200045852A (en) * 2018-10-23 2020-05-06 스마트이어 주식회사 Speech and image service platform and method for providing advertisement service
JP2020123817A (en) * 2019-01-30 2020-08-13 シャープ株式会社 Image forming system, image forming apparatus, image forming method, and program
JP2020140326A (en) * 2019-02-27 2020-09-03 みんとる合同会社 Content generation system and content generation method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FILNTISIS PANAGIOTIS PARASKEVAS; KATSAMANIS ATHANASIOS; TSIAKOULIS PIRROS; MARAGOS PETROS: "Video-realistic expressive audio-visual speech synthesis for the Greek language", SPEECH COMMUNICATION, vol. 95, 1 January 1900 (1900-01-01), NL , pages 137 - 152, XP085288312, ISSN: 0167-6393, DOI: 10.1016/j.specom.2017.08.011 *

Also Published As

Publication number Publication date
KR20220053863A (en) 2022-05-02

Similar Documents

Publication Publication Date Title
US6377925B1 (en) Electronic translator for assisting communications
WO2011074771A2 (en) Apparatus and method for foreign language study
US10741172B2 (en) Conference system, conference system control method, and program
WO2020256471A1 (en) Method and device for generating speech video on basis of machine learning
WO2021118179A1 (en) User terminal, video call device, video call system, and control method for same
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
WO2016117962A1 (en) Method and user terminal for providing hologram image-based message service, and hologram image display device
WO2019164234A1 (en) Method to learn personalized intents
WO2018021651A1 (en) Offline character doll control apparatus and method using emotion information of user
WO2021006538A1 (en) Avatar visual transformation device expressing text message as v-moji and message transformation method
WO2019004582A1 (en) Real-time voice recognition apparatus equipped with asic chip and smartphone
WO2020256475A1 (en) Method and device for generating speech video by using text
WO2022092439A1 (en) Speech image provision method, and computing device for performing same
WO2018182063A1 (en) Video call providing device, method, and computer program
WO2013125915A1 (en) Method and apparatus for processing information of image including a face
WO2019031621A1 (en) Method and system for recognizing emotion during telephone call and utilizing recognized emotion
CN113850898A (en) Scene rendering method and device, storage medium and electronic equipment
WO2018169276A1 (en) Method for processing language information and electronic device therefor
WO2022085970A1 (en) Method for generating image on basis of user data text, electronic device therefor, and method for generating image on basis of text
EP3493048A1 (en) Translation device and translation system
WO2015037871A1 (en) System, server and terminal for providing voice playback service using text recognition
WO2022255850A1 (en) Chat system and providing method capable of supporting multilingual translation
WO2021118180A1 (en) User terminal, broadcasting apparatus, broadcasting system comprising same, and control method thereof
WO2021118184A1 (en) User terminal and control method therefor
WO2022065603A1 (en) Text-based voice synthesis method and device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21883042

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07.08.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21883042

Country of ref document: EP

Kind code of ref document: A1