WO2023090419A1 - コンテンツ生成装置、コンテンツ生成方法、及びプログラム - Google Patents

コンテンツ生成装置、コンテンツ生成方法、及びプログラム Download PDF

Info

Publication number
WO2023090419A1
WO2023090419A1 PCT/JP2022/042847 JP2022042847W WO2023090419A1 WO 2023090419 A1 WO2023090419 A1 WO 2023090419A1 JP 2022042847 W JP2022042847 W JP 2022042847W WO 2023090419 A1 WO2023090419 A1 WO 2023090419A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
image
content
user
unit
Prior art date
Application number
PCT/JP2022/042847
Other languages
English (en)
French (fr)
Inventor
平 張
汐里 多田
Original Assignee
凸版印刷株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 凸版印刷株式会社 filed Critical 凸版印刷株式会社
Publication of WO2023090419A1 publication Critical patent/WO2023090419A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a content generation device, a content generation method, and a program.
  • This application claims priority based on Japanese Patent Application No. 2021-188791 filed in Japan on November 19, 2021, the content of which is incorporated herein.
  • Patent Literature 1 discloses a technique for promoting document-related communication between users by using an independent and moving character as an avatar.
  • voice data that is a recording of the user's voice is prepared in advance, and the facial expression of the avatar is defined to change when the voice data is played back. You can make it look like an avatar is reading it. This allows, for example, an avatar to give a presentation on behalf of the user who is the speaker.
  • an object of the present invention is to provide a content generation device, a content generation method, and a program capable of reducing the sense of incongruity given to listeners when reading out text and expressing more like the real person. be.
  • a content generation device includes an acquisition unit that acquires text data indicating a first text to be read aloud, a second text to be learned by a user.
  • the first text indicated by the acquired text data is obtained by using a speech generation model that has learned how to read the second text by the user's voice based on the voice when the user's voice is read.
  • a synthesizing unit for synthesizing the generated synthesized speech and the image of the user to generate synthetic content.
  • a content generation method includes an acquisition process in which an acquisition unit acquires text data indicating a first text to be read aloud; The first text indicated by the acquired text data is obtained by using a speech generation model that has learned how to read the second text by the user's voice based on the voice when the text is read out.
  • a program comprises an acquisition unit configured to acquire text data indicating a first text to be read aloud, and a second text to be learned by a user based on voice read aloud. generating synthesized speech in which the first text indicated by the acquired text data is read aloud by the user's voice, using a speech generation model that has learned how to read the second text by the user's voice. It functions as a voice generating unit and a synthesizing unit that synthesizes the generated synthetic voice and the user's personal image to generate synthesized content.
  • FIG. 4 is a flow chart showing an example of the flow of processing in generating a speech generation model according to the embodiment; 6 is a flow chart showing an example of the flow of processing in generating an image generation model according to the present embodiment; 6 is a flow chart showing an example of the flow of processing in generating a synthetic moving image according to the embodiment; It is a figure which shows an example of the synthetic
  • FIG. 11 is a flowchart showing an example of the flow of processing in generating a synthetic moving image according to a modified example of the present embodiment; FIG. It is a figure which shows an example of the synthetic
  • FIG. 1 is a diagram showing an example of the configuration of a content generation system according to this embodiment.
  • the content generation system 1 includes a user terminal 10 and a content generation device 20 .
  • the user terminal 10 and the content generation device 20 are communicably connected via a network NW.
  • NW network
  • the user terminal 10 and the content generation device 20 may be connected by either wired communication or wireless communication.
  • the content generation system 1 is a system for generating content in which a user's digital clone explains materials on behalf of the user.
  • the contents are, for example, image contents, web contents, 3D (three-dimensional) contents, 3D hologram contents, and the like.
  • Image content is content that displays a digital clone using images such as still images and moving images (video).
  • Web content is content that displays a digital clone in a 3D space displayed on a web browser.
  • 3D content is content that lets a 3D digital clone do the talking.
  • a 3D hologram is content that projects a digital clone using a 3D hologram.
  • a digital clone is a digitized copy of a user.
  • the digital clone is represented by the user's own image (hereinafter also referred to as "personal image”), and the user's own voice (hereinafter also referred to as "personal voice”) reads out the text of the material.
  • the content generation system 1 generates content by synthesizing user's voice, user's image, material image, and the like.
  • Content generated by synthesis is hereinafter also referred to as "synthetic content”.
  • Synthetic content is generated by synthesizing according to the content used by the user, such as image content, web content, 3D content, and 3D hologram content.
  • the content used by the user is image content
  • the content generation system 1 synthesizes the user's voice, the user's image, the image of the material, etc.
  • the digital clone explains the material (hereinafter referred to as "composite animation ) will be described as a synthetic content.
  • the content generation system 1 generates content based on material data.
  • the material data includes data indicating the first text to be read aloud (hereinafter also referred to as "text data") and data displayed corresponding to the contents of the text data (hereinafter also referred to as “display data”).
  • an example in which the material is used for presentation will be described as an example.
  • material data hereinafter also referred to as “presentation data”
  • PowerPoint data is data that includes both text data and display data.
  • the text data is the text entered in the note section.
  • the display data are mainly slides, and may include moving images and animations attached to the slides.
  • the content generation system 1 generates a voice in which the first text is read aloud by the user's own voice (hereinafter also referred to as "synthesized voice") based on the text data.
  • the content generation system 1 generates synthesized speech using a learned model learned by machine learning.
  • the trained model that generates synthesized speech is a model that has learned how to read the second text with the user's voice based on the speech when the user reads out the second text to be learned (hereinafter referred to as "speech generation (also referred to as "model”).
  • the reading style of the user to be learned includes, for example, intonation, accent, reading speed, and the like unique to the user.
  • the speech generation model can generate and output synthetic speech that reads out the first text indicated by the text data in the same manner as the user's own speech.
  • the content generation system 1 inputs the text data of the presentation data to the speech generation model, and acquires synthesized speech in which the first text indicated by the text data is read aloud in the same way as the user's own speech. can be done.
  • the content generation system 1 generates a personal image for digital clone (hereinafter also referred to as a “compositing personal image”) based on the user's personal image.
  • the personal image for synthesis may be either a still image or a moving image (video).
  • the content generation system 1 generates a personal image for synthesis using a learned model learned by machine learning.
  • a trained model for generating a personal image for synthesis is a model (hereinafter also referred to as an “image generation model”) that has learned user actions based on the user's personal image.
  • the user's actions to be learned are, for example, the user's facial movements and gestures.
  • the movement of the user's face is, for example, a movement of the mouth and a change in facial expression according to the reading.
  • Gestures are, for example, head movements and gestures in response to reading.
  • the image generation model can generate and output a synthesized person image in which the user's actions change according to the voice.
  • the content generation system 1 inputs the synthetic voice generated based on the text data of the presentation data to the image generation model, and the person's image whose action changes according to the synthetic voice is used as the person's image for synthesis. can be obtained.
  • the content generation system 1 generates data representing a digital clone of the user (hereinafter also referred to as “clone data”) by synthesizing the generated synthetic voice and the personal image for synthesis.
  • clone data data representing a digital clone of the user
  • the first text to be read aloud is read aloud by the user's own voice
  • the person's image changes according to the contents of the first text as if the user is performing an action.
  • the user's mouth or facial expression changes in accordance with the first text being read out (output of the user's voice), or the user seems to move his or her head or make gestures. change to In this way, by changing the user's own image in accordance with the user's own voice, it is possible to reduce the gap between the voice and the image and reduce the sense of discomfort given to the listener.
  • the clone data is generated in a data format corresponding to content used by the user, such as image content, web content, 3D content, and 3D hologram content.
  • content used by the user is image content
  • clone moving image a moving image representing a digital clone of the user
  • the content generation system 1 generates an image (hereinafter also referred to as “display image”) displayed in correspondence with the synthesized speech based on the display data.
  • the content generation system 1 also generates text data (hereinafter also referred to as “subtitle text”) to be displayed as subtitles based on the text data. Then, the content generation system 1 synthesizes the clone moving image, the display image, and the subtitle text, thereby generating a moving image in which the user's digital clone explains the contents of the material as a synthesized moving image.
  • a synthetic video is an example of content generated by the content generation system 1 .
  • a digital clone of the user reads out the first text according to the content of the displayed material. This makes it appear as if a digital clone of the user is explaining the material on behalf of the user.
  • a user terminal 10 is a terminal used by a user.
  • the user terminal 10 includes an input device (mouse, keyboard, touch panel, etc.), an output device (display, speaker, etc.), a central processing unit, and the like.
  • any terminal such as a PC (Personal Computer), a smart phone, a tablet, or the like may be used.
  • the user operates the user terminal 10 to upload to the content generation device 20 information necessary for generating (learning) the speech generation model and the image generation model, and information necessary for generating a synthesized moving image.
  • the information necessary for generating the speech generation model is the speech (hereinafter also referred to as "learning speech") read by the user from the second text to be learned.
  • the training speech is generated, for example, by having the user actually read out about 200 second texts.
  • the information necessary for generating the image generation model is the user's personal image for learning (hereinafter also referred to as “learning personal image”).
  • the person image for learning may be either a still image or a moving image (video), but the image generation model can learn the change of the user's motion with higher accuracy with the moving image.
  • Information necessary for generating a synthetic moving image is presentation data.
  • the content generation device 20 Based on the uploaded presentation data, the content generation device 20 generates a synthetic moving image using a sound generation model and an image generation model.
  • the user can operate the user terminal 10 to download and reproduce the composite moving image from the content generation device 20, thereby allowing the digital clone to give a presentation on behalf of the user.
  • the content generation device 20 is a device that generates a synthetic moving image (an example of content).
  • the content generation device 20 includes an input device (mouse, keyboard, touch panel, etc.), an output device (display, speaker, etc.), a central processing unit, and the like.
  • the content generation device 20 is, for example, a server device realized by a PC (Personal Computer).
  • the content generation device 20 generates a sound generation model, an image generation model, and a synthetic moving image based on various information uploaded from the user terminal 10 . Specifically, the content generation device 20 generates a speech generation model based on the learning speech uploaded from the user terminal 10 . In addition, the content generation device 20 generates an image generation model based on the personal image for learning uploaded from the user terminal 10 . Also, the content generation device 20 generates a display image based on the display data of the presentation data uploaded from the user terminal 10 . Also, the content generation device 20 generates caption text based on the text data of the presentation data uploaded from the user terminal 10 .
  • the content generation device 20 inputs the text data of the presentation data uploaded from the user terminal 10 to the speech generation model to generate synthesized speech, inputs the generated synthesized speech to the image generation model, and produces a personal image for synthesis. is generated, and the generated synthetic voice and the personal image for synthesis are synthesized to generate a clone video. Then, the content generation device 20 synthesizes the generated display image, caption text, and clone video to generate a composite video.
  • the content generation device 20 includes a communication section 210 , an input section 220 , a storage section 230 , a control section 240 and an output section 250 .
  • the communication unit 210 has a function of transmitting and receiving various information.
  • the communication unit 210 communicates with the user terminal 10 via the network NW.
  • the communication unit 210 receives learning speech, which is information necessary for generating a speech production model.
  • the communication unit 210 receives a training person image, which is information necessary for generating an image generation model, in communication with the user terminal 10 .
  • the communication unit 210 receives presentation data, which is information necessary for generating a synthetic video, in communication with the user terminal 10 .
  • the communication unit 210 transmits a synthetic moving image in communication with the user terminal 10 .
  • Input unit 220 has a function of receiving an input.
  • the input unit 220 receives input of information input by an input device such as a mouse, keyboard, or touch panel provided as hardware in the content generation device 20 .
  • the storage unit 230 has a function of storing various information.
  • the storage unit 230 includes a storage medium provided as hardware in the content generation device 20, such as a HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), RAM (Random Access Memory), and so on. read/write memory), ROM (Read Only Memory), or any combination of these storage media.
  • the storage unit 230 stores a speech generation model 231 and an image generation model 232 .
  • the storage unit 230 may store learning voices, learning person images, presentation data, and the like received by the communication unit 210 from the user terminal 10 .
  • the storage unit 230 may also store display images, caption texts, synthetic voices, personal images for synthesis, clone videos, synthetic videos, and the like generated by the content generation device 20 .
  • Control unit 240 has a function of controlling the overall operation of the content generation device 20 .
  • the control unit 240 is implemented, for example, by causing a CPU (Central Processing Unit) provided as hardware in the content generation device 20 to execute a program.
  • the control unit 240 includes an acquisition unit 241, a learning unit 242, a division unit 243, a reproduction time determination unit 244, a subtitle generation unit 245, an audio generation unit 246, and an image generation unit 247. , a synthesizing unit 248 , and an output processing unit 249 .
  • a CPU Central Processing Unit
  • the acquisition unit 241 has a function of acquiring various information. For example, the acquisition unit 241 acquires the learning voice, the learning person's own image, and the presentation data received by the communication unit 210 from the user terminal 10 . Acquisition unit 241 acquires text data to be read aloud and display data to be displayed corresponding to the contents of the text data from the presentation data.
  • FIG. 2 to 4 are diagrams showing examples of presentation data according to this embodiment.
  • 2 to 4 show presentation data 30 composed of n (n is a natural number) slides 31-1 to 31-n.
  • n is a natural number
  • slides 31-1 to 31-n are displayed.
  • a slide selected from slides 31-1 to 31-n is displayed in the display area DA2 of the presentation data 30.
  • FIG. The display area DA3 of the presentation data 30 displays the first text corresponding to the slide selected from the slides 31-1 to 31-n.
  • FIG. 2 is a diagram showing the first slide. As shown in FIG. 2, the first slide 31-1 is displayed in the display area DA2, and the first text 32-1 corresponding to the slide 31-1 is displayed in the display area DA3.
  • FIG. 3 is a diagram showing the second slide. As shown in FIG. 3, the second slide 31-2 is displayed in the display area DA2, and the first text 32-2 corresponding to the slide 31-2 is displayed in the display area DA3.
  • FIG. 4 is a diagram showing the n-th slide. As shown in FIG. 4, the n-th slide 31-n is displayed in the display area DA2, and the first text 32-n corresponding to the slide 31-n is displayed in the display area DA3.
  • the acquisition unit 241 acquires the slides 31-1 to 31-n as display data from the presentation data 30, and acquires the first texts 32-1 to 32-n as text data.
  • the learning unit 242 has a function of generating a trained model. For example, the learning unit 242 generates a trained model by machine learning using learning data acquired by the acquisition unit 241 .
  • the learning unit 242 uses the learning voice acquired by the acquisition unit 241 as teacher data to machine-learn how to read the text using the user's voice.
  • the learning unit 242 when text data is input, generates and outputs a synthesized voice in which the first text indicated by the text data is read aloud by the user's own voice. to generate
  • the learning unit 242 transfers learning speech (teacher data) to an existing trained model that has learned text and how to read it out in advance, so that the original speech generation model 231 to generate Note that an existing trained model for generating the speech generation model 231 is pre-stored in the storage unit 230 .
  • An existing trained model for generating the speech generation model 231 has a dictionary indicating general intonations and accents, and can reproduce general intonations and accents.
  • the learning unit 242 allows one trained model to learn only the training speech of one user, thereby generating original speech of a plurality of users.
  • a model 231 can be generated.
  • the learning unit 242 performs transfer learning of the user's learning speech to the trained model of each language, thereby creating an original speech generation model for each language. 231 can be generated.
  • the learning unit 242 writes the generated speech generation model 231 to the storage unit 230 for storage.
  • the learning unit 242 machine-learns the motion of the user using the learning person image acquired by the acquisition unit 241 .
  • the learning unit 242 has already learned the image generation model 232 capable of generating and outputting a synthesized person image in which the user's behavior changes according to the input synthetic speech. Generate as a model.
  • the learning unit 242 performs transfer learning of a person's image for learning (teacher data) to an existing trained model that has learned changes in a person's motion in advance, so that the person's original image generation model 232 is generated.
  • An existing trained model for generating the image generation model 232 is pre-stored in the storage unit 230 .
  • the existing trained model for generating the image generation model 232 is, for example, a model in which mouth movements synchronized with speech are learned in advance using a GAN (Generative Adversarial Network).
  • GAN Generic Adversarial Network
  • the learning unit 242 learns only one user's personal image for learning for one trained model, thereby obtaining original images of a plurality of users.
  • a generative model 232 can be generated.
  • the learning unit 242 writes the generated image generation model 232 to the storage unit 230 for storage.
  • the dividing unit 243 has a function of dividing the first text (text data). For example, the dividing unit 243 divides the first text into a plurality of pieces based on an input indicating the division location of the first text. An input indicating a division point is, for example, a line feed. The dividing unit 243 divides the first text into a plurality of sentences at each line feed. By dividing the first text by the dividing unit 243, the first text is read out in units of divided sentences. As a result, the voice is interrupted each time one divided sentence is read aloud, so that the first text can be read aloud with a pause.
  • the division unit 243 divides the first text 32-2 into sentences of ““Digital Transformation” will be expanded” and sentences of “Our company will continue to measure...”. divided into two. Also, in the case of the first text 32-n shown in FIG. 4, no line feed is entered. Therefore, the dividing unit 243 does not divide the first text 32-n.
  • the playback time determination unit 244 has a function of determining the playback time of the composite moving image. For example, the playback time determination unit 244 determines the playback time of the synthetic video based on the number of characters of the first text. Specifically, the reproduction time determination unit 244 determines the reproduction time of the display image corresponding to the text data by converting the number of characters of the first text indicated by the text into time for each acquired text data. . Also, the playback time determination unit 244 may determine the playback time of the synthetic moving image based on the reading speed of the synthetic voice.
  • the reproduction time determination unit 244 determines the reproduction time of the display image corresponding to the text data by calculating the reading completion time based on the reading speed for each acquired text data. When there are a plurality of display images, the reproduction time determination unit 244 calculates the reproduction time of the composite moving image by totaling the reproduction times of the respective display images. Note that the playback time determination unit 244 may determine the playback time of the synthetic moving image based on both the number of characters in the first text and the reading speed.
  • the playback time determination unit 244 may determine the playback time of the synthetic video in consideration of the interval in reading the first text. For example, the reproduction time determination unit 244 calculates the time required for expression between sentences according to the number of sentences divided by the division unit 243, and adds it to the reproduction time calculated based on the number of characters and the reading speed described above.
  • Subtitle generation unit 245 has a function of generating subtitle text.
  • the subtitle generation unit 245 generates subtitle text based on the text data acquired by the acquisition unit 241 .
  • the caption generation unit 245 generates caption text for each sentence divided by the division unit 243 .
  • the subtitle generation unit 245 selects the language supported by the speech generation model 231.
  • Subtitle text may be generated by translating the text data accordingly.
  • the voice generator 246 has a function of generating synthetic voice.
  • the voice generation unit 246 uses the user's original voice generation model 231 to generate synthesized voice in which the first voice indicated by the text data acquired by the acquisition unit 241 is read out by the user's voice.
  • the speech generation unit 246 generates synthetic speech for each text data (sentence) divided by the division unit 243 .
  • the voice is interrupted every time one of the generated synthesized voices is read aloud, so that the first text indicated by the text data can be read aloud with a pause.
  • the speech generation unit 246 performs transfer learning based on learning speech (teacher data) in the first language used for learning by the speech generation model 231 corresponding to the first language.
  • a speech generation model 231 is used.
  • the speech generator 246 can generate synthesized speech in which the first text indicated by the text data indicated in the first language is read aloud by the user using the second language.
  • the image generator 247 has a function of generating various images for generating a composite moving image. For example, the image generation unit 247 generates a display image to be displayed corresponding to the synthesized speech based on the display data acquired by the acquisition unit 241 . Specifically, the image generator 247 generates a display image by converting display data into an image.
  • the image generation unit 247 uses the user's original image generation model 232 to generate a synthesis person's image in which the user's actions change according to the synthesized speech generated by the speech generation model 231 .
  • the image generation unit 247 generates a personal image for synthesis in which the movement of the user's face changes according to the reading by the synthesized voice.
  • the image generation unit 247 generates a personal image for synthesis in which the movement of the user's mouth and facial expression change according to the reading by the synthesized voice.
  • the image generation unit 247 may generate a personal image for synthesis that changes as if the user is gesturing according to the reading by the synthetic voice.
  • the image generation unit 247 generates a personal image for synthesis in which the user moves his or her head or makes gestures in response to reading by synthetic voice. In this manner, the image generating unit 247 generates a personal image for synthesis that reproduces the movement of the user himself/herself when the user reads out the text or gives a presentation. As a result, the clone of the clone moving image can read out text or give a presentation while moving more naturally like the user himself/herself.
  • the synthesizing unit 248 has a function of performing various syntheses. For example, the synthesizing unit 248 synthesizes at least the synthetic voice generated by the voice generating unit 246, the display image generated by the image generating unit 247, and the user's own image to generate a synthetic moving image. Specifically, the synthesizing unit 248 synthesizes the synthetic voice generated by the audio generating unit 246 and the personal image for synthesis generated by the image generating unit 247 to generate the clone moving image. Then, the synthesizing unit 248 synthesizes the display image and the generated clone moving image to generate a synthetic moving image.
  • the synthesizing unit 248 when there are multiple slides (display data) and multiple first texts (text data) like the presentation data shown in FIGS. , a synthesized voice, and a personal image for synthesis are generated. Therefore, the synthesizing unit 248 generates a clone moving image for each set of slides and the first text to generate a synthesized moving image. As a result, synthetic animations corresponding to the number of slides are generated from one piece of presentation data. The synthesizing unit 248 then synthesizes a plurality of synthesized moving images generated from one piece of presentation data to generate one final synthetic moving image.
  • the image generation unit 247 generates a person-in-person image for synthesis for each of a plurality of synthesized voices.
  • the synthesizing unit 248 generates one clone moving image by synthesizing a plurality of synthetic voices and a plurality of personal images for synthesis in association with each other.
  • the synthesizing unit 248 may synthesize the subtitle text generated by the subtitle generating unit 245 in addition to the display image and the clone video to generate a synthetic video.
  • the synthesizing unit 248 may synthesize so that only one subtitle text is displayed at a time, or may synthesize so that a plurality of subtitle texts are displayed at once. .
  • FIG. 5 to 7 are diagrams showing an example of a composite moving image according to this embodiment.
  • FIGS. 5 to 7 show parts of synthetic moving images generated based on the presentation data 30 shown in FIGS. 2 to 4, respectively.
  • FIG. 5 shows a synthetic moving image 40-1 generated based on the slide 31-1 and the first text 32-1 shown in FIG. 2 as part of the synthetic moving image generated based on the presentation data 30. ing.
  • the composite moving image 40-1 is composed of a display image 41-1, a clone moving image 42-1, and caption text 43-1.
  • the synthetic video 40-1 portion of the synthetic video is reproduced, the clone of the user displayed in the clone video 42-1 is displayed using the user's own voice in the user's own reading manner.
  • Read out subtitle text 43-1 After reading out the displayed subtitle text 43-1, the next subtitle text 43-1 is displayed.
  • FIG. 6 shows a synthetic moving image 40-2 generated based on the slide 31-2 and the first text 32-2 shown in FIG. 3 as part of the synthetic moving image generated based on the presentation data 30. ing.
  • the composite moving image 40-2 is composed of a display image 41-2, a clone moving image 42-2, and subtitle text 43-2.
  • the composite moving image 40-n is composed of a display image 41-n, a clone moving image 42-n, and subtitle text 43-n.
  • Synthetic animation 40-n is the last part of the synthetic animation.
  • the synthetic video 40-n part of the synthetic video is played in the same manner as the synthetic video 40-1 and the synthetic video 40-2, and when the playback of the synthetic video 40-n ends, the entire synthetic video is played. ends.
  • Output processing unit 249 has a function of controlling various outputs. For example, the output processing unit 249 transmits the synthesized video generated by the synthesizing unit 248 to the user terminal 10 . In addition, the output processing unit 249 may reproduce the synthesized moving image generated by the synthesizing unit 248, transmit the reproduced video and audio to the user terminal 10, and cause the user terminal 10 to output them.
  • Output unit 250 The output unit 250 has a function of outputting various information.
  • the output unit 250 is implemented by, for example, a display device such as a display or a touch panel provided as hardware in the content generation device 20, and an audio output device such as a speaker.
  • the output unit 250 outputs, for example, screens and sounds according to the input from the output processing unit 249 .
  • FIG. 8 is a flowchart showing an example of the flow of processing in generating the speech generation model 231 according to this embodiment.
  • the content generation device 20 generates and prepares an audio generation model 231 in advance in order to generate a synthetic moving image.
  • the acquisition unit 241 of the content generation device 20 acquires learning speech (step S101). Specifically, the acquisition unit 241 acquires the learning voice received from the user terminal 10 by the communication unit 210 of the content generation device 20 .
  • the learning unit 242 of the content generation device 20 generates the speech generation model 231 (step S102). Specifically, the learning unit 242 transfers the learning speech (teacher data) acquired by the acquisition unit 241 to an existing trained model that has learned in advance the second text to be learned and how to read it. By learning, the user's own original speech generation model 231 is generated. Note that an existing trained model for generating the speech generation model 231 is pre-stored in the storage unit 230 of the content generation device 20 .
  • the learning unit 242 writes the generated speech generation model 231 to the storage unit 230 and stores it (step S103).
  • FIG. 9 is a flowchart showing an example of the flow of processing in generating the image generation model 232 according to this embodiment.
  • the content generation device 20 generates and prepares an image generation model 232 in advance in order to generate a synthetic moving image.
  • the acquisition unit 241 acquires a learning person's image (step S201). Specifically, the acquisition unit 241 acquires the learning person image that the communication unit 210 received from the user terminal 10 .
  • the learning unit 242 generates the image generation model 232 (step S202). Specifically, the learning unit 242 performs transfer learning of the learning personal image (teacher data) acquired by the acquisition unit 241 to an existing trained model that has learned changes in human motion in advance, so that the user The original image generation model 232 of the person is generated. An existing trained model for generating image generation model 232 is stored in advance in storage unit 230 of content generation device 20 .
  • the learning unit 242 writes and stores the generated image generation model 232 in the storage unit 230 (step S203).
  • FIG. 10 is a flowchart showing an example of the flow of processing in generating a synthetic moving image according to this embodiment.
  • the acquisition unit 241 first acquires presentation data (step S301). Specifically, the acquisition unit 241 acquires the presentation data received by the communication unit 210 from the user terminal 10 .
  • the acquisition unit 241 acquires display data (step S302). Specifically, the acquiring unit 241 acquires slides included in the acquired presentation data as display data.
  • the image generation unit 247 of the content generation device 20 generates a display image (step S303). Specifically, the image generation unit 247 generates a display image by converting the display data acquired by the acquisition unit 241 into an image.
  • the acquisition unit 241 acquires text data (step S304). Specifically, the acquiring unit 241 acquires the first text of the notebook part included in the acquired presentation data as text data.
  • the division unit 243 of the content generation device 20 performs division processing (step S305). Specifically, the dividing unit 243 divides the first text acquired by the acquiring unit 241 into a plurality of sentences by dividing each line feed.
  • the playback time determination unit 244 of the content generation device 20 determines the playback time of the synthetic video (step S306). Specifically, the playback time determination unit 244 determines the playback time of the synthetic moving image based on the number of characters in the first text, the reading speed, the interval between the divided first texts, and the like.
  • the subtitle generation unit 245 of the content generation device 20 generates subtitle text (step S307). Specifically, the subtitle generation unit 245 generates the subtitle text in units of the divided first text.
  • the voice generation unit 246 of the content generation device 20 generates synthetic voice (step S308). Specifically, the speech generation unit 246 inputs the plurality of sentences divided by the division unit 243 into the speech generation model 231 stored in the storage unit 230 one by one. As a result, synthesized speech is generated by the speech generation model 231 . Then, the speech generation unit 246 acquires synthesized speech output from the speech generation model 231 .
  • the image generation unit 247 generates a personal image for synthesis (step S309). Specifically, the image generation unit 247 inputs the synthesized speech generated by the sound generation unit 246 to the image generation model 232 stored in the storage unit 230 one by one. As a result, the image generation model 232 generates the personal image for synthesis. Then, the image generation unit 247 acquires the personal image for synthesis output from the image generation model 232 .
  • the synthesizer 248 of the content generation device 20 generates a clone video (step S310). Specifically, the synthesizing unit 248 synthesizes the personal image for synthesis generated by the image generating unit 247 for each synthesized speech generated by the audio generating unit 246 to generate a clone moving image.
  • the synthesizing unit 248 generates a synthesized moving image (step S311). Specifically, the synthesizing unit 248 synthesizes the display image generated by the image generating unit 247, the caption text generated by the caption generating unit 245, and the synthesized clone moving image to generate a synthesized moving image. After generating the synthetic video, the content generation device 20 ends the process. Note that the content generation device 20 may write and store the generated synthetic video in the storage unit 230 or transmit it to the user terminal 10 as necessary.
  • the content generation device 20 includes the acquisition unit 241 , the audio generation unit 246 , the image generation unit 247 and the synthesis unit 248 .
  • Acquisition unit 241 acquires text data indicating the first text to be read aloud and display data displayed corresponding to the content of the text data.
  • the speech generation unit 246 uses the speech generation model 231 that has learned how to read the second text with the user's voice based on the speech when the user reads out the second text to be learned. Synthetic speech is generated in which the first text indicated by the text data is read aloud by the user's voice.
  • the image generator 247 generates a display image displayed in correspondence with the synthesized speech based on the acquired display data.
  • the synthesizing unit 248 synthesizes the generated synthetic voice and display image with the user's own image to generate synthetic content.
  • the content generation device 20 can reduce the sense of incongruity given to the listener in reading the text, and also make it possible to express the authenticity of the person.
  • the speech generation unit 246 may express the user's emotions with synthetic speech by adjusting parameters.
  • the speech generation unit 246 sets parameters according to the contents of the text data, for example, 80% joy and 20% surprise.
  • various emotions such as sadness and anger may be combined.
  • the voice generating unit 246 can generate synthetic voice that can express various emotions according to the contents of the text data, in addition to reading out the user's own style.
  • the content generation device 20 may have a function of editing the composite content generated by the composition unit 248 .
  • the user inputs editing content to the user terminal 10 .
  • the content generation device 20 edits the synthesized content according to the user's input to the user terminal 10 .
  • this function for example, it is possible to edit slides (display images), caption texts, voices of clone data, and personal images. Editing a slide allows editing the content of the slide, changing the display order of a plurality of slides, adding a new slide, deleting an existing slide, and the like.
  • a clone video obtained by synthesizing a plurality of synthesized voices and a plurality of personal images for synthesis is synthesized with one display image
  • the present invention is not limited to such an example.
  • a plurality of display images may be synthesized with respect to a clone moving image obtained by synthesizing one synthetic voice and one personal image for synthesis. In this case, a plurality of display images are switched and displayed until reading by one synthesized voice is completed.
  • the present invention is not limited to such an example.
  • the document data includes text data and display data, data created using Microsoft Word, data created using Microsoft Excel, PDF (Portable Document Format) data and so on.
  • the material data may be a combination of data containing only text data and data containing only display data.
  • the content generation system 1 may consist of only the content generation device 20 that can be directly operated by the user. That is, the content generation device 20 may also serve as the user terminal 10 . In this case, the user can generate and use the synthesized content without connecting the terminal to the network NW.
  • the functions of the content generation device 20 may be implemented by a plurality of devices. For example, functions for generating the speech generation model 231 and the image generation model 232 may be implemented by other devices. In this case, the content generation device 20 stores the audio generation model 231 and the image generation model 232 generated by another device in the storage unit 230, thereby generating synthesized content in the same manner as in the above embodiment. can.
  • the acquisition unit 241 acquires slides included in the presentation data as display data, and the image generation unit 247 converts the display data acquired by the acquisition unit 241 into an image to generate a display image.
  • the acquisition unit 241 acquires the text data read aloud by the digital clone and does not acquire the display data, and the image generation unit 247 generates a personal image for synthesis (digital clone ) and does not generate a display image displayed in correspondence with the synthesized speech.
  • a personal image for synthesis digital clone
  • the displayed synthesized video 50 is a video (clone video 52) obtained by synthesizing the synthesized speech and the digital clone 51.
  • the synthesized video 50 is generated by the image generation unit 247. Display images such as slides to be displayed are not included.
  • subtitle text may be displayed within the clone video 52 .
  • the caption generation unit 245 among the components of the content generation device 20 in the above embodiment may be omitted.
  • step S304 the acquisition unit 241 acquires at least text data read by the digital clone. Both step S305 of division processing and step S306 of reproduction time determination are executed. If there is no need to determine , step S306 and the reproduction time determination unit 244 that executes this step may be omitted.
  • step S309 the image generation unit 247 generates a personal image for synthesis (digital clone) in which the user's actions change according to the generated synthesized speech, and also generates a slide or the like displayed in correspondence with the synthesized speech. No display image is generated.
  • the synthesized moving image to be generated includes the synthesized voice and the personal image for synthesis, but does not include the display image. That is, in this modified example, step S311 in the above embodiment is not essential. However, if subtitle text is to be included in the composite moving image, the clone moving image and the subtitle text may be combined to form a composite moving image in step S311.
  • the content generation device 20 may generate 3D content in which display images such as slides displayed in 3D space and digital clones (3D avatars) are arranged.
  • a composite moving image 60 generated by the content generation device 20 of this modification includes two 3D displayed images 62 and 63 and a 3D avatar 64 arranged in a 3D space 61 . .
  • each of the two display images 62 and 63 one end in the horizontal direction of the synthetic moving image 60 (the end near the periphery of the synthetic moving image 60) is positioned closer to the viewer of the synthetic moving image 60 than the other end. It is expressed obliquely so that
  • the display of the 3D space is not limited to the example shown in FIG. 13, and the number, size, arrangement position, inclination direction, etc. of the display images may be changed as appropriate.
  • the two display images 62 and 63 display slides, still images, moving images, caption text, and the like.
  • the two display images 62 and 63 may be configured to display in real time comments or the like uploaded by viewers of the composite video 60 to an SNS (Social Networking Service).
  • SNS Social Networking Service
  • the 3D avatar 64 is represented so as to be positioned closer to the viewer than the two display images 62 and 63.
  • the present invention is not limited to this.
  • the 3D avatar 64 may be moved around in the 3D space 61, the expression of the 3D avatar 64 may be changed, and parts such as the mouth, head, hands, feet, and body may be moved.
  • a clone video is created from the synthesized voice and the user's own image, and the clone video is used to create a synthetic video.
  • a 3D avatar corresponding to the user may be created using an image, and a synthesized moving image may be produced by extracting, for example, a situation in which the 3D avatar moves its mouth in accordance with synthesized speech in a 3D space. That is, the generation of the clone moving image and the generation of the synthetic moving image may be performed at the same time, and this also applies to the above-described embodiments.
  • the composite moving image of this modified example may be a moving image in which display images such as slides, still images, and moving images, clone moving images, caption text, and the like are continuously combined, and the display mode changes over time.
  • the moving image may be such that at least one of a slide, a still image, a moving image, a clone moving image, subtitle text, and the like is displayed at one point in the synthesized moving image being reproduced.
  • the image generation unit 247 generates a personal image for synthesis (personal image) in which the user's actions change according to the synthesized speech
  • the synthesis unit 248 generates the synthesized speech and the synthesized speech.
  • the synthesizing unit 248 may generate a synthesized moving image using a user's personal image (hereinafter sometimes referred to as an independent personal image) independent of the synthesized voice.
  • An independent image of the user is an image of the user whose behavior does not change according to the synthesized voice. is mentioned.
  • the independent principal image may be an image acquired from the user terminal 10 via the communication unit 210, or may be an image generated by the image generation unit 247 from the learning principal image.
  • the image generation unit 247 in the content generation device 20 may be omitted.
  • the modified example of the embodiment of the present invention has been described above. It should be noted that part or all of the content generation device 20 in the above-described embodiment may be realized by a computer.
  • the computer may include at least one processor and one memory.
  • a program for realizing this function may be recorded in a computer-readable recording medium, and the program recorded in this recording medium may be read into a computer system and executed.
  • the "computer system” referred to here includes hardware such as an OS and peripheral devices.
  • the term "computer-readable recording medium” refers to portable media such as flexible discs, magneto-optical discs, ROMs and CD-ROMs, and storage devices such as hard discs incorporated in computer systems.
  • “computer-readable recording medium” refers to a program that dynamically retains programs for a short period of time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It may also include something that holds the program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or client in that case. Further, the program may be for realizing a part of the functions described above, or may be capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be implemented using a programmable logic device such as an FPGA (Field Programmable Gate Array).
  • FPGA Field Programmable Gate Array
  • One aspect of the present invention is a recording medium that non-temporarily stores a program, the program comprising: an acquisition unit that acquires text data indicating a first text to be read aloud; Using a speech generation model that has learned how to read the second text by the user's voice based on the speech when the second text is read aloud, the first text indicated by the acquired text data is used. and a synthesizing unit for synthesizing the synthesized speech and the image of the user to generate synthetic content. .
  • Content generation system 10 User terminal 20 Content generation device 30 Presentation data 31-1 to 30-n Slide 32-1 to 32-n First text 40-1 to 40 -n... Composite video, 41-1 to 41-n... Display image, 42-1 to 42-n... Clone video, 43-1 to 43-n... Subtitle text, 210... Communication unit, 220... Input unit, 230 Memory unit 231 Audio generation model 232 Image generation model 240 Control unit 241 Acquisition unit 242 Learning unit 243 Dividing unit 244 Reproduction time determination unit 245 Caption generation unit 246 ... Audio generation unit 247 ... Image generation unit 248 ... Synthesis unit 249 ... Output processing unit 250 ... Output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

このコンテンツ生成装置(20)は、読み上げ対象である第1のテキストを示すテキストデータを取得する取得部(241)と、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいてユーザの音声による第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得されたテキストデータが示す第1のテキストがユーザの音声で読み上げられる合成音声を生成する音声生成部(246)と、生成された合成音声と、ユーザの本人画像とを合成して合成コンテンツを生成する合成部(248)と、を備える。

Description

コンテンツ生成装置、コンテンツ生成方法、及びプログラム
 本発明は、コンテンツ生成装置、コンテンツ生成方法、及びプログラムに関する。
 本願は、2021年11月19日に日本に出願された特願2021-188791号に基づき優先権を主張し、その内容をここに援用する。
 従来、ユーザを表すキャラクターなどをアバターとして用いて、ユーザ間のコミュニケーションを行うための技術が各種提案されている。
 例えば、下記特許文献1には、自立的で動きのあるキャラクターをアバターとして用いて、ユーザ間における文書に関するコミュニケーションを促進する技術が開示されている。当該技術では、予めユーザの音声を録音した音声データを用意しておき、当該音声データが再生された際にアバターの表情が変化するよう定義しておくことで、当該音声データと対応するテキストをアバターが読み上げているように見せることができる。これにより、例えば、話し手であるユーザ本人の代わりにアバターにプレゼンテーションを行わせることができる。
日本国特開平11-312160号公報
 しかしながら、上記特許文献1の技術のように、話し手のアバターと話し手の音声データを単に用いるだけでは、話し手の本人らしさを十分に再現できず、プレゼンテーションの聞き手に違和感を与えてしまう。聞き手は、この違和感によってプレゼンテーションに対する集中力が妨げられてしまう。
 上述の課題を鑑み、本発明の目的は、テキストの読み上げにおいて聞き手に与える違和感を低減するとともに、より本人らしさを表現することが可能なコンテンツ生成装置、コンテンツ生成方法、及びプログラムを提供することにある。
 上述の課題を解決するために、本発明の一態様に係るコンテンツ生成装置は、読み上げ対象である第1のテキストを示すテキストデータを取得する取得部と、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、を備える。
 本発明の一態様に係る、コンテンツ生成方法は、取得部が、読み上げ対象である第1のテキストを示すテキストデータを取得する取得過程と、音声生成部が、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、合成部が、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成過程と、を含む。
 本発明の一態様に係るプログラムは、コンピュータを、読み上げ対象である第1のテキストを示すテキストデータを取得する取得部と、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、として機能させる。
 本発明によれば、テキストの読み上げにおいて聞き手に与える違和感を低減するとともに、より本人らしさを表現することができる。
本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。 本実施形態に係るプレゼンデータの一例を示す図である。 本実施形態に係るプレゼンデータの一例を示す図である。 本実施形態に係るプレゼンデータの一例を示す図である。 本実施形態に係る合成動画の一例を示す図である。 本実施形態に係る合成動画の一例を示す図である。 本実施形態に係る合成動画の一例を示す図である。 本実施形態に係る音声生成モデルの生成における処理の流れの一例を示すフローチャートである。 本実施形態に係る画像生成モデルの生成における処理の流れの一例を示すフローチャートである。 本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。 本実施形態の一変形例に係る合成動画の一例を示す図である。 本実施形態の一変形例に係る合成動画の生成における処理の流れの一例を示すフローチャートである。 本実施形態の一変形例に係る合成動画の一例を示す図である。
 以下、図面を参照しながら本発明の実施形態について詳しく説明する。
<1.コンテンツ生成システムの構成>
 図1を参照して、本実施形態に係るコンテンツ生成システムの構成について説明する。図1は、本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。
 図1に示すように、コンテンツ生成システム1は、ユーザ端末10と、コンテンツ生成装置20とを備える。ユーザ端末10とコンテンツ生成装置20は、ネットワークNWを介して、通信可能に接続されている。なお、ユーザ端末10とコンテンツ生成装置20は、それぞれ有線通信又は無線通信のいずれによって接続されてもよい。
 (1)コンテンツ生成システム1
 コンテンツ生成システム1は、ユーザのデジタルクローンがユーザの代わりに資料の説明を行うコンテンツを生成するシステムである。コンテンツは、例えば、画像コンテンツ、WEBコンテンツ、3D(3次元)コンテンツ、3Dホログラムコンテンツなどである。画像コンテンツは、静止画や動画(映像)などの画像によってデジタルクローンを表示するコンテンツである。WEBコンテンツは、WEBのブラウザ上で表示される3D空間内にデジタルクローンを表示するコンテンツである。3Dコンテンツは、3Dのデジタルクローンに話をさせるコンテンツである。3Dホログラムは、3Dホログラムを使ってデジタルクローンを投影するコンテンツである。
 デジタルクローンは、ユーザのデジタル化された複製である。デジタルクローンは、ユーザ本人の画像(以下、「本人画像」とも称される)によって表され、ユーザ本人の音声(以下、「本人音声」とも称される)によって資料のテキストを読み上げる。
 コンテンツ生成システム1は、ユーザの音声、ユーザの画像、資料の画像などを合成することでコンテンツを生成する。合成によって生成されたコンテンツは、以下では「合成コンテンツ」とも称される。合成コンテンツは、画像コンテンツ、WEBコンテンツ、3Dコンテンツ、3Dホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じた合成によって生成される。
 以下では、ユーザが利用するコンテンツが画像コンテンツであり、コンテンツ生成システム1がユーザの音声、ユーザの画像、資料の画像などを合成し、デジタルクローンが資料の説明を行う動画(以下、「合成動画」とも称される)を合成コンテンツとして生成する例について説明する。
 コンテンツ生成システム1は、資料のデータに基づき、コンテンツを生成する。資料のデータは、読み上げ対象である第1のテキストを示すデータ(以下、「テキストデータ」とも称される)と、テキストデータの内容と対応して表示されるデータ(以下、「表示データ」とも称される)を少なくとも含むデータである。
 以下では、一例として、資料がプレゼンテーションに用いられる資料である例について説明する。また、一例として、資料のデータ(以下、「プレゼンデータ」とも称される)がマイクロソフト社のパワーポイントを用いて作成されたデータである例について説明する。パワーポイントのデータは、テキストデータと表示データの両方を含むデータである。具体的に、テキストデータは、ノート部に入力されているテキストである。また、表示データは、主にスライドであり、スライドに付帯されている動画やアニメーションが含まれてもよい。
 コンテンツ生成システム1は、テキストデータに基づき、第1のテキストがユーザの本人音声で読み上げられる音声(以下、「合成音声」とも称される)を生成する。コンテンツ生成システム1は、機械学習によって学習した学習済みモデルを用いて合成音声を生成する。合成音声を生成する学習済みモデルは、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいてユーザの音声による第2のテキストの読み上げ方を学習したモデル(以下、「音声生成モデル」とも称される)である。
 学習対象となるユーザの読み上げ方は、例えば、ユーザに特有のイントネーション、アクセント、読み上げ速度などである。
 音声生成モデルは、テキストデータが入力されると、当該テキストデータが示す第1のテキストをユーザの本人音声と読み上げ方で読み上げる合成音声を生成して出力することができる。これにより、コンテンツ生成システム1は、プレゼンデータのテキストデータを音声生成モデルに入力することで、当該テキストデータが示す第1のテキストがユーザの本人音声と読み上げ方で読み上げられる合成音声を取得することができる。
 また、コンテンツ生成システム1は、ユーザの本人画像に基づき、デジタルクローン用の本人画像(以下、「合成用本人画像」とも称される)を生成する。合成用本人画像は、静止画又は動画(映像)のいずれであってもよい。コンテンツ生成システム1は、機械学習によって学習した学習済みモデルを用いて合成用本人画像を生成する。合成用本人画像を生成する学習済みモデルは、ユーザの本人画像に基づいてユーザの動作を学習したモデル(以下、「画像生成モデル」とも称される)である。
 学習対象となるユーザの動作は、例えば、ユーザの顔の動きやジェスチャーである。ユーザの顔の動きは、例えば、読み上げに応じた口元の動きや表情の変化である。ジェスチャーは、例えば、読み上げに応じた頭の動きや身振り手振りである。
 画像生成モデルは、ユーザの音声(例えば合成音声)が入力されると、当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することができる。これにより、コンテンツ生成システム1は、プレゼンデータのテキストデータに基づき生成された合成音声を画像生成モデルに入力することで、当該合成音声に応じて動作が変化する本人画像を、合成用本人画像として取得することができる。
 そして、コンテンツ生成システム1は、生成した合成音声と合成用本人画像を合成することで、ユーザのデジタルクローンを表すデータ(以下、「クローンデータ」とも称される)を生成する。
 クローンデータでは、読み上げ対象である第1のテキストがユーザの本人音声によって読み上げられ、当該第1のテキストの内容に応じてユーザが動作を行っているように本人画像が変化する。例えば、本人画像は、読み上げられている第1のテキスト(出力されている本人音声)に合わせてユーザの口元やユーザの表情が変化したり、ユーザが頭を動かしたり身振り手振りを行っているように変化したりする。
 このように、ユーザ本人の音声に合わせてユーザ本人の画像が変化することで、音声と画像との間に生じるズレが低減し、聞き手に与える違和感を低減することできる。
 クローンデータは、画像コンテンツ、WEBコンテンツ、3Dコンテンツ、3Dホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じたデータ形式で生成される。
 以下では、ユーザが利用するコンテンツが画像コンテンツであり、ユーザのデジタルクローンを表す動画(以下、「クローン動画」とも称される)をクローンデータとして生成する例について説明する。
 コンテンツ生成システム1は、表示データに基づき、合成音声と対応して表示される画像(以下、「表示画像」とも称される)を生成する。また、コンテンツ生成システム1は、テキストデータに基づき、字幕として表示されるテキストのデータ(以下、「字幕テキスト」とも称される)を生成する。そして、コンテンツ生成システム1は、クローン動画と表示画像と字幕テキストを合成することで、ユーザのデジタルクローンが資料の内容を説明している動画を合成動画として生成する。合成動画は、コンテンツ生成システム1で生成されるコンテンツの一例である。
 合成動画では、表示されている資料の内容に応じて、ユーザのデジタルクローンが第1のテキストの読み上げを行う。これにより、ユーザのデジタルクローンがユーザの代わりに資料の説明を行っているように見せることができる。
 (2)ユーザ端末10
 ユーザ端末10は、ユーザによって利用される端末である。ユーザ端末10は、入力装置(マウス、キーボード、タッチパネルなど)、出力装置(ディスプレイ、スピーカなど)、中央処理装置などを備える。ユーザ端末10は、例えば、PC(Personal Computer)、スマートフォン、タブレットなどのような端末であればいずれを用いるようにしてもよい。
 ユーザは、ユーザ端末10を操作して、音声生成モデル及び画像生成モデルの生成(学習)に必要な情報と、合成動画の生成に必要な情報をコンテンツ生成装置20へアップロードする。
 音声生成モデルの生成に必要な情報は、学習対象である第2のテキストをユーザが読み上げた音声(以下、「学習用音声」とも称される)である。学習用音声は、例えば、ユーザに200個程の第2のテキストを実際に読み上げてもらうことで生成される。画像生成モデルの生成に必要な情報は、学習用のユーザの本人画像(以下、「学習用本人画像」とも称される)である。学習用本人画像は、静止画又は動画(映像)のいずれであってもよいが、画像生成モデルは動画の方がユーザの動作の変化をより精度高く学習することができる。
 合成動画の生成に必要な情報は、プレゼンデータである。コンテンツ生成装置20は、アップロードされたプレゼンデータに基づき、音声生成モデルと画像生成モデルを用いて合成動画を生成する。
 ユーザは、ユーザ端末10を操作して、コンテンツ生成装置20から合成動画をダウンロードして再生することで、自身の代わりにデジタルクローンにプレゼンテーションを行わせることができる。
 (3)コンテンツ生成装置20
 コンテンツ生成装置20は、合成動画(コンテンツの一例)を生成する装置である。コンテンツ生成装置20は、入力装置(マウス、キーボード、タッチパネルなど)、出力装置(ディスプレイ、スピーカなど)、中央処理装置などを備える。コンテンツ生成装置20は、例えば、PC(Personal Computer)によって実現されるサーバ装置である。
 コンテンツ生成装置20は、ユーザ端末10からアップロードされる各種情報に基づき、音声生成モデル、画像生成モデル、及び合成動画の生成を行う。
 具体的に、コンテンツ生成装置20は、ユーザ端末10からアップロードされた学習用音声に基づき、音声生成モデルを生成する。また、コンテンツ生成装置20は、ユーザ端末10からアップロードされた学習用本人画像に基づき、画像生成モデルを生成する。また、コンテンツ生成装置20は、ユーザ端末10からアップロードされたプレゼンデータの表示データに基づき、表示画像を生成する。また、コンテンツ生成装置20は、ユーザ端末10からアップロードされたプレゼンデータのテキストデータに基づき、字幕テキストを生成する。
 また、コンテンツ生成装置20は、ユーザ端末10からアップロードされたプレゼンデータのテキストデータを音声生成モデルに入力して合成音声を生成し、生成した合成音声を画像生成モデルに入力して合成用本人画像を生成し、生成した合成音声と合成用本人画像を合成してクローン動画を生成する。そして、コンテンツ生成装置20は、生成した表示画像と字幕テキストとクローン動画を合成して合成動画を生成する。
<2.コンテンツ生成装置の機能構成>
 以上、本実施形態に係るコンテンツ生成システム1の構成について説明した。続いて、図1から図7を参照して、本実施形態に係るコンテンツ生成装置20の機能構成について説明する。
 図1に示すように、コンテンツ生成装置20は、通信部210と、入力部220と、記憶部230と、制御部240と、出力部250とを備える。
 (1)通信部210
 通信部210は、各種情報の送受信を行う機能を有する。例えば、通信部210は、ネットワークNWを介して、ユーザ端末10と通信を行う。通信部210は、ユーザ端末10との通信において、音声生成モデルの生成に必要な情報である学習用音声を受信する。また、通信部210は、ユーザ端末10との通信において、画像生成モデルの生成に必要な情報である学習用本人画像を受信する。また、通信部210は、ユーザ端末10との通信において、合成動画の生成に必要な情報であるプレゼンデータを受信する。また、通信部210は、ユーザ端末10との通信において、合成動画を送信する。
 (2)入力部220
 入力部220は、入力を受け付ける機能を有する。例えば、入力部220は、コンテンツ生成装置20がハードウェアとして備えるマウス、キーボード、タッチパネルなどの入力装置によって入力された情報の入力を受け付ける。
 (3)記憶部230
 記憶部230は、各種情報を記憶する機能を有する。記憶部230は、コンテンツ生成装置20がハードウェアとして備える記憶媒体、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。
 図1に示すように、記憶部230は、音声生成モデル231と画像生成モデル232を記憶する。また、記憶部230は、通信部210がユーザ端末10から受信した学習用音声、学習用本人画像、プレゼンデータなどを記憶してもよい。また、記憶部230は、コンテンツ生成装置20にて生成された表示画像、字幕テキスト、合成音声、合成用本人画像、クローン動画、合成動画などを記憶してもよい。
 (4)制御部240
 制御部240は、コンテンツ生成装置20の動作全般を制御する機能を有する。制御部240は、例えば、コンテンツ生成装置20がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。
 図1に示すように、制御部240は、取得部241と、学習部242と、分割部243と、再生時間決定部244と、字幕生成部245と、音声生成部246と、画像生成部247と、合成部248と、出力処理部249とを備える。
  (4-1)取得部241
 取得部241は、各種情報を取得する機能を有する。例えば、取得部241は、通信部210がユーザ端末10から受信した学習用音声、学習用本人画像、プレゼンデータを取得する。取得部241は、プレゼンデータから、読み上げ対象であるテキストデータと、当該テキストデータの内容と対応して表示される表示データを取得する。
 ここで、図2から図4を参照して、取得部241が取得するプレゼンデータの一例について説明する。図2から図4は、本実施形態に係るプレゼンデータの一例を示す図である。図2から図4には、n枚(nは自然数)のスライド31-1~31-nで構成されるプレゼンデータ30が示されている。プレゼンデータ30の表示領域DA1にはスライド31-1~31-nが表示されている。プレゼンデータ30の表示領域DA2にはスライド31-1~31-nのうち選択されたスライドが表示されている。プレゼンデータ30の表示領域DA3にはスライド31-1~31-nのうち選択されたスライドに対応する第1のテキストが表示されている。
 図2は、1枚目のスライドを示す図である。図2に示すように、表示領域DA2には、1枚目のスライド31-1が表示され、表示領域DA3にはスライド31-1に対応する第1のテキスト32-1が表示されている。
 図3は、2枚目のスライドを示す図である。図3に示すように、表示領域DA2には、2枚目のスライド31-2が表示され、表示領域DA3にはスライド31-2に対応する第1のテキスト32-2が表示されている。
 図4は、n枚目のスライドを示す図である。図4に示すように、表示領域DA2には、n枚目のスライド31-nが表示され、表示領域DA3にはスライド31-nに対応する第1のテキスト32-nが表示されている。
 取得部241は、プレゼンデータ30から、スライド31-1~31-nを表示データとして取得し、第1のテキスト32-1~32-nをテキストデータとして取得する。
  (4-2)学習部242
 学習部242は、学習済みモデルを生成する機能を有する。例えば、学習部242は、取得部241によって取得された学習データを用いた機械学習によって学習済みモデルを生成する。
 具体的に、学習部242は、取得部241によって取得された学習用音声を教師データとして用いて、ユーザの音声によるテキストの読み上げ方を機械学習する。当該機械学習により、学習部242は、テキストデータが入力された場合に当該テキストデータが示す第1のテキストをユーザの本人音声で読み上げる合成音声を生成して出力することが可能な音声生成モデル231を生成する。
 本実施形態では、学習部242は、テキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、学習用音声(教師データ)を転移学習させることで、本人オリジナルの音声生成モデル231を生成する。なお、音声生成モデル231を生成するための既存の学習済みモデルは、記憶部230に予め記憶されている。また、音声生成モデル231を生成するための既存の学習済みモデルは、一般的なイントネーションやアクセントを示す辞書を有しており、一般的なイントネーションやアクセントについては再現できる。
 既存の学習済みモデルが複数用意されている場合、学習部242は、1つの学習済みモデルに対して1人のユーザの学習用音声のみを学習させることで、複数のユーザの本人オリジナルの音声生成モデル231を生成することができる。また、言語ごとに既存の学習済みモデルが用意されている場合、学習部242は、各言語の学習済みモデルにユーザの学習用音声を転移学習させることで、言語ごとに本人オリジナルの音声生成モデル231を生成することができる。
 学習部242は、生成した音声生成モデル231を記憶部230に書き込んで、記憶させる。
 また、学習部242は、取得部241によって取得された学習用本人画像を用いて、ユーザの動作を機械学習する。当該機械学習により、学習部242は、合成音声が入力された場合に当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することが可能な画像生成モデル232を学習済みモデルとして生成する。
 本実施形態では、学習部242は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、学習用本人画像(教師データ)を転移学習させることで、本人オリジナルの画像生成モデル232を生成する。なお、画像生成モデル232を生成するための既存の学習済みモデルは、記憶部230に予め記憶されている。また、画像生成モデル232を生成するための既存の学習済みモデルは、例えば、GAN(Generative Adversarial Network)を用いて、予め音声と同期した口の動きを学習したモデルである。
 既存の学習済みモデルが複数用意されている場合、学習部242は、1つの学習済みモデルに対して1人のユーザの学習用本人画像のみを学習させることで、複数のユーザの本人オリジナルの画像生成モデル232を生成することができる。
 学習部242は、生成した画像生成モデル232を記憶部230に書き込んで、記憶させる。
  (4-3)分割部243
 分割部243は、第1のテキスト(テキストデータ)を分割する機能を有する。例えば、分割部243は、第1のテキストの分割箇所を示す入力に基づき、第1のテキストを複数に分割する。分割箇所を示す入力は、例えば、改行である。分割部243は、第1のテキストを改行ごとに複数の文章に分割する。分割部243が第1のテキストを分割することで、第1のテキストは分割された文章単位で読み上げられる。これにより、分割された1つの文章が読み上げられる度に音声が途切れるため、第1のテキストの読み上げに間を持たせることができる。
 例えば、図2に示した第1のテキスト32-1の場合、「それでは、・・・ご説明します。」の後に改行が入力されている。「本中期経営計画に基づき、・・・経営基盤の強化に」の後は改行されているように見えるが、これはノート部の表示範囲に基づく折り返し表示であり、この部分に改行は入力されていない。そのため、分割部243は、第1のテキスト32-1を、「それでは、・・・ご説明します。」の文章と、「本中期経営計画に基づき、・・・注力してまいります。」の文章の2つに分割する。
 また、図3に示した第1のテキスト32-2の場合、「“デジタルトランスフォーメーション”を・・・展開します。」の後に改行が入力されている。そのため、分割部243は、第1のテキスト32-2を、「“デジタルトランスフォーメーション”を・・・展開します。」の文章と、「弊社は、・・・はかってまいります。」の文章の2つに分割する。
 また、図4に示した第1のテキスト32-nの場合、改行は入力されていない。そのため、分割部243は、第1のテキスト32-nを分割しない。
  (4-4)再生時間決定部244
 再生時間決定部244は、合成動画の再生時間を決定する機能を有する。例えば、再生時間決定部244は、第1のテキストの文字数に基づき、合成動画の再生時間を決定する。具体的に、再生時間決定部244は、取得されたテキストデータごとに、テキストが示す第1のテキストの文字数を時間に換算することで、当該テキストデータと対応する表示画像の再生時間を決定する。
 また、再生時間決定部244は、合成音声の読み上げ速度に基づき、合成動画の再生時間を決定してもよい。具体的に、再生時間決定部244は、取得されたテキストデータごとに、読み上げ速度に基づき読み上げ終わる時間を算出することで、当該テキストデータと対応する表示画像の再生時間を決定する。
 表示画像が複数ある場合、再生時間決定部244は、各表示画像の再生時間を合計することで合成動画の再生時間を算出する。
 なお、再生時間決定部244は、第1のテキストの文字数と読み上げ速度の両方に基づき、合成動画の再生時間を決定してもよい。
 また、再生時間決定部244は、第1のテキストの読み上げにおける間を考慮して、合成動画の再生時間を決定してもよい。例えば、再生時間決定部244は、分割部243によって分割された文章の数に応じて、間の表現に必要な時間を算出し、上述した文字数や読み上げ速度に基づき算出した再生時間に加算する。
  (4-5)字幕生成部245
 字幕生成部245は、字幕テキストを生成する機能を有する。例えば、字幕生成部245は、取得部241によって取得されたテキストデータに基づき、字幕テキストを生成する。具体的に、字幕生成部245は、分割部243によって分割された文章単位で字幕テキストを生成する。
 なお、取得部241によって取得されたテキストデータに用いられている言語と音声生成モデル231が対応している言語とが異なる場合、字幕生成部245は、音声生成モデル231が対応している言語に応じてテキストデータを翻訳した字幕テキストを生成してもよい。
  (4-6)音声生成部246
 音声生成部246は、合成音声を生成する機能を有する。例えば、音声生成部246は、ユーザの本人オリジナルの音声生成モデル231を用いて、取得部241によって取得されたテキストデータが示す第1の音声がユーザの音声で読み上げられる合成音声を生成する。
 音声生成部246は、分割部243によって分割されたテキストデータ(文章)ごとに合成音声を生成する。これにより、生成された複数の合成音声の1つが読み上げられる度に音声が途切れるため、テキストデータが示す第1のテキストの読み上げに間を持たせることができる。
 なお、第1の言語(例えば日本語)が使用されているテキストデータから、第1の言語とは異なる第2の言語(例えば英語)で読み上げられる合成音声の生成が必要であるとする。この場合、音声生成部246は、第1の言語に対応する音声生成モデル231が学習に用いた第1の言語による学習用音声(教師データ)に基づき転移学習した、第2の言語に対応する音声生成モデル231を用いる。これにより、音声生成部246は、第1の言語で示されるテキストデータが示す第1のテキストが第2の言語を用いたユーザの音声で読み上げられる合成音声を生成することができる。
  (4-7)画像生成部247
 画像生成部247は、合成動画を生成するための各種画像を生成する機能を有する。例えば、画像生成部247は、取得部241によって取得された表示データに基づき、合成音声と対応して表示される表示画像を生成する。具体的に、画像生成部247は、表示データを画像に変換することで表示画像を生成する。
 また、画像生成部247は、ユーザの本人オリジナルの画像生成モデル232を用いて、音声生成モデル231によって生成された合成音声に応じてユーザの動作が変化する合成用本人画像を生成する。
 例えば、画像生成部247は、合成音声による読み上げに応じてユーザの顔の動きが変化する合成用本人画像を生成する。具体的に、画像生成部247は、合成音声による読み上げに応じてユーザの口元の動きや表情が変化する合成用本人画像を生成する。
 また、画像生成部247は、合成音声による読み上げに応じてユーザがジェスチャーを行っているように変化する合成用本人画像を生成してもよい。具体的に、画像生成部247は、合成音声による読み上げに応じてユーザが頭を動かしたり、ユーザが身振り手振りを行ったりする合成用本人画像を生成する。
 このようにして、画像生成部247は、ユーザがテキストを読み上げる際やプレゼンテーションを行う際のユーザ本人の動きを再現した合成用本人画像を生成する。これにより、クローン動画のクローンは、より自然にユーザ本人らしい動きをしながらテキストの読み上げやプレゼンテーションを行うことができる。
  (4-8)合成部248
 合成部248は、各種の合成を行う機能を有する。例えば、合成部248は、音声生成部246によって生成された合成音声と画像生成部247によって生成された表示画像と、ユーザの本人画像とを少なくとも合成して合成動画を生成する。具体的に、合成部248は、音声生成部246によって生成された合成音声と画像生成部247によって生成された合成用本人画像とを合成してクローン動画を生成する。そして、合成部248は、表示画像と生成したクローン動画とを合成して合成動画を生成する。
 なお、図2から図4に示したプレゼンデータのように複数のスライド(表示データ)と複数の第1のテキスト(テキストデータ)がある場合、1組のスライドと第1のテキストごとに表示画像、合成音声、合成用本人画像が生成される。そのため、合成部248は、1組のスライドと第1のテキストごとにクローン動画を生成し、合成動画を生成する。これにより、1つのプレゼンデータからスライドの数だけ合成動画が生成される。そして、合成部248は、1つのプレゼンデータから生成した複数の合成動画を合成することで、最終的な1つの合成動画を生成する。
 また、分割部243によって1つの第1のテキストが複数の文章に分割された場合、音声生成部246によって1つの第1のテキストから複数の合成音声が生成される。そのため、画像生成部247は、複数の合成音声のそれぞれに対して合成用本人画像を生成する。これにより、合成部248は、複数の合成音声と複数の合成用本人画像をそれぞれ対応させて合成することで、1つのクローン動画を生成する。
 さらに、合成部248は、表示画像とクローン動画に加え、字幕生成部245によって生成された字幕テキストも合成して合成動画を生成してもよい。合成部248は、字幕テキストを合成する際に、一度に1つの字幕テキストのみが表示されるように合成してもよいし、一度に複数の字幕テキストが表示されるように合成してもよい。
 ここで、図5から図7を参照して、合成部248が生成する合成動画の一例について説明する。図5から図7は、本実施形態に係る合成動画の一例を示す図である。図5から図7には、図2から図4に示したプレゼンデータ30に基づき生成された合成動画の一部がそれぞれ示されている。
 図5には、プレゼンデータ30に基づき生成された合成動画の一部として、図2に示したスライド31-1及び第1のテキスト32-1に基づき生成された合成動画40-1が示されている。図5に示すように、合成動画40-1は、表示画像41-1、クローン動画42-1、及び字幕テキスト43-1で構成されている。合成動画のうち合成動画40-1の部分が再生されると、クローン動画42-1に表示されているユーザのクローンは、ユーザ本人の音声を用いてユーザ本人の読み上げ方で、表示されている字幕テキスト43-1を読み上げる。表示されている字幕テキスト43-1の読み上げが終了すると、次の字幕テキスト43-1が表示される。合成動画40-1に含まれる全ての字幕テキスト43-1の読み上げが終了すると、表示画像41-1は次の画像に切り替わる(即ち合成動画のうちの次の部分が再生される)。
 図6には、プレゼンデータ30に基づき生成された合成動画の一部として、図3に示したスライド31-2及び第1のテキスト32-2に基づき生成された合成動画40-2が示されている。図6に示すように、合成動画40-2は、表示画像41-2、クローン動画42-2、及び字幕テキスト43-2で構成されている。合成動画のうちの合成動画40-1の部分の再生が終了すると、合成動画40-1の部分と同様に合成動画40-2の部分が再生される。
 図7には、プレゼンデータ30に基づき生成された合成動画の一部として、図4に示したスライド31-n及び第1のテキスト32-nに基づき生成された合成動画40-nが示されている。図7に示すように、合成動画40-nは、表示画像41-n、クローン動画42-n、及び字幕テキスト43-nで構成されている。合成動画40-nは、合成動画のうちの最後の部分である。合成動画のうちの合成動画40-nの部分は、合成動画40-1及び合成動画40-2の部分と同様に再生され、合成動画40-nの部分の再生が終了すると合成動画全体の再生が終了する。
  (4-9)出力処理部249
 出力処理部249は、各種の出力を制御する機能を有する。例えば、出力処理部249は、合成部248によって生成された合成動画をユーザ端末10へ送信する。また、出力処理部249は、合成部248によって生成された合成動画を再生し、再生されている映像及び音声をユーザ端末10へ送信し、ユーザ端末10に出力させてもよい。
 (5)出力部250
 出力部250は、各種情報を出力する機能を有する。出力部250は、例えば、コンテンツ生成装置20がハードウェアとして備えるディスプレイやタッチパネルなどの表示装置、スピーカなどの音声出力装置によって実現される。出力部250は、出力処理部249からの入力に応じて、例えば画面や音声などを出力する。
<3.処理の流れ>
 以上、本実施形態に係るコンテンツ生成装置20の機能構成について説明した。続いて、図8から図10を参照して、本実施形態に係るコンテンツ生成装置20が行う処理の流れについて説明する。
 (1)音声生成モデルの生成処理
 図8を参照して、コンテンツ生成装置20による音声生成モデル231の生成処理について説明する。図8は、本実施形態に係る音声生成モデル231の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置20は、合成動画の生成を行うために、予め音声生成モデル231を生成し、用意しておく。
 図8に示すように、まず、コンテンツ生成装置20の取得部241は、学習用音声を取得する(ステップS101)。具体的に、取得部241は、コンテンツ生成装置20の通信部210がユーザ端末10から受信した学習用音声を取得する。
 次いで、コンテンツ生成装置20の学習部242は、音声生成モデル231を生成する(ステップS102)。具体的に、学習部242は、学習対象である第2のテキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、取得部241が取得した学習用音声(教師データ)を転移学習させることで、ユーザの本人オリジナルの音声生成モデル231を生成する。なお、音声生成モデル231を生成するための既存の学習済みモデルは、コンテンツ生成装置20の記憶部230に予め記憶されている。
 そして、学習部242は、生成した音声生成モデル231を記憶部230に書き込んで、記憶させる(ステップS103)。
 (2)画像生成モデルの生成処理
 図9を参照して、コンテンツ生成装置20による画像生成モデル232の生成処理について説明する。図9は、本実施形態に係る画像生成モデル232の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置20は、合成動画の生成を行うために、予め画像生成モデル232を生成し、用意しておく。
 図9に示すように、まず、取得部241は、学習用本人画像を取得する(ステップS201)。具体的に、取得部241は、通信部210がユーザ端末10から受信した学習用本人画像を取得する。
 次いで、学習部242は、画像生成モデル232を生成する(ステップS202)。具体的に、学習部242は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、取得部241が取得した学習用本人画像(教師データ)を転移学習させることで、ユーザの本人オリジナルの画像生成モデル232を生成する。なお、画像生成モデル232を生成するための既存の学習済みモデルは、コンテンツ生成装置20の記憶部230に予め記憶されている。
 そして、学習部242は、生成した画像生成モデル232を記憶部230に書き込んで、記憶させる(ステップS203)。
 (3)合成動画の生成処理
 図10を参照して、コンテンツ生成装置20による合成動画の生成処理について説明する。図10は、本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。
 図10に示すように、まず、取得部241は、プレゼンデータを取得する(ステップS301)。具体的に、取得部241は、通信部210がユーザ端末10から受信したプレゼンデータを取得する。
 次いで、取得部241は、表示データを取得する(ステップS302)。具体的に、取得部241は、取得したプレゼンデータに含まれるスライドを表示データとして取得する。
 次いで、コンテンツ生成装置20の画像生成部247は、表示画像を生成する(ステップS303)。具体的に、画像生成部247は、取得部241によって取得された表示データを画像に変換することで、表示画像を生成する。
 次いで、取得部241は、テキストデータを取得する(ステップS304)。具体的に、取得部241は、取得したプレゼンデータに含まれるノート部の第1のテキストをテキストデータとして取得する。
 次いで、コンテンツ生成装置20の分割部243は、分割処理を行う(ステップS305)。具体的に、分割部243は、取得部241が取得した第1のテキストを改行ごとに分割することで、1つの第1のテキストを複数の文章に分割する。
 次いで、コンテンツ生成装置20の再生時間決定部244は、合成動画の再生時間を決定する(ステップS306)。具体的に、再生時間決定部244は、第1のテキストの文字数、読み上げ速度、分割された第1のテキストの間などに基づき、合成動画の再生時間を決定する。
 次いで、コンテンツ生成装置20の字幕生成部245は、字幕テキストを生成する(ステップS307)。具体的に、字幕生成部245は、分割された第1のテキスト単位で字幕テキストを生成する。
 次いで、コンテンツ生成装置20の音声生成部246は、合成音声を生成する(ステップS308)。具体的に、音声生成部246は、記憶部230に記憶されている音声生成モデル231に対して、分割部243によって分割された複数の文章を1つずつ入力する。これにより、音声生成モデル231によって合成音声が生成される。そして、音声生成部246は、音声生成モデル231から出力される合成音声を取得する。
 次いで、画像生成部247は、合成用本人画像を生成する(ステップS309)。具体的に、画像生成部247は、記憶部230に記憶されている画像生成モデル232に対して、音声生成部246によって生成された合成音声を1つずつ入力する。これにより、画像生成モデル232によって合成用本人画像が生成される。そして、画像生成部247は、画像生成モデル232から出力される合成用本人画像を取得する。
 次いで、コンテンツ生成装置20の合成部248は、クローン動画を生成する(ステップS310)。具体的に、合成部248は、音声生成部246によって生成された合成音声ごとに、画像生成部247によって生成された合成用本人画像を合成し、クローン動画を生成する。
 次いで、合成部248は、合成動画を生成する(ステップS311)。具体的に、合成部248は、画像生成部247によって生成された表示画像と、字幕生成部245によって生成された字幕テキストと、合成したクローン動画とを合成し、合成動画を生成する。 合成動画の生成後、コンテンツ生成装置20は処理を終了する。なお、コンテンツ生成装置20は、必要に応じて、生成した合成動画を記憶部230に書き込んで記憶したり、ユーザ端末10へ送信したりしてもよい。
 以上説明したように、本実施形態に係るコンテンツ生成装置20は、取得部241と、音声生成部246と、画像生成部247と、合成部248とを備える。
 取得部241は、読み上げ対象である第1のテキストを示すテキストデータと、当該テキストデータの内容と対応して表示される表示データを取得する。
 音声生成部246は、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいてユーザの音声による第2のテキストの読み上げ方を学習した音声生成モデル231を用いて、取得されたテキストデータが示す第1のテキストがユーザの音声で読み上げられる合成音声を生成する。
 画像生成部247は、取得された表示データに基づき、合成音声と対応して表示される表示画像を生成する。
 合成部248は、生成された合成音声及び表示画像と、ユーザの本人画像とを合成して合成コンテンツを生成する。
 かかる構成により、生成された合成コンテンツを再生すると、読み上げ対象であるテキストデータが示す第1のテキストがユーザ本人の音声かつユーザ本人らしい読み上げ方で読み上げられる。
 よって、本実施形態に係るコンテンツ生成装置20は、テキストの読み上げにおいて聞き手に与える違和感を低減するとともに、より本人らしさを表現することを可能とする。
<4.変形例>
 以上、本発明の実施形態について説明した。続いて、本発明の実施形態の変形例について説明する。なお、以下に説明する各変形例は、単独で本発明の実施形態に適用されてもよいし、組み合わせで本発明の実施形態に適用されてもよい。また、各変形例は、本発明の実施形態で説明した構成に代えて適用されてもよいし、本発明の実施形態で説明した構成に対して追加的に適用されてもよい。
 例えば、音声生成部246は、パラメータを調整することによって、合成音声でユーザの感情を表現してもよい。音声生成部246は、テキストデータの内容に応じて、例えば喜びが8割、驚きが2割のようにパラメータを設定する。なお、感情の種類は、喜びと驚き以外にも悲しみや怒りなど様々な感情が組み合わせられてよい。これにより、音声生成部246は、ユーザ本人らしい読み上げ方に加え、テキストデータの内容に応じた多様な感情も表現可能な合成音声を生成することができるようになる。
 また、コンテンツ生成装置20は、合成部248によって生成された合成コンテンツを編集可能な機能を有してもよい。ユーザは、ユーザ端末10に編集内容を入力する。コンテンツ生成装置20は、ユーザ端末10に対するユーザの入力に応じて、合成コンテンツを編集する。当該機能では、例えば、スライド(表示画像)、字幕テキスト、クローンデータの音声や本人画像などの編集が可能である。スライドの編集では、スライドの内容の編集や、複数あるスライドの表示順の入れ替え、新規スライドの追加、既存スライドの削除などが可能である。
 また、上述の実施形態では、複数の合成音声と複数の合成用本人画像とが合成されたクローン動画が、1つの表示画像に対して合成される例について説明したが、かかる例に限定されない。例えば、1つの合成音声と1つの合成用本人画像とが合成されたクローン動画に対して、複数の表示画像が合成されてもよい。この場合、1つの合成音声による読み上げが終了するまでの間に、複数の表示画像が切り替わって表示される。
 また、上述の実施形態では、資料のデータがパワーポイントのデータである例について説明したが、かかる例に限定されない。例えば、資料のデータは、テキストデータと表示データを含むデータであれば、マイクロソフト社のワードを用いて作成されたデータ、マイクロソフト社のエクセルを用いて作成されたデータ、PDF(Portable Document Format)データなどであってもよい。また、資料のデータは、テキストデータのみを含むデータと表示データのみを含むデータとの組み合わせであってもよい。
 また、上述の実施形態では、コンテンツ生成システム1がユーザ端末10(クライアント)とコンテンツ生成装置20(サーバ)とで構成される例について説明したが、かかる例に限定されない。例えば、コンテンツ生成システム1は、ユーザが直接操作可能なコンテンツ生成装置20のみで構成されてもよい。即ち、コンテンツ生成装置20がユーザ端末10としての役割も担ってよい。この場合、ユーザは、端末をネットワークNWに接続することなく合成コンテンツを生成して利用することができる。
 また、コンテンツ生成装置20の機能は、複数の装置によって実現されてもよい。例えば、音声生成モデル231や画像生成モデル232を生成するための機能は他の装置によって実現されてもよい。この場合、コンテンツ生成装置20は、他の装置によって生成された音声生成モデル231と画像生成モデル232を記憶部230に記憶することで、上述の実施形態と同様にして合成コンテンツを生成することができる。
 また、上述の実施形態では、取得部241が、プレゼンデータに含まれるスライドを表示データとして取得し、画像生成部247が、取得部241によって取得された表示データを画像に変換して表示画像を生成する例について説明したが、かかる例に限定されない。
 取得部241が、デジタルクローンによって読み上げられるテキストデータを取得し、表示データを取得せず、画像生成部247が、生成された合成音声に応じてユーザの動作が変化する合成用本人画像(デジタルクローン)を生成し、合成音声と対応して表示される表示画像を生成しない構成であってもよい。
 本変形例において、図11に示すように、表示される合成動画50は、合成音声とデジタルクローン51とを合成した動画(クローン動画52)であり、合成動画50に、画像生成部247が生成するスライド等の表示画像は含まれない。
 本変形例において、クローン動画52内に字幕テキストを表示してもよい。一方、字幕テキストが不要な場合は、上述の実施形態におけるコンテンツ生成装置20の構成要素のうち、字幕生成部245は省略してもよい。
 次に、本変形例の合成動画の生成における処理の流れを、図12を参照して説明する。本変形例のコンテンツ生成装置20は、図12に示すように、上述の実施形態におけるステップのうち、ステップS304、S305、S306、S308、S309、S310を順に実行する。上述の実施形態と異なる点を以下に説明する。
 ステップS304において、取得部241は、デジタルクローンが読み上げるテキストデータを少なくとも取得する。分割処理のステップS305、及び再生時間決定のステップS306は共に実行するが、テキストデータが既に分割されている場合はステップS305、及びこのステップを実行する分割部243は省略してもよく、再生時間を決定する必要がなければ、ステップS306、及びこのステップを実行する再生時間決定部244は省略してもよい。
 ステップS309において、画像生成部247は、生成された合成音声に応じてユーザの動作が変化する合成用本人画像(デジタルクローン)を生成する一方で、合成音声と対応して表示されるスライド等の表示画像は生成しない。
 本変形例では、生成される合成動画には、合成音声と合成用本人画像が含まれるが、表示画像は含まれないため、ステップS310のクローン動画生成によって合成動画の生成は終了する。すなわち、本変形例において、上述の実施形態におけるステップS311は必須ではない。ただし、合成動画に字幕テキストを含める場合は、ステップS311において、クローン動画と字幕テキストとを合成し、合成動画としてもよい。
 また、上述の実施形態では、図5~図7に示すように、スライド等の表示画像41-1~41-nが平面的に表示された例について説明したが、かかる例に限定されない。
 例えば図13に示すように、コンテンツ生成装置20が、3D空間内に3D表示されたスライド等の表示画像及びデジタルクローン(3Dアバター)が配置された3Dコンテンツを生成してもよい。図13に示すように、本変形例のコンテンツ生成装置20が生成する合成動画60は、3D空間61内に、3D表示された2つの表示画像62、63と3Dアバター64とが配置されている。2つの表示画像62、63の各々は、合成動画60の左右方向における一方の端部(合成動画60の周縁部に近い端部)が他方の端部よりも合成動画60の視聴者側に位置するように斜めに表現されている。ただし、3D空間の表示は図13に示した例に限定されず、表示画像の数、大きさ、配置位置、傾斜の向きなどは適宜変更してよい。2つの表示画像62、63には、スライド、静止画、動画、及び字幕テキスト等が表示される。2つの表示画像62、63に、合成動画60の視聴者がSNS(Social Networking Service)にアップロードしたコメント等がリアルタイムで表示されるように構成してもよい。図13において、3Dアバター64は2つの表示画像62、63よりも視聴者側に位置するように表現されているが、これに限定されず、表示画像を用いた説明や合成音声等に合わせて、3Dアバター64を3D空間61内で動き回らせたり、3Dアバター64の表情を変えたり、口、頭、手、足、胴体といった部位を動かしたりしてもよい。また、上述した実施形態では、まず合成音声とユーザの本人画像からクローン動画を作成し、このクローン動画を用いて合成動画を作成しているが、3D空間を用いた3Dコンテンツの場合は、本人画像を用いてユーザに相当する3Dアバターを作成し、3D空間内で合成音声に合わせて3Dアバターの例えば口を動かしている状況を抽出することで合成動画を制作してもよい。すなわち、クローン動画の生成と合成動画の生成とが同時に行われてもよく、これは上述した実施形態においても同様である。
 また、上述の実施形態では、図5~図7に示すように、合成動画40-1~40-nの各々には、スライド、静止画、及び動画等の表示画像41-1~41-n、クローン動画42-1~42-n、並びに字幕テキスト43-1~43-nが同時に表示された例について説明したが、かかる例に限定されない。
 例えば、本変形例の合成動画は、スライド、静止画、及び動画等の表示画像、クローン動画、並びに字幕テキスト等が連続的に組み合わされ、時間と共に表示態様が変化する動画であってもよい。言い換えれば、再生されている合成動画の一時点において、スライド、静止画、動画、クローン動画、及び字幕テキスト等のうち、少なくとも1つが表示されるような動画であってもよい。
 また、上述の実施形態では、画像生成部247が、合成音声に応じてユーザの動作が変化する合成用本人画像(本人画像)を生成し、合成部248が、合成音声と、生成された合成用本人画像とを用いて合成動画を生成する例について説明したが、かかる例に限定されない。
 例えば、合成部248が、合成音声とは独立したユーザの本人画像(以下、独立本人画像と称する場合がある)を用いて合成動画を生成してもよい。独立本人画像は、合成音声に応じてユーザの動作が変化しない本人画像であり、例えば、ユーザの静止画像や、ユーザの画像(デジタルクローン)における口が合成音声とは関係なく動いている動画等が挙げられる。独立本人画像は、ユーザ端末10から通信部210を介して取得される画像であってもよいし、画像生成部247が学習用本人画像から生成する画像であってもよい。独立本人画像がユーザ端末10から通信部210を介して取得される場合は、コンテンツ生成装置20における画像生成部247を省略してもよい。
 以上、本発明の実施形態の変形例について説明した。
 なお、上述した実施形態におけるコンテンツ生成装置20の一部又は全部をコンピュータで実現するようにしてもよい。このコンピュータは、少なくとも、1つのプロセッサと1つのメモリとを含んでいてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
 なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
 また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
 なお、本発明は以下の態様も含む。
 本発明の一態様は、プログラムを非一時的に記憶する記録媒体であって、前記プログラムは、コンピュータを、読み上げ対象である第1のテキストを示すテキストデータを取得する取得部と、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、として機能させる。
 以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1…コンテンツ生成システム、10…ユーザ端末、20…コンテンツ生成装置、30…プレゼンデータ、31-1~30-n…スライド、32-1~32-n…第1のテキスト、40-1~40-n…合成動画、41-1~41-n…表示画像、42-1~42-n…クローン動画、43-1~43-n…字幕テキスト、210…通信部、220…入力部、230…記憶部、231…音声生成モデル、232…画像生成モデル、240…制御部、241…取得部、242…学習部、243…分割部、244…再生時間決定部、245…字幕生成部、246…音声生成部、247…画像生成部、248…合成部、249…出力処理部、250…出力部

Claims (18)

  1.  読み上げ対象である第1のテキストを示すテキストデータを取得する取得部と、
     ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
     生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、
     を備えるコンテンツ生成装置。
  2.  前記取得部は、前記テキストデータの内容と対応して表示される表示データを取得し、
     前記コンテンツ生成装置は、取得された前記表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成部をさらに備え、
     前記合成部は、生成された前記合成音声及び前記表示画像と、前記ユーザの前記本人画像とを合成して合成コンテンツを生成する、
     請求項1に記載のコンテンツ生成装置。
  3.  前記合成部は、前記合成音声と前記本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを生成し、前記表示画像と生成された前記クローンデータとを合成して前記合成コンテンツを生成する、
     請求項2に記載のコンテンツ生成装置。
  4.  前記画像生成部は、前記ユーザの学習用本人画像に基づいて前記ユーザの動作を学習した画像生成モデルを用いて、生成された前記合成音声に応じて前記ユーザの動作が変化する前記本人画像を生成し、
     前記合成部は、生成された前記本人画像を用いて前記合成コンテンツを生成する、
     請求項2又は請求項3に記載のコンテンツ生成装置。
  5.  前記画像生成部は、前記合成音声による読み上げに応じて前記ユーザの顔の動きが変化する前記本人画像を生成する、
     請求項4に記載のコンテンツ生成装置。
  6.  前記画像生成部は、前記合成音声による読み上げに応じて前記ユーザがジェスチャーを行っているように変化する前記本人画像を生成する、
     請求項4又は請求項5に記載のコンテンツ生成装置。
  7.  前記第1のテキストの分割箇所を示す入力に基づき、前記第1のテキストを複数に分割する分割部、
     をさらに備え、
     前記音声生成部は、分割された前記第1のテキストごとに前記合成音声を生成する、
     請求項1から請求項6のいずれか1項に記載のコンテンツ生成装置。
  8.  前記第1のテキストの文字数に基づき、前記合成コンテンツの再生時間を決定する再生時間決定部、
     をさらに備える請求項1から請求項7のいずれか1項に記載のコンテンツ生成装置。
  9.  前記再生時間決定部は、前記合成音声の読み上げ速度に基づき、前記合成コンテンツの再生時間を決定する、
     請求項8に記載のコンテンツ生成装置。
  10.  前記再生時間決定部は、前記第1のテキストの文字数又は前記合成音声の読み上げ速度の少なくともいずれか一方に基づき算出した前記再生時間に、前記第1のテキストの読み上げにおける間の表現に必要な時間を加算する、
     請求項9に記載のコンテンツ生成装置。
  11.  前記音声生成部は、第1の言語に対応する前記音声生成モデルが学習に用いた前記第1の言語による音声に基づき転移学習した、前記第1の言語とは異なる第2の言語に対応する前記音声生成モデルを用いて、前記第1の言語で示される前記第1のテキストが前記第2の言語を用いた前記ユーザの音声で読み上げられる前記合成音声を生成する、
     請求項1から請求項10のいずれか1項に記載のコンテンツ生成装置。
  12.  取得された前記テキストデータが示す前記第1のテキストに基づき字幕テキストを生成する字幕生成部、
     をさらに備え、
     前記合成部は、生成された前記字幕テキストも合成して前記合成コンテンツを生成する、
     請求項1から請求項11のいずれか1項に記載のコンテンツ生成装置。
  13.  前記字幕生成部は、分割された前記第1のテキストごとに前記字幕テキストを生成する、
     請求項12に記載のコンテンツ生成装置。
  14.  前記字幕生成部は、前記音声生成モデルが対応している言語に応じて前記テキストデータを翻訳した前記字幕テキストを生成する、
     請求項12又は請求項13に記載のコンテンツ生成装置。
  15.  取得部が、読み上げ対象である第1のテキストを示すテキストデータを取得する取得過程と、
     音声生成部が、ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、
     合成部が、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成過程と、
     を含むコンテンツ生成方法。
  16.  前記取得過程において、前記取得部が、前記テキストデータの内容と対応して表示される表示データを取得し、
     前記コンテンツ生成方法は、画像生成部が、取得された前記表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成過程をさらに含み、
     前記合成過程において、前記合成部が、生成された前記合成音声及び前記表示画像と、前記本人画像とを合成して合成コンテンツを生成する、
     請求項15に記載のコンテンツ生成方法。
  17.  コンピュータを、
     読み上げ対象である第1のテキストを示すテキストデータを取得する取得部と、
     ユーザが学習対象である第2のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第2のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
     生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、
     として機能させるためのプログラム。
  18.  前記取得部は、前記テキストデータの内容と対応して表示される表示データを取得し、
     前記プログラムは、前記コンピュータを、取得された前記表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成部としても機能させ、
     前記合成部は、生成された前記合成音声及び前記表示画像と、前記本人画像とを合成して合成コンテンツを生成する、
     請求項17に記載のプログラム。
PCT/JP2022/042847 2021-11-19 2022-11-18 コンテンツ生成装置、コンテンツ生成方法、及びプログラム WO2023090419A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-188791 2021-11-19
JP2021188791 2021-11-19

Publications (1)

Publication Number Publication Date
WO2023090419A1 true WO2023090419A1 (ja) 2023-05-25

Family

ID=86396966

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/042847 WO2023090419A1 (ja) 2021-11-19 2022-11-18 コンテンツ生成装置、コンテンツ生成方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023090419A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014307A (ja) * 1999-07-02 2001-01-19 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2003108502A (ja) * 2001-09-28 2003-04-11 Interrobot Inc 身体性メディア通信システム
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
JP2020006482A (ja) * 2018-07-09 2020-01-16 株式会社国際電気通信基礎技術研究所 アンドロイドのジェスチャ生成装置及びコンピュータプログラム
WO2020204000A1 (ja) * 2019-04-01 2020-10-08 住友電気工業株式会社 コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム
US20210034976A1 (en) * 2019-08-02 2021-02-04 Google Llc Framework for Learning to Transfer Learn
JP2021177647A (ja) * 2020-12-22 2021-11-11 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014307A (ja) * 1999-07-02 2001-01-19 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2003108502A (ja) * 2001-09-28 2003-04-11 Interrobot Inc 身体性メディア通信システム
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
JP2020006482A (ja) * 2018-07-09 2020-01-16 株式会社国際電気通信基礎技術研究所 アンドロイドのジェスチャ生成装置及びコンピュータプログラム
WO2020204000A1 (ja) * 2019-04-01 2020-10-08 住友電気工業株式会社 コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム
US20210034976A1 (en) * 2019-08-02 2021-02-04 Google Llc Framework for Learning to Transfer Learn
JP2021177647A (ja) * 2020-12-22 2021-11-11 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAITO, NORIAKI.: " Proposal of Personalized Online Course.), non-official translation (Symposium of Information Processing Society of Japan. Groupware and Network Services Workshop 2018); *", INFORMATION PROCESSING SOCIETY OF JAPAN SYMPOSIUM GROUPWARE AND NETWORK SERVICE WORKSHOP 2018, 8 November 2018 (2018-11-08), JP, pages 1 - 6, XP009545702 *

Similar Documents

Publication Publication Date Title
US10088976B2 (en) Systems and methods for multiple voice document narration
US8359202B2 (en) Character models for document narration
US8793133B2 (en) Systems and methods document narration
KR102035596B1 (ko) 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
US10372790B2 (en) System, method and apparatus for generating hand gesture animation determined on dialogue length and emotion
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
JP2001209820A (ja) 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
US10616157B2 (en) Animated delivery of electronic messages
KR100856786B1 (ko) 3d 버추얼 에이전트를 사용한 멀티미디어 나레이션 저작시스템 및 그 제공 방법
WO2023090419A1 (ja) コンテンツ生成装置、コンテンツ生成方法、及びプログラム
KR101124798B1 (ko) 전자 그림책 편집 장치 및 방법
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Wolfe et al. Supporting Mouthing in Signed Languages: New innovations and a proposal for future corpus building
JP2022164367A (ja) 翻訳装置およびプログラム
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP2008032788A (ja) 語学教材データ作成用プログラム
Martin et al. 3D audiovisual rendering and real-time interactive control of expressivity in a talking head
US20230245644A1 (en) End-to-end modular speech synthesis systems and methods
JP2024088118A (ja) コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム
Beňuš et al. Prosody II: Intonation
WO2023167212A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
Anitha et al. NextGen Dynamic Video Generator using AI
Kener et al. 3D Realistic Animation of Greek Sign Language’s Fingerspelled Signs
McDonald Considerations on generating facial nonmanual signals on signing avatars
Zabala et al. Attainable Digital Embodied Storytelling Using State of the Art Tools, and a Little Touch

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22895700

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023562416

Country of ref document: JP

Kind code of ref document: A