WO2022113293A1 - 画像生成装置、画像生成方法及び画像生成プログラム - Google Patents
画像生成装置、画像生成方法及び画像生成プログラム Download PDFInfo
- Publication number
- WO2022113293A1 WO2022113293A1 PCT/JP2020/044317 JP2020044317W WO2022113293A1 WO 2022113293 A1 WO2022113293 A1 WO 2022113293A1 JP 2020044317 W JP2020044317 W JP 2020044317W WO 2022113293 A1 WO2022113293 A1 WO 2022113293A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- utterance
- frame
- cartoon
- frame division
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 48
- 230000008451 emotion Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 description 23
- 239000000284 extract Substances 0.000 description 15
- 230000002996 emotional effect Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 241000556720 Manga Species 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Definitions
- the present disclosure relates to an image generator, an image generation method, and an image generation program.
- An image generation technology that generates an image (referred to as a "manga expression image") that expresses an utterance scene in a cartoon style using captured image data of a speaker who is speaking and voice data that records the voice during speech. It has been known. By using this technique, it is possible to support an image viewer (for example, a person who is visually superior, a person who has difficulty in understanding information from the auditory sense, etc.) to understand the content of the utterance.
- the purpose of this disclosure is to make it easier to understand the content of the utterance when expressing the utterance scene in a cartoon style.
- the image generator is An estimation unit that estimates frame division by inputting information generated based on the speaker's voice data and captured image data in the utterance scene into a trained model that has learned frame division based on an existing cartoon image. It has an image generation unit that generates an image showing the utterance scene based on the frame division estimated by the estimation unit.
- FIG. 1 is a first diagram for explaining the effect of the expression method peculiar to comics.
- FIG. 2 is a second diagram for explaining the effect of the expression method peculiar to comics.
- FIG. 3 is a diagram showing an example of a learning device.
- FIG. 4 is a diagram showing an example of an image generation device.
- FIG. 5 is a diagram showing an example of the hardware configuration of the learning device or the image generation device.
- FIG. 6 is a diagram showing a specific example of the processing of the learning data generation unit.
- FIG. 7 is a diagram showing a specific example of the processing of the frame division learning unit.
- FIG. 8 is a flowchart showing the flow of the learning process.
- FIG. 9 is a diagram showing a specific example of the processing of the data generation unit.
- FIG. 9 is a diagram showing a specific example of the processing of the data generation unit.
- FIG. 10 is a diagram showing a specific example of processing of the frame-separated information generation unit.
- FIG. 11 is a diagram showing a specific example of frame-separated information.
- FIG. 12 is a diagram showing a specific example of the processing of the frame division estimation unit.
- FIG. 13 is a diagram showing a specific example of the processing of the cartoon expression image generation unit.
- FIG. 14 is a flowchart showing the flow of the image generation process.
- the cartoon image 110, the cartoon image 120, the cartoon image 210, and the cartoon image 220 shown in FIGS. 1 and 2 are all cartoon images showing the speech contents of the two speakers in a balloon.
- the cartoon image 110 in FIG. 1 is a one-frame cartoon image.
- the cartoon image 220 in FIG. 1 is a cartoon image having two cartoon frame images 121 and 122. In this way, even if the cartoon image shows the same utterance scene, the impression that the viewer receives will change depending on the frame division.
- the cartoon image 210 in FIG. 2 is a cartoon image having three frames of cartoon frame images 211 to 213, and the size of the speaker in the third frame is larger than the size of the speaker in the second frame.
- the size of the speaker in the third frame is larger than the size of the speaker in the second frame.
- the cartoon image 220 of FIG. 3 has three cartoon frame images 221 to 223, and is laid out by making the size of the third frame larger than the size of the other frames, and the effect line. It is a cartoon image with. In this way, by laying out by changing the size of the frame and putting an effect line in the third frame, it is possible to more effectively express the emotion that the speaker never uttered, and on the other hand. It is also possible to express the emotions that the speaker was shocked by.
- the image generation device is configured so that a cartoon-specific expression method is appropriately used when generating a cartoon expression image from an utterance scene.
- the learning device learns a cartoon-specific expression method (frame division) based on the existing cartoon image, and the image generation device uses the learning result (learned model) to create a cartoon expression image from the utterance scene.
- the image generation device uses the learning result (learned model) to create a cartoon expression image from the utterance scene.
- FIG. 3 is a diagram showing an example of a learning device.
- a learning program is installed in the learning device 300, and when the program is executed, the learning device 300 functions as a learning data generation unit 310 and a frame division learning unit 320.
- the learning data generation unit 310 reads out a cartoon image from the cartoon image storage unit 330 in which a plurality of existing cartoon images are stored. Further, the learning data generation unit 310 performs numbering for each of the plurality of read cartoon images for each work and for each frame order, and generates a cartoon frame image divided for each frame.
- the learning data generation unit 310 extracts "manga frame information" by performing image recognition processing on each of the generated cartoon frame images.
- the cartoon frame information includes utterance texts such as lines of characters in the corresponding cartoon frame image, emotions of the characters, information indicating a scene, and the like.
- the learning data generation unit 310 generates learning data 341 with cartoon frame images and cartoon frame information as input data and cartoon images as correct answer data, and stores them in the learning data storage unit 340.
- the frame division learning unit 320 reads the learning data 341 from the learning data storage unit 340, and inputs the cartoon frame image and the cartoon frame information into the frame division model. Then, the frame division learning unit 320 performs learning processing on the frame division model so that the output of the frame division model approaches the cartoon image which is the correct answer data of the learning data 341.
- the frame division learning unit 320 learns the relationship between the cartoon frame image and the cartoon frame information and the cartoon image (frame divided) by the learning process for the frame division model, so that the learned frame division model can be obtained. It is generated and output to an image generator described later.
- FIG. 4 is a diagram showing an example of an image generation device.
- An image generation program is installed in the image generation device 400, and when the program is executed, the image generation device 400 functions as a data generation unit 410 and a frame division information generation unit 420. Further, the image generation device 400 functions as a frame division estimation unit 430 and a cartoon expression image generation unit 440.
- the data generation unit 410 acquires voice data detected from the utterances of the speaker 401 and the speaker 402 from the voice input device 460 (for example, a microphone) connected to the image generation device 400.
- the voice input device 460 for example, a microphone
- the data generation unit 410 acquires photographed image data obtained by photographing the speaker 401 and the speaker 402 from the image pickup device 470 (for example, a camera) connected to the image generation device 400.
- the image pickup device 470 for example, a camera
- the data generation unit 410 extracts the utterance text from the voice data and analyzes the document structure to generate the utterance text whose document structure has been analyzed.
- the data generation unit 410 generates emotional information indicating the speaker's emotions based on the voice data and the captured image data.
- the data generation unit 410 notifies the frame-separated information generation unit 420 of the generated document structure-analyzed utterance text, emotion information, and captured image data.
- the frame-separated information generation unit 420 is an example of the information generation unit.
- the frame-separated information generation unit 420 extracts a unit to be divided as one frame based on the document structure-analyzed utterance text, emotion information, and captured image data, and generates frame-separated information.
- the frame-separated information generation unit 420 stores the generated frame-separated information in the frame-separated information storage unit 450.
- the frame division estimation unit 430 is an example of the estimation unit.
- the frame division estimation unit 430 reads the frame division information from the frame division information storage unit 450 and inputs it to the trained frame division model. Further, the frame division estimation unit 430 outputs the frame division information indicating the appropriate frame division estimated by the learned frame division model by inputting the frame division information to the cartoon expression image generation unit 440.
- the cartoon expression image generation unit 440 is an example of the image generation unit.
- the cartoon expression image generation unit 440 reads the frame division information from the frame division information storage unit 450 and converts it into a cartoon expression by frame division based on the frame division information to generate a cartoon expression image. Further, the cartoon expression image generation unit 440 transmits the generated cartoon expression image to the cartoon expression image display device 480, and displays the generated cartoon expression image on the viewer 491.
- FIG. 5 is a diagram showing an example of the hardware configuration of the learning device or the image generation device.
- the learning device 300 or the image generation device 400 includes a processor 501, a memory 502, an auxiliary storage device 503, an operation device 504, a display device 505, an I / F (Interface) device 506, a communication device 507, and a drive. It has a device 508.
- the hardware of the learning device 300 or the image generation device 400 is connected to each other via the bus 509.
- the processor 501 has various arithmetic devices such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
- the processor 501 reads various programs (for example, a learning program, an image generation program, etc.) on the memory 502 and executes them.
- the memory 502 has a main storage device such as a ROM (ReadOnlyMemory) and a RAM (RandomAccessMemory).
- the processor 501 and the memory 502 form a so-called computer, and the processor 501 executes various programs read on the memory 502, so that the computer realizes various functions.
- the various functions refer to, for example, the learning data generation unit 310 to the frame division learning unit 320, and in the case of the image generation device 400, for example, the data generation unit 410 to the cartoon expression image. Refers to the generation unit 440.
- the auxiliary storage device 503 stores various programs and various data used when the various programs are executed by the processor 501.
- the cartoon image storage unit 330 and the learning data storage unit 340 are realized, and in the case of the image generation device 400, the frame division information storage unit 450 is realized in the auxiliary storage device 503.
- the operation device 504 accepts various operations of the administrator when the administrator of the learning device 300 or the image generation device 400 inputs various instructions to the learning device 300 or the image generation device 400.
- the display device 505 displays the internal state of the learning device 300 or the image generation device 400 to the manager of the learning device 300 or the image generation device 400.
- the I / F device 506 connects the learning device 300 or the image generation device 400 and the external device 520.
- the image generation device 400 it is connected to, for example, a voice input device 460 or an image pickup device 470, which are external devices 520, via the I / F device 506.
- the communication device 507 is a communication device for connecting the learning device 300 or the image generation device 400 so as to be able to communicate with an external device via a network.
- the communication device 507 is communicably connected to the cartoon expression image display device 480.
- the drive device 508 is a device for setting the recording medium 530.
- the recording medium 530 referred to here includes a medium such as a CD-ROM, a flexible disk, a magneto-optical disk, or the like, which records information optically, electrically, or magnetically. Further, the recording medium 530 may include a semiconductor memory or the like for electrically recording information such as a ROM or a flash memory.
- the various programs installed in the auxiliary storage device 503 are installed, for example, by setting the distributed recording medium 530 in the drive device 508 and reading the various programs recorded in the recording medium 530 by the drive device 508. Will be done.
- various programs installed in the auxiliary storage device 503 may be installed by being downloaded via a network (not shown).
- FIG. 6 is a diagram showing a specific example of processing of the learning data generation unit. As shown in FIG. 6, the learning data generation unit 310 further includes a frame division processing unit 610 and a frame information extraction unit 620.
- the frame division processing unit 610 reads a cartoon image from the cartoon image storage unit 330.
- the frame division processing unit 610 detects an edge in the cartoon image 220 and divides the cartoon image 220 into each dividing line (area surrounded by a polygon) as a frame, so that the cartoon frame images 221 to Generate 223. Further, the frame division processing unit 610 numbers the cartoon frame images 221 to 223 in order from the cartoon frame image located above and to the right.
- the frame division processing unit 610 numbers "1" in the cartoon frame image 221, "2" in the cartoon frame image 222, and "3" in the cartoon frame image 223. It shows how it went.
- the frame information extraction unit 620 performs image recognition on the numbered cartoon frame images 221 to 223, and extracts utterance texts such as characters' lines, emotions of the characters, and information indicating the scene. Generates cartoon frame information 631 to 633.
- the learning data generation unit 310 stores the cartoon frame images 221 to 223 and the cartoon frame information 631 to 633 as input data for the learning data 341 and the cartoon image 220 as the correct answer data for the learning data 341. It is stored in the unit 340.
- FIG. 7 is a diagram showing a specific example of processing of the frame division learning unit.
- the frame division learning unit 320 further includes a frame division model 710 and a comparison / change unit 720.
- the frame division model 710 is composed of, for example, RNN (Recurrent Neural Network), LSTM (Long short-term memory), and the like.
- the frame division learning unit 320 executes the frame division model 710 by inputting the cartoon frame images 221 to 223 and the cartoon frame information 631 to 633, which are the input data of the learning data 341, into the frame division model 710. Further, the frame division learning unit 320 inputs the cartoon image output from the frame division model 710 to the comparison / change unit 720.
- the comparison / change unit 720 sets the model parameters of the frame division model 710 so that the cartoon image output from the frame division model 710 approaches the cartoon image (for example, the cartoon image 220) which is the correct answer data of the learning data 341. Update.
- the frame division learning unit 320 performs learning processing on the frame division model 710 and learns the relationship between the cartoon frame image and the cartoon frame information and the cartoon image (frame divided). Generate a trained frame division model.
- FIG. 8 is a flowchart showing the flow of the learning process. At the start of the learning process, it is assumed that a plurality of cartoon images are stored in the cartoon image storage unit 330.
- step S801 the learning data generation unit 310 reads a cartoon image from the cartoon image storage unit 330.
- step S802 the learning data generation unit 310 divides the read cartoon image into frames and generates a cartoon frame image.
- step S803 the learning data generation unit 310 performs image recognition on the generated cartoon frame image and generates cartoon frame information.
- step S804 the learning data generation unit 310 associates the generated cartoon frame image and cartoon frame information with the cartoon image, and stores the generated cartoon frame image and cartoon frame information in the learning data storage unit 340 as learning data.
- step S805 the frame division learning unit 320 reads the learning data from the learning data storage unit 340 and inputs it to the frame division model to perform learning processing on the frame division model.
- step S806 the frame division learning unit 320 determines whether or not to end the learning process for the frame division model. If it is determined in step S806 that the learning process for the frame division model is not completed (NO in step S806), the process returns to step S801. On the other hand, if it is determined in step S806 that the learning process for the frame division model is completed (YES in step S806), the process proceeds to step S807.
- step S807 the frame division learning unit 320 outputs the generated learned frame division model and ends the learning process.
- FIG. 9 is a diagram showing a specific example of processing of the data generation unit 410.
- the data generation unit 410 further includes a voice recognition unit 910, a document structure analysis unit 920, and an emotion information estimation unit 930.
- the voice recognition unit 910 extracts the utterance text from the voice data and notifies the document structure analysis unit 920.
- the document structure analysis unit 920 analyzes the document structure of the utterance text and generates the utterance text whose document structure has been analyzed.
- the analysis by the document structure analysis unit 920 uses well-known techniques such as Speech to Text (speech recognition function) and natural sentence analysis function.
- the emotion information estimation unit 930 generates emotion information based on the voice data and the captured image data.
- the emotion information estimation unit 930 uses a well-known technique (for example, a technique disclosed in Japanese Patent No. 5437297, Japanese Patent Application Laid-Open No. 2019-288485, etc.).
- the data generation unit 410 may be configured to acquire sympathy information by using, for example, the line-of-sight information extracted from the captured image data.
- the data generation unit 410 may be configured to newly acquire the respiratory movement information and acquire the excitement information calculated based on the acquired respiratory movement information.
- FIG. 10 is a diagram showing a specific example of processing by the frame division information generation unit.
- the frame division information generation unit 420 further includes an utterance section division unit 1010, an emotion information determination unit 1020, an utterance section connection unit 1030, and a frame division information output unit 1040.
- the utterance section dividing unit 1010 divides the time axis into a plurality of utterance sections along the utterance text whose document structure has been analyzed, with the punctuation as a delimiter.
- the graph 1050 is a graph in which the horizontal axis represents time and the vertical axis represents changes in emotional information.
- the vertical dotted line shows how the time axis is divided into utterance sections.
- the emotion information determination unit 1020 determines an utterance section in which the change in emotion information is large.
- the solid line 1051 in the graph 1050 shows the change in emotional information at each time.
- the change in emotional information is normalized in advance so that the value is in the range of 0 to 1.
- empathy information is used as emotional information
- the method disclosed in Japanese Patent No. 5437297, which is a prior art is used, for example, in order to normalize the empathy information.
- the excitement information is used as the emotion information, for example, the method disclosed in Japanese Patent Application Laid-Open No. 2019-288485, which is a prior art, is used in order to normalize the excitement information.
- the change in emotional information (M) shall be calculated based on, for example, the following equation.
- HUP represents the normalized degree of excitement [0 ⁇ HUP ⁇ 1]
- EMT represents the normalized sympathy [0 ⁇ EMT ⁇ 1].
- the utterance section connecting unit 1030 has at least one of the following two conditions ((i), (ii)) for a plurality of utterance sections obtained by dividing the time axis by the utterance section dividing unit 1010. Judge whether or not the condition is satisfied. Then, the utterance section connecting unit 1030 determines that the utterance section determined to correspond to any one of them has the same utterance content, and generates an utterance section group.
- the utterance section connecting unit 1030 extracts the utterance section group satisfying any one of the following three conditions ((a), (b), (c)) from the generated utterance section group.
- the position of the utterance section group is the first position At the beginning of the utterance, there is a high possibility that important information such as a topic or a trigger for the utterance is included. Therefore, the utterance section connecting unit 1030 extracts the utterance section group at the first position (see, for example, the utterance section group 1071).
- the utterance section in which the change in emotional information exceeds a predetermined threshold is included. It is highly possible that the speaker's utterance when the emotional information changes contains assertion or moving information. Therefore, the utterance section connecting unit 1030 extracts the utterance section group including the utterance section in which the change of the emotional information exceeds a predetermined threshold value (see, for example, the utterance section groups 1072 and 1073). It is assumed that the predetermined threshold value is set in advance by, for example, the administrator of the image generation device 400.
- the utterance section connecting unit 1030 extracts an utterance section group including the utterance section in which the logically constructive importance of the utterance content exceeds a predetermined threshold value (see, for example, the utterance section group 1074).
- a predetermined threshold value is set in advance by, for example, the administrator of the image generation device 400.
- the logically constructive importance is calculated by using the method of the prior art and normalized in advance so as to be a value in the range of 0 to 1.
- the frame-separated information output unit 1040 extracts a representative image used when generating a cartoon expression image from the photographed image data corresponding to each of the generated utterance section groups. In extracting the representative image, the frame-separated information output unit 1040 uses a known highlight image extraction technique or the like.
- the frame-separated information output unit 1040 generates frame-separated information by associating the extracted representative image with the utterance text of the corresponding utterance section group and the emotional information of the corresponding utterance section group. Further, the frame-separated information output unit 1040 stores the generated frame-separated information in the frame-separated information storage unit 450.
- FIG. 11 is a diagram showing a specific example of frame-separated information. As shown in FIG. 11, the frame-separated information 1100 includes "utterance section group ID”, "utterance text”, “emotion information”, and "representative image” as information items.
- the "utterance section group ID” stores an identifier for identifying the utterance section group.
- the "utterance text” stores the utterance text included in the corresponding utterance section group.
- the "emotion information” stores emotional information in the corresponding utterance section group.
- the "representative image” a representative image extracted from the captured image data in the corresponding utterance section group is stored.
- FIG. 12 is a diagram showing a specific example of processing by the frame division estimation unit. As shown in FIG. 12, the frame division estimation unit 430 has a trained frame division model 1200.
- the frame division estimation unit 430 reads the frame division information (for example, frame division information 1100) from the frame division information storage unit 450 and inputs it into the trained frame division model 1200 to execute the learned frame division model 1200. As a result, in the trained frame division model 1200, the frame division information is estimated.
- the frame division information for example, frame division information 1100
- the frame division information 1210 is an example of the frame division information estimated by executing the learned frame division model 1200 based on the frame division information 1100.
- -An effect line is added to the frame 1211.
- -An effect line is added to the frame 1213, It shows how the frame division information 1210 indicating the above is estimated.
- the frame division estimation unit 430 outputs the frame division information 1210 estimated by the learned frame division model 1200 to the cartoon expression image generation unit 440.
- the frame division estimation unit 430 When the frame division estimation unit 430 inputs the frame division information to the learned frame division model 1200, the frame division estimation unit 430 switches the processing method according to the processing mode of real-time processing or batch processing.
- Real-time processing refers to the processing of generating a cartoon expression image in real time while the speaker 401 or the speaker 402 is speaking.
- the batch process is a process of generating a cartoon expression image using all the frame-separated information generated for the voice data and the captured image data recorded at the time of the speaker 401 or the speaker 402's past utterance.
- the frame division estimation unit 430 estimates the frame division information by inputting all the frame division information stored in the frame division information storage unit 450 into the trained frame division model 1200.
- FIG. 13 is a diagram showing a specific example of processing by the cartoon expression image generation unit.
- the cartoon expression image generation unit 440 generates a cartoon expression image based on the frame division information (for example, frame division information 1100) and the frame division information (for example, frame division information 1210). ..
- FIG. 13 is shown in frame 1212.
- FIG. 13 is shown in frame 1213.
- FIG. 14 is a flowchart showing the flow of the image generation process.
- step S1401 the data generation unit 410 acquires voice data and captured image data from the voice input device 460 and the image pickup device 470.
- step S1402 the data generation unit 410 generates the utterance text based on the voice data and analyzes the document structure to generate the utterance text whose document structure has been analyzed. Further, the data generation unit 410 generates emotion information based on the voice data and the captured image data.
- the frame-separated information generation unit 420 divides the time axis into a plurality of utterance sections based on the document structure-analyzed utterance text, classifies the time axis into a plurality of groups, and generates an utterance section group. Further, the frame-separated information generation unit 420 extracts a predetermined utterance section group based on the position of the utterance section group, the change in emotional information, the logically constructive importance, and the like. Further, the frame-separated information generation unit 420 extracts a representative image from the captured image data for each extracted utterance section group, and generates frame-separated information by associating it with the utterance text and emotion information.
- step S1404 the frame division estimation unit 430 executes the trained frame division model by inputting the frame division information into the trained frame division model. Further, the frame division estimation unit 430 outputs the frame division information estimated by the learned frame division model to the cartoon expression image generation unit 440.
- step S1405 the cartoon expression image generation unit 440 generates a cartoon expression image based on the frame division information and the frame division information.
- step S1406 the cartoon expression image generation unit 440 displays the cartoon expression image on the cartoon expression image display device 480.
- step S1407 the image generation device 400 determines whether or not to end the image generation process, and if it is determined not to end (NO in step S1407), the process returns to step S1401.
- step S1407 determines whether it is determined in step S1407 to end (YES in step S1407). If it is determined in step S1407 to end (YES in step S1407), the image generation process ends.
- the image generator 400 is -Has a trained frame division model that learns frame division based on existing cartoon images.
- the frame division is estimated by inputting the frame division information generated based on the speaker's voice data and the captured image data in the utterance scene into the trained frame division model.
- the image generation device 400 when the utterance scene is expressed in a cartoon style, the utterance content can be easily understood.
- the learning device 300 and the image generation device 400 are configured as separate devices, but the learning device 300 and the image generation device 400 may be configured as an integrated device.
- the image generation device 400, the voice input device 460, the image pickup device 470, and the cartoon expression image display device 480 have been described as being configured as separate devices.
- the image generation device 400 may be configured as an integral device with a part or all of the voice input device 460, the image pickup device 470, and the cartoon expression image display device 480.
- the image generation device 400 may be configured by a portable device such as a tablet terminal or the like.
- the case where there are two speakers in the utterance scene has been described as an example, but the number of speakers is not limited to two, and even one speaker is three or more. May be good.
- the learning process is performed on the frame division model using an arbitrary cartoon image.
- it may be configured to selectively use a cartoon image corresponding to a scene assumed in the application destination of the image generation device 400 to perform learning processing on the frame division model.
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
発話シーンを漫画風に表現する際、発話内容を理解しやすくする。画像生成装置は、既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部とを有する。
Description
本開示は、画像生成装置、画像生成方法及び画像生成プログラムに関する。
発話中の話者を撮影した撮影画像データや、発話中の音声を記録した音声データを用いて、発話シーンを漫画風に表現した画像(「漫画表現画像」と称す)を生成する画像生成技術が知られている。当該技術を用いれば、画像の閲覧者(例えば、視覚優位な人、聴覚からでは情報を理解しづらい人等)による発話内容の理解を支援することができる。
Maciej Pesko, Adam Svystun, Pawel Andruszkiewicz, Przemyslaw Rokita, Tomasz Trzcinski, "Comixify: Transform video into a comics", arXiv:1812.03473v1 [cs.CV], December 11, 2018
しかしながら、上記画像生成技術の場合、漫画特有の表現方法(コマ割り、吹き出し等)が適用されていないため、発話中の話者の感情が閲覧者に伝わりにくいという問題がある。このため、閲覧者による発話内容の理解が十分に進まない場合がある。
本開示は、発話シーンを漫画風に表現する際、発話内容を理解しやすくすることを目的とする。
本開示の一態様によれば、画像生成装置は、
既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、
前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部とを有する。
既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、
前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部とを有する。
本開示によれば、発話シーンを漫画風に表現する際、発話内容を理解しやすくすることができる。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
[第1の実施形態]
<漫画特有の表現方法による効果の説明>
はじめに、漫画特有の表現方法(コマ割り、吹き出し等)による効果について説明する。図1及び図2は、漫画特有の表現方法による効果を説明するための第1及び第2の図である。
<漫画特有の表現方法による効果の説明>
はじめに、漫画特有の表現方法(コマ割り、吹き出し等)による効果について説明する。図1及び図2は、漫画特有の表現方法による効果を説明するための第1及び第2の図である。
図1及び図2に示す漫画画像110、漫画画像120、漫画画像210、漫画画像220は、いずれも、二人の話者の発話内容を吹き出しで示した、発話シーンを示す漫画画像である。
このうち、図1の漫画画像110は、1コマの漫画画像である。また、図1の漫画画像220は、2コマの漫画コマ画像121、122を有する漫画画像である。このように、同じ発話シーンを示す漫画画像であっても、コマ割りによって、閲覧者が受ける印象は変わってくる。
更に、図2の漫画画像210は、3コマの漫画コマ画像211~213を有し、3コマ目の話者の大きさを2コマ目の話者の大きさよりも大きくした漫画画像である。このように、コマの数を増やし、発話をしていない漫画コマ画像212を入れることで、話者が戸惑っている感情を表現することができる。また、3コマ目の話者の大きさを大きくすることで、話者が意を決して発話した感情を表現することができる。
また、図3の漫画画像220は、3コマの漫画コマ画像221~223を有し、3コマ目のコマの大きさを、他のコマの大きさよりも大きくしてレイアウトし、かつ、効果線を入れた漫画画像である。このように、コマの大きさを変えてレイアウトし、3コマ目のコマに効果線を入れることで、話者が意を決して発話した感情を、より効果的に表現することができるとともに、他方の話者が衝撃を受けた感情を表現することもできる。
以上のように、漫画特有の表現方法を適切に用いることで、閲覧者は、話者の感情を考慮しながら発話内容を理解することができるようになる。そこで、以下に説明する第1の実施形態に係る画像生成装置では、発話シーンから漫画表現画像を生成するにあたり、漫画特有の表現方法が適切に用いられるように構成する。具体的には、学習装置が既存の漫画画像に基づいて漫画特有の表現方法(コマ割り)を学習し、画像生成装置が、当該学習結果(学習済みモデル)を用いて発話シーンから漫画表現画像を生成する。これにより、第1の実施形態に係る画像生成装置によれば、漫画特有の表現方法が適切に用いられた漫画表現画像を生成することができ、発話内容を理解しやすくすることができる。
<学習装置の説明>
はじめに、漫画特有の表現方法を学習する学習装置について説明する。
はじめに、漫画特有の表現方法を学習する学習装置について説明する。
図3は、学習装置の一例を示す図である。学習装置300には、学習プログラムがインストールされており、当該プログラムが実行されることで、学習装置300は、学習用データ生成部310、コマ割り学習部320として機能する。
学習用データ生成部310は、既存の漫画画像が複数格納された漫画画像格納部330より漫画画像を読み出す。また、学習用データ生成部310は、読み出した複数の漫画画像それぞれについて、作品ごと、コマの順番ごとにナンバリングを行い、コマごとに分割した漫画コマ画像を生成する。
また、学習用データ生成部310は、生成した漫画コマ画像それぞれに対して画像認識処理を行うことで、「漫画コマ情報」を抽出する。なお、漫画コマ情報には、対応する漫画コマ画像内の登場人物のセリフ等の発話テキスト、登場人物の感情、シーンを示す情報等が含まれる。
更に、学習用データ生成部310は、漫画コマ画像及び漫画コマ情報を入力データ、漫画画像を正解データとする学習用データ341を生成し、学習用データ格納部340に格納する。
コマ割り学習部320は、学習用データ格納部340より学習用データ341を読み出し、漫画コマ画像及び漫画コマ情報をコマ割りモデルに入力する。そして、コマ割り学習部320は、コマ割りモデルの出力が、学習用データ341の正解データである漫画画像に近づくよう、コマ割りモデルに対して学習処理を行う。
また、コマ割り学習部320は、コマ割りモデルに対する学習処理により、漫画コマ画像及び漫画コマ情報と、漫画画像(コマ割りされたもの)との関係を学習することで、学習済みコマ割りモデルを生成し、後述する画像生成装置に出力する。
<画像生成装置の説明>
次に、学習済みコマ割りモデルを用いて、発話シーンから漫画表現画像を生成する画像生成装置について説明する。図4は、画像生成装置の一例を示す図である。画像生成装置400には、画像生成プログラムがインストールされており、当該プログラムが実行されることで、画像生成装置400は、データ生成部410、コマ区切り情報生成部420として機能する。また、画像生成装置400は、コマ割り推定部430、漫画表現画像生成部440として機能する。
次に、学習済みコマ割りモデルを用いて、発話シーンから漫画表現画像を生成する画像生成装置について説明する。図4は、画像生成装置の一例を示す図である。画像生成装置400には、画像生成プログラムがインストールされており、当該プログラムが実行されることで、画像生成装置400は、データ生成部410、コマ区切り情報生成部420として機能する。また、画像生成装置400は、コマ割り推定部430、漫画表現画像生成部440として機能する。
データ生成部410は、画像生成装置400と接続される音声入力装置460(例えば、マイク)より、話者401及び話者402の発話から検出された音声データを取得する。
また、データ生成部410は、画像生成装置400と接続される撮像装置470(例えば、カメラ)より、話者401及び話者402を撮影した撮影画像データを取得する。
また、データ生成部410は、音声データから発話テキストを抽出し、文書構造の解析を行うことで、文書構造解析済み発話テキストを生成する。
また、データ生成部410は、音声データと撮影画像データとに基づいて、話者の感情を示す感情情報を生成する。
更に、データ生成部410は、生成した文書構造解析済み発話テキスト、感情情報、及び、撮影画像データをコマ区切り情報生成部420に通知する。
コマ区切り情報生成部420は情報生成部の一例である。コマ区切り情報生成部420は、文書構造解析済み発話テキスト、感情情報、撮影画像データに基づいて、1コマとして区切る単位を抽出し、コマ区切り情報を生成する。コマ区切り情報生成部420は、生成したコマ区切り情報を、コマ区切り情報格納部450に格納する。
コマ割り推定部430は推定部の一例である。コマ割り推定部430は、コマ区切り情報格納部450より、コマ区切り情報を読み出し、学習済みコマ割りモデルに入力する。また、コマ割り推定部430は、コマ区切り情報を入力したことで学習済みコマ割りモデルにより推定された、適切なコマ割りを示すコマ割り情報を、漫画表現画像生成部440に出力する。
漫画表現画像生成部440は画像生成部の一例である。漫画表現画像生成部440は、コマ区切り情報格納部450より、コマ区切り情報を読み出し、コマ割り情報に基づくコマ割りで漫画表現に変換することで、漫画表現画像を生成する。また、漫画表現画像生成部440は、生成した漫画表現画像を漫画表現画像表示装置480に送信することで、閲覧者491に表示する。
<学習装置及び画像生成装置のハードウェア構成>
次に、学習装置300及び画像生成装置400のハードウェア構成について説明する。なお、学習装置300と画像生成装置400とは、同様のハードウェア構成を有することから、ここでは、図5を用いて、まとめて説明する。図5は、学習装置または画像生成装置のハードウェア構成の一例を示す図である。
次に、学習装置300及び画像生成装置400のハードウェア構成について説明する。なお、学習装置300と画像生成装置400とは、同様のハードウェア構成を有することから、ここでは、図5を用いて、まとめて説明する。図5は、学習装置または画像生成装置のハードウェア構成の一例を示す図である。
図5に示すように、学習装置300または画像生成装置400は、プロセッサ501、メモリ502、補助記憶装置503、操作装置504、表示装置505、I/F(Interface)装置506、通信装置507、ドライブ装置508を有する。なお、学習装置300または画像生成装置400の各ハードウェアは、バス509を介して相互に接続される。
プロセッサ501は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の各種演算デバイスを有する。プロセッサ501は、各種プログラム(例えば、学習プログラムまたは画像生成プログラム等)をメモリ502上に読み出して実行する。
メモリ502は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ501とメモリ502とは、いわゆるコンピュータを形成し、プロセッサ501が、メモリ502上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。なお、ここでいう各種機能とは、学習装置300の場合、例えば、学習用データ生成部310~コマ割り学習部320を指し、画像生成装置400の場合、例えば、データ生成部410~漫画表現画像生成部440を指す。
補助記憶装置503は、各種プログラムや、各種プログラムがプロセッサ501によって実行される際に用いられる各種データを格納する。例えば、学習装置300の場合は、漫画画像格納部330、学習用データ格納部340が、画像生成装置400の場合は、コマ区切り情報格納部450が、それぞれ補助記憶装置503において実現される。
操作装置504は、学習装置300または画像生成装置400の管理者が学習装置300または画像生成装置400に対して各種指示を入力する際に、管理者の各種操作を受け付ける。表示装置505は、学習装置300または画像生成装置400の管理者に対して、学習装置300または画像生成装置400の内部状態を表示する。
I/F装置506は、学習装置300または画像生成装置400と、外部装置520とを接続する。画像生成装置400の場合、I/F装置506を介して、例えば、外部装置520である音声入力装置460や撮像装置470と接続される。
通信装置507は、学習装置300または画像生成装置400がネットワークを介して外部装置と通信可能に接続するための通信デバイスである。画像生成装置400の場合、通信装置507は、漫画表現画像表示装置480と通信可能に接続される。
ドライブ装置508は記録媒体530をセットするためのデバイスである。ここでいう記録媒体530には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体530には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
なお、補助記憶装置503にインストールされる各種プログラムは、例えば、配布された記録媒体530がドライブ装置508にセットされ、該記録媒体530に記録された各種プログラムがドライブ装置508により読み出されることでインストールされる。あるいは、補助記憶装置503にインストールされる各種プログラムは、不図示のネットワークを介してダウンロードされることで、インストールされてもよい。
<学習装置の各部の処理の具体例>
次に、学習装置300の各部(学習用データ生成部310、コマ割り学習部320)の処理の具体例について説明する。
次に、学習装置300の各部(学習用データ生成部310、コマ割り学習部320)の処理の具体例について説明する。
(1)学習用データ生成部310の処理の具体例
図6は、学習用データ生成部の処理の具体例を示す図である。図6に示すように、学習用データ生成部310は、更に、コマ分割処理部610とコマ情報抽出部620とを有する。
図6は、学習用データ生成部の処理の具体例を示す図である。図6に示すように、学習用データ生成部310は、更に、コマ分割処理部610とコマ情報抽出部620とを有する。
コマ分割処理部610は、漫画画像格納部330より漫画画像を読み出す。図6の例は、漫画画像220が、作品名="A"、ページ="1"の漫画画像であることを示している。
また、コマ分割処理部610は、漫画画像220内のエッジを検出し、コマとしての区切り線(多角形で囲まれている領域)ごとに漫画画像220を分割することで、漫画コマ画像221~223を生成する。また、コマ分割処理部610は、漫画コマ画像221~223について、上かつ右に位置する漫画コマ画像から順番にナンバリングを行う。
図6の例は、コマ分割処理部610が、漫画コマ画像221に"1"のナンバリングを行い、漫画コマ画像222に"2"のナンバリングを行い、漫画コマ画像223に"3"のナンバリングを行った様子を示している。
コマ情報抽出部620は、ナンバリングが行われた漫画コマ画像221~223に対して画像認識を行い、登場人物のセリフ等の発話テキスト、登場人物の感情、シーンを示す情報を抽出することで、漫画コマ情報631~633を生成する。
図6の例は、コマ情報抽出部620が、漫画コマ画像221から、テキスト="お昼はラーメンにしようか"、感情="気楽"、シーン="提案"を抽出することで、漫画コマ情報631を生成した様子を示している。
同様に、図6の例は、コマ情報抽出部620が、漫画コマ画像222から、テキスト="null"、感情="ニュートラル"、シーン="間"を抽出することで、漫画コマ情報632を生成した様子を示している。
同様に、図6の例は、コマ情報抽出部620が、漫画コマ画像223から、テキスト="太るから嫌"、感情="嫌悪"、シーン="提案"を抽出することで、漫画コマ情報633を生成した様子を示している。
なお、学習用データ生成部310は、漫画コマ画像221~223及び漫画コマ情報631~633を学習用データ341の入力データとして、漫画画像220を学習用データ341の正解データとして、学習用データ格納部340に格納する。
(2)コマ割り学習部320の処理の具体例
図7は、コマ割り学習部の処理の具体例を示す図である。図7に示すように、コマ割り学習部320は、更に、コマ割りモデル710と比較/変更部720とを有する。
図7は、コマ割り学習部の処理の具体例を示す図である。図7に示すように、コマ割り学習部320は、更に、コマ割りモデル710と比較/変更部720とを有する。
コマ割りモデル710は、例えば、RNN(Recurrent Neural Network)や、LSTM(Long short-term memory)等により構成される。コマ割り学習部320は、学習用データ341の入力データである漫画コマ画像221~223及び漫画コマ情報631~633をコマ割りモデル710に入力することで、コマ割りモデル710を実行させる。また、コマ割り学習部320は、コマ割りモデル710より出力された漫画画像を、比較/変更部720に入力する。
比較/変更部720は、コマ割りモデル710より出力された漫画画像が、学習用データ341の正解データである漫画画像(例えば、漫画画像220)に近づくように、コマ割りモデル710のモデルパラメータを更新する。このように、コマ割り学習部320では、コマ割りモデル710に対して学習処理を行い、漫画コマ画像及び漫画コマ情報と、漫画画像(コマ割りされたもの)との関係を学習することで、学習済みコマ割りモデルを生成する。
<学習処理の流れ>
次に、学習装置300による学習処理の流れについて説明する。図8は、学習処理の流れを示すフローチャートである。なお、学習処理を開始するにあたり、漫画画像格納部330には、複数の漫画画像が格納されているものとする。
次に、学習装置300による学習処理の流れについて説明する。図8は、学習処理の流れを示すフローチャートである。なお、学習処理を開始するにあたり、漫画画像格納部330には、複数の漫画画像が格納されているものとする。
ステップS801において、学習用データ生成部310は、漫画画像格納部330より漫画画像を読み出す。
ステップS802において、学習用データ生成部310は、読み出した漫画画像をコマごとに分割し、漫画コマ画像を生成する。
ステップS803において、学習用データ生成部310は、生成した漫画コマ画像に対して画像認識を行い、漫画コマ情報を生成する。
ステップS804において、学習用データ生成部310は、生成した漫画コマ画像及び漫画コマ情報と漫画画像とを対応付け、学習用データとして、学習用データ格納部340に格納する。
ステップS805において、コマ割り学習部320は、学習用データ格納部340より学習用データを読み出し、コマ割りモデルに入力することで、コマ割りモデルに対して学習処理を行う。
ステップS806において、コマ割り学習部320は、コマ割りモデルに対する学習処理を終了するか否かを判定する。ステップS806において、コマ割りモデルに対する学習処理を終了しないと判定した場合には(ステップS806においてNOの場合には)、ステップS801に戻る。一方、ステップS806において、コマ割りモデルに対する学習処理を終了すると判定した場合には(ステップS806においてYESの場合には)、ステップS807に進む。
ステップS807において、コマ割り学習部320は、生成した学習済みコマ割りモデルを出力し、学習処理を終了する。
<画像生成装置の各部の処理の具体例>
次に、画像生成装置400の各部(データ生成部410、コマ区切り情報生成部420、コマ割り推定部430、漫画表現画像生成部440)の処理の具体例について説明する。
次に、画像生成装置400の各部(データ生成部410、コマ区切り情報生成部420、コマ割り推定部430、漫画表現画像生成部440)の処理の具体例について説明する。
(1)データ生成部410の処理の具体例
図9は、データ生成部410の処理の具体例を示す図である。図9に示すように、データ生成部410は、更に、音声認識部910、文書構造解析部920、感情情報推定部930を有する。
図9は、データ生成部410の処理の具体例を示す図である。図9に示すように、データ生成部410は、更に、音声認識部910、文書構造解析部920、感情情報推定部930を有する。
音声認識部910は、音声データから発話テキストを抽出し、文書構造解析部920に通知する。
文書構造解析部920は、発話テキストの文書構造を解析し、文書構造解析済み発話テキストを生成する。なお、文書構造解析部920による解析は、周知の技術であるSpeech to Text(音声認識機能)や自然文解析機能等を利用する。
感情情報推定部930は、音声データと撮影画像データとに基づいて、感情情報を生成する。なお、感情情報推定部930による感情情報の生成は、周知の技術(例えば、特許第5437297や特開2019-28485号公報等に開示された技術)を利用する。周知の技術を利用するにあたっては、データ生成部410は、例えば、撮影画像データより抽出される視線情報を用いて、共感情報を取得するように構成されてもよい。あるいは、データ生成部410は、新たに呼吸運動情報を取得し、取得した呼吸運動情報に基づいて算出される盛り上がり情報を取得するように構成されてもよい。
(2)コマ区切り情報生成部420による処理の具体例
図10は、コマ区切り情報生成部による処理の具体例を示す図である。図10に示すように、コマ区切り情報生成部420は、更に、発話区間分割部1010、感情情報判定部1020、発話区間連結部1030、コマ区切り情報出力部1040を有する。
図10は、コマ区切り情報生成部による処理の具体例を示す図である。図10に示すように、コマ区切り情報生成部420は、更に、発話区間分割部1010、感情情報判定部1020、発話区間連結部1030、コマ区切り情報出力部1040を有する。
発話区間分割部1010は、文書構造解析済み発話テキストに沿って、句点を区切りとして、時刻軸を複数の発話区間に分割する。図10において、グラフ1050は、横軸に時刻を、縦軸に感情情報の変化をとったグラフである。グラフ1050において、縦方向の点線は、時刻軸を発話区間ごとに分割した様子を示している。
感情情報判定部1020は、感情情報の変化が大きい発話区間を判定する。図10において、グラフ1050の実線1051は、各時刻における感情情報の変化を示している。
なお、感情情報の変化は、0~1の範囲の値となるように、予め正規化されているものとする。具体的には、感情情報として共感情報を用いる場合には、共感情報を正規化するために、例えば、従来技術である特許第5437297号に開示された方法が用いられるものとする。また、感情情報として盛り上がり情報を用いる場合には、盛り上がり情報を正規化するために、例えば、従来技術である特開2019-28485号公報に開示された方法が用いられるものとする。
また、感情情報の変化(M)は、例えば、下式に基づいて算出されるものとする。
M=(2×HUP×EMT)/(HUP+EMT)
なお、上式において、HUPは、正規化した盛り上がり度[0≦HUP≦1]を表し、EMTは正規化した共感度[0≦EMT≦1]を表す。
なお、上式において、HUPは、正規化した盛り上がり度[0≦HUP≦1]を表し、EMTは正規化した共感度[0≦EMT≦1]を表す。
発話区間連結部1030は、発話区間分割部1010により時刻軸が分割されることで得た複数の発話区間について、下記の2つの条件((i)、(ii))のうちの少なくともいずれか一方を満たすか否かを判定する。そして、発話区間連結部1030は、いずれか一方に該当すると判定した発話区間について、発話内容が同一の発話区間であると判定し、発話区間グループを生成する。
(i)感情情報の変化が大きいと判定され、文書構造的にも関連している発話区間である(例えば、符号1062)。
(ii)発話の開始タイミングや、文書構造的に主張ポイントであるなど、発話内容が重要であると思われる発話区間である(例えば、符号1061、1063)。
(i)感情情報の変化が大きいと判定され、文書構造的にも関連している発話区間である(例えば、符号1062)。
(ii)発話の開始タイミングや、文書構造的に主張ポイントであるなど、発話内容が重要であると思われる発話区間である(例えば、符号1061、1063)。
また、発話区間連結部1030は、生成した発話区間グループの中から、以下の3つの条件((a)、(b)、(c))のうちのいずれかを満たす発話区間グループを抽出する。
(a)発話区間グループの位置が最初の位置である
発話の開始時には、話題や発話のきっかけ等のように、重要な情報が含まれている可能性が高い。このため、発話区間連結部1030では、最初の位置の発話区間グループを抽出する(例えば、発話区間グループ1071参照)。
発話の開始時には、話題や発話のきっかけ等のように、重要な情報が含まれている可能性が高い。このため、発話区間連結部1030では、最初の位置の発話区間グループを抽出する(例えば、発話区間グループ1071参照)。
(b)感情情報の変化が所定の閾値を超えた発話区間が含まれる
感情情報が変化した際の話者の発話には、主張や心を動かす情報が含まれている可能性が高い。このため、発話区間連結部1030では、感情情報の変化が所定の閾値を超えた発話区間が含まれる発話区間グループを抽出する(例えば、発話区間グループ1072、1073参照)。なお、所定の閾値は、例えば、画像生成装置400の管理者によって予め設定されているものとする。
感情情報が変化した際の話者の発話には、主張や心を動かす情報が含まれている可能性が高い。このため、発話区間連結部1030では、感情情報の変化が所定の閾値を超えた発話区間が含まれる発話区間グループを抽出する(例えば、発話区間グループ1072、1073参照)。なお、所定の閾値は、例えば、画像生成装置400の管理者によって予め設定されているものとする。
(c)論理構成的な重要度が所定の閾値を超えた発話区間が含まれる。
論理構成的に重要な発話には、主張や説明などの情報が含まれている可能性が高い。このため、発話区間連結部1030では、発話内容についての論理構成的な重要度が所定の閾値を超えた発話区間を含む発話区間グループを抽出する(例えば、発話区間グループ1074参照)。なお、所定の閾値は、例えば、画像生成装置400の管理者によって予め設定されているものとする。また、論理構成的な重要度は、従来技術の方法を用いて算出され、0~1の範囲の値となるように、予め正規化されているものとする。
コマ区切り情報出力部1040は、生成された発話区間グループそれぞれに対応する撮影画像データから、漫画表現画像を生成する際に用いる代表画像を抽出する。なお、代表画像を抽出するにあたり、コマ区切り情報出力部1040は、既知のハイライト画像抽出技術等を用いる。
また、コマ区切り情報出力部1040は、抽出した代表画像を、対応する発話区間グループの発話テキスト、及び、対応する発話区間グループの感情情報と対応付けることで、コマ区切り情報を生成する。更に、コマ区切り情報出力部1040は、生成したコマ区切り情報を、コマ区切り情報格納部450に格納する。
図11は、コマ区切り情報の具体例を示す図である。図11に示すように、コマ区切り情報1100には、情報の項目として、"発話区間グループID"、"発話テキスト"、"感情情報"、"代表画像"が含まれる。
"発話区間グループID"には、発話区間グループを識別するための識別子が格納される。"発話テキスト"には、対応する発話区間グループに含まれる発話テキストが格納される。"感情情報"には、対応する発話区間グループにおける感情情報が格納される。"代表画像"には、対応する発話区間グループにおける撮影画像データの中から抽出された代表画像が格納される。
(3)コマ割り推定部430による処理の具体例
図12は、コマ割り推定部による処理の具体例を示す図である。図12に示すように、コマ割り推定部430は、学習済みコマ割りモデル1200を有する。
図12は、コマ割り推定部による処理の具体例を示す図である。図12に示すように、コマ割り推定部430は、学習済みコマ割りモデル1200を有する。
コマ割り推定部430は、コマ区切り情報格納部450よりコマ区切り情報(例えば、コマ区切り情報1100)を読み出し、学習済みコマ割りモデル1200に入力することで、学習済みコマ割りモデル1200を実行させる。これにより、学習済みコマ割りモデル1200では、コマ割り情報を推定する。
図12において、コマ割り情報1210は、コマ区切り情報1100に基づいて、学習済みコマ割りモデル1200を実行させることにより推定されたコマ割り情報の一例である。図12の例は、
・発話区間グループID="1"の代表画像="A-01.jpg"が、推定された大きさ及び形状のコマ1211の位置にレイアウトされること、
・発話区間グループID="1"の発話テキストが、コマ1211内に吹き出しの位置にレイアウトされること、
・コマ1211には効果線が付加されること、
・発話区間グループID="2"の代表画像="A-02.jpg"が、推定された大きさ及び形状のコマ1212の位置にレイアウトされること、
・発話区間グループID="2"の発話テキストが、コマ1212内に吹き出しの位置にレイアウトされること、
・発話区間グループID="3"の代表画像="A-03.jpg"が、推定された大きさ及び形状のコマ1213の位置にレイアウトされること、
・発話区間グループID="3"の発話テキストが、コマ1213内に吹き出しの位置にレイアウトされること、
・コマ1213には効果線が付加されること、
等を示すコマ割り情報1210が推定された様子を示している。
・発話区間グループID="1"の代表画像="A-01.jpg"が、推定された大きさ及び形状のコマ1211の位置にレイアウトされること、
・発話区間グループID="1"の発話テキストが、コマ1211内に吹き出しの位置にレイアウトされること、
・コマ1211には効果線が付加されること、
・発話区間グループID="2"の代表画像="A-02.jpg"が、推定された大きさ及び形状のコマ1212の位置にレイアウトされること、
・発話区間グループID="2"の発話テキストが、コマ1212内に吹き出しの位置にレイアウトされること、
・発話区間グループID="3"の代表画像="A-03.jpg"が、推定された大きさ及び形状のコマ1213の位置にレイアウトされること、
・発話区間グループID="3"の発話テキストが、コマ1213内に吹き出しの位置にレイアウトされること、
・コマ1213には効果線が付加されること、
等を示すコマ割り情報1210が推定された様子を示している。
コマ割り推定部430は、学習済みコマ割りモデル1200により推定されたコマ割り情報1210を、漫画表現画像生成部440に出力する。
なお、コマ割り推定部430は、コマ区切り情報を学習済みコマ割りモデル1200に入力する際、リアルタイム処理かバッチ処理かの処理形態に応じて処理方法を切り替える。
リアルタイム処理とは、話者401または話者402が発話中に、リアルタイムに漫画表現画像を生成する処理を指す。リアルタイム処理を行う場合、コマ割り推定部430は、新たなコマ区切り情報が追加(新たな行が追加)されたタイミングで、最新n個のコマ区切り情報を、学習済みコマ割りモデル1200に入力することで、コマ割り情報を推定する。なお、コマ割り推定部430が学習済みコマ割りモデル1200に入力するコマ区切り情報の数(=n)は、予め設定されているものとする。
一方、バッチ処理とは、話者401または話者402の過去の発話時に記録された音声データ及び撮影画像データについて生成された、全てのコマ区切り情報を用いて、漫画表現画像を生成する処理を指す。コマ割り推定部430は、コマ区切り情報格納部450に格納された全てのコマ区切り情報を、学習済みコマ割りモデル1200に入力することで、コマ割り情報を推定する。
(4)漫画表現画像生成部440の処理の具体例
図13は、漫画表現画像生成部による処理の具体例を示す図である。図13に示すように、漫画表現画像生成部440は、コマ区切り情報(例えば、コマ区切り情報1100)と、コマ割り情報(例えば、コマ割り情報1210)とに基づいて、漫画表現画像を生成する。
図13は、漫画表現画像生成部による処理の具体例を示す図である。図13に示すように、漫画表現画像生成部440は、コマ区切り情報(例えば、コマ区切り情報1100)と、コマ割り情報(例えば、コマ割り情報1210)とに基づいて、漫画表現画像を生成する。
図13の例は、コマ1211に、
・発話区間グループID="1"の代表画像="A-01.jpg"がレイアウトされ、
・吹き出しの位置に、発話区間グループID="1"の発話テキストがレイアウトされ、
・効果線が付加される、
ことで、漫画コマ画像1311が生成された様子を示している。
・発話区間グループID="1"の代表画像="A-01.jpg"がレイアウトされ、
・吹き出しの位置に、発話区間グループID="1"の発話テキストがレイアウトされ、
・効果線が付加される、
ことで、漫画コマ画像1311が生成された様子を示している。
同様に、図13の例は、コマ1212に、
・発話区間グループID="2"の代表画像="A-02.jpg"がレイアウトされ、
・吹き出しの位置に、発話区間グループID="2"の発話テキストがレイアウトされる、
ことで、漫画コマ画像1312が生成された様子を示している。
・発話区間グループID="2"の代表画像="A-02.jpg"がレイアウトされ、
・吹き出しの位置に、発話区間グループID="2"の発話テキストがレイアウトされる、
ことで、漫画コマ画像1312が生成された様子を示している。
同様に、図13の例は、コマ1213に、
・発話区間グループID="3"の代表画像="A-03.jpg"がレイアウトされ、
・吹き出しの位置に、発話区間グループID="3"の発話テキストがレイアウトされ、
・効果線が付加される、
ことで、漫画コマ画像1313が生成された様子を示している。
・発話区間グループID="3"の代表画像="A-03.jpg"がレイアウトされ、
・吹き出しの位置に、発話区間グループID="3"の発話テキストがレイアウトされ、
・効果線が付加される、
ことで、漫画コマ画像1313が生成された様子を示している。
<画像生成処理の流れ>
次に、画像生成装置400による画像生成処理の流れについて説明する。図14は、画像生成処理の流れを示すフローチャートである。
次に、画像生成装置400による画像生成処理の流れについて説明する。図14は、画像生成処理の流れを示すフローチャートである。
ステップS1401において、データ生成部410は、音声入力装置460及び撮像装置470より、音声データ及び撮影画像データを取得する。
ステップS1402において、データ生成部410は、音声データに基づいて、発話テキストを生成し、文書構造を解析することで、文書構造解析済み発話テキストを生成する。また、データ生成部410は、音声データ及び撮影画像データに基づいて、感情情報を生成する。
ステップS1403において、コマ区切り情報生成部420は、文書構造解析済み発話テキストに基づいて時刻軸を複数の発話区間に分割したうえで、複数のグループに分類し、発話区間グループを生成する。また、コマ区切り情報生成部420は、発話区間グループの位置、感情情報の変化、論理構成的な重要度等に基づいて、所定の発話区間グループを抽出する。更に、コマ区切り情報生成部420は、抽出した発話区間グループごとに、撮影画像データから代表画像を抽出し、発話テキスト及び感情情報と対応付けることで、コマ区切り情報を生成する。
ステップS1404において、コマ割り推定部430は、コマ区切り情報を学習済みコマ割りモデルに入力することで学習済みコマ割りモデルを実行させる。また、コマ割り推定部430は、学習済みコマ割りモデルにより推定されたコマ割り情報を、漫画表現画像生成部440に出力する。
ステップS1405において、漫画表現画像生成部440は、コマ区切り情報とコマ割り情報とに基づいて、漫画表現画像を生成する。
ステップS1406において、漫画表現画像生成部440は、漫画表現画像を漫画表現画像表示装置480に表示する。
ステップS1407において、画像生成装置400は画像生成処理を終了するか否かを判定し、終了しないと判定した場合には(ステップS1407においてNOの場合には)、ステップS1401に戻る。
一方、ステップS1407において、終了すると判定した場合には(ステップS1407においてYESの場合には)、画像生成処理を終了する。
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る画像生成装置400は、
・既存の漫画画像に基づいて、コマ割りを学習した、学習済みコマ割りモデルを有する。
・発話シーンにおける話者の音声データと撮影画像データとに基づいて生成したコマ区切り情報を、学習済みコマ割りモデルに入力することで、コマ割りを推定する。
・推定したコマ割りに基づいて、発話シーンを示す漫画表現画像を生成する。
以上の説明から明らかなように、第1の実施形態に係る画像生成装置400は、
・既存の漫画画像に基づいて、コマ割りを学習した、学習済みコマ割りモデルを有する。
・発話シーンにおける話者の音声データと撮影画像データとに基づいて生成したコマ区切り情報を、学習済みコマ割りモデルに入力することで、コマ割りを推定する。
・推定したコマ割りに基づいて、発話シーンを示す漫画表現画像を生成する。
このように、既存の漫画画像を用いて、漫画特有の表現方法(コマ割り)を学習し、発話シーンから漫画表現画像を生成する際に、学習した表現方法を反映させることで、話者の感情が表現された漫画表現画像を生成することができる。
この結果、第1の実施形態に係る画像生成装置400によれば、発話シーンを漫画風に表現する際、発話内容を理解しやすくすることができる。
[第2の実施形態]
上記第1の実施形態では、学習装置300と画像生成装置400とを別体の装置として構成したが、学習装置300と画像生成装置400とは、一体の装置として構成してもよい。
上記第1の実施形態では、学習装置300と画像生成装置400とを別体の装置として構成したが、学習装置300と画像生成装置400とは、一体の装置として構成してもよい。
また、上記第1の実施形態では、画像生成装置400と、音声入力装置460、撮像装置470、漫画表現画像表示装置480とが、別体の装置として構成されるものとして説明した。しかしながら、画像生成装置400は、音声入力装置460、撮像装置470、漫画表現画像表示装置480のうちの一部または全部と、一体の装置として構成されてもよい。その場合、画像生成装置400は、タブレット端末等のように携帯可能な装置により構成されてもよい。
また、上記第1の実施形態では、発話シーンにおける話者が二人の場合を例に説明したが、話者の人数は二人に限定されず、一人であっても三人以上であってもよい。
また、上記第1の実施形態では、任意の漫画画像を用いて、コマ割りモデルに対して学習処理を行うものとして説明した。しかしながら、画像生成装置400の適用先において想定されるシーンに対応する漫画画像を選択的に用いて、コマ割りモデルに対して学習処理を行うように構成してもよい。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
300 :学習装置
310 :学習用データ生成部
320 :コマ割り学習部
341 :学習用データ
400 :画像生成装置
410 :データ生成部
420 :コマ区切り情報生成部
430 :コマ割り推定部
440 :漫画表現画像生成部
460 :音声入力装置
470 :撮像装置
480 :漫画表現画像表示装置
1100 :コマ区切り情報
1200 :学習済みコマ割りモデル
1210 :コマ割り情報
310 :学習用データ生成部
320 :コマ割り学習部
341 :学習用データ
400 :画像生成装置
410 :データ生成部
420 :コマ区切り情報生成部
430 :コマ割り推定部
440 :漫画表現画像生成部
460 :音声入力装置
470 :撮像装置
480 :漫画表現画像表示装置
1100 :コマ区切り情報
1200 :学習済みコマ割りモデル
1210 :コマ割り情報
Claims (8)
- 既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、
前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部と
を有する画像生成装置。 - 前記学習済みモデルは、既存の漫画画像をコマごとに分割し、それぞれの漫画コマ画像と、それぞれの漫画コマ画像におけるセリフ、登場人物の感情を示す情報とを入力として、コマ割りを学習した学習済みモデルである、請求項1に記載の画像生成装置。
- 前記推定部は、前記学習済みモデルに、前記発話シーンにおける話者の撮影画像データから抽出した画像と、前記発話シーンにおける話者の音声データから抽出した発話テキストと、前記発話シーンにおける話者の音声データ及び撮影画像データから推定される話者の感情を示す情報とを入力することで、前記コマ割りを推定する、請求項2に記載の画像生成装置。
- 前記発話テキストに基づいて生成した複数の発話区間を複数のグループに分け、所定の条件を満たすグループを、コマを区切る単位として抽出し、抽出したグループごとに、前記学習済みモデルに入力する、前記画像と、前記発話テキストと、前記感情を示す情報とを含むコマ区切り情報を生成する情報生成部を更に有する、請求項3に記載の画像生成装置。
- 前記所定の条件を満たすグループは、発話の開始時の発話区間を含むグループ、感情を示す情報の変化が閾値を超えた発話区間を含むグループ、発話内容についての論理構成的な重要度が閾値を超えた発話区間を含むグループのいずれかのグループを含む、請求項4に記載の画像生成装置。
- 前記推定部は、
前記情報生成部により新たなコマ区切り情報が追加されたタイミングで最新のn個のコマ区切り情報を前記学習済みモデルに入力し、コマ割りを推定する、請求項4に記載の画像生成装置。 - 既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定工程と、
前記推定工程において推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成工程と
を有する画像生成方法。 - 既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定工程と、
前記推定工程において推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成工程と
をコンピュータに実行させるための画像生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/044317 WO2022113293A1 (ja) | 2020-11-27 | 2020-11-27 | 画像生成装置、画像生成方法及び画像生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/044317 WO2022113293A1 (ja) | 2020-11-27 | 2020-11-27 | 画像生成装置、画像生成方法及び画像生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022113293A1 true WO2022113293A1 (ja) | 2022-06-02 |
Family
ID=81755437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/044317 WO2022113293A1 (ja) | 2020-11-27 | 2020-11-27 | 画像生成装置、画像生成方法及び画像生成プログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2022113293A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193824A (ja) * | 2000-04-13 | 2007-08-02 | Fujifilm Corp | 画像処理方法 |
JP2009065462A (ja) * | 2007-09-06 | 2009-03-26 | Toshiba Corp | 映像を要約する装置、方法およびプログラム |
JP2010191934A (ja) * | 2009-01-20 | 2010-09-02 | Sony Corp | 情報処理装置、情報処理方法およびプログラム |
JP2020106910A (ja) * | 2018-12-26 | 2020-07-09 | 株式会社日立ソリューションズ | マンガ生成システムおよびマンガ生成方法 |
-
2020
- 2020-11-27 WO PCT/JP2020/044317 patent/WO2022113293A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193824A (ja) * | 2000-04-13 | 2007-08-02 | Fujifilm Corp | 画像処理方法 |
JP2009065462A (ja) * | 2007-09-06 | 2009-03-26 | Toshiba Corp | 映像を要約する装置、方法およびプログラム |
JP2010191934A (ja) * | 2009-01-20 | 2010-09-02 | Sony Corp | 情報処理装置、情報処理方法およびプログラム |
JP2020106910A (ja) * | 2018-12-26 | 2020-07-09 | 株式会社日立ソリューションズ | マンガ生成システムおよびマンガ生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
JP7313558B2 (ja) | 対話応答生成システムのためのシステムおよび方法 | |
WO2022116977A1 (zh) | 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品 | |
US20190172448A1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
US11093734B2 (en) | Method and apparatus with emotion recognition | |
WO2022196921A1 (ko) | 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치 | |
CN111459454B (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
KR20220130000A (ko) | 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치 | |
CN111459452A (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
US9317750B2 (en) | Imaging device | |
CN115496077B (zh) | 一种基于模态观察和评分的多模态情感分析方法和装置 | |
CN115187704A (zh) | 虚拟主播生成方法、装置、设备及存储介质 | |
US10269349B2 (en) | Voice interactive device and voice interaction method | |
WO2022252890A1 (zh) | 交互对象驱动和音素处理方法、装置、设备以及存储介质 | |
CN113205569B (zh) | 图像绘制方法及装置、计算机可读介质和电子设备 | |
KR20200029394A (ko) | 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템 | |
GB2578766A (en) | Apparatus and method for controlling vehicle system operation | |
WO2022113293A1 (ja) | 画像生成装置、画像生成方法及び画像生成プログラム | |
CN113763925A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN117689752A (zh) | 文学作品插图生成方法、装置、设备及存储介质 | |
KR20210015977A (ko) | 사망자와의 대화 구현 장치 | |
JP7225642B2 (ja) | コミュニケーションロボット、制御方法及び制御プログラム | |
JP2017182261A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4411590B2 (ja) | 音声可視化方法及び該方法を記憶させた記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20963557 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20963557 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |