WO2023166747A1 - 学習データ生成装置、学習データ生成方法、及びプログラム - Google Patents

学習データ生成装置、学習データ生成方法、及びプログラム Download PDF

Info

Publication number
WO2023166747A1
WO2023166747A1 PCT/JP2022/009576 JP2022009576W WO2023166747A1 WO 2023166747 A1 WO2023166747 A1 WO 2023166747A1 JP 2022009576 W JP2022009576 W JP 2022009576W WO 2023166747 A1 WO2023166747 A1 WO 2023166747A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
learning
learning data
video
model
Prior art date
Application number
PCT/JP2022/009576
Other languages
English (en)
French (fr)
Inventor
いつみ 斉藤
京介 西田
仙 吉田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/009576 priority Critical patent/WO2023166747A1/ja
Publication of WO2023166747A1 publication Critical patent/WO2023166747A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a technology for generating learning data used for learning a summary model for generating text summaries of videos from videos.
  • Presentation videos are generally long, so you have to watch the video for a long time to understand the content. Therefore, there is a demand to grasp the content of the presentation video in a short time.
  • a neural network model (called a summary model) to generate a text that represents the summary of the presentation video (summary text).
  • the present invention has been made in view of the above points, and aims to provide a technique that enables the generation of learning data for learning a summary model that generates summary text from a video.
  • a learning data generation device that generates a learning data set for training a summary model that generates a summary text for a video, At least one from an original training data set comprising a first text, which is text extracted from images in said video, a second text, which is text extracted from audio in said video, and a correct summary text of said video.
  • a training data generator is provided comprising a training data generator for generating two additional training data sets.
  • a technique that enables generation of learning data for training a summary model that generates summary text from a video.
  • FIG. 10 is a diagram showing the flow of basic processing for creating a summary text from a presentation moving image; 1 is a configuration diagram of a summary generation device 100; FIG. 4 is a flowchart for explaining the operation of the summary generation device 100; 1 is a configuration diagram of a summary model learning device 200; FIG. FIG. 10 is a diagram showing a configuration for summary model pre-learning; 4 is a flowchart for explaining the operation of summary model learning device 200.
  • FIG. FIG. 4 is a diagram showing an example of input to a summary model and output from the summary model in pre-learning; FIG. 10 is a diagram for explaining image clipping processing from a moving image; FIG. 4 is a diagram for explaining text extraction from an image; FIG. FIG.
  • FIG. 4 is a diagram for explaining text extraction from speech;
  • FIG. 4 is a diagram showing an example of input to a summary model and output from the summary model in learning;
  • 3 is a diagram showing the configuration of a data extension unit 400;
  • FIG. 4 is a flow chart for explaining the operation of the data expansion unit 400;
  • FIG. 4 is a diagram showing an example of data division;
  • FIG. 4 is a diagram for explaining learning using divided learning data sets; It is a figure which shows the hardware configuration example of an apparatus. It is a figure which shows the effect at the time of making article data learn in advance.
  • FIG. 10 is a diagram showing the effect of learning a slide outline in advance;
  • FIG. 10 is a diagram showing the effect of learning a learning data set obtained by division together with the original learning data set.
  • Both the summary generation device 100 and the summary model learning device 200 described below provide specific improvements over conventional techniques for generating summaries from articles, and relate to techniques for generating summaries from videos. It represents an improvement in the technical field.
  • the data extension unit 400 (learning data generator 400) described below provides certain improvements over the prior art such as manually generating summaries, and summarizes for generating video summary texts. It represents an improvement in the art of learning models.
  • a presentation video is used as the target video for generating a summary, but this is an example.
  • the technology according to the present invention can be applied not only to presentation videos but also to videos in general.
  • ⁇ Example of presentation video> As an example, "https://slideslive.com/38928967/predicting-depression-in-screening-interviews-from-latent-categorization-of-interview-prompts" (searched February 27, 2022), "https:/ /videolectures.net/” (searched on February 27, 2022), etc., a typical presentation video consists of an image of the slide that describes the content of the presentation, an image of the presenter, and an image of the presenter. consists of voice. Note that there are many cases where the image of the presenter is not displayed.
  • (A) presentation slides, (B) images extracted from the video, and (C) audio are prepared as input data to the summary generation unit 130 from the video to be summarized.
  • presentation slide in (A) is assumed to be a separate file from the video.
  • (A), (B), and (C) as input data, it is possible to generate a summary. It is desirable that there are three of (B) and (C), or two of (A) and (C), or two of (B) and (C).
  • the summary generation unit 130 is a functional unit included in the summary generation device 100, which will be described later.
  • the summary generator 130 uses a neural network model (called a summary model) to generate a summary from the text.
  • a summary model a neural network model
  • Any summary model may be used as long as it is a model for inputting text and outputting summary text. are doing.
  • BART is a model consisting of an encoder and a decoder. By using a trained model, text is input to the encoder, and a summary text is output from the decoder.
  • Problem 1 The creation cost of creating training data containing correct summary texts, which is used when learning a summary model for generating a summary of a video, is high.
  • FIG. 2 shows a configuration diagram of the summary generation device 100 according to this embodiment.
  • the summary generation device 100 has an image processing section 110 , a sound processing section 120 , a summary generation section 130 and a summary model DB (database) 140 .
  • the summarized model DB 140 stores trained summarized models. Note that the DB in this specification may also be called a storage unit or a storage unit.
  • Audio information and image information are extracted from the video for which a summary is to be created. Note that in the example of FIG. 2, it is assumed that the functional unit for extracting audio information and image information (especially image information) from a moving image is outside the summary generating apparatus 100. A functional unit may be provided.
  • the image processing unit 110 uses image recognition technology to extract text from the image.
  • the image processing unit 110 may extract accompanying auxiliary information (such as the color of characters in the slide) in addition to the text.
  • the speech processing unit 120 uses speech recognition technology to extract text from speech. Note that the order of the processes of S102 and S103 may be reversed, and S102 and S103 may be executed simultaneously.
  • the text extracted in S102 and the text extracted in S102 are input to the summary generator 130.
  • the summary generator 130 uses the summary model read from the summary model DB 140 to generate a summary from the text extracted in S102 and the text extracted in S103.
  • the input to the summarization model is any one, a plurality, or all of the character arrangement feature amount, image feature amount, and speech feature amount. Additional information may be used. It should be noted that the reality of the "summary model" is data consisting of functions, weight parameters, etc., which constitute a neural network.
  • the summary generator 130 outputs the generated summary.
  • high-quality summaries can be generated by using both audio information and image information obtained from videos.
  • the processing in the functional unit that extracts audio information and image information from the moving image, the image processing unit 110, and the processing in the audio processing unit 120 are respectively the learning data input unit 220, the image processing unit 230, and the , are the same as the processing in the speech processing unit 240, the detailed processing will be described in the description of the summary model learning device 220.
  • FIG. 1 The processing in the functional unit that extracts audio information and image information from the moving image, the image processing unit 110, and the processing in the audio processing unit 120 are respectively the learning data input unit 220, the image processing unit 230, and the , are the same as the processing in the speech processing unit 240, the detailed processing will be described in the description of the summary model learning device 220.
  • the summary generation device 100 of the present embodiment solves the above-mentioned problem 2, and realizes a summary generation technique using a summary model that extracts audio and images from a video and outputs summary text using these as inputs. Note that the summary model is learned by the summary model learning device 200 described below.
  • FIG. 4 shows a configuration example of a summary model learning device 200 according to this embodiment.
  • the summarized model learning device 200 includes a data acquisition unit 210, a learning data input unit 220, an image processing unit 230, a speech processing unit 240, a summarized model learning unit 250, a data extension unit 400, and a model setting unit 270.
  • a summary model DB 280 storing pre-trained summary models
  • a summary model DB 290 storing summary models being learned.
  • a summary model when training a summary model, a summary model is created by learning in advance a large amount of abstracts of papers that are considered to be highly similar in content to the presentation, and a small amount of Fine-tune with presentation summary data. This makes it possible to achieve high accuracy even with a small amount of correct summary data for the presentation video.
  • FIG. 4 shows the configuration in which the above pre-learning is performed
  • learning may be performed using the learning data generated by the data extension unit 400 without performing the pre-learning.
  • learning using learning data generated by the data extension unit 400 may be performed on the pre-learned summary model.
  • Fig. 5 shows the configuration for pre-learning. As shown in FIG. 5, as a configuration for pre-learning, it has a summary model pre-learning unit 310 and a summary model DB 320 that stores the summary model being pre-learned.
  • a summary model pre-learning device (an apparatus different from the summary model learning device 200) having a summary model pre-learning unit 310 and a summary model DB 320 may be configured, or the summary model pre-learning unit 310 and the summary model DB 320 may perform summary model learning. It may be included in model learning device 200 .
  • S201 and S202 are processes in the configuration for pre-learning shown in FIG.
  • pre-learning data is input to the summary model pre-learning unit 310 .
  • the pre-learning data is, for example, the text of the paper related to the presentation and the summary of the paper (correct data).
  • the summary model pre-learning unit 310 uses the input data to learn (pre-learn) the summary model.
  • the pre-trained summary model is stored in summary model DB 280 in summary model learning device 200 .
  • S203 to S207 are processes in the summary model learning device 200 shown in FIG.
  • access information eg, URLs where papers and presentation videos are published
  • the data acquisition unit 210 acquires learning data from, for example, a server on the network using the access information, and inputs the learning data to the learning data input unit 220 .
  • the learning data is, for example, a presentation video about a paper and a correct summary text corresponding to the video.
  • the learning data input unit 220 further divides the presentation moving image into image information and audio information, inputs the image information to the image processing unit 230, inputs the audio information to the audio processing unit 240, and summarizes the correct answers. is input to the summary model learning unit 250 .
  • the image information that the learning data input unit 220 inputs to the image processing unit 230 may be a slide image or the like that is a separate file from the presentation moving image, or may be a slide image or the like extracted from the presentation moving image. good too.
  • the image may be expressed as "image in moving image” or "image related to moving image”.
  • the text can be extracted from the "image in the moving image” or the "image related to the moving image” by image recognition processing.
  • the image information input to the image processing unit 230 is a slide image or the like extracted from the presentation moving image.
  • the image processing unit 230 uses image recognition technology to extract text from the image.
  • the image processing unit 230 may extract accompanying auxiliary information (such as the color of characters in the slide), character arrangement feature amounts, image feature amounts, and the like.
  • the speech processing unit 120 uses speech recognition technology to extract text from speech.
  • the speech processing unit 120 may extract speech features and the like in addition to text. Note that the order of the processing of S204 and S205 may be reversed, and S204 and S205 may be executed simultaneously.
  • the text extracted in S204 and the text extracted in S205 are input to the summary model learning unit 250.
  • a summary of the correct answer is also input to the summary model learning unit 250 .
  • the pre-trained summary model is read from the summary model DB 280 by the model setting unit 270, and the pre-trained summary model is stored in the summary model DB 290.
  • the following learning fine tuning is performed using the parameters in this pre-trained summary model as initial values.
  • the summary model learning unit 250 uses the summary model read from the summary model DB 290 to generate a summary from the text extracted in S204 and the text extracted in S205, and compares the generated summary with the correct answer.
  • a summary model is learned (updated parameters) so that the error between summaries is minimized.
  • the summary model learning unit 250 After completing the learning, stores the learned summary model in the summary model DB 140 of the summary generation device 100 .
  • the above example shows an example in which pre-learning is performed and the pre-trained learning model is fine-tuned, but as mentioned above, pre-learning is not essential.
  • the process may be started from S203 in FIG. 6 without performing pre-learning.
  • the initial values of the parameters of the summary model when no pre-learning is performed may be random values or values other than random values.
  • pre-learning executed by the summary model pre-learning unit 310 shown in FIG. 5
  • a summary model is learned using texts in fields related to the field of the presentation video to be summarized (referred to as related field texts) and their correct summaries.
  • the related field text is, for example, a thesis text (the body text of the thesis), a slide text, or the like.
  • Fig. 7 shows an example of the input to the summary model and the output from the summary model when the paper text is used as the related field text.
  • the summary model according to this embodiment is a model consisting of an encoder and a decoder.
  • the main text of the article is input to the encoder, and the summary text is output from the decoder.
  • the summary model is trained so that the error between the output summary text and the correct summary text is minimized. Even when slide text is used as input, the content of processing is the same as when using paper text.
  • the token string of the text is first converted to a d-dimensional fixed-dimensional vector, and then converted to a summary text through the encoder-decoder.
  • (u ) denotes the set of all edges that are incident in the vertex u.
  • (u ) denotes the set of all edges that are incident in the vertex u.
  • slide files may be obtained as separate files from the video.
  • slide files often contain data for the slide itself (slide text) and an overview of the slide (summary text).
  • the summary model can be pre-trained using the slide text as input for the encoder-decoder and the above summary text as the correct answer.
  • the data acquisition unit 210 accesses, for example, a presentation video site on the Internet, and acquires a presentation video and a summary of correct answers corresponding to the video from the site.
  • a site from which such videos and summaries can be obtained is, for example, "https://aclanthology.org/" (searched February 27, 2022).
  • the learning data input unit 220 divides the presentation video acquired by the data acquisition unit 210 into image information and audio information, inputs the image information to the image processing unit 230, and inputs the audio information to the audio processing unit 240.
  • the image information is not limited to a specific image, but here it is assumed that the image information is a slide image in a presentation video.
  • the learning data input unit 220 cuts out an image from the presentation moving image in units of k seconds.
  • k is a real number greater than 0 and is a predetermined number.
  • the upper part of FIG. 8 shows six images clipped every k seconds.
  • S203 (1-2) The learning data input unit 220 sequentially compares the images cut out in S203 (1-1) for each time, and if the similarity between the t-th image and the t-1-th image is equal to or higher than a threshold, these images are Determined as the same image. It should be noted that any determination method may be used as a method for determining the degree of similarity between images. FIG. 8 shows an example of the degree of similarity between each two images in six images.
  • S203 (1-3) The learning data input unit 220 repeats S203(1-1) and S203(1-2) to extract different image sets.
  • FIG. 8 shows images 1, 4, and 6 as different image sets when the threshold is 25.
  • the obtained image set is input to the image processing section 230 .
  • the image processing unit 230 performs OCR (Optical Character Recognition) processing on the different image set input from the learning data input unit 220, and, as shown in FIG. Acquire character color, character size, character position information, etc. Note that the information to be acquired may be only text.
  • OCR Optical Character Recognition
  • the speech processing unit 240 performs speech recognition processing on the speech input from the learning data input unit 220, and obtains the text of the speech recognition result.
  • the summary model learning unit 250 combines the text obtained by the image processing unit 230 and the text obtained by the speech processing unit 240, and inputs the combined text to the summary model.
  • the summary model learning unit 250 learns the summary model so that the error between the summary text output from the summary model and the correct summary text is minimized.
  • information obtained by adding character arrangement feature amounts, image feature amounts, character size and color information, etc. obtained by the image processing unit 230 to the combined text may be used.
  • information obtained by adding the speech feature amount obtained by the speech processing unit 240 to the combined text may be used.
  • the initial state of the above summary model is the summary model pre-learned in S202.
  • the initial state of the summary model may not be the summary model pre-learned in S202. If pre-learning is not performed, learning may be performed using additional learning data generated by the data extension unit 400, which will be described later.
  • the summary model is a model consisting of an encoder and a decoder.
  • the encoder receives the text combined by [SEP], the size of the characters, and the color information, and outputs the summary text from the decoder.
  • the summary model is trained so that the error between the output summary text and the correct summary text is minimized.
  • the token string of the text is first converted to a d-dimensional fixed-dimensional vector, and then converted to a summary text through the encoder-decoder. Also, in the input, the character size and color information may be omitted.
  • the text obtained by the audio processing unit 240 may be called ASR (Automatic Speech Recognition) text, and the text obtained by the image processing unit 240 may be called OCR text.
  • ASR Automatic Speech Recognition
  • DEX Decision EXpert
  • DEX Decision EXpert
  • DEXi software that has been used in hundreds of real-world decision-making studies. will be illustrated by recent applications in the areas of electric energy production, food safety and health care.
  • FIG. 12 shows the configuration of the data extension unit 400 in the summary model learning device 200 shown in FIG.
  • the data expansion unit 400 has a learning data generation unit 410 , an important sentence extraction unit 420 and a task information addition unit 430 .
  • the data extension unit 400 may be a functional unit within the summary model learning device 200 or may be a separate device outside the summary model learning device 200 .
  • the summary model learning device 200 when the data extension unit 400 is in the summary model learning device 200 may be called the learning data generation device 400 .
  • the separate device may be called a learning data generation device 400 .
  • the flow of operation of the data expansion unit 400 (learning data generation device 400) shown in FIG. 12 will be described with reference to the flowchart of FIG. In S ⁇ b>301 , ASR text obtained by voice processing, OCR text obtained by image processing, and correct summary texts corresponding to these texts are input to the learning data generation unit 410 .
  • the task information adding unit 430 adds task information to the generated learning data set in S303, and outputs the learning data set to which the task information is added in S304.
  • the output data is input to the summary model learning unit 250 and used for learning the summary model.
  • Data is input to the learning data generation unit 410 as one set of "OCR text, ASR text, correct summary text" for one presentation moving image.
  • a data set for learning is called a learning data set.
  • the learning data generation unit 410 generates the following five learning data sets as shown in FIG. 14 based on the above input data.
  • (1) is the original learning data set. Since each training data set represents a task, the training data sets may be referred to as tasks. Note that the following five are examples, and at least one additional learning data set should be generated in addition to the original learning data set.
  • OCR text, OCR key sentences, (7) ASR text, ASR key sentences may be generated.
  • the key sentence extraction unit 420 extracts ASR key sentences by matching the summary text and the ASR text. For example, the important sentence extraction unit 420 extracts a portion of the ASR text that is highly similar to the summary text as an ASR important sentence.
  • the key sentence extraction unit 420 extracts OCR key sentences by matching the summary text and the OCR text. For example, the important sentence extraction unit 420 extracts a portion of the OCR text that is highly similar to the summary text as an OCR important sentence.
  • Any method can be applied as a matching method for extracting ASR / OCR key sentences, but it is used for creating extraction summary data, such as Fine-tune BERT for Extractive Summarization (https://arxiv.org/ pdf/1903.10318v2.pdf, retrieved Feb. 27, 2022) may be used.
  • the task information assigning unit 430 assigns identification information (which may be called a label) for identifying a task to each learning data set generated by the learning data generating unit 410 .
  • the identification information is a special token.
  • identification information such as [task0] is given as follows.
  • the summary model learning unit 250 learns a summary model using each learning data set with identification information.
  • the learning method for each learning data set is the same as the learning method in S206 described above. However, here, as shown in FIG. 15, the text with the identification information is used in the input to the decoder.
  • FIG. 15 shows an example of learning in task (2) of the above five tasks. Such learning is performed for each of (1) to (5).
  • the amount of learning data can be increased, and a highly accurate summary model can be generated.
  • the device can be realized by executing a program corresponding to the processing performed by the device using hardware resources such as a CPU and memory built into the computer.
  • the above program can be recorded in a computer-readable recording medium (portable memory, etc.), saved, or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 16 is a diagram showing a hardware configuration example of the computer.
  • the computer of FIG. 16 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., which are interconnected by a bus BS.
  • a program that implements the processing in the computer is provided by a recording medium 1001 such as a CD-ROM or memory card, for example.
  • a recording medium 1001 such as a CD-ROM or memory card
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000 .
  • the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via the network.
  • the auxiliary storage device 1002 stores installed programs, as well as necessary files and data.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when a program activation instruction is received.
  • the CPU 1004 implements the functions of the light touch maintaining device 100 according to programs stored in the memory device 1003 .
  • the interface device 1005 is used as an interface for connecting to a network or the like.
  • a display device 1006 displays a GUI (Graphical User Interface) or the like by a program.
  • An input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operational instructions.
  • the output device 1008 outputs the calculation result.
  • the technology according to the present embodiment makes it possible to appropriately generate a summary text from a video including audio and images, such as a presentation video.
  • a summary text from a video including audio and images, such as a presentation video.
  • additional training data for training a summary model that generates summary text from videos.
  • the accuracy of the summary model can be improved by performing pre-learning or data expansion (additional learning data generation by data division).
  • ROUGE-1, ROUGE-2, and ROUGE-L are used as evaluation indices, and are denoted as R1, R2, and RL, respectively.
  • FIG. 17 is a diagram showing the effect of pre-learning article data.
  • ASR+OCR indicates an evaluation result for comparison when the article data is not learned in advance.
  • +Paper summary (300,000)” and “+Paper summary (500,000)” respectively show the evaluation results when 300,000 and 500,000 paper summaries are learned in advance. As shown in FIG. 17, it can be seen that the accuracy is improved by learning the article data in advance.
  • FIG. 18 is a diagram showing the effect of learning slide outlines in advance.
  • ASR+OCR (4096) indicates the evaluation result when the slide outline is not learned in advance for comparison.
  • +slideshare indicates the evaluation result when the slide outline is learned in advance. As shown in FIG. 18, it can be seen that the precision is improved by learning the slide outline in advance.
  • FIG. 19 is a diagram showing the effect of learning a further learning data set obtained by division together with the original learning data set.
  • “ASR+OCR (4096)” indicates the evaluation result when only the original learning data set was trained for comparison.
  • ASR+OCR(4096)+extend” indicates an evaluation result when learning a further learning data set obtained by division together with the original learning data set. As shown in FIG. 19, it can be seen that the accuracy is improved by learning the learning data set obtained by division together with the original learning data set.
  • a learning data generation device that generates a learning data set for training a summary model that generates a summary text for a video, memory; at least one processor connected to the memory; including The processor At least one from an original training data set comprising a first text, which is text extracted from images in said video, a second text, which is text extracted from audio in said video, and a correct summary text of said video.
  • a training data generator that generates two additional training data sets.
  • the processor selects, as the additional learning data set, a learning data set that includes the first text and does not include the second text, or a learning data set that includes the second text but does not include the first text.
  • the learning data generating device according to additional item 1.
  • the processor may set any one of the first text and the second text, and any one of the first text and the second text and the correct answer as the additional learning data sets.
  • the learning data generating device which generates a learning data set including the important sentence obtained by performing matching with the summary text of the above.
  • Appendix 4 2.
  • the learning data generation device according to claim 1, wherein the processor gives identification information for identifying a task to be performed by the further learning data set to the further learning data set.
  • a training data generation method comprising a training data generation step of generating two further training data sets.
  • a non-temporary storage medium storing a computer-executable program for executing a learning data generation process for generating a training data set for training a summary model for generating a text summary for a video
  • the learning data generation process includes: At least one from an original training data set comprising a first text, which is text extracted from images in said video, a second text, which is text extracted from audio in said video, and a correct summary text of said video.
  • a non-transitory storage medium that generates two additional training data sets.
  • summary generation device 110 image processing unit 120 audio processing unit 130 summary generation unit 140 summary model DB 200 summary model learning device 210 data acquisition unit 220 learning data input unit 230 image processing unit 240 voice processing unit 250 summary model learning unit 270 model setting unit 280 summary model DB 290 Summary Model DB 310 Summary model pre-learning unit 320 Summary model DB 400 Data expansion unit 410 Learning data generation unit 420 Important sentence extraction unit 430 Task information addition unit 1000 Drive device 1001 Recording medium 1002 Auxiliary storage device 1003 Memory device 1004 CPU 1005 interface device 1006 display device 1007 input device 1008 output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置において、前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成部を備える。

Description

学習データ生成装置、学習データ生成方法、及びプログラム
 本発明は、動画から当該動画の要約テキストを生成するための要約モデルの学習に使用する学習データを生成する技術に関連するものである。
 近年オンライン会議などが増加し、会議等のプレゼンテーションの動画がインターネット上に多数公開されている。
 一般にプレゼンテーション動画は時間が長いため、その内容を把握するためには長時間動画を見なければならない。そのため、プレゼンテーション動画の内容を短時間で把握したいという要求がある。
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
 プレゼンテーション動画の内容を短時間で把握するために、ニューラルネットワークのモデル(要約モデルと呼ぶ)を用いて、プレゼンテーション動画の要約を表すテキスト(要約テキスト)を生成することが考えられる。
 しかし、プレゼンテーション動画においては、要約モデルを学習する際に使用する正解データ(学習データ)の量が少なく、収集した正解データのみでは十分な精度を持つ要約モデルを生成できなかった。この課題は、プレゼンテーション動画に限らずに、要約を生成する対象となる動画全般に対して生じ得る課題である。
 本発明は上記の点に鑑みてなされたものであり、動画から要約テキストを生成する要約モデルを学習するための学習データを生成することを可能とする技術を提供することを目的とする。
 開示の技術によれば、動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
 前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成部
 を備える学習データ生成装置が提供される。
 開示の技術によれば、動画から要約テキストを生成する要約モデルを学習するための学習データを生成することを可能とする技術が提供される。
プレゼンテーション動画から要約テキストを作成する基本的な処理の流れを示す図である。 要約生成装置100の構成図である。 要約生成装置100の動作を説明するためのフローチャートである。 要約モデル学習装置200の構成図である。 要約モデル事前学習のための構成を示す図である。 要約モデル学習装置200の動作を説明するためのフローチャートである。 事前学習における、要約モデルへの入力、及び、要約モデルからの出力の例を示す図である。 動画からの画像切り出し処理を説明するための図である。 画像からのテキスト抽出を説明するための図である。 音声からのテキスト抽出を説明するための図である。 学習における、要約モデルへの入力、及び、要約モデルからの出力の例を示す図である。 データ拡張部400の構成を示す図である。 データ拡張部400の動作を説明するためのフローチャートである。 データ分割の例を示す図である。 分割された学習データセットを使用した学習を説明するための図である。 装置のハードウェア構成例を示す図である。 論文データを事前に学習させた場合の効果を示す図である。 スライド概要を事前に学習させた場合の効果を示す図である。 元の学習データセットとともに分割により得られた学習データセットを学習させた場合の効果を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 以下で説明する要約生成装置100及び要約モデル学習装置200はいずれも、論文から要約を生成するような従来技術に対して特定の改善を提供するものであり、動画から要約を生成する技術に係る技術分野の向上を示すものである。
 以下で説明するデータ拡張部400(学習データ生成装置400)は、要約を人手で生成するような従来技術に対して特定の改善を提供するものであり、動画の要約テキストを生成するための要約モデルを学習する技術に係る技術分野の向上を示すものである。
 以下では、要約を生成する対象の動画として、プレゼンテーション動画を用いているが、これは例である。本発明に係る技術は、プレゼンテーション動画に限らない動画全般に適用することが可能である。
 (実施の形態の概要)
 近年オンライン会議などが増加し、会議等のプレゼンテーションの動画が多数公開されている。一般にプレゼンテーション動画は時間が長いため、その内容を短時間で把握したいという要求がある。プレゼンテーション動画の内容を短時間で把握するために、プレゼンテーション動画の要約が生成できることが望ましい。
 そこで、本実施の形態では、プレゼンテーション動画に対応する要約テキストを生成するための技術について説明する。
 <プレゼンテーション動画の例>
 一例として、「https://slideslive.com/38928967/predicting-depression-in-screening-interviews-from-latent-categorization-of-interview-prompts」(2022年2月27日検索)、「https://videolectures.net/」(2022年2月27日検索)等に開示されているように、一般的なプレゼンテーション動画は、発表内容を記載したスライドの画像と、発表者の画像と、発表者の音声からなる。なお、発表者の画像が表示されない場合も多い。
 <プレゼンテーション動画から要約テキストを作成する基本的な処理の流れ>
 プレゼンテーション動画から要約テキストを作成する基本的な処理の流れを、図1を参照して説明する。なお、以降の説明においては、記載の便宜上、プレゼンテーション動画を「動画」と呼び、要約テキストを「要約」と呼ぶ場合がある。
 まず、要約作成の対象となる動画から、要約生成部130への入力データとなる、(A)プレゼンテーションスライド、(B)動画から切り出した画像、及び(C)音声を用意する。
 なお、(A)のプレゼンテーションスライドは、動画とは別のファイルであることを想定している。また、入力データとして、(A)、(B)、(C)の3つのうちの少なくとも1つがあれば要約生成は可能であるが、より精度の良い要約を生成するために、(A)、(B)、(C)の3つ、あるいは、(A)と(C)の2つ、あるいは、(B)と(C)の2つがあることが望ましい。
 次に、画像認識/音声認識によりテキストに変換した入力データを要約生成部130に入力し、要約生成部が要約テキストを出力する。要約生成部130は、後述する要約生成装置100に含まれる機能部である。
 <要約生成技術について>
 本実施の形態において要約生成部130がテキストから要約を生成するために、ニューラルネットワークのモデル(これを要約モデルと呼ぶ)を使用している。
 テキストを入力して要約テキストを出力するモデルであればどのような要約モデルを使用してもよいが、本実施の形態では、一例として、非特許文献1に開示されたBARTに基づくモデルを使用している。
 BARTは、エンコーダとデコーダからなるモデルである。学習済みのモデルを使用することで、エンコーダへテキストを入力すると、デコーダから要約テキストが出力される。
 <課題について>
 従来から、テキストを入力して要約を出力する技術は存在したが、マルチモーダルの入力データから要約を出力する技術は見られない。すなわち、従来技術においては、プレゼンテーション動画等の、音声と画像(スライド画像等)を含む動画から適切に要約テキストを生成する技術は存在しなかった。
 上記の課題を、実施形態の観点からより具体的な課題に分けるとすると、下記のような課題1~3に分けることができる。
 課題1:動画に対する要約を生成するための要約モデルを学習する際に使用する、正解の要約テキストを含む学習データを作成する作成コストが高い。
 課題2:動画から音声及び画像を抽出して、これらを入力として要約テキストを出力する要約モデルを用いた要約生成技術は存在しない。
 課題3:動画に対する要約を生成するための要約モデルを学習する際に使用する、正解の要約テキストを外部サーバ等から収集できたとしても、その量が少ないため、学習データの量が少なくなり、精度の良い要約モデルを生成できない。
 以下、プレゼンテーション動画から要約を生成する要約生成装置100、及び、要約生成装置100において使用される要約モデルを生成(学習)するための要約モデル学習装置200のそれぞれについて、その構成と動作を説明する。以下で説明する技術により、上記の課題1~3が解決される。
 (要約生成装置100の構成と動作)
 図2に、本実施の形態における要約生成装置100の構成図を示す。図2に示すように、要約生成装置100は、画像処理部110、音声処理部120、要約生成部130、要約モデルDB(データベース)140を有する。要約モデルDB140には、学習済みの要約モデルが格納されている。なお、本明細書におけるDBを記憶部あるいは格納部と呼んでもよい。
 図3のフローチャートを参照して、図2に示す要約生成装置100の動作の流れを説明する。
 要約を作成する対象の動画から音声情報と画像情報を抽出しておき、S101において、画像情報を画像処理部110に入力し、音声情報を音声処理部120に入力する。なお、図2の例では、動画から音声情報と画像情報(特に画像情報)を抽出する機能部については、要約生成装置100の外部にあることを想定するが、要約生成装置100の内部に当該機能部を備えてもよい。
 S102において、画像処理部110が、画像認識技術を用いて、画像からテキストを抽出する。画像処理部110は、テキストに加えて、付随する補助情報(スライド中の文字の色など)を抽出してもよい。
 S103において、音声処理部120は、音声認識技術を用いて、音声からテキストを抽出する。なお、S102とS103の処理の順番は逆であってもよいし、S102とS103を同時に実行してもよい。
 S102で抽出されたテキスト、及び、S102で抽出されたテキストは、要約生成部130に入力される。S104において、要約生成部130は、要約モデルDB140から読み出した要約モデルを用いて、S102で抽出されたテキスト、及び、S103で抽出されたテキストから要約を生成する。要約モデルの学習のところでも説明するとおり、要約モデルへの入力として、テキストに加えて、文字の配置特徴量、画像特徴量、音声特徴量のうちのいずれか1つ、いずれか複数、又は全部を追加した情報を使用してもよい。なお、「要約モデル」の実態は、ニューラルネットワークを構成する関数及び重みパラメータ等からなるデータである。S104において、要約生成部130は、生成した要約を出力する。
 上記のように、動画から得られる音声情報と画像情報の双方を用いることで、高品質な要約を生成することができる。
 動画から音声情報と画像情報を抽出する機能部、画像処理部110、及び、音声処理部120における処理についてはそれぞれ、後述する要約モデル学習装置200の学習データ入力部220、画像処理部230、及び、音声処理部240における処理と同じであるため、これらの詳細処理については、要約モデル学習装置220の説明のところで説明する。
 本実施の形態の要約生成装置100により、前述した課題2が解決され、動画から音声及び画像を抽出して、これらを入力として要約テキストを出力する要約モデルを用いた要約生成技術を実現できる。なお、要約モデルについては、以下で説明する要約モデル学習装置200により学習が行われる。
 (要約モデル学習装置の構成と動作)
 図4に、本実施の形態における要約モデル学習装置200の構成例を示す。図4に示すように、要約モデル学習装置200は、データ取得部210、学習データ入力部220、画像処理部230、音声処理部240、要約モデル学習部250、データ拡張部400、モデル設定部270、事前学習済みの要約モデルを格納する要約モデルDB280、学習中の要約モデルを格納する要約モデルDB290を有する。
 本実施の形態では、要約モデルの学習時において、プレゼンテーションと内容的には類似性が高いと考えられる論文の要約を事前に大量に学習した要約モデルを作成し、その要約モデルに対して少量のプレゼンテーションの要約データを用いてファインチューンする。これにより、プレゼンテーション動画に対する正解の要約データが少量でも高い精度を達成することを可能としている。
 なお、上記のように事前学習を行うことは、課題3の解決方法の1つである。事前学習を行わずに、後述するデータ拡張部400により生成された更なる学習データを使用することでも、課題3を解決することができる。事前学習を行うことと、後述するデータ拡張部400により生成された更なる学習データを使用することとを組み合わせてもよい。
 図4に示す構成は、上記の事前学習を行う場合の構成を示しているが、事前学習を行わずにデータ拡張部400で生成された学習データによる学習を行ってもよい。また、事前学習を行った要約モデルに対して、データ拡張部400で生成された学習データによる学習を行ってもよい。
 事前学習のための構成を図5に示す。図5に示すように、事前学習のための構成として、要約モデル事前学習部310と、事前学習中の要約モデルを格納する要約モデルDB320を有する。
 要約モデル事前学習部310と要約モデルDB320とを有する要約モデル事前学習装置(要約モデル学習装置200とは別の装置)を構成してもよいし、要約モデル事前学習部310と要約モデルDB320が要約モデル学習装置200内に含まれていてもよい。
 図6のフローチャートを参照して、要約モデル学習装置200及び要約モデル事前学習部310の動作の流れを説明する。詳細処理については後述する。
 S201、S202は、図5に示した事前学習のための構成における処理である。S201において、要約モデル事前学習部310に事前学習用データを入力する。事前学習用データは、例えば、プレゼンテーションに関連する論文のテキストと、その論文の要約(正解データ)である。
 S202において、要約モデル事前学習部310は、入力データを用いて、要約モデルを学習(事前学習)する。事前学習済みの要約モデルは、要約モデル学習装置200における要約モデルDB280に格納される。
 S203~S207は、図4に示した要約モデル学習装置200における処理である。S203の入力処理において、データ取得部210にアクセス情報(例:論文及びプレゼンテーション動画が公開されているURL)を入力する。データ取得部210は、アクセス情報を用いて、例えばネットワーク上のサーバから、学習データを取得して、学習データ入力部220に入力する。学習データは、例えば、論文に関するプレゼンテーション動画と、当該動画に対応する正解の要約テキストである。S203では更に、学習データ入力部220が、プレゼンテーション動画を画像情報と音声情報に分ける処理を行い、画像情報を画像処理部230に入力し、音声情報を音声処理部240に入力し、正解の要約を要約モデル学習部250に入力する。
 なお、学習データ入力部220が画像処理部230へ入力する画像情報は、プレゼンテーション動画とは別ファイルになっているスライド画像等であってもよいし、プレゼンテーション動画から抽出したスライド画像等であってもよい。いずれの場合でも当該画像を「動画における画像」又は「動画に関する画像」と表現してもよい。いずれの場合でも、「動画における画像」又は「動画に関する画像」から画像認識処理により、テキストを抽出できる。
 なお、以降の説明では、画像処理部230へ入力する画像情報は、プレゼンテーション動画から抽出したスライド画像等であることを想定している。
 S204において、画像処理部230が、画像認識技術を用いて、画像からテキストを抽出する。画像処理部230は、テキストに加えて、付随する補助情報(スライド中の文字の色など)、文字の配置特徴量、画像特徴量などを抽出してもよい。
 S205において、音声処理部120は、音声認識技術を用いて、音声からテキストを抽出する。音声処理部120は、テキストに加えて、音声特徴量などを抽出してもよい。なお、S204とS205の処理の順番は逆であってもよいし、S204とS205を同時に実行してもよい。
 S204で抽出されたテキスト、及び、S205で抽出されたテキストは、要約モデル学習部250に入力される。また、正解の要約も要約モデル学習部250に入力される。
 ここで、モデル設定部270により、要約モデルDB280から事前学習済みの要約モデルが読み出され、要約モデルDB290に、当該事前学習済みの要約モデルが格納されている。この事前学習済みの要約モデルにおけるパラメータを初期値として、以下の学習(ファインチューニング)が行われる。
 S206において、要約モデル学習部250は、要約モデルDB290から読み出した要約モデルを用いて、S204で抽出されたテキスト、及び、S205で抽出されたテキストから要約を生成するとともに、生成した要約と正解の要約との間の誤差が最小になるように要約モデルの学習(パラメータの更新)を行う。
 学習が終了すると、要約モデル学習部250は、学習済みの要約モデルを要約生成装置100の要約モデルDB140に格納する。
 なお、上記の例では、事前学習を行って、事前学習済みの学習モデルをファインチューンする例を示しているが、前述したように、事前学習は必須ではない。事前学習を実施せずに、図6のS203から処理を開始することとしてもよい。事前学習を実施しない場合における要約モデルのパラメータの初期値はランダムな値であってもよいし、ランダムな値以外の値であってもよい。
 以下では、S201~S207における各ステップの処理内容をより詳細に説明する。
 (S201、S202:事前学習)
 図5に示した要約モデル事前学習部310が実行する事前学習の詳細例を説明する。事前学習においては、要約の対象とするプレゼンテーション動画の分野に関連する分野のテキスト(関連分野テキストと呼ぶ)と、その正解の要約を用いて要約モデルの学習を行う。関連分野テキストは、例えば、論文テキスト(論文の本文のテキスト)、スライドのテキスト等である。
 関連分野テキストとして、論文テキストを使用する場合における、要約モデルへの入力、及び、要約モデルからの出力の例を図7に示す。前述したとおり、本実施の形態に係る要約モデルは、エンコーダとデコーダからなるモデルである。
 図7に示すとおり、エンコーダに論文の本文テキストが入力され、デコーダから要約テキストが出力される。出力される要約テキストと正解の要約テキストとの間の誤差が最小になるように要約モデルの学習がなされる。入力としてスライドテキストを使用する場合でも処理内容は論文テキストを用いる場合と同じである。
 なお、テキストのエンコーダへの入力の際には、テキストのトークン列がまずd次元の固定次元ベクトルに変換され、その後、エンコーダ‐デコーダを通して要約テキストに変換される。
 入力となる論文テキストの例を以下に示す。
 「We assume familiarity with basic notions of graph theory (see, for instance, 1]) and with elementary notions of polyhedral combinatorics (see, for instance, 6]).", "Our graphs will be undirected and simple (no loops and no multiple edges).", "As usual, K n denotes the complete graph with n vertices; K n;m denotes the complete bipartite graph with n + m vertices and n m edges.", "Let G be a graph; G is connected if for every pair of distinct vertices there exists a path in G joining them; G is twoconnected if for every vertex v of G, the graph G ?", "v is connected; G is planar if it can be embedded in the plane.", "A subgraph H of a G is spanning if the vertex sets of H and G are the same.", "Subdivision of an edge uv of G consists of removing edge uv, and adding a new vertex w and the two edges uw and vw; w is called subdivision vertex.", "If G and H are two graphs, we say that G contains a subdivision of H, if H arises by subdivision of the edges of some subgraph of G. As usual, (u) denotes the set of all edges that are incident in the vertex u.", "In automatic graph drawing the following problem arises: nd in a complete graph with weights on its edges a two-connected planar spanning subgraph with weight as Partially supported by DFG-Grant JU204/7-1 Forschungsschwerpunkt \" E ziente Algorithmen f ur diskrete Probleme und ihre Anw…」
 上記入力に対する出力(あるいは正解データである要約テキスト)の例を以下に示す。
 「The problem of finding a two-connected planar spanning subgraph of maximum weight in a complete edge-weighted graph is important in automatic graph drawing.", "We investigate the problem from a polyhedral point of view."」
 プレゼンテーション動画のサイト等において、スライドのファイルを動画とは別ファイルとして取得できる場合がある。また、スライドのファイルには、スライドそのもののデータ(スライドテキスト)と、スライドの概要(要約テキスト)が含まれる場合も多い。このような場合、スライドテキストをエンコーダ‐デコーダの入力として、上記要約テキストを正解として使用することで要約モデルの事前学習を行うことができる。
 入力となるスライドテキストの例を以下に示す。
 「[["ssn"], ["MASTERS", "IN", "AUTOMOTIVE"], ["ENGINEERING"], ["Karthiek", "Nagaraj"], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["SSN"], ["WHY", "AUTOMOBILE", "ENGINEERING", "?"], ["Its", "scope", "is", "irrefutable", "and", "job", "prospects", "are", "very", "strong", "in", "any", "part", "of", "the", "world", ".", "Also", "the", "prospect", "of", "returning", "to", "India", "to", "work", "is", "bright", "as", "the", "indian", "automotive", "industry", "is", "making", "tremendous", "progress", "."], [">", "It", "is", "a", "stream", "which", "blends", "passion", "for", "vehicles", "and", "technical", "knowledge", ",", "thus", "making", "it", "all", "the", "more", "interesting", "."], ["It", "is", "an", "interdisciplinary", "field", "which", "encompasses", "mechanical", "engineering", ",", "electrical", "and", "electronics", "engineering", "and", "software", "engineering", ".", "This", "again", "adds", "to", "the", "interest", "factor", "."], ["A", "multitude", "of", "research", "options", "are", "on", "offer", ",", "especially", "in", "hybrid", "powertrains", "and", "fuel", "cells", "."], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["2"], ["SSN"], ["KEY", "AREAS", "OF", "AUTOMOTIVE", "ENGINEERING"], ["Vehicle", "Propulsion", "~", "Internal", "combustion", "engines"], ["Powertrain", "dynamics", "and", "control"], ["Vehicle", "dynamics", "~", "Handling", "response"], ["~", "Advanced", "transmission"], ["systems"], ["~", "Hybrid", "propulsion", "systems"], ["~", "Terrain", "modelling"], ["~", "Fuel", "cells"], ["~", "Drivetrain", "control", "systems"], ["~", "NVH", "modelling"], ["Automotive", "body", "structures", "~", "Material", "selection"], ["Automotive", "safety", "~", "Active", "and", "passive", "safety"], ["systems"], ["~", "Crash", "worthiness"], ["~", "Human", "factor", "engineering"], ["and",」
 上記入力に対する出力(あるいは正解データであるスライド概要)の例を以下に示す。
 「A guide to Masters in Automotive Engineering at International Destinations」
 (S203:要約モデル学習装置200の入力処理)
 次に、図4に示した要約モデル学習装置200における、データ取得部210による処理、及び、学習データ入力部220による処理の詳細例を説明する。
 データ取得部210は、例えばインターネット上にあるプレゼンテーション動画のサイトにアクセスし、そのサイトからプレゼンテーション動画と、動画に対応する正解の要約を取得する。このような動画と要約を取得できるサイトの例として例えば、「https://aclanthology.org/」(2022年2月27日検索)がある。
 上記のように、ネットワーク上のサーバからプレゼンテーション動画とその要約を取得することで、人手で要約を作成することなく、学習データを作成することができ、前述した課題1が解決される。
 学習データ入力部220は、データ取得部210により取得したプレゼンテーション動画を画像情報と音声情報に分ける処理を行い、画像情報を画像処理部230に入力し、音声情報を音声処理部240に入力する。
 画像情報は特定の画像に限定されないが、ここでは、画像情報が、プレゼンテーション動画におけるスライド画像であることを想定している。
 図8を参照して、学習データ入力部220による、プレゼンテーション動画から画像を切り出す処理例を説明する。
 S203(1-1):
 学習データ入力部220は、プレゼンテーション動画からk秒単位で画像を切り出す。kは、0より大きな実数であり、予め定めておく数である。図8の上段には、k秒毎に切り出された6つの画像が示されている。
 S203(1-2):
 学習データ入力部220は、S203(1-1)で切り出した画像を時刻ごとに順番に比較し,t番目の画像とt-1番目の画像の類似度が閾値以上であればこれらの画像を同じ画像と判定する。なお、画像間の類似度の判定方法としてはどのような判定方法を使用してもよい。図8には、6つの画像における各2画像間の類似度の例が示されている。
 S203(1-3):
 学習データ入力部220は、S203(1-1)とS203(1-2)を繰り返し、異なり画像集合を抽出する。図8には、閾値が25である場合の異なり画像集合として、画像1、画像4、画像6が示されている。得られた画像集合は画像処理部230に入力される。
 (S204:画像処理)
 次に、画像処理部230が実行する画像処理の詳細例を説明する。画像処理部230は、学習データ入力部220から入力された異なり画像集合に対してOCR(Optical Character Recognition)処理を実施し、図9に示すように、当該異なり画像集合における各画像から、テキスト、文字の色、文字の大きさ、文字の位置情報等を取得する。なお、取得する情報はテキストのみでもよい。
 (S205:音声処理)
 次に、音声処理部240が実行する音声処理の詳細例を説明する。図10に示すように、音声処理部240は、学習データ入力部220から入力された音声に対して音声認識処理を実施し、音声認識結果のテキストを取得する。
 (S206:学習処理)
 続いて、要約モデル学習部250が実行する学習処理の詳細例を説明する。要約モデル学習部250は、画像処理部230により得られたテキストと、音声処理部240により得られたテキストとを結合し、結合されたテキストを要約モデルに入力する。要約モデル学習部250は、要約モデルから出力された要約テキストと、正解の要約テキストとの誤差が最小になるように要約モデルを学習する。要約モデルへの入力については、結合テキストに対して、画像処理部230により得られた、文字の配置特徴量、画像特徴量、文字の大きさや色情報等を追加した情報を使用してもよい。また、結合テキストに対して、音声処理部240により得られた音声特徴量を追加した情報を使用してもよい。
 なお、上記の要約モデルの初期状態は、S202で事前学習した要約モデルである。ただし、前述したとおり、事前学習を行わないこととしてもよいので、上記の要約モデルの初期状態は、S202で事前学習した要約モデルでなくてもよい。事前学習を行わない場合には、後述するデータ拡張部400により生成された更なる学習データを用いて学習を行うこととしてもよい。
 要約モデルへの入力、及び、要約モデルからの出力の例を図11に示す。前述したとおり、本実施の形態に係る要約モデルは、エンコーダとデコーダからなるモデルである。
 図11に示すとおり、エンコーダに、[SEP]により結合されたテキストと、文字の大きさ、及び色情報が入力され、デコーダから要約テキストが出力される。出力される要約テキストと正解の要約テキストとの間の誤差が最小になるように要約モデルの学習がなされる。
 テキストのエンコーダへの入力の際には、テキストのトークン列がまずd次元の固定次元ベクトルに変換され、その後、エンコーダ‐デコーダを通して要約テキストに変換される。また、入力において、文字の大きさ、及び色情報はなくてもよい。
 なお、音声処理部240により得られるテキストをASR(Automatic Speech Recognition)テキストと呼び、画像処理部240により得られるテキストをOCRテキストと呼んでもよい。
 ASRテキストの例を以下に示す。
 「So to put in context to put my presentation in the context, I will, I would like to begin with the word decision support or decision-making. And first ask the question who, or what is making decisions and obviously we get two branches here. One is that we have a human decision maker who makes a decision and all of us are decision makers and then we are also talking about the decision systems. So computers robots.」
 OCRテキストの例を以下に示す。下記の例は、「http://videolectures.net/site/normal_dl/tag=1005123/icml2015_schmidt_time_framework_01.pdf」(2022年2月26日検索)において開示されているスライド画像から得られたテキストの例である。
 「Structured sparsity sparsity is widely used in signal processing, machine learning, and statistics (compressive sensing, sparse linear regression, etc.) Examples of sparsity….」
 ASRテキストとOCRテキストを結合して要約モデルに入力した際に出力される要約テキスト(あるいはその正解)の例を以下に示す。
 「Decision Support is a discipline concerned with human decision making: it aims to provide methods and tools that support, rather than replace, people in making difficult decisions. One of the widely used decision-support approaches relies on decision models, which are developed in the decision process and used to evaluate and analyse decision alternatives. In this lecture, we shall present the method DEX (Decision EXpert), which was heavily influenced by ideas from Artificial Intelligence. DEX is a hierarchical, qualitative, rule-based, multi-criteria modelling method, suitable particularly for solving classification decision problems. DEX combines traditional approaches with those from expert systems and machine learning. DEX is supported by the software called DEXi and has been used in hundreds of real-world decision-making studies. The presentation will be illustrated by recent applications in the areas of electric energy production, food safety and health care.」
 (データ拡張部400の構成と動作)
 以下では、課題3を解決する技術の1つである、追加の学習データセットを自動的に生成する技術について説明する。
 図4に示した要約モデル学習装置200におけるデータ拡張部400の構成を図12に示す。図12に示すように、データ拡張部400は、学習データ生成部410、重要文抽出部420、タスク情報付与部430を有する。なお、データ拡張部400は要約モデル学習装置200内の機能部であってもよいし、要約モデル学習装置200の外部にある別装置であってもよい。データ拡張部400が要約モデル学習装置200内にある場合の要約モデル学習装置200を学習データ生成装置400と呼んでもよい。データ拡張部400が要約モデル学習装置200の外部にある別装置である場合の当該別装置を学習データ生成装置400と呼んでもよい。
 図13のフローチャートを参照して、図12に示すデータ拡張部400(学習データ生成装置400)の動作の流れを説明する。S301において、音声処理により得られたASRテキスト、画像処理により得られたOCRテキスト、及び、これらに対応する正解の要約テキストを学習データ生成部410に入力する。
 S302において、データ分割部410は、入力されたデータに対して学習データ生成処理(データ分割処理と呼んでもよい)行う。S302においては、重要文抽出部420による重要文抽出処理も行われる。なお、重要文抽出部420が学習データ生成部410内に含まれていてもよい。
 タスク情報付与部430は、S303において、生成された学習データセットにタスク情報を付与し、S304において、タスク情報を付与した学習データセットを出力する。出力されたデータは要約モデル学習部250に入力され、要約モデルの学習に利用される。以下、上記の各ステップの処理をより詳細に説明する。
 (S301:入力、S302:データ分割)
 学習データ生成部410へは、1つのプレゼンテーション動画に対して「OCRテキスト、ASRテキスト、正解の要約テキスト」を1セットとしてデータを入力する。学習を行うためのデータセットを学習データセットと呼ぶ。
 学習データ生成部410は、上記の入力データに基づいて、図14に示すように下記の5つの学習データセットを生成する。なお、(1)は、元の学習データセットである。各学習データセットは、タスクを表すので、学習データセットをタスクと呼んでもよい。なお、下記の5つは例であり、元の学習データセットに加えて、更なる学習データセットが少なくとも1つ生成されればよい。下記に加えて、(6)OCRテキスト、OCR重要文、(7)ASRテキスト、ASR重要文が生成されてもよい。
 (1)OCRテキスト、ASRテキスト、正解の要約テキスト
 (2)OCRテキスト、正解の要約テキスト
 (3)ASRテキスト、正解の要約テキスト
 (4)OCRテキスト、ASR重要文
 (5)ASRテキスト、OCR重要文
 ASR重要文、OCR重要文はいずれも、疑似正解情報の例である。ASR重要文とOCR重要文は、いずれも重要文抽出部420が作成する。これら重要文の作成方法の例を以下に説明する。
 ASR重要文に関して、重要文抽出部420は、要約テキストとASRテキストとのマッチングをとることでASR重要文を抽出する。例えば、重要文抽出部420は、ASRテキストのうち、要約テキストと類似性の高い部分をASR重要文として抽出する。
 OCR重要文に関して、重要文抽出部420は、要約テキストとOCRテキストとのマッチングをとることでOCR重要文を抽出する。例えば、重要文抽出部420は、OCRテキストのうち、要約テキストと類似性の高い部分をOCR重要文として抽出する。
 ASR/OCR重要文の抽出のためのマッチングの取り方としては任意の手法を適用できるが、抽出要約のデータ作成で用いられる、例えばFine-tune BERT for Extractive Summarization(https://arxiv.org/pdf/1903.10318v2.pdf、2022年2月27日検索)で記載されている方法を用いてもよい。
 (S303:タスク情報付与)
 タスク情報付与部430は、学習データ生成部410により生成した各学習データセットに、タスクを識別するための識別情報(ラベルと呼んでもよい)を付与する。当該識別情報は特殊トークンである。上記(1)~(5)の例では、例えば、下記のように[task0]等の識別情報を付与する。
 (1)[task0] OCRテキスト、ASRテキスト、正解の要約テキスト
 (2)[task1] OCRテキスト、正解の要約テキスト
 (3)[task2] ASRテキスト、正解の要約テキスト
 (4)[task3] OCRテキスト、ASR重要文
 (5)[task4] ASRテキスト、OCR重要文
 (S304:出力、(及び学習))
 S303において識別情報の付された各タスク(各学習データセット)は、要約モデル学習部250へ出力される。
 要約モデル学習部250は、識別情報の付されたそれぞれの学習データセットを用いて要約モデルの学習を行う。各学習データセットでの学習方法は、前述したS206での学習方法と同様である。ただし、ここでは、図15に示すように、デコーダへの入力において、上記識別情報を付したテキストを用いる。図15は、上記5つのタスクのうちの(2)のタスクでの学習例を示している。このような学習が、(1)~(5)のそれぞれに対して行われる。
 これにより、学習データ量を増大させることができ、精度の良い要約モデルを生成できる。
 (ハードウェア構成例)
 要約生成装置100、要約モデル学習装置200、学習データ生成装置400はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、要約生成装置100、要約モデル学習装置200、学習データ生成装置400を総称して「装置」と呼ぶ。
 すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図16は、上記コンピュータのハードウェア構成例を示す図である。図16のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、ライトタッチ維持装置100に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
 (実施の形態の効果)
 以上説明したとおり、本実施の形態に係る技術により、プレゼンテーション動画等の、音声と画像を含む動画から適切に要約テキストを生成することが可能となる。また、動画から要約テキストを生成する要約モデルを学習するための追加の学習データを自動的に生成することが可能となる。
 特に本実施の形態では、事前学習又はデータ拡張(データ分割による追加学習データ生成)を行うことで、要約モデルの精度を向上させることができる。
 以下、事前学習を行った場合の実験結果に基づく効果、及び、データ分割を行った場合の実験結果に基づく効果を説明する。以下では、評価指標として、ROUGE-1, ROUGE-2, ROUGE-Lを使用しており、それぞれ、R1、R2、RLと記載する。
 図17は、論文データを事前に学習させた場合の効果を示す図である。「ASR+OCR」は、比較のための、論文データを事前に学習させない場合の評価結果を示す。「+論文要約(30万)」、「+論文要約(50万)」はそれぞれ、論文要約をそれぞれ30万件、50万件事前に学習させた場合の評価結果を示す。図17に示すとおり、論文データを事前に学習させることにより、精度が向上していることがわかる。
 図18は、スライド概要を事前に学習させた場合の効果を示す図である。「ASR+OCR(4096)」は、比較のための、スライド概要を事前に学習させない場合の評価結果を示す。「+slideshare」はスライド概要を事前に学習させた場合の評価結果を示す。図18に示すとおり、スライド概要を事前に学習させることにより、精度が向上していることがわかる。
 図19は、元の学習データセットとともに分割により得られた更なる学習データセットを学習させた場合の効果を示す図である。「ASR+OCR(4096)」は、比較のための、元の学習データセットのみを学習させた場合の評価結果を示す。「ASR+OCR(4096)+extend」は、元の学習データセットとともに分割により得られた更なる学習データセットを学習させた場合の評価結果を示す。図19に示すとおり、元の学習データセットとともに分割により得られた学習データセットを学習させることにより精度が向上していることがわかる。
 (付記)
 以上の実施形態に関し、更に以下の付記項を開示する。
(付記項1)
 動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する
 学習データ生成装置。
(付記項2)
 前記プロセッサは、前記更なる学習データセットとして、前記第1テキストを含み、前記第2テキストを含まない学習データセット、又は、前記第2テキストを含み、前記第1テキストを含まない学習データセットを生成する
 付記項1に記載の学習データ生成装置。
(付記項3)
 前記プロセッサは、前記更なる学習データセットとして、前記第1テキストと前記第2テキストのうちのいずれかのテキスト、及び、前記第1テキストと前記第2テキストのうちのいずれかのテキストと前記正解の要約テキストとのマッチングを行うことで得られた重要文を含む学習データセットを生成する
 付記項1に記載の学習データ生成装置。
(付記項4)
 前記プロセッサは、前記更なる学習データセットに対して、当該更なる学習データセットにより行われるタスクを識別するための識別情報を付与する
 付記項1に記載の学習データ生成装置。
(付記項5)
 動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置として使用されるコンピュータが実行する学習データ生成方法であって、
 前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成ステップ
 を備える学習データ生成方法。
(付記項6)
 動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記学習データ生成処理は、
 前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する
 非一時的記憶媒体。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 要約生成装置
110 画像処理部
120 音声処理部
130 要約生成部
140 要約モデルDB
200 要約モデル学習装置
210 データ取得部
220 学習データ入力部
230 画像処理部
240 音声処理部
250 要約モデル学習部
270 モデル設定部
280 要約モデルDB
290 要約モデルDB
310 要約モデル事前学習部
320 要約モデルDB
400 データ拡張部
410 学習データ生成部
420 重要文抽出部
430 タスク情報付与部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (6)

  1.  動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
     前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成部
     を備える学習データ生成装置。
  2.  前記学習データ生成部は、前記更なる学習データセットとして、前記第1テキストを含み、前記第2テキストを含まない学習データセット、又は、前記第2テキストを含み、前記第1テキストを含まない学習データセットを生成する
     請求項1に記載の学習データ生成装置。
  3.  前記学習データ生成部は、前記更なる学習データセットとして、前記第1テキストと前記第2テキストのうちのいずれかのテキスト、及び、前記第1テキストと前記第2テキストのうちのいずれかのテキストと前記正解の要約テキストとのマッチングを行うことで得られた重要文を含む学習データセットを生成する
     請求項1に記載の学習データ生成装置。
  4.  前記更なる学習データセットに対して、当該更なる学習データセットにより行われるタスクを識別するための識別情報を付与するタスク情報付与部
     を更に備える請求項1に記載の学習データ生成装置。
  5.  動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置として使用されるコンピュータが実行する学習データ生成方法であって、
     前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成ステップ
     を備える学習データ生成方法。
  6.  コンピュータを、請求項1ないし4のうちいずれか1項に記載の学習データ生成装置における各部として機能させるプログラム。
PCT/JP2022/009576 2022-03-04 2022-03-04 学習データ生成装置、学習データ生成方法、及びプログラム WO2023166747A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/009576 WO2023166747A1 (ja) 2022-03-04 2022-03-04 学習データ生成装置、学習データ生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/009576 WO2023166747A1 (ja) 2022-03-04 2022-03-04 学習データ生成装置、学習データ生成方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023166747A1 true WO2023166747A1 (ja) 2023-09-07

Family

ID=87883432

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/009576 WO2023166747A1 (ja) 2022-03-04 2022-03-04 学習データ生成装置、学習データ生成方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023166747A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152605A (ja) * 2006-12-19 2008-07-03 Toyohashi Univ Of Technology プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP2015176175A (ja) * 2014-03-13 2015-10-05 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
US20200137441A1 (en) * 2018-10-24 2020-04-30 Motorola Solutions, Inc. Alerting groups of user devices to similar video content of interest based on role
CN112069309A (zh) * 2020-09-14 2020-12-11 腾讯科技(深圳)有限公司 信息获取方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152605A (ja) * 2006-12-19 2008-07-03 Toyohashi Univ Of Technology プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP2015176175A (ja) * 2014-03-13 2015-10-05 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
US20200137441A1 (en) * 2018-10-24 2020-04-30 Motorola Solutions, Inc. Alerting groups of user devices to similar video content of interest based on role
CN112069309A (zh) * 2020-09-14 2020-12-11 腾讯科技(深圳)有限公司 信息获取方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAODAN LIANG; ZHITING HU; HAO ZHANG; CHUANG GAN; ERIC P. XING: "Recurrent Topic-Transition GAN for Visual Paragraph Generation", ARXIV.ORG, 21 March 2017 (2017-03-21), XP080758426, DOI: 10.1109/ICCV.2017.364 *

Similar Documents

Publication Publication Date Title
Hohman et al. Visual analytics in deep learning: An interrogative survey for the next frontiers
Zhang et al. MOOCRC: A highly accurate resource recommendation model for use in MOOC environments
US10249207B2 (en) Educational teaching system and method utilizing interactive avatars with learning manager and authoring manager functions
Brooks et al. FeatureInsight: Visual support for error-driven feature ideation in text classification
CN110368690B (zh) 游戏决策模型训练方法、游戏策略生成方法及装置
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
JP7309798B2 (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN114610900A (zh) 知识图谱补全方法及系统
CN114238577B (zh) 融合多头注意力机制的多任务学习情感分类方法
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
Joksimoski et al. Technological solutions for sign language recognition: a scoping review of research trends, challenges, and opportunities
CN114818691A (zh) 文章内容的评价方法、装置、设备及介质
Thomas et al. Automatic prediction of presentation style and student engagement from videos
Ryumin et al. Towards automatic recognition of sign language gestures using kinect 2.0
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
Queiroz et al. AI from concrete to abstract: demystifying artificial intelligence to the general public
Hao et al. Sentiment recognition and analysis method of official document text based on BERT–SVM model
Hartmann et al. XAINES: Explaining AI with narratives
Kamil et al. Literature Review of Generative models for Image-to-Image translation problems
WO2023166747A1 (ja) 学習データ生成装置、学習データ生成方法、及びプログラム
WO2023166746A1 (ja) 要約生成装置、要約モデル学習装置、要約生成方法、要約モデル学習方法、及びプログラム
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
Martinez Pandiani et al. Hypericons for interpretability: decoding abstract concepts in visual data
CN117501283A (zh) 文本到问答模型系统
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22929891

Country of ref document: EP

Kind code of ref document: A1