WO2023090040A1 - コメント生成装置、コメント生成方法及びプログラム - Google Patents

コメント生成装置、コメント生成方法及びプログラム Download PDF

Info

Publication number
WO2023090040A1
WO2023090040A1 PCT/JP2022/039071 JP2022039071W WO2023090040A1 WO 2023090040 A1 WO2023090040 A1 WO 2023090040A1 JP 2022039071 W JP2022039071 W JP 2022039071W WO 2023090040 A1 WO2023090040 A1 WO 2023090040A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
meta information
commentary
target
event
Prior art date
Application number
PCT/JP2022/039071
Other languages
English (en)
French (fr)
Inventor
文規 本間
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023090040A1 publication Critical patent/WO2023090040A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors

Definitions

  • the present disclosure relates to a comment generation device, comment generation method, and program.
  • a device that automatically generates comments according to the state of an event in a video recording of an event such as a sports match.
  • Patent Literature 1 discloses a device intended to generate a comment according to the content of an extracted event.
  • Conventionally proposed comment generation devices generate comments according to predetermined fixed rules, or add comments to video at predetermined timing. Therefore, the contents of generated comments and the timing of adding comments tend to be monotonous.
  • the present disclosure provides a technology that is advantageous for providing live comments according to the state of an event recorded in video data along with the video at adaptive timing.
  • One aspect of the present disclosure includes a history meta information acquisition unit that analyzes target video data and acquires history meta information associated with a target event recorded in the target video data; a play-by-play determination unit that obtains classification meta information and determines a target play-by-play comment corresponding to the target play-by-play classification meta information, wherein the historical meta information is prior to the point in time at which the target play-by-play comment is associated in the target event.
  • the event meta information is meta information related to the state of the target event
  • the live comment classification meta information is meta information related to the classification of live comments. It relates to a comment generator, which is information.
  • the play-by-play determination unit inputs the history meta information associated with the target event to a learned play-by-play issuing model that has been trained to output the play-by-play classification meta information based on the history meta information. information may be obtained.
  • the trained commentary publishing model associates the learning commentary classification meta information corresponding to the learning target commentary included in the learning event recorded in the learning video data with the learning target commentary in the learning event. and live commentary classification meta information obtained by inputting learning history meta information associated with event states prior to the point in time when the live comment is issued into the live commentary publishing model.
  • the comment generation device analyzes the learning video data and acquires learning commentary classification meta information corresponding to the learning target commentary included in the learning event recorded in the learning video data. , learning commentary classification meta information used as teacher data and learning history meta information associated with the event state before the learning target comment comment is associated in the learning event into the commentary issue model.
  • a learning unit that learns a commentary issuing model based on the obtained commentary classification meta information may be provided.
  • the commentary determination unit may determine the target commentary based on the commentary template data selected from among the plurality of commentary template data stored in the repository unit according to the target commentary classification meta information.
  • a plurality of commentary template data may be obtained by inputting event meta information into a trained commentary generation model that has been trained to output a plurality of commentary template data based on event meta information.
  • the comment generation device may include a learning unit that learns a commentary generation model using learning commentary template data extracted according to event meta information from information disclosed on the network as teacher data.
  • Event meta information may include information related to a person.
  • Information related to a person may include situational meta information estimated based on motion information indicating a person's movement obtained by analyzing target video data.
  • the situation meta information may include at least one of scene information indicating event scene content and play information indicating event play content.
  • the motion information may be based on information on human body parts obtained by analyzing the target video data.
  • the motion information may be based on information on the movement position of the person obtained by analyzing the target video data.
  • the information related to the person may include information identifying the person derived from at least one of the image of the person's appearance and the image of the person's wear.
  • Event meta information may include information that is not relevant to humans.
  • the target event is a sports match
  • the event meta information includes scene information about scene content of the match, play information about play content of the match, person identification information about the participants of the match, score information about the score of the match, and score information about the score of the match. At least one or more of time information regarding time may be included.
  • the genre of the learning event may differ from the genre of the target event.
  • One of the target video data and the learning video data may be live-action video data, and the other may be generated video data.
  • Another aspect of the present disclosure includes a step of analyzing target video data to obtain historical meta information associated with a target event recorded in the target video data; and determining the target commentary corresponding to the target commentary classification meta information, wherein the historical meta information is associated with an event state prior to the time at which the target commentary is associated in the target event.
  • the event meta information is meta information related to the state of the target event
  • the live comment classification meta information is meta information related to the classification of the live comment.
  • Another aspect of the present disclosure provides a computer with a procedure for analyzing target video data to acquire history meta information associated with a target event recorded in the target video data, and a target commentary based on the history meta information. obtaining classification meta information and determining a target comment corresponding to the target play-by-play classification meta information; including past event meta information and commentary classification meta information associated with a state, where the event meta information is meta information related to the state of the target event, and the commentary classification meta information is meta information related to classification of the commentary. about the program.
  • FIG. 1 is a diagram showing a typical example of the hardware configuration of a comment generation device.
  • FIG. 2 is a block diagram showing an example of a functional configuration related to generation of commentary template data.
  • FIG. 3 is a block diagram showing an example of the functional configuration of a comment generating device involved in determining decision commentary comment data.
  • FIG. 4 is a block diagram showing an example of the concept of event meta information.
  • FIG. 5 is a block diagram showing an example of a functional configuration related to learning processing of a play inference model.
  • FIG. 6 is a block diagram showing an example of a functional configuration related to play information acquisition processing (inference processing) using a play inference model.
  • FIG. 7 is a block diagram showing a functional configuration related to another example of play information inference processing using a play inference model.
  • FIG. 8 is a block diagram showing an example of a functional configuration related to learning processing of a scene inference model.
  • FIG. 9 is a block diagram showing an example of a functional configuration related to scene information acquisition processing (inference processing) using a scene inference model.
  • FIG. 10 is a block diagram showing an example of a functional configuration related to face inference model learning processing.
  • FIG. 11 is a block diagram showing an example of a functional configuration related to processing (inference processing) for acquiring personal identification information using a face inference model.
  • FIG. 12 is a block diagram showing a functional configuration related to another example of human identification information inference processing using a face inference model.
  • FIG. 13 is a block diagram showing an example of a functional configuration related to learning processing of the uniform number inference model.
  • FIG. 14 is a block diagram showing an example of a functional configuration related to processing for acquiring uniform number information (inference processing) using a uniform number inference model.
  • FIG. 15 is a block diagram showing an example of a functional configuration related to learning processing of the score inference model.
  • FIG. 16 is a block diagram showing an example of a functional configuration related to learning processing of a temporal inference model.
  • FIG. 17 is a block diagram showing an example of a functional configuration related to score information acquisition processing (inference processing) using a score inference model.
  • FIG. 18 is a block diagram showing an example of a functional configuration related to temporal information acquisition processing (inference processing) using a temporal inference model.
  • FIG. 19A shows an example of an image represented by a moving image frame having target moving image data.
  • FIG. 19B shows an example of a face image (target face image data) detected from the moving image frame of FIG. 19A.
  • FIG. 20A shows an example of an image represented by a video frame with target video data.
  • FIG. 20B shows an example of feature data (target moving image analysis data) obtained by analyzing the moving image frame of FIG. 20A.
  • FIG. 21A shows an example of an image represented by a moving image frame having target moving image data.
  • FIG. 21B shows an example of feature data (target moving image analysis data d) obtained by analyzing the moving image frame of FIG. 21A.
  • FIG. 22 is a flowchart showing an example of creating learning moving image analysis data including generating learning moving image data based on 3DCG technology.
  • FIG. 23 is a block diagram showing an example of a functional configuration related to the learning process of the comment generation generation model.
  • FIG. 24 is a block diagram showing an example of a functional configuration related to the acquisition processing (inference processing) of commentary template data using the commentary generation model.
  • FIG. 25 is a block diagram showing a specific example of the live generation model.
  • FIG. 26 is a diagram showing a time-series example of meta images (first to fifth meta images) and commentary comments (first to third commentary comments) in moving image data.
  • FIG. 27 is a block diagram showing an example of the concept of live comment classification meta information.
  • FIG. 28 is a block diagram showing an example of a functional configuration related to learning processing of the commentary issue model.
  • FIG. 29 is a block diagram showing an example of a functional configuration related to the process of determining a target commentary comment (determined commentary data) using the commentary issue model.
  • FIG. 30 is a diagram illustrating an example of an output device that outputs target events and live comments.
  • FIG. 1 is a diagram showing a typical example of the hardware configuration of the comment generation device 10.
  • FIG. 1 is a diagram showing a typical example of the hardware configuration of the comment generation device 10.
  • the comment generation device 10 includes a CPU (Central Processing Unit) 11, a GPU (Graphics Processing Unit) 12, a RAM (Random Access Memory) 13, a storage 14, and a network I/F (network interface) 15. These devices included in the comment generating apparatus 10 are interconnected via the bus 16 and can transmit and receive data to and from each other via the bus 16 .
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • RAM Random Access Memory
  • storage 14 and a network I/F (network interface) 15.
  • the comment generation device 10 is connected to an input device 17 (eg keyboard and mouse), an output device 18 (eg display) and a network 19 (eg Internet).
  • an input device 17 eg keyboard and mouse
  • an output device 18 eg display
  • a network 19 eg Internet
  • the user can input data to the comment generation device 10 via the input device 17, and the data output from the comment generation device 10 (e.g., video and commentary) via the output device 18 can be viewed, audibly, and in other ways. You can check it through your senses.
  • the comment generation device 10 transmits and receives data to and from various servers, communication terminals, and other external devices connected to the network 19 as necessary, and collects information from the external device and sends it to the external device. Provide information.
  • the comment generation device 10 determines live commentary to be added to the video of the event recorded in the video data at adaptive timing according to the state of the event.
  • the "event” referred to here can refer to all events that can be recorded as videos and can be provided along with live commentary. Typically, an event or entertainment whose situation can change over time can correspond to the "event”.
  • FIG. 2 is a block diagram showing an example of a functional configuration related to generation of commentary template data d2.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the comment generating device 10 involved in determining the determined live comment data d5.
  • FIG. 4 is a block diagram showing an example of the concept of event meta information d1.
  • FIGS. 2 to 4 and each drawing described later can be appropriately configured by arbitrary hardware and/or software.
  • the comment generation device 10 includes a comment generation section 21 and a comment repository section 22 as shown in FIG.
  • the commentary generator 21 receives event meta information d1 and outputs commentary template data d2 corresponding to the input event meta information d1.
  • the commentary template data d2 is template data based on the comment content related to the event meta information d1, and constitutes the basic data of the commentary comment (commentary text) attached to the moving image.
  • the commentary template data d2 output from the commentary generator 21 is stored and held in the commentary repository 22 (for example, the storage 14 shown in FIG. 1).
  • the commentary template data d2 stored in the commentary repository section 22 is read and used by other devices as needed.
  • the comment generation device 10 further includes an analysis unit 23, a commentary determination unit 24, and an output unit 25, as shown in FIG.
  • the analysis unit 23 analyzes the input target video data d3, acquires and outputs history meta information d4 associated with an event (target event) such as a sports match recorded in the target video data d3.
  • the target video data d3 may be real-time video data or saved video data. That is, the target moving image data d3 output from an imaging device (not shown) capturing the target event may be directly input to the analysis unit 23, or the storage unit (for example, the storage shown in FIG. 1) may be directly input to the analysis unit 23 after the target event ends. 14), the target moving image data d3 may be input to the analysis unit 23 .
  • the history meta information d4 includes past event meta information d1 and live comment classification meta information associated with the event state prior to the time when the target comment is associated in the target event.
  • the event meta information d1 is meta information related to the state of the target event (see FIG. 4).
  • the live comment classification meta information is meta information related to the classification of the live comment according to the content of the comment (see FIG. 27, which will be described later). In this way, in order to obtain a target commentary, history meta information d4 including past meta information (event meta information d1 and commentary classification meta information) based on the target commentary is used. The history meta information d4 will be described later.
  • the commentary determination unit 24 determines and outputs determined commentary comment data d5 based on the history meta information d4 from the analysis unit 23 and the commentary template data d2 from the commentary repository unit 22.
  • the determined live comment data d5 determined in this manner indicates a live comment that is considered to be optimal as the target live comment.
  • the output unit 25 performs output processing using the determined commentary comment data d5 output from the commentary decision unit 24.
  • the commentary indicated by the determined commentary comment data d5 is output together with the moving image based on the target moving image data d3 via the output device 18 (see FIG. 1) such as a display, and presented to the user.
  • the output unit 25 can acquire the target moving image data d3 by any method.
  • the target moving image data d3 may be provided to the output unit 25 together with the determined live comment data d5, or may be provided to the output unit 25 separately from the determined live comment data d5.
  • the functional configuration of the comment generation device 10 is not limited to the examples shown in FIGS. 2 and 3 above.
  • some of the functional blocks shown in FIGS. 2 and 3 may be realized by an external device other than the comment generator 10.
  • FIG. 1 when the commentary repository unit 22 is composed of an external device, data is exchanged between the comment generation device 10 (for example, the commentary determination unit 24) and the commentary repository unit 22 via communication using the network 19 (see FIG. 1). may be transmitted and received.
  • the event meta information d1 described above can include various types of information determined according to the target event recorded in the target video data d3.
  • the event meta information d1 can typically include various information shown in FIG. That is, play information A1, scene information B1, person identification information C1, uniform number information D1, score information E1, and time information F1 can be included in event meta information d1.
  • the play information A1 is event meta information d1 regarding the play content of the game. For example, in the case of a rugby match, each player's actions (for example, kicks and passes) are classified as play information A1.
  • the scene information B1 is the event meta information d1 regarding the content of the game scene. For example, in the case of a rugby match, lineout scenes and scrum scenes are classified as scene information B1.
  • the person identification information C1 is event meta information d1 relating to the identification of participants in the match.
  • event meta information d1 relating to the identification of participants in the match.
  • the faces of players, referees, managers and spectators are classified as human identification information C1.
  • Uniform number information D1 is event meta information d1 that indicates an identification number assigned to a participant (typically a player). For example, in the case of a rugby match, the jersey number indicated on the player's uniform (for example, jacket) is classified as the jersey number information D1.
  • the score information E1 is event meta information d1 indicating the score of the game.
  • the time information F1 is event meta information d1 indicating the time information of the game (for example, the elapsed time and remaining time of the game).
  • Information that can be included in the event meta information d1 is not limited to the play information A1 to the time information F1 described above, and other information may be included in the event meta information d1.
  • event for example, if the event is a ball sports match, ball information (for example, position information) may be included in the event meta information d1.
  • target event recorded in the target moving image data d3 is not a sports match, the event meta information d1 may not include one or more of the above-described play information A1 to time information F1.
  • the AI technology referred to here is a concept that can include so-called machine learning technology and deep learning technology. good. AI technology that can be used to acquire the event meta information d1 is not limited, and it is possible to derive the event meta information d1 based on any algorithm.
  • the method described below is merely an example, and the event meta information d1 may be acquired by a device that implements other AI technology (for example, unsupervised learning), or the event meta information d1 may be acquired by a device that uses technology other than AI technology. Meta information d1 may be obtained.
  • FIG. 5 is a block diagram showing an example of a functional configuration related to learning processing of the play inference model 33.
  • FIG. 6 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of play information A1 using the play inference model 33.
  • FIG. 5 is a block diagram showing an example of a functional configuration related to learning processing of the play inference model 33.
  • FIG. 6 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of play information A1 using the play inference model 33.
  • the analysis unit 23 shown in FIG. 5 has a frame extraction unit 31, a feature information acquisition unit 32, a play inference model 33, and a learning unit 34.
  • the frame extraction unit 31 extracts a desired number of video frames (still images) from the input learning video data d21.
  • the feature information acquisition unit 32 performs image analysis on each video frame extracted by the frame extraction unit 31, and acquires learning video analysis data d22 representing feature information in each video frame.
  • the feature information acquisition unit 32 can acquire information on one or more coordinate points representing the postures of one or more people in each video frame as learning video analysis data d22. That is, the feature information acquisition unit 32 acquires coordinate information representing human joints and other feature parts, and based on the coordinate information, acquires learning video analysis data d22 indicating postures of hands, feet, and other body parts. (see FIGS. 20A and 20B below).
  • An arbitrary analysis technique for example, a "keypoint detection technique" for detecting characteristic points such as joints of a target person
  • a "keypoint detection technique" for detecting characteristic points such as joints of a target person
  • the learning video analysis data d22 acquired by the feature information acquisition unit 32 may contain information other than the posture of the body part, or may not contain information indicating the posture of the body part.
  • the learning moving image analysis data d22 is information that can be derived by the feature information acquisition unit 32 analyzing the learning moving image data d21, and includes information that is directly or indirectly associated with the play information A1.
  • the play inference model 33 is a trained model trained to output play information A1 based on the learning video analysis data d22.
  • the algorithm of the play inference model 33 is not limited, and any algorithm (such as a neural network) capable of outputting the corresponding play information A1 by inputting the learning video analysis data d22 can be adopted.
  • the play inference model 33 may output the play information A1 based on the learning video analysis data d22 obtained from a single video frame, or may output the play information A1 based on the learning video analysis data d22 obtained from a plurality of video frames. Play information A1 may be output. In particular, when acquiring the play information A1 indicating a play that continuously changes over time, the play inference model 33 receives the learning video analysis data d22 of a plurality of video frames that are continuous in time series, and responds to the corresponding play. Information A1 may be output. In this case, an improvement in derivation accuracy of the play information A1 derived by the play inference model 33 can be expected.
  • the learning unit 34 learns the play inference model 33 based on the play information A1 output from the play inference model 33 to which the learning video analysis data d22 is input and the teacher data d23.
  • a specific learning method by the learning unit 34 is not limited.
  • the learning unit 34 learns the play inference model 33 by evaluating the error of the play information A1 with respect to the teacher data d23 and correcting the play inference model 33 so as to minimize the error. can be done.
  • the teacher data d23 indicating the correct answer of the play information recorded in the moving image data for learning d21 can be prepared by any method.
  • the analysis unit 23 shown in FIG. 6 has a frame extraction unit 31, a feature information acquisition unit 32, and a play inference model 33.
  • the frame extraction unit 31 extracts a desired number of video frames from the target video data d3. Then, the feature information acquisition unit 32 performs image analysis on each cut-out moving image frame, thereby acquiring target moving image analysis data d24 representing feature information in each moving image frame.
  • the process of acquiring the target video analysis data d24 from the target video data d3 may be the same as the process shown in FIG. may be totally different.
  • the play inference model 33 By inputting the target video analysis data d24 obtained in this way to the learned play inference model 33, the play inference model 33 outputs play information A1.
  • learning processing of the play inference model 33 is performed by inputting the learning video data d21 to the analysis unit 23, and the play inference model 33 is learned by inputting the target video data d3 to the analysis unit 23. Inference processing is performed at and play information A1 is acquired.
  • the genre of the event (learning event) recorded in the learning video data d21 is the same as the genre of the event (target event) recorded in the target video data d3 (see FIG. 6). may be different.
  • the target video data d3 records a rugby match
  • learning processing of the play inference model 33 is typically performed using the learning video data d21 that records the rugby match.
  • learning video data d21 recording an event (for example, a soccer match) including a play similar to a rugby match may be used in the learning process of the play inference model 33.
  • a rugby kick video as one of the target video data d3 and the learning video data d21
  • a soccer kick video as the other.
  • a throw-in video of soccer as one of the target video data d3 and the learning video data d21
  • a line-out video of rugby as the other.
  • one of the target moving image data d3 and the learning moving image data d21 may be live-action moving image data, and the other may be generated moving image data.
  • the generated video data referred to here may include video data other than live-action video data (typically animation video and CG video (Computer Graphics)).
  • video data other than live-action video data typically animation video and CG video (Computer Graphics)
  • Play information A1 may be obtained from data d3.
  • one of the target video data d3 and the learning video data d21 can be a live-action kick video about a rugby game, and the other can be a CG kick video about a rugby game.
  • live-action video data and generated video data of different genres are used as the target video data d3 and the learning video data d21.
  • one of the object moving image data d3 and the learning moving image data d21 records a live-action boxing play animation (for example, a punch animation), and the other records a fighting game play animation (for example, a punch animation) on a computer.
  • a live-action boxing play animation for example, a punch animation
  • fighting game play animation for example, a punch animation
  • FIG. 7 is a block diagram showing a functional configuration related to another example of inference processing for play information A1 using the play inference model 33. As shown in FIG. The algorithm shown in FIG. 7 described below is also applied to an image analysis technique called SlowFast, for example.
  • SlowFast an image analysis technique
  • the analysis unit 23 includes a video classification unit 37, a low frame rate analysis unit 38, a high frame rate analysis unit 39, and a play inference model 33.
  • the moving image classification unit 37 receives target moving image analysis data d24 based on a plurality of moving image frames, and extracts low frame rate data d25 and high frame rate data d26 from the target moving image analysis data d24.
  • the low frame rate data d25 is aggregate data of multiple video frames corresponding to a relatively low frame rate (for example, 1 fps (frames per second)) among the many video frames that make up the target video analysis data d24.
  • the high frame rate data d26 is collective data of a plurality of video frames corresponding to a relatively high frame rate (for example, 30 fps) among many video frames forming the target video analysis data d24.
  • the low frame rate analysis unit 38 analyzes the low frame rate data d25 and acquires the play space information d27.
  • the high frame rate analysis unit 39 analyzes the high frame rate data d26 and acquires play time information d28.
  • the low frame rate data d25 and the high frame rate data d26 may be transmitted and received between the low frame rate analysis unit 38 and the high frame rate analysis unit 39.
  • the low frame rate analysis unit 38 acquires the play space information d27 based on not only the low frame rate data d25 from the moving image classification unit 37 but also the play time information d28 from the high frame rate analysis unit 39. good.
  • the play information A1 may be output from the play inference model 33 by inputting the play space information d27 and the play time information d28 into the play inference model 33.
  • the play information A1 may be output from the play inference model 33 by inputting the play space information d27 and the play time information d28 into the play inference model 33.
  • FIG. 8 is a block diagram showing an example of a functional configuration related to learning processing of the scene inference model 43.
  • FIG. 9 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of scene information B1 using the scene inference model 43.
  • FIG. 8 is a block diagram showing an example of a functional configuration related to learning processing of the scene inference model 43.
  • FIG. 9 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of scene information B1 using the scene inference model 43.
  • the analysis unit 23 shown in FIG. 8 has a frame extraction unit 41, a feature information acquisition unit 42, a scene inference model 43, and a learning unit 44.
  • the frame extraction unit 41 extracts a desired number of video frames from the input learning video data d31.
  • the frame cutout unit 41 may be provided in common with the frame cutout unit 31 (see FIGS. 5 and 6) used for learning and inferring the play information A1, or may be provided separately. good.
  • the feature information acquisition unit 42 performs image analysis on each video frame extracted by the frame extraction unit 41, thereby acquiring learning video analysis data d32 representing feature information in each video frame.
  • the feature information acquisition unit 42 may be provided in common with the feature information acquisition unit 32 (see FIGS. 5 and 6) used for learning and inferring the play information A1, or may be provided separately. good.
  • the feature information acquisition unit 42 can acquire information on one or more coordinate points representing the positions of one or more people in each video frame as learning video analysis data d32 (FIGS. See Figure 21B). Information on such multiple coordinate points can be used as basic information for obtaining scene information B1 associated with the relative positions of multiple people.
  • the learning video analysis data d32 acquired by the feature information acquisition unit 42 may contain information other than the positions of the plurality of people, or may not contain information indicating the positions of the plurality of people.
  • the moving image analysis data for learning d32 is information that can be derived by the feature information acquisition unit 42 analyzing the moving image data for learning d31, and includes information that is directly or indirectly associated with the scene information B1.
  • the scene inference model 43 is a trained model trained to output scene information B1 based on the learning video analysis data d32.
  • the algorithm of the scene inference model 43 is not limited, and any algorithm that can output the corresponding scene information B1 by inputting the learning moving image analysis data d32 can be adopted.
  • the scene inference model 43 may output scene information B1 based on learning video analysis data d32 obtained from a single video frame, or may output scene information B1 based on learning video analysis data d32 obtained from a plurality of video frames.
  • Scene information B1 may be output.
  • the scene inference model 43 responds by inputting learning video analysis data d32 of a plurality of time-series continuous video frames.
  • scene information B1 may be output. In this case, improvement in derivation accuracy of the scene information B1 derived by the scene inference model 43 can be expected.
  • the learning unit 44 learns the scene inference model 43 based on the scene information B1 output from the scene inference model 43 to which the learning video analysis data d32 is input and the teacher data d33.
  • a specific learning method by the learning unit 44 is not limited.
  • the learning unit 44 learns the scene inference model 43 by evaluating the error of the scene information B1 with respect to the teacher data d33 and correcting the scene inference model 43 so as to minimize the error. can be done.
  • the teacher data d33 indicating the correct answer of the scene information recorded in the moving image data for learning d31 can be prepared by any method.
  • the analysis unit 23 shown in FIG. 9 has a frame extraction unit 41, a feature information acquisition unit 42, and a scene inference model 43.
  • the frame extraction unit 41 extracts a desired number of video frames from the target video data d3. Then, the feature information acquisition unit 42 performs image analysis of each cut-out moving image frame, thereby acquiring target moving image analysis data d34 representing feature information in each moving image frame.
  • the process of acquiring the target video analysis data d34 from the target video data d3 may be the same as the process of acquiring the learning video analysis data d32 from the learning video data d31 (see FIG. 8) described above. may differ from
  • the scene inference model 43 By inputting the target video analysis data d34 obtained in this way to the learned scene inference model 43, the scene inference model 43 outputs scene information B1.
  • the learning process of the scene inference model 43 is performed by inputting the learning video data d31 to the analysis unit 23, and the scene inference model 43 is learned by inputting the target video data d3 to the analysis unit 23. Inference processing is performed at and scene information B1 is acquired.
  • the frame cutout unit 41 and the feature information acquisition unit 42 are shared with the frame cutout unit 31 and the feature information acquisition unit 32 (see FIGS. 5 and 6) used for learning and inferring the play information A1.
  • the target moving image analysis data d24 and d34 are output in parallel from the feature information acquisition unit 42 and input to the play inference model 33 and the scene inference model 43, and the play information A1 and the scene information B1 are output in parallel.
  • the learning event recorded in the learning video data d31 adopts a genre, object, and format that are common or not common with the target video data d3, similar to the learning video data d21 used when learning the play inference model 33. I can.
  • FIG. 10 is a block diagram showing an example of a functional configuration related to learning processing of the face inference model 47.
  • FIG. 11 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of the person identification information C1 using the face inference model 47.
  • FIG. 10 is a block diagram showing an example of a functional configuration related to learning processing of the face inference model 47.
  • FIG. 11 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of the person identification information C1 using the face inference model 47.
  • the analysis unit 23 shown in FIG. 10 has a face inference model 47 and a learning unit 48.
  • the face inference model 47 is a trained model trained to output the person identification information C1 based on the learning face image data d38.
  • the algorithm of the face inference model 47 is not limited, and any algorithm capable of outputting the corresponding person identification information C1 by inputting the learning face image data d38 can be adopted.
  • the learning face image data d38 is not limited as long as it represents the face image of the person specified by the person identification information C1.
  • facial image data obtained via the network 19 can be used as the learning facial image data d38.
  • An arbitrary device (for example, the analysis unit 23) that configures the comment generation device 10 may collect, through the network 19, face image data of a target person that can be used as the learning face image data d38 according to an arbitrary program. .
  • the learning face image data d38 may be image data related to the target event recorded in the target moving image data d3 (for example, image data related to an event of the same genre as the target event), or may be unrelated image data. good.
  • the learning unit 48 learns the face inference model 47 based on the training data d39 and the person identification information C1 output from the face inference model 47 to which the learning face image data d38 is input.
  • a specific learning method by the learning unit 48 is not limited.
  • the learning unit 48 learns the face inference model 47 by evaluating the error of the person identification information C1 with respect to the teacher data d39 and correcting the face inference model 47 so that the error is minimized. be able to.
  • the teacher data d39 indicating the correct answer of the person identification information recorded in the learning face image data d38 can be prepared by any method.
  • the analysis unit 23 shown in FIG. 11 has a frame extraction unit 49, a face image detection unit 50, and a face inference model 47.
  • the frame extraction unit 49 extracts a desired number of video frames from the target video data d3. Then, the face image detection unit 50 performs image analysis of each clipped moving image frame, thereby acquiring the target face image data d40 in each moving image frame.
  • the processing for acquiring the target facial image data d40 from the target moving image data d3 is not limited, and the facial image of a person is extracted from each moving image frame based on any face recognition technology.
  • the face inference model 47 By inputting the target face image data d40 obtained in this way to the learned face inference model 47, the face inference model 47 outputs the person identification information C1.
  • the face inference model 47 is learned by inputting the learning face image data d38 to the analysis unit 23, and the face inference model 47 is learned by inputting the target video data d3 to the analysis unit 23.
  • An inference process is performed at 47 to obtain the person identification information C1.
  • the frame cutout section 49 may be provided in common with the above-described frame cutout sections 31 and 41 used for learning and inferring the play information A1 and the scene information B1. Also, the play information A1, the scene information B1, and the person identification information C1 may be obtained in parallel from the target moving image data d3.
  • FIG. 12 is a block diagram showing a functional configuration related to another example of inference processing of the person identification information C1 using the face inference model 47. As shown in FIG. The algorithm shown in FIG. 12 described below is also applied to an image analysis technique called FaceNet as an example.
  • the face inference model 47 shown in FIG. 12 has a convolutional neural network (CNN) 47a, a convolutional neural network (CNN) 47b, and a neural network 47c.
  • CNN convolutional neural network
  • CNN convolutional neural network
  • the learning face image data d38 and the target video data d3 are input to the face inference model 47.
  • the learning face image data d38 is input to the convolutional neural network 47a.
  • the convolutional neural network 47a analyzes the learning face image data d38 and outputs face image feature amount data in the learning face image data d38.
  • the target video data d3 is input to the convolutional neural network 47b.
  • the convolutional neural network 47b analyzes the target moving image data d3 and outputs facial image feature amount data in the target moving image data d3.
  • the facial image feature amount data obtained from the learning facial image data d38 and the facial image feature amount data obtained from the target moving image data d3 are input to the neural network 47c.
  • the neural network 47c acquires the distance between the learning facial image data d38 and the target moving image data d3 based on the degree of approximation of the facial image feature amount data input from the convolutional neural networks 47a and 47b.
  • the neural network 47c determines whether the person indicated by the face image of the target moving image data d3 is the same as the person indicated by the face image of the learning face image data d38, based on the acquired distance between image data.
  • the face inference model 47 selects the face image corresponding to the target moving image data d3 from among the plurality of learning face image data d38 related to the plurality of persons according to the above-described processing flow, and based on the selection result, determines the target moving image data.
  • the person identification information C1 corresponding to the face image of d3 is output.
  • the face inference model 47 of this example outputs the person identification information C1 based on the inter-image distance as described above, there is no need for the process of determining "to which class the face image of the target moving image data d3 belongs". .
  • face recognition processing based on class classification tends to require model learning using a large number of individual images. It is possible to perform face recognition determination from a small number of images.
  • FIG. 13 is a block diagram showing an example of a functional configuration related to learning processing of the uniform number inference model 53.
  • FIG. 14 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of the uniform number information D1 using the uniform number inference model 53. As shown in FIG.
  • the analysis unit 23 shown in FIG. 13 has a uniform number inference model 53 and a learning unit 54 .
  • the uniform number inference model 53 is a trained model that has been trained to output the uniform number information D1 based on the learning uniform number image data d42.
  • the algorithm of the uniform number inference model 53 is not limited, and any algorithm that can output the corresponding uniform number information D1 by inputting the learning uniform number image data d42 can be adopted.
  • the training uniform number image data d42 is not limited as long as it indicates the uniform number specified by the uniform number information D1.
  • uniform number image data obtained via the network 19 can be used as learning uniform number image data d42.
  • the training uniform number image data d42 may be image data related to the event (target event) recorded by the target moving image data d3, or may be image data unrelated.
  • the learning unit 54 learns the uniform number inference model 53 based on the uniform number information D1 output from the uniform number inference model 53 to which the learning uniform number image data d42 is input and the teacher data d43.
  • a specific learning method by the learning unit 54 is not limited.
  • the learning unit 54 learns the uniform number inference model 53 by evaluating the error of the uniform number information D1 with respect to the teacher data d43 and correcting the uniform number inference model 53 so as to minimize the error. It can be performed.
  • the teacher data d43 indicating the correct answer of the uniform number information recorded in the training uniform number image data d42 can be prepared by any method.
  • the analysis unit 23 shown in FIG. 14 has a frame extraction unit 55, a uniform number image detection unit 56, a uniform number inference model 53, and a person estimation unit 57.
  • the frame extraction unit 55 extracts a desired number of video frames from the target video data d3. Then, the uniform number image detection unit 56 performs image analysis of each clipped moving image frame, thereby acquiring target uniform number image data d44 in each moving image frame.
  • the processing for acquiring the target uniform number image data d44 from the target moving image data d3 is not limited, and the uniform number image is extracted from each moving image frame based on any image recognition technique.
  • the uniform number inference model 53 By inputting the target uniform number image data d44 obtained in this way to the trained uniform number inference model 53, the uniform number inference model 53 outputs uniform number information D1.
  • learning processing of the uniform number inference model 53 is performed by inputting the learning face image data d38 to the analysis unit 23, and inputting the target video data d3 to the analysis unit 23, the uniform number Inference processing is performed by the inference model 53 to obtain the uniform number information D1.
  • the frame cutout section 55 may be provided in common with the above-described frame cutout sections 31, 41, and 49 used for learning and inferring the play information A1, the scene information B1, and the person identification information C1. Also, the play information A1, the scene information B1, the person identification information C1, and the uniform number information D1 may be obtained in parallel from the target moving image data d3.
  • the uniform number information D1 may be output as it is as the event meta information d1, or may be used as basic information for obtaining the person identification information C1.
  • uniform number information D1 is input to the person estimation unit 57, and the person estimation unit 57 acquires and outputs the person identification information C1 from the uniform number information D1.
  • the person estimating unit 57 accesses a database (not shown) in which the uniform number and the person identification information C1 are associated with each other, and obtains the person identification information C1 associated with the uniform number indicated by the input uniform number information D1. It is possible to obtain and output.
  • the person identification information C1 can be obtained based on either one or both of the face image analysis (FIGS. 11 and 12) and uniform number analysis (FIG. 14). That is, the person identification information C1 for identifying a person can be derived from at least one of an "image of a person's appearance such as a face image" and an "image of an object worn by a person such as clothes".
  • FIG. 15 is a block diagram showing an example of a functional configuration related to learning processing of the score inference model 60.
  • FIG. 16 is a block diagram showing an example of a functional configuration related to learning processing of the temporal inference model 62.
  • FIG. 17 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of score information E1 using the score inference model 60.
  • FIG. 18 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of time information F1 using the time inference model 62.
  • FIG. 16 is a block diagram showing an example of a functional configuration related to learning processing of the temporal inference model 62.
  • FIG. 17 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of score information E1 using the score inference model 60.
  • FIG. 18 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of time information F1 using the time inference model 62.
  • the analysis unit 23 shown in FIG. 15 has a score inference model 60 and a learning unit 61.
  • the score inference model 60 is a trained model trained to output score information E1 based on the learning score image data d47.
  • the learning unit 61 learns the score inference model 60 based on the score information E1 output from the score inference model 60 to which the learning score image data d47 is input, and the teacher data d48. Typically, the learning unit 61 evaluates the error of the score information E1 with respect to the teacher data d48, and corrects the score inference model 60 so that the error is minimized, thereby learning the score inference model 60. can be done.
  • the analysis unit 23 shown in FIG. 16 has a temporal inference model 62 and a learning unit 63.
  • the temporal inference model 62 is a trained model trained to output temporal information F1 based on the learning temporal image data d49.
  • the learning unit 63 learns the temporal inference model 62 based on the temporal information F1 output from the temporal inference model 62 to which the learning temporal image data d49 is input and the teacher data d50.
  • the learning unit 61 evaluates the error of the time information F1 with respect to the teacher data d50, and corrects the time inference model 62 so that the error is minimized, thereby learning the time inference model 62. can be done.
  • the algorithms of the score inference model 60 and the time inference model 62 are not limited, and any algorithm capable of outputting corresponding score information E1 and time information F1 by inputting score image data and time image data can be adopted. be.
  • the learning score image data d47 and learning time image data d49 are not limited as long as they are data representing a score image and a time image, respectively.
  • score image data and time image data obtained via the network 19 may be used as learning score image data d47 and learning time image data d49.
  • the learning score image data d47 and the learning time image data d49 may be image data related to the target event recorded in the target video data d3 or may be image data unrelated.
  • a specific learning method by the learning unit 61 and the learning unit 63 is not limited.
  • Teacher data d48 and teacher data d50 indicating the correct score information and time information recorded in learning score image data d47 and learning time image data d49 can be prepared by any method.
  • the analysis unit 23 shown in FIG. 17 has a frame extraction unit 64, a score image detection unit 65, and a score inference model 60.
  • the frame extraction unit 64 extracts a desired number of video frames from the target video data d3. Then, the target score image data d51 in each moving image frame is acquired by performing image analysis of each moving image frame cut out by the score image detecting unit 65 .
  • the score inference model 60 By inputting the target score image data d51 obtained in this way into the learned score inference model 60, the score inference model 60 outputs score information E1.
  • the analysis unit 23 shown in FIG. 18 has a frame extraction unit 66, a temporal image detection unit 67, and a temporal inference model 62.
  • the frame extraction unit 66 extracts a desired number of video frames from the target video data d3. Then, the temporal image detection unit 67 performs image analysis of each clipped moving image frame, thereby acquiring the target temporal image data d52 in each moving image frame.
  • the temporal inference model 62 By inputting the target temporal image data d52 obtained in this way to the trained temporal inference model 62, the temporal inference model 62 outputs temporal information F1.
  • learning processing of the score inference model 60 is performed by inputting the learning score image data d47 to the analysis unit 23 .
  • the score inference model 60 performs inference processing and obtains the score information E1.
  • learning processing of the temporal inference model 62 is performed. Then, time information F1 is acquired.
  • the process of acquiring the target score image data d51 and the target time image data d52 from the target video data d3 is not limited, and the score image and time image are extracted from each video frame based on any image recognition technique.
  • the frame cutout units 64 and 66 are the frame cutout units 31, 41, 49, and 55 used for learning and inferring the play information A1, the scene information B1, the person identification information C1, and the uniform number information D1. It may be provided in common. Play information A1, scene information B1, person identification information C1, uniform number information D1, score information E1, and time information F1 may be obtained in parallel from the target moving image data d3.
  • the event meta information d1 includes "person-related information” (for example, play information A1, scene information B1, person identification information C1, and uniform number information D1) that can change depending on the person, and "person-related information”. information” (eg, score information E1 and time information F1).
  • the "play information A1 indicating the play content of the event” and the "scene information B1 indicating the scene content of the event” are situation metadata estimated based on the motion information indicating the movement of the person obtained by analyzing the video data. classified as information.
  • the play information A1 can be determined according to the action information based on the information of the human body parts obtained by analyzing the video data. Further, the scene information B1 can be determined according to the motion information based on the information of the movement position of the person obtained by analyzing the moving image data.
  • two or more of these pieces of information included in the event meta information d1 can be simultaneously obtained from a common target image (target video frame), but in some cases, only a single piece of information can be obtained from the target image.
  • a target image target video frame
  • only a single piece of information can be obtained from the target image.
  • FIGS. 19A, 20A, and 21A show examples of images shown by video frames with target video data d3.
  • FIG. 19B shows an example of a face image (target face image data d40) detected from the moving image frame of FIG. 19A.
  • FIG. 20B shows an example of feature data (target moving image analysis data d24) obtained by analyzing the moving image frame of FIG. 20A.
  • FIG. 21B shows an example of feature data (target moving image analysis data d34) obtained by analyzing the moving image frame of FIG. 21A.
  • the target video frame shown in FIG. 19A includes a clear image of the face of a person (for example, a player), but does not include images of other body parts such as feet of the person, and images of other people are not included. Not included. In this case, it is possible to obtain the person identification information C1 by extracting the face image from the target moving image frame. However, it is difficult to acquire the play information A1 and the scene information B1 from the target moving image frame.
  • the target video frame shown in FIG. 20A contains clear images of all body parts of one person, but does not contain clear images of the person's face, and does not contain images of a sufficient number of other people. .
  • the target video frame shown in FIG. 21A includes images of a sufficient number of people, but does not include clear images of individual faces, is greatly affected by occlusion where people overlap each other, and does not include clear images of individual body parts. Does not contain images.
  • image data recording events of the same genre as the event recorded in the target moving image data d3 are used for learning. You may use it as image data.
  • generated video data may be used as learning image data.
  • FIG. 22 is a flow chart showing an example of creating learning video analysis data including generating learning video data based on 3DCG (3 Dimensional Computer Graphics) technology.
  • a sample image is acquired (S1), and a motion database is constructed from the sample image (S2).
  • Usable sample images are not limited. For example, an image obtained by photographing the same person in different imaging directions using a plurality of imaging devices can be used as the sample image.
  • a motion database based on three-dimensional data representing human postures can be constructed from a plurality of images captured in various imaging directions.
  • the motion database constructed in this way is typically constructed based on a human musculoskeletal model, but may be constructed based on the characteristics of other body parts.
  • a plurality of camera parameters are set so as to three-dimensionally surround the person (S3), and video rendering is performed for each camera parameter (S4).
  • learning moving image data including motion information indicating the motion of a person is generated.
  • learning target video analysis data can be obtained (S5).
  • FIG. 23 is a block diagram showing an example of the functional configuration related to the learning process of the comment generation generation model 71.
  • FIG. 24 is a block diagram showing an example of a functional configuration related to acquisition processing (inference processing) of commentary template data d2 using the commentary generation model 71.
  • FIG. 24 shows an example of acquisition processing (inference processing) of commentary template data d2 using the commentary generation model 71.
  • the commentary generation unit 21 shown in FIG. 23 has a commentary generation model 71 and a learning unit 72 .
  • the commentary generating model 71 is a trained model that has learned to output multiple commentary template data d2 based on the event meta information d1.
  • the algorithm of the commentary generation model 71 is not limited, and any algorithm capable of outputting the corresponding commentary template data d2 when the event meta information d1 is input can be adopted.
  • the event meta information d1 can include a plurality of pieces of information (for example, play information A1 to time information F1 shown in FIG. 4 above) as described above.
  • One or a plurality of pieces of information can be input to the comment generation model 71 as the event meta information d1.
  • the learning unit 72 learns the commentary generation model 71 based on the commentary template data d2 output from the commentary generation model 71 to which the event meta information d1 is input, and the teacher data d61.
  • a specific learning method by the learning unit 72 is not limited.
  • the learning unit 72 learns the commentary generation model 71 by evaluating the error of the commentary template data d2 with respect to the teacher data d61 and correcting the commentary generation model 71 so as to minimize the error. be able to.
  • the teacher data d61 indicating the correct answer of the commentary template data (commentary comment) recorded in the event meta information d1 can be prepared by any method.
  • the learning unit 72 can learn the comment generation model 71 by using comment template data extracted according to the event meta information d1 for learning from information disclosed in the network 19, for example, as teacher data d61. be.
  • the commentary generation model 71 outputs a plurality of commentary template data d2.
  • the event meta information d1 input to the commentary generation model 71 for generating the commentary template data d2 is the same as the event meta information d1 input to the commentary generation model 71 for learning the commentary generation model 71, good.
  • the event meta information d1 input to the comment generation model 71 is known information, and can be appropriately determined by the user according to the target event recorded in the target moving image data d3.
  • the commentary template data d2 may be acquired using moving image data.
  • the commentary generation unit 21 analyzes the learning video data, extracts the commentary used in the learning video data, performs correction processing of the commentary as necessary, and then corrects the commentary. Based on the commentary template data d2 may be acquired.
  • a plurality of pieces of commentary template data d2 acquired by the commentary generation unit 21 (the commentary generation model 71) in this way are stored in the commentary repository unit 22 (see FIG. 2).
  • the learning processing of the commentary generation model 71 is performed.
  • inference processing is performed by the commentary generation model 71 to obtain a plurality of commentary template data d2.
  • FIG. 25 is a block diagram showing a specific example of the comment generation model 71. As shown in FIG. The algorithm shown in FIG. 25 described below is also applied to a deep learning model technique called Seq2Seq as an example.
  • the comment generation model 71 shown in FIG. 25 includes an encoder section 71a and a decoder section 71b.
  • the encoder section 71a and the decoder section 71b are typically configured based on RNN (Recurrent Neural Network), but may have any configuration.
  • the encoder unit 71a receives the event meta information d1, compiles the event meta information d1 into vector information, and sends the vector information to the decoder unit 71b.
  • the decoder section 71b outputs commentary template data d2 corresponding to the event meta information d1 based on the vector information provided from the encoder section 71a.
  • the commentary template data d2 output from the decoder section 71b in this manner is stored in the commentary repository section 22.
  • FIG. 1 The commentary template data d2 output from the decoder section 71b in this manner is stored in the commentary repository section 22.
  • FIG. 26 is a diagram showing a time-series example of meta images (first to fifth meta images) and commentary comments (first to third commentary comments) in moving image data.
  • FIG. 27 is a block diagram showing an example of the concept of the commentary classification meta information d70.
  • each live comment does not necessarily correspond to the event state at the immediately preceding timing.
  • the first meta-image, the first commentary, the second meta-image, the third meta-image, the second commentary, the fourth meta-image, the third commentary and the fifth meta-image are Played in order.
  • the meta image referred to here is a video frame cut out from the video data by the analysis unit 23 and used to acquire the event meta information d1, and is classified according to the associated typical event meta information d1.
  • the first meta image indicates an image (score meta image) associated with score information E1 as representative event meta information d1.
  • a second meta image, a fourth meta image, and a fifth meta image indicate images (play meta images) associated with play information A1 as representative event meta information d1.
  • the third meta image shows an image (scene meta image) associated with scene information B1 as representative event meta information d1.
  • the moving image frame typically associated with the person identification information C1 is classified as a person identification meta image
  • the moving image frame typically associated with the uniform number information D1 is classified as a uniform number meta image.
  • a moving image frame typically associated with the time information F1 is classified as a time meta image.
  • commentary comments are classified according to representative commentary classification meta information d70 (see FIG. 27) associated with comment content. That is, the live comment classification meta information d70 is meta information related to the classification of live comments.
  • the commentary classification meta information d70 shown in FIG. 27 includes a plurality of pieces of commentary information corresponding to each of the pieces of information included in the event meta information d1 (see “play information A1” to “time information F1” shown in FIG. 4). . That is, play commentary information A2 corresponding to play information A1, scene commentary information B2 corresponding to scene information B1, person identification commentary information C2 corresponding to person identification information C1, and uniform number commentary information D2 corresponding to uniform number information D1 are , is included in the commentary classification meta information d70 shown in FIG. Further, the commentary information E2 corresponding to the score information E1 and the time commentary information F2 corresponding to the time information F1 are also included in the commentary classification meta information d70 shown in FIG. Note that the commentary classification meta information d70 may include commentary information that does not correspond to any of the plurality of pieces of information included in the event meta information d1 (for example, "blank commentary information", which will be described later).
  • the first commentary comment is classified as a score commentary comment having comment content associated with the score commentary information E2, and is emitted due to the first meta-image (score meta-image) associated with the score information E1.
  • the second commentary is classified as a play commentary having comment content associated with the play commentary information A2, and is issued due to a second meta image (play meta image) associated with the play information A1.
  • the third comment-by-play comment is classified as a comment-by-play comment having comment content associated with the play commentary information A2, and is issued due to a fourth meta image (play meta image) associated with the play information A1.
  • each commentary comment (each of the first to third commentary comments) is delayed from the corresponding meta-image (each of the first, second and fourth meta-images).
  • the live comment representatively associated with the scene commentary information B2 is classified into the scene commentary, and the comment representatively associated with the person-identifying commentary information C2 is classified as the person-identifying commentary. being classified.
  • a comment representatively associated with the uniform number commentary information D2 is classified as a uniform number commentary comment, and a commentary representatively associated with the time commentary information F2 is classified as a time commentary comment.
  • time-series information (including history meta information d4) of meta images and commentary comments is simply expressed using the codes of the corresponding information of the associated event meta information d1 and commentary classification meta information d70. Therefore, the time-series reproduction information in the example shown in FIG. 26 is expressed as "E1, E2, A1, B1, A2, A1, A2, A1.”
  • FIG. 28 is a block diagram showing an example of the functional configuration related to the learning process of the commentary issue model 77.
  • FIG. 29 is a block diagram showing an example of a functional configuration related to the process of determining a target commentary comment (determined commentary data d79) using the commentary issue model 77. As shown in FIG.
  • the commentary issue model 77 is a trained model that has been trained to output commentary classification meta information d70 based on learning history meta information d78. That is, the commentary issue model 77 is a model that infers the commentary classification meta information d70 assigned to the next commentary from the history meta information (event meta information d1 and commentary classification meta information d70) preceding the next commentary.
  • the comment generation device 10 shown in FIG. 28 includes an analysis extraction unit 74, a comment classification model 75, a history meta information generation unit 76, a comment issue model 77, and a learning unit 78.
  • the analysis/extraction unit 74 analyzes the learning moving image data d75 to obtain the next event meta information d1 (“A1”) and the learning target comment d76 indicating the next comment (“target comment”). is obtained from the learning video data d75.
  • the learning target commentary d76 is obtained by extracting the “target commentary” recorded in the learning moving image data d75 by the analysis unit 23, is output from the analysis unit 23, and is input to the commentary classification model 75. be done.
  • the commentary classification model 75 outputs learning commentary classification meta information d77 ("A2") based on the input target commentary for learning d76.
  • the learning commentary classification meta information d77 output from the commentary classification model 75 in this way is the commentary classification meta information d70 (see FIG. 27) corresponding to the learning target commentary comment d76.
  • the learning commentary classification meta information d77 is used as teacher data in the learning process of the commentary issuing model 77 as described later, and is also sent to the history meta information generation unit 76.
  • the event meta information d1 output from the analysis extraction unit 74 is acquired by performing the analysis processing of the learning video data d75 using the learned inference model as described above, and is sent to the history meta information generation unit 76. is entered.
  • the history meta information generation unit 76 Based on the event meta information d1 (“A1”) input from the analysis extraction unit 74 and the learning comment classification meta information d77 (“A2”) input from the comment classification model 75, the history meta information generation unit 76 generates to generate and output learning history meta information d78.
  • the learning history meta information d78 is the history meta information of the learning video data d75, and is the time-series reproduction information of the meta images and commentary. That is, the learning history meta information d78 includes the past event meta information d1 and comment classification meta information d70 associated with the event state prior to the time when the "target comment comment" is associated in the learning event.
  • the learning history meta information d78 includes the event meta information d1 (“A1”) input to the history meta information generation unit 76 in the current learning process. It does not include the learning commentary classification meta information d77 (“A2”). That is, the event meta information d1 obtained up to the current process and the learning history meta information d78 obtained up to the previous process are the learning history meta information output from the history meta information generation unit 76 in the current process. Included in information d78 (“E1, E2, A1, B1, A2, A1”).
  • the history meta information generation unit 76 holds the above-mentioned “known history information (“E1, E2, A1, B1, A2”)”, and the event meta information d1 input from the analysis extraction unit 74 (“A1”) is added to the known history information.
  • the learning history meta information d78 (“E1, E2, A1, B1, A2, A1”) output from the history meta information generation unit 76 is changed to “known history information (“E1, E2, A1, B1 , A2”)” and the following event meta information d1("A1").
  • the "known history information" used in the next learning process includes the current event meta information d1 and the current learning-use commentary classification meta information d77. That is, the history meta information generation unit 76 creates new history information ("E1, E2, A1, B1, A2, A1, A2”) is used as “known history information” in the next learning process.
  • the commentary issue model 77 is a trained model that has been trained to output commentary classification meta information d70 based on history meta information, and any algorithm can be adopted.
  • the learning history meta information d78 (“E1, E2, A1, B1, A2, A1”) output from the history meta information generation unit 76 is input to the commentary issue model 77, and the learning history meta information
  • the commentary classification meta information d70 corresponding to d78 is output from the commentary issue model 77.
  • the learning unit 78 Based on the commentary classification meta information d70 output from the commentary issuing model 77 to which the learning history meta information d78 is input and the learning commentary classification meta information d77 (“A2”) used as teacher data, the learning unit 78 Then, the live issue model 77 is learned.
  • a specific learning method by the learning unit 78 is not limited.
  • the learning unit 78 evaluates the error of the commentary classification meta information d70 with respect to the learning history meta information d78, and modifies the commentary issuance model 77 so that the error is minimized. can be learned.
  • the commentary classification unit 80 including the analysis extraction unit 74 and the commentary classification model 75 performs learning commentary corresponding to the learning target commentary d76 included in the learning event recorded in the learning moving image data d75. Classification meta information d77 is obtained.
  • the commentary classification meta information d70 is obtained. be done.
  • the learning unit 78 learns the commentary issuing model 77 by comparing the commentary classification meta information d70 obtained in this way with the learning commentary classification meta information d77 used as teacher data.
  • the learned commentary issuing model 77 includes the commentary classification meta information d70 acquired by inputting the learning commentary classification meta information d77 used as teacher data and the learning history meta information d78 into the commentary issuing model 77. and is obtained based on
  • the comment generation device 10 shown in FIG. 29 includes a history meta information acquisition unit 79 and a commentary determination unit 24.
  • the history meta information acquisition unit 79 analyzes the target moving image data d3 and obtains history meta information d4 (“E1, E2, A1, B1, A2, A1”) associated with the target event recorded in the target moving image data d3. to get The history meta information acquisition unit 79 of this example is realized by the analysis unit 23, and specifically includes the analysis extraction unit 74 and the history meta information generation unit 76 shown in FIG. 28 described above.
  • the commentary determination unit 24 acquires the target commentary classification meta information d70 ("A2") based on the history meta information d4, and determines the target commentary corresponding to this target commentary classification meta information d70.
  • the commentary determination unit 24 of this example includes a commentary issue model 77 and a commentary search unit 81 .
  • the commentary publishing model 77 acquires the commentary classification meta information d70 ("A2") and outputs it to the commentary search unit 81.
  • the commentary search unit 81 Based on the commentary template data d2 selected from the plurality of commentary template data d2 stored in the commentary repository 22 according to the target commentary classification meta information d70 (“A2”), the commentary search unit 81 Determines the live comment of interest. Then, the commentary search unit 81 outputs the determined target comment as the decided commentary comment data d5.
  • the specific method by which the commentary search unit 81 determines the target commentary is not limited.
  • the commentary search unit 81 can select the commentary template data d2 corresponding to the target commentary classification meta information d70 based on the related tag information.
  • the plurality of commentary template data d2 generated by the commentary generation model 71 as described above are stored in the commentary repository section 22 in a state associated with the corresponding related tag information.
  • the commentary classification meta information d70 output from the commentary publishing model 77 is input to the commentary search section 81 in a state associated with the corresponding related tag information.
  • the commentary search unit 81 refers to the related tag information associated with the commentary classification meta information d70, and selects the related tag information associated with the related tag information from among the plurality of commentary template data d2 stored in the commentary repository unit 22. Find one or more commentary template data d2. Based on the one or more commentary template data d2 found in this way, the commentary search unit 81 determines the target commentary and outputs determined commentary comment data d5.
  • the "related tag information" referred to here is classification information associated with both the commentary template data d2 and the commentary classification meta information d70 as described above.
  • a plurality of pieces of tag information included in the related tag information are not limited, but typically, the related tag information includes tag information corresponding to information included in the event meta information d1.
  • the related tag information may include play tag information, scene tag information, person identification tag information, uniform number tag information, score tag information and time tag information.
  • the commentary classification meta information d70 may include "blank commentary information" indicating that no commentary comment is attached at the target timing in the target video data d3.
  • the commentary search unit 81 outputs determined commentary comment data d5 that does not substantially include commentary comments. For example, when commentary comments are not inserted between meta-images that chronologically continue in the target moving image data d3, the commentary issue model 77 outputs blank commentary information as the commentary classification meta information d70.
  • the related tag information may include "blank tag information" indicating that no live comment is attached.
  • the commentary publishing model 77 may output commentary classification meta information d70 associated with blank tag information.
  • the commentary search unit 81 outputs determined commentary comment data d5 that substantially does not include commentary.
  • the history meta information acquisition unit 79 analyzes the target video data d3, and associates the target video data d3 with the target event recorded in the target video data d3. History meta information d4 is acquired. Also, the target comment classification meta information d70 is acquired by the comment decision section 24 based on the history meta information d4, and the target comment comment corresponding to this target comment classification meta information d70 is determined.
  • the commentary determination unit 24 inputs the history meta information d4 associated with the target event to the learned commentary issuing model 77 that has been learned to output the commentary classification meta information d70 based on the history meta information d4. , to obtain live comment classification meta information d70.
  • the learned commentary issuing model 77 is a commentary classification meta information acquired by inputting the learning commentary classification meta information d77 corresponding to the learning target commentary comment d76 and the learning history meta information d78 into the commentary issuing model 77. obtained based on the information d70.
  • the commentary determination unit 24 selects the commentary template data d2 from among the plurality of commentary template data d2 stored in the commentary repository unit 22 according to the target commentary classification meta information d70. to decide.
  • the plurality of commentary template data d2 is obtained by inputting the event meta information d1 to the trained commentary generation model 71 that has been trained to output the plurality of commentary template data d2 based on the event meta information d1. be done.
  • the event meta information d1 also includes information related to people.
  • the information related to the person includes situation meta information estimated based on the motion information indicating the movement of the person obtained by analyzing the target moving image data d3.
  • the situation meta information also includes scene information B1 indicating the scene content of the event recorded in the target moving image data d3 and play information A1 indicating the play content of the event.
  • the motion information can be based on information on human body parts obtained by analyzing the target moving image data d3.
  • the motion information can be based on the information on the movement position of the person obtained by analyzing the target moving image data d3.
  • the information related to the person can include information identifying the person derived from at least one of the image of the person's appearance and the image of the person's wear.
  • the event meta information d1 also includes information unrelated to people.
  • the target event recorded in the target moving image data d3 is a sports match, and the event meta information d1 includes at least one of play information A1, scene information B1, person identification information C1, score information E1, and time information F1. It can contain one or more.
  • the genre of the learning event recorded in the learning video data d75 may be different from the genre of the target event recorded in the target video data d3.
  • learning video data d75 can be easily obtained, and the learning process of the commentary issue model 77 can be accelerated.
  • one of the target moving image data d3 and the learning moving image data d75 may be live-action moving image data, and the other may be generated moving image data.
  • learning video data d75 can be easily obtained, and the learning process of the commentary issue model 77 can be accelerated.
  • the live comment generated by the comment generation device 10 can be provided to the user in various ways along with the corresponding moving image.
  • the comment generation device 10 provides the video and audio of the target event originally recorded in the target moving image data d3 and the newly generated and issued live comment to the user via separate output devices.
  • FIG. 30 is a diagram showing an example of an output device that outputs target events and live comments.
  • a display 18a and an AI robot (AI device) 18b are provided as output devices.
  • the video and audio of the target event originally recorded in the target moving image data d3 are output via the display 18a, and the live comments generated and issued by the comment generation device 10 are output via the AI robot 18b.
  • the mode of connection between each of the display 18a and the AI robot 18b and the comment generation device 10 is not limited, and may be a wireless connection or a wired connection.
  • Each of the display 18a and the AI robot 18b may be connected to the comment generation device 10 via a relay device (not shown).
  • the user 90 can enjoy the video and audio of the target event via the display 18a and listen to the commentary at an appropriate timing while communicating with the AI robot 18b. Therefore, the user 90 can instruct the AI robot 18b to stop and start providing commentary at any time, and the AI robot 18b can stop and start providing commentary according to the instruction of the user 90. It can be performed. While enjoying the video and audio of the target event, the user 90 acquires information related to the live comment and information not related to the live comment from the AI robot 18b, and instructs the AI robot 18b to perform arbitrary processing. good too.
  • the technical categories that embody the above technical ideas are not limited.
  • the above technical ideas may be embodied by a computer program for causing a computer to execute one or more procedures (steps) included in the method of manufacturing or using the above apparatus.
  • the above technical idea may be embodied by a computer-readable non-transitory recording medium in which such a computer program is recorded.
  • a history meta information acquisition unit that analyzes target video data and acquires history meta information associated with a target event recorded in the target video data; a commentary determination unit that acquires target commentary classification meta information based on the history meta information and determines a target commentary corresponding to the target commentary classification meta information; with
  • the historical meta information includes past event meta information and live comment classification meta information associated with an event state prior to the point in time when the target comment is associated in the target event,
  • the event meta information is meta information related to the state of the target event,
  • the live comment classification meta information is meta information related to the classification of live comments, Comment generator.
  • the commentary determination unit inputs the history meta information associated with the target event to a learned commentary publishing model that has been learned to output the commentary classification meta information based on the history meta information, Item 1.
  • the comment generating device according to item 1, which acquires the comment classification meta information of the target.
  • the learned live issuance model is learning commentary classification meta information corresponding to the learning target commentary included in the learning event recorded in the learning video data; the commentary classification meta information obtained by inputting the learning history meta information associated with the event state prior to the time when the target commentary for learning is associated with the learning event into the commentary issuance model; 3.
  • the comment generation device of item 2 obtained based on.
  • a commentary classification unit that analyzes the learning video data and acquires learning commentary classification meta information corresponding to the learning target commentary included in the learning event recorded in the learning video data; Inputting the learning commentary classification meta information used as teacher data and learning history meta information associated with an event state before the learning target commentary comment is associated in the learning event into the commentary issuing model.
  • a learning unit that learns the live commentary issue model based on the live commentary classification meta information acquired by The comment generation device according to item 2 or 3, comprising:
  • the commentary decision section determines the commentary comment of the target based on the commentary template data selected from a plurality of commentary template data stored in the repository section according to the commentary classification meta information of the target. 5.
  • the comment generation device according to any one of 1 to 4.
  • the plurality of commentary template data are items obtained by inputting the event meta information into a trained commentary generation model that has been trained to output a plurality of commentary template data based on the event meta information. 5.
  • the comment generation device according to 5.
  • the information related to the person includes situation meta information estimated based on motion information indicating the movement of the person obtained by analyzing the target video data, A comment generation device according to item 8.
  • the situation meta information includes at least one of scene information indicating event scene content and play information indicating event play content, A comment generation device according to item 9.
  • the target event is a sports match
  • the event meta information includes scene information about the scene content of the game, play information about the play content of the game, person identification information about the participants of the game, score information about the score of the game, and time information about the time of the game. including at least one or more of 15.
  • the comment generation device according to any one of items 1-14.
  • the genre of the learning event is different from the genre of the target event, 16.
  • a comment generation device according to any one of items 3-15.
  • One of the target video data and the learning video data is live-action video data, and the other is generated video data. 17. A comment generation device according to any one of items 3-16.
  • the historical meta information includes past event meta information and live comment classification meta information associated with an event state prior to the point in time when the target comment is associated in the target event,
  • the event meta information is meta information related to the state of the target event,
  • the live comment classification meta information is meta information related to the classification of live comments, How comments are generated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

[課題]対象動画データに記録されているイベントの状態に応じた実況コメントを、適応的なタイミングで動画とともに提供するのに有利な技術を提供する。 [解決手段]コメント生成装置は、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部とを備える。履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含む。イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である。

Description

コメント生成装置、コメント生成方法及びプログラム
 本開示は、コメント生成装置、コメント生成方法及びプログラムに関する。
 スポーツの試合等のイベントを記録した動画において、イベント状態に応じたコメントを自動的に生成する装置が知られている。
 例えば特許文献1は、抽出したイベントの内容に応じたコメントを生成することを目的とした装置を開示する。
特開2005-165941号公報
 従来提案されているコメント生成装置は、予め定められた固定的なルールに従ってコメントが生成されたり、予め定められたタイミングでコメントが映像に付加されたりする。そのため、生成されるコメントの内容及びコメントの付加タイミングが単調になりやすい。
 予め定められたルールに則ったそのような単調なコメントは、イベント動画を視聴するユーザに退屈さを与えやすく、ユーザの視聴満足感を必ずしも十分には満たせていなかった。
 本開示は、動画データに記録されているイベントの状態に応じた実況コメントを、適応的なタイミングで動画とともに提供するのに有利な技術を提供する。
 本開示の一態様は、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部と、を備え、履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、コメント生成装置に関する。
 実況決定部は、履歴メタ情報に基づいて実況分類メタ情報を出力するように学習された学習済みの実況発行モデルに、対象イベントに関連付けられる履歴メタ情報を入力することで、対象の実況分類メタ情報を取得してもよい。
 学習済みの実況発行モデルは、学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報と、学習用イベントにおいて学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を実況発行モデルに入力することで取得される実況分類メタ情報と、に基づいて得られてもよい。
 コメント生成装置は、学習用動画データを解析して、学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報を取得する実況分類部と、教師データとして用いられる学習用実況分類メタ情報と、学習用イベントにおいて学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を実況発行モデルに入力することで取得される実況分類メタ情報と、に基づいて実況発行モデルの学習を行う学習部と、を備えてもよい。
 実況決定部は、リポジトリ部に記憶される複数の実況テンプレートデータの中から、対象の実況分類メタ情報に応じて選択される実況テンプレートデータに基づいて、対象の実況コメントを決定してもよい。
 複数の実況テンプレートデータは、イベントメタ情報に基づいて複数の実況テンプレートデータを出力するように学習された学習済みの実況生成モデルに、イベントメタ情報が入力されることで取得されてもよい。
 コメント生成装置は、ネットワーク上で開示される情報からイベントメタ情報に応じて抽出される学習用実況テンプレートデータを教師データとして使って、実況生成モデルの学習を行う学習部を備えてもよい。
 イベントメタ情報は、人に関連する情報を含んでもよい。
 人に関連する情報は、対象動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含んでもよい。
 状況メタ情報は、イベントのシーン内容を示すシーン情報及びイベントのプレイ内容を示すプレイ情報のうちの少なくともいずれか一方を含んでもよい。
 動作情報は、対象動画データを解析することで得られる人の身体パーツの情報に基づいてもよい。
 動作情報は、対象動画データを解析することで得られる人の移動位置の情報に基づいてもよい。
 人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含んでもよい。
 イベントメタ情報は、人には関連しない情報を含んでもよい。
 対象イベントは、スポーツの試合であり、イベントメタ情報は、試合のシーン内容に関するシーン情報、試合のプレイ内容に関するプレイ情報、試合の参加者に関する人識別情報、試合のスコアに関するスコア情報、及び試合の時間に関する時間情報のうちの少なくともいずれか1以上を含んでもよい。
 学習用イベントのジャンルは、対象イベントのジャンルとは異なってもよい。
 対象動画データ及び学習用動画データのうちの一方は実写動画データであり、他方は生成動画データであってもよい。
 本開示の他の態様は、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得するステップと、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定するステップと、を含み、履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、コメント生成方法に関する。
 本開示の他の態様は、コンピュータに、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する手順と、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定する手順と、を実行させ、履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、プログラムに関する。
図1は、コメント生成装置のハードウェア構成の典型例を示す図である。 図2は、実況テンプレートデータの生成に関わる機能構成の一例を示すブロック図である。 図3は、決定実況コメントデータの決定に関わるコメント生成装置の機能構成の一例を示すブロック図である。 図4は、イベントメタ情報の概念の一例を示すブロック図である。 図5は、プレイ推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図6は、プレイ推論モデルを使ったプレイ情報の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図7は、プレイ推論モデルを用いたプレイ情報の推論処理の他の例に関わる機能構成を示すブロック図である。 図8は、シーン推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図9は、シーン推論モデルを使ったシーン情報の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図10は、顔推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図11は、顔推論モデルを使った人識別情報の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図12は、顔推論モデルを用いた人識別情報の推論処理の他の例に関わる機能構成を示すブロック図である。 図13は、背番号推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図14は、背番号推論モデルを使った背番号情報の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図15は、スコア推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図16は、時間推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図17は、スコア推論モデルを使ったスコア情報の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図18は、時間推論モデルを使った時間情報の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図19Aは、対象動画データのある動画フレームが示す画像例を示す。 図19Bは、図19Aの動画フレームから検出された顔画像(対象顔画像データ)の一例を示す。 図20Aは、対象動画データのある動画フレームが示す画像例を示す。 図20Bは、図20Aの動画フレームを解析することで取得される特徴データ(対象動画解析データ)の一例を示す。 図21Aは、対象動画データのある動画フレームが示す画像例を示す。 図21Bは、図21Aの動画フレームを解析することで取得される特徴データ(対象動画解析データd)の一例を示す。 図22は、3DCG技術に基づく学習用動画データの生成を含む学習用動画解析データの作成例を示すフローチャートである。 図23は、実況生成モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図24は、実況生成モデルを使った実況テンプレートデータの取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。 図25は、実況生成モデルの具体例を示すブロック図である。 図26は、動画データにおけるメタ画像(第1~第5メタ画像)及び実況コメント(第1~第3実況コメント)の時系列例を示す図である。 図27は、実況分類メタ情報の概念の一例を示すブロック図である。 図28は、実況発行モデルの学習処理に関わる機能構成の一例を示すブロック図である。 図29は、実況発行モデルを使って対象の実況コメント(決定実況データ)の決定処理に関わる機能構成の一例を示すブロック図である。 図30は、対象イベント及び実況コメントを出力する出力装置の一例を示す図である。
 以下、図面を参照して本開示の典型的な実施形態について例示的に説明する。
 図1は、コメント生成装置10のハードウェア構成の典型例を示す図である。
 コメント生成装置10は、CPU(Central Processing Unit)11、GPU(Graphics Processing Unit)12、RAM(Random Access Memory)13、ストレージ14及びネットワークI/F(ネットワークインターフェース)15を備える。コメント生成装置10が具備するこれらのデバイスは、バス16を介して相互に接続され、バス16を介して相互にデータの送受信を行うことができる。
 コメント生成装置10には、入力装置17(例えばキーボード及びマウス)、出力装置18(例えばディスプレイ)及びネットワーク19(例えばインターネット)が接続される。
 ユーザは、入力装置17を介してコメント生成装置10に対するデータ入力を行うことができ、出力装置18を介してコメント生成装置10からのデータ出力(例えば映像及び実況コメント)を視覚、聴覚及びその他の感覚を通じて確認することができる。またコメント生成装置10は、必要に応じて、ネットワーク19につながっている各種サーバー、通信端末及び他の外部装置との間でデータの送受信を行って、外部装置からの情報の収集及び外部装置に対する情報の提供を行う。
 コメント生成装置10は、後述のように、動画データに記録されているイベントの映像に対し、イベント状態に応じた適応的タイミングで付される実況コメントを決定する。
 ここで言う「イベント」は、動画として記録可能であり且つ実況コメントとともに提供可能な事象全般を指しうる。典型的には、経時的に状況が変わりうる行事や催し物が「イベント」に該当しうる。
 以下では、主として動画データに記録されているイベントがスポーツの試合である場合について説明する。ただし以下に説明する技術は、動画データが他のイベントを記録する場合にも適宜応用可能である。
 図2は、実況テンプレートデータd2の生成に関わる機能構成の一例を示すブロック図である。図3は、決定実況コメントデータd5の決定に関わるコメント生成装置10の機能構成の一例を示すブロック図である。図4は、イベントメタ情報d1の概念の一例を示すブロック図である。
 図2~図4及び後述の各図面に示す各機能ブロックは、任意のハードウェア及び/又はソフトウェアによって適宜構成可能である。
 コメント生成装置10は、図2に示すように実況生成部21及び実況リポジトリ部22を備える。
 実況生成部21は、イベントメタ情報d1が入力され、入力されたイベントメタ情報d1に対応する実況テンプレートデータd2を出力する。
 実況テンプレートデータd2は、イベントメタ情報d1に関連するコメント内容に基づくテンプレートデータであり、動画に付される実況コメント(実況文)の基礎データを構成する。
 実況生成部21から出力される実況テンプレートデータd2は、実況リポジトリ部22(例えば図1に示すストレージ14)に記憶保持される。実況リポジトリ部22に記憶される実況テンプレートデータd2は、他のデバイスにより、必要に応じて読み出されて使われる。
 コメント生成装置10は、図3に示すように、解析部23、実況決定部24及び出力部25を更に備える。
 解析部23は、入力される対象動画データd3を解析して、対象動画データd3に記録されているスポーツ試合などのイベント(対象イベント)に関連付けられる履歴メタ情報d4を取得して出力する。
 対象動画データd3は、リアルタイム動画データであってもよいし、保存済み動画データであってもよい。すなわち対象イベントを撮影している撮像装置(図示省略)から出力される対象動画データd3が解析部23に直接的に入力されてもよいし、対象イベントの終了後に記憶部(例えば図1のストレージ14)から解析部23に対象動画データd3が入力されてもよい。
 履歴メタ情報d4は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報d1及び実況分類メタ情報を含む。イベントメタ情報d1は、対象イベントの状態に関連するメタ情報である(図4参照)。実況分類メタ情報は、コメント内容に応じた実況コメントの分類に関連するメタ情報である(後述の図27参照)。このように、対象の実況コメントを得るために、当該対象の実況コメントを基準とした過去のメタ情報(イベントメタ情報d1及び実況分類メタ情報)を含む履歴メタ情報d4が使われる。なお履歴メタ情報d4については後述する。
 実況決定部24は、解析部23からの履歴メタ情報d4と、実況リポジトリ部22からの実況テンプレートデータd2とに基づいて、決定実況コメントデータd5を決定して出力する。このようにして決定される決定実況コメントデータd5は、対象の実況コメントとして最適と考えられる実況コメントを示す。
 出力部25は、実況決定部24から出力される決定実況コメントデータd5を使った出力処理を行う。その結果、決定実況コメントデータd5が示す実況コメントが、対象動画データd3に基づく動画とともに、ディスプレイ等の出力装置18(図1参照)を介して出力され、ユーザに提示される。
 出力部25は、対象動画データd3を任意の手法で取得することができる。対象動画データd3は、決定実況コメントデータd5と一緒に出力部25に提供されてもよいし、決定実況コメントデータd5とは別個に出力部25に提供されてもよい。
 なおコメント生成装置10の機能構成は、上述の図2及び図3に示す例には限定されない。例えば、図2及び図3に示す機能ブロックの一部(例えば実況生成部21及び/又は実況リポジトリ部22)が、コメント生成装置10以外の外部装置によって実現されてもよい。一例として実況リポジトリ部22が外部装置によって構成される場合、ネットワーク19(図1参照)を利用した通信を介し、コメント生成装置10(例えば実況決定部24)と実況リポジトリ部22との間でデータの送受信が行われてもよい。
 上述のイベントメタ情報d1は、対象動画データd3に記録される対象イベントに応じて決められる様々なタイプの情報を含みうる。対象動画データd3に記録されている対象イベントがスポーツの試合の場合、イベントメタ情報d1は、典型的には図4に示す各種情報を含みうる。すなわちプレイ情報A1、シーン情報B1、人識別情報C1、背番号情報D1、スコア情報E1及び時間情報F1が、イベントメタ情報d1に含まれうる。
 プレイ情報A1は、試合のプレイ内容に関するイベントメタ情報d1である。例えばラグビーの試合の場合、各プレーヤーの動作(例えばキックやパス)がプレイ情報A1に分類される。
 シーン情報B1は、試合のシーン内容に関するイベントメタ情報d1である。例えばラグビーの試合の場合、ラインアウトシーンやスクラムシーンがシーン情報B1に分類される。
 人識別情報C1は、試合の参加者の識別に関するイベントメタ情報d1である。例えばラグビーの試合の場合、プレーヤー、審判、監督及び観客の顔が人識別情報C1に分類される。
 背番号情報D1は、参加者(典型的にはプレーヤー)に割り当てられる識別番号を示すイベントメタ情報d1である。例えばラグビーの試合の場合、プレーヤーのユニフォーム(例えば上着)に表されている背番号が背番号情報D1に分類される。
 スコア情報E1は、試合のスコアを示すイベントメタ情報d1である。
 時間情報F1は、試合の時間情報(例えば試合の経過時間や残り時間)を示すイベントメタ情報d1である。
 なおイベントメタ情報d1に含まれうる情報は上述のプレイ情報A1~時間情報F1には限定されず、他の情報がイベントメタ情報d1に含まれてもよい。例えばイベントが球技スポーツの試合である場合、球の情報(例えば位置情報)がイベントメタ情報d1に含まれてもよい。また対象動画データd3に記録される対象イベントがスポーツの試合ではない場合、イベントメタ情報d1は、上述のプレイ情報A1~時間情報F1のうちの1以上が含まれなくてもよい。
 次に、対象動画データd3からイベントメタ情報d1を得る手法について例示する。
 以下では主にAI(Artificial Intelligence)技術に基づいて、プレイ情報A1、シーン情報B1、人識別情報C1、背番号情報D1、スコア情報E1及び時間情報F1を取得する手法の一例について説明する。
 ここで言うAI技術は、いわゆる機械学習技術及び深層学習技術を含みうる概念であり、「教師あり学習」、「教師なし学習」、「強化学習」及び他の学習方式のいずれを採用してもよい。イベントメタ情報d1を取得するために利用可能なAI技術は限定されず、任意のアルゴリズムに基づいてイベントメタ情報d1を導き出すことが可能である。
 したがって以下に説明する手法は一例に過ぎず、他のAI技術(例えば教師なし学習)を実施する装置によってイベントメタ情報d1が取得されてもよいし、AI技術以外の技術を利用する装置によってイベントメタ情報d1が取得されてもよい。
[プレイ情報]
 図5は、プレイ推論モデル33の学習処理に関わる機能構成の一例を示すブロック図である。図6は、プレイ推論モデル33を使ったプレイ情報A1の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。
 まず、プレイ推論モデル33の学習処理について説明する。
 図5に示す解析部23は、フレーム切出部31、特徴情報取得部32、プレイ推論モデル33及び学習部34を有する。
 フレーム切出部31は、入力される学習用動画データd21から所望数の動画フレーム(静止画)を切り出す。
 特徴情報取得部32は、フレーム切出部31により切り出された各動画フレームの画像解析を行って、各動画フレームにおける特徴情報を表す学習用動画解析データd22を取得する。
 一例として、特徴情報取得部32は、各動画フレームにおける1又は複数の人の姿勢を表す1以上の座標点の情報を、学習用動画解析データd22として取得することができる。すなわち特徴情報取得部32は、人の関節やその他の特徴部位を表す座標情報を取得し、当該座標情報に基づいて手、足、その他の身体部位の姿勢を示す学習用動画解析データd22を取得することができる(後述の図20A及び図20B参照)。対象動画フレームから対象の人の身体パーツの情報を取得する際には任意の解析技術(例えば対象の人の関節などの特徴点を検出する「キーポイント検出技術」)を利用することができる。
 なお特徴情報取得部32によって取得される学習用動画解析データd22は、身体部位の姿勢以外に関する情報を含んでいてもよいし、身体部位の姿勢を示す情報を含んでいなくてもよい。ただし学習用動画解析データd22は、特徴情報取得部32が学習用動画データd21を解析することで導出可能な情報であって、プレイ情報A1に直接的又は間接的に関連付けられる情報を含む。
 プレイ推論モデル33は、学習用動画解析データd22に基づいてプレイ情報A1を出力するように学習された学習済みモデルである。プレイ推論モデル33のアルゴリズムは限定されず、学習用動画解析データd22が入力されることで対応のプレイ情報A1を出力可能な任意のアルゴリズム(ニューラルネットワーク等)を採用可能である。
 プレイ推論モデル33は、単一の動画フレームから得られる学習用動画解析データd22に基づいてプレイ情報A1を出力してもよいし、複数の動画フレームから得られる学習用動画解析データd22に基づいてプレイ情報A1を出力してもよい。特に経時的に連続変化するプレイを示すプレイ情報A1を取得する場合、プレイ推論モデル33は、時系列的に連続する複数の動画フレームの学習用動画解析データd22が入力されることで対応のプレイ情報A1を出力してもよい。この場合、プレイ推論モデル33によって導き出されるプレイ情報A1の導出精度の向上が期待できる。
 学習部34は、学習用動画解析データd22が入力されたプレイ推論モデル33から出力されるプレイ情報A1と、教師データd23とに基づいてプレイ推論モデル33の学習を行う。
 学習部34による具体的な学習手法は限定されない。典型的には、学習部34は、教師データd23に対するプレイ情報A1の誤差を評価し、当該誤差が最小になるようにプレイ推論モデル33を修正することで、プレイ推論モデル33の学習を行うことができる。なお学習用動画データd21に記録されるプレイ情報の正解を示す教師データd23は、任意の手法で準備可能である。
 次に、プレイ推論モデル33を使った推論処理について説明する。
 図6に示す解析部23は、フレーム切出部31、特徴情報取得部32及びプレイ推論モデル33を有する。
 解析部23に対象動画データd3が入力されることで、フレーム切出部31が対象動画データd3から所望数の動画フレームを切り出す。そして特徴情報取得部32が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける特徴情報を表す対象動画解析データd24が取得される。対象動画データd3から対象動画解析データd24を取得する処理は、学習用動画データd21から学習用動画解析データd22を取得する上述の図5に示す処理と同じであってもよいし、部分的又は全体的に異なっていてもよい。
 このようにして得られる対象動画解析データd24が学習済みのプレイ推論モデル33に入力されることで、プレイ推論モデル33からはプレイ情報A1が出力される。
 上述のように本例では、解析部23に学習用動画データd21を入力することでプレイ推論モデル33の学習処理が行われ、解析部23に対象動画データd3を入力することでプレイ推論モデル33で推論処理が行われてプレイ情報A1が取得される。
 なお学習用動画データd21(図5参照)に記録されるイベント(学習用イベント)のジャンルは、対象動画データd3(図6参照)に記録されるイベント(対象イベント)のジャンルと同じであってもよいし、異なっていてもよい。
 例えば対象動画データd3がラグビーの試合を記録する場合、典型的にはラグビーの試合を記録する学習用動画データd21を用いてプレイ推論モデル33の学習処理が行われる。
 ただし、ラグビーの試合と類似するプレイを含むイベント(例えばサッカーの試合)を記録する学習用動画データd21が、プレイ推論モデル33の学習処理において用いられてもよい。例えば、対象動画データd3及び学習用動画データd21のうちの一方としてラグビーのキック動画を用いつつ、他方としてサッカーのキック動画を用いることが可能である。また対象動画データd3及び学習用動画データd21のうちの一方としてサッカーのスローイン動画を用いつつ、他方としてラグビーのラインアウト動画を用いることが可能である。
 また対象動画データd3及び学習用動画データd21のうちの一方が実写動画データであり、他方が生成動画データであってもよい。
 ここで言う生成動画データには、実写動画データ以外の動画データ(典型的にはアニメーション映像やCG映像(Computer Graphics))が含まれうる。
 例えばeスポーツなどのコンピュータ上のラグビーゲームのプレイ動画を学習用動画データd21として使用して学習が行われたプレイ推論モデル33を使って、実写のラグビーの試合を記録する対象動画データd3からプレイ情報A1が取得されてもよい。逆もまた同様であり、実写のラグビーの試合を記録する学習用動画データd21を使用して学習が行われたプレイ推論モデル33を使って、コンピュータ上のラグビーゲームのプレイ動画を記録する対象動画データd3からプレイ情報A1が取得されてもよい。例えば、対象動画データd3及び学習用動画データd21のうちの一方としてラグビーの試合に関する実写キック動画を用いつつ、他方としてラグビーゲームに関するCGキック動画を用いることが可能である。
 したがって、お互いに異なるジャンルの実写動画データ及び生成動画データを、対象動画データd3及び学習用動画データd21として用いることも可能である。例えば、対象動画データd3及び学習用動画データd21のうちの一方が実写のボクシングのプレイ動画(例えばパンチ動画)を記録し、他方がコンピュータ上の格闘ゲームのプレイ動画(例えばパンチ動画)を記録してもよい。
 図7は、プレイ推論モデル33を用いたプレイ情報A1の推論処理の他の例に関わる機能構成を示すブロック図である。以下に説明する図7に示すアルゴリズムは、例えばSlowFastと呼ばれる画像解析技術にも応用されている。
 図7に示す例では、解析部23が動画分類部37、低フレームレート解析部38、高フレームレート解析部39及びプレイ推論モデル33を具備する。
 動画分類部37は、複数の動画フレームに基づく対象動画解析データd24が入力され、当該対象動画解析データd24から低フレームレートデータd25及び高フレームレートデータd26を切り出す。
 低フレームレートデータd25は、対象動画解析データd24を構成する多数の動画フレームのうち、相対的に低いフレームレート(例えば1fps(frames per second))に相当する複数動画フレームの集合データである。高フレームレートデータd26は、対象動画解析データd24を構成する多数の動画フレームのうち、相対的に高いフレームレート(例えば30fps)に相当する複数動画フレームの集合データである。
 そして低フレームレート解析部38が、低フレームレートデータd25を解析してプレイ空間情報d27を取得する。一方、高フレームレート解析部39が、高フレームレートデータd26を解析してプレイ時間情報d28を取得する。
 なお、低フレームレート解析部38及び高フレームレート解析部39との間で低フレームレートデータd25及び高フレームレートデータd26の送受信が行われてもよい。例えば低フレームレート解析部38は、動画分類部37からの低フレームレートデータd25だけではなく、高フレームレート解析部39からのプレイ時間情報d28にも基づいて、プレイ空間情報d27を取得してもよい。
 そして、プレイ空間情報d27及びプレイ時間情報d28がプレイ推論モデル33に入力されることで、プレイ推論モデル33からプレイ情報A1が出力されてもよい。このように対象動画解析データd24から導出される空間的な情報及び時間的な情報の両方の観点に基づいてプレイ情報A1が推論されることで、プレイ情報A1の推論精度の向上が期待できる。
[シーン情報]
 図8は、シーン推論モデル43の学習処理に関わる機能構成の一例を示すブロック図である。図9は、シーン推論モデル43を使ったシーン情報B1の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。
 まず、シーン推論モデル43の学習処理について説明する。
 図8に示す解析部23は、フレーム切出部41、特徴情報取得部42、シーン推論モデル43及び学習部44を有する。
 フレーム切出部41は、入力される学習用動画データd31から所望数の動画フレームを切り出す。フレーム切出部41は、プレイ情報A1の学習及び推論の際に用いられる上述のフレーム切出部31(図5及び図6参照)と共通に設けられてもよいし、別個に設けられてもよい。
 特徴情報取得部42は、フレーム切出部41により切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける特徴情報を表す学習用動画解析データd32を取得する。特徴情報取得部42は、プレイ情報A1の学習及び推論の際に用いられる上述の特徴情報取得部32(図5及び図6参照)と共通に設けられてもよいし、別個に設けられてもよい。
 一例として、特徴情報取得部42は、各動画フレームにおける1又は複数の人の位置を表す1以上の座標点の情報を、学習用動画解析データd32として取得することができる(後述の図21A及び図21B参照)。このような複数の座標点の情報は、複数の人の相対位置に関連付けられるシーン情報B1を取得するための基礎情報として使用されうる。
 なお特徴情報取得部42によって取得される学習用動画解析データd32は、複数の人の位置以外に関する情報を含んでいてもよいし、複数の人の位置を示す情報を含んでいなくてもよい。ただし学習用動画解析データd32は、特徴情報取得部42が学習用動画データd31を解析することで導出可能な情報であって、シーン情報B1に直接的又は間接的に関連付けられる情報を含む。
 シーン推論モデル43は、学習用動画解析データd32に基づいてシーン情報B1を出力するように学習された学習済みモデルである。シーン推論モデル43のアルゴリズムは限定されず、学習用動画解析データd32が入力されることで対応のシーン情報B1を出力可能な任意のアルゴリズムを採用可能である。
 シーン推論モデル43は、単一の動画フレームから得られる学習用動画解析データd32に基づいてシーン情報B1を出力してもよいし、複数の動画フレームから得られる学習用動画解析データd32に基づいてシーン情報B1を出力してもよい。特に経時的に連続的に変化するシーンを示すシーン情報B1を取得する場合、シーン推論モデル43は、時系列的に連続する複数の動画フレームの学習用動画解析データd32が入力されることで対応のシーン情報B1を出力してもよい。この場合、シーン推論モデル43によって導き出されるシーン情報B1の導出精度の向上が期待できる。
 学習部44は、学習用動画解析データd32が入力されたシーン推論モデル43から出力されるシーン情報B1と、教師データd33とに基づいてシーン推論モデル43の学習を行う。学習部44による具体的な学習手法は限定されない。典型的には、学習部44は、教師データd33に対するシーン情報B1の誤差を評価し、当該誤差が最小になるようにシーン推論モデル43を修正することで、シーン推論モデル43の学習を行うことができる。なお学習用動画データd31に記録されるシーン情報の正解を示す教師データd33は、任意の手法で準備可能である。
 次に、シーン推論モデル43を使った推論処理について説明する。
 図9に示す解析部23は、フレーム切出部41、特徴情報取得部42及びシーン推論モデル43を有する。
 解析部23に対象動画データd3が入力されることで、フレーム切出部41が対象動画データd3から所望数の動画フレームを切り出す。そして特徴情報取得部42が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける特徴情報を表す対象動画解析データd34が取得される。
 対象動画データd3から対象動画解析データd34を取得する処理は、上述の学習用動画データd31(図8参照)から学習用動画解析データd32を取得する処理と同じでもよいし、部分的又は全体的に異なっていてもよい。
 このようにして得られる対象動画解析データd34が学習済みのシーン推論モデル43に入力されることで、シーン推論モデル43からはシーン情報B1が出力される。
 上述のように本例では、解析部23に学習用動画データd31を入力することでシーン推論モデル43の学習処理が行われ、解析部23に対象動画データd3を入力することでシーン推論モデル43で推論処理が行われてシーン情報B1が取得される。
 なおフレーム切出部41及び特徴情報取得部42は、プレイ情報A1の学習及び推論の際に用いられる上述のフレーム切出部31及び特徴情報取得部32(図5及び図6参照)と共通に設けられてもよい。この場合、対象動画解析データd24、d34のそれぞれが特徴情報取得部42から並列的に出力されてプレイ推論モデル33及びシーン推論モデル43に入力され、プレイ情報A1及びシーン情報B1が並列的に出力されてもよい。
 なお学習用動画データd31に記録される学習用イベントは、プレイ推論モデル33の学習時に用いられる学習用動画データd21と同様に、対象動画データd3と共通する又は共通しないジャンル、対象及び形式を採用しうる。
[人識別情報]
 図10は、顔推論モデル47の学習処理に関わる機能構成の一例を示すブロック図である。図11は、顔推論モデル47を使った人識別情報C1の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。
 まず、顔推論モデル47の学習処理について説明する。
 図10に示す解析部23は、顔推論モデル47及び学習部48を有する。
 顔推論モデル47は、学習用顔画像データd38に基づいて人識別情報C1を出力するように学習された学習済みモデルである。顔推論モデル47のアルゴリズムは限定されず、学習用顔画像データd38が入力されることで対応の人識別情報C1を出力可能な任意のアルゴリズムを採用可能である。
 学習用顔画像データd38は、人識別情報C1によって特定される人の顔画像を示すデータであれば限定されない。例えばネットワーク19を介して得られる顔画像データを、学習用顔画像データd38として使用しうる。コメント生成装置10を構成する任意のデバイス(例えば解析部23)が、任意のプログラムに従って、学習用顔画像データd38として使用可能な対象の人の顔画像データを、ネットワーク19を通じて収集してもよい。
 学習用顔画像データd38は、対象動画データd3が記録する対象イベントと関連する画像データ(例えば対象イベントと同じジャンルのイベントに関する画像データ)であってもよいし、関連しない画像データであってもよい。
 学習部48は、学習用顔画像データd38が入力された顔推論モデル47から出力される人識別情報C1と、教師データd39とに基づいて顔推論モデル47の学習を行う。学習部48による具体的な学習手法は限定されない。典型的には、学習部48は、教師データd39に対する人識別情報C1の誤差を評価し、当該誤差が最小になるように顔推論モデル47を修正することで、顔推論モデル47の学習を行うことができる。なお学習用顔画像データd38に記録される人識別情報の正解を示す教師データd39は、任意の手法で準備可能である。
 次に、顔推論モデル47を使った推論処理について説明する。
 図11に示す解析部23は、フレーム切出部49、顔画像検出部50及び顔推論モデル47を有する。
 解析部23に対象動画データd3が入力されることで、フレーム切出部49が対象動画データd3から所望数の動画フレームを切り出す。そして顔画像検出部50が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象顔画像データd40が取得される。対象動画データd3から対象顔画像データd40を取得する処理は限定されず、任意の顔認識技術に基づいて各動画フレームから人の顔画像が抜き出される。
 このようにして得られる対象顔画像データd40が学習済みの顔推論モデル47に入力されることで、顔推論モデル47からは人識別情報C1が出力される。
 上述のように本例では、解析部23に学習用顔画像データd38を入力することで顔推論モデル47の学習処理が行われ、解析部23に対象動画データd3を入力することで顔推論モデル47で推論処理が行われて人識別情報C1が取得される。
 なおフレーム切出部49は、プレイ情報A1及びシーン情報B1の学習及び推論の際に用いられる上述のフレーム切出部31、41と共通に設けられてもよい。また対象動画データd3から、プレイ情報A1、シーン情報B1及び人識別情報C1が並列的に取得されてもよい。
 図12は、顔推論モデル47を用いた人識別情報C1の推論処理の他の例に関わる機能構成を示すブロック図である。以下に説明する図12に示すアルゴリズムは、一例としてFaceNetと呼ばれる画像解析技術にも応用されている。
 図12に示す顔推論モデル47は、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)47a、畳み込みニューラルネットワーク(CNN)47b、及びニューラルネットワーク47cを有する。
 顔推論モデル47には、学習用顔画像データd38及び対象動画データd3が入力される。
 学習用顔画像データd38は畳み込みニューラルネットワーク47aに入力される。畳み込みニューラルネットワーク47aは、学習用顔画像データd38を解析し、学習用顔画像データd38における顔画像特徴量データを出力する。
 同様に、対象動画データd3は畳み込みニューラルネットワーク47bに入力される。畳み込みニューラルネットワーク47bは、対象動画データd3を解析し、対象動画データd3における顔画像特徴量データを出力する。
 学習用顔画像データd38から得られる顔画像特徴量データ及び対象動画データd3から得られる顔画像特徴量データは、ニューラルネットワーク47cに入力される。ニューラルネットワーク47cは、学習用顔画像データd38と対象動画データd3と間の距離を、畳み込みニューラルネットワーク47a及び畳み込みニューラルネットワーク47bから入力される顔画像特徴量データの近似度に基づいて取得する。ニューラルネットワーク47cは、取得した画像データ間距離に基づいて、対象動画データd3の顔画像が示す人が学習用顔画像データd38の顔画像が示す人と同じか否かを判定する。
 顔推論モデル47は、上述の処理フローに従って複数の人に関する複数の学習用顔画像データd38の中から対象動画データd3の顔画像に対応するものを選定し、当該選定結果に基づいて対象動画データd3の顔画像に対応する人識別情報C1を出力する。
 本例の顔推論モデル47は、上述のように画像間距離に基づいて人識別情報C1を出力するため、「対象動画データd3の顔画像がどのクラスに属するか」という判定処理が不要である。一般に、クラス分類に基づく顔認識処理では、個々人の大量の画像を使ったモデル学習が必要とされる傾向があるのに対し、本例のような画像間距離に基づく顔認識処理では、比較的少ない数の画像から顔認識判定を行うことが可能である。
 したがって本例によれば、学習用顔画像データd38を事前に準備する労力を軽減しつつ、対象動画データd3から人識別情報C1を取得することが可能である。
[背番号情報]
 図13は、背番号推論モデル53の学習処理に関わる機能構成の一例を示すブロック図である。図14は、背番号推論モデル53を使った背番号情報D1の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。
 まず、背番号推論モデル53の学習処理について説明する。
 図13に示す解析部23は、背番号推論モデル53及び学習部54を有する。
 背番号推論モデル53は、学習用背番号画像データd42に基づいて背番号情報D1を出力するように学習された学習済みモデルである。背番号推論モデル53のアルゴリズムは限定されず、学習用背番号画像データd42が入力されることで対応の背番号情報D1を出力可能な任意のアルゴリズムを採用可能である。
 学習用背番号画像データd42は、背番号情報D1によって特定される背番号を示すデータであれば限定されない。例えばネットワーク19を介して得られる背番号画像データを、学習用背番号画像データd42として使用しうる。なお学習用背番号画像データd42は、対象動画データd3が記録するイベント(対象イベント)と関連する画像データであっても、関連しない画像データであってもよい。
 学習部54は、学習用背番号画像データd42が入力された背番号推論モデル53から出力される背番号情報D1と、教師データd43とに基づいて背番号推論モデル53の学習を行う。学習部54による具体的な学習手法は限定されない。典型的には、学習部54は、教師データd43に対する背番号情報D1の誤差を評価し、当該誤差が最小になるように背番号推論モデル53を修正することで、背番号推論モデル53の学習を行うことができる。なお学習用背番号画像データd42に記録される背番号情報の正解を示す教師データd43は、任意の手法で準備可能である。
 次に、背番号推論モデル53を使った推論処理について説明する。
 図14に示す解析部23は、フレーム切出部55、背番号画像検出部56、背番号推論モデル53及び人推定部57を有する。
 解析部23に対象動画データd3が入力されることで、フレーム切出部55が対象動画データd3から所望数の動画フレームを切り出す。そして背番号画像検出部56が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象背番号画像データd44が取得される。対象動画データd3から対象背番号画像データd44を取得する処理は限定されず、任意の画像認識技術に基づいて各動画フレームから背番号画像が抜き出される。
 このようにして得られる対象背番号画像データd44が学習済みの背番号推論モデル53に入力されることで、背番号推論モデル53からは背番号情報D1が出力される。
 上述のように本例では、解析部23に学習用顔画像データd38を入力することで背番号推論モデル53の学習処理が行われ、解析部23に対象動画データd3を入力することで背番号推論モデル53で推論処理が行われて背番号情報D1が取得される。
 なおフレーム切出部55は、プレイ情報A1、シーン情報B1及び人識別情報C1の学習及び推論の際に用いられる上述のフレーム切出部31、41、49と共通に設けられてもよい。また対象動画データd3から、プレイ情報A1、シーン情報B1、人識別情報C1及び背番号情報D1が並列的に取得されてもよい。
 背番号情報D1は、そのままイベントメタ情報d1として出力されてもよいし、更に人識別情報C1を取得するための基礎情報として用いられてもよい。
 図14に示す例では、人推定部57に背番号情報D1が入力され、人推定部57が背番号情報D1から人識別情報C1を取得して出力する。一例として人推定部57は、背番号と人識別情報C1とが対応付けられたデータベース(図示省略)にアクセスし、入力された背番号情報D1が示す背番号に対応付けられる人識別情報C1を取得して出力することが可能である。
 このように人識別情報C1の取得は、上述の顔画像解析(図11及び図12)及び背番号解析(図14)のうちのいずれか一方又は両方に基づいて行うことが可能である。すなわち人を識別する人識別情報C1は、「顔画像などの人の外観の画像」及び「服等の人が装着する物の画像」のうちの少なくともいずれか一方から導出可能である。
[スコア情報及び時間情報]
 図15は、スコア推論モデル60の学習処理に関わる機能構成の一例を示すブロック図である。図16は、時間推論モデル62の学習処理に関わる機能構成の一例を示すブロック図である。図17は、スコア推論モデル60を使ったスコア情報E1の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。図18は、時間推論モデル62を使った時間情報F1の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。
 まず、スコア推論モデル60及び時間推論モデル62の学習処理について説明する。
 図15に示す解析部23は、スコア推論モデル60及び学習部61を有する。
 スコア推論モデル60は、学習用スコア画像データd47に基づいてスコア情報E1を出力するように学習された学習済みモデルである。
 学習部61は、学習用スコア画像データd47が入力されたスコア推論モデル60から出力されるスコア情報E1と、教師データd48とに基づいてスコア推論モデル60の学習を行う。典型的には、学習部61は、教師データd48に対するスコア情報E1の誤差を評価し、当該誤差が最小になるようにスコア推論モデル60を修正することで、スコア推論モデル60の学習を行うことができる。
 図16に示す解析部23は、時間推論モデル62及び学習部63を有する。
 時間推論モデル62は、学習用時間画像データd49に基づいて時間情報F1を出力するように学習された学習済みモデルである。
 学習部63は、学習用時間画像データd49が入力された時間推論モデル62から出力される時間情報F1と、教師データd50とに基づいて時間推論モデル62の学習を行う。典型的には、学習部61は、教師データd50に対する時間情報F1の誤差を評価し、当該誤差が最小になるように時間推論モデル62を修正することで、時間推論モデル62の学習を行うことができる。
 なおスコア推論モデル60及び時間推論モデル62のアルゴリズムは限定されず、スコア画像データ及び時間画像データが入力されることで対応のスコア情報E1及び時間情報F1を出力可能な任意のアルゴリズムを採用可能である。
 学習用スコア画像データd47及び学習用時間画像データd49は、それぞれスコア画像及び時間画像を示すデータであれば限定されない。例えばネットワーク19を介して得られるスコア画像データ及び時間画像データが、学習用スコア画像データd47及び学習用時間画像データd49として使用されてもよい。
 学習用スコア画像データd47及び学習用時間画像データd49は、対象動画データd3に記録される対象イベントと関連する画像データであっても、関連しない画像データであってもよい。
 学習部61及び学習部63による具体的な学習手法は限定されない。なお、学習用スコア画像データd47及び学習用時間画像データd49に記録されるスコア情報及び時間情報の正解を示す教師データd48及び教師データd50は、任意の手法で準備可能である。
 次に、スコア推論モデル60及び時間推論モデル62を使った推論処理について説明する。
 図17に示す解析部23は、フレーム切出部64、スコア画像検出部65及びスコア推論モデル60を有する。
 解析部23に対象動画データd3が入力されることで、フレーム切出部64が対象動画データd3から所望数の動画フレームを切り出す。そしてスコア画像検出部65が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象スコア画像データd51が取得される。
 このようにして得られる対象スコア画像データd51が学習済みのスコア推論モデル60に入力されることで、スコア推論モデル60からはスコア情報E1が出力される。
 図18に示す解析部23は、フレーム切出部66、時間画像検出部67及び時間推論モデル62を有する。
 解析部23に対象動画データd3が入力されることで、フレーム切出部66が対象動画データd3から所望数の動画フレームを切り出す。そして時間画像検出部67が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象時間画像データd52が取得される。
 このようにして得られる対象時間画像データd52が学習済みの時間推論モデル62に入力されることで、時間推論モデル62からは時間情報F1が出力される。
 上述のように本例では、解析部23に学習用スコア画像データd47を入力することでスコア推論モデル60の学習処理が行われる。そして解析部23に対象動画データd3を入力することで、スコア推論モデル60で推論処理が行われてスコア情報E1が取得される。また解析部23に学習用時間画像データd49を入力することで時間推論モデル62の学習処理が行われ、解析部23に対象動画データd3を入力することで時間推論モデル62で推論処理が行われて時間情報F1が取得される。
 なお対象動画データd3から対象スコア画像データd51及び対象時間画像データd52を取得する処理は限定されず、任意の画像認識技術に基づいて各動画フレームからスコア画像及び時間画像が抜き出される。
 フレーム切出部64、66、は、プレイ情報A1、シーン情報B1、人識別情報C1及び背番号情報D1の学習及び推論の際に用いられる上述のフレーム切出部31、41、49、55と共通に設けられてもよい。また対象動画データd3から、プレイ情報A1、シーン情報B1、人識別情報C1、背番号情報D1、スコア情報E1及び時間情報F1が並列的に取得されてもよい。
[イベントメタ情報]
 上述のようにイベントメタ情報d1は、人に応じて変わりうる「人に関連する情報」(例えばプレイ情報A1、シーン情報B1、人識別情報C1及び背番号情報D1)と、「人には関連しない情報」(例えばスコア情報E1及び時間情報F1)を含みうる。
 特に「イベントのプレイ内容を示すプレイ情報A1」及び「イベントのシーン内容を示すシーン情報B1」は、動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報に分類される。
 すなわち動画データを解析することで得られる人の身体パーツの情報に基づく動作情報に応じて、プレイ情報A1を決めることができる。また動画データを解析することで得られる人の移動位置の情報に基づく動作情報に応じて、シーン情報B1を決めることができる。
 イベントメタ情報d1に含まれるこれらの情報のうちの2以上を共通の対象画像(対象動画フレーム)から同時的に取得可能な場合もあるが、対象画像から単一の情報しか取得できない場合もある。例えば、画像データから人に関連するイベントメタ情報d1を取得する場合、当該画像データに含まれる人の画像の状態に応じて、プレイ情報A1、シーン情報B1及び人識別情報C1のうちのいずれか1つのみしか取得できない場合がある。
 図19A、図20A及び図21Aは、対象動画データd3のある動画フレームが示す画像例を示す。図19Bは、図19Aの動画フレームから検出された顔画像(対象顔画像データd40)の一例を示す。図20Bは、図20Aの動画フレームを解析することで取得される特徴データ(対象動画解析データd24)の一例を示す。図21Bは、図21Aの動画フレームを解析することで取得される特徴データ(対象動画解析データd34)の一例を示す。
 例えば、対象動画データd3を撮影取得する際のカメラ装置のズームの倍率(画角)によって、プレイ情報A1、シーン情報B1及び人識別情報C1のうちのいずれか一つのみしか得られない場合がある。
 図19Aに示す対象動画フレームは、人(例えばプレーヤー)の顔の鮮明な画像を含むが、当該人の足等の他の身体パーツの画像が含まれておらず、また他の人の画像が含まれていない。この場合、当該対象動画フレームから顔画像を抜き出して人識別情報C1を取得することは可能である。しかしながらプレイ情報A1及びシーン情報B1を当該対象動画フレームから取得することは難しい。
 一方、図20Aに示す対象動画フレームは、一人の人全体の身体パーツの鮮明な画像を含むが、当該人の顔の鮮明な画像を含まず、十分な数の他の人の画像を含まない。この場合、当該対象動画フレームから対象の人の身体パーツ(例えば骨格)の情報を画像解析により導き出してプレイ情報A1を取得することは可能である。しかしながらシーン情報B1及び人識別情報C1を当該対象動画フレームから取得することは難しい。
 一方、図21Aに示す対象動画フレームは、十分な数の人の画像を含むが、個々人の顔の鮮明な画像を含まず、人同士が重なり合うオクルージョンの影響が大きく、個々人の身体パーツの鮮明な画像を含まない。この場合、当該対象動画フレームから各人の位置情報を画像解析により導き出してシーン情報B1を取得することは可能である。しかしながらプレイ情報A1及び人識別情報C1を当該対象動画フレームから取得することは難しい。
[学習用画像データ]
 上述のように学習済みモデルを使ってイベントメタ情報d1を取得する場合、モデルの推論精度を向上させるためには、多数の様々な学習用画像データ(学習用動画データを含む)を使ってモデルの学習を行うことが求められる。
 多数の様々な学習用画像データを確保するために、対象動画データd3に記録されるイベントと同じジャンルのイベントを記録する画像データに加え、他のジャンルのイベントを記録する画像データを、学習用画像データとして使用してもよい。また実写動画データに加え、生成動画データを学習用画像データとして使用してもよい。
 図22は、3DCG(3 Dimensional Computer Graphics)技術に基づく学習用動画データの生成を含む学習用動画解析データの作成例を示すフローチャートである。
 なお以下に説明する工程(S1~S5)の全体がコメント生成装置10によって実施されてもよいし、一部のみ(例えばS5のみ)がコメント生成装置10によって実施され、他の工程が外部装置によって実施されてもよい。
 まずサンプル画像が取得され(S1)、当該サンプル画像からモーションデータベースが構築される(S2)。
 使用可能なサンプル画像は限定されない。例えば複数の撮像装置が異なる撮像方向で同一の人を撮影することで取得される画像を、サンプル画像として用いることができる。この場合、様々な撮像方向で撮影取得される複数画像から、人の姿勢を表す3次元データに基づくモーションデータベースを構築できる。
 このようにして構築されるモーションデータベースは、典型的には人の筋骨格モデルに基づいて構築されるが、他の身体パーツ特性に基づいて構築されてもよい。
 そして人を3次元的に取り囲むように複数のカメラパラメータが設定され(S3)、カメラパラメータ毎に動画レンダリングが実行される(S4)。これにより、人の動きを示す動作情報を含む学習用動画データが生成される。
 このようにして得られる学習用動画データの画像解析処理(例えばキーポイント検出技術を利用した姿勢推定処理)を行うことで、学習用対象動画解析データを取得できる(S5)。
 上述のように生成動画データを学習用画像データとして使用することで、十分な数及びバリエーションの実写の学習用画像データを準備できない場合であっても、推論モデルの学習を適切に行うことが可能であり、推論精度に優れた学習済みモデルを準備できる。
[実況コメント生成]
 図23は、実況生成モデル71の学習処理に関わる機能構成の一例を示すブロック図である。図24は、実況生成モデル71を使った実況テンプレートデータd2の取得処理(推論処理)に関わる機能構成の一例を示すブロック図である。
 まず、実況生成モデル71の学習処理について説明する。
 図23に示す実況生成部21は、実況生成モデル71及び学習部72を有する。
 実況生成モデル71は、イベントメタ情報d1に基づいて複数の実況テンプレートデータd2を出力するように学習された学習済みモデルである。実況生成モデル71のアルゴリズムは限定されず、イベントメタ情報d1が入力されることで対応の実況テンプレートデータd2を出力可能な任意のアルゴリズムを採用可能である。
 イベントメタ情報d1は、上述のように複数の情報(例えば上述の図4に示すプレイ情報A1~時間情報F1)を含みうる。実況生成モデル71には、イベントメタ情報d1として1又は複数の情報を入力することができる。
 学習部72は、イベントメタ情報d1が入力された実況生成モデル71から出力される実況テンプレートデータd2と、教師データd61とに基づいて実況生成モデル71の学習を行う。学習部72による具体的な学習手法は限定されない。典型的には、学習部72は、教師データd61に対する実況テンプレートデータd2の誤差を評価し、当該誤差が最小になるように実況生成モデル71を修正することで、実況生成モデル71の学習を行うことができる。
 イベントメタ情報d1に記録される実況テンプレートデータ(実況コメント)の正解を示す教師データd61は、任意の手法で準備可能である。学習部72は、例えばネットワーク19において開示される情報から学習用のイベントメタ情報d1に応じて抽出される実況テンプレートデータを教師データd61として使って、実況生成モデル71の学習を行うことが可能である。
 次に、実況生成モデル71を使った推論処理について説明する。
 すなわち、イベントメタ情報d1が実況生成部21(特に学習済みの実況生成モデル71)に入力されることで、実況生成モデル71から複数の実況テンプレートデータd2が出力される。
 実況テンプレートデータd2の生成のために実況生成モデル71に入力されるイベントメタ情報d1は、実況生成モデル71の学習のために実況生成モデル71に入力されるイベントメタ情報d1と同じであってもよい。また実況生成モデル71に入力されるイベントメタ情報d1は、既知の情報であり、対象動画データd3に記録される対象イベントに応じてユーザにより適宜決定可能である。
 したがって実況コメントの生成処理(すなわち実況生成モデル71の学習処理及び推論処理)において、動画データ(すなわち学習用動画データ及び対象動画データ)は不要である。ただし動画データが使われて実況テンプレートデータd2が取得されてもよい。例えば、実況生成部21が学習用動画データを解析して当該学習用動画データで使われている実況コメントを抽出し、必要に応じて当該実況コメントの修正処理を行った後、当該実況コメントに基づく実況テンプレートデータd2を取得してもよい。
 このようにして実況生成部21(実況生成モデル71)により取得される複数の実況テンプレートデータd2は、実況リポジトリ部22(図2参照)に保存される。
 上述のように本例では、実況生成部21にイベントメタ情報d1を入力することで実況生成モデル71の学習処理が行われる。そして実況生成部21にイベントメタ情報d1を入力することで、実況生成モデル71で推論処理が行われて複数の実況テンプレートデータd2が取得される。
 図25は、実況生成モデル71の具体例を示すブロック図である。以下に説明する図25に示すアルゴリズムは、一例としてSeq2Seqと呼ばれる深層学習モデル技術にも応用されている。
 図25に示す実況生成モデル71は、エンコーダ部71a及びデコーダ部71bを含む。エンコーダ部71a及びデコーダ部71bは、典型的にはRNN(Recurrent Neural Network)に基づいて構成されるが、任意の構成を有しうる。
 エンコーダ部71aは、イベントメタ情報d1が入力され、当該イベントメタ情報d1をベクトル情報にコンパイルし、当該ベクトル情報をデコーダ部71bに送る。
 デコーダ部71bは、エンコーダ部71aから提供されるベクトル情報に基づいて、イベントメタ情報d1に対応する実況テンプレートデータd2を出力する。
 このようにしてデコーダ部71bから出力される実況テンプレートデータd2は、実況リポジトリ部22に記憶される。
[実況コメント発行]
 図26は、動画データにおけるメタ画像(第1~第5メタ画像)及び実況コメント(第1~第3実況コメント)の時系列例を示す図である。図27は、実況分類メタ情報d70の概念の一例を示すブロック図である。
 一般に、動画データに記録されているイベント(スポーツ試合等)では、画像に映し出される状態が経時的に変わり、イベント状態に応じた実況コメントが不規則的なタイミングで動画に付される。特に、各実況コメントの挿入タイミングは、対応のイベント状態のタイミングから不規則的に遅れる。そのため各実況コメントは、必ずしも直前のタイミングにおけるイベント状態に対応するとは限らない。
 図26に示す動画データでは、第1メタ画像、第1実況コメント、第2メタ画像、第3メタ画像、第2実況コメント、第4メタ画像、第3実況コメント及び第5メタ画像が、この順番に再生される。
 ここで言うメタ画像は、解析部23において動画データから切り出されてイベントメタ情報d1の取得に用いられる動画フレームであり、関連付けられる代表的なイベントメタ情報d1に応じて分類される。
 例えば第1メタ画像は、代表的なイベントメタ情報d1としてスコア情報E1が関連付けられる画像(スコアメタ画像)を示す。第2メタ画像、第4メタ画像及び第5メタ画像は、代表的なイベントメタ情報d1としてプレイ情報A1が関連付けられる画像(プレイメタ画像)を示す。第3メタ画像は、代表的なイベントメタ情報d1としてシーン情報B1が関連付けられる画像(シーンメタ画像)を示す。
 また図26には示されていないが、人識別情報C1が代表的に関連付けられる動画フレームは人識別メタ画像に分類され、背番号情報D1が代表的に関連付けられる動画フレームは背番号メタ画像に分類される。また時間情報F1が代表的に関連付けられる動画フレームは時間メタ画像に分類される。
 一方、実況コメントは、コメント内容に関連付けられる代表的な実況分類メタ情報d70(図27参照)に応じて、分類される。すなわち実況分類メタ情報d70は、実況コメントの分類に関連するメタ情報である。
 図27に示す実況分類メタ情報d70は、イベントメタ情報d1に含まれる複数の情報(図4に示す「プレイ情報A1」~「時間情報F1」参照)のそれぞれに対応する複数の実況情報を含む。すなわちプレイ情報A1に対応するプレイ実況情報A2、シーン情報B1に対応するシーン実況情報B2、人識別情報C1に対応する人識別実況情報C2、及び背番号情報D1に対応する背番号実況情報D2が、図27に示す実況分類メタ情報d70に含まれる。またスコア情報E1に対応するスコア実況情報E2及び時間情報F1に対応する時間実況情報F2も、図27に示す実況分類メタ情報d70に含まれる。なお、実況分類メタ情報d70は、イベントメタ情報d1に含まれる複数の情報のいずれにも対応しない実況情報(例えば後述を「ブランク実況情報」)を含んでいてもよい。
 図26に示す例において、第1実況コメントは、スコア実況情報E2が関連付けられるコメント内容を有するスコア実況コメントに分類され、スコア情報E1に関連付けられる第1メタ画像(スコアメタ画像)に起因して発せられている。第2実況コメントは、プレイ実況情報A2が関連付けられるコメント内容を有するプレイ実況コメントに分類され、プレイ情報A1に関連付けられる第2メタ画像(プレイメタ画像)に起因して発せられている。第3実況コメントは、プレイ実況情報A2が関連付けられるコメント内容を有するプレイ実況コメントに分類され、プレイ情報A1に関連付けられる第4メタ画像(プレイメタ画像)に起因して発せられている。
 図26から明らかなように、各実況コメント(第1~第3実況コメントの各々)は、対応のメタ画像(第1、第2及び第4メタ画像の各々)から遅延して発せられる。
 なお図26には示されていないが、シーン実況情報B2が代表的に関連付けられる実況コメントはシーン実況コメントに分類され、人識別実況情報C2が代表的に関連付けられる実況コメントは人識別実況コメントに分類される。背番号実況情報D2が代表的に関連付けられる実況コメントは背番号実況コメントに分類され、時間実況情報F2が代表的に関連付けられる実況コメントは時間実況コメントに分類される。
 以下、メタ画像及び実況コメントの時系列情報(履歴メタ情報d4を含む)は、関連付けられるイベントメタ情報d1及び実況分類メタ情報d70の対応情報の符号が使われて、簡易的に表現される。したがって図26に示す例における時系列再生情報は「E1、E2、A1、B1、A2、A1、A2、A1」と表現される。
 図28は、実況発行モデル77の学習処理に関わる機能構成の一例を示すブロック図である。図29は、実況発行モデル77を使って対象の実況コメント(決定実況データd79)の決定処理に関わる機能構成の一例を示すブロック図である。
 まず、実況発行モデル77の学習処理について説明する。
 実況発行モデル77は、学習用履歴メタ情報d78に基づいて実況分類メタ情報d70を出力するように学習された学習済みモデルである。すなわち実況発行モデル77は、次の実況コメントに割り当てられる実況分類メタ情報d70を、当該次の実況コメントに先立つ履歴メタ情報(イベントメタ情報d1及び実況分類メタ情報d70)から推論するモデルである。
 以下、理解を容易にするため、図26に示す例の時系列再生情報に基づいて、実況発行モデル77の学習処理の流れを説明する。すなわち「E1、E2、A1、B1、A2」が既知の履歴情報であり、次のイベントメタ情報d1である「A1(第4メタ画像)」及び次の実況分類メタ情報である「A2(第3実況コメント)」が新たに取得される場合を、例示的に説明する。
 図28に示すコメント生成装置10は、解析抽出部74、実況分類モデル75、履歴メタ情報生成部76、実況発行モデル77及び学習部78を含む。
 解析抽出部74は、学習用動画データd75を解析して、次のイベントメタ情報d1(「A1」)と、次の実況コメント(「対象の実況コメント」)を示す学習用対象実況コメントd76とを、学習用動画データd75から取得する。
 学習用対象実況コメントd76は、学習用動画データd75に記録されている「対象の実況コメント」が解析部23により抽出されることによって取得され、解析部23から出力されて実況分類モデル75に入力される。
 実況分類モデル75は、入力された学習用対象実況コメントd76に基づいて学習用実況分類メタ情報d77(「A2」)を出力する。このようにして実況分類モデル75から出力される学習用実況分類メタ情報d77は、学習用対象実況コメントd76に対応する実況分類メタ情報d70(図27参照)である。
 学習用実況分類メタ情報d77は、後述のように実況発行モデル77の学習処理における教師データとして用いられるとともに、履歴メタ情報生成部76に送られる。
 一方、解析抽出部74から出力されるイベントメタ情報d1は、上述のように学習済みの推論モデルを使った学習用動画データd75の解析処理を行うことで取得され、履歴メタ情報生成部76に入力される。
 履歴メタ情報生成部76は、解析抽出部74から入力されるイベントメタ情報d1(「A1」)と、実況分類モデル75から入力される学習用実況分類メタ情報d77(「A2」)とに基づいて、学習用履歴メタ情報d78を生成して出力する。
 学習用履歴メタ情報d78は、学習用動画データd75の履歴メタ情報であり、メタ画像及び実況コメントの時系列再生情報である。すなわち学習用履歴メタ情報d78は、学習用イベントにおいて「対象の実況コメント」が関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報d1及び実況分類メタ情報d70を含む。
 そのため学習用履歴メタ情報d78は、今回の学習処理で履歴メタ情報生成部76に入力されるイベントメタ情報d1(「A1」)を含むが、今回の学習処理で履歴メタ情報生成部76に入力される学習用実況分類メタ情報d77(「A2」)を含まない。すなわち今回の処理までに得られたイベントメタ情報d1と、前回の処理までに得られた学習用履歴メタ情報d78とが、今回の処理で履歴メタ情報生成部76から出力される学習用履歴メタ情報d78(「E1、E2、A1、B1、A2、A1」)に含まれる。
 具体的には、履歴メタ情報生成部76が、上述の「既知の履歴情報(「E1、E2、A1、B1、A2」)」を保有し、解析抽出部74から入力されるイベントメタ情報d1(「A1」)を当該既知の履歴情報に付加する。その結果、履歴メタ情報生成部76から出力される学習用履歴メタ情報d78(「E1、E2、A1、B1、A2、A1」)は、「既知の履歴情報(「E1、E2、A1、B1、A2」)」及び次のイベントメタ情報d1(「A1」)を含む。
 なお次回の学習処理で使われる「既知の履歴情報」は、今回のイベントメタ情報d1及び今回の学習用実況分類メタ情報d77を含む。すなわち履歴メタ情報生成部76は、今回の既知の履歴情報に今回のイベントメタ情報d1及び今回の学習用履歴メタ情報d78を付加した新たな履歴情報(「E1、E2、A1、B1、A2、A1、A2」)を、次回の学習処理で「既知の履歴情報」として使う。
 実況発行モデル77は、履歴メタ情報に基づいて実況分類メタ情報d70を出力するように学習された学習済みモデルであり、任意のアルゴリズムを採用可能である。本例では、履歴メタ情報生成部76から出力される学習用履歴メタ情報d78(「E1、E2、A1、B1、A2、A1」)が実況発行モデル77に入力され、当該学習用履歴メタ情報d78に対応する実況分類メタ情報d70が実況発行モデル77から出力される。
 学習部78は、学習用履歴メタ情報d78が入力された実況発行モデル77から出力される実況分類メタ情報d70と、教師データとして用いられる学習用実況分類メタ情報d77(「A2」)とに基づいて、実況発行モデル77の学習を行う。
 学習部78による具体的な学習手法は限定されない。典型的には、学習部78は、学習用履歴メタ情報d78に対する実況分類メタ情報d70の誤差を評価し、当該誤差が最小になるように実況発行モデル77を修正することで、実況発行モデル77の学習を行うことができる。
 以上説明したように解析抽出部74及び実況分類モデル75を含む実況分類部80によって、学習用動画データd75に記録されている学習用イベントに含まれる学習用対象実況コメントd76に対応する学習用実況分類メタ情報d77が取得される。
 また当該学習用実況分類メタ情報d77が関連付けられる時点より前の学習用イベントの状態に関連付けられた学習用履歴メタ情報d78を、実況発行モデル77に入力することで、実況分類メタ情報d70が取得される。
 そして学習部78が、このようにして得られる実況分類メタ情報d70を、教師データとして用いられる学習用実況分類メタ情報d77と比較して評価することで、実況発行モデル77の学習を行う。このように学習済みの実況発行モデル77は、教師データとして用いられる学習用実況分類メタ情報d77と、学習用履歴メタ情報d78を実況発行モデル77に入力することで取得される実況分類メタ情報d70と、に基づいて取得される。
 次に、実況発行モデル77を使った推論処理について説明する。
 以下、理解を容易にするため、図26に示す例の時系列再生情報に基づいて、実況発行モデル77の推論処理の流れを説明する。すなわち「E1、E2、A1、B1、A2、A1」が履歴メタ情報d4であり、次の実況分類メタ情報である「A2(第3実況コメント)」が新たに取得される場合を、例示的に説明する。
 図29に示すコメント生成装置10は、履歴メタ情報取得部79及び実況決定部24を含む。
 履歴メタ情報取得部79は、対象動画データd3を解析して、対象動画データd3に記録されている対象イベントに関連付けられる履歴メタ情報d4(「E1、E2、A1、B1、A2、A1」)を取得する。本例の履歴メタ情報取得部79は、解析部23によって実現され、具体的には上述の図28示す解析抽出部74及び履歴メタ情報生成部76を含む。
 実況決定部24は、履歴メタ情報d4に基づいて対象の実況分類メタ情報d70(「A2」)を取得し、この対象の実況分類メタ情報d70に対応する対象の実況コメントを決定する。本例の実況決定部24は、実況発行モデル77及び実況検索部81を含む。
 実況発行モデル77は、履歴メタ情報d4が入力されることで、実況分類メタ情報d70(「A2」)を取得して実況検索部81に出力する。
 実況検索部81は、実況リポジトリ部22に記憶される複数の実況テンプレートデータd2の中から、対象の実況分類メタ情報d70(「A2」)に応じて選択される実況テンプレートデータd2に基づいて、対象の実況コメントを決定する。そして実況検索部81は、決定した対象のコメントを決定実況コメントデータd5として出力する。
 なお、実況検索部81が対象の実況コメントを決定する具体的な手法は限定されない。
 一例として、実況検索部81は、関連タグ情報に基づいて、対象の実況分類メタ情報d70に応じた実況テンプレートデータd2を選択することができる。
 すなわち、上述のように実況生成モデル71により生成された複数の実況テンプレートデータd2は、対応の関連タグ情報に関連付けられた状態で実況リポジトリ部22に記憶される。一方、実況発行モデル77から出力される実況分類メタ情報d70は、対応の関連タグ情報に関連付けられた状態で実況検索部81に入力される。実況検索部81は、実況分類メタ情報d70に関連付けられている関連タグ情報を参照し、実況リポジトリ部22に記憶される複数の実況テンプレートデータd2の中から、当該関連タグ情報に関連付けられている1以上の実況テンプレートデータd2を探し出す。そして実況検索部81は、このようにして探し出した1以上の実況テンプレートデータd2に基づいて、対象の実況コメントを決定し、決定実況コメントデータd5を出力する。
 ここで言う「関連タグ情報」は、上述のように実況テンプレートデータd2及び実況分類メタ情報d70の双方に関連付けられる分類情報である。関連タグ情報に含まれる複数のタグ情報は限定されないが、典型的には、イベントメタ情報d1に含まれる情報に対応するタグ情報が関連タグ情報に含まれる。例えばイベントメタ情報d1が図4に示す情報を含む場合、関連タグ情報は、プレイタグ情報、シーンタグ情報、人識別タグ情報、背番号タグ情報、スコアタグ情報及び時間タグ情報を含んでもよい。
 なお実況分類メタ情報d70は、対象動画データd3における対象のタイミングにおいて実況コメントを付さないことを示す「ブランク実況情報」を含んでもよい。実況検索部81は、実況分類メタ情報d70としてブランク実況情報が入力された場合、実質的に実況コメントを含まない決定実況コメントデータd5を出力する。例えば、対象動画データd3において経時的に連続するメタ画像間に実況コメントを挿入しない場合、実況発行モデル77は、実況分類メタ情報d70としてブランク実況情報を出力する。
 或いは、関連タグ情報が、実況コメントを付さないことを示す「ブランクタグ情報」を含んでもよい。実況発行モデル77は、ブランクタグ情報が関連付けられた実況分類メタ情報d70を出力してもよい。ブランクタグ情報が関連付けられた実況分類メタ情報d70が実況検索部81に入力された場合、実況検索部81は実質的に実況コメントを含まない決定実況コメントデータd5を出力する。
 以上説明したように本実施形態のコメント生成装置10及びコメント生成方法によれば、履歴メタ情報取得部79により対象動画データd3が解析され、対象動画データd3に記録されている対象イベントに関連付けられる履歴メタ情報d4が取得される。また実況決定部24により履歴メタ情報d4に基づいて対象の実況分類メタ情報d70が取得され、この対象の実況分類メタ情報d70に対応する対象の実況コメントが決定される。
 これにより、対象動画解析データd34に記録されている対象イベントの状態に応じた実況コメントを、適応的なタイミングで動画とともに提供することができる。
 また実況決定部24は、履歴メタ情報d4に基づいて実況分類メタ情報d70を出力するように学習された学習済みの実況発行モデル77に、対象イベントに関連付けられる履歴メタ情報d4を入力することで、実況分類メタ情報d70を取得する。
 これにより、動画とともに提供される実況コメントのタイミングが単調になることを効果的に避けることができる。
 また学習済みの実況発行モデル77は、学習用対象実況コメントd76に対応する学習用実況分類メタ情報d77と、学習用履歴メタ情報d78を実況発行モデル77に入力することで取得される実況分類メタ情報d70と、に基づいて得られる。
 これにより、実況発行モデル77の最適化が促され、実況コメントがより適切なタイミングで動画とともに提供されるようになることを期待できる。
 また実況決定部24は、実況リポジトリ部22に記憶される複数の実況テンプレートデータd2の中から、対象の実況分類メタ情報d70に応じて選択される実況テンプレートデータd2に基づいて、対象の実況コメントを決定する。
 これにより、イベント状態に応じた適切な実況コメントを動画とともに提供できる。
 また複数の実況テンプレートデータd2は、イベントメタ情報d1に基づいて複数の実況テンプレートデータd2を出力するように学習された学習済みの実況生成モデル71に、イベントメタ情報d1が入力されることで取得される。
 これにより、動画とともに提供される実況コメントの内容が単調になることを効果的に避けることができる。
 またネットワーク19上で開示される情報から学習用のイベントメタ情報d1に応じて抽出される学習用実況テンプレートデータを教師データd61として使って、実況生成モデル71の学習を行うことが可能である。
 これにより、多数の様々な学習用実況テンプレートデータを容易に収集することが可能である。
 またイベントメタ情報d1は、人に関連する情報を含む。
 これにより、人に関連する実況コメントを動画とともに提供できる。
 また、当該人に関連する情報は、対象動画データd3を解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含む。
 これにより、人の動きに関連する実況コメントを動画とともに提供できる。
 また当該状況メタ情報は、対象動画データd3に記録されるイベントのシーン内容を示すシーン情報B1及びイベントのプレイ内容を示すプレイ情報A1を含む。
 これにより、シーン内容及びプレイ内容に関連する実況コメントを動画とともに提供できる。
 また当該動作情報は、対象動画データd3を解析することで得られる人の身体パーツの情報に基づきうる。
 この場合、対象動画データd3の抽象化情報である「人の身体パーツの情報」に基づいて実況コメントの選定及び実況コメントのタイミングを決めることができる。このような抽象化情報を利用することで、様々なジャンル、対象及び形式の画像データ(動画データを含む)を、推論モデルの学習に用いられる学習用画像データ(学習用動画データを含む)として利用しうる。
 また当該動作情報は、対象動画データd3を解析することで得られる人の移動位置の情報に基づきうる。
 この場合、人の移動位置に基づく実況コメントを動画とともに提供できる。
 また上記の人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含むことができる。
 この場合、人に関連する情報を容易に取得でき、人に関連する情報の取得精度の向上も期待できる。
 またイベントメタ情報d1は、人には関連しない情報を含む。
 これにより、人に関連しない実況コメントを動画とともに提供できる。
 また対象動画データd3に記録される対象イベントはスポーツの試合であり、イベントメタ情報d1は、プレイ情報A1、シーン情報B1、人識別情報C1、スコア情報E1及び時間情報F1のうちの少なくともいずれか1以上を含みうる。
 この場合、スポーツの試合の動画とともに、当該試合に適応した実況コメントを提供できる。
 また学習用動画データd75に記録されている学習用イベントのジャンルは、対象動画データd3に記録されている対象イベントのジャンルとは異なってもよい。
 この場合、学習用動画データd75が得やすく、実況発行モデル77の学習処理を促進することができる。
 また対象動画データd3及び学習用動画データd75のうちの一方は実写動画データであり、他方は生成動画データであってもよい。
 この場合、学習用動画データd75が得やすく、実況発行モデル77の学習処理を促進することができる。
[変形例]
 コメント生成装置10により生成される実況コメントは、様々な態様で、対応の動画とともにユーザに提供可能である。例えば、コメント生成装置10は、対象動画データd3に本来的に記録されている対象イベントの映像及び音声と、新たに生成及び発行した実況コメントとを、別々の出力装置を介してユーザに提供してもよい。
 図30は、対象イベント及び実況コメントを出力する出力装置の一例を示す図である。図30に示す例では、出力装置としてディスプレイ18a及びAIロボット(AIデバイス)18bが設けられている。対象動画データd3に本来的に記録されている対象イベントの映像及び音声はディスプレイ18aを介して出力され、コメント生成装置10が生成及び発行した実況コメントはAIロボット18bを介して出力される。
 なおディスプレイ18a及びAIロボット18bの各々とコメント生成装置10との接続態様は限定されず、無線接続であってもよいし、有線接続であってもよい。図示しない中継装置を介して、ディスプレイ18a及びAIロボット18bの各々とコメント生成装置10とが接続されてもよい。
 ユーザ90は、ディスプレイ18aを介して対象イベントの映像及び音声を楽しみつつ、AIロボット18bとコミュニケーションをとりながら実況コメントを適切なタイミングで聞くことが可能である。したがってユーザ90は、任意のタイミングで、実況コメントの提供の停止及び開始をAIロボット18bに対して指示することができ、AIロボット18bはユーザ90の指示に応じて実況コメントの提供の停止及び開始を行うことができる。またユーザ90は、対象イベントの映像及び音声を楽しみつつ、実況コメントに関連する情報や実況コメントに関連しない情報をAIロボット18bから取得したり、任意の処理をAIロボット18bに指示したりしてもよい。
 本明細書で開示されている実施形態及び変形例はすべての点で例示に過ぎず限定的には解釈されないことに留意されるべきである。上述の実施形態及び変形例は、添付の特許請求の範囲及びその趣旨を逸脱することなく、様々な形態での省略、置換及び変更が可能である。例えば上述の実施形態及び変形例が全体的に又は部分的に組み合わされてもよく、また上述以外の実施形態が上述の実施形態又は変形例と組み合わされてもよい。また、本明細書に記載された本開示の効果は例示に過ぎず、その他の効果がもたらされてもよい。
 上述の技術的思想を具現化する技術的カテゴリーは限定されない。例えば上述の装置を製造する方法或いは使用する方法に含まれる1又は複数の手順(ステップ)をコンピュータに実行させるためのコンピュータプログラムによって、上述の技術的思想が具現化されてもよい。またそのようなコンピュータプログラムが記録されたコンピュータが読み取り可能な非一時的(non-transitory)な記録媒体によって、上述の技術的思想が具現化されてもよい。
[付記]
 本開示は以下の構成をとることもできる。
[項目1]
 対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、
 前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部と、
 を備え、
 前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
 前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
 前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
 コメント生成装置。
[項目2]
 前記実況決定部は、前記履歴メタ情報に基づいて前記実況分類メタ情報を出力するように学習された学習済みの実況発行モデルに、前記対象イベントに関連付けられる前記履歴メタ情報を入力することで、前記対象の実況分類メタ情報を取得する項目1に記載のコメント生成装置。
[項目3]
 前記学習済みの実況発行モデルは、
 学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報と、
 前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、
 に基づいて得られる項目2に記載のコメント生成装置。
[項目4]
 学習用動画データを解析して、前記学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報を取得する実況分類部と、
 教師データとして用いられる前記学習用実況分類メタ情報と、前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、に基づいて前記実況発行モデルの学習を行う学習部と、
 を備える項目2又は3に記載のコメント生成装置。
[項目5]
 前記実況決定部は、リポジトリ部に記憶される複数の実況テンプレートデータの中から、前記対象の実況分類メタ情報に応じて選択される実況テンプレートデータに基づいて、前記対象の実況コメントを決定する項目1~4のいずれかに記載のコメント生成装置。
[項目6]
 前記複数の実況テンプレートデータは、前記イベントメタ情報に基づいて複数の実況テンプレートデータを出力するように学習された学習済みの実況生成モデルに、前記イベントメタ情報が入力されることで取得される項目5に記載のコメント生成装置。
[項目7]
 ネットワーク上で開示される情報から前記イベントメタ情報に応じて抽出される学習用実況テンプレートデータを教師データとして使って、前記実況生成モデルの学習を行う学習部を備える項目6に記載のコメント生成装置。
[項目8]
 前記イベントメタ情報は、人に関連する情報を含む項目1~7のいずれかに記載のコメント生成装置。
[項目9]
 前記人に関連する情報は、前記対象動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含む、
 項目8に記載のコメント生成装置。
[項目10]
 前記状況メタ情報は、イベントのシーン内容を示すシーン情報及びイベントのプレイ内容を示すプレイ情報のうちの少なくともいずれか一方を含む、
 項目9に記載のコメント生成装置。
[項目11]
 前記動作情報は、前記対象動画データを解析することで得られる人の身体パーツの情報に基づく項目9又は10に記載のコメント生成装置。
[項目12]
 前記動作情報は、前記対象動画データを解析することで得られる人の移動位置の情報に基づく項目9~11のいずれかに記載のコメント生成装置。
[項目13]
 前記人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含む項目8~12のいずれかに記載のコメント生成装置。
[項目14]
 前記イベントメタ情報は、人には関連しない情報を含む項目1~13のいずれかに記載のコメント生成装置。
[項目15]
 前記対象イベントは、スポーツの試合であり、
 前記イベントメタ情報は、前記試合のシーン内容に関するシーン情報、前記試合のプレイ内容に関するプレイ情報、前記試合の参加者に関する人識別情報、前記試合のスコアに関するスコア情報、及び前記試合の時間に関する時間情報のうちの少なくともいずれか1以上を含む、
 項目1~14のいずれかに記載のコメント生成装置。
[項目16]
 前記学習用イベントのジャンルは、前記対象イベントのジャンルとは異なる、
 項目3~15のいずれかに記載のコメント生成装置。
[項目17]
 前記対象動画データ及び前記学習用動画データのうちの一方は実写動画データであり、他方は生成動画データである、
 項目3~16のいずれかに記載のコメント生成装置。
[項目18]
 対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得するステップと、
 前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定するステップと、
 を含み、
 前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
 前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
 前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
 コメント生成方法。
[項目19]
 コンピュータに、
 対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する手順と、
 前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する手順と、
 を実行させ、
 前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
 前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
 前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
 プログラム。
10 コメント生成装置
11 CPU
12 GPU
13 RAM
14 ストレージ
15 ネットワークI/F
16 バス
17 入力装置
18 出力装置
18a ディスプレイ
18b AIロボット
19 ネットワーク
21 実況生成部
22 実況リポジトリ部
23 解析部
24 実況決定部
25 出力部
31 フレーム切出部
32 特徴情報取得部
33 プレイ推論モデル
34 学習部
37 動画分類部
38 低フレームレート解析部
39 高フレームレート解析部
41 フレーム切出部
42 特徴情報取得部
43 シーン推論モデル
44 学習部
47 顔推論モデル
47a 畳み込みニューラルネットワーク
47b 畳み込みニューラルネットワーク
47c ニューラルネットワーク
48 学習部
49 フレーム切出部
50 顔画像検出部
53 背番号推論モデル
54 学習部
55 フレーム切出部
56 背番号画像検出部
57 人推定部
60 スコア推論モデル
61 学習部
62 時間推論モデル
63 学習部
64 フレーム切出部
65 スコア画像検出部
66 フレーム切出部
67 時間画像検出部
71 実況生成モデル
71a エンコーダ部
71b デコーダ部
72 学習部
74 解析抽出部
75 実況分類モデル
76 履歴メタ情報生成部
77 実況発行モデル
78 学習部
79 履歴メタ情報取得部
80 実況分類部
81 実況検索部
90 ユーザ
A1 プレイ情報
B1 シーン情報
C1 人識別情報
D1 背番号情報
E1 スコア情報
F1 時間情報
A2 プレイ実況情報
B2 シーン実況情報
C2 人識別実況情報
D2 背番号実況情報
E2 スコア実況情報
F2 時間実況情報
d1 イベントメタ情報
d2 実況テンプレートデータ
d3 対象動画データ
d4 履歴メタ情報
d5 決定実況コメントデータ
d21 学習用動画データ
d22 学習用動画解析データ
d23 教師データ
d24 対象動画解析データ
d25 低フレームレートデータ
d26 高フレームレートデータ
d27 プレイ空間情報
d28 プレイ時間情報
d31 学習用動画データ
d32 学習用動画解析データ
d33 教師データ
d34 対象動画解析データ
d38 学習用顔画像データ
d39 教師データ
d40 対象顔画像データ
d42 学習用背番号画像データ
d43 教師データ
d44 対象背番号画像データ
d47 学習用スコア画像データ
d48 教師データ
d49 学習用時間画像データ
d50 教師データ
d51 対象スコア画像データ
d52 対象時間画像データ
d61 教師データ
d70 実況分類メタ情報
d75 学習用動画データ
d76 学習用対象実況コメント
d77 学習用実況分類メタ情報
d78 学習用履歴メタ情報
d79 決定実況データ

Claims (19)

  1.  対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、
     前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部と、
     を備え、
     前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
     前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
     前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
     コメント生成装置。
  2.  前記実況決定部は、前記履歴メタ情報に基づいて前記実況分類メタ情報を出力するように学習された学習済みの実況発行モデルに、前記対象イベントに関連付けられる前記履歴メタ情報を入力することで、前記対象の実況分類メタ情報を取得する請求項1に記載のコメント生成装置。
  3.  前記学習済みの実況発行モデルは、
     学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報と、
     前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、
     に基づいて得られる請求項2に記載のコメント生成装置。
  4.  学習用動画データを解析して、前記学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報を取得する実況分類部と、
     教師データとして用いられる前記学習用実況分類メタ情報と、前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、に基づいて前記実況発行モデルの学習を行う学習部と、
     を備える請求項2に記載のコメント生成装置。
  5.  前記実況決定部は、リポジトリ部に記憶される複数の実況テンプレートデータの中から、前記対象の実況分類メタ情報に応じて選択される実況テンプレートデータに基づいて、前記対象の実況コメントを決定する請求項1に記載のコメント生成装置。
  6.  前記複数の実況テンプレートデータは、前記イベントメタ情報に基づいて複数の実況テンプレートデータを出力するように学習された学習済みの実況生成モデルに、前記イベントメタ情報が入力されることで取得される請求項5に記載のコメント生成装置。
  7.  ネットワーク上で開示される情報から前記イベントメタ情報に応じて抽出される学習用実況テンプレートデータを教師データとして使って、前記実況生成モデルの学習を行う学習部を備える請求項6に記載のコメント生成装置。
  8.  前記イベントメタ情報は、人に関連する情報を含む請求項1に記載のコメント生成装置。
  9.  前記人に関連する情報は、前記対象動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含む、
     請求項8に記載のコメント生成装置。
  10.  前記状況メタ情報は、イベントのシーン内容を示すシーン情報及びイベントのプレイ内容を示すプレイ情報のうちの少なくともいずれか一方を含む、
     請求項9に記載のコメント生成装置。
  11.  前記動作情報は、前記対象動画データを解析することで得られる人の身体パーツの情報に基づく請求項9に記載のコメント生成装置。
  12.  前記動作情報は、前記対象動画データを解析することで得られる人の移動位置の情報に基づく請求項9に記載のコメント生成装置。
  13.  前記人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含む請求項8に記載のコメント生成装置。
  14.  前記イベントメタ情報は、人には関連しない情報を含む請求項1に記載のコメント生成装置。
  15.  前記対象イベントは、スポーツの試合であり、
     前記イベントメタ情報は、前記試合のシーン内容に関するシーン情報、前記試合のプレイ内容に関するプレイ情報、前記試合の参加者に関する人識別情報、前記試合のスコアに関するスコア情報、及び前記試合の時間に関する時間情報のうちの少なくともいずれか1以上を含む、
     請求項1に記載のコメント生成装置。
  16.  前記学習用イベントのジャンルは、前記対象イベントのジャンルとは異なる、
     請求項3に記載のコメント生成装置。
  17.  前記対象動画データ及び前記学習用動画データのうちの一方は実写動画データであり、他方は生成動画データである、
     請求項3に記載のコメント生成装置。
  18.  対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得するステップと、
     前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定するステップと、
     を含み、
     前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
     前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
     前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
     コメント生成方法。
  19.  コンピュータに、
     対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する手順と、
     前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する手順と、
     を実行させ、
     前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
     前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
     前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
     プログラム。
PCT/JP2022/039071 2021-11-18 2022-10-20 コメント生成装置、コメント生成方法及びプログラム WO2023090040A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-188077 2021-11-18
JP2021188077 2021-11-18

Publications (1)

Publication Number Publication Date
WO2023090040A1 true WO2023090040A1 (ja) 2023-05-25

Family

ID=86396615

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/039071 WO2023090040A1 (ja) 2021-11-18 2022-10-20 コメント生成装置、コメント生成方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2023090040A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165941A (ja) * 2003-12-05 2005-06-23 Nippon Hoso Kyokai <Nhk> 映像コメント生成装置及びそのプログラム
US20170064348A1 (en) * 2015-08-28 2017-03-02 Accenture Global Services Limited Generating visualizations for display along with video content
JP2020096660A (ja) * 2018-12-17 2020-06-25 株式会社カプコン ゲーム動画編集プログラムならびにゲーム動画編集システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165941A (ja) * 2003-12-05 2005-06-23 Nippon Hoso Kyokai <Nhk> 映像コメント生成装置及びそのプログラム
US20170064348A1 (en) * 2015-08-28 2017-03-02 Accenture Global Services Limited Generating visualizations for display along with video content
JP2020096660A (ja) * 2018-12-17 2020-06-25 株式会社カプコン ゲーム動画編集プログラムならびにゲーム動画編集システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUKINO, NAOKI ET AL.: "Generating Football Video Summery Using News Article", IEICE, PROCEEDINGS OF THE 14TH DATA ENGINEERING WORKSHOP, 18 August 2009 (2009-08-18), pages 1 - 7, XP009545574 *
ISHIGAKI, TATSUYA ET AL.: "Racing Game Commentary Generation", IPSJ SIG TECHNICAL REPORT (NL), 2021-NL-250, 22 September 2021 (2021-09-22), pages 1 - 11, XP009545700 *
KAMEKO, HIROTAKA, MORI, SHINSUKE: "Automatic Generation of Commentary for Shogi Game Records", JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 34, no. 4, 1 July 2019 (2019-07-01), pages 475 - 482, XP009545591 *

Similar Documents

Publication Publication Date Title
Duarte et al. WAV2PIX: Speech-conditioned Face Generation using Generative Adversarial Networks.
CN108712661B (zh) 一种直播视频处理方法、装置、设备及存储介质
US10810409B2 (en) Identifying facial expressions in acquired digital images
Villegas et al. Learning to generate long-term future via hierarchical prediction
KR20200068545A (ko) 컨벌루션 신경망을 트레이닝하고 트레이닝된 컨벌루션 신경망을 이용하여 비디오의 대상에 의해 수행되는 행동을 분류하기 위한 시스템 및 방법
Chen et al. What comprises a good talking-head video generation?: A survey and benchmark
CN111724414B (zh) 一种基于3d姿态估计的篮球运动分析方法
KR20190032502A (ko) 사용자의 감정 상태들을 사용하여 가상 이미지 생성 시스템을 제어하기 위한 기술
Makantasis et al. From pixels to affect: A study on games and player experience
Zhang et al. Dynamic facial expression analysis and synthesis with MPEG-4 facial animation parameters
CN102918489A (zh) 限制化身姿势显示
CN103327235B (zh) 图像处理装置以及图像处理方法
Liu et al. Joint dynamic pose image and space time reversal for human action recognition from videos
CN115131879B (zh) 一种动作评价方法及装置
CN114967937B (zh) 一种虚拟人运动生成方法与系统
KR20230148239A (ko) 신경망을 사용하는 비디오로부터의 로버스트 얼굴 애니메이션
CN118380096A (zh) 一种基于算法追踪与虚拟现实的康复训练交互方法及装置
CN106778576A (zh) 一种基于sehm特征图序列的动作识别方法
WO2023090040A1 (ja) コメント生成装置、コメント生成方法及びプログラム
WO2022041182A1 (zh) 音乐推荐方法和装置
CN115862810B (zh) 具有量化评估功能的vr康复训练方法及系统
WO2021187093A1 (ja) 画像処理装置、および、動画像データ生成方法
Li A method for recognising wrong actions of martial arts athletes based on keyframe extraction
CN110853130A (zh) 三维图像的生成方法、电子设备及存储介质
Yu et al. Automated Adaptive Cinematography For User Interaction in Open World

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22895326

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18709093

Country of ref document: US