WO2022230291A1 - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
WO2022230291A1
WO2022230291A1 PCT/JP2022/004897 JP2022004897W WO2022230291A1 WO 2022230291 A1 WO2022230291 A1 WO 2022230291A1 JP 2022004897 W JP2022004897 W JP 2022004897W WO 2022230291 A1 WO2022230291 A1 WO 2022230291A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
video
scene
clip
processing apparatus
Prior art date
Application number
PCT/JP2022/004897
Other languages
English (en)
French (fr)
Inventor
裕也 山下
和政 田中
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023517064A priority Critical patent/JPWO2022230291A1/ja
Priority to EP22795214.0A priority patent/EP4332871A1/en
Priority to CN202280029439.XA priority patent/CN117178285A/zh
Publication of WO2022230291A1 publication Critical patent/WO2022230291A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present technology relates to the technical field of an information processing device, an information processing method, and a program for generating a digest video.
  • Patent Literature 1 discloses a system for generating television content from information posted on a social networking system (SNS) so as to include content of high interest to viewers.
  • SNS social networking system
  • This technology was created in view of such problems, and aims to provide video content that reflects the interests of viewers.
  • An information processing apparatus includes a specifying unit that specifies auxiliary information for generating a digest video based on scene-related information about a scene that occurred at an event.
  • An event is, for example, an entertainment such as a sports game or a concert.
  • Auxiliary information is, for example, information used to generate a digest video, and is information used to determine which part of the captured video is cut out. For example, in the case of a sports match, information such as the name of the player, the type of scene, the type of play, and the like are specifically used as auxiliary information.
  • FIG. 8 is a diagram showing a first processing flow shown together with FIGS. 5 to 7, and this diagram is a flowchart showing an example of processing executed by a posted data extraction unit;
  • FIG. 10 is a flowchart showing an example of processing executed by a metadata extraction unit in the first processing flow;
  • FIG. 9 is a flowchart showing an example of processing executed by a video analysis unit in the first processing flow;
  • FIG. 10 is a flowchart showing an example of processing executed by a video generation unit in the first processing flow;
  • FIG. 12 is a diagram showing a second processing flow shown together with FIGS. 9 to 11, and this diagram is a flowchart showing an example of processing executed by a posted data extraction unit;
  • FIG. FIG. 11 is a flow chart showing an example of processing executed by a metadata extraction unit in the second processing flow;
  • FIG. 11 is a flow chart showing an example of processing executed by a video analysis unit in a second processing flow;
  • FIG. 11 is a flow chart showing an example of processing executed by a video generation unit in a second processing flow;
  • FIG. FIG. 11 is a flowchart showing an example of clip collection generation processing;
  • FIG. 7 is a flow chart showing an example of processing for generating a clip video and a collection of clips; It is an example which shows an example of the score given to the image
  • FIG. 10 is a flowchart showing an example of processing for combining clip videos to generate a clip collection for a target scene;
  • FIG. 7 is a flow chart showing an example of processing for generating a clip video and a collection of clips;
  • FIG. 11 is a flow chart showing another example of clip video and clip collection generation processing;
  • FIG. 1 is a block diagram of a computer device;
  • the information processing device 1 of the present embodiment is a device that generates a digest video DV of events such as sports games, concerts, and stage performances.
  • the generated digest video DV is distributed to viewers.
  • the digest video DV is a video that collects important scenes to help you understand the flow of the match. Also, the digest video DV can be read as a highlight video.
  • the information processing device 1 includes a posted data extraction unit 2, a metadata extraction unit 3, a video analysis unit 4, and a video generation unit 5.
  • the posted data extraction unit 2 performs processing to extract keywords from sentences, hashtags, videos, etc. posted on SNS (Social Networking Services). Therefore, the information processing device 1 is configured to be able to communicate with the SNS server 100 via the communication network NW.
  • SNS Social Networking Services
  • the keywords extracted by the posted data extraction unit 2 are, for example, the player names of the players participating in the game, their jersey numbers, or the names of the coaches and referees. These pieces of information are information that can identify a person. Player names include not only first names and family names, but also nicknames and the like.
  • the keyword extracted by the posted data extraction unit 2 may be scene type information indicating the content of the play. Specifically, it includes type information about scoring scenes such as touchdowns and field goals, and type information about various fouls such as offsides and holdings. Alternatively, information indicating a better play than usual or information indicating an unsuccessful play may be of a type such as a super play or a misstep.
  • the information extracted by the posted data extraction unit 2 is information that serves as an index for generating the digest video DV.
  • the information posted on the SNS is information used to generate digest video DV that matches the viewer's interests.
  • the information extracted by the posted data extraction unit 2 is information about a specific scene in the event, and is referred to as "scene-related information”.
  • the metadata extraction unit 3 performs processing for extracting metadata containing information representing the development of the game.
  • Metadata may be, for example, information distributed independently by the company that manages the game, or a scorer who records various information such as the development of the game while watching the game. It may be information input by a company, or data distributed by a company that handles information about sports. Alternatively, it may be information about the development of the game uploaded on the web.
  • Metadata is information associated with information such as changes in score associated with the occurrence of .
  • the metadata may be distributed each time a specific scene occurs in the game, or may be distributed collectively after the game ends.
  • the metadata extraction unit 3 is information about a specific scene in the event, and this information is also "scene-related information”.
  • the information processing device 1 is configured to allow mutual communication with the metadata server 200 via the communication network NW so that the metadata extraction unit 3 can execute metadata extraction processing.
  • the image analysis unit 4 performs processing for receiving images from a plurality of imaging devices CA arranged at the match site, and performs image analysis processing on the received images. Further, the video analysis unit 4 performs a process of acquiring a broadcast video VA, which is a video that has been broadcast, and performs image analysis processing on the broadcast video VA.
  • a broadcast video VA which is a video that has been broadcast
  • FIG. 1 illustrates the first imaging device CA1, the second imaging device CA2, and the third imaging device CA3 as an example of the imaging device CA, but this is an example, and only one imaging device CA is used. It may be installed at the game venue, or four or more imaging devices CA may be installed at the game venue.
  • the image obtained from the first imaging device CA1 be the first image V1
  • the image obtained from the second imaging device CA2 be the second image V2
  • the third image obtained from the third imaging device CA3 be V3.
  • Each imaging device CA is synchronized, and the images captured at the same timing can be known by referring to the time code.
  • the video analysis unit 4 obtains information on the subject being imaged for each time through image analysis processing.
  • the subject information includes, for example, the subject's name such as a player's name, uniform number information, the imaging angle, and the subject's posture.
  • the subject may be identified based on facial features, hairstyle, hair color, facial expression, and the like.
  • the video analysis unit 4 obtains scene type information that identifies a scene through image analysis processing.
  • the scene type information includes, for example, information such as whether the captured scene is a scoring scene, a foul scene, a player substitution scene, or an injury scene.
  • the scene type may be specified by detecting the posture of the subject as described above. For example, the scene type may be specified by estimating the content of the referee's judgment by detecting the referee's posture, or the scoring scene may be detected by detecting the player's fist pump.
  • the video analysis unit 4 identifies the IN point and the OUT point through image analysis processing.
  • the in-point and out-point are information for specifying the clipping range of the video imaged by the imaging device CA.
  • clip video CV a video of a predetermined range clipped by a set of in-points and out-points.
  • the in-point and out-point may be determined, for example, by using image analysis processing to identify the moment when the play to be detected occurs, and using that moment as a base point. Further, when detecting the in-point and the out-point based on the broadcast video VA, it may be performed by detecting the timing of video switching. That is, the video analysis unit 4 may specify the IN point and the OUT point by performing image analysis processing on the broadcast video VA and detecting the switching point of the imaging device CA.
  • the video analysis unit 4 adds information obtained by image analysis processing to the video. For example, the fact that player A and player B are imaged in a certain time period in the first video V1, and that the time period is a touchdown scene, etc. are linked and stored. As a result, for example, when it is desired to create a digest video DV using a scene in which a specific player is imaged, it is possible to easily specify the time period in which the specific player was imaged.
  • the video analysis unit 4 identifies the development of the game by executing image analysis processing on the broadcast video VA.
  • the broadcast video VA is made by connecting specific partial videos (clip video CV) using the first video V1, second video V2, and third video V3 as materials, and superimposing various information such as score information and player name information. It is generated.
  • the video analysis unit 4 may assign a score to each video by performing image analysis processing.
  • the score may be calculated as a likelihood when the captured subject is specified, or may be calculated as an index indicating whether or not the video is appropriate for presentation to the viewer.
  • FIG. 1 shows a configuration in which the image analysis unit 4 acquires images from the imaging device CA
  • the images may be acquired from a storage device in which images captured by the imaging device CA are stored.
  • the video generation unit 5 performs processing for generating a digest video DV using the first video V1, the second video V2 and the third video V3.
  • the video generation unit 5 includes a specification unit 10, a clip collection generation unit 11, and a digest video generation unit 12 (see FIG. 2).
  • the specifying unit 10 performs a process of specifying the auxiliary information SD for generating the digest video DV.
  • a process of specifying the auxiliary information SD for generating the digest video DV For brevity, an example of the flow of generation of the digest video DV will be shown.
  • the clip collection CS is a combination of a plurality of clip videos CV.
  • a clip video CV obtained by cutting out the time zone in which the scoring scene was captured from the first video V1 captured by the first imaging device CA1.
  • a clip video CV obtained by clipping the time period in which the scoring scene was captured from the second video V2 captured by the second imaging device CA2, and the third video V3 captured by the third imaging device CA3.
  • the clip video CV obtained by clipping the time period in which the score scene was captured is combined from the above to generate a clip collection CS for the score scene.
  • Such clip collections CS are generated, for example, by the number of scoring scenes, the number of foul scenes, or the number of player substitution scenes.
  • the digest video DV is generated by selecting and combining the clip collections CS to be presented to the viewer from the plurality of clip collections CS generated in this way.
  • the auxiliary information SD is used to select the clip video CV to be included in the clip collection CS.
  • the auxiliary information SD is a keyword used when selecting a clip collection CS included in the digest video DV from a plurality of clip collections CS.
  • any information that can identify the player may be used.
  • keywords such as position names and referees may be used.
  • the auxiliary information SD may be a keyword as scene type information. For example, if there are many posts about foul scenes on SNS, it can be determined that viewers are highly interested in foul scenes. In that case, the clip collection CS of the foul scene is selected and incorporated into the digest video DV.
  • the auxiliary information SD may be type information such as a scoring scene or a foul scene, or more detailed type information such as a field goal scene, a touchdown scene, or a specific foul name. It may be a keyword indicating
  • the auxiliary information SD may indicate the order of combining the clip videos CV included in the clip collection CS.
  • the first image V1 is a wide-angle image captured from the side of the field
  • the second image V2 is a ball-holding image.
  • the auxiliary information SD indicating the combining order may differ according to the scene type.
  • the scoring scene may start with a wide-angle image
  • the foul scene may start with a telephoto image.
  • the auxiliary information SD may be information indicating whether or not the video has been broadcast.
  • the viewer may have already viewed the broadcast video VA about the game. Even if such viewers view the same video, it will not provide meaningful information to the viewer. It is conceivable to generate a digest video DV.
  • Auxiliary information SD indicating whether or not the video has been broadcast is used in such a case for selecting a clip collection CS or selecting a clip video CV.
  • the clip collection generation unit 11 generates a clip video CV based on the auxiliary information SD. Specifically, by presenting the specified auxiliary information SD such as the player name to the video analysis unit 4, the video analysis unit 4 is caused to determine the in-point and the out-point of the video in which the player is captured, and the clip video CV. to generate
  • the clip collection generation unit 11 combines clip videos CV to generate a clip collection CS.
  • the order of combining the clip videos CV may be based on the auxiliary information SD, or may be a predetermined order.
  • the clip collection generation unit 11 generates the clip collection CS using the analysis result of the image analysis processing by the video analysis unit 4 and the auxiliary information SD.
  • the clip collection generating unit 11 may insert an image representing that the video is switched between the clip video CVs when combining the two clip video CVs.
  • the digest video generation unit 12 combines the clip collections CS generated by the clip collection generation unit 11 to generate a digest video DV.
  • the order in which the clip collections CS are combined is determined, for example, according to the occurrence time of each scene. An image or the like representing that the video is switched may be inserted between the clip collections CS.
  • the generated digest video DV may be posted on SNS or uploaded on a web page.
  • FIGS. 4 to 7 An example of the first processing flow is shown in FIGS. 4 to 7.
  • FIG. 4 shows an example of the processing flow executed by the post data extraction unit 2 of the information processing device 1
  • FIG. 5 shows an example of the processing flow executed by the metadata extraction unit 3
  • FIG. 6 shows an example of the processing flow to be performed
  • FIG. 7 shows an example of the processing flow executed by the image generation unit 5.
  • the posted data extraction unit 2 analyzes the SNS posted data in step S101 of FIG. Keywords with a high frequency of appearance and keywords with a high degree of attention are extracted by this analysis processing. These keywords are, for example, the aforementioned player names and scene types.
  • step S102 the posted data extraction unit 2 determines whether the extracted keyword is related to the target event. Specifically, it is determined whether or not the extracted person's name exists as a member of the team participating in the game for which the digest video DV is to be generated, or whether the extracted keyword is related to the target game. It is determined whether or not
  • the post data extraction unit 2 performs a process of outputting the extracted keyword to the metadata extraction unit 3 in step S103.
  • the post data extraction unit 2 determines whether the event has ended in step S104 without performing the process of step S103.
  • the post data extraction unit 2 returns to step S101 to continue extracting keywords. On the other hand, if it is determined that the event has ended, the post data extraction unit 2 ends the series of processes shown in FIG.
  • FIG. 4 and subsequent figures show an example of generating the clip collection CS for generating the digest video DV in parallel with the progress of the event. is being executed.
  • step S104 a process for determining whether or not the extraction of keywords and the like has been completed.
  • keywords are continuously extracted from the post data posted on the SNS from the start of an event such as a sports match to the end of the event. It is output to the metadata extraction unit 3 as appropriate.
  • the metadata extraction unit 3 executes a series of processing shown in FIG. Specifically, in step S201, the metadata extraction unit 3 analyzes the metadata acquired from the metadata server 200 and extracts information for identifying the scene that occurred in the event. For example, in the case of an American football game, information such as the time when a scene corresponding to a touchdown, which is one of the scene types, occurred, the name of the player who scored the touchdown, and information on the change in the score due to the touchdown. Extract.
  • step S ⁇ b>202 the metadata extraction unit 3 determines whether or not the keyword extracted from the SNS post has been obtained from the post data extraction unit 2 .
  • the metadata extraction unit 3 returns to the process of step S201.
  • the metadata extraction unit 3 identifies metadata related to the keyword obtained in step S203.
  • the metadata extraction unit 3 outputs the specified metadata to the video analysis unit 4 in step S204.
  • step S205 the metadata extraction unit 3 determines whether the event has ended.
  • the metadata extraction unit 3 returns to step S201 to analyze the metadata. On the other hand, when determining that the event has ended, the metadata extraction unit 3 ends the series of processes shown in FIG.
  • Metadata extraction unit 3 executes a series of processes shown in FIG. 5 to accumulate metadata in metadata server 200 as an external information processing device from the start of an event such as a sports match to the end of the event. is continuously executed to extract information on each scene that occurs during the game.
  • the video analysis unit 4 executes a series of processing shown in FIG.
  • step S301 the video analysis unit 4 performs video analysis by performing image recognition processing on a plurality of videos such as the first video V1, the second video V2, the third video V3, and the broadcast video VA.
  • the imaged uniform number, player's face, ball, etc. are identified.
  • the video analysis unit 4 may further specify a camera angle, and may specify an IN point and an OUT point for generating a clip video CV.
  • likelihood information that indicates the likelihood of recognition results may be calculated.
  • the likelihood information is used for image selection processing and the like in the image generation unit 5 in the subsequent stage.
  • the information specified by the image recognition process is stored in association with time information such as the elapsed time of the game and the elapsed time from the start of recording for each of the multiple videos.
  • step S302 the video analysis unit 4 determines whether the event has ended. When determining that the event has not ended, the video analysis unit 4 continues the video analysis processing by returning to the processing of step S301. On the other hand, when determining that the event has ended, the video analysis unit 4 ends the series of processes shown in FIG.
  • various types of information are extracted from the video captured from the start of an event such as a sports match to the end of the event.
  • the video generation unit 5 generates a digest video DV according to the processing results of the posted data extraction unit 2, the metadata extraction unit 3, and the video analysis unit 4.
  • step S401 of FIG. 7 the video generation unit 5 determines whether or not keywords and metadata have been acquired.
  • the video generation unit 5 proceeds to step S402. , to generate a clip video CV for the target scene based on the keyword or metadata. This process generates a clip video CV based on the in-point and out-point specified by the video analysis unit 4 for the target scene.
  • the video generation unit 5 After generating the clip video CV, in step S403, the video generation unit 5 combines the clip video CV to generate a clip collection CS for the target scene.
  • the clip video CV may be generated by, for example, combining the first video V1, the second video V2 and the third video V3 in a predetermined order.
  • a template is prepared so that videos are combined in a predetermined camera angle order according to the scene type, and each clip video CV is applied to the template based on camera angle information for each imaging device CA.
  • the clip videos CV may be combined in an optimal order.
  • the video generation unit 5 After generating the clip video CV, the video generation unit 5 returns to the process of step S401.
  • step S401 If it is determined in the determination processing in step S401 that the keyword and metadata have not been acquired, the video generation unit 5 proceeds to step S404 and determines whether the event has ended.
  • the video generation unit 5 returns to step S401 to continue generating the clip video CV and clip collection CS.
  • step S405 combines the clip collection CS to generate the digest video DV.
  • the digest video DV is basically generated by combining in chronological order the clip collection CS for each scene that occurred during the match.
  • the digest video DV will be generated while making a selection so that the clip collection CS with the highest priority is included from the clip collection CS.
  • the high-priority clip collection CS includes a clip collection CS corresponding to a scene scored by one of the teams, a clip collection CS corresponding to a scene that is estimated to be of high interest to viewers based on SNS posting data, and the like. be.
  • post data posted during a predetermined period (10 minutes, 30 minutes, etc.) after the match may be used.
  • the posted data posted in a predetermined period after the end of the match includes posts summarizing the match and posts referring to scenes in the match that the player would like to see again.
  • the video generation unit 5 After generating the digest video DV, the video generation unit 5 performs processing for saving the digest video DV in step S406.
  • the place where the digest video DV is saved may be a storage unit inside the information processing device 1 or may be a storage unit of a server device separate from the information processing device 1 .
  • FIGS. 8 to 11 An example of the second processing flow is shown in FIGS. 8 to 11.
  • FIG. Note that the same step numbers are given to the same processes as those described in the first process flow, and the description thereof will be omitted as appropriate.
  • the posted data extraction unit 2 analyzes the SNS posted data in step S101 of FIG. Through this analysis processing, keywords such as player names and scene types that appear frequently and keywords that attract attention are extracted.
  • step S102 the posted data extraction unit 2 determines whether the extracted keyword is related to the target event.
  • the post data extraction unit 2 performs a process of classifying the extracted keywords in step S110.
  • the extracted keywords can be classified into keywords related to people such as players, referees, and managers, keywords related to scoring scenes such as field goals and touchdowns, and keywords related to foul scenes such as offsides and holdings. Classify.
  • the post data extraction unit 2 After classifying the keywords, the post data extraction unit 2 outputs the classification result to the metadata extraction unit 3 in step S111.
  • step S111 determines whether or not the event is related to the target event, or after step S111 is executed. If it is determined that the event is not related to the target event, or after step S111 is executed, the post data extraction unit 2 does not perform the processes of steps S110 and S111, and the event ends in step S104. determine whether or not
  • the post data extraction unit 2 returns to step S101 to continue extracting keywords. On the other hand, if it is determined that the event has ended, the post data extraction unit 2 ends the series of processes shown in FIG.
  • the metadata extraction unit 3 executes a series of processing shown in FIG.
  • step S210 of FIG. 9 the metadata extraction unit 3 determines whether or not the keyword classification result has been acquired. If it is determined that the classification result has been acquired, the metadata extraction unit 3 performs branch processing according to the classification result in step S211.
  • step S212 the metadata extraction unit 3 identifies metadata that includes the person related to the keyword.
  • the metadata extraction unit 3 identifies metadata about the scoring scene in step S213.
  • the metadata extracting unit 3 identifies metadata about the foul scene in step S214.
  • the metadata extraction unit 3 proceeds to step S204 and outputs the specified metadata and the aforementioned classification results to the video analysis unit 4.
  • step S205 the metadata extraction unit 3 determines whether the event has ended.
  • the metadata extraction unit 3 returns to the process of step S210 to determine whether the classification result is obtained. On the other hand, when determining that the event has ended, the metadata extraction unit 3 ends the series of processes shown in FIG.
  • the video analysis unit 4 executes a series of processes shown in FIG.
  • step S ⁇ b>310 the video analysis unit 4 determines whether metadata and classification results have been acquired from the metadata extraction unit 3 . When determining that the metadata has not been acquired, the video analysis unit 4 executes the process of step S310 again.
  • the video analysis unit 4 proceeds to step S311 and performs branch processing according to the classification result.
  • step S312 the video analysis unit 4 performs uniform number recognition and face recognition by image recognition processing in order to specify the time zone in which the specified person was imaged. conduct.
  • the video analysis unit 4 performs scoreboard recognition by image recognition processing in step S313 to identify the scoring scene.
  • Scoreboard recognition by image recognition processing may be performed, for example, by detecting a location where a scoreboard installed in a venue is imaged and extracting the score of the scoreboard, or by analyzing broadcast video VA. By recognizing subtitles, graphics, etc. superimposed on the captured image, changes in scores of both teams may be detected.
  • image recognition processing is not performed on the entire captured video, but on a predetermined range of video around the specified time. Image recognition processing may be performed as As a result, it is possible to reduce the processing load and shorten the processing time associated with the image recognition processing.
  • the video analysis unit 4 detects a foul display by image recognition processing in order to identify the foul scene in step S314.
  • the image recognition processing for identifying the foul scene may be, for example, identifying the occurrence timing of the foul scene by recognizing a yellow flag thrown into the field, or by analyzing the broadcast video VA.
  • a foul scene may be identified by recognizing subtitles, graphics, etc. superimposed on the image.
  • a scene in which a yellow card or a red card is shown to a target player may be specified as a foul scene by detecting the posture of the referee.
  • processing may be performed on the video of a predetermined section based on the metadata in the same manner as in step S313.
  • step S315 After executing any of steps S312, S313, or S314, the video analysis unit 4 proceeds to step S315, and identifies the camera angle by image analysis processing.
  • the information of the camera angle specified here is used in the later processing of generating the clip collection CS.
  • step S316 the video analysis unit 4 executes image analysis processing for specifying the IN point and the OUT point.
  • the in-point and the out-point may be determined based on the occurrence timing of the scene.
  • the IN point may be 15 seconds before the scene generation timing
  • the OUT point may be 20 seconds after the IN point.
  • step S302 the video analysis unit 4 determines whether the event has ended. If it is determined that the event has not ended, the video analysis section 4 returns to the process of step S310. On the other hand, when determining that the event has ended, the video analysis unit 4 ends the series of processes shown in FIG.
  • the video generation unit 5 generates a digest video DV according to the processing results of the posted data extraction unit 2, the metadata extraction unit 3, and the video analysis unit 4.
  • step S410 of FIG. 11 the video generation unit 5 determines whether or not it has detected that the IN point and the OUT point have been specified.
  • the video generation unit 5 proceeds to step S411 and performs processing for generating a clip video CV based on the in-point and out-point.
  • step S403 the video generation unit 5 combines the clip video CV to generate a clip collection CS for the target scene.
  • the video generation unit 5 After generating the clip video CV, the video generation unit 5 returns to the process of step S410.
  • step S410 If it is determined in the determination processing in step S410 that the in point and the out point have not been specified, the video generation unit 5 proceeds to step S404 and determines whether the event has ended.
  • the video generation unit 5 returns to step S410.
  • step S405 the video generation unit 5 proceeds to step S405 to combine the clip collection CS to generate the digest video DV, and in subsequent step S406 performs processing for saving the digest video DV. .
  • the third processing flow is an example of generating a digest video DV without using metadata.
  • FIG. 8 A specific description will be given with reference to FIGS. 8, 10 and 11.
  • the post data extraction unit 2 extracts and classifies keywords related to the event by executing the series of processes shown in FIG.
  • the classification result is output to the video analysis unit 4 in step S111.
  • the metadata extraction unit 3 does not perform any processing because it does not need to analyze the metadata.
  • step S310 of FIG. 10 the video analysis unit 4 determines whether the keyword classification results have been acquired instead of determining whether the metadata has been acquired.
  • the video generation unit 5 generates a digest video DV by executing a series of processes shown in FIG.
  • the first example uses a different template for each scene type.
  • step S501 of FIG. 12 the video generation unit 5 performs branch processing according to the scene type of the target scene.
  • the type of target scene may be estimated from a keyword or determined based on metadata.
  • the video generation unit 5 selects a touchdown scene template in step S502.
  • the template is information that defines what kind of camera angle videos are to be combined and in what order.
  • the video generation unit 5 selects a template for the field goal scene in step S503.
  • the video generation unit 5 selects a foul scene template in step S504.
  • the video generation unit 5 executes processing for generating the clip collection CS using the selected template in step S505.
  • step S506 the video generation unit 5 adopts the target section in the broadcast video VA as the clip collection CS.
  • the target section may be determined, for example, based on the posting time to the SNS, or may be determined based on the scene occurrence time in the metadata.
  • the video generation unit 5 After executing the processing in either step S505 or S506, the video generation unit 5 ends the generation processing of the clip collection CS.
  • Another example is an example in which the determination of the IN point and OUT point for not only the generation of the clip collection CS but also the generation of the clip video CV is made according to the scene type of the target scene.
  • step S421 (see FIG. 13).
  • step S501 the video generation unit 5 performs branch processing according to the scene type of the target scene.
  • the video generation unit 5 determines the in-point and out-point for the touchdown scene and generates a clip video CV in step S510.
  • the in point and the out point may be determined, for example, so that the clip video CV has an optimum length.
  • step S502 the video generation unit 5 selects a touchdown scene template.
  • the video generation unit 5 determines in points and out points for the field goal scene and generates a clip video CV in step S511.
  • step S503 the video generation unit 5 selects a template for a field goal scene.
  • the video generation unit 5 determines the in-point and out-point for the foul scene and generates a clip video CV in step S512.
  • step S504 the video generation unit 5 selects a template for foul scenes.
  • step S505 the video generation unit 5 executes processing for generating a collection of clips CS using the selected template.
  • step S506 the video generation unit 5 adopts the target section in the broadcast video VA as the clip collection CS.
  • the target section may be determined, for example, based on the posting time to the SNS, or may be determined based on the scene occurrence time in the metadata.
  • the video generation unit 5 After executing the processing in either step S505 or S506, the video generation unit 5 ends the generation processing of the clip collection CS.
  • FIGS. 12 and 13 show examples in which one template is prepared for each foul scene, different templates may be prepared according to the type of foul. Templates may also be prepared for other scene types, such as injury scenes, in addition to the illustrated cases.
  • Scoring method> If there is a limit to the playback time length of the clip collection CS, it may not be possible to combine all the selected clip videos CV. In such a case, a scoring process may be performed to assign a score to each clip video CV so that the clip video CV with a high score is preferentially included in the clip collection CS.
  • FIG. 14 shows an example of the score given as a result of scoring for the size of the subject and the score given as a result of scoring for the direction of the subject for the clip video CV for each imaging device CA.
  • Each score is a value in the range of 0 to 1, and the higher the value, the better the score.
  • the first video V1 is a bird's-eye view video, and the subject is captured small, so the score for the size of the subject is 0.02.
  • the score for the orientation of the subject is set to 0.1.
  • the second image V2 is a telephoto image in which the player holding the ball is projected large, and the score for the size of the subject is 0.85.
  • the score for the subject orientation is set to 0.9.
  • the third video V3 is a bird's-eye view of a relatively narrow area, and the size of the subject is not so large, so the score for the size of the subject is 0.1.
  • the score for the orientation of the subject is set to 0.1.
  • a fourth image V4 is an image captured by the fourth imaging device CA4.
  • the fourth image V4 is a telephoto image in which the subject is captured large, and the score for the size of the subject is 0.92. However, since the orientation of the subject does not face the imaging device CA, the score for the orientation of the subject is set to 0.1.
  • the fourth image V4 is preferentially selected. Further, when priority is given to the image in which the front of the subject is captured, the second image V2 is preferentially selected.
  • scoring may be calculated for each clip collection CS including a plurality of clip videos CV, instead of being calculated for each clip video CV. Then, when selecting the clip collections CS included in the digest video DV, the clip collections CS with high scores assigned by the scoring may be more likely to be included.
  • the clip video CV including the captured image given the highest score may be selected, or the clip video CV may be selected based on the average score of each captured image. good too.
  • the average score is, for example, the average score calculated for each captured image included in the clip video CV.
  • step S601 of FIG. 15 the video generation unit 5 selects the clip video CV whose score is equal to or greater than the threshold. As a result, videos with low scores and unattractive to viewers can be omitted.
  • step S602 the image generation unit 5 generates a clip collection CS by combining the clip images CV in order of score.
  • the score given by the scoring process can be regarded as an index that indicates that the video is easy for viewers to see and that the video is suitable for understanding what happened in the scene.
  • the viewer who viewed the clip collection CS can correctly understand what happened in the scene. In other words, it is possible to prevent a situation in which a clip video CV with a low score is viewed and the viewer cannot understand the event that occurred in the scene.
  • this example is a process for generating a clip video CV and a clip collection CS, which is executed instead of steps S402 and S403 in FIG. 7, or instead of steps S411 and S403 in FIG. This is the process to be executed on
  • step S501 the video generation unit 5 performs branch processing according to the scene type of the target scene.
  • the video generation unit 5 selects an optimal video (imaging device CA) for the touchdown scene in step S610.
  • a plurality of images may be selected. That is, a plurality of imaging devices CA may be selected.
  • step S502 the video generation unit 5 selects a touchdown scene template.
  • the video generation unit 5 selects an optimal video for the field goal scene in step S611.
  • step S503 the video generation unit 5 selects a template for a field goal scene.
  • the video generation unit 5 selects the optimum video for the foul scene in step S612.
  • step S504 the video generation unit 5 selects a template for foul scenes.
  • step S613 the video generation unit 5 determines the in-point and the out-point for the section where the score is equal to or greater than the threshold from the section in which the target scene was captured, and determines the clip video CV. to generate This process is executed for each selected video.
  • step S505 the video generation unit 5 executes processing for generating the clip collection CS using the selected template.
  • step S506 the video generation unit 5 adopts the target section in the broadcast video VA as the clip collection CS.
  • the target section may be determined, for example, based on the posting time to the SNS, or may be determined based on the scene occurrence time in the metadata.
  • the video generation unit 5 After executing the processing in either step S505 or S506, the video generation unit 5 ends the generation processing of the clip collection CS.
  • this example is a process for generating a clip video CV and a clip collection CS, which is executed instead of steps S402 and S403 in FIG. 7, or instead of steps S411 and S403 in FIG. This is the process to be executed on
  • step S601 of FIG. 17 the video generation unit 5 selects the clip video CV whose score is equal to or greater than the threshold. As a result, videos with low scores and unattractive to viewers can be eliminated.
  • step S613 the video generation unit 5 cuts out a section of the selected clip video CV whose score is equal to or greater than the threshold value and generates a new clip video CV. Specifically, the clip video CV is generated by determining the in-point and out-point of the section whose score is above the threshold. This process is executed for each selected video.
  • step S602 the image generation unit 5 generates a clip collection CS by combining the clip images CV in order of score.
  • a section with a high score is further selected and cut out from the clip video CV with a high score, so that a digest video DV or the like using only video with high interest of the viewer can be generated.
  • post data is extracted from SNS.
  • the post data may be extracted from an unspecified number of accounts or from a specific account.
  • the post data for an unspecified number of accounts it is possible to better understand the interests of the viewers.
  • the extraction of the posted data may be performed by extracting the posted data itself, or may be information obtained after subjecting the posted data to statistical processing. For example, it may be information extracted by statistical processing, such as a keyword that appears frequently in information posted in the last predetermined time. These pieces of information may be extracted by the SNS server 100 that manages posts to the SNS, or may be obtained from another server that analyzes posts on the SNS server 100 .
  • the video analysis unit 4 has shown an example of analyzing the broadcast video VA.
  • analyzing the broadcast video VA not only the image analysis process but also the audio analysis process of analyzing the voice of the commentator or the commentator may be performed. This makes it possible to more specifically and accurately identify the scene that occurred during the match, and also facilitates identification of the player associated with the scene.
  • an in-point and an out-point for generating a clip video CV may be determined by audio analysis processing.
  • the commemorative play is, for example, a play at the moment when a certain player's career record reaches a predetermined numerical value, or a play at the time when the previous record is broken.
  • the clip collection CS may be generated without combining the videos. For example, if there is no enlarged image with the angle of view specified by the template, the clip collection CS is generated without including that image.
  • the referee's gestures may be set in detail according to the type of play and the type of foul.
  • a dedicated imaging device CA that captures images of the referee is placed in the venue, and the content of the play that occurred during the match, that is, by specifying the referee's posture and gestures by image analysis processing. , the scene type, etc. can be specified.
  • the scene type information thus obtained can be used, for example, in place of metadata.
  • referees to be subjected to image analysis processing may include not only the chief referee but also an assistant referee.
  • the digest video DV is generated by combining a plurality of clip collections CS, but the digest video DV may be generated from one clip collection CS. Specifically, when there is one clip collection CS to be presented to the viewer, the digest video DV may be generated so as to include only one clip collection CS.
  • Computer device> A configuration of a computer device including an arithmetic processing unit that implements the information processing device 1 described above will be described with reference to FIG. 18 .
  • the CPU 71 of the computer device functions as an arithmetic processing unit that performs the various processes described above, and programs stored in a non-volatile memory unit 74 such as a ROM 72 or an EEP-ROM (Electrically Erasable Programmable Read-Only Memory), or Various processes are executed according to programs loaded from the storage unit 79 to the RAM 73 .
  • the RAM 73 also appropriately stores data necessary for the CPU 71 to execute various processes.
  • the CPU 71 , ROM 72 , RAM 73 and nonvolatile memory section 74 are interconnected via a bus 83 .
  • An input/output interface (I/F) 75 is also connected to this bus 83 .
  • the input/output interface 75 is connected to an input section 76 including operators and operating devices.
  • an input section 76 including operators and operating devices.
  • various operators and operation devices such as a keyboard, mouse, key, dial, touch panel, touch pad, remote controller, etc. are assumed.
  • a user's operation is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .
  • the input/output interface 75 is connected integrally or separately with a display unit 77 such as an LCD or an organic EL panel, and an audio output unit 78 such as a speaker.
  • the display unit 77 is a display unit that performs various displays, and is configured by, for example, a display device provided in the housing of the computer device, a separate display device connected to the computer device, or the like.
  • the display unit 77 displays images for various types of image processing, moving images to be processed, etc. on the display screen based on instructions from the CPU 71 . Further, the display unit 77 displays various operation menus, icons, messages, etc., ie, as a GUI (Graphical User Interface), based on instructions from the CPU 71 .
  • GUI Graphic User Interface
  • the input/output interface 75 may be connected to a storage unit 79 made up of a hard disk, solid-state memory, etc., and a communication unit 80 made up of a modem or the like.
  • the communication unit 80 performs communication processing via a transmission line such as the Internet, wired/wireless communication with various devices, bus communication, and the like.
  • a drive 81 is also connected to the input/output interface 75 as required, and a removable storage medium 82 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately mounted.
  • Data files such as programs used for each process can be read from the removable storage medium 82 by the drive 81 .
  • the read data file is stored in the storage unit 79 , and the image and sound contained in the data file are output by the display unit 77 and the sound output unit 78 .
  • Computer programs and the like read from the removable storage medium 82 are installed in the storage unit 79 as required.
  • software for the processing of this embodiment can be installed via network communication by the communication unit 80 or via the removable storage medium 82 .
  • the software may be stored in advance in the ROM 72, the storage unit 79, or the like.
  • the CPU 71 performs processing operations based on various programs, thereby executing necessary information processing and communication processing as the information processing apparatus 1 including the arithmetic processing unit described above.
  • the information processing apparatus 1 is not limited to being configured with a single computer device as shown in FIG. 2, and may be configured by systematizing a plurality of computer devices.
  • the plurality of computer devices may be systematized by a LAN (Local Area Network) or the like, or may be remotely located by a VPN (Virtual Private Network) or the like using the Internet or the like.
  • the plurality of computing devices may include computing devices as a group of servers (cloud) available through a cloud computing service.
  • the information processing apparatus 1 specifies auxiliary information SD for generating a digest video DV based on scene-related information about a scene that occurred in an event such as a sports match.
  • a part 10 is provided.
  • An event is, for example, an entertainment such as a sports game or a concert.
  • the auxiliary information SD is, for example, information used to generate the digest video DV, and is information used to determine which part of the captured video is cut out.
  • information such as the name of the player, the type of scene, the type of play, and the like are specifically used as auxiliary information.
  • the scene-related information may be information including metadata distributed from another information processing apparatus (metadata server 200).
  • Metadata is information that includes the progress of events such as sports. Taking a sports match as an example, the time information when a specific play occurred, the names of the players involved in the play, and the results of the play change. It contains information on the score obtained.
  • the auxiliary information SD By specifying the auxiliary information SD based on such metadata, it is possible to more appropriately specify the time zone to be extracted from the captured video.
  • the scene-related information may include information related to posts by users of social networking services (SNS). Various posts are made to SNS according to the progress of the event. Then, by analyzing the content posted to the SNS, it becomes possible to specify the scene that the viewer is highly interested in. By specifying the auxiliary information SD based on the scene-related information obtained from such SNS, it is possible to generate a digest video DV containing an appropriate scene that matches the interest of the viewer. .
  • the information related to posts by users using the SNS is information related to information posted to the SNS, and includes, for example, keywords that appear frequently in the most recent predetermined time period. This information may be a keyword extracted based on information posted on the SNS, a keyword presented by a service attached to the SNS, or a keyword presented by a service different from the SNS. may be obtained.
  • the auxiliary information SD may be information indicating whether or not it has been adopted as the broadcast video VA. For example, if it is possible to identify the section that is used as the broadcast video VA in the captured video, it is possible to identify the section that is not used as the broadcast video VA. This makes it possible to generate the digest video DV so as to include the clip video CV that is not used as the broadcast video VA. Therefore, it is possible to provide a digest video DV containing new video for the viewer.
  • the auxiliary information SD may be keyword information.
  • the keyword information is, for example, player name information, scene type information, play type regular use, equipment name, and the like. By using the keyword information, it is possible to realize the process of specifying the time zone to be cut out from the imaged video with a small processing load.
  • the keyword information may be scene type information. For example, a clip video CV to be clipped from the captured video is determined based on the scene type information. Therefore, it is possible to generate a digest video DV containing a clip video CV corresponding to a predetermined scene type.
  • the keyword information may be information that identifies the participants of the event. If the event is a sports match, a scene to be cut out from the captured video is determined based on keyword information such as the name of the player who participated in the match and the uniform number. Therefore, it is possible to generate a digest video DV or the like focusing on a specific player.
  • the auxiliary information SD may be information used for generating a clip collection CS including one or more clip videos CV obtained from a plurality of imaging devices CA that capture events. For example, when a specific play type is selected as the auxiliary information SD, the specific play type is captured from a plurality of videos (first video V1, second video V2, etc.) captured by a plurality of imaging devices CA. By cutting out and connecting the sections, a clip collection CS for the play type is generated. By generating the digest video DV so as to include the clip collection CS generated in this way, one play can be viewed from different angles, and the digest video DV makes it easier for the viewer to grasp the play situation. can be generated.
  • the clip collection CS is a combination of clip videos CV obtained by capturing a specific scene in the event, and the auxiliary information SD may include information on the order in which the clip videos CV are combined in advance.
  • the clip collection CS is formed by combining a plurality of clip videos CV as partial videos of one play captured from different angles. In the generation of such a clip collection CS, by connecting the images in a predetermined order, it is possible to provide the viewer with images that allow one play to be viewed from different angles. The processing load for determination can be reduced.
  • the information on the order in which the clip video CV is combined may be information corresponding to the scene type of a specific scene. That is, the predetermined order may be an appropriate order that differs for each scene type. For example, when generating one clip collection CS for one field goal that occurred in an American football game, a specific By combining the clip videos CV in the order of , an appropriate clip collection CS for the field goal can be generated. Templates in a specific order are images taken from different angles, such as a side view, a back view of the goal, a front view of the goal, a bird's eye view, etc., in a predetermined order.
  • the information processing apparatus 1 may include a clip collection generator 11 that generates a clip collection CS using the auxiliary information SD. As a result, the information processing apparatus 1 executes a series of processes from specifying the auxiliary information SD to generating the clip video CV and generating the clip collection CS.
  • the information processing device 1 is a single device, there is no need to transmit the necessary information from specifying the auxiliary information SD to generating the clip collection CS to other information processing devices, thereby reducing the processing load. is planned. Note that another short video or image may be inserted between the clip video CV and the clip video CV.
  • the clip collection generator 11 of the information processing device 1 may generate the clip collection CS by combining the clip videos CV.
  • the clip collection CS is generated only by combining the clip images CV without interposing another image. As a result, the processing load required for generating the clip collection CS can be reduced.
  • the clip collection CS may be a combination of clip videos CV obtained by capturing specific scenes in the event. By combining a plurality of clip videos CV obtained by clipping images of a certain scene from different angles, a clip collection CS is generated that allows the scene to be confirmed from different angles. As a result, it is possible to generate a digest video DV that allows the user to easily comprehend what happened in each scene.
  • the clip collection generation unit 11 of the information processing device 1 may generate the clip collection CS using the analysis result obtained by image analysis processing on the video obtained from the imaging device CA that captures the event and the auxiliary information SD.
  • Image analysis processing for video makes it possible to specify information about the subject of the video, scene type information, and the like. As a result, it is possible to generate the clip collection CS corresponding to the auxiliary information SD, and to generate the appropriate digest video DV.
  • the image analysis process may be a process of identifying a person appearing in the video. Appropriate identification of a person appearing in a video by image analysis processing makes it possible to identify a clip video CV to be included in the clip collection CS based on a keyword such as a player's name. Therefore, it is possible to reduce the processing load associated with the selection of the clip video CV.
  • the image analysis process may be a process of identifying the type of scene appearing in the video. Appropriately specifying the type of the scene shown in the video by the image analysis processing makes it possible to specify the clip video CV to be included in the clip collection CS based on the keyword such as the scene type. Therefore, it is possible to reduce the processing load associated with the selection of the clip video CV.
  • the image analysis process may be a process of identifying in points and out points. By specifying the in-point and out-point by the image analysis processing, it is possible to cut out a video of an appropriate section as the clip video CV. Therefore, it is possible to generate an appropriate clip collection CS and digest video DV.
  • the image analysis process may include a process of giving a score to each clip video CV. Depending on the time length of the clip video CV, it may not be possible to include all the clip video CV of the scene in question in one clip collection CS. There are also clip videos CV that should not be included in the clip collection CS. By scoring each clip video CV, it is possible to generate a clip collection CS in which only appropriate clip video CVs are combined.
  • a computer device executes a process of specifying auxiliary information for generating a digest video based on scene-related information about a scene that occurred at an event.
  • a program to be executed by the information processing apparatus 1 described above can be recorded in advance in a HDD (Hard Disk Drive) as a recording medium built in a device such as a computer device, or in a ROM or the like in a microcomputer having a CPU.
  • the program may be a flexible disk, a CD-ROM (Compact Disk Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a Blu-ray Disc (registered trademark), a magnetic disk, a semiconductor It can be temporarily or permanently stored (recorded) in a removable recording medium such as a memory or memory card.
  • Such removable recording media can be provided as so-called package software.
  • it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • the present technology can also adopt the following configuration.
  • An information processing device comprising a specifying unit that specifies auxiliary information for generating a digest video based on scene-related information about a scene that occurred at an event.
  • the scene-related information is information including metadata distributed from another information processing apparatus.
  • the scene-related information includes information related to a post by a user using a social networking service.
  • the auxiliary information is information indicating whether or not it has been adopted as a broadcast video.
  • the information processing apparatus (6) The information processing apparatus according to (5), wherein the keyword information is scene type information. (7) The information processing apparatus according to (5), wherein the keyword information is information specifying a participant of the event. (8) Any one of (1) to (7) above, wherein the auxiliary information is information used for generating a clip collection containing one or more clip images obtained from a plurality of imaging devices that capture the event. The information processing device described. (9) The clip collection is a combination of clip images obtained by capturing a specific scene in the event, The information processing apparatus according to (8), wherein the auxiliary information includes information on a predetermined order of combining the clip images. (10) The information processing apparatus according to (9), wherein the information on the order of combination is information corresponding to a scene type of the specific scene.
  • the information processing apparatus including a clip collection generating unit that generates the clip collection using the auxiliary information.
  • the clip collection generation unit generates the clip collection by combining the clip images.
  • the clip collection is a combination of clip videos obtained by capturing specific scenes in the event.
  • the clip collection generation unit generates the clip collection using the auxiliary information and analysis results obtained by image analysis processing on video obtained from an imaging device that captures the event (11) to (13).
  • the information processing apparatus according to any one of .
  • the information processing apparatus according to (14), wherein the image analysis process is a process of identifying a person appearing in a video.
  • information processing device 10 identification unit 11 clip collection generation unit 200 metadata server (another information processing device)
  • CV Clip video CS Clip collection VA Broadcast video

Abstract

情報処理装置は、イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する特定部を備えたものとした。

Description

情報処理装置、情報処理方法、プログラム
 本技術は、ダイジェスト映像を生成するための情報処理装置、情報処理方法及びプログラムの技術分野に関する。
 映像コンテンツは視聴するユーザの興味や関心に基づいて作成されることが望まれている。
 例えば、下記特許文献1では、ソーシャルネットワーキングシステム(SNS:Social Networking Service)に投稿された情報から視聴者の興味の度合いが高い内容を含むようにテレビコンテンツを生成するシステムが開示されている。
特開2017-107404号公報
 ところが、SNS等から得られる情報から視聴者が興味関心を抱いたシーンが具体的にどのシーンであるのかを把握するのは難しく、適切な映像コンテンツを生成できない場合がある。
 本技術はこのような問題に鑑みて為されたものであり、視聴者の興味関心を反映した映像コンテンツを提供することを目的とする。
 本技術に係る情報処理装置は、イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する特定部を備えたものである。
 イベントとは、例えば、スポーツの試合やコンサートなどの催し物である。また、補助情報とは、例えば、ダイジェスト映像を生成するために用いられる情報であり、撮像された映像の中からどの部分の映像を切り出すかを決定するために用いられる情報である。例えば、スポーツの試合であれば、具体的には、選手名やシーンの種別やプレイの種別などの情報が補助情報とされる。
情報処理装置を含むシステム構成例を示す図である。 映像生成部の機能構成を示す図である。 各撮像装置において撮像される映像の一例を示す図である。 図5から図7の各図と共に示す第1の処理フローを示す図であり、本図は投稿データ抽出部が実行する処理の一例を示すフローチャートである。 第1の処理フローにおいてメタデータ抽出部が実行する処理の一例を示すフローチャートである。 第1の処理フローにおいて映像解析部が実行する処理の一例を示すフローチャートである。 第1の処理フローにおいて映像生成部が実行する処理の一例を示すフローチャートである。 図9から図11の各図と共に示す第2の処理フローを示す図であり、本図は投稿データ抽出部が実行する処理の一例を示すフローチャートである。 第2の処理フローにおいてメタデータ抽出部が実行する処理の一例を示すフローチャートである。 第2の処理フローにおいて映像解析部が実行する処理の一例を示すフローチャートである。 第2の処理フローにおいて映像生成部が実行する処理の一例を示すフローチャートである。 クリップ集の生成処理の一例を示すフローチャートである。 クリップ映像及びクリップ集の生成処理の一例を示すフローチャートである。 撮像装置の映像に付与されたスコアの一例を示す例である。 クリップ映像を結合して対象シーンについてのクリップ集を生成する処理の一例を示すフローチャートである。 クリップ映像及びクリップ集の生成処理の一例を示すフローチャートである。 クリップ映像及びクリップ集の生成処理の別の例を示すフローチャートである。 コンピュータ装置のブロック図である。
 以下、添付図面を参照し、本技術に係る情報処理装置の実施の形態を次の順序で説明する。
<1.システム構成>
<2.処理フロー>
<2-1.第1の処理フロー>
<2-2.第2の処理フロー>
<2-3.第3の処理フロー>
<2-4.クリップ集の生成処理のフロー>
<3.スコアリングについて>
<3-1.スコアリング方法>
<3-2.スコアを用いた映像選択における処理フロー>
<4.変形例>
<5.コンピュータ装置>
<6.まとめ>
<7.本技術>
<1.システム構成>
 本実施の形態のシステム構成例について図1を参照して説明する。
 本実施の形態の情報処理装置1は、スポーツの試合やコンサートや舞台などの催し物についてのダイジェスト映像DVを生成する装置である。生成されたダイジェスト映像DVは、視聴者に対して配信される。
 なお、以下の説明においては、催し物の一例としてスポーツの試合を挙げる。特に、アメリカンフットボールの試合のダイジェスト映像DVの生成を行う情報処理装置1について述べる。
 ダイジェスト映像DVは、試合の流れを理解させるための重要なシーンを集めた映像とされる。また、ダイジェスト映像DVは、ハイライト映像と読み替えることが可能である。
 情報処理装置1は、投稿データ抽出部2と、メタデータ抽出部3と、映像解析部4と、映像生成部5と、を備えている。
 投稿データ抽出部2は、SNS(Social Networking Service)に投稿された文章やハッシュタグや映像などからキーワードを抽出する処理を行う。そのために、情報処理装置1は、通信ネットワークNWを介してSNSサーバ100との相互通信が可能に構成されている。
 投稿データ抽出部2が抽出するキーワードは、例えば、試合に出場している選手の選手名や、その背番号、或いは、監督や審判員の名前などである。これらの情報は、人物を特定可能な情報とされる。選手名としては、ファーストネームやファミリーネームだけでなく、愛称などが含まれる。
 また、投稿データ抽出部2が抽出するキーワードは、プレイの内容を示すシーン種別の情報であってもよい。具体的には、タッチダウンやフィールドゴールなどの得点シーンについての種別情報や、オフサイドやホールディングなどの各種反則についての種別情報などである。或いは通常よりもよいプレイを示す情報や失敗となったプレイを示す情報としてスーパープレイや失策などの種別であってもよい。
 投稿データ抽出部2が抽出する情報は、ダイジェスト映像DVを生成するための指標となる情報である。特に、SNSに投稿された情報は、視聴者の興味関心に沿ったダイジェスト映像DVを生成するために用いられる情報である。
 投稿データ抽出部2が抽出する情報は、イベントにおける特定のシーンについての情報であり、これを「シーン関連情報」と記載する。
 メタデータ抽出部3は、試合の展開等を表す情報が含まれたメタデータを抽出する処理を行う。メタデータとは、例えば、試合を運営している企業が独自に配信している情報であってもよいし、試合を観戦しながら試合展開等の各種情報を記録している記録員(スコアラー)によって入力された情報であってもよいし、スポーツについての情報を扱う企業から配信されるデータであってもよい。或いは、ウェブ上にアップロードされた試合展開についての情報であってもよい。
 メタデータの一例を挙げると、タッチダウンやフィールドゴールや反則や選手の交代や選手の退場など試合中に発生するシーンの種別情報と、シーンの発生時刻と、シーンに関わった選手情報と、シーンの発生に伴う得点の変化などの情報が紐付けられた情報がメタデータである。
 メタデータは、試合において特定のシーンが発生するごとに配信されてもよいし、試合終了後にまとめて配信されてもよい。
 メタデータ抽出部3は、イベントにおける特定のシーンについての情報であり、この情報も「シーン関連情報」とされる。
 情報処理装置1は、メタデータ抽出部3がメタデータの抽出処理を実行可能なように、通信ネットワークNWを介してメタデータサーバ200との相互通信が可能に構成されている。
 映像解析部4は、試合会場に配置された複数の撮像装置CAから映像を受信する処理を行うと共に、受信した映像に対する画像解析処理を行う。
 また、映像解析部4は、放送された映像である放送映像VAを取得する処理を行い、放送映像VAに対する画像解析処理を行う。
 なお、図1には撮像装置CAの一例として第1撮像装置CA1、第2撮像装置CA2、第3撮像装置CA3を例示しているが、これは一例であり、1台のみの撮像装置CAが試合会場に設置されていてもよいし、4台以上の撮像装置CAが試合会場に設置されていてもよい。
 また、第1撮像装置CA1から得た映像を第1映像V1とし、第2撮像装置CA2から得た映像を第2映像V2とし、第3撮像装置CA3から得た第3映像をV3とする。
 各撮像装置CAは同期されており、タイムコードを参照することにより同タイミングで撮像された画像が分かるようにされている。
 映像解析部4は、画像解析処理によって、時間ごとに撮像されている被写体の情報を得る。被写体の情報としては、例えば、選手名などの被写体の名前や背番号情報や撮像角度や被写体の姿勢などである。また、顔の特徴や、髪型や、髪色や、表情などに基づいて被写体を特定してもよい。
 映像解析部4は、画像解析処理によって、シーンを特定するシーン種別の情報を得る。シーン種別の情報としては、例えば、撮像されているシーンが得点シーンであるのか、反則シーンであるのか、選手の交代シーンであるのか、負傷シーンであるのかなどの情報である。前述した被写体の姿勢検出によってシーン種別を特定してもよい。例えば、審判員の姿勢を検出することにより審判員のジャッジ内容を推定してシーン種別を特定してもよいし、選手のガッツポーズを検出することにより得点シーンを検出してもよい。
 映像解析部4は、画像解析処理によってイン点及びアウト点を特定する。イン点及びアウト点は、撮像装置CAが撮像した映像の切り出し範囲を特定するための情報である。以降の説明においては、一組のイン点及びアウト点によって切り出された所定範囲の映像を「クリップ映像CV」として記載する。
 イン点及びアウト点は、例えば、検出対象のプレイが発生した瞬間を画像解析処理により特定し、そこを基点として決定してもよい。
 また、放送映像VAに基づいてイン点及びアウト点を検出する場合には、映像の切り替わりのタイミングを検出することにより行ってもよい。即ち、映像解析部4は、放送映像VAに対する画像解析処理を行い、撮像装置CAのスイッチング点を検出することにより、イン点及びアウト点を特定してもよい。
 映像解析部4は、映像に対して画像解析処理によって得られた情報を付与する。例えば、第1映像V1においてある時間帯に選手Aと選手Bが撮像されていること、そして、当該時間帯はタッチダウンのシーンであることなどが紐付けられて記憶される。
 これにより、例えば、特定の選手が撮像されたシーンを用いてダイジェスト映像DVを作成したい場合などに、特定の選手が撮像された時間帯を容易に特定することができる。
 映像解析部4は、放送映像VAに対する画像解析処理を実行することにより、試合展開を特定する。
 放送映像VAは、第1映像V1や第2映像V2や第3映像V3を素材として特定の部分映像(クリップ映像CV)を繋ぎ合わせると共に、得点情報や選手名情報などの各種情報が重畳されて生成されたものである。
 画像解析処理では、映像に重畳された字幕や三次元画像などを認識することにより、得点の推移や選手交代や画像に撮像された選手の選手名や試合における経過時間などを特定する。
 また、映像解析部4は、画像解析処理を行うことにより、映像ごとにスコアを付与してもよい。スコアは、撮像されている被写体を特定した場合における尤度として算出されてもよいし、視聴者に対して提示する映像として適切であるか否かを表す指標として算出されてもよい。
 なお、図1においては、映像解析部4が撮像装置CAから映像を取得する構成を示しているが、撮像装置CAにおいて撮像された映像が記憶された記憶装置から映像を取得してもよい。
 映像生成部5は、第1映像V1、第2映像V2及び第3映像V3を用いてダイジェスト映像DVを生成する処理を行う。
 そのために、映像生成部5は特定部10とクリップ集生成部11とダイジェスト映像生成部12とを備える(図2参照)。
 特定部10は、ダイジェスト映像DVを生成するための補助情報SDを特定する処理を行う。ここで、ダイジェスト映像DVの生成の流れの一例を示す。
 あるスポーツの試合で得点シーンが発生したとする。この場合には、該得点シーンについてのクリップ集CSが生成される。クリップ集CSは、複数のクリップ映像CVを結合したものであり、例えば、第1撮像装置CA1によって撮像された第1映像V1の中から該得点シーンが撮像された時間帯を切り出したクリップ映像CVと、第2撮像装置CA2によって撮像された第2映像V2の中から該得点シーンが撮像された時間帯を切り出したクリップ映像CVと、第3撮像装置CA3によって撮像された第3映像V3の中から該得点シーンが撮像された時間帯を切り出したクリップ映像CVが結合されて、該得点シーンについてのクリップ集CSが生成される。
 このようなクリップ集CSは、例えば、得点シーンの数だけ、或いは反則シーンの数だけ、または、選手交代のシーンの数だけ生成される。
 ダイジェスト映像DVは、このように生成された複数のクリップ集CSから視聴者に対して提示すべきクリップ集CSを選択し、結合することにより生成される。
 クリップ集CSに含めるクリップ映像CVの選択には、例えば、補助情報SDが用いられる。補助情報SDは、ダイジェスト映像DVに含まれるクリップ集CSを複数のクリップ集CSから選択する際に用いられるキーワードとされる。SNSである選手の名前が頻繁に投稿されている場合には、当該選手に対する視聴者の関心が高いと判定できる。その場合には、当該選手が関わった得点シーンや反則シーンなどが選択されてダイジェスト映像DVに組み込まれる。
 なお、選手名や上述した愛称だけでなく、選手を特定できる情報であればよく、例えば、ポジション名や審判などのキーワードであってもよい。
 或いは、補助情報SDは、シーン種別情報としてのキーワードとされてもよい。例えば、SNSで反則シーンについての投稿が多い場合には、反則シーンに対する視聴者の関心が高いと判定できる。その場合には、反則シーンのクリップ集CSが選択されてダイジェスト映像DVに組み込まれる。
 なお、補助情報SDは、得点シーンや反則シーンなどのような種別情報であってもよいし、それよりも更に細かいフィールドゴールシーンやタッチダウンシーンや具体的な反則名などのような種別情報を示すキーワードであってもよい。
 また、補助情報SDは、クリップ集CSに含まれるクリップ映像CVの結合順序を示すものであってもよい。
 補助情報SDに基づいてクリップ集CSを生成することで、例えば、図3に示すように、第1映像V1がフィールドのサイドから俯瞰で撮像した広角映像とされ、第2映像V2がボール保持した選手付近を撮像した望遠映像とされ、第3映像V3がゴールポスト側から撮像した映像とされていた場合に、各映像から切り出したクリップ映像CVを適切な順序で結合することが可能となる。
 なお、結合順序を示す補助情報SDは、シーン種別に応じて異なるものとされてもよい。例えば、得点シーンは広角映像から開始され、反則シーンは望遠映像から開始されるようにしてもよい。
 他にも、補助情報SDは、放送された映像であるか否かを示す情報であってもよい。視聴者は、試合についての放送映像VAを既に視聴済みである可能性がある。
 そのような視聴者に対して同じ映像を視聴させても視聴者に対して有意な情報を提供することにはならないため、視聴者が視聴していない角度から撮像された映像が含まれるようにダイジェスト映像DVを生成することが考えられる。放送された映像であるか否かを示す補助情報SDは、このような場合においてクリップ集CSの選択或いはクリップ映像CVの選択に用いられる。
 クリップ集生成部11は、補助情報SDに基づいてクリップ映像CVの生成を行う。具体的には、選手名などの特定された補助情報SDを映像解析部4に提示することにより、映像解析部4に当該選手が撮像された映像のイン点及びアウト点を決定させクリップ映像CVを生成させる。
 クリップ集生成部11は、クリップ映像CVを結合してクリップ集CSを生成する。クリップ映像CVの結合順序は、補助情報SDに基づいてもよいし、予め決められた所定の順序とされてもよい。
 即ち、クリップ集生成部11は、映像解析部4による画像解析処理の解析結果と補助情報SDとを用いてクリップ集CSを生成する。
 なお、クリップ集生成部11は、二つのクリップ映像CVを結合する際に、映像が切り替わることを表現する画像をクリップ映像CV間に挿入してもよい。
 ダイジェスト映像生成部12は、クリップ集生成部11によって生成されたクリップ集CSを結合してダイジェスト映像DVを生成する。
 クリップ集CSの結合順序は、例えば、各シーンの発生時刻に沿って決定される。クリップ集CSの間には、映像が切り替わることを表現する画像等が挿入されてもよい。
 生成されたダイジェスト映像DVは、SNSに投稿されてもよいし、ウェブページ上にアップロードされてもよい。
<2.処理フロー>
 情報処理装置1が実行する処理についていくつかの例を説明する。
<2-1.第1の処理フロー>
 第1の処理フローの例を図4から図7の各図に示す。具体的には、情報処理装置1の投稿データ抽出部2が実行する処理フローの一例を図4に、メタデータ抽出部3が実行する処理フローの一例を図5に、映像解析部4が実行する処理フローの一例を図6に、映像生成部5が実行する処理フローの一例を図7に示す。
 投稿データ抽出部2は、図4のステップS101においてSNSの投稿データの解析を行う。この解析処理によって出現頻度の高いキーワードや注目度の高いキーワードが抽出される。これらのキーワードは、例えば、前述した選手名やシーン種別である。
 次に、投稿データ抽出部2はステップS102において、抽出されたキーワードが対象のイベントに関連しているか否かを判定する。具体的には、抽出された人名がダイジェスト映像DVの生成対象となる試合に参加しているチームの一員として存在するか否かを判定したり、抽出されたキーワードが対象の試合に関連するものであるか否かを判定したりする。
 対象とするイベントに関連していると判定した場合、投稿データ抽出部2はステップS103において、抽出したキーワードをメタデータ抽出部3に出力する処理を行う。
 一方、対象とするイベントに関連していないと判定した場合、投稿データ抽出部2はステップS103の処理を行わずにステップS104において、イベントが終了したか否かを判定する。
 イベントは終了していないと判定した場合、投稿データ抽出部2はステップS101の処理へと戻ることにより、キーワードの抽出を継続する。
 一方、イベントは終了したと判定した場合、投稿データ抽出部2は図4に示す一連の処理を終了する。
 なお、図4及び以降に示す各図においては、イベントの進行と並行してダイジェスト映像DVを生成するためのクリップ集CSを生成する例であるため、ステップS104においてイベントが終了しているか否かを判定する処理を実行している。
 これに対して、イベントの終了後にクリップ集CS及びダイジェスト映像DVの生成を行う場合には、ステップS104の判定処理の代わりに、イベントが開催されていた時間帯においてSNSに投稿された投稿データすべてに対してキーワード等の抽出を終えたか否かを判定する処理を実行すればよい。
 投稿データ抽出部2が図4に示す一連の処理を実行することにより、スポーツの試合などのイベントの開始からイベントの終了にかけて、SNSに投稿された投稿データからキーワードが継続的に抽出されて、適宜メタデータ抽出部3に出力される。
 投稿データ抽出部2による図4に示す処理の実行と並行して、メタデータ抽出部3は図5に示す一連の処理を実行する。
 具体的に、メタデータ抽出部3はステップS201において、メタデータサーバ200から取得したメタデータを解析してイベントにおいて発生したシーンを特定するための情報を抽出する。例えば、アメリカンフットボールの試合であれば、シーン種別の一つであるタッチダウンに該当するシーンが発生した時刻と、タッチダウンによって得点を得た選手名と、タッチダウンによる得点の変化の情報などを抽出する。
 続いて、メタデータ抽出部3はステップS202において、SNSの投稿から抽出されたキーワードを投稿データ抽出部2から得たか否かを判定する。
 キーワード情報を得ていない場合、メタデータ抽出部3はステップS201の処理へと戻る。
 キーワード情報を得ていた場合、メタデータ抽出部3はステップS203において取得したキーワードに関連するメタデータを特定する。
 続いて、メタデータ抽出部3はステップS204において、特定したメタデータを映像解析部4へと出力する。
 そして、メタデータ抽出部3はステップS205において、イベントが終了したか否かを判定する。
 イベントは終了していないと判定した場合、メタデータ抽出部3はステップS201の処理へと戻ることにより、メタデータを解析する処理を行う。
 一方、イベントは終了したと判定した場合、メタデータ抽出部3は図5に示す一連の処理を終了する。
 メタデータ抽出部3が図5に示す一連の処理を実行することにより、スポーツの試合などのイベントの開始からイベントの終了にかけて、外部の情報処理装置としてのメタデータサーバ200に蓄積されるメタデータの解析処理が継続的に実行されて、試合中に発生する各シーンの情報が抽出される。
 投稿データ抽出部2による図4に示す処理の実行とメタデータ抽出部3による図5に示す処理の実行に並行して、映像解析部4は図6に示す一連の処理を実行する。
 映像解析部4はステップS301において、第1映像V1や第2映像V2や第3映像V3や放送映像VAなどの複数の映像に対して画像認識処理を行うことにより映像解析を行い、映像中に撮像された背番号や、選手の顔や、ボールなどを識別する。また、映像解析部4は、更にカメラアングルを特定してもよいし、クリップ映像CVを生成するためのイン点及びアウト点を特定してもよい。
 顔認識処理においては、認識結果の尤もらしさを示す尤度情報を算出してもよい。尤度情報は、後段の映像生成部5における映像の選択処理などに利用される。
 画像認識処理によって特定された情報は、複数の映像ごとに試合経過時間や録画開始からの経過時間などの時間情報と紐付けられて記憶される。
 映像解析部4はステップS302において、イベントが終了したか否かを判定する。
 イベントは終了していないと判定した場合、映像解析部4はステップS301の処理へと戻ることにより、映像解析処理を継続して行う。
 一方、イベントは終了したと判定した場合、映像解析部4は図6に示す一連の処理を終了する。
 映像解析部4が図6に示す一連の処理を実行することにより、スポーツの試合などのイベントの開始からイベントの終了にかけて撮像された映像について、各種の情報が抽出される。
 映像生成部5は投稿データ抽出部2とメタデータ抽出部3と映像解析部4の処理結果に応じてダイジェスト映像DVを生成する。
 具体的に、映像生成部5は図7のステップS401において、キーワードやメタデータを取得したか否かを判定する。
 投稿データ抽出部2からSNSに投稿されたキーワードを取得していた場合や、メタデータ抽出部3からメタデータについての情報を取得していた場合には、映像生成部5はステップS402へと進み、キーワードまたはメタデータに基づいて対象シーンについてのクリップ映像CVを生成する処理を行う。この処理は、対象シーンについて映像解析部4によって特定されたイン点及びアウト点に基づいてクリップ映像CVを生成する。
 クリップ映像CVを生成した後、映像生成部5はステップS403において、クリップ映像CVを結合して対象シーンについてのクリップ集CSを生成する。クリップ映像CVは、例えば、第1映像V1と第2映像V2と第3映像V3を予め決められた順序で結合することにより生成されてもよい。
 或いは、シーン種別に応じて所定のカメラアングルの順序で映像が結合されるようにテンプレートが用意され、各撮像装置CAごとのカメラアングルの情報に基づいて各クリップ映像CVを当該テンプレートに当てはめることにより最適な順序でクリップ映像CVが結合されるようにしてもよい。
 クリップ映像CVを生成した後、映像生成部5はステップS401の処理へと戻る。
 ステップS401の判定処理において、キーワードやメタデータを取得していないと判定した場合、映像生成部5はステップS404へと進み、イベントが終了したか否かを判定する。
 イベントはまだ終了していないと判定した場合、映像生成部5はステップS401へと戻り、クリップ映像CVとクリップ集CSの生成を継続する。
 一方、イベントは終了したと判定した場合、映像生成部5はステップS405へと進み、クリップ集CSを結合してダイジェスト映像DVを生成する。
 ダイジェスト映像DVは、基本的に試合中に起きた各シーンについてのクリップ集CSを時系列順に結合することにより生成される。
 なお、ダイジェスト映像DVの再生時間長に制限がある場合には、クリップ集CSの中から優先度が高いクリップ集CSが含まれるように取捨選択をしながらダイジェスト映像DVを生成することとなる。
 優先度が高いクリップ集CSとは、いずれかのチームが得点したシーンに対応したクリップ集CSや、SNSの投稿データから視聴者の関心が高いと推定されるシーンに対応したクリップ集CSなどである。
 なお、クリップ集CSの選択においては、試合終了後の所定期間(10分や30分など)に投稿された投稿データを用いてもよい。例えば、試合終了後の所定期間に投稿された投稿データは、試合を総括するような投稿や、その試合でもう一度みたいシーンに言及した投稿などが含まれていることが推定される。
 そのような投稿データに基づいてクリップ集CSを選択することにより、視聴者の興味関心の高いダイジェスト映像DVを生成することが可能となる。
 ダイジェスト映像DVを生成した後、映像生成部5はステップS406において、ダイジェスト映像DVを保存する処理を行う。ダイジェスト映像DVが保存される場所は、情報処理装置1の内部にある記憶部であってもよいし、情報処理装置1とは別のサーバ装置の記憶部であってもよい。
<2-2.第2の処理フロー>
 第2の処理フローの例を図8から図11の各図に示す。なお、第1の処理フローにおいて説明した処理と同様の処理については、同じステップ番号を付し適宜説明を省略する。
 投稿データ抽出部2は、図8のステップS101において、SNSの投稿データの解析を行う。この解析処理によって選手名やシーン種別などの出現頻度の高いキーワードや注目度の高いキーワードが抽出される。
 次に、投稿データ抽出部2はステップS102において、抽出されたキーワードが対象のイベントに関連しているか否かを判定する。
 対象とするイベントに関連していると判定した場合、投稿データ抽出部2はステップS110において、抽出したキーワードを分類する処理を行う。
 例えば、抽出したキーワードを、選手や審判員や監督などの人物に関連するキーワードと、フィールドゴールやタッチダウンなど得点シーンに関連するキーワードと、オフサイドやホールディングなど反則シーンに関連するキーワードの何れかに分類する。
 なお、ここで示した三つの分類はあくまで一例であり、キーワードをそれ以外のカテゴリに分類してもよい。
 キーワードを分類した後、投稿データ抽出部2はステップS111において、分類結果をメタデータ抽出部3に出力する。
 一方、対象とするイベントに関連していないと判定した場合、または、ステップS111を実行した後、投稿データ抽出部2はステップS110及びステップS111の各処理を行わずにステップS104において、イベントが終了したか否かを判定する。
 イベントは終了していないと判定した場合、投稿データ抽出部2はステップS101の処理へと戻ることにより、キーワードの抽出を継続する。
 一方、イベントは終了したと判定した場合、投稿データ抽出部2は図8に示す一連の処理を終了する。
 投稿データ抽出部2による図8に示す処理の実行と並行して、メタデータ抽出部3は図9に示す一連の処理を実行する。
 メタデータ抽出部3は図9のステップS210において、キーワードの分類結果を取得したか否かを判定する。
 分類結果を取得したと判定した場合、メタデータ抽出部3はステップS211において、分類結果に応じた分岐処理を行う。
 例えば、抽出したキーワードが人物に関連するものであった場合、メタデータ抽出部3はステップS212において、キーワードに関連する人物が含まれるメタデータを特定する。
 或いは、抽出したキーワードが得点シーンに関連するものであった場合、メタデータ抽出部3はステップS213において、得点シーンについてのメタデータを特定する。
 また、抽出したキーワードが反則シーンに関連するものであった場合、メタデータ抽出部3はステップS214において、反則シーンについてのメタデータを特定する。
 ステップS212、S213またはS214の何れかを実行した後、メタデータ抽出部3はステップS204へと進み、特定したメタデータ及び先述の分類結果を映像解析部4へと出力する。
 そして、メタデータ抽出部3はステップS205において、イベントが終了したか否かを判定する。
 イベントは終了していないと判定した場合、メタデータ抽出部3はステップS210の処理へと戻ることにより、分類結果の取得判定を行う。
 一方、イベントは終了したと判定した場合、メタデータ抽出部3は図9に示す一連の処理を終了する。
 投稿データ抽出部2による図8に示す処理とメタデータ抽出部3による図9に示す処理に並行して、映像解析部4は図10に示す一連の処理を実行する。
 映像解析部4はステップS310において、メタデータ抽出部3からメタデータや分類結果を取得したか否かを判定する。
 メタデータを取得していないと判定した場合、映像解析部4はステップS310の処理を再び実行する。
 一方、メタデータを取得したと判定した場合、映像解析部4はステップS311へと進み、分類結果に応じた分岐処理を行う。
 例えば、メタデータが人物に関連するものであった場合、映像解析部4はステップS312において、特定された人物が撮像された時間帯を特定するために画像認識処理による背番号認識や顔認識を行う。
 或いは、メタデータが得点シーンに関連するものであった場合、映像解析部4はステップS313において、得点シーンを特定するために画像認識処理によるスコアボード認識を行う。
 画像認識処理によるスコアボード認識とは、例えば、会場に設置されているスコアボードが撮像された箇所を検出してスコアボードの点数を抽出する処理を行ってもよいし、放送映像VAを解析することにより撮像画像に重畳された字幕やグラフィックス等を認識することにより両チームの点数の変化を検出してもよい。
 なお、メタデータによって得点シーンが発生した時刻が明らかであるため、撮像された映像の全体を対象として画像認識処理を行うのではなく、特定された時刻を中心とした前後所定範囲の映像を対象として画像認識処理を行えばよい。これにより、画像認識処理に係る処理負担の軽減や処理時間の短縮を図ることができる。
 また、抽出したキーワードが反則シーンに関連するものであった場合、映像解析部4はステップS314において、反則シーンを特定するために画像認識処理による反則表示の検出を行う。
 反則シーンを特定するための画像認識処理とは、例えば、フィールド内に投げ込まれたイエローフラッグを認識することにより反則シーンの発生タイミングを特定してもよいし、放送映像VAを解析することにより撮像画像に重畳された字幕やグラフィックス等を認識することにより反則シーンを特定してもよい。
 また、サッカーであれば、審判員の姿勢を検出することにより、対象選手に対してイエローカードやレッドカードを掲げているシーンを反則シーンとして特定してもよい。
 ステップS314の画像解析処理においてもステップS313と同様にメタデータに基づいて所定の区間の映像を対象として処理を行えばよい。
 ステップS312、S313またはS314の何れかを実行した後、映像解析部4はステップS315へと進み、画像解析処理によってカメラアングルを特定する。
 ここで特定されたカメラアングルの情報は、後段のクリップ集CSを生成する処理において用いられる。
 続いて、映像解析部4はステップS316において、イン点及びアウト点を特定するための画像解析処理を実行する。
 なお、イン点及びアウト点は、シーンの発生タイミングを基点として決められてもよい。例えば、シーンの発生タイミングの15秒前をイン点とし、イン点から20秒後をアウト点としてもよい。
 映像解析部4はステップS302において、イベントが終了したか否かを判定する。
 イベントは終了していないと判定した場合、映像解析部4はステップS310の処理へと戻る。
 一方、イベントは終了したと判定した場合、映像解析部4は図10に示す一連の処理を終了する。
 映像生成部5は投稿データ抽出部2とメタデータ抽出部3と映像解析部4の処理結果に応じてダイジェスト映像DVを生成する。
 具体的に、映像生成部5は図11のステップS410において、イン点及びアウト点を特定したことを検出したか否かを判定する。
 イン点及びアウト点を特定したことを検出した場合には、映像生成部5はステップS411へと進み、イン点及びアウト点に基づいてクリップ映像CVを生成する処理を行う。
 クリップ映像CVを生成した後、映像生成部5はステップS403において、クリップ映像CVを結合して対象シーンについてのクリップ集CSを生成する。
 クリップ映像CVを生成した後、映像生成部5はステップS410の処理へと戻る。
 ステップS410の判定処理において、イン点及びアウト点を特定したことを検出していないと判定した場合、映像生成部5はステップS404へと進み、イベントが終了したか否かを判定する。
 イベントはまだ終了していないと判定した場合、映像生成部5はステップS410へと戻る。
 一方、イベントは終了したと判定した場合、映像生成部5はステップS405へと進み、クリップ集CSを結合してダイジェスト映像DVを生成し、続くステップS406において、ダイジェスト映像DVを保存する処理を行う。
<2-3.第3の処理フロー>
 第3の処理フローは、メタデータを利用せずにダイジェスト映像DVを生成する場合の例である。
 具体的に、図8、図10及び図11の各図を参照して説明する。
 投稿データ抽出部2は図8に示す一連の処理を実行することにより、イベントに関連したキーワードを抽出し分類する。分類結果は、ステップS111において映像解析部4へ出力される。
 メタデータ抽出部3はメタデータの解析を行う必要が無いため、処理を行わない。
 映像解析部4は、図10のステップS310において、メタデータを取得したか否かを判定する代わりにキーワードの分類結果を取得したか否かを判定する。
 そして、キーワードの分類結果に応じて適宜ステップS311からS316の各処理を実行する。
 映像生成部5は、図11に示す一連の処理を実行することにより、ダイジェスト映像DVを生成する。
 このように、メタデータを利用せずにSNSへの投稿データのみを用いて視聴者に訴求力のあるダイジェスト映像DVを生成することができる。
<2-4.クリップ集の生成処理のフロー>
 図7や図11のステップS403で説明したクリップ集CSの生成処理について、具体的な処理の流れを説明する。
 一つ目の例は、シーンの種別ごとに異なるテンプレートを用いる例である。
 映像生成部5は図12のステップS501において、対象シーンのシーン種別に応じた分岐処理を行う。対象シーンの種別は、キーワードから推定してもよいし、メタデータに基づいて決定されてもよい。
 シーン種別がタッチダウンシーンである場合には、映像生成部5はステップS502において、タッチダウンシーン用のテンプレートを選択する。
 テンプレートは前述したように、どのようなカメラアングルの映像をどのような順序で結合するかについて定めた情報とされる。
 シーン種別がフィールドゴールシーンである場合には、映像生成部5はステップS503において、フィールドゴールシーン用のテンプレートを選択する。
 シーン種別が反則シーンである場合には、映像生成部5はステップS504において、反則シーン用のテンプレートを選択する。
 ステップS502、S503またはS504においていずれかのテンプレートを選択した後、映像生成部5はステップS505において、選択したテンプレートを利用してクリップ集CSを生成する処理を実行する。
 また、ステップS501において、シーン種別が何れにも該当しない場合と判定した場合には、映像生成部5はステップS506において、放送映像VAにおける対象区間をクリップ集CSとして採用する。
 対象区間は、例えば、SNSへの投稿時間に基づいて決定されてもよいし、メタデータにおけるシーン発生時刻に基づいて決定されてもよい。
 ステップS505またはS506のいずれかの処理を実行した後、映像生成部5はクリップ集CSの生成処理を終える。
 もう一つの例は、クリップ集CSの生成だけでなくクリップ映像CVの生成のためのイン点及びアウト点の決定を対象シーンのシーン種別に応じたものとする例である。
 具体的には、図7のステップS402及びステップS403の代わりに実行する処理であり、図11におけるステップS411及びステップS403の代わりに実行する処理である。この処理をステップS421として説明する(図13参照)。
 映像生成部5はステップS501において、対象シーンのシーン種別に応じた分岐処理を行う。
 シーン種別がタッチダウンシーンである場合には、映像生成部5はステップS510において、タッチダウンシーン用にイン点及びアウト点を決定してクリップ映像CVを生成する。このとき、イン点及びアウト点は例えばクリップ映像CVが最適な長さとなるように決定されてもよい。
 次に、映像生成部5はステップS502において、タッチダウンシーン用のテンプレートを選択する。
 また、シーン種別がフィールドゴールシーンである場合には、映像生成部5はステップS511において、フィールドゴールシーン用にイン点及びアウト点を決定してクリップ映像CVを生成する。
 次に、映像生成部5はステップS503において、フィールドゴールシーン用のテンプレートを選択する。
 更に、シーン種別が反則シーンである場合には、映像生成部5はステップS512において、反則シーン用にイン点及びアウト点を決定してクリップ映像CVを生成する。
 次に、映像生成部5はステップS504において、反則シーン用のテンプレートを選択する。
 ステップS502、S503またはS504の何れかを実行した後、映像生成部5はステップS505において、選択したテンプレートを利用してクリップ集CSを生成する処理を実行する。
 また、ステップS501において、シーン種別が何れにも該当しない場合と判定した場合には、映像生成部5はステップS506において、放送映像VAにおける対象区間をクリップ集CSとして採用する。
 対象区間は、例えば、SNSへの投稿時間に基づいて決定されてもよいし、メタデータにおけるシーン発生時刻に基づいて決定されてもよい。
 ステップS505またはS506のいずれかの処理を実行した後、映像生成部5はクリップ集CSの生成処理を終える。
 なお、図12及び図13においては、反則シーンに対して一つのテンプレートが用意されている例を示したが、反則の種類に応じて異なるテンプレートが用意されていてもよい。また、図示するケースだけでなく、負傷シーンなど他のシーン種別に対してもテンプレートが用意されていてもよい。
<3.スコアリングについて>
<3-1.スコアリング方法>
 クリップ集CSの再生時間長に制限がある場合には、選択したクリップ映像CVを全て結合できない場合もある。そのような場合には、各クリップ映像CVにスコアを付すスコアリング処理を行い、スコアの高いクリップ映像CVが優先的にクリップ集CSに含まれるようにしてもよい。
 図14は、撮像装置CAごとのクリップ映像CVについて、被写体の大きさに対するスコアリングの結果付与されたスコアと、被写体の向きに対するスコアリングの結果付与されたスコアの一例を示している。なお、各スコアは0~1の範囲の値とされ、値が大きいほどよいスコアとされている。
 第1映像V1は俯瞰の映像であり、被写体が小さく撮像されているため、被写体の大きさについてのスコアは0.02とされている。また、被写体の向きについても被写体が小さく向きがわかりにくく、被写体の顔のパーツがはっきりと判別できないため、被写体の向きについてのスコアは0.1とされている。
 第2映像V2はボールを保持した選手が大きく映し出された望遠映像であり、被写体の大きさについてのスコアは0.85とされている。また、被写体の向きは撮像装置CAに対して正面を向いており、且つ、被写体の顔のパーツがはっきり撮像されているため、被写体の向きについてのスコアは0.9とされている。
 第3映像V3は、比較的狭いエリアを撮像した俯瞰の映像であり、被写体の大きさもそれほど大きくないため、被写体の大きさについてのスコアは0.1とされている。また、被写体の向きについても被写体が小さく向きがわかりにくく、被写体の顔のパーツがはっきりと判別できないため、被写体の向きについてのスコアは0.1とされている。
 第4映像V4は、第4撮像装置CA4によって撮像された映像である。第4映像V4は、被写体が大きく撮像された望遠映像であり、被写体の大きさに対するスコアは0.92とされている。しかし、被写体の向きは撮像装置CAに対して正対していないため、被写体の向きについてのスコアは0.1とされている。
 被写体が大きく映っている映像を優先する場合には、第4映像V4が優先的に選択される。
 また、被写体の正面が撮像された映像を優先する場合には、第2映像V2が優先的に選択される。
 このように、目的に応じて異なるスコアを参照してクリップ映像CVの選択を行うことにより、訴求力のあるクリップ集CS及びダイジェスト映像DVを生成することができる。
 なお、スコアリングは、クリップ映像CVごと算出するだけでなく、複数のクリップ映像CVが含まれたクリップ集CSごとに算出してもよい。
 そして、ダイジェスト映像DVに含まれるクリップ集CSを選択する場合に、当該スコアリングによって付与されたクリップ集CSごとのスコアが高いクリップ集CSが含まれやすくなるようにしてもよい。
 また、クリップ映像CVのスコアリング処理においては、最も高いスコアが付与された撮像画像を含むクリップ映像CVを選択してもよいし、各撮像画像の平均スコアに基づいてクリップ映像CVを選択してもよい。平均スコアとは、例えば、クリップ映像CVに含まれる撮像画像ごとに算出されたスコアを平均したものである。
<3-2.スコアを用いた映像選択における処理フロー>
 図7や図11のステップS403で説明したクリップ集CSの生成処理の具体的な処理手順について説明する。特に、本例においては、スコアを用いてクリップ集CSを生成する例について説明する。
 なお、スコアリング処理については、図6のステップS301や、図10のステップS316の後において、映像解析部4により実行される。従って、図15に示す一連の処理を実行する段階においては、クリップ映像CVごとにスコアが種々のスコアが付与された状態とされる。
 映像生成部5は図15のステップS601において、スコアが閾値以上とされたクリップ映像CVを選択する。これにより、スコアが低く視聴者に対して魅力的でない映像を省くことができる。
 映像生成部5はステップS602において、クリップ映像CVをスコア順に結合することによりクリップ集CSを生成する。
 スコアリング処理によって付与されたスコアは、視聴者にとって見やすい映像であると共に当該シーンにおいて何が起きたかを把握するのに適切な映像であることを示す指標とみなすことができる。
 スコアが高いクリップ映像CVから順に結合されてクリップ集CSが生成されることにより、クリップ集CSを視聴した視聴者は、当該シーンにおいて何が起きたのかを正しく理解することができる。換言すれば、スコアが低いクリップ映像CVを視聴してしまい、当該シーンにおいて起きた事象を視聴者が理解できない状態を招来してしまうことを防止することができる。
 スコアを用いてクリップ集CSを生成する処理の他の例について、図16を参照して説明する。
 なお、本例は、クリップ映像CVの生成とクリップ集CSの生成を行う処理であり、図7のステップS402及びステップS403の代わりに実行する処理、或いは、図11におけるステップS411及びステップS403の代わりに実行する処理である。
 先述した例と同様に、この処理をステップS421として図16を参照して説明する。なお、図16に示す各処理は、映像生成部5が実行するものとして説明するが、一部の処理を映像解析部4が実行してもよい。
 映像生成部5は、ステップS501において、対象シーンのシーン種別に応じた分岐処理を行う。
 シーン種別がタッチダウンシーンである場合には、映像生成部5はステップS610において、タッチダウンシーンに最適な映像(撮像装置CA)を選択する。選択される映像は複数であってもよい。即ち、複数の撮像装置CAが選択されてもよい。
 次に、映像生成部5はステップS502において、タッチダウンシーン用のテンプレートを選択する。
 また、シーン種別がフィールドゴールシーンである場合には、映像生成部5はステップS611において、フィールドゴールシーンに最適な映像を選択する。
 次に、映像生成部5はステップS503において、フィールドゴールシーン用のテンプレートを選択する。
 更に、シーン種別が反則シーンである場合には、映像生成部5はステップS612において、反則シーン用に最適な映像を選択する。
 次に、映像生成部5はステップS504において、反則シーン用のテンプレートを選択する。
 ステップS502、S503またはS504の何れかを実行した後、映像生成部5はステップS613において、対象シーンが撮像された区間からスコアが閾値以上の区間についてのイン点及びアウト点を決定しクリップ映像CVを生成する。この処理は、選択された映像ごとに実行される。
 次に映像生成部5はステップS505において、選択したテンプレートを利用してクリップ集CSを生成する処理を実行する。
 また、ステップS501において、シーン種別が何れにも該当しない場合と判定した場合には、映像生成部5はステップS506において、放送映像VAにおける対象区間をクリップ集CSとして採用する。
 対象区間は、例えば、SNSへの投稿時間に基づいて決定されてもよいし、メタデータにおけるシーン発生時刻に基づいて決定されてもよい。
 ステップS505またはS506のいずれかの処理を実行した後、映像生成部5はクリップ集CSの生成処理を終える。
 スコアを用いてクリップ集CSを生成する処理の更に他の例について、図17を参照して説明する。
 なお、本例は、クリップ映像CVの生成とクリップ集CSの生成を行う処理であり、図7のステップS402及びステップS403の代わりに実行する処理、或いは、図11におけるステップS411及びステップS403の代わりに実行する処理である。
 映像生成部5は図17のステップS601において、スコアが閾値以上とされたクリップ映像CVを選択する。これにより、スコアが低く視聴者に対して魅力的でない映像を排除することができる。
 映像生成部5はステップS613において、選択されたクリップ映像CVのうち、スコアが閾値以上の区間を切り出して新たにクリップ映像CVとして生成する。
 具体的には、スコアが閾値上とされた区間のイン点及びアウト点を決定してクリップ映像CVを生成する。この処理は、選択された映像ごとに実行される。
 映像生成部5はステップS602において、クリップ映像CVをスコア順に結合することによりクリップ集CSを生成する。
 これにより、スコアが高いクリップ映像CVの中からスコアが高い区間を更に厳選されて切り出されるため、視聴者の興味関心の高い映像のみを用いたダイジェスト映像DVなどを生成することができる。
<4.変形例>
 上述した例では、SNSから投稿データを抽出することを示した。ここで、投稿データの抽出対象としては、不特定多数のアカウントであってもよいし、特定のアカウントであってもよい。不特定多数のアカウントについての投稿データを抽出することにより、視聴者の興味関心をより把握することが可能となる。
 一方、チームの関係者や試合の実況を行っている者などが利用する特定のアカウントについての投稿データを抽出することにより、誤った情報を抽出してしまう可能性を低減させることができる。即ち、ある程度のノイズを除去することができる。
 また、投稿データの抽出は、投稿データそのものを抽出してもよいし、投稿データに統計処理を施した後に得られる情報であってもよい。例えば、直近の所定時間に投稿された情報に出現する頻度が高いキーワードなど、統計処理によって抽出された情報であってもよい。
 これらの情報は、SNSへの投稿を管理しているSNSサーバ100において抽出されてもよいし、SNSサーバ100についての投稿を解析する別のサーバ装置から得てもよい。
 映像解析部4は、放送映像VAを解析する例を示した。放送映像VAの解析の際には、画像解析処理だけでなく実況者や解説者による音声を解析する音声解析処理を行ってもよい。これにより、試合中に発生したシーンをより具体的に特定することや正確に特定することが可能となり、当該シーンに関連した選手を特定することも容易となる。また、音声解析処理により、クリップ映像CVを生成するためのイン点及びアウト点を決定してもよい。
 また、観客の歓声などを音声解析することによりシーンの発生タイミングを把握することやシーン種別を特定することなどを行ってもよい。
 上述したシーン種別以外にも、ラフプレイシーン、ミスプレイシーン、好プレイシーン、記念プレイシーンなどを検出してダイジェスト映像DVに含まれるようにしてもよい。
 なお、記念プレイとは、ある選手にとっての通算成績が所定の数値に達した瞬間のプレイや、それまでの記録を塗り替えた際のプレイなどである。
 テンプレートを用いる例では、該当する映像が存在しない場合には、その映像を結合せずにクリップ集CSを生成してもよい。例えば、テンプレートで指定された画角の拡大映像が存在しない場合は、その映像を含めずにクリップ集CSを生成する。
 競技によっては、プレイの種類や反則の種類に応じて審判員のジェスチャーが細かく設定されている場合がある。
 そのような場合には、審判員を撮像する専用の撮像装置CAを会場内に配置し、画像解析処理によって審判員の姿勢やジェスチャーを特定することにより、試合中に起きたプレイの内容、即ち、シーン種別等を特定することが可能となる。
 このようにして得られたシーン種別の情報は、例えば、メタデータの代わりに用いることが可能となる。
 なお、画像解析処理の対象となる審判員は、主審だけでなく副審などが含まれていてもよい。
 また、上述した例では、複数のクリップ集CSを結合してダイジェスト映像DVを生成する例を説明したが、一つのクリップ集CSでダイジェスト映像DVが生成されてもよい。具体的には、視聴者に提示すべきクリップ集CSが一つである場合には、ダイジェスト映像DVは当該クリップ集CSを一つだけ含むように生成されてもよい。
<5.コンピュータ装置>
 上述した情報処理装置1を実現する演算処理部を備えるコンピュータ装置の構成について図18を参照して説明する。
 コンピュータ装置のCPU71は、上述した各種の処理を行う演算処理部として機能し、ROM72や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部74に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU71、ROM72、RAM73、不揮発性メモリ部74は、バス83を介して相互に接続されている。このバス83にはまた、入出力インタフェース(I/F)75も接続されている。
 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。
 例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
 また入出力インタフェース75には、LCD或いは有機ELパネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
 表示部77は各種表示を行う表示部であり、例えばコンピュータ装置の筐体に設けられるディスプレイデバイスや、コンピュータ装置に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース75には、ハードディスクや固体メモリなどより構成される記憶部79や、モデムなどより構成される通信部80が接続される場合もある。
 通信部80は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース75にはまた、必要に応じてドライブ81が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記憶媒体82が適宜装着される。
 ドライブ81により、リムーバブル記憶媒体82から各処理に用いられるプログラム等のデータファイルなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記憶媒体82から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
 このコンピュータ装置では、例えば本実施の形態の処理のためのソフトウェアを、通信部80によるネットワーク通信やリムーバブル記憶媒体82を介してインストールすることができる。或いは当該ソフトウェアは予めROM72や記憶部79等に記憶されていてもよい。
 CPU71が各種のプログラムに基づいて処理動作を行うことで、上述した演算処理部を備えた情報処理装置1としての必要な情報処理や通信処理が実行される。
 なお、情報処理装置1は、図2のようなコンピュータ装置が単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置は、LAN(Local Area Network)等によりシステム化されていてもよいし、インターネット等を利用したVPN(Virtual Private Network)等により遠隔地に配置されたものでもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なサーバ群(クラウド)としてのコンピュータ装置が含まれてもよい。
<6.まとめ>
 上述した各例において説明したように、情報処理装置1は、スポーツの試合などのイベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像DVを生成するための補助情報SDを特定する特定部10を備えている。
 イベントとは、例えば、スポーツの試合やコンサートなどの催し物である。また、補助情報SDとは、例えば、ダイジェスト映像DVを生成するために用いられる情報であり、撮像された映像の中からどの部分の映像を切り出すかを決定するために用いられる情報である。例えば、スポーツの試合であれば、具体的には、選手名やシーンの種別やプレイの種別などの情報が補助情報とされる。
 補助情報SDを特定することで、撮像された映像から切り出すべき時間帯を特定することができるため、ダイジェスト映像DVの生成を行うことができる。
 シーン関連情報は他の情報処理装置(メタデータサーバ200)から配信されるメタデータを含む情報とされていてもよい。
 メタデータとは、スポーツなどの催し物の進行状況が含まれた情報であり、スポーツの試合を例に挙げると、特定のプレイが発生した時間情報とプレイに関係した選手名とプレイの結果として変動した得点の情報などが含まれている。
 このようなメタデータに基づいて補助情報SDを特定することで、撮像された映像から切り出すべき時間帯をより適切に特定することができる。
 シーン関連情報はソーシャルネットワーキングサービス(SNS)の利用ユーザによる投稿に関連する情報を含むものとされていてもよい。
 SNSには催し物の進行状況に合わせて様々な投稿がなされる。そして、SNSへの投稿内容を解析することにより、視聴者の興味関心の高いシーンを特定することが可能となる。
 このようなSNSから得られた情報であるシーン関連情報に基づいて補助情報SDを特定することにより、視聴者の興味関心に適合した適切なシーンが含まれたダイジェスト映像DVを生成することができる。
 なお、上述したように、SNSの利用ユーザによる投稿に関する情報とは、SNSに投稿された情報に関連する情報であり、例えば、直近の所定時間における出現頻度が高いキーワードなどを含むものである。この情報は、SNSに投稿された情報に基づいてキーワードを抽出してもよいし、SNSに付属するサービスによって提示されたキーワードを取得してもよいし、SNSとは異なるサービスによって提示されたキーワードを取得してもよい。
 補助情報SDは、放送映像VAとして採用されたか否かを示す情報とされていてもよい。
 例えば、撮像された映像において放送映像VAとして採用された区間を特定することができれば、放送映像VAとして採用されていない区間を特定することができる。
 これにより、放送映像VAとして採用されていないクリップ映像CVを含むようにダイジェスト映像DVを生成することが可能となる。従って、視聴者にとって新たな映像が含まれたダイジェスト映像DVを提供することが可能となる。
 補助情報SDは、キーワード情報とされていてもよい。
 キーワード情報は、例えば、選手名の情報やシーンの種別情報やプレイの種別常用や用具の名称などの情報である。
 キーワード情報を用いることにより、撮像された映像から切り出すべき時間帯を特定する処理を少ない処理負担で実現することができる。
 キーワード情報は、シーンの種別情報とされていてもよい。
 例えば、撮像された映像から切り出すクリップ映像CVがシーンの種別情報に基づいて決定される。
 従って、所定のシーン種別に応じたクリップ映像CVが含まれたダイジェスト映像DVを生成することができる。
 キーワード情報は、イベントの参加者を特定する情報とされてもよい。
 イベントがスポーツの試合であれば、試合に出場した選手名や背番号などのキーワード情報に基づいて、撮像された映像から切り出すべきシーンが決定される。
 従って、特定の選手に着目したダイジェスト映像DVなどを生成することができる。
 補助情報SDは、イベントを撮像する複数の撮像装置CAから得られる一つ以上のクリップ映像CVが含まれるクリップ集CSの生成に用いられる情報とされていてもよい。
 例えば、補助情報SDとして特定のプレイ種別が選択された場合に、複数の撮像装置CAにおいて撮像された複数の映像(第1映像V1や第2映像V2など)から特定のプレイ種別が撮像された区間を切り出して結合することにより、当該プレイ種別に関するクリップ集CSが生成される。
 このようにして生成されたクリップ集CSが含まれるようにダイジェスト映像DVを生成することで、一つのプレイを異なる角度から視聴することができ、視聴者にとってよりプレイ状況を把握しやすいダイジェスト映像DVを生成することができる。
 クリップ集CSは、イベントにおける特定のシーンを撮像したクリップ映像CVが結合されたものとされ、補助情報SDは、予め決められたクリップ映像CVの結合順序の情報を含んでいてもよい。
 クリップ集CSは、一つのプレイを異なる角度から撮像した部分映像としてのクリップ映像CVが複数結合されたものとされる。
 このようなクリップ集CSの生成において、予め決められた順序で映像を繋ぎ合わせることにより、一つのプレイを異なる角度から視聴することができる映像を視聴者に提供することができると共に、結合順序を決定するための処理負担を軽減することができる。
 クリップ映像CVの結合順序の情報は、特定のシーンについてのシーン種別に応じた情報とされていてもよい。
 即ち、予め決められた順序は、シーンの種別ごとに異なる適切な順序とされていてもよい。
 例えば、アメリカンフットボールの試合において発生した一つのフィールドゴールに対して一つのクリップ集CSを生成する場合に、フィールドゴールについての状況を視聴者が正しく認識するため、或いは、臨場感を高めるために特定の順序でクリップ映像CVを結合することにより、当該フィールドゴールについての適切なクリップ集CSを生成することができる。特定の順序であるテンプレートは、例えば、側方からの映像、ゴールの背面側からの映像、ゴールの正面側からの映像、俯瞰の映像、などのように異なる角度から撮像した映像を所定の順序で結合することが規定されたものとされる。このテンプレートに準じるように各撮像装置CAの映像を当てはめることで、自動的に適切なクリップ集CSを生成することができる。そして、映像の結合順序を決定するための処理負担を軽減することができる。
 また、テンプレートは、シーン種別に応じて異なるものとされてもよい。
 情報処理装置1は、補助情報SDを用いてクリップ集CSを生成するクリップ集生成部11を備えていてもよい。
 これにより、情報処理装置1において補助情報SDの特定からクリップ映像CVの生成及びクリップ集CSの生成までの一連の処理が実行される。
 情報処理装置1が単一の装置である場合には、補助情報SDの特定からクリップ集CSの生成までに必要な情報を他の情報処理装置に対して送信する必要が無く、処理負担の軽減が図られる。
 なお、クリップ映像CVとクリップ映像CVの間に短い別の映像や画像などが挟み込まれていてもよい。
 情報処理装置1のクリップ集生成部11は、クリップ映像CVを結合することによりクリップ集CSを生成してもよい。
 例えば、クリップ映像CV間に別の映像を挟まずに結合するだけでクリップ集CSが生成される。
 これにより、クリップ集CSの生成に要する処理負担の軽減を図ることができる。
 クリップ集CSは、イベントにおける特定のシーンを撮像したクリップ映像CVを結合したものとされてもよい。
 あるシーンについて異なる角度から撮像された映像を切り取った複数のクリップ映像CVを結合することにより、当該シーンを異なる角度から確認できるクリップ集CSが生成される。
 これにより、ユーザにとって各シーンで起きた事象を把握しやすいダイジェスト映像DVを生成することができる。
 情報処理装置1のクリップ集生成部11は、イベントを撮像する撮像装置CAから得られる映像に対する画像解析処理によって得られた解析結果と補助情報SDを用いてクリップ集CSを生成してもよい。
 映像に対する画像解析処理によって映像の被写体についての情報やシーンの種別情報などを特定することが可能となる。
 これにより、補助情報SDに応じたクリップ集CSを生成することができ、適切なダイジェスト映像DVを生成することができる。
 画像解析処理は、映像に映っている人物を特定する処理とされていてもよい。
 画像解析処理によって映像に写っている人物が適切に特定されることで、選手名などのキーワードを元にクリップ集CSに含めるべきクリップ映像CVを特定することが可能となる。
 従って、クリップ映像CVの選択に係る処理負担を軽減することができる。
 画像解析処理は、映像に映っているシーンの種別を特定する処理とされていてもよい。
 画像解析処理によって映像に映っているシーンの種別が適切に特定されることで、シーン種別などのキーワードを元にクリップ集CSに含めるべきクリップ映像CVを特定することが可能となる。
 従って、クリップ映像CVの選択に係る処理負担を軽減することができる。
 画像解析処理は、イン点及びアウト点を特定する処理とされていてもよい。
 画像解析処理によってイン点及びアウト点が特定されることにより、クリップ映像CVとして適切な区間の映像を切り取ることができる。
 従って、適切なクリップ集CSの生成及びダイジェスト映像DVの生成を行うことができる。
 画像解析処理は、クリップ映像CVごとにスコアを付与する処理を含んでいてもよい。
 クリップ映像CVの時間長によっては一つのクリップ集CSに当該シーンを撮像したクリップ映像CVを全て含めることができない場合がある。また、クリップ集CSに含めない方がよいクリップ映像CVなども存在する。
 クリップ映像CVごとにスコアリングされることで、適切なクリップ映像CVのみを結合させたクリップ集CSを生成することができる。
 本実施の形態の情報処理方法は、イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する処理を、コンピュータ装置が実行するものである。
 上述した情報処理装置1に実行させるプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDD(Hard Disk Drive)や、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。あるいはまたプログラムは、フレキシブルディスク、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 また、上述した各例はいかように組み合わせてもよく、各種の組み合わせを用いた場合であっても上述した種々の作用効果を得ることが可能である。
<7.本技術>
 本技術は以下のような構成を採ることもできる。
(1)
 イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する特定部を備えた
 情報処理装置。
(2)
 前記シーン関連情報は他の情報処理装置から配信されるメタデータを含む情報とされた
 上記(1)に記載の情報処理装置。
(3)
 前記シーン関連情報はソーシャルネットワーキングサービスの利用ユーザによる投稿に関連する情報を含むものとされた
 上記(1)から上記(2)の何れかに記載の情報処理装置。
(4)
 前記補助情報は、放送映像として採用されたか否かを示す情報とされた
 上記(1)から上記(3)の何れかに記載の情報処理装置。
(5)
 前記補助情報は、キーワード情報とされた
 上記(1)から上記(4)の何れかに記載の情報処理装置。
(6)
 前記キーワード情報は、シーンの種別情報とされた
 上記(5)に記載の情報処理装置。
(7)
 前記キーワード情報は、前記イベントの参加者を特定する情報とされた
 上記(5)に記載の情報処理装置。
(8)
 前記補助情報は、前記イベントを撮像する複数の撮像装置から得られる一つ以上のクリップ映像が含まれるクリップ集の生成に用いられる情報とされた
 上記(1)から上記(7)の何れかに記載の情報処理装置。
(9)
 前記クリップ集は、前記イベントにおける特定のシーンを撮像したクリップ映像が結合されたものとされ、
 前記補助情報は、予め決められた前記クリップ映像の結合順序の情報を含む
 上記(8)に記載の情報処理装置。
(10)
 前記結合順序の情報は、前記特定のシーンについてのシーン種別に応じた情報とされた
 上記(9)に記載の情報処理装置。
(11)
 前記補助情報を用いて前記クリップ集を生成するクリップ集生成部を備えた
 上記(8)から上記(10)の何れかに記載の情報処理装置。
(12)
 前記クリップ集生成部は、前記クリップ映像を結合することにより前記クリップ集を生成する
 上記(11)に記載の情報処理装置。
(13)
 前記クリップ集は、前記イベントにおける特定のシーンを撮像したクリップ映像を結合したものとされた
 上記(12)に記載の情報処理装置。
(14)
 前記クリップ集生成部は、前記イベントを撮像する撮像装置から得られる映像に対する画像解析処理によって得られた解析結果と前記補助情報を用いて前記クリップ集を生成する
 上記(11)から上記(13)の何れかに記載の情報処理装置。
(15)
 前記画像解析処理は、映像に映っている人物を特定する処理とされた
 上記(14)に記載の情報処理装置。
(16)
 前記画像解析処理は、映像に映っているシーンの種別を特定する処理とされた
 上記(14)に記載の情報処理装置。
(17)
 前記画像解析処理は、イン点及びアウト点を特定する処理とされた
 上記(14)に記載の情報処理装置。
(18)
 前記画像解析処理は、前記クリップ映像ごとにスコアを付与する処理を含む
 上記(14)に記載の情報処理装置。
(19)
 イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する処理を、コンピュータ装置が実行する
 情報処理方法。
(20)
 イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する機能を、演算処理装置に実行させる
 プログラム。
1 情報処理装置
10 特定部
11 クリップ集生成部
200 メタデータサーバ(他の情報処理装置)
CA 撮像装置
DV ダイジェスト映像
SD 補助情報
CV クリップ映像
CS クリップ集
VA 放送映像

Claims (20)

  1.  イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する特定部を備えた
     情報処理装置。
  2.  前記シーン関連情報は他の情報処理装置から配信されるメタデータを含む情報とされた
     請求項1に記載の情報処理装置。
  3.  前記シーン関連情報はソーシャルネットワーキングサービスの利用ユーザによる投稿に関連する情報を含むものとされた
     請求項1に記載の情報処理装置。
  4.  前記補助情報は、放送映像として採用されたか否かを示す情報とされた
     請求項1に記載の情報処理装置。
  5.  前記補助情報は、キーワード情報とされた
     請求項1に記載の情報処理装置。
  6.  前記キーワード情報は、シーンの種別情報とされた
     請求項5に記載の情報処理装置。
  7.  前記キーワード情報は、前記イベントの参加者を特定する情報とされた
     請求項5に記載の情報処理装置。
  8.  前記補助情報は、前記イベントを撮像する複数の撮像装置から得られる一つ以上のクリップ映像が含まれるクリップ集の生成に用いられる情報とされた
     請求項1に記載の情報処理装置。
  9.  前記クリップ集は、前記イベントにおける特定のシーンを撮像したクリップ映像が結合されたものとされ、
     前記補助情報は、予め決められた前記クリップ映像の結合順序の情報を含む
     請求項8に記載の情報処理装置。
  10.  前記結合順序の情報は、前記特定のシーンについてのシーン種別に応じた情報とされた
     請求項9に記載の情報処理装置。
  11.  前記補助情報を用いて前記クリップ集を生成するクリップ集生成部を備えた
     請求項8に記載の情報処理装置。
  12.  前記クリップ集生成部は、前記クリップ映像を結合することにより前記クリップ集を生成する
     請求項11に記載の情報処理装置。
  13.  前記クリップ集は、前記イベントにおける特定のシーンを撮像したクリップ映像を結合したものとされた
     請求項12に記載の情報処理装置。
  14.  前記クリップ集生成部は、前記イベントを撮像する撮像装置から得られる映像に対する画像解析処理によって得られた解析結果と前記補助情報を用いて前記クリップ集を生成する
     請求項11に記載の情報処理装置。
  15.  前記画像解析処理は、映像に映っている人物を特定する処理とされた
     請求項14に記載の情報処理装置。
  16.  前記画像解析処理は、映像に映っているシーンの種別を特定する処理とされた
     請求項14に記載の情報処理装置。
  17.  前記画像解析処理は、イン点及びアウト点を特定する処理とされた
     請求項14に記載の情報処理装置。
  18.  前記画像解析処理は、前記クリップ映像ごとにスコアを付与する処理を含む
     請求項14に記載の情報処理装置。
  19.  イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する処理を、コンピュータ装置が実行する
     情報処理方法。
  20.  イベントにおいて発生したシーンについてのシーン関連情報に基づいて、ダイジェスト映像を生成するための補助情報を特定する機能を、演算処理装置に実行させる
     プログラム。
PCT/JP2022/004897 2021-04-26 2022-02-08 情報処理装置、情報処理方法、プログラム WO2022230291A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023517064A JPWO2022230291A1 (ja) 2021-04-26 2022-02-08
EP22795214.0A EP4332871A1 (en) 2021-04-26 2022-02-08 Information processing device, information processing method, and program
CN202280029439.XA CN117178285A (zh) 2021-04-26 2022-02-08 信息处理装置、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021074249 2021-04-26
JP2021-074249 2021-04-26

Publications (1)

Publication Number Publication Date
WO2022230291A1 true WO2022230291A1 (ja) 2022-11-03

Family

ID=83848273

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004897 WO2022230291A1 (ja) 2021-04-26 2022-02-08 情報処理装置、情報処理方法、プログラム

Country Status (4)

Country Link
EP (1) EP4332871A1 (ja)
JP (1) JPWO2022230291A1 (ja)
CN (1) CN117178285A (ja)
WO (1) WO2022230291A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107404A (ja) 2015-12-10 2017-06-15 botPress株式会社 コンテンツ生成装置
JP6765558B1 (ja) * 2020-02-28 2020-10-07 株式会社ドワンゴ コンテンツ配信装置、コンテンツ配信方法、コンテンツ配信システム、および、コンテンツ配信プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107404A (ja) 2015-12-10 2017-06-15 botPress株式会社 コンテンツ生成装置
JP6765558B1 (ja) * 2020-02-28 2020-10-07 株式会社ドワンゴ コンテンツ配信装置、コンテンツ配信方法、コンテンツ配信システム、および、コンテンツ配信プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HISASHI MIYAMORI; SATOSHI NAKAMURA; KATSUMI TANAKA: "Method of Automatically Extracting Metadata of TV Programs Using Its Live Chat on the Web", TRANSACTIONS OF THE INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 46, no. SIG18 (TOD28), 15 December 2018 (2018-12-15), JP , pages 59 - 71, XP009540852, ISSN: 1882-7799 *
YAMAUCHI, TAKANE; KITAYAMA, DAISUKE: "Characteristic scene extraction based on switching viewpoints for automatic digest video generation", THE 6TH FORUM ON DATA ENGINEERING AND INFORMATION MANAGEMENT (THE 12TH ANNUAL MEETING OF THE DATABASE SOCIETY OF JAPAN); MARCH 3 TO 5, 2014, 3 March 2014 (2014-03-03) - 5 March 2014 (2014-03-05), JP, pages 1 - 5, XP009540851 *

Also Published As

Publication number Publication date
JPWO2022230291A1 (ja) 2022-11-03
EP4332871A1 (en) 2024-03-06
CN117178285A (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN107615766B (zh) 用于创建和分配多媒体内容的系统和方法
US8121462B2 (en) Video edition device and method
US20090190804A1 (en) Electronic apparatus and image processing method
JP4692775B2 (ja) 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム
CN113841418A (zh) 动态视频精彩场面
CN112753227A (zh) 用于在体育事件电视节目中检测人群噪声的发生的音频处理
WO2021241430A1 (ja) 情報処理装置、情報処理方法、プログラム
US9681200B2 (en) Data processing method and device
JP2002335473A (ja) 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
TW201540065A (zh) 擷取方法及裝置(一)
WO2022230291A1 (ja) 情報処理装置、情報処理方法、プログラム
US10200764B2 (en) Determination method and device
WO2014103374A1 (ja) 情報管理装置、サーバ及び制御方法
JP2012221322A (ja) オーサリング支援装置、オーサリング支援方法およびプログラム
TWI497959B (zh) Scene extraction and playback system, method and its recording media
JP2022067478A (ja) 情報処理プログラム、装置、及び方法
KR101434783B1 (ko) 신 프래그먼트 전송 시스템, 신 프래그먼트 전송방법, 및 그 기록매체
JP2012231291A (ja) 動画編集装置、動画編集方法およびプログラム
JP2016004566A (ja) 提示情報制御装置、方法及びプログラム
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
JP2010081531A (ja) 映像処理装置及びその方法
WO2022209648A1 (ja) 情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体
JP4276638B2 (ja) 映像編集装置、映像編集方法、映像編集プログラム、及びプログラムの記録媒体
EP3596628B1 (en) Methods, systems and media for transforming fingerprints to detect unauthorized media content items
US20150208122A1 (en) Extraction method and device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22795214

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023517064

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18285445

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2022795214

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022795214

Country of ref document: EP

Effective date: 20231127