WO2023148963A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2023148963A1
WO2023148963A1 PCT/JP2022/004668 JP2022004668W WO2023148963A1 WO 2023148963 A1 WO2023148963 A1 WO 2023148963A1 JP 2022004668 W JP2022004668 W JP 2022004668W WO 2023148963 A1 WO2023148963 A1 WO 2023148963A1
Authority
WO
WIPO (PCT)
Prior art keywords
scene
moving image
interest
player
information processing
Prior art date
Application number
PCT/JP2022/004668
Other languages
English (en)
French (fr)
Inventor
諒 川合
登 吉田
智史 山崎
テイテイ トウ
健全 劉
カレン ステファン
直樹 進藤
悠太 並木
洋平 佐々木
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/004668 priority Critical patent/WO2023148963A1/ja
Publication of WO2023148963A1 publication Critical patent/WO2023148963A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • Patent Documents 1 to 3 disclose Technologies related to the present invention.
  • Patent Document 1 discloses a technique for detecting the line of sight of a referee, a scorer, etc. in a sports competition and calculating the position to be photographed by the camera for photographing the competition based on the detection result.
  • Patent Document 2 discloses a technique for generating a free-viewpoint video using multi-viewpoint videos of the same scene shot from different viewpoints.
  • Japanese Patent Laid-Open No. 2002-200012 discloses a method of calculating a feature amount of each of a plurality of key points of a human body included in an image, and searching for an image including a human body with a similar posture or a similar motion based on the calculated feature amount. Techniques for grouping and classifying objects having similar postures and movements are disclosed.
  • Patent Document 4 discloses a technique for detecting the state of gaze of the audience, determining the shooting position based on the detection result, and flying an unmanned aircraft to the determined shooting position for shooting.
  • Patent Document 5 discloses a technique for extracting a scene of interest from a video based on the player's posture.
  • Patent Literature 6 discloses a technique for generating data indicating the contents of a game and the results of the game based on motion information of a moving image of a game that involves movement.
  • Non-Patent Document 1 discloses a technique related to human skeleton estimation.
  • Highlight videos are created by extracting and collecting notable scenes from videos of players in sports and other performances, and provided to viewers.
  • the work of creating this highlight moving image there is a problem that the work of selecting the scenes of interest to be taken out is troublesome, that is, the workability is poor.
  • Patent Literatures 1 and 4 support shooting, not the work of creating a highlight video.
  • the technology described in Patent Literature 2 processes captured video to generate a new video. not a thing
  • the technology described in Patent Document 3 is a technology for retrieving images containing human bodies with similar postures and similar movements, and classifying images with similar postures and movements together. There is no mention of making videos.
  • the technique described in Patent Document 5 is a technique for extracting a scene of interest, but there is a problem that if the amount of data of the moving image to be processed is large, the time required for computer processing becomes long.
  • the technique described in Patent Literature 6 is a technique for generating data indicating the contents of a game and the results of the game, and does not create a highlight video.
  • the technique described in Non-Patent Document 1 is a technique related to estimating a person's skeleton, and does not describe creating a highlight video.
  • One example of the object of the present invention is to provide an information processing device, an information processing method, and a program that solve the problem of workability in creating a highlight video in view of the above-described problems.
  • Extraction means for extracting a scene of interest from a portion of a first moving image of the player that is specified based on a specified time using an image analysis technique; output means for outputting information indicating the position of the scene of interest in the first moving image; is provided.
  • the computer Extracting a scene of interest from a portion of the first moving image of the player that is identified based on the specified time using image analysis technology, outputting information indicating the position of the scene of interest in the first moving image; A method of processing information is provided.
  • the computer Extraction means for extracting a scene of interest from a portion of the first moving image of the player that is identified based on a specified time using an image analysis technique; output means for outputting information indicating the position of the scene of interest in the first moving image;
  • a program is provided to act as a
  • the problem of workability in highlight movie creation is resolved.
  • FIG. 4 is a flow chart showing an example of the flow of processing of an information processing device;
  • FIG. 4 is a diagram schematically showing another example of information output by the information processing device;
  • FIG. 4 is a diagram schematically showing another example of information output by the information processing device;
  • FIG. 4 is a diagram schematically showing another example of information output by the information processing device;
  • FIG. 1 is a functional block diagram showing an outline of an information processing device 10 according to the first embodiment.
  • the information processing device 10 includes an extraction unit 11 and an output unit 12 .
  • the extracting unit 11 uses image analysis technology to extract a scene of interest from a portion specified with reference to a specified time in a first moving image of a player in a sports or other performance.
  • the output unit 12 outputs information indicating the position of the attention scene in the first moving image.
  • the information processing device 10 of this embodiment is a more specific version of the information processing device 10 of the first embodiment.
  • the information processing apparatus 10 of the present embodiment uses image analysis technology to support the work of creating a highlight video by extracting and collecting notable scenes from the first videos of players such as sports and other performances. I do.
  • image analysis techniques used by the information processing apparatus 10 include face recognition, human type recognition, posture recognition, motion recognition, appearance attribute recognition, image gradient feature detection, image color feature detection, object recognition, and character recognition. but not limited to these.
  • Each functional unit of the information processing apparatus 10 includes a CPU (Central Processing Unit) of any computer, a memory, a program loaded into the memory, a storage unit such as a hard disk for storing the program (previously stored from the stage of shipping the apparatus). Programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet can also be stored), realized by any combination of hardware and software centering on the interface for network connection be done.
  • CPU Central Processing Unit
  • FIG. 2 is a block diagram illustrating the hardware configuration of the information processing device 10.
  • the information processing device 10 has a processor 1A, a memory 2A, an input/output interface 3A, a peripheral circuit 4A, and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • the information processing device 10 may not have the peripheral circuit 4A.
  • the information processing device 10 may be composed of a plurality of physically and/or logically separated devices. In this case, each of the plurality of devices can have the above hardware configuration.
  • the bus 5A is a data transmission path for mutually transmitting and receiving data between the processor 1A, the memory 2A, the peripheral circuit 4A and the input/output interface 3A.
  • the processor 1A is, for example, an arithmetic processing device such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the input/output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. .
  • Input devices are, for example, keyboards, mice, microphones, physical buttons, touch panels, and the like.
  • the output device is, for example, a display, speaker, printer, mailer, or the like.
  • the processor 1A can issue commands to each module and perform calculations based on the calculation results thereof.
  • FIG. 1 shows an example of a functional block diagram of an information processing apparatus 10 of this embodiment.
  • the information processing device 10 has an extraction unit 11 and an output unit 12 .
  • the extraction unit 11 uses image analysis technology to extract a scene of interest in the first moving image of the player. Then, the output unit 12 outputs information indicating the position of the attention scene (the attention scene extracted by the extraction unit 11) in the first moving image.
  • a "player” is a player in sports or other performances. Performance includes, but is not limited to, singing, music, dancing, dancing, drama, play, talk, and the like.
  • the "first video” is the video that is the source of the highlight video. That is, a highlight moving image is created from the first moving image.
  • “Featured scenes” are scenes that are candidates for inclusion in the highlight video.
  • the operator can determine scenes to be included in the highlight video from among the extracted scenes of interest.
  • the operator can recognize the extracted attention scene based on the “information indicating the position of the attention scene in the first moving image” output by the information processing device 10 .
  • the extraction unit 11 uses image analysis technology to extract a scene of interest in the first moving image.
  • an image analysis system 20 that analyzes images and outputs analysis results is prepared.
  • the image analysis system 20 may be a part of the information processing device 10 or may be an external device physically and/or logically independent from the information processing device 10 .
  • the extraction unit 11 uses the image analysis system 20 to implement extraction of a scene of interest in the first moving image.
  • the image analysis system 20 has a face recognition function, a human figure recognition function, a posture recognition function, a motion recognition function, an appearance attribute recognition function, an image gradient feature detection function, an image color feature detection function, an object recognition function, and a character recognition function. at least one of
  • the face recognition function extracts the facial features of a person. Further, similarity between facial features may be collated and calculated (such as determination of whether the person is the same person). Also, the extracted facial feature amount may be compared with the facial feature amounts of a plurality of players registered in advance in the database to identify which player the person in the image is. Alternatively, the extracted face feature amount may be compared with the face feature amount of the detection target player registered in advance in the database to detect the detection target player from the first moving image. The number of players to be detected may be one, or may be plural. Note that the matching between the extracted facial feature amount and the facial feature amount registered in advance in the database may be performed by the image analysis system 20, or may be performed by the extraction unit 11 instead of the image analysis system 20.
  • the human shape recognition function extracts the human body features of a person (for example, overall features such as body weight, height, and clothing). Furthermore, the similarity between the human body features may be collated/calculated (such as determination of whether the person is the same person). Further, the extracted human body feature amount may be compared with the human body feature amounts of a plurality of human players registered in advance in the database to identify which player the person in the image is. Alternatively, the extracted human body feature amount may be compared with the human body feature amount of the detection target player registered in advance in the database to detect the detection target player from the first moving image. The number of players to be detected may be one, or may be plural. Note that the comparison between the extracted human body feature amount and the human body feature amount registered in advance in the database may be performed by the image analysis system 20, or may be performed by the extraction unit 11 instead of the image analysis system 20. good.
  • the posture recognition function and motion recognition function detect the joint points of a person and connect the joint points to construct a stick figure model. Then, by using the information of the stick figure model, the height of the person is estimated, the feature amount of the posture is extracted, and the movement is specified based on the change of the posture. Furthermore, the similarity between posture feature quantities or between motion feature quantities may be collated and calculated (eg, determination of the same posture or the same motion). Also, the estimated height may be compared with the heights of a plurality of players registered in advance in the database to identify which player the person in the image is. Alternatively, the estimated height may be compared with the height of the detection target player registered in advance in the database to detect the detection target player from the first moving image. The number of players to be detected may be one, or may be plural. Note that the comparison between the estimated height and the height registered in advance in the database may be performed by the image analysis system 20 or may be performed by the extraction unit 11 instead of the image analysis system 20 .
  • the posture recognition function and motion recognition function may be realized by the techniques disclosed in Patent Document 3 and Non-Patent Document 1 above.
  • the appearance attribute recognition function recognizes the appearance attributes associated with a person (for example, clothing color, shoe color, hairstyle, wearing of hats, ties, etc., for example, there are more than 100 types of appearance attributes in total). Further, the similarity of the recognized appearance attributes may be collated and calculated (it is possible to determine whether the attributes are the same). Also, the recognized appearance attribute may be compared with the appearance attributes of a plurality of players registered in advance in the database to identify which player the person in the image is. In addition, the recognized appearance attribute may be compared with the appearance attributes of the detection target player registered in advance in the database, and the detection target player may be detected from the first moving image. The number of players to be detected may be one, or may be plural. Note that the matching between the recognized appearance attribute and the appearance attribute registered in advance in the database may be performed by the image analysis system 20, or may be performed by the extraction unit 11 instead of the image analysis system 20. good.
  • Image gradient feature detection functions include SIFT, SURF, RIFF, ORB, BRISK, CARD, and HOG. According to this function, the gradient features of each frame image are detected. For example, the gradient feature of the detected image may be compared with the gradient feature of the detection target image registered in advance in the database, and the detection target image (scene) may be detected from the first moving image. . Note that the image analysis system 20 may collate the gradient features of the detected image with the gradient features of the detection target image registered in advance in the database. may go.
  • the image color feature detection function generates data that indicates the color features of an image, such as a color histogram. According to this function, color features of each frame image are detected. For example, the color features of the detected image may be compared with the color features of the detection target image registered in advance in the database, and the detection target image (scene) may be detected from the first moving image. . Note that the color feature of the detected image and the color feature of the detection target image registered in advance in the database may be collated by the image analysis system 20, or the extraction unit 11 instead of the image analysis system 20. may go.
  • the object recognition function is realized using engines such as YOLO (which can extract general objects [for example, tools and equipment used in sports and other performances] and extract people). Objects can be detected from images by using the object recognition function.
  • engines such as YOLO (which can extract general objects [for example, tools and equipment used in sports and other performances] and extract people). Objects can be detected from images by using the object recognition function.
  • the character recognition function recognizes numbers and letters.
  • the number recognized in the area where the person appears is compared with the numbers of multiple players registered in advance in the database (uniform number, etc.) to identify which player is the person in the image.
  • the number recognized in the area where the person is captured is compared with the number of the player to be detected (uniform number, etc.) registered in advance in the database, and the player to be detected is detected from the first video.
  • the number of players to be detected may be one, or may be plural.
  • the image analysis system 20 may perform matching between the number recognized in the area in which the person is captured and the number of the detection target player registered in advance in the database (uniform number, etc.).
  • the extraction unit 11 may perform.
  • the extraction unit 11 inputs the first moving image to the image analysis system 20. Then, the extraction unit 11 acquires the analysis result of the first moving image output from the image analysis system 20 .
  • the analysis results output from the image analysis system 20 include: information indicating the position of the facial feature amount extracted from the first moving image and the scene in the first moving image from which each facial feature amount was extracted; ⁇ Information indicating the players detected in the first video, and information indicating the position in the first video of the scene in which each player is shown, ⁇ Information indicating the position in the first video of the scene in which the player to be detected is shown, at least one of
  • the position of a certain scene in the first moving image is indicated, for example, by the elapsed time from the beginning of the first moving image. The same applies hereinafter.
  • the analysis results output from the image analysis system 20 include: Information indicating the position of the human body feature extracted from the first moving image and the scene in the first moving image from which each human body feature was extracted; ⁇ Information indicating the players detected in the first video, and information indicating the position in the first video of the scene in which each player is shown, ⁇ Information indicating the position in the first video of the scene in which the player to be detected is shown, at least one of
  • the analysis results output from the image analysis system 20 include: - information indicating the posture and/or motion detected from the first moving image, and information indicating the position in the first moving image of the scene in which each posture and/or motion is captured; ⁇ Information indicating the players detected in the first video, and information indicating the position in the first video of the scene in which each player is shown, ⁇ Information indicating the position in the first video of the scene in which the player to be detected is shown, at least one of
  • the analysis results output from the image analysis system 20 include: - Gradient features of each frame image, Information indicating the position in the first moving image of the scene that has the same gradient feature as the image (scene) to be detected; at least one of
  • the analysis results output from the image analysis system 20 include: ⁇ Color characteristics of each frame image, - Information indicating the position in the first moving image of the scene having the same color feature as the image (scene) to be detected; at least one of
  • the analysis results output from the image analysis system 20 include information indicating the position in the first moving image of the scene in which the object to be detected appears.
  • the analysis results output from the image analysis system 20 include: ⁇ Information indicating the players detected in the first video, and information indicating the position in the first video of the scene in which each player is shown, ⁇ Information indicating the position in the first video of the scene in which the player to be detected is shown, at least one of
  • the extraction unit 11 extracts a scene of interest in the first moving image based on the analysis results output from the image analysis system 20 as described above.
  • the notable scene is ⁇ Scenes that show the player in a certain posture, ⁇ Scenes in which the player moves in a certain way, ⁇ Scenes in which the specified player is shown, ⁇ Scenes in which a certain player is shown in a certain pose, ⁇ Scenes in which a given player is shown in a given movement, is at least one of
  • Predetermined postures, predetermined movements, and predetermined players are registered in advance.
  • the image analysis system 20 may be set so that only certain postures, certain movements, and certain players are detected.
  • the image analysis system 20 may be configured to detect not only certain poses, certain movements and certain players, but also other poses, movements and players. Then, the extraction unit 11 may extract a predetermined posture, a predetermined motion, and a predetermined player from among the postures, motions, and players detected by the image analysis system 20 .
  • a scene in which the popular player or the player in the spotlight is shown can be extracted as a scene of interest.
  • the posture, movement, and the like during a fist pose and good play as predetermined postures and predetermined movements, it is possible to extract a scene of taking a fist pose, a scene of good play, and the like as a scene of interest.
  • the attention scene described above is an example, and other scenes may be set as the attention scene.
  • the above-mentioned "scene in which a predetermined object (posture, movement, player, etc.) is shown” may be a collection of only frame images in which the predetermined object is shown. It may be a collection of a frame image and a predetermined number of frame images before and after it.
  • the predetermined target may not be captured in the "predetermined number of frame images before and after the frame image in which the predetermined target is captured”.
  • the scene of interest can include, for example, the play before taking a fist pose.
  • One scene consists of at least two consecutive frame images.
  • the output unit 12 After the scene of interest in the first moving image is extracted by the above-described processing, the output unit 12 outputs information indicating the position of the scene of interest in the first moving image.
  • the information indicating the position of the scene of interest in the first moving image is indicated by, for example, the elapsed time from the beginning of the first moving image.
  • the output unit 12 When a plurality of scenes of interest are extracted, the output unit 12 outputs information indicating the position of each of the plurality of scenes of interest within the first moving image.
  • FIG. 4 An example of information output by the output unit 12 is schematically shown in FIG.
  • the information shown in FIG. 4 shows the file name, serial number, position of the scene of interest, and reason for extraction. It should be noted that at least the position of the scene of interest should be indicated, and other information does not have to be displayed.
  • File name is the file name of the first moving image.
  • Serial number is a number for mutually identifying a plurality of extracted scenes of interest.
  • “Attention scene position” is information indicating the position of the extracted attention scene in the first moving image.
  • the position of the scene of interest is indicated by the elapsed time from the beginning of the first moving image.
  • Reason for extraction indicates the reason why the scene was extracted as an attention scene. For example, a predetermined player, a predetermined posture, a predetermined movement, and the like appearing in each scene of interest are indicated as the reason.
  • the output unit 12 upon receiving a user input to select one of a plurality of scenes of interest listed as shown in FIG. 4, the output unit 12 starts playing the first moving image from the beginning of the selected scene of interest.
  • the output unit 12 can reproduce the selected scene of interest from the beginning by using the information indicating the position of each scene of interest in the first moving image.
  • the information processing device 10 acquires the first moving image of the player.
  • the information processing apparatus 10 acquires a first moving image input by the worker, or selects a moving image specified by the worker from among a plurality of moving image files stored in an accessible storage device as the first moving image. or obtain as
  • the information processing device 10 uses image analysis technology to extract a scene of interest in the first moving image. For example, after inputting the first moving image to the image analysis system 20 , the information processing apparatus 10 acquires the analysis result of the first moving image output from the image analysis system 20 . Then, the information processing device 10 extracts a scene of interest in the first moving image based on the analysis result.
  • Scenes of interest include scenes with a player in a given posture, scenes with a player in a given movement, scenes with a given player, scenes with a given player in a given posture, and scenes with a given player in a given posture. At least one of the scenes showing a given player in motion.
  • the information processing apparatus 10 outputs information indicating the position of the scene of interest extracted at S11 in the first moving image.
  • the information processing device 10 outputs information as shown in FIG. 4, for example.
  • the information processing apparatus 10 of the present embodiment uses image analysis technology to extract a scene of interest from a first moving image of the player, and outputs information indicating the position of the scene of interest within the first moving image. .
  • a worker who creates a highlight video can select scenes to be included in the highlight video from among the scenes of interest.
  • the information processing apparatus 10 of the present embodiment also has a face recognition function, a human shape recognition function, a posture recognition function, a motion recognition function, an appearance attribute recognition function, an image gradient feature detection function, an image color feature detection function, and an object recognition function. At least one of the functions and character recognition functions can be used to analyze the first animation. Therefore, it is possible to extract a scene of interest from various viewpoints.
  • a scene in which a player is photographed in a predetermined posture a scene in which a player is photographed in a predetermined motion, a scene in which a predetermined player is photographed, and a scene in which a predetermined player is photographed in a predetermined posture
  • a scene in which a player is photographed, a scene in which a predetermined player is photographed in a predetermined motion, and the like can be extracted as scenes of interest.
  • the scene desired by the viewer can be extracted as the target scene.
  • the information processing apparatus 10 of the present embodiment is different from the first and second embodiments in that a part of the first moving image can be subjected to the above-described analysis and the other part can be excluded from the analysis. different. A detailed description will be given below.
  • the extraction unit 11 accepts input specifying the time. Then, the extracting unit 11 extracts a scene of interest from a part of the first moving image that is specified based on the specified time as the target of the above-described image analysis. Other parts in the first moving image (parts not identified based on the designated time) are not subject to the image analysis described above.
  • the “portion specified based on the specified time” is a frame image captured during a time period specified based on the specified time, for example, a frame image captured a predetermined time before the specified time. from the frame image captured at the specified time to the frame image captured after a predetermined time from the specified time.
  • the predetermined time is a matter of design.
  • the extraction unit 11 extracts a frame image captured a predetermined time before the specified time based on the time stamp of the first moving image (information indicating the capture time of each frame image), and A frame image captured after a certain period of time can be specified.
  • the extracting unit 11 instead of inputting the entire first moving image to the image analysis system 20, the extracting unit 11 cuts out only the portion specified based on the specified time from the first moving image, and performs image analysis on only the cut-out portion. may be entered into system 20; In addition, the extraction unit 11 may input the entire first moving image to the image analysis system 20 and input information indicating a portion to be subjected to image analysis to the image analysis system 20 .
  • the information processing apparatus 10 of the present embodiment it is possible to analyze a part of the first moving image instead of analyzing the entire first moving image. As a result, the processing load of the image analysis system 20 can be reduced, the time required for image analysis can be shortened, and the like.
  • the information processing apparatus 10 of the present embodiment is useful when the operator knows in advance the approximate times of scoring scenes, exciting scenes, and the like.
  • the information processing apparatus 10 of the present embodiment further has a function of extracting a scene of interest from the first moving image based on the result of analyzing the second moving image of the spectators watching the player. It differs from the third embodiment. A detailed description will be given below.
  • the extracting unit 11 extracts the first moving image based on the result of analyzing the second moving image of the spectators watching the player, in addition to the result of analyzing the first moving image described in the second and third embodiments. Extract the attention scene from the .
  • the process of extracting a scene of interest in the first moving image based on the analysis result of the first moving image is the same as that described in the second and third embodiments.
  • the extraction unit 11 inputs the second moving image to the image analysis system 20. Then, the extraction unit 11 acquires the analysis result of the second moving image output from the image analysis system 20 .
  • the analysis results output from the image analysis system 20 include information indicating the posture and/or motion detected from the second moving image, and each posture and/or information indicating the location in the second animation of the scene in which the motion is shown.
  • the analysis results output from the image analysis system 20 include: - Gradient features of each frame image, information indicating the position in the second moving image of the scene that has the same gradient feature as the image (scene) to be detected; at least one of
  • the analysis results output from the image analysis system 20 include: ⁇ Color characteristics of each frame image, Information indicating the position in the second moving image of the scene having the same color feature as the image (scene) to be detected; at least one of
  • the analysis results output from the image analysis system 20 include information indicating the position in the second moving image of the scene in which the object to be detected appears.
  • the image analysis system 20 may further have a facial expression detection function.
  • the analysis results output from the image analysis system 20 include information indicating the facial expressions of the spectators detected from the second moving image, and scenes showing the spectators with each facial expression. Information indicating a position within the second animation is included.
  • the extraction unit 11 detects the detection target scene in the second moving image based on the analysis result of the second moving image output from the image analysis system 20 as described above.
  • the scene to be detected is ⁇ Scenes showing spectators in a certain posture, ⁇ Scenes showing spectators moving in a certain way, ⁇ Scenes with spectators with specific facial expressions, is at least one of
  • a predetermined posture, predetermined movement, and predetermined expression are registered in advance.
  • the image analysis system 20 may be set so that only predetermined postures, predetermined movements, and predetermined facial expressions are detected.
  • the image analysis system 20 may be configured to detect not only predetermined postures, predetermined movements and predetermined expressions, but also other postures, movements and expressions. Then, the extraction unit 11 may extract a predetermined posture, a predetermined movement, and a predetermined facial expression from among the postures, motions, and facial expressions detected by the image analysis system 20 .
  • a scene in which the audience is delighted and excited can be detected as a detection target scene.
  • the detection target scene described above is an example, and other scenes may be used as the detection target scene.
  • the detection target scene may be detected based on the audio data of the second moving image. For example, a scene in which the sound is louder than the reference value may be set as the detection target scene.
  • the above-mentioned "scene in which a predetermined object (posture, movement, and facial expression) is shown” may be a collection of only frame images in which the predetermined object is shown, or may be a collection of frame images in which the predetermined object is shown. An image and a predetermined number of frame images before and after the image may be collected. One scene consists of at least two consecutive frame images.
  • the extracting unit 11 After detecting the detection target scene in the second moving image by the above-described processing, the extracting unit 11 extracts the target scene in the first moving image based on the detection result. Specifically, the extraction unit 11 extracts a scene in the first moving image captured at the same timing as the detection target scene detected in the second moving image as a scene of interest in the first moving image. . For example, the extracting unit 11 extracts the detection target scene detected in the second moving image at the same timing as the detection target scene detected in the second moving image based on the time stamps (information indicating the shooting time of each frame image) of each of the first moving image and the second moving image. Scenes within the captured first video can be identified.
  • the information processing apparatus 10 of the present embodiment it is possible to extract a scene of interest from the first moving image based on the result of analysis of the second moving image of the audience watching the player.
  • the information processing apparatus 10 of the present embodiment extracts a scene of interest in the first moving image based on the result of analyzing the first moving image of the player.
  • a scene of interest in the first moving image can be extracted from ten different viewpoints.
  • the scene in the first moving image shot at the same timing as the scene in which the audience with the predetermined posture, movement, or facial expression in the second moving image is captured is the scene of interest.
  • the information processing apparatus 10 of the present embodiment differs from the first to fourth embodiments in that information indicating the position of the scene of interest in the first moving image is displayed on a characteristic UI (user interface) screen. .
  • UI user interface
  • the extraction unit 11 groups the scenes of interest extracted from the first moving image according to their contents. Then, the output unit 12 outputs the information indicating the position of the attention scene in the first moving image for each group.
  • the extracting unit 11 extracts, for example, the scene of interest for each player in the image, for each posture of the player in the image, for each movement of the player in the image, and for the posture taken by the audience in the video shot at the same timing.
  • Each movement is grouped according to the movements of the spectators in the moving images shot at the same timing or the facial expressions of the spectators in the moving images shot at the same timing. Note that one scene may belong to a plurality of groups.
  • FIG. 6 schematically shows an example of the UI screen output by the output unit 12.
  • the UI screen shown in FIG. 6 shows a file name, a player index, and a scene index.
  • File name is the file name of the first moving image.
  • Player index is a list of the names of players appearing in the first video.
  • “Scene index” is a list of scenes shown in the first video. For example, there are a scene of good play, a scene of fist pumping, a scene where the audience is excited, and the like.
  • the output unit 12 outputs scene position information as shown in FIG. 7 according to the user input. may also be displayed.
  • scene position column information indicating the position of the selected attention scene in which Jun Tanaka is shown (the attention scene whose extraction reason is Jun Tanaka) is displayed.
  • start position of the scene of interest is indicated by the elapsed time from the beginning of the first moving image.
  • the information processing apparatus 10 of the present embodiment it is possible to display information indicating the position of the scene of interest in the first moving image on characteristic UI screens as shown in FIGS. Specifically, it is possible to group the scenes of interest according to their contents, divide them into groups, and output information indicating the position of the scenes of interest in the first moving image. According to the information processing apparatus 10 of this embodiment, the operator who creates the highlight video can easily find a desired scene of interest from among a plurality of scenes of interest. As a result, the problem of workability in highlight movie creation is solved.
  • the information processing apparatus 10 of this embodiment acquires a plurality of first moving images, and outputs information indicating the position of a scene of interest in each of the plurality of first moving images. different from
  • the plurality of first moving images are thus generated by capturing the same play area at the same timing with a plurality of cameras.
  • a plurality of cameras may shoot different objects (players, scoreboards, clocks, directors, etc.), or shoot different places (different places in the same area), The same object may be photographed from different angles.
  • the extraction unit 11 performs the image analysis described in the first to fifth embodiments on each of the plurality of first moving images. Then, the output unit 12 collectively outputs information indicating the positions of the scenes of interest in the plurality of first moving images.
  • FIG. 8 schematically shows an example of the UI screen output by the output unit 12.
  • the UI screen shown in FIG. 8 shows a player index, a scene index, and a scene position.
  • Player index is a list of names of players appearing in any of the multiple first videos.
  • “Scene index” is a list of scenes appearing in any of the plurality of first moving images. For example, there are a scene of good play, a scene of fist pumping, a scene where the audience is excited, and the like.
  • “Scene position” is information indicating the position of the extracted scene of interest in the first moving image.
  • the position in the first moving image of the scene of interest belonging to the group selected by the operator is indicated.
  • the group related to "Jun Tanaka" surrounded by a frame W is selected at that time. Therefore, the position of the target scene in which Jun Tanaka is shown is shown in the scene position column.
  • the start position of each scene of interest is indicated by information that associates the file name of the first moving image with the elapsed time from the beginning of the first moving image.
  • a list of a plurality of scenes of interest extracted from a plurality of moving images is collectively displayed.
  • the scene position may be displayed according to the selection of one index, as in the examples described with reference to FIGS. 6 and 7 .
  • the processing device 10 can perform the following processes.
  • the extraction unit 11 identifies where in the play area the spectators included in the detection target scene detected from the second moving image are looking.
  • the extraction unit 11 uses image analysis to identify the direction in which the audience faces (the direction of the line of sight, the direction in which the face faces, or the direction in which the body faces). Next, based on the map of the play area, the installation position of each of the plurality of cameras within the play area, and the background image included in the detection target scene, the extraction unit 11 extracts each of the plurality of cameras at the timing when the detection target scene was captured. Identify the orientation of Then, the extracting unit 11 extracts a map of the play area, the installation position of each of the plurality of cameras in the play area, the orientation of each of the plurality of cameras at the timing when the detection target scene was shot, and the direction in which the specified spectator faces. Based on this, identify where the spectator is looking in the play area. These processes can be implemented using any relevant technology.
  • the extraction unit 11 identifies the direction each of the plurality of spectators faces, and the direction calculated by statistically The mean direction of facing) may be specified as the direction in which the spectator is facing.
  • At least part of these processes may be executed by the image analysis system 20.
  • the extracting unit 11 extracts a map of the play area, the installation positions of each of the plurality of cameras within the play area, the orientation of each of the plurality of cameras at the timing when the detection target scene was captured, and the spectator's view of the detection target scene. and the position in the play area where the spectator is watching, the camera that is capturing the position in the play area that the spectator is looking at in the detection target scene is specified. Then, the extraction unit 11 extracts a scene in the first moving image shot by the identified camera, which was shot at the same timing as the detection target scene detected in the second moving image, as the first moving image. is extracted as a notable scene in .
  • the information processing apparatus 10 of the present embodiment it is possible to collectively output the positions of the scenes of interest extracted from the plurality of first moving images.
  • the game may be photographed by a plurality of cameras.
  • a more attractive highlight image can be generated by generating a highlight image from a plurality of first moving images captured by a plurality of cameras.
  • the work efficiency of selecting portions to be included in a highlight moving image from a plurality of first moving images can be improved. improves.
  • the first moving image generated by the camera capturing the position where the audience is looking A scene can be extracted as a scene of interest.
  • the extraction unit 11 may calculate the stats for each player by detecting scenes in which each of a plurality of players is captured by the above technique and then processing each scene by a predetermined method. Then, the output unit 12 may output the calculated stats.
  • the image analysis system 20 may group them by similar postures and motions, and output the grouping results.
  • the processing can be realized using the technique described in Patent Document 3.
  • the output unit 12 may output the grouping result.
  • the worker can grasp the outline of what kind of postures and movements are detected in the first moving image. Then, the worker can construct a rough story of the highlight video to be created based on the grasped contents. After constructing the story, a desired scene of interest can be searched from the UI screens shown in FIGS.
  • the extraction unit 11 may accept an input of a highlight video created in the past. Then, the extracting unit 11 may extract, as a scene of interest, a scene in which a player having the same posture and movement as those of the player included in the previously created highlight video is captured.
  • the extraction unit 11 may create a highlight video by connecting a plurality of extracted scenes of interest in the same order as the highlight videos created in the past.
  • Extraction means for extracting a scene of interest from a portion of a first moving image of the player that is specified based on a specified time using an image analysis technique; output means for outputting information indicating the position of the scene of interest in the first moving image;
  • Information processing device having 2.
  • 3. The information processing apparatus according to 1 or 2 wherein the scene of interest is a scene in which a predetermined player is shown. 4. 4.
  • the extracting means further extracts the attention scene from the first moving image based on the result of analysis of a second moving image of the audience watching the player. processing equipment.
  • the scene of interest is the first moving image captured at the same timing as the scene in which the audience in a predetermined posture, the scene in which the audience appears in a predetermined movement, or the scene in which the audience appears in a predetermined expression in the second moving image. 4.
  • the information processing apparatus according to 4 which is a scene in the inside. 6.
  • the extraction means groups the extracted scenes of interest according to their contents, 6.
  • the extraction means is The scene of interest is shot at the same timing for each player in the shot, for each posture of the player in the shot, for each movement of the player in the shot, and for each pose taken by the audience in the video shot at the same timing.
  • the information processing apparatus which divides and groups the movements of the spectators in the captured moving images or the facial expressions of the spectators in the moving images captured at the same timing.
  • the computer Extracting a scene of interest from a portion of the first moving image of the player that is identified based on the specified time using image analysis technology, outputting information indicating the position of the scene of interest in the first moving image; Information processing methods.
  • Extraction means for extracting a scene of interest from a portion of the first moving image of the player that is identified based on a specified time using an image analysis technique; output means for outputting information indicating the position of the scene of interest in the first moving image;
  • a program that acts as a 10. extracting means for extracting a scene of interest from the first moving image of the player by using an image analysis technique and grouping the scene of interest according to its contents; output means for outputting information indicating the position of the scene of interest in the first moving image for each group;
  • Information processing device having 11.
  • the computer Using image analysis technology to extract a scene of interest from the first video of the player, grouping the scenes of interest according to their contents; outputting information indicating the position of the scene of interest in the first moving image for each group; Information processing methods. 12. the computer, extracting means for extracting a scene of interest from the first moving image of the player by using an image analysis technique and grouping the scene of interest according to its contents; output means for outputting information indicating the position of the scene of interest in the first moving image for each group; A program that acts as a

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明の情報処理装置(10)は、プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出部(11)と、第1の動画内における注目シーンの位置を示す情報を出力する出力部(12)と、を有する。

Description

情報処理装置、情報処理方法、およびプログラム
 本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
 本発明に関連する技術が特許文献1乃至3、非特許文献1に開示されている。
 特許文献1には、スポーツ競技の審判員や記録員等の視線を検出し、検出結果に基づき、競技撮影用カメラで撮影すべき位置を算出する技術が開示されている。
 特許文献2には、同一シーンを異なる視点から撮影した多視点映像を用いて、自由視点映像を生成する技術が開示されている。
 特許文献3には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。
 特許文献4には、観客の注視状態を検出し、検出結果に基づき撮影位置を確定し、確定した撮影位置に無人機を飛行させて撮影する技術が開示されている。
 特許文献5には、プレイヤーの姿勢に基づき動画の中から注目シーンを抽出する技術が開示されている。
 特許文献6には、動きを伴う競技を撮影した動画の動き情報に基づき、競技内容及び競技結果を示すデータを生成する技術が開示されている。
 非特許文献1には、人物の骨格推定に関連する技術が開示されている。
特開2008-5208号 国際公開第2018/030206号 国際公開第2021/084677号 特開2019-193209号 特開2021-141434号 特開平11-339009号
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 スポーツやその他のパフォーマンス等のプレイヤーを撮影した動画から注目シーンを取り出して集めたハイライト動画を作成し、視聴者に提供することが行われている。このハイライト動画を作成する作業においては、取り出す注目シーンを選別する作業が手間、すなわち作業性が悪いという問題があった。
 上述の通り、特許文献1及び4に記載の技術は、撮影の支援を行うものであり、ハイライト動画を作成する作業の支援を行うものではない。特許文献2に記載の技術は、撮影した映像を処理して新たな映像を生成するものであるが、上述の通り多視点映像から自由視点映像を生成するものであり、ハイライト動画を作成するものではない。特許文献3に記載の技術は、姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術であり、ハイライト動画を作成することについての記載はない。特許文献5に記載の技術は、注目シーンを抽出する技術であるが、処理する動画のデータ量が大きい場合コンピュータの処理に要する時間が大きくなるという問題がある。特許文献6に記載の技術は、競技内容及び競技結果を示すデータを生成する技術であり、ハイライト動画を作成するものではない。非特許文献1に記載の技術は、人物の骨格推定に関連する技術であり、ハイライト動画を作成することについての記載はない。
 このような特許文献1乃至6、及び非特許文献1の技術のみでは、上述したハイライト動画作成の作業性の問題を解決できないという問題点があった。
 本発明の目的の一例は、上述した課題を鑑み、ハイライト動画作成の作業性の問題を解決する情報処理装置、情報処理方法、およびプログラムを提供することにある。
 本発明の一態様によれば、
 プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段と、
 前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置が提供される。
 本発明の一態様によれば、
 コンピュータが、
  プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出し、
  前記第1の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法が提供される。
 本発明の一態様によれば、
 コンピュータを、
  プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段、
  前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラムが提供される。
 本発明の一態様によれば、ハイライト動画作成の作業性の問題が解決される。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
情報処理装置の機能ブロック図の一例を示す図である。 情報処理装置のハードウエア構成の一例を示す図である。 処理部の処理を説明するための図である。 情報処理装置が出力する情報の一例を模式的に示す図である。 情報処理装置の処理の流れの一例を示すフローチャートである。 情報処理装置が出力する情報の他の一例を模式的に示す図である。 情報処理装置が出力する情報の他の一例を模式的に示す図である。 情報処理装置が出力する情報の他の一例を模式的に示す図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<第1の実施形態>
 図1は、第1の実施形態に係る情報処理装置10の概要を示す機能ブロック図である。情報処理装置10は、抽出部11と、出力部12とを備える。
 抽出部11は、スポーツやその他のパフォーマンス等のプレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する。出力部12は、第1の動画内における注目シーンの位置を示す情報を出力する。
 このような構成を備える情報処理装置10によれば、ハイライト動画作成の作業性の問題が解決される。
<第2の実施形態>
「概要」
 本実施形態の情報処理装置10は、第1の実施形態の情報処理装置10をより具体化したものである。
 本実施形態の情報処理装置10は、画像解析の技術を用いて、スポーツやその他のパフォーマンス等のプレイヤーを撮影した第1の動画から注目シーンを取り出して集めたハイライト動画を作成する作業の支援を行う。情報処理装置10が利用する画像解析の技術は、顔認識、人型認識、姿勢認識、動き認識、外観属性認識、画像の勾配特徴検出、画像の色特徴検出、物体認識及び文字認識等が例示されるが、これらに限定されない。
「ハードウエア構成」
 次に、情報処理装置10のハードウエア構成の一例を説明する。情報処理装置10の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図2は、情報処理装置10のハードウエア構成を例示するブロック図である。図2に示すように、情報処理装置10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。情報処理装置10は周辺回路4Aを有さなくてもよい。なお、情報処理装置10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
「機能構成」
 次に、本実施形態の情報処理装置10の機能構成を詳細に説明する。図1に、本実施形態の情報処理装置10の機能ブロック図の一例を示す。図示するように、情報処理装置10は、抽出部11と、出力部12とを有する。
 抽出部11は、画像解析技術を用いて、プレイヤーを撮影した第1の動画の中の注目シーンを抽出する。そして、出力部12は、第1の動画内における注目シーン(抽出部11により抽出された注目シーン)の位置を示す情報を出力する。
 「プレイヤー」は、スポーツやその他のパフォーマンス等のプレイヤーである。パフォーマンスは、例えば歌、音楽、踊り、ダンス、劇、芝居、トーク等に関するものであるが、これらに限定されない。
 「第1の動画」は、ハイライト動画の元となる動画である。すなわち、第1の動画からハイライト動画が作成される。
 「注目シーン」は、ハイライト動画に含める候補となるシーンである。例えば、作業者が、抽出された注目シーンの中からハイライト動画に含めるシーンを決定することができる。作業者は、情報処理装置10が出力した「第1の動画内における注目シーンの位置を示す情報」に基づき、抽出された注目シーンを認識できる。抽出部11は、画像解析技術を用いて、第1の動画の中の注目シーンを抽出する。
 次に、画像解析技術を用いて注目シーンを抽出する処理について説明する。本実施形態では、図3に示すように、画像を解析し、解析結果を出力する画像解析システム20が用意される。画像解析システム20は、情報処理装置10の一部であってもよいし、情報処理装置10から物理的及び/又は論理的に独立した外部装置であってもよい。抽出部11は、画像解析システム20を利用して、第1の動画の中の注目シーンの抽出を実現する。
 ここで、画像解析システム20について説明する。画像解析システム20は、顔認識機能、人型認識機能、姿勢認識機能、動き認識機能、外観属性認識機能、画像の勾配特徴検出機能、画像の色特徴検出機能、物体認識機能及び文字認識機能の中の少なくとも1つを備える。
 顔認識機能では、人物の顔特徴量を抽出する。さらに、顔特徴量間の類似性を照合・計算してもよい(同一人物であるかの判定等)。また、抽出した顔特徴量とデータベースに予め登録されている複数のプレイヤーの顔特徴量との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、抽出した顔特徴量とデータベースに予め登録されている検出対象のプレイヤーの顔特徴量との照合を行い、第1の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは1人であってもよいし、複数であってもよい。なお、抽出した顔特徴量とデータベースに予め登録されている顔特徴量との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 人型認識機能では、人物の人体的特徴量(例えば、体形の肥痩や、身長、服装などの全体的な特徴を指す)を抽出する。さらに、人体的特徴量間の類似性を照合・計算してもよい(同一人物であるかの判定等)。また、抽出した人体的特徴量とデータベースに予め登録されている複数の人プレイヤーの人体的特徴量との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、抽出した人体的特徴量とデータベースに予め登録されている検出対象のプレイヤーの人体的特徴量との照合を行い、第1の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは1人であってもよいし、複数であってもよい。なお、抽出した人体的特徴量とデータベースに予め登録されている人体的特徴量との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 姿勢認識機能及び動き認識機能では、人物の関節点を検出し、関節点を繋げて棒人間モデルを構成する。そして、その棒人間モデルの情報を用いることで、人物の身長を推定したり、姿勢の特徴量を抽出したり、姿勢の変化に基づき動きを特定したりする。さらに、姿勢の特徴量間や動きの特徴量間の類似性を照合・計算してもよい(同一姿勢また同一の動きであるかの判定等)。また、推定した身長とデータベースに予め登録されている複数のプレイヤーの身長との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、推定した身長とデータベースに予め登録されている検出対象のプレイヤーの身長との照合を行い、第1の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは1人であってもよいし、複数であってもよい。なお、推定した身長とデータベースに予め登録されている身長との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 姿勢認識機能及び動き認識機能は、上記特許文献3及び非特許文献1に開示の技術で実現されてもよい。
 外観属性認識機能では、人物に付随する外観的な属性(例えば、服装色、靴色、髪型、帽子・ネクタイなどの着用、例えば合計100種類以上の外観属性がある)を認識する。さらに、認識した外観属性の類似性を照合・計算してもよい(同一属性であるかの判定が可能)。また、認識した外観的な属性とデータベースに予め登録されている複数のプレイヤーの外観的な属性との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、認識した外観的な属性とデータベースに予め登録されている検出対象のプレイヤーの外観的な属性との照合を行い、第1の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは1人であってもよいし、複数であってもよい。なお、認識した外観的な属性とデータベースに予め登録されている外観的な属性との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 画像の勾配特徴検出機能は、SIFT、SURF、RIFF、ORB、BRISK、CARD、HOGなどである。当該機能によれば、各フレーム画像の勾配特徴が検出される。例えば、検出した画像の勾配特徴と、データベースに予め登録されている検出対象の画像の勾配特徴との照合を行い、第1の動画の中から検出対象の画像(シーン)を検出してもよい。なお、検出した画像の勾配特徴と、データベースに予め登録されている検出対象の画像の勾配特徴との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 画像の色特徴検出機能では、例えばカラーヒストグラムなど、画像の色の特徴を示すデータが生成される。当該機能によれば、各フレーム画像の色特徴が検出される。例えば、検出した画像の色特徴と、データベースに予め登録されている検出対象の画像の色特徴との照合を行い、第1の動画の中から検出対象の画像(シーン)を検出してもよい。なお、検出した画像の色特徴と、データベースに予め登録されている検出対象の画像の色特徴との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 物体認識機能は、例えばYOLO(一般物体[例えば、スポーツやその他のパフォーマンスで利用される道具、設備など]の抽出や、人の抽出ができる)等のエンジンを利用して実現される。物体認識機能を利用することで、画像から物体を検出することができる。
 文字認識機能では、数字や字等を認識する。また、人物が写る領域で認識した数字と、データベースに予め登録されている複数のプレイヤーの番号(背番号等)との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、人物が写る領域で認識した数字と、データベースに予め登録されている検出対象のプレイヤーの番号(背番号等)との照合を行い、第1の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは1人であってもよいし、複数であってもよい。なお、人物が写る領域で認識した数字と、データベースに予め登録されている検出対象のプレイヤーの番号(背番号等)との照合は、画像解析システム20が行ってもよいし、画像解析システム20でなく、抽出部11が行ってもよい。
 図3に示すように、抽出部11は、画像解析システム20に第1の動画を入力する。そして、抽出部11は、画像解析システム20から出力された第1の動画の解析結果を取得する。
 顔認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・第1の動画の中から抽出した顔特徴量、及び各顔特徴量が抽出されたシーンの第1の動画内の位置を示す情報、
・第1の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第1の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 あるシーンの第1の動画内の位置は、例えば第1の動画の冒頭からの経過時間等で示される。以下同様である。
 人型認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・第1の動画の中から抽出した人体的特徴量、及び各人体的特徴量が抽出されたシーンの第1の動画内の位置を示す情報、
・第1の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第1の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 姿勢認識機能及び/又は動き認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・第1の動画の中から検出した姿勢及び/又は動きを示す情報、及び各姿勢及び/又は動きが写っているシーンの第1の動画内の位置を示す情報、
・第1の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第1の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 外観属性認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・第1の動画の中から検出した外観的属性を示す情報、及び各外観的属性が検出されたシーンの第1の動画内の位置を示す情報、
・第1の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第1の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 画像の勾配特徴検出機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・各フレーム画像の勾配特徴、
・検出対象の画像(シーン)と同様な勾配特徴となっているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 画像の色特徴検出機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・各フレーム画像の色特徴、
・検出対象の画像(シーン)と同様な色特徴となっているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 物体認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、検出対象の物体が写るシーンの第1の動画内の位置を示す情報が含まれる。
 文字認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・第1の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第1の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第1の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 抽出部11は、上述のような画像解析システム20から出力される解析結果に基づき、第1の動画の中の注目シーンを抽出する。
 注目シーンは、
・所定の姿勢のプレイヤーが写っているシーン、
・所定の動きのプレイヤーが写っているシーン、
・所定のプレイヤーが写っているシーン、
・所定の姿勢で所定のプレイヤーが写っているシーン、
・所定の動きで所定のプレイヤーが写っているシーン、
の中の少なくとも1つである。
 所定の姿勢、所定の動き及び所定のプレイヤーは、予め登録される。例えば、所定の姿勢、所定の動き及び所定のプレイヤーのみが検出されるように、画像解析システム20が設定されてもよい。その他、画像解析システム20は、所定の姿勢、所定の動き及び所定のプレイヤーのみならず、その他の姿勢、動き及びプレイヤーも検出するように設定されてもよい。そして、抽出部11は、画像解析システム20により検出された姿勢、動き及びプレイヤーの中から、所定の姿勢、所定の動き及び所定のプレイヤーを抽出してもよい。
 例えば、人気のプレイヤーや注目されているプレイヤー等を所定のプレイヤーとすることで、人気のプレイヤーや注目されているプレイヤー等が写っているシーンを注目シーンとして抽出できる。また、ガッツポーズや好プレー時の姿勢や動き等を所定の姿勢や所定の動きとすることで、ガッツポーズをとっているシーンや好プレー時のシーン等を注目シーンとして抽出できる。上述した注目シーンは一例であり、その他のシーンを注目シーンとしてもよい。
 なお、上述した「所定の対象(姿勢、動き、プレイヤー等)が写っているシーン」は、所定の対象が写っているフレーム画像のみを集めたものであってもよいし、所定の対象が写っているフレーム画像とその前後の所定数のフレーム画像を集めたものであってもよい。「所定の対象が写っているフレーム画像の前後の所定数のフレーム画像」には所定の対象が写っていなくてもよい。このようにした場合、例えばガッツポーズをとる前のプレー等を注目シーンに含めることができる。1つのシーンは、連続する少なくとも2つのフレーム画像で構成される。
 上述の処理で第1の動画の中の注目シーンが抽出され後、出力部12は、第1の動画内における注目シーンの位置を示す情報を出力する。第1の動画内における注目シーンの位置を示す情報は、例えば第1の動画の冒頭からの経過時間等で示される。複数の注目シーンが抽出された場合、出力部12は、複数の注目シーン各々の第1の動画内における位置を示す情報を出力する。
 図4に、出力部12が出力する情報の一例を模式的に示す。図4に示す情報では、ファイル名と、通番と、注目シーン位置と、抽出理由が示されている。なお、少なくとも注目シーン位置が示されていればよく、他の情報は表示されなくてもよい。
 「ファイル名」は、第1の動画のファイル名である。
 「通番」は、抽出された複数の注目シーンを互いに識別するための番号である。
 「注目シーン位置」は、抽出された注目シーンの第1の動画内における位置を示す情報である。図4に示す例の場合、第1の動画の冒頭からの経過時間で注目シーンの位置が示されている。
 「抽出理由」は、注目シーンとして抽出された理由を示す。例えば、各注目シーンに写っている所定のプレイヤーや、所定の姿勢や、所定の動き等が当該理由として示される。
 例えば図4に示すように列挙された複数の注目シーンの中から1つを選択するユーザ入力を受付けると、出力部12は、選択された注目シーンの冒頭から第1の動画の再生を開始してもよい。出力部12は、第1の動画内における各注目シーンの位置を示す情報を用いて、選択された注目シーンの冒頭からの再生を実現することができる。
 次に、図5のフローチャートを用いて、情報処理装置10の処理の流れの一例を説明する。
 S10では、情報処理装置10は、プレイヤーを撮影した第1の動画を取得する。例えば、情報処理装置10は、作業者が入力した第1の動画を取得したり、アクセス可能な記憶装置内に記憶された複数の動画ファイルの中から作業者が指定した動画を第1の動画として取得したりする。
 S11では、情報処理装置10は、画像解析技術を用いて、第1の動画の中の注目シーンを抽出する。例えば、情報処理装置10は、第1の動画を画像解析システム20に入力した後、画像解析システム20から出力された第1の動画の解析結果を取得する。そして、情報処理装置10は、その解析結果に基づき、第1の動画の中の注目シーンを抽出する。
 注目シーンは、所定の姿勢のプレイヤーが写っているシーン、所定の動きのプレイヤーが写っているシーン、所定のプレイヤーが写っているシーン、所定の姿勢で所定のプレイヤーが写っているシーン、所定の動きで所定のプレイヤーが写っているシーンの中の少なくとも1つである。
 S12では、情報処理装置10は、S11で抽出した注目シーンの第1の動画内における位置を示す情報を出力する。情報処理装置10は、例えば図4に示すような情報を出力する。
「作用効果」
 本実施形態の情報処理装置10は、画像解析技術を用いて、プレイヤーを撮影した第1の動画の中の注目シーンを抽出し、第1の動画内における注目シーンの位置を示す情報を出力する。ハイライト動画を作成する作業者は、注目シーンの中からハイライト動画に含めるシーンを選択することができる。
 また、本実施形態の情報処理装置10は、顔認識機能、人型認識機能、姿勢認識機能、動き認識機能、外観属性認識機能、画像の勾配特徴検出機能、画像の色特徴検出機能、物体認識機能及び文字認識機能の中の少なくとも1つを用いて、第1の動画を解析することができる。このため、様々な視点から注目シーンを抽出することができる。
 例えば、本実施形態の情報処理装置10によれば、所定の姿勢のプレイヤーが写っているシーン、所定の動きのプレイヤーが写っているシーン、所定のプレイヤーが写っているシーン、所定の姿勢で所定のプレイヤーが写っているシーン、所定の動きで所定のプレイヤーが写っているシーン等を、注目シーンとして抽出することができる。結果、視聴者が希望するシーンを注目シーンとして抽出することができる。
<第3の実施形態>
 本実施形態の情報処理装置10は、第1の動画の中の一部を上述した解析対象とし、他の一部を解析対象から外すことができる点で、第1及び第2の実施形態と異なる。以下、詳細に説明する。
 抽出部11は、時刻を指定する入力を受付ける。そして、抽出部11は、第1の動画内の一部であって、指定された時刻を基準にして特定される部分を上述した画像解析の対象として、注目シーンを抽出する。第1の動画内の他の部分(指定された時刻を基準にして特定されなかった部分)は上述した画像解析の対象とならない。
 「時刻を指定する入力」は、例えばハイライト動画作成の作業者が行う。作業者は、得点シーンや観客が盛り上がったシーンの大体の時刻を入力する。
 「指定された時刻を基準にして特定される部分」は、指定された時刻を基準にして特定される時間帯に撮影されたフレーム画像であり、例えば指定された時刻から所定時間前に撮影されたフレーム画像から、指定された時刻から所定時間後に撮影されたフレーム画像までである。所定時間は設計的事項である。例えば、抽出部11は、第1の動画のタイムスタンプ(各フレーム画像の撮影時刻を示す情報)に基づき、指定された時刻から所定時間前に撮影されたフレーム画像、及び指定された時刻から所定時間後に撮影されたフレーム画像を特定することができる。
 抽出部11は、例えば第1の動画全体を画像解析システム20に入力するのでなく、第1の動画から指定された時刻を基準にして特定される部分のみを切り出し、切り出した部分のみを画像解析システム20に入力してもよい。その他、抽出部11は、第1の動画全体を画像解析システム20に入力するとともに、画像解析の対象となる部分を示す情報を画像解析システム20に入力してもよい。
 本実施形態の情報処理装置10のその他の構成は、第1及び第2の実施形態と同様である。
 本実施形態の情報処理装置10によれば、第1及び第2の実施形態の情報処理装置10と同様の作用効果が実現される。
 また、本実施形態の情報処理装置10によれば、第1の動画の全体を解析するのでなく、一部を解析することができる。結果、画像解析システム20の処理負担の軽減や、画像解析に要する時間の短縮などが実現される。例えば、作業者が、予め得点シーンや盛り上がったシーン等の大体の時刻を知っている場合、本実施形態の情報処理装置10は有益である。
<第4の実施形態>
 本実施形態の情報処理装置10は、プレイヤーを見る観客を撮影した第2の動画を解析した結果に基づき、第1の動画の中の注目シーンを抽出する機能をさらに有する点で、第1乃至第3の実施形態と異なる。以下、詳細に説明する。
 抽出部11は、第2及び第3の実施形態で説明した第1の動画を解析した結果に加えて、プレイヤーを見る観客を撮影した第2の動画を解析した結果に基づき、第1の動画の中の注目シーンを抽出する。第1の動画を解析した結果に基づき第1の動画の中の注目シーンを抽出する処理は、第2及び第3の実施形態で説明したものと同様である。
 図3に示すように、抽出部11は、画像解析システム20に第2の動画を入力する。そして、抽出部11は、画像解析システム20から出力された第2の動画の解析結果を取得する。
 姿勢認識機能及び/又は動き認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、第2の動画の中から検出した姿勢及び/又は動きを示す情報、及び各姿勢及び/又は動きが写っているシーンの第2の動画内の位置を示す情報が含まれる。
 画像の勾配特徴検出機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・各フレーム画像の勾配特徴、
・検出対象の画像(シーン)と同様な勾配特徴となっているシーンの第2の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 画像の色特徴検出機能を利用した場合、画像解析システム20から出力される解析結果の中には、
・各フレーム画像の色特徴、
・検出対象の画像(シーン)と同様な色特徴となっているシーンの第2の動画内の位置を示す情報、
の中の少なくとも1つが含まれる。
 物体認識機能を利用した場合、画像解析システム20から出力される解析結果の中には、検出対象の物体が写るシーンの第2の動画内の位置を示す情報が含まれる。
 また、本実施形態の場合、画像解析システム20は、さらに表情検出機能を有してもよい。表情検出機能を利用した場合、画像解析システム20から出力される解析結果の中には、第2の動画の中から検出した観客の表情を示す情報、及び各表情の観客が写っているシーンの第2の動画内の位置を示す情報が含まれる。
 抽出部11は、上述のような画像解析システム20から出力される第2の動画の解析結果に基づき、第2の動画の中の検出対象シーンを検出する。
 検出対象シーンは、
・所定の姿勢の観客が写っているシーン、
・所定の動きの観客が写っているシーン、
・所定の表情の観客が写っているシーン、
の中の少なくとも1つである。
 所定の姿勢、所定の動き及び所定の表情は、予め登録される。例えば、所定の姿勢、所定の動き及び所定の表情のみが検出されるように、画像解析システム20が設定されてもよい。その他、画像解析システム20は、所定の姿勢、所定の動き及び所定の表情のみならず、その他の姿勢、動き及び表情も検出するように設定されてもよい。そして、抽出部11は、画像解析システム20により検出された姿勢、動き及び表情の中から、所定の姿勢、所定の動き及び所定の表情を抽出してもよい。
 例えば、立っている姿勢や、両手を挙げて喜んでいる姿勢や、立ち上がる動きや、飛び跳ねて喜んでいる動きや、喜んでいる表情や、興奮した表情等を所定の姿勢や所定の動きや所定の表情とすることで、観客が喜び、興奮しているシーン等を検出対象シーンとして検出できる。なお、上述した検出対象シーンは一例であり、その他のシーンを検出対象シーンとしてもよい。その他、第2の動画の音声データに基づき、検出対象シーンを検出してもよい。例えば、音声が基準値より大きくなっているシーンを検出対象シーンとしてもよい。
 上述した「所定の対象(姿勢、動き及び表情)が写っているシーン」は、所定の対象が写っているフレーム画像のみを集めたものであってもよいし、所定の対象が写っているフレーム画像とその前後の所定数のフレーム画像を集めたものであってもよい。1つのシーンは、連続する少なくとも2つのフレーム画像で構成される。
 抽出部11は、上述の処理で第2の動画内の検出対象シーンを検出した後、その検出結果に基づき、第1の動画の中の注目シーンを抽出する。具体的には、抽出部11は、第2の動画内で検出された検出対象シーンと同じタイミングで撮影された第1の動画内のシーンを、第1の動画の中の注目シーンとして抽出する。例えば、抽出部11は、第1の動画及び第2の動画各々のタイムスタンプ(各フレーム画像の撮影時刻を示す情報)に基づき、第2の動画内で検出された検出対象シーンと同じタイミングで撮影された第1の動画内のシーンを特定することができる。
 本実施形態の情報処理装置10のその他の構成は、第1乃至第3の実施形態と同様である。
 本実施形態の情報処理装置10によれば、第1乃至第3の実施形態の情報処理装置10と同様の作用効果が実現される。
 また、本実施形態の情報処理装置10によれば、プレイヤーを見る観客を撮影した第2の動画を解析した結果に基づき、第1の動画の中の注目シーンを抽出することができる。このような本実施形態の情報処理装置10によれば、プレイヤーを撮影した第1の動画を解析した結果に基づき第1の動画の中の注目シーンを抽出する第1の実施形態の情報処理装置10と異なる視点で、第1の動画の中の注目シーンを抽出することができる。
 また、本実施形態の情報処理装置10によれば、第2の動画内の所定の姿勢、動き又は表情の観客が写るシーンと同じタイミングで撮影された第1の動画内のシーンを、注目シーンとして抽出することができる。この場合、例えば観客が喜び、興奮している時のシーンを注目シーンとして抽出できる。
<第5の実施形態>
 本実施形態の情報処理装置10は、特徴的なUI(user interface)画面で、第1の動画内における注目シーンの位置を示す情報を表示する点で、第1乃至第4の実施形態と異なる。以下、詳細に説明する。
 抽出部11は、第1の動画から抽出された注目シーンをその内容に応じてグループ化する。そして、出力部12は、グループ毎に分けて、第1の動画内における注目シーンの位置を示す情報を出力する。抽出部11は、例えば、注目シーンを、写っているプレイヤー毎、写っているプレイヤーの姿勢毎、写っているプレイヤーの動き毎、同じタイミングで撮影された動画に写っている観客がとっている姿勢毎、同じタイミングで撮影された動画に写っている観客がとっている動き毎、又は同じタイミングで撮影された動画に写っている観客がとっている表情毎に分けてグループ化する。なお、1つのシーンが複数のグループに属してもよい。
 図6に、出力部12が出力するUI画面の一例を模式的に示す。図6に示すUI画面では、ファイル名と、プレイヤーインデックスと、シーンインデックスとが示されている。
 「ファイル名」は、第1の動画のファイル名である。
 「プレイヤーインデックス」は、第1の動画に写っているプレイヤーの名前の一覧である。
 「シーンインデックス」は、第1の動画に写っているシーンの一覧である。例えば、好プレーのシーン、ガッツポーズのシーン、観客が盛り上がったシーン等である。
 図6に示すようなUI画面において、複数のインデックスの中から1つを選択するユーザ入力がなされると、出力部12は、当該ユーザ入力に応じて、図7に示すようにシーン位置の情報をさらに表示してもよい。図7に示す例の場合、枠Wで囲まれた「田中順」がユーザ入力で選択されている。そして、シーン位置の欄には、選択された田中順が写っている注目シーン(抽出理由が田中順である注目シーン)の位置を示す情報が表示されている。なお、図7に示す例の場合、第1の動画の冒頭からの経過時間で注目シーンの開始位置が示されている。
 本実施形態の情報処理装置10のその他の構成は、第1乃至第4の実施形態と同様である。
 本実施形態の情報処理装置10によれば、第1乃至第4の実施形態の情報処理装置10と同様の作用効果が実現される。
 また、本実施形態の情報処理装置10によれば、図6及び図7に示すような特徴的なUI画面で、第1の動画内における注目シーンの位置を示す情報を表示することができる。具体的には、注目シーンをその内容に応じてグループ化し、グループ毎に分けて、第1の動画内における注目シーンの位置を示す情報を出力することができる。このような本実施形態の情報処理装置10によれば、ハイライト動画を作成する作業者は、複数の注目シーンの中から所望の注目シーンを容易に見つけることができる。結果、ハイライト動画作成の作業性の問題が解決される。
<第6の実施形態>
 本実施形態の情報処理装置10は、複数の第1の動画を取得し、複数の第1の動画各々内における注目シーンの位置を示す情報を出力する点で、第1乃至第5の実施形態と異なる。
 プレイヤーがプレーするプレーエリア(野球場、競技場、コンサートホール等)が広い場合、また複数のプレイヤーが同時にプレーする場合等には、複数のカメラでそれらを撮影することがある。複数の第1の動画は、このように、複数のカメラで、同じタイミングで、同じプレーエリア内を撮影して生成された動画である。複数のカメラは、互いに異なる対象(プレイヤー、スコアボード、時計、監督等)を撮影していてもよいし、互いに異なる場所(同じエリアの中の互いに異なる場所)を撮影していてもよいし、同一の対象を互いに異なる角度から撮影してもよい。
 抽出部11は、複数の第1の動画各々に対して、第1乃至第5の実施形態で説明した画像解析を行う。そして、出力部12は、複数の第1の動画内における注目シーンの位置を示す情報をまとめて出力する。
 図8に、出力部12が出力するUI画面の一例を模式的に示す。図8に示すUI画面では、プレイヤーインデックスと、シーンインデックスと、シーン位置が示されている。
 「プレイヤーインデックス」は、複数の第1の動画のいずれかに写っているプレイヤーの名前の一覧である。
 「シーンインデックス」は、複数の第1の動画のいずれかに写っているシーンの一覧である。例えば、好プレーのシーン、ガッツポーズのシーン、観客が盛り上がったシーン等である。
 「シーン位置」は、抽出された注目シーンの第1の動画内における位置を示す情報である。図8に示す例の場合、作業者が選択したグループに属する注目シーンの第1の動画内における位置が示される。図8に示す例の場合、枠Wで囲まれた「田中順」に関連するグループがその時点で選択されている。このため、シーン位置の欄には、田中順が写っている注目シーンの位置が示されている。なお、図8に示す例の場合、第1の動画のファイル名と、その第1の動画の冒頭からの経過時間とを紐付けた情報で、各注目シーンの開始位置が示されている。図示するように、複数の動画から抽出された複数の注目シーンがまとめて一覧表示される。また、シーン位置は、図6及び図7を用いて説明した例のように、1つのインデックスが選択されたことに応じて表示されてもよい。
「変形例」
 ここで、第6の実施形態の変形例を説明する。第6の実施形態の技術を、プレイヤーを見る観客を撮影した第2の動画を解析した結果に基づき第1の動画の中の注目シーンを抽出する第3の実施形態の技術と組み合わせる場合、情報処理装置10は以下のような処理を実行することができる。
 まず、抽出部11は、第2の動画から検出した検出対象シーンに含まれる観客がプレイエリアの中のどこを見ているか特定する。
 具体的には、抽出部11は、画像解析で、観客が向く方向(視線方向、顔が向く方向、又は身体が向く方向)を特定する。次いで、抽出部11は、プレイエリアのマップと、複数のカメラ各々のプレイエリア内の設置位置と、検出対象シーンに含まれる背景画像とに基づき、検出対象シーンを撮影したタイミングにおける複数のカメラ各々の向きを特定する。そして、抽出部11は、プレイエリアのマップと、複数のカメラ各々のプレイエリア内の設置位置と、検出対象シーンを撮影したタイミングにおける複数のカメラ各々の向きと、特定した観客が向く方向とに基づき、観客がプレイエリアの中のどこを見ているか特定する。これらの処理は、関連するあらゆる技術を用いて実現することができる。
 検出対象シーンに複数の観客が含まれる場合、抽出部11は、複数の観客各々が向く方向を特定し、それらを統計して算出された方向(最も多くの人が向く方向、複数の観客が向く方向の平均)を、観客が向く方向として特定してもよい。
 なお、これらの処理の少なくとも一部は画像解析システム20が実行してもよい。
 次に、抽出部11は、プレイエリアのマップと、複数のカメラ各々のプレイエリア内の設置位置と、検出対象シーンを撮影したタイミングにおける複数のカメラ各々の向きと、検出対象シーンにおいて観客が見ているプレイエリア内の位置と、に基づき、検出対象シーンにおいて観客が見ているプレイエリア内の位置を撮影しているカメラを特定する。そして、抽出部11は、特定したカメラが撮影した第1の動画内のシーンであって、第2の動画内で検出された検出対象シーンと同じタイミングで撮影されたシーンを、第1の動画の中の注目シーンとして抽出する。
 本実施形態の情報処理装置10のその他の構成は、第1乃至第5の実施形態と同様である。
 本実施形態の情報処理装置10によれば、第1乃至第5の実施形態の情報処理装置10と同様の作用効果が実現される。
 また、本実施形態の情報処理装置10によれば、複数の第1の動画から抽出された注目シーンの位置をまとめて出力することができる。野球、サッカー、コンサート等のように、同時にプレーするプレイヤーが複数いる場合、複数のカメラでその競技等を撮影する場合がある。この場合、複数のカメラで撮影して生成された複数の第1の動画からハイライト画像を生成することで、より魅力的なハイライト画像を生成できる。しかし、複数の第1の動画各々視聴し、各々からハイライト動画に含める部分を選別する作業は非常に手間である。複数の第1の動画から抽出された注目シーンの位置をまとめて出力する本実施形態の情報処理装置10によれば、複数の第1の動画からハイライト動画に含める部分を選別する作業の効率が向上する。
 また、本実施形態の情報処理装置10の上述した変形例によれば、例えば観客が喜び、興奮している時に観客が見ている位置を撮影していたカメラが生成した第1の動画内のシーンを注目シーンとして抽出することができる。
<変形例>
 ここで、第1乃至第6の実施形態に適用可能な変形例を説明する。
-変形例1-
 抽出部11は、上記技術で複数のプレイヤー各々が写るシーンを検出した後、各シーンを所定の手法で処理することで、プレイヤー毎のスタッツを算出してもよい。そして、出力部12は、算出されたスタッツを出力してもよい。
-変形例2-
 画像解析システム20は、第1の動画から複数の姿勢及び/又は動きを検出した後、似ている姿勢や動き毎にまとめてグループ分けし、グループ分けの結果を出力してもよい。当該処理は、特許文献3に記載の技術を用いて実現できる。そして、出力部12は、そのグループ分けの結果を出力してもよい。作業者は、当該出力情報に基づき、どのような姿勢や動きが第1の動画内から検出されたのか、その概要を把握できる。そして、作業者は、その把握内容に基づき、作成するハイライト動画の大まかなストーリーを構築することができる。そして、ストーリーを構築した後、図4、6、7又は8に示すようなUI画面から所望の注目シーンを探しだし、ハイライト動画を作成することができる。
-変形例3-
 抽出部11は、過去に作成されたハイライト動画の入力を受付けてもよい。そして、抽出部11は、過去に作成されたハイライト動画に含まれるプレイヤーの姿勢や動きと同様の姿勢や動きのプレイヤーが写るシーンを、注目シーンとして抽出してもよい。
 また、この場合、抽出部11は、抽出した複数の注目シーンを、過去に作成されたハイライト動画と同じ順番で繋ぎ合わせてハイライト動画を作成してもよい。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。
 また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。
 上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段と、
 前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置。
2. 前記注目シーンは、所定の姿勢のプレイヤー、又は所定の動きのプレイヤーが写っているシーンである1に記載の情報処理装置。
3. 前記注目シーンは、所定のプレイヤーが写っているシーンである1又は2に記載の情報処理装置。
4. 前記抽出手段は、さらに、前記プレイヤーを見る観客を撮影した第2の動画を解析した結果に基づき、前記第1の動画の中の前記注目シーンを抽出する1から3のいずれかに記載の情報処理装置。
5. 前記注目シーンは、前記第2の動画内の所定の姿勢の観客が写るシーン、所定の動きの観客が写るシーン又は所定の表情の観客が写るシーンと同じタイミングで撮影された前記第1の動画内のシーンである4に記載の情報処理装置。
6. 前記抽出手段は、抽出した前記注目シーンをその内容に応じてグループ化し、
 前記出力手段は、前記グループ毎に分けて、前記第1の動画内における前記注目シーンの位置を示す情報を出力する1から5のいずれかに記載の情報処理装置。
7. 前記抽出手段は、
  前記注目シーンを、写っているプレイヤー毎、写っているプレイヤーの姿勢毎、写っているプレイヤーの動き毎、同じタイミングで撮影された動画に写っている観客がとっている姿勢毎、同じタイミングで撮影された動画に写っている観客がとっている動き毎、又は同じタイミングで撮影された動画に写っている観客がとっている表情毎に分けてグループ化する6に記載の情報処理装置。
8. コンピュータが、
  プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出し、
  前記第1の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法。
9. コンピュータを、
  プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段、
  前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラム。
10. プレイヤーを撮影した第1の動画の中から画像解析技術を用いて注目シーンを抽出し、前記注目シーンをその内容に応じてグループ化する抽出手段と、
 前記グループ毎に分けて、前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置。
11. コンピュータが、
  プレイヤーを撮影した第1の動画の中から画像解析技術を用いて注目シーンを抽出し、
  前記注目シーンをその内容に応じてグループ化し、
  前記グループ毎に分けて、前記第1の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法。
12. コンピュータを、
  プレイヤーを撮影した第1の動画の中から画像解析技術を用いて注目シーンを抽出し、前記注目シーンをその内容に応じてグループ化する抽出手段、
  前記グループ毎に分けて、前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラム。
 10  情報処理装置
 11  抽出部
 12  出力部
 20  画像解析システム
 1A  プロセッサ
 2A  メモリ
 3A  入出力I/F
 4A  周辺回路
 5A  バス

Claims (9)

  1.  プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段と、
     前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
    を有する情報処理装置。
  2.  前記注目シーンは、所定の姿勢のプレイヤー、又は所定の動きのプレイヤーが写っているシーンである請求項1に記載の情報処理装置。
  3.  前記注目シーンは、所定のプレイヤーが写っているシーンである請求項1又は2に記載の情報処理装置。
  4.  前記抽出手段は、さらに、前記プレイヤーを見る観客を撮影した第2の動画を解析した結果に基づき、前記第1の動画の中の前記注目シーンを抽出する請求項1から3のいずれか1項に記載の情報処理装置。
  5.  前記注目シーンは、前記第2の動画内の所定の姿勢の観客が写るシーン、所定の動きの観客が写るシーン又は所定の表情の観客が写るシーンと同じタイミングで撮影された前記第1の動画内のシーンである請求項4に記載の情報処理装置。
  6.  前記抽出手段は、抽出した前記注目シーンをその内容に応じてグループ化し、
     前記出力手段は、前記グループ毎に分けて、前記第1の動画内における前記注目シーンの位置を示す情報を出力する請求項1から5のいずれか1項に記載の情報処理装置。
  7.  前記抽出手段は、
      前記注目シーンを、写っているプレイヤー毎、写っているプレイヤーの姿勢毎、写っているプレイヤーの動き毎、同じタイミングで撮影された動画に写っている観客がとっている姿勢毎、同じタイミングで撮影された動画に写っている観客がとっている動き毎、又は同じタイミングで撮影された動画に写っている観客がとっている表情毎に分けてグループ化する請求項6に記載の情報処理装置。
  8.  コンピュータが、
      プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出し、
      前記第1の動画内における前記注目シーンの位置を示す情報を出力する、
    情報処理方法。
  9.  コンピュータを、
      プレイヤーを撮影した第1の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段、
      前記第1の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
    として機能させるプログラム。
PCT/JP2022/004668 2022-02-07 2022-02-07 情報処理装置、情報処理方法、およびプログラム WO2023148963A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/004668 WO2023148963A1 (ja) 2022-02-07 2022-02-07 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/004668 WO2023148963A1 (ja) 2022-02-07 2022-02-07 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023148963A1 true WO2023148963A1 (ja) 2023-08-10

Family

ID=87553300

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004668 WO2023148963A1 (ja) 2022-02-07 2022-02-07 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023148963A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021225A (ja) * 2006-07-14 2008-01-31 Sony Corp 画像処理装置および方法、並びにプログラム
JP2019075638A (ja) * 2017-10-13 2019-05-16 キヤノン株式会社 画像処理装置
WO2021241430A1 (ja) * 2020-05-28 2021-12-02 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021225A (ja) * 2006-07-14 2008-01-31 Sony Corp 画像処理装置および方法、並びにプログラム
JP2019075638A (ja) * 2017-10-13 2019-05-16 キヤノン株式会社 画像処理装置
WO2021241430A1 (ja) * 2020-05-28 2021-12-02 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SASAHARA, NORITOMO, HANAIZUMI, HIROSHI: "Extraction of Highlight Scenes from Football Videos", PROCEEDINGS OF THE 80TH NATIONAL CONVENTION OF IPSJ ((2) ARTIFICIAL INTELLIGENCE AND COGNITIVE SCIENCE); MARCH 13-15, 2018, IPSJ, JP, 22 March 2018 (2018-03-22) - 15 March 2018 (2018-03-15), JP, pages 2 - 2-440, XP009548401 *

Similar Documents

Publication Publication Date Title
US11132578B2 (en) System and method for creating navigable views
Over et al. The TRECVID 2007 BBC rushes summarization evaluation pilot
CN101425133B (zh) 人物图像检索装置
JP5634111B2 (ja) 映像編集装置、映像編集方法及びプログラム
US8538153B2 (en) System and method for enabling meaningful interaction with video based characters and objects
Haq et al. DeepStar: Detecting starring characters in movies
CN101295354A (zh) 图像处理装置、成像装置、图像处理方法和计算机程序
CN114651284A (zh) 轻量级多分支和多尺度人员重识别
US11501471B2 (en) Virtual and real composite image data generation method, virtual and real images compositing system, trained model generation method, virtual and real composite image data generation device
Pingali et al. Instantly indexed multimedia databases of real world events
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
JP6649231B2 (ja) 検索装置、検索方法およびプログラム
JP2013126233A (ja) 映像処理装置、方法及びプログラム
Mademlis et al. Multimodal stereoscopic movie summarization conforming to narrative characteristics
CN109408672A (zh) 一种文章生成方法、装置、服务器及存储介质
JP2006140559A (ja) 画像再生装置及び画像再生方法
JP2021509201A (ja) 映像前処理方法、装置及びコンピュータプログラム
Lu et al. Video summarization by video structure analysis and graph optimization
KR101642200B1 (ko) 객체의 움직임 분석을 이용한 모션 효과 생성 장치 및 방법
WO2023148963A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
Ainasoja et al. Keyframe-based Video Summarization with Human in the Loop.
Ellappan et al. Classification of cricket videos using finite state machines
JP5276609B2 (ja) 画像処理装置及びプログラム
Mendes et al. Spatio-temporal localization of actors in video/360-video and its applications

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22924872

Country of ref document: EP

Kind code of ref document: A1