WO2022209648A1 - 情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体 - Google Patents

情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体 Download PDF

Info

Publication number
WO2022209648A1
WO2022209648A1 PCT/JP2022/010164 JP2022010164W WO2022209648A1 WO 2022209648 A1 WO2022209648 A1 WO 2022209648A1 JP 2022010164 W JP2022010164 W JP 2022010164W WO 2022209648 A1 WO2022209648 A1 WO 2022209648A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
video
information processing
camera switching
edited
Prior art date
Application number
PCT/JP2022/010164
Other languages
English (en)
French (fr)
Inventor
文彦 飯田
健太 安部
雄司 北澤
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022209648A1 publication Critical patent/WO2022209648A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • the present invention relates to an information processing device, an information processing method, and a non-temporary computer-readable storage medium.
  • the above conventional technology merely generates camerawork according to the artist name, genre, tempo, etc. of music data, and does not necessarily improve the usability of video editing services.
  • the present disclosure proposes an information processing device, an information processing method, and a non-temporary computer-readable storage medium that can improve usability in video editing services.
  • a first moving image obtained by capturing a first target object with a first camera and a second moving image different from the first camera and an output unit that outputs reference camera switching information for continuously reproducing a second moving image obtained by imaging a second object related to the first object with the camera of is provided.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment of the present disclosure
  • FIG. It is a figure which shows the structural example of the information processing apparatus which concerns on the same embodiment. It is a figure for demonstrating an example of input operation of the area of moving image information by the user which concerns on the same embodiment. It is a figure for demonstrating an example of input operation of the area of moving image information by the user which concerns on the same embodiment.
  • FIG. 8 is a diagram showing an example of a tabulation table of metadata associated with sections of video information input by a user according to the embodiment; It is a figure which shows an example of the reference camera switching information which concerns on the same embodiment.
  • FIG. 10 is a flowchart showing an example of determination processing for determining the degree of compatibility between reference camera switching information and a moving image to be edited according to the same embodiment.
  • FIG. 10 is a diagram showing an example of camerawork information regarding a moving image to be edited according to the same embodiment;
  • FIG. 10 is a diagram showing an example of a user interface screen displaying an edited moving image according to the embodiment;
  • FIG. 10 is a diagram showing an example of a screen of a user interface for editing an edited moving image according to the embodiment; It is a figure which shows an example of the screen of the user interface for sharing the edited moving image with another user which concerns on the same embodiment.
  • It is a flow chart which shows an example of information processing by the information processor concerning the embodiment.
  • 1 is a hardware configuration diagram showing an example of a computer that implements functions of an information processing apparatus;
  • FIG. 10 is a hardware configuration diagram showing an example of a computer that implements functions of an information processing apparatus;
  • FIG. 10 is a hardware configuration diagram showing
  • the information processing apparatus 100 captures the first moving image of the first object with the first camera in response to the user's input operation. and a second moving image obtained by imaging a second object related to the first object with a second camera different from the first camera, and outputting reference camera switching information for continuously reproducing do.
  • the information processing apparatus 100 generates reference camera switching information based on camera work that matches the taste of the user and is selected in advance from video content that the user has viewed in the past.
  • the information processing apparatus 100 can select the reference camera from among the images captured by the plurality of cameras. It is possible to appropriately select a camera image that matches the user's preference based on the switching information.
  • the information processing apparatus 100 can perform video editing according to the reference camera switching information when the user views new video content. Therefore, the information processing apparatus 100 can generate a video that matches the user's taste without interfering with the user's video experience. That is, the information processing apparatus 100 can improve usability in the video editing service.
  • FIG. 1 is a diagram showing a configuration example of an information processing system 1 according to an embodiment of the present disclosure.
  • the information processing system 1 includes an information processing device 100 , a video database 200 , a reference camera switching information database 300 and a streaming server 400 .
  • the information processing device 100, the video database 200, the reference camera switching information database 300, and the streaming server 400 are connected via a predetermined network N so as to be communicable by wire or wirelessly.
  • the information processing system 1 shown in FIG. 1 includes an arbitrary number of information processing apparatuses 100, an arbitrary number of video databases 200, an arbitrary number of reference camera switching information databases 300, and an arbitrary number of streaming servers. 400 may be included.
  • the information processing device 100 is an information processing device used by users of video editing services.
  • the information processing device 100 is realized by, for example, a smartphone, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, a PDA (Personal Digital Assistant), or the like.
  • the user identified by the user ID “U1” may be referred to as "user U1".
  • user U* (* is an arbitrary number)
  • U* the user is specified by the user ID "U*”.
  • user U2 the user is the user specified by the user ID "U2”.
  • the information processing device 100 will be described as the information processing devices 100-1 and 100-2 according to the user who uses the information processing device 100.
  • the information processing device 100-1 is the information processing device 100 used by the user U1.
  • the information processing device 100-2 is the information processing device 100 used by the user U2.
  • the information processing apparatuses 100-1 and 100-2 will be referred to as the information processing apparatus 100 when they are not distinguished from each other.
  • the video database 200 is a database that stores past video information (video content, etc.).
  • the reference camera switching information database 300 is a database that stores metadata related to moving images to be described later, reference camera switching information generated by the user, and edited moving images edited based on the reference camera switching information.
  • the streaming server 400 is an information processing device that collects moving images for real-time live distribution.
  • the streaming server 400 performs streaming delivery of moving images.
  • FIG. 2 is a diagram showing a configuration example of the information processing device 100 according to the embodiment of the present disclosure.
  • information processing apparatus 100 includes communication section 110 , input section 120 , output section 130 , storage section 140 and control section 150 .
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Also, the communication unit 110 is connected to the network N by wire or wirelessly, and transmits and receives information to and from the video database 200, the reference camera switching information database 300, and the streaming server 400, for example.
  • NIC Network Interface Card
  • the input unit 120 receives various input operations from the user.
  • Input unit 120 is realized by a keyboard and a mouse.
  • a device incorporated in the information processing apparatus 100 may be used as the device of the input unit 120.
  • the input unit 120 may include information input using a camera.
  • the output unit 130 displays various information.
  • the output unit 130 is implemented by, for example, a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • the output unit 130 displays video information viewed by the user.
  • the output unit 130 displays the reference camera switching information generated by the camera switching information generating unit 152 .
  • the output unit 130 displays the editing target moving image to be edited.
  • the output unit 130 displays the edited moving image edited based on the reference camera switching information.
  • the output part 130 may be described as a "screen.”
  • the storage unit 140 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 140 stores moving image information viewed by the user, reference camera switching information, moving images to be edited, and edited moving images.
  • the control unit 150 is a controller, and for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or the like controls the information processing apparatus 100.
  • Various programs (corresponding to an example of an information processing program) stored in the internal storage device are executed by using a storage area such as a RAM as a work area.
  • the control unit 150 has a reception unit 151 , a camera switching information generation unit 152 , an acquisition unit 153 , a determination unit 154 , an image generation unit 155 and a transmission unit 157 .
  • the accepting unit 151 accepts an input operation of a section (including a time point) of moving image information from the user. Specifically, the receiving unit 151 receives an input operation for a segment (a segment liked by the user) that matches the taste of the user in the video information.
  • the moving image information includes a first moving image of the first object captured by the first camera, and the first object captured by the second camera different from the first camera. It includes information about a second moving image that captures an image of a related second object and a moving image that has been edited to be played back in succession.
  • the moving image information includes information related to a moving image that has been edited by switching between images captured by a plurality of different cameras (for example, camera switching).
  • an edited moving image or a moving image that has been edited may be referred to as an “edited moving image”.
  • the information about the edited moving image may be referred to as “edited moving image information”.
  • the reception unit 151 receives an operation from a user who is watching video information to set a tag for a section that matches the user's own taste. Further, the receiving unit 151 may receive an input operation at a point in time when the user feels that the video information is particularly good.
  • FIG. 3 is a diagram for explaining an example of a user's input operation for a section of video information according to the embodiment of the present disclosure.
  • the receiving unit 151 receives from the user watching the moving image information an operation to flag the moving image information at time t2 when the user feels that the moving image information is particularly good.
  • the output unit 130 displays a "Like” button on the screen while the moving image information is being displayed.
  • the accepting unit 151 accepts an operation of selecting the “Like” button displayed on the screen while the moving image information is being displayed, as an operation of setting a flag.
  • the accepting unit 151 may set a buffer time before or after the user's input.
  • the receiving unit 151 receives a section of the buffer time including the point of time input by the user as a section of the video information input by the user.
  • the buffer time may be a fixed value, or may be set as the camera switching timing by checking the change status of camera switching.
  • the reception unit 151 sets the buffer time around time t2 when the user inputs. That is, the receiving unit 151 receives an input operation for a section from time t1 before time t2 input by the user to time t3 after time t2 input by the user.
  • FIG. 4 is a diagram for explaining an example of a user's input operation for a section of video information according to the embodiment of the present disclosure.
  • the output unit 130 displays a "favorite" button B1 on the screen during display of moving image information.
  • the receiving unit 151 receives an operation of selecting the “favorite” button B1 displayed on the screen while the moving image information is being displayed, from the user who is viewing the moving image information.
  • the accepting unit 151 accepts an operation of tapping the "favorite" button B1 displayed on the screen by the user with a finger.
  • the reception unit 151 when receiving an input operation of a section of video information from the user, extracts metadata associated with the section of video information (hereinafter also referred to as an input section) input by the user.
  • FIG. 5 is a diagram illustrating an example of a summary table of metadata associated with sections of video information input by a user according to an embodiment of the present disclosure.
  • the reception unit 151 extracts the artist name, song title, name of the source of the video information (data source), and start time and end time of the input section as metadata, which are associated with the input section. Subsequently, the reception unit 151 generates a summary table 301 including the extracted metadata.
  • the reception unit 151 upon receiving an input operation for a segment of video information from the user, performs image analysis on the input segment. For example, the reception unit 151 performs image analysis on the input section and determines characters appearing in the input section and their appearance times. In the example shown in FIG. 5 , the reception unit 151 determines that the vocalist and the guitarist of the band, who are characters, appear at the respective appearance times shown in the summary table 301 . In this way, the receiving unit 151 collects objects (in the example of FIG. 5, characters) included in the moving image information of the section input by the user and the summary table 301 of the metadata including the appearance times of the objects to be photographed. to generate After generating the summary table 301 , the reception unit 151 stores the summary table information about the generated summary table 301 in the storage unit 140 .
  • FIG. 5 illustrates an example in which the receiving unit 151 performs image analysis on an input interval to determine characters appearing in the input interval and their appearance times, but the target of image analysis is limited to characters. do not have.
  • the reception unit 151 performs image analysis on the input section, and identifies an object other than the person shown in the input section (for example, it may be an object, a special effect at the site, superimposed information, etc.).
  • the imaging time during which the imaging object is being imaged may be determined.
  • the camera switching information generation unit 152 generates reference camera switching information based on the information regarding the input section.
  • the reference camera switching information refers to a first moving image of a first target captured by a first camera and a second camera different from the first camera, according to user's input operation. It is information for continuously reproducing a first object and a second moving image in which a related second object is imaged.
  • the reference camera switching information includes not only information about switching between a plurality of cameras, but also camera identification information for identifying the camera, time information of the input section input by the user, and object information about the object to be photographed.
  • the reference camera switching information includes, as an example of object information, object identification information that identifies the object to be photographed, the position coordinates of the object to be photographed in the angle of view for each appearance time, the area occupied by the object to be photographed, the appearance time It contains information about the position coordinates of each part of the object to be photographed.
  • FIG. 6 is a diagram illustrating an example of reference camera switching information according to the embodiment of the present disclosure.
  • the camera switching information generation unit 152 uses the camera switching information as the reference camera switching information for the camera work in the input section and the time of the target object information, which is information related to the shooting target (appearing characters in the example shown in FIG. 6).
  • a table 302 which is information indicating transition patterns, is generated. It should be noted that squares filled with a black dot pattern shown in table 302 indicate that the relevant character appeared at that time in the input section.
  • the time transition patterns of camerawork and characters shown in table 302 of FIG. 6 are as follows. First, during the input interval from time “0:11:30” to time “0:11:50”, the camera identified by “Cam1” captures the image of the character “Vocal” followed by “Vocal ” and “Guitar” footage was filmed. Next, between the time “0:11:50” and the time “0:12:20”, the image of the character “Guitar” is captured by the camera identified by "Cam2". Indicates that the video was shot continuously. Next, between the time “0:12:20” and the time “0:12:30", the image of the character "Vocal” was captured by the camera identified by "Cam3". .
  • the camera switching information generation unit 152 performs image analysis on the input section and determines the temporal transition pattern of camera work in the input section. More specifically, the camera switching information generator 152 performs image analysis on the input section and determines whether or not there is video continuity in the input section. For example, when the camera switching information generation unit 152 determines that the video in the input section has no continuity (there is a discontinuous portion), the camera is changed (that is, the camera is switched) at the discontinuous portion. determined to have occurred. That is, when the camera switching information generation unit 152 determines that the video in the input section has no continuity (there is a discontinuous part), the input section is continuously captured by two or more different cameras.
  • the edited moving image information is edited so that two or more different moving image information are connected and continuously reproduced.
  • the camera switching information generating unit 152 determines that the video in the input section has continuity (no discontinuous part)
  • the camera is changed (that is, the camera is switched) during the shooting of the input section. is determined to have not occurred. That is, when the camera switching information generating unit 152 determines that the video in the input section has continuity (there is no discontinuous part), the input section is one video captured continuously by one camera. determined to be information.
  • a time buffer or manual correction may be performed so as to determine that there is continuity before and after the change.
  • the camera switching information generating unit 152 performs image analysis on the input section and determines that there is a discontinuity between the time “0:11:50” and the time “0:12:20” in the input section. Determine that there is a part
  • the camera switching information generation unit 152 since the camera switching information generation unit 152 has determined that there is a discontinuity between the time “0:11:50” and the time “0:12:20” in the input section, the time “0:11” in the input section :50” and at time “0:12:20”, it is determined that a camera change (that is, camera switching) occurred. That is, the camera switching information generation unit 152 determines that the input section is edited moving image information edited so that three different pieces of moving image information shot continuously by three different cameras are connected and played back continuously. do.
  • the camera ID in the table 302 shown in FIG. 6 indicates camera identification information for identifying the camera when the camera switching information generation unit 152 determines that camera switching has occurred. For example, the camera switching information generation unit 152 determines that moving image information was continuously shot by a certain camera from time "0:11:30” to time “0:11:50” in the input section. Subsequently, the camera switching information generation unit 152 generates the shooting time from the time “0:11:30” to the time “0:11:50” in the input section and the camera ID “cam1” that identifies one camera. Generates information that associates
  • the camera switching information generation unit 152 uses one camera other than the camera identified by the camera ID “cam1” from the time “0:11:50” to the time “0:12:20” in the input section. It is determined that moving image information has been photographed continuously. Subsequently, the camera switching information generation unit 152 generates the shooting time from the time “0:11:50” to the time “0:12:20” in the input section and the camera ID "cam2" that identifies another camera. Generates information that associates .
  • the camera switching information generation unit 152 selects one camera other than the camera identified by the camera ID “cam2” from the time “0:12:20” to the time “0:12:30” in the input section. It is determined that moving image information has been shot continuously by. Subsequently, the camera switching information generation unit 152 generates the shooting time from the time “0:12:20” to the time “0:12:30” in the input section, and the camera ID “cam3” that identifies another camera. ” are associated with each other.
  • the camera switching information generation unit 152 uses camera identification information (“camera ID” in table 302 in the example shown in FIG. 6) that can identify each of two or more different cameras, and each of two or more different cameras. Information in which pieces of information associated with shooting time information indicating shooting times of two or more pieces of different video information (in the example shown in FIG. 6, "time" in table 302) are arranged in chronological order. Generate.
  • the camera switching information generation unit 152 performs image analysis of the input interval and determines the pattern of time transition of the object information regarding the object to be photographed (in the example shown in FIG. 6, the characters) in the input interval.
  • the camera switching information generation unit 152 refers to the storage unit 140 and acquires summary table information regarding the summary table 301 .
  • the camera switching information generation unit 152 acquires information about the characters appearing in the input section and their appearance times based on the summary table information. Also, generally speaking, even in the same state of appearance, the value of zooming and zooming are different in terms of image expression.
  • the reference camera switching information generation unit 152 estimates the position coordinates of the characters in the angle of view and the area occupied by the characters for each appearance time by image recognition for the input section as an example of the target object information. In addition, the camera switching information generation unit 152 detects, as an example of object information, the coordinates of each part of the characters appearing in the input section for each appearance time using techniques such as face recognition and posture estimation.
  • the camera switching information generation unit 152 uses object identification information that can identify a photographing object (in the example shown in FIG. name), region identification information that can identify the imaging region of the imaging target ("imaging region” in table 302 in the example shown in FIG. 6), and region position coordinate information indicating the position coordinates of the imaging region with respect to the imaging screen (Fig. 6, the "detected coordinates" in the table 302 and the “detected coordinates” in the lower right table), and the screen occupancy ratio indicating the ratio of the area occupied by the photographed object to the photographing screen (example shown in FIG. 6 Then, information indicating the "screen share" in the table 302) is obtained for each appearance time (in the example shown in FIG. 6, the "time" in the table 302).
  • the camera switching information generation unit 152 generates reference camera switching information in which information in which camera identification information, shooting time information, and object information are associated is arranged in chronological order. Specifically, the camera switching information generation unit 152 generates camera identification information ("camera ID” in table 302 in the example shown in FIG. 6) capable of identifying two or more different cameras, and two or more different cameras. shooting time information ("time” in table 302 in the example shown in FIG. 6) indicating the shooting time at which each of two or more different pieces of moving image information was shot by each of the two or more different pieces of moving image information ( In the example shown in FIG. 6, reference camera switching information (example shown in FIG. 6) in which information associated with object information related to characters such as "vocal" and "guitar” in table 302) is arranged in chronological order. Then, a table 302) is generated.
  • camera ID camera ID
  • shooting time information (“time” in table 302 in the example shown in FIG. 6) indicating the shooting time at which each of two or more different pieces of moving image information was
  • the camera switching information generation unit 152 After generating the reference camera switching information, the camera switching information generation unit 152 stores the generated reference camera switching information in the reference camera switching information database 300 .
  • Acquisition unit 153 acquires an editing target moving image to be edited. Specifically, the acquisition unit 153 acquires the editing target moving image from the video database 200 . For example, the accepting unit 151 accepts an operation of specifying a moving image to be edited from the user via the input unit 120 . The acquiring unit 153 acquires the editing target moving image specified by the user from the video database 200 when the accepting unit 151 accepts the specifying operation of the editing target moving image. For example, the acquisition unit 153 acquires an editing target video including music information (for example, a live music video).
  • music information for example, a live music video
  • the acquisition unit 153 acquires reference camera switching information. Specifically, the acquisition unit 153 acquires reference camera switching information from the reference camera switching information database 300 . For example, the acquisition unit 153 acquires reference camera switching information determined by the determination unit 154 to be highly compatible with the editing target moving image.
  • the determination unit 154 determines the degree of compatibility between the moving image to be edited and the reference camera switching information.
  • FIG. 7 is a flowchart illustrating an example of determination processing for determining the degree of compatibility between reference camera switching information and a moving image to be edited according to an embodiment of the present disclosure.
  • FIG. 7 describes a case where the moving image to be edited is a video of a live music performance.
  • the determination unit 154 When determining to search by song title, refers to the reference camera switching information database 300 to determine whether reference camera switching information associated with the same song name as the song name associated with the video to be edited exists. is determined (step S102).
  • the determining unit 154 determines that there is reference camera switching information associated with the same song name as the song name associated with the editing target video (step S102; Yes), the same song name as the song name associated with the editing target video is associated.
  • the degree of compatibility between the received reference camera switching information and the moving image to be edited is determined (step S103). Specifically, the determination unit 154 performs the same processing as the reference camera switching information generation processing by the camera switching information generation unit 152 on the editing target video, thereby generating camerawork information related to the editing target video. .
  • the determination unit 154 generates camerawork information represented by the table shown in FIG.
  • FIG. 8 is a diagram illustrating an example of camerawork information regarding a moving image to be edited according to the embodiment.
  • the first row of the table shown in FIG. 8 indicates the song titles “Banana” and “Null” of two pieces of music included in the moving image to be edited.
  • the order of the song titles corresponds to the time when the video corresponding to the song title was shot.
  • the first row of the table shown in FIG. 8 indicates that the video corresponding to the song title "Null” was shot after the video corresponding to the song title "Banana” was shot.
  • the first column of the table shown in FIG. 8 indicates that the three cameras "CamA”, “CamB”, and “CamC” shot the images corresponding to the song titles. That is, the first column of the table shown in FIG. 8 indicates that the video to be edited is composed of three types of video information captured from different angles by the three cameras "CamA”, “CamB”, and "CamC”. indicates
  • the determination unit 154 performs image analysis on the videos of the two song titles "Banana” and "Null” associated with the editing target video. Subsequently, the determination unit 154 determines the time transition pattern of the camera work and the time transition pattern of the characters in the images of the two song titles "Banana” and “Null” as an example of the camera work information related to the video to be edited. Generate a table of correspondences. For example, the letter “V” in the table shown in FIG. 8 indicates that the character “vocal” appeared in the video at that time. Similarly, “G” indicates that the character “guitar” appeared in the video, and “D” indicates that the character "drum” appeared in the video. In this example, attribute classification by musical instruments such as vocals and guitars is exemplified, but in addition to this classification, classification may be performed by each individual's proper name, position, or the like.
  • the determination unit 154 calculates the degree of compatibility between the generated camerawork information and the reference camera switching information. For example, the determining unit 154 determines that the same camera work and character time transition pattern as the camera work and character time transition pattern in the reference camera switching information shown in table 302 in FIG. 6 are included in the table shown in FIG. Determine if it exists. For example, the determining unit 154 compares the camerawork and time transition patterns of characters in the reference camera switching information shown in Table 302 in FIG. 6 with the table shown in FIG. It is determined whether or not the same camera work and time transition pattern of characters as the pattern of camera work and time transition of characters in the switching information exists in the table shown in FIG.
  • the determining unit 154 determines the time transition pattern of the camera work and the characters indicated by the black dot pattern of the song title "Null" in the table shown in FIG. It is determined that the time transition patterns of the work and characters are the same. The determination unit 154 determines that the same camera work and character time transition pattern as the camera work and character time transition pattern of the reference camera switching information shown in the table 302 of FIG. 6 exist in the table shown in FIG. If determined, it is determined that the compatibility between the reference camera switching information and the video to be edited is high.
  • the time transition patterns of camerawork and characters in the table shown in FIG. 8 are as follows. First, it shows that the image of "V (vocal)” was followed by the image of "VG (vocal and guitar)” by the camera indicated by “CamB”. Next, it is indicated that the image of "G (guitar)” was continuously captured by the camera indicated by "CamC” after the image of "G (guitar)”. Next, it shows that the image of "V (vocal)” was captured by the camera indicated by "CamB”. As for the last transition from “CamC” to “CamB”, it is also possible to select the transition from “CamC” to “CamA”. Based on the results of the comparison, select the transition from 'CamC' to 'CamB' that is more compatible.
  • the determination unit 154 determines the camera work indicated by the black dot pattern of the song title “Banana” in the table shown in FIG. pattern indicating that the video of "VG (vocal and guitar)" was shot following the video of ) and the pattern of the first half of the time transition of the camera work and characters of the reference camera switching information shown in table 302 in FIG. 6 ( It is determined that the camera identified by "Cam1” captures the image of the character “Vocal” followed by the images of "Vocal” and "Guitar") are the same. However, since the two song titles are different, the determining unit 154 determines to compare the song name "Banana" with the reference camera switching information having the same song name.
  • the determination unit 154 may determine the degree of compatibility with reference camera switching information with a different song title. Further, the determination unit 154 may determine the degree of compatibility between the user's attribute and the reference camera switching information of the same song of a user having similar attributes. Also, the determining unit 154 may determine the degree of suitability by combining a plurality of pieces of reference camera switching information. For example, the determination unit 154 may dynamically switch the reference camera switching information for determining the level of suitability between the first half and the second half of the same song.
  • the determination unit 154 determines whether or not there is reference camera switching information that matches the moving image to be edited (step S105). For example, the determining unit 154 determines the degree of compatibility between the video to be edited and the reference camera switching information. , it is determined that there is reference camera switching information that matches the moving image to be edited. On the other hand, when there is no reference camera switching information determined to be highly compatible with the editing target moving image, the determining unit 154 determines that there is no reference camera switching information compatible with the editing target moving image.
  • Video generation unit 155) The video generation unit 155 generates an edited video that is a video to be edited based on the reference camera switching information determined by the determination unit 154 to be highly suitable.
  • the determination unit 154 determines that there is reference camera switching information that matches the editing target video (step S105; Yes)
  • the video generation unit 155 generates a video based on the reference camera switching information that matches the editing target video. to edit the video to be edited.
  • the video generation unit 155 generates an edited video, which is a video to be edited edited based on the reference camera switching information.
  • the image generation unit 155 stores the generated edited moving image in the storage unit 140 (step S107).
  • the determining unit 154 determines whether or not the song in the edited moving image has ended (step S108). If the determining unit 154 determines that the song has ended (step S108; Yes), it ends the process. On the other hand, if the determining unit 154 determines that the song has not ended (step S108; No), it repeats the process of step S102.
  • the determining unit 154 determines that there is no reference camera switching information associated with the same song name as the song name associated with the editing target moving image (step S102; No), it selects default camerawork information (step S104).
  • the video generation unit 155 edits the editing target moving image based on the default camerawork information.
  • the video generation unit 155 generates an edited video, which is a video to be edited edited based on the default camerawork information.
  • the image generation unit 155 stores the generated edited moving image in the storage unit 140 (step S107).
  • the video generation unit 155 may refer to the preset information of the distributor side, or may refer to the setting information of a user with similar user attributes, or the information of the past user himself/herself. Well, you can combine them and generate them.
  • step S105 determines whether there is no reference camera switching information that matches the editing target video.
  • step S106 determines whether there is another reference camera switching information that matches the editing target moving image. If the determination unit 154 determines that there is another reference camera switching information that matches the editing target moving image (step S106; Yes), it repeats the process of step S103.
  • step S104 selects default camerawork information.
  • the video generation unit 155 edits the editing target video based on the default camerawork information, and generates the edited video. Stored in the storage unit 140 (step S107).
  • the video generation unit 155 may detect beats of the moving image to be edited and adjust switching timing in editing. For example, the video generation unit 155 may consider the timing of switching of the choreography, the timing of switching of the choreography, the timing of switching of the phrase of the performance, etc., in addition to the beat.
  • the output control unit 156 controls to output the moving image information to the output unit 130 .
  • the output control unit 156 controls to display the moving image information on the screen. For example, the output control unit 156 displays the edited moving image generated by the video generation unit 155 on the screen.
  • the transmission unit 157 transmits the edited moving image generated by the video generation unit 155 to another information processing device.
  • the other information processing device may be an external server device, or may be the information processing device 100 of another user.
  • FIG. 11 illustrates a case where the transmission unit 157 transmits the edited moving image generated by the image generation unit 155 to the information processing device 100 of another user.
  • FIG. 11 is a diagram illustrating an example of a user interface screen for sharing an edited moving image with other users according to the embodiment of the present disclosure.
  • the output control unit 156 may display the outline of the composition as a timeline in addition to the comments. Note that this outline may be utilized as attribute information as a search target.
  • FIG. 12 is a flowchart showing an example of information processing by the information processing device 100 according to the embodiment of the present disclosure.
  • the camera switching information generation unit 152 of the information processing apparatus 100 generates reference camera switching information (step S201).
  • the acquisition unit 153 of the information processing apparatus 100 acquires the reference camera switching information and the editing target moving image (step S202).
  • the determination unit 154 of the information processing apparatus 100 determines the degree of compatibility between the reference camera switching information and the editing target moving image (step S203).
  • the video generation unit 155 of the information processing apparatus 100 generates an edited video edited based on either the reference camera switching information determined to be highly suitable by the determination unit 154 or the default camera switching information ( step S204).
  • the information processing system 1 may be implemented in various different forms other than the above-described embodiments. Therefore, other embodiments of the information processing system 1 will be described below.
  • symbol is attached
  • the transmission unit 157 may transmit the reference camera switching information generated by the camera switching information generation unit 152 to another information processing device.
  • the acquisition unit 153 acquires reference camera switching information selected by another user and an editing target video to be edited from among a plurality of pieces of reference camera switching information output to other information processing apparatuses.
  • the video generation unit 155 generates an edited video, which is a video to be edited based on the reference camera switching information selected by another user.
  • the video generation unit 155 does not have to perform editing that reflects the user's preferences on all of the editing target videos. For example, there is a case where the camera work is fixed to a fixed one depending on the performance intention of the performer. In such a case, a non-modifiable flag may be set in advance.
  • edited data may be distributed according to the reference camera switching information during streaming.
  • it may be presented to the user in advance at the provisional editing stage, and the user's additional editing may be added.
  • FIG. 9 is a diagram illustrating an example of a user interface screen displaying an edited moving image according to an embodiment of the present disclosure.
  • the output control unit 156 selects and displays, as thumbnails, those that are close to the composition that the user has "Like” more in the song, and those around the chorus. In addition, the output control unit 156 may notify the change processing that cannot be performed and the change processing that can be performed according to the intention of the performer through display. Also, the output control unit 156 may display the degree of compatibility with the reference camera switching information in numerical values or in batches. The output control unit 156 may display a summary video of the edited video other than the tile display. For example, the output control unit 156 may display the chorus or beginning of each song to generate and display an abridged version for the edited moving image.
  • FIG. 10 is a diagram illustrating an example of a user interface screen for editing an edited moving image according to an embodiment of the present disclosure.
  • the output control unit 156 displays a pie chart showing the composition information and the appearance ratio of each performer next to the thumbnail of the edited moving image. For example, when the user performs an operation to change the ratio of the pie chart on the screen, the receiving unit 151 receives the user's operation.
  • the camera switching information generating section 152 corrects the reference camera switching information based on the operation accepted by the accepting section 151 .
  • the video generation unit 155 further edits the edited video based on the modified reference camera switching information. In this manner, the video generation unit 155 generates the post-edited video that is further edited based on the modified reference camera switching information.
  • the output control unit 156 may directly display the analysis result as shown in FIG. 8, and the user may directly change the analysis result.
  • the information processing device 100 includes the output section 130 .
  • the output unit 130 outputs a first moving image of the first object captured by the first camera and the first moving image captured by the second camera different from the first camera, according to the user's input operation. outputting reference camera switching information for continuously reproducing the object and the second moving image of the related second object;
  • the information processing apparatus 100 generates reference camera switching information based on camera work that matches the taste of the user and is pre-selected by the user from video content that has been viewed in the past.
  • the information processing apparatus 100 can select the reference camera from among the images captured by the plurality of cameras. It is possible to appropriately select a camera image that matches the user's preference based on the switching information.
  • the information processing apparatus 100 can perform video editing according to the reference camera switching information when the user views new video content. Therefore, the information processing apparatus 100 can generate a video that matches the user's taste without interfering with the user's video experience. That is, the information processing apparatus 100 can improve usability in the video editing service.
  • the reference camera switching information includes camera identification information that can identify the first camera and the second camera, and shooting time information that indicates the shooting time when the first moving image and the second moving image were shot, respectively.
  • information that contains The reference camera switching information is information including first object information that is information about the first object and second object information that is information about the second object.
  • the information processing apparatus 100 makes it possible to edit the video to be edited based on camera work and switching that suit the user's taste.
  • the first object information includes identification information for identifying the first object, the position coordinates of the first object in the angle of view, the area occupied by the first object, and the
  • the second object information includes information about the position coordinates of the part, the second object information includes identification information for identifying the second object, the position coordinates of the second object in the angle of view, the area occupied by the second object, and It contains information about the position coordinates of each part of the second object.
  • the information processing apparatus 100 makes it possible to edit the editing target moving image based on the appearance pattern of the object to be shot (for example, the characters) that suits the user's taste.
  • the information processing apparatus 100 further includes an acquisition unit 153 , a determination unit 154 and a video generation unit 155 .
  • the acquisition unit 153 acquires the editing target moving image to be edited and the reference camera switching information.
  • the determination unit 154 determines the degree of compatibility between the moving image to be edited and the reference camera switching information.
  • the video generation unit 155 generates an edited video that is a video to be edited based on the reference camera switching information determined by the determination unit 154 to be highly suitable.
  • the information processing apparatus 100 can select reference camera switching information highly compatible with the editing target video and edit the editing target video based on the reference camera switching information highly compatible with the editing target video.
  • the information processing device 100 further includes a transmission unit 157 .
  • the transmission unit 157 transmits the edited moving image generated by the video generation unit 155 to another information processing device.
  • the information processing apparatus 100 makes it possible for fans to share the edited video.
  • the transmission unit 157 transmits the reference camera switching information output by the output unit 130 to another information processing apparatus. Further, the acquiring unit 153 acquires reference camera switching information selected by another user from among a plurality of pieces of reference camera switching information output to another information processing apparatus of another user and an editing target to be edited. Get videos. The video generation unit 155 generates an edited video, which is a video to be edited based on the reference camera switching information selected by another user.
  • the information processing apparatus 100 enables fans to share the reference camera switching information.
  • the video generation unit 155 generates the edited video depending on whether the video is distributed at the same time as the video is shot.
  • the information processing apparatus 100 uploads the reference camera switching information in advance to the processing server or the like in real time or in the case of live streaming, for example, so that the information can be edited according to the reference camera switching information at the time of streaming. data can be distributed.
  • the image generation unit 155 generates an edited moving image excluding the image preset by the performer.
  • the information processing device 100 can generate an edited moving image that reflects the performance intention of the performer.
  • the video generation unit 155 generates the edited video based on the beat of the music included in the video to be edited, the timing of switching effects, the timing of switching choreography, or the timing of switching phrases of a performance. do.
  • the information processing apparatus 100 can generate the edited moving image at an appropriate timing.
  • the information processing apparatus 100 further includes a camera switching information generation unit 152 that generates reference camera switching information.
  • the camera switching information generation unit 152 generates reference camera switching information based on camera work selected by the user from video content that the user has viewed in the past.
  • the output section 130 outputs the reference camera switching information generated by the camera switching information generating section 152 .
  • the information processing apparatus 100 can generate reference camera switching information that reflects the user's preferences.
  • the camera switching information generation unit 152 performs image analysis on an input section, which is a section of a moving image input by the user, and detects target object information and an appearance time of the shooting target appearing in the input section, and detects Reference camera switching information is generated based on the target object information and the appearance time.
  • the information processing apparatus 100 can generate reference camera switching information that reflects camerawork such as zooming and zooming.
  • the camera switching information generation unit 152 generates reference camera switching information based on the camera work determined by the performer's production intention.
  • the information processing device 100 can generate reference camera switching information that reflects the performance intention of the performer.
  • the camera switching information generation unit 152 disables the user's input operation and generates reference camera switching information for cuts that damage the performer's feelings or the public image.
  • the information processing apparatus 100 can generate reference camera switching information that does not include cuts that damage the performer's feelings or the public image.
  • the information processing apparatus 100 further includes an output control unit 156 that controls output of the edited moving image to the output unit 130 .
  • the output control unit 156 controls to generate a summary of the edited moving image and to output the generated summary to the output unit 130 .
  • the output unit 130 outputs a summary.
  • the information processing apparatus 100 can make it easier for the user to select a desired edited moving image from among a plurality of edited moving images.
  • the output unit 130 outputs the reference camera switching information based on the scene of the moving image of sports.
  • FIG. 13 is a hardware configuration diagram showing an example of a computer 1000 that reproduces the functions of an information processing apparatus such as the information processing apparatus 100.
  • An information processing apparatus 100 according to an embodiment will be described below as an example.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 . Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • HDD 1400 is a recording medium that records the program according to the present disclosure, which is an example of program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • CPU 1100 receives data from another device via communication interface 1500, and transmits data generated by CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 also transmits data to an output device such as a display, speaker, or printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium.
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • the CPU 1100 of the computer 1000 reproduces the functions of the control unit 140 and the like by executing programs loaded on the RAM 1200 .
  • the HDD 1400 also stores programs according to the present disclosure and various data.
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the present technology can also take the following configuration.
  • a first video captured by a first camera of a first object and a second camera different from the first camera are associated with the first object according to a user's input operation.
  • Information processing device (2)
  • the reference camera switching information includes camera identification information capable of identifying the first camera and the second camera, and shooting time information indicating shooting times at which the first moving image and the second moving image were shot, respectively. and is information containing The information processing device according to (1) above.
  • the reference camera switching information is information including first object information that is information about the first object and second object information that is information about the second object, The information processing device according to (2) above.
  • the first object information includes identification information for identifying the first object, position coordinates of the first object in the angle of view, the area occupied by the first object, and the first object. Information about the position coordinates of each part of the object is included, and the second object information includes identification information for identifying the second object, position coordinates of the second object in the angle of view, Including information on the occupied area of the object and the position coordinates of each part of the second object,
  • the information processing device according to (3) above.
  • an acquisition unit that acquires an editing target video to be edited and the reference camera switching information; a determination unit that determines the degree of compatibility between the video to be edited and the reference camera switching information; a video generation unit that generates an edited video that is the video to be edited edited based on the reference camera switching information determined to be highly suitable by the determination unit;
  • the information processing apparatus further comprising: (6)
  • the information processing apparatus according to (5), further comprising a transmission section that transmits the edited moving image generated by the video generation section to another information processing apparatus. (7)
  • the transmission unit transmitting the reference camera switching information output by the output unit to the other information processing device;
  • the information processing device according to (6) above.
  • the information processing apparatus further comprising a transmission section that transmits the reference camera switching information output by the output section to another information processing apparatus.
  • (9) Acquiring the reference camera switching information selected by the other user and the editing target video to be edited from among the plurality of the reference camera switching information output to the other information processing apparatus of the other user. an acquisition unit that a video generation unit that generates an edited video that is the video to be edited edited based on the reference camera switching information selected by the other user;
  • the information processing apparatus according to (7), further comprising: (10) The video generation unit generating the edited video according to whether or not the video is distributed at the same time as the video is shot;
  • the information processing device according to (5) above.
  • the video generation unit generating the edited video excluding the video preset by the performer; The information processing device according to (5) above.
  • the video generation unit generating the edited video based on the beat of the music included in the video to be edited, the timing of switching production, the timing of switching choreography, or the timing of switching performance phrases;
  • the information processing device according to (5) above.
  • (13) further comprising a camera switching information generation unit that generates the reference camera switching information;
  • the camera switching information generation unit generating the reference camera switching information based on camera work selected by the user from video content that the user has viewed in the past;
  • the output unit outputting the reference camera switching information generated by the camera switching information generation unit;
  • the information processing device according to (1) above.
  • the camera switching information generation unit Image analysis of an input section, which is a section of a moving image input by the user, detection of target object information related to a shooting target appearing in the input section and an appearance time of the shooting target, and detection of the detected target object information and generating the reference camera switching information based on the appearance time; The information processing device according to (13) above.
  • the camera switching information generation unit generating the reference camera switching information based on camera work determined by the performance intention of the performer; The information processing device according to (13) above.
  • (16) The camera switching information generation unit Disabling the user's input operation and generating the reference camera switching information for cuts that damage the performer's feelings or public image; The information processing device according to (13) above.
  • a computer-executed information processing method comprising: A first moving image of a first object captured by a first camera and the first moving image captured by a second camera different from the first camera according to a user's input operation input by the user. an output step of outputting reference camera switching information for continuously reproducing a second moving image obtained by imaging a second object related to the object of Information processing method including.
  • an output procedure for outputting reference camera switching information for continuously reproducing a second moving image obtained by imaging a second object related to the object of A non-transitory computer-readable storage medium in which an information processing program that causes a computer to execute is stored.
  • information processing system 100 information processing device 110 communication unit 120 input unit 130 output unit 140 storage unit 150 control unit 151 reception unit 152 camera switching information generation unit 153 acquisition unit 154 determination unit 155 video generation unit 156 output control unit 157 transmission unit 200 Video database 300 Reference camera switching information database 400 Streaming server

Abstract

情報処理装置(100)は、利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、第一のカメラとは異なる第二のカメラで第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力部(130)と、を備える。

Description

情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体
 本発明は、情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体に関する。
 従来、利用者が所望するカメラワークやスイッチングにより編集された動画(映像ともいう)の制作を支援する動画編集サービスに関する技術が知られている。例えば、音楽データのアーティスト名、ジャンル、テンポなどに応じて、CGオブジェクトをどの位置からどのように見るかを表す視点に相当するカメラのカメラパラメータを変化させることで、CGオブジェクトに対するカメラワークを生成する技術が知られている。
特開2005-56101号公報
 しかしながら、上記の従来技術では、音楽データのアーティスト名、ジャンル、テンポなどに応じてカメラワークを生成するにすぎず、動画編集サービスにおけるユーザビリティを向上させることができるとは限らない。
 そこで、本開示では、動画編集サービスにおけるユーザビリティを向上させることができる情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体を提案する。
 本開示によれば、利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力部と、を備える情報処理装置が提供される。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理装置の構成例を示す図である。 同実施形態に係る利用者による動画情報の区間の入力操作の一例を説明するための図である。 同実施形態に係る利用者による動画情報の区間の入力操作の一例を説明するための図である。 同実施形態に係る利用者によって入力された動画情報の区間に紐づくメタデータの集計表の一例を示す図である。 同実施形態に係る参照カメラ切替え情報の一例を示す図である。 同実施形態に係る参照カメラ切替え情報と編集対象動画との適合性の高さを判定する判定処理の一例を示すフローチャートである。 同実施形態に係る編集対象動画に関するカメラワーク情報の一例を示す図である。 同実施形態に係る編集後動画を表示するユーザインタフェースの画面の一例を示す図である。 同実施形態に係る編集後動画を編集するためのユーザインタフェースの画面の一例を示す図である。 同実施形態に係る編集後動画を他の利用者と共有するためのユーザインタフェースの画面の一例を示す図である。 同実施形態に係る情報処理装置による情報処理の一例を示すフローチャートである。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
(実施形態)
[1.はじめに]
 近年、映像配信の分野において、複数の画像を配信して、利用者が画面を選択するマルチビュー配信や、複数のカメラによって撮影された映像から生成された映像空間において、利用者が自由に視点を切り替えることができる自由視点映像での配信が普及しつつある。これらの映像配信は、利用者が見たい映像を選択することができるという点で、新しい視聴体験を提供できる一方で、利用者が視聴中に、自分の好みに応じた映像や視点を選択する必要があり、利用者が本来楽しみたい映像視聴に集中できないという課題がある。
 これら複数の映像から自動でスイッチングする手法としては、複数の映像から、人手や顔認識の技術を組み合わせて、人が写っているものを選択するものや、3次元モデルに対してカメラワークを生成する技術が知られている。しかしながら、これらの従来技術では、音楽ライブのように同一音源に対して、複数のカメラによって撮影された画像がある場合においては、どの画像を選択すべきという課題には対応できなかった。また、顔認識の結果のみでのスイッチングは、映像体験の品質を担保することができない。
 これに対して、本開示の実施形態に係る情報処理装置100は、利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、第一のカメラとは異なる第二のカメラで第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する。
 このように、情報処理装置100は、利用者が過去に視聴した映像コンテンツから事前に選択した利用者自身の趣向性に合ったカメラワークに基づいて、参照カメラ切替え情報を生成する。これにより、情報処理装置100は、音楽ライブのように同一音源に対して、複数のカメラによって撮影された画像がある場合であっても、複数のカメラによって撮影された画像の中から、参照カメラ切替え情報に基づいて利用者の嗜好にあったカメラの画像を適切に選択することができる。また、情報処理装置100は、利用者が新たな映像コンテンツを視聴する際に、参照カメラ切替え情報に応じた映像編集を行うことができる。したがって、情報処理装置100は、利用者の映像体験を妨げることなく、利用者の嗜好にあった映像を生成することができる。すなわち、情報処理装置100は、動画編集サービスにおけるユーザビリティを向上させることができる。
[2.情報処理システムの構成]
 図1は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。情報処理システム1は、情報処理装置100と、映像データベース200と、参照カメラ切替え情報データベース300と、ストリーミングサーバ400とを備える。情報処理装置100と、映像データベース200と、参照カメラ切替え情報データベース300と、ストリーミングサーバ400とは、所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、図1に示す情報処理システム1には、任意の数の情報処理装置100と、任意の数の映像データベース200と、任意の数の参照カメラ切替え情報データベース300と、任意の数のストリーミングサーバ400とが含まれてもよい。
 情報処理装置100は、動画編集サービスの利用者によって利用される情報処理装置である。情報処理装置100は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
 以下では、利用者ID「U1」により特定される利用者を「利用者U1」とする場合がある。このように、以下では、「利用者U*(*は任意の数値)」と記載した場合、その利用者は利用者ID「U*」により特定される利用者であることを示す。例えば、「利用者U2」と記載した場合、その利用者は利用者ID「U2」により特定される利用者である。
 また、以下では、情報処理装置100を利用する利用者に応じて、情報処理装置100を情報処理装置100-1、100-2として説明する。例えば、情報処理装置100-1は、利用者U1により使用される情報処理装置100である。また、例えば、情報処理装置100-2は、利用者U2により使用される情報処理装置100である。また、以下では、情報処理装置100-1、100-2について、特に区別なく説明する場合には、情報処理装置100と記載する。
 映像データベース200は、過去の動画情報(映像コンテンツなど)を保存するデータベースである。
 参照カメラ切替え情報データベース300は、後述する動画に関連するメタデータや、利用者が生成した参照カメラ切替え情報、参照カメラ切替え情報に基づいて編集された編集後動画を保存するデータベースである。
 ストリーミングサーバ400は、リアルタイムでのライブ配信などを行う際の動画を取りまとめる情報処理装置である。ストリーミングサーバ400は、動画のストリーミング配信を行う。
[3.情報処理装置の構成]
 図2は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。図2に示すように、情報処理装置100は、通信部110と、入力部120と、出力部130と、記憶部140と、制御部150とを有する。
(通信部110)
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークNと有線又は無線で接続され、例えば、映像データベース200や参照カメラ切替え情報データベース300やストリーミングサーバ400との間で情報の送受信を行う。
(入力部120)
 入力部120は、利用者から各種の入力操作を受け付ける。入力部120は、キーボードやマウスにより実現される。入力部120の機器については、情報処理装置100に組み込まれているものを利用してもよく、例えば、スマートフォンであればタッチパネルやマイクなどである。また、入力部120は、カメラを用いた情報入力を含んでよい。
(出力部130)
 出力部130は、各種の情報を表示する。出力部130は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される。例えば、出力部130は、利用者が視聴する動画情報を表示する。また、出力部130は、カメラ切替え情報生成部152によって生成された参照カメラ切替え情報を表示する。また、出力部130は、編集対象となる編集対象動画を表示する。また、出力部130は、参照カメラ切替え情報に基づいて編集された編集後動画を表示する。なお、以下では、出力部130のことを「画面」と記載する場合がある。
(記憶部140)
 記憶部140は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部140は、利用者が視聴する動画情報、参照カメラ切替え情報、編集対象動画、および編集後動画を記憶する。
(制御部150)
 図2に戻り、説明を続ける。制御部150は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報処理装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図2に示す例では、制御部150は、受付部151と、カメラ切替え情報生成部152と、取得部153と、判定部154と、映像生成部155と、送信部157を有する。
(受付部151)
 受付部151は、利用者から動画情報の区間(時点を含む)の入力操作を受け付ける。具体的には、受付部151は、動画情報のうち利用者自身の趣向と一致する区間(利用者が気に入った区間)の入力操作を受け付ける。ここで、本実施形態に係る動画情報には、第一のカメラで第一の対象物を撮像した第一の動画と、第一のカメラとは異なる第二のカメラで第一の対象物と関連する第二の対象物を撮像した第二の動画と、が連続して再生されるように編集された動画に関する情報が含まれる。すなわち、本実施形態に係る動画情報には、複数の異なるカメラによって撮影された画像が切り替わる編集(例えば、カメラの切替え)が行われた動画に関する情報が含まれる。なお、以下では、編集された動画、または編集が行われた動画のことを「編集動画」と記載する場合がある。また、以下では、編集動画に関する情報のことを「編集動画情報」と記載する場合がある。
 例えば、受付部151は、動画情報を視聴中の利用者から、利用者自身の趣向と一致する区間にタグを設定する操作を受け付ける。また、受付部151は、動画情報のうち利用者が特に良いと感じた時点の入力操作を受け付けてもよい。
 図3は、本開示の実施形態に係る利用者による動画情報の区間の入力操作の一例を説明するための図である。図3の下段に示す例では、受付部151は、動画情報を視聴中の利用者から、利用者が特に良いと感じた時点の時刻t2において動画情報にフラグを立てる操作を受け付ける。例えば、出力部130は、動画情報を表示中の画面に「Like」ボタンを表示する。そして、受付部151は、フラグを立てる操作として、動画情報を表示中の画面に表示された「Like」ボタンを選択する操作を受け付ける。
 また、受付部151は、フラグを立てる操作を受け付ける場合は、利用者が入力した時点の前後にバッファー時間を設定してよい。つまり、受付部151は、利用者が入力した時点を含むバッファー時間の区間を、利用者によって入力された動画情報の区間として受け付ける。バッファー時間は、固定値でも良いし、カメラの切替えの変更状況を確認して、カメラの切替えのタイミングとしてもよい。図3の上段に示す例では、受付部151は、利用者が入力した時点の時刻t2の前後にバッファー時間を設定する。すなわち、受付部151は、利用者が入力した時刻t2より前の時刻t1から利用者が入力した時刻t2より後の時刻t3までの区間の入力操作を受け付ける。
 図4は、本開示の実施形態に係る利用者による動画情報の区間の入力操作の一例を説明するための図である。図4に示す例では、出力部130は、動画情報を表示中の画面に「お気に入り」ボタンB1を表示する。そして、受付部151は、動画情報を視聴中の利用者から、動画情報を表示中の画面に表示された「お気に入り」ボタンB1を選択する操作を受け付ける。例えば、受付部151は、画面に表示された「お気に入り」ボタンB1を利用者が指でタップする操作を受け付ける。
 また、受付部151は、利用者から動画情報の区間の入力操作を受け付けると、利用者によって入力された動画情報の区間(以下、入力区間ともいう)に紐づくメタデータを抽出する。図5は、本開示の実施形態に係る利用者によって入力された動画情報の区間に紐づくメタデータの集計表の一例を示す図である。図5に示す例では、受付部151は、メタデータとして、入力区間に紐づくアーティスト名、曲名、動画情報のソース(データ元)の名称、および入力区間の開始時間と終了時間を抽出する。続いて、受付部151は、抽出したメタデータを含む集計表301を生成する。
 また、受付部151は、利用者から動画情報の区間の入力操作を受け付けると、入力区間を画像解析する。例えば、受付部151は、入力区間を画像解析して、入力区間に映っている登場人物とその登場時間を判定する。図5に示す例では、受付部151は、登場人物であるバンドのボーカルとギターそれぞれが、集計表301に示す登場時間それぞれに登場すると判定する。このように、受付部151は、利用者によって入力された区間の動画情報に含まれる撮影対象物(図5の例では、登場人物)および撮影対象物の登場時間を含むメタデータの集計表301を生成する。受付部151は、集計表301を生成すると、生成した集計表301に関する集計表情報を記憶部140に格納する。
 なお、図5では、受付部151が、入力区間を画像解析して、入力区間に映っている登場人物とその登場時間を判定する例について説明したが、画像解析の対象は登場人物に限られない。例えば、受付部151は、入力区間を画像解析して、入力区間に映っている人物以外の撮影対象物(例えば、物体や現地での特殊効果や重畳された情報などであってもよい)と撮影対象物が撮影されている撮影時間を判定してよい。
(カメラ切替え情報生成部152)
 カメラ切替え情報生成部152は、入力区間に関する情報に基づいて、参照カメラ切替え情報を生成する。ここで、参照カメラ切替え情報とは、利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、第一のカメラとは異なる第二のカメラで第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための情報である。参照カメラ切替え情報は、複数のカメラの切替えに関する情報だけでなく、カメラを識別するためのカメラ識別情報、利用者によって入力された入力区間の時間情報、および撮影対象物に関する対象物情報を含む。例えば、参照カメラ切替え情報は、対象物情報の一例として、撮影対象物を識別する対象物識別情報、登場時間ごとの画角中の撮影対象物の位置座標や撮影対象物の専有面積、登場時間ごとの撮影対象物の各部位の位置座標に関する情報を含む。図6は、本開示の実施形態に係る参照カメラ切替え情報の一例を示す図である。図6に示す例では、カメラ切替え情報生成部152は、参照カメラ切替え情報として、入力区間におけるカメラワークと撮影対象物(図6に示す例では、登場人物)に関する情報である対象物情報の時間遷移のパターンを示す情報である表302を生成する。なお、表302に示す黒いドット模様で塗りつぶされたマスは、入力区間におけるその時間に該当する登場人物が登場したことを示す。
 図6の表302に示すカメラワークと登場人物の時間遷移のパターンは、次の通りである。まず、入力区間の時刻「0:11:30」から時刻「0:11:50」の間は、「Cam1」で識別されるカメラによって、登場人物である「ボーカル」の映像に続いて「ボーカル」と「ギター」の映像が撮影されたことを示す。次に、時刻「0:11:50」から時刻「0:12:20」の間は、「Cam2」で識別されるカメラによって、登場人物である「ギター」の映像に続いて「ギター」の映像が続けて撮影されたことを示す。次に、時刻「0:12:20」から時刻「0:12:30」の間は、「Cam3」で識別されるカメラによって、登場人物である「ボーカル」の映像が撮影されたことを示す。
 具体的には、カメラ切替え情報生成部152は、入力区間を画像解析して、入力区間におけるカメラワークの時間遷移のパターンを判定する。より具体的には、カメラ切替え情報生成部152は、入力区間を画像解析して、入力区間における映像の連続性の有無を判定する。例えば、カメラ切替え情報生成部152は、入力区間における映像に連続性がない(不連続な部分がある)と判定した場合には、不連続な部分でカメラの変更(つまり、カメラの切替え)が生じたと判定する。すなわち、カメラ切替え情報生成部152は、入力区間における映像に連続性がない(不連続な部分がある)と判定した場合には、入力区間が2以上の異なるカメラそれぞれによって連続して撮影された2以上の異なる動画情報をつなげて連続して再生されるよう編集された編集動画情報であると判定する。一方、カメラ切替え情報生成部152は、入力区間における映像に連続性がある(不連続な部分がない)と判定した場合には、入力区間の撮影中にカメラの変更(つまり、カメラの切替え)が生じていないと判定する。すなわち、カメラ切替え情報生成部152は、入力区間における映像に連続性がある(不連続な部分がない)と判定した場合には、入力区間が1つのカメラによって連続して撮影された1つの動画情報であると判定する。また、演出側として、連続性がある場合においても、区分を変える必要があるには、別途カメラとして埋め込んでもよい。また、特殊効果などで瞬時画面が変化した場合には、その前後については、連続性がある場合として判断するように、時間バッファーや手動修正を行ってもよい。
 図6に示す表302の例では、カメラ切替え情報生成部152は、入力区間を画像解析して、入力区間の時刻「0:11:50」と時刻「0:12:20」に不連続な部分があると判定する。また、カメラ切替え情報生成部152は、入力区間の時刻「0:11:50」と時刻「0:12:20」に不連続な部分があると判定したので、入力区間の時刻「0:11:50」と時刻「0:12:20」にカメラの変更(つまり、カメラの切替え)が生じたと判定する。すなわち、カメラ切替え情報生成部152は、入力区間が3つの異なるカメラそれぞれによって連続して撮影された3つの異なる動画情報をつなげて連続して再生されるよう編集された編集動画情報であると判定する。
 図6に示す表302におけるカメラIDは、カメラ切替え情報生成部152によってカメラの切替えが生じたと判定された場合に、カメラを識別するためのカメラ識別情報を示す。例えば、カメラ切替え情報生成部152は、入力区間の時刻「0:11:30」から時刻「0:11:50」までは、ある1つのカメラによって連続して動画情報が撮影されたと判定する。続いて、カメラ切替え情報生成部152は、入力区間の時刻「0:11:30」から時刻「0:11:50」までの撮影時間と、ある1つのカメラを識別するカメラID「cam1」とを対応付けた情報を生成する。
 また、カメラ切替え情報生成部152は、入力区間の時刻「0:11:50」から時刻「0:12:20」まではカメラID「cam1」で識別されるカメラとは別の1つのカメラによって連続して動画情報が撮影されたと判定する。続いて、カメラ切替え情報生成部152は、入力区間の時刻「0:11:50」から時刻「0:12:20」までの撮影時間と、別の1つのカメラを識別するカメラID「cam2」とを対応付けた情報を生成する。
 また、カメラ切替え情報生成部152は、入力区間の時刻「0:12:20」から時刻「0:12:30」まではカメラID「cam2」で識別されるカメラとはまた別の1つのカメラによって連続して動画情報が撮影されたと判定する。続いて、カメラ切替え情報生成部152は、入力区間の時刻「0:12:20」から時刻「0:12:30」までの撮影時間と、また別の1つのカメラを識別するカメラID「cam3」とを対応付けた情報を生成する。
 このように、カメラ切替え情報生成部152は、2以上の異なるカメラそれぞれを識別可能なカメラ識別情報(図6に示す例では、表302における「カメラID」)と、2以上の異なるカメラそれぞれによって2以上の異なる動画情報それぞれが撮影された撮影時間を示す撮影時間情報(図6に示す例では、表302における「時刻」)とが対応付けられた情報を時系列に沿って並べた情報を生成する。
 また、カメラ切替え情報生成部152は、入力区間を画像解析して、入力区間における撮影対象物(図6に示す例では、登場人物)に関する対象物情報の時間遷移のパターンを判定する。例えば、カメラ切替え情報生成部152は、記憶部140を参照して、集計表301に関する集計表情報を取得する。続いて、カメラ切替え情報生成部152は、集計表情報に基づいて、入力区間に映っている登場人物とその登場時間に関する情報を取得する。また、一般的に、同じ登場という状態においても、引きとズームでは、映像表現としての価値が異なる。そこで、参照カメラ切替え情報生成部152は、対象物情報の一例として、入力区間に対する画像認識により、画角中の登場人物の位置座標や登場人物の専有面積を登場時間ごとに推定する。また、カメラ切替え情報生成部152は、対象物情報の一例として、顔認識や姿勢推定の技術を用いて、入力区間に映っている登場人物の各部位の座標を登場時間ごとに検出する。
 このようにして、カメラ切替え情報生成部152は、対象物情報として、撮影対象物を識別可能な対象物識別情報(図6に示す例では、表302における「ボーカル」や「ギター」といった登場人物の名称)、撮影対象物の撮影部位を識別可能な部位識別情報(図6に示す例では、表302における「撮影部位」)、撮影画面に対する撮影部位の位置座標を示す部位位置座標情報(図6に示す例では、表302における「検出座標」や右下の表における「検出座標」)、および撮影画面に対して撮影対象物が占める面積の割合を示す画面占有率(図6に示す例では、表302における「画面占有率」)を示す情報を登場時間(図6に示す例では、表302における「時刻」)ごとに取得する。
 続いて、カメラ切替え情報生成部152は、カメラ識別情報と、撮影時間情報と、対象物情報とが対応付けられた情報を時系列に沿って並べた参照カメラ切替え情報を生成する。具体的には、カメラ切替え情報生成部152は、2以上の異なるカメラそれぞれを識別可能なカメラ識別情報(図6に示す例では、表302における「カメラID」)と、2以上の異なるカメラそれぞれによって2以上の異なる動画情報それぞれが撮影された撮影時間を示す撮影時間情報(図6に示す例では、表302における「時刻」)と、2以上の異なる動画情報それぞれに含まれる撮影対象物(図6に示す例では、表302における「ボーカル」や「ギター」といった登場人物)に関する対象物情報とが対応付けられた情報を時系列に沿って並べた参照カメラ切替え情報(図6に示す例では、表302)を生成する。
 カメラ切替え情報生成部152は、参照カメラ切替え情報を生成すると、生成した参照カメラ切替え情報を参照カメラ切替え情報データベース300に格納する。
(取得部153)
 取得部153は、編集対象となる編集対象動画を取得する。具体的には、取得部153は、映像データベース200から編集対象動画を取得する。例えば、受付部151は、入力部120を介して、利用者から編集対象動画の指定操作を受け付ける。取得部153は、受付部151が編集対象動画の指定操作を受け付けると、利用者によって指定された編集対象動画を映像データベース200から取得する。例えば、取得部153は、音楽情報を含む編集対象動画(例えば、音楽ライブの映像)を取得する。
 また、取得部153は、参照カメラ切替え情報を取得する。具体的には、取得部153は、参照カメラ切替え情報データベース300から参照カメラ切替え情報を取得する。例えば、取得部153は、判定部154によって編集対象動画と適合性が高いと判定された参照カメラ切替え情報を取得する。
(判定部154)
 判定部154は、編集対象動画と参照カメラ切替え情報との適合性の高さを判定する。図7は、本開示の実施形態に係る参照カメラ切替え情報と編集対象動画との適合性の高さを判定する判定処理の一例を示すフローチャートである。図7では、編集対象動画が音楽ライブの映像である場合について説明する。まず、判定部154は、取得部153が編集対象動画を取得すると、編集対象動画に紐づく曲名を抽出する。続いて、判定部154は、曲名を抽出すると、抽出した曲名と同じ曲名が紐づけられた参照カメラ切替え情報を検索することを決定する(ステップS101)。
 判定部154は、曲名で検索することを決定すると、参照カメラ切替え情報データベース300を参照して、編集対象動画に紐づく曲名と同じ曲名が紐づけられた参照カメラ切替え情報が存在するか否かを判定する(ステップS102)。
 判定部154は、編集対象動画に紐づく曲名と同じ曲名が紐づけられた参照カメラ切替え情報が存在すると判定した場合(ステップS102;Yes)、編集対象動画に紐づく曲名と同じ曲名が紐づけられた参照カメラ切替え情報と編集対象動画との適合性の高さを判定する(ステップS103)。具体的には、判定部154は、編集対象動画に対して、カメラ切替え情報生成部152による参照カメラ切替え情報の生成処理と同様の処理を行うことにより、編集対象動画に関するカメラワーク情報を生成する。
 例えば、判定部154は、図8に示す表で表されるカメラワーク情報を生成する。図8は、実施形態に係る編集対象動画に関するカメラワーク情報の一例を示す図である。図8に示す表の1行目は、編集対象動画に含まれる2つの音楽の曲名「Banana」と「Null」を示す。また、曲名の並び順は、曲名に対応する映像が撮影された時間に対応する。図8に示す表の1行目では、曲名「Banana」に対応する映像が撮影された後に、曲名「Null」に対応する映像が撮影されたことを示す。
 また、図8に示す表の1列目は、曲名に対応する映像を撮影したカメラが「CamA」、「CamB」、「CamC」の3つであることを示す。つまり、図8に示す表の1列目は、編集対象動画が、3つのカメラ「CamA」、「CamB」、「CamC」それぞれによって異なる角度から撮影された3種類の動画情報によって構成されることを示す。
 図8に示す例では、判定部154は、編集対象動画に紐づく2つの曲名「Banana」と「Null」それぞれの映像を画像解析する。続いて、判定部154は、編集対象動画に関するカメラワーク情報の一例として、2つの曲名「Banana」と「Null」それぞれの映像におけるカメラワークの時間遷移のパターンと登場人物の時間遷移のパターンとを対応付けた表を生成する。例えば、図8に示す表の中の文字「V」は、その時間に登場人物である「ボーカル」が映像に登場したことを示す。同様に、「G」は登場人物である「ギター」が映像に登場したことを、「D」は登場人物である「ドラム」が映像に登場したことを示す。今回は、ボーカルやギターなど楽器による属性区分を例示するが、この区分以外に、各個人の固有名やポジションなどで区分をしてもよい。
 続いて、判定部154は、編集対象動画に関するカメラワーク情報を生成すると、生成したカメラワーク情報と参照カメラ切替え情報との適合度を算出する。例えば、判定部154は、図6の表302に示す参照カメラ切替え情報のカメラワークおよび登場人物の時間遷移のパターンと同じカメラワークおよび登場人物の時間遷移のパターンが図8に示す表の中に存在するか否かを判定する。例えば、判定部154は、図6の表302に示す参照カメラ切替え情報のカメラワークおよび登場人物の時間遷移のパターンと図8に示す表とを比較して、図6の表302に示す参照カメラ切替え情報のカメラワークおよび登場人物の時間遷移のパターンと同じカメラワークおよび登場人物の時間遷移のパターンが図8に示す表の中に存在するか否かを判定する。
 図8では、判定部154は、図8に示す表の曲名「Null」の黒いドット模様で示すカメラワークおよび登場人物の時間遷移のパターンと、図6の表302に示す参照カメラ切替え情報のカメラワークおよび登場人物の時間遷移のパターンが同じであると判定する。判定部154は、図6の表302に示す参照カメラ切替え情報のカメラワークおよび登場人物の時間遷移のパターンと同じカメラワークおよび登場人物の時間遷移のパターンが図8に示す表の中に存在すると判定すると、参照カメラ切替え情報と編集対象動画との適合性が高いと判定する。
 図8に示す表のカメラワークおよび登場人物の時間遷移のパターンは、次の通りである。まず、「CamB」で示されるカメラによって、「V(ボーカル)」の映像に続いて「VG(ボーカルとギター)」の映像が撮影されたことを示す。次に、「CamC」で示されるカメラによって「G(ギター)」の映像に続いて「G(ギター)」の映像が続けて撮影されたことを示す。次に、「CamB」で示されるカメラによって、「V(ボーカル)」の映像が撮影されたことを示す。なお、最後の「CamC」から「CamB」の遷移については、「CamC」から「CamA」への遷移を選択することも可能であるが、判定部154は、前述した画角の占有率などの比較結果に基づいて、より適合性の高い「CamC」から「CamB」の遷移を選択する。
 続いて、判定部154は、図8に示す表の曲名「Banana」の黒いドット模様で示すカメラワークおよび登場人物の時間遷移のパターン(「CamB」で示されるカメラによって、「V(ボーカル)」の映像に続いて「VG(ボーカルとギター)」の映像が撮影されたことを示すパターン)と図6の表302に示す参照カメラ切替え情報のカメラワークおよび登場人物の時間遷移の前半のパターン(「Cam1」で識別されるカメラによって、登場人物である「ボーカル」の映像に続いて「ボーカル」と「ギター」の映像が撮影されたことを示すパターン)が同じであると判定する。しかしながら、判定部154は、両者の曲名が異なるため、曲名「Banana」と曲名が一致する参照カメラ切替え情報との比較を行うことを決定する。
 なお、判定部154は、曲名が一致する参照カメラ切替え情報が存在しない場合には、曲名が異なる参照カメラ切替え情報との適合性の高さを判定してよい。また、判定部154は、利用者の属性と属性が類似する利用者の同曲の参照カメラ切替え情報との適合性の高さを判定してよい。また、判定部154は、複数の参照カメラ切替え情報を組み合わせて適合性の高さを判定してよい。例えば、判定部154は、同じ曲中において、前半部と後半部で適合性の高さを判定する参照カメラ切替え情報を動的に切り替えてもよい。
 図7の説明に戻る。判定部154は、編集対象動画と適合する参照カメラ切替え情報が存在するか否かを判定する(ステップS105)。例えば、判定部154は、編集対象動画と参照カメラ切替え情報との適合性の高さを判定して、編集対象動画との適合性が高いと判定された参照カメラ切替え情報が存在する場合には、編集対象動画と適合する参照カメラ切替え情報が存在すると判定する。一方、判定部154は、編集対象動画との適合性が高いと判定された参照カメラ切替え情報が存在しない場合には、編集対象動画と適合する参照カメラ切替え情報が存在しないと判定する。
(映像生成部155)
 映像生成部155は、判定部154によって適合性が高いと判定された参照カメラ切替え情報に基づいて編集された編集対象動画である編集後動画を生成する。図7では、映像生成部155は、判定部154によって編集対象動画と適合する参照カメラ切替え情報が存在すると判定された場合(ステップS105;Yes)、編集対象動画と適合する参照カメラ切替え情報に基づいて編集対象動画を編集する。このようにして、映像生成部155は、参照カメラ切替え情報に基づいて編集された編集対象動画である編集後動画を生成する。映像生成部155は、編集後動画を生成すると、生成した編集後動画を記憶部140に格納する(ステップS107)。
 判定部154は、生成した編集後動画を記憶部140に格納すると、編集対象動画における曲が終了したか否かを判定する(ステップS108)。判定部154は、曲が終了したと判定した場合(ステップS108;Yes)、処理を終了する。一方、判定部154は、曲が終了していないと判定した場合(ステップS108;No)、ステップS102の処理を繰り返す。
 一方、判定部154は、編集対象動画に紐づく曲名と同じ曲名が紐づけられた参照カメラ切替え情報が存在しないと判定した場合(ステップS102;No)、デフォルトのカメラワーク情報を選択する(ステップS104)。映像生成部155は、判定部154によってデフォルトのカメラワーク情報が選択されると、デフォルトのカメラワーク情報に基づいて編集対象動画を編集する。このようにして、映像生成部155は、デフォルトのカメラワーク情報に基づいて編集された編集対象動画である編集後動画を生成する。映像生成部155は、編集後動画を生成すると、生成した編集後動画を記憶部140に格納する(ステップS107)。なお、映像生成部155は、デフォルトの情報について、配信者側の事前設定情報を参照してもよく、または、ユーザー属性が近いユーザーの設定情報や、過去のユーザー自身の情報を参照してもよく、それらを組わせて生成してもよい。
 また、一方、判定部154は、編集対象動画と適合する参照カメラ切替え情報が存在しないと判定した場合(ステップS105;No)、編集対象動画と適合する別の参照カメラ切替え情報が存在するか否かを判定する(ステップS106)。判定部154は、編集対象動画と適合する別の参照カメラ切替え情報が存在すると判定した場合(ステップS106;Yes)、ステップS103の処理を繰り返す。一方、判定部154は、編集対象動画と適合する別の参照カメラ切替え情報が存在しないと判定した場合(ステップS106;No)、デフォルトのカメラワーク情報を選択する(ステップS104)。映像生成部155は、判定部154によってデフォルトのカメラワーク情報が選択されると、デフォルトのカメラワーク情報に基づいて編集対象動画を編集して、編集後動画を生成すると、生成した編集後動画を記憶部140に格納する(ステップS107)。
 一般的に、音楽ライブにおいて、スイッチングのタイミングは、音楽の拍のタイミングなどに合わせて行う場合が多い。そのため、映像生成部155は、参照カメラ切替え情報を用いて編集対象動画を編集する場合に、編集対象動画の拍を検出して、編集におけるスイッチングタイミングを調整してもよい。例えば、映像生成部155は、考慮するタイミングとしては、拍以外にも、特殊効果などの演出や振り付け切替わり、演奏のフレーズ切替わりのタイミングなどを考慮してもよい。
(出力制御部156)
 出力制御部156は、動画情報を出力部130に出力するよう制御する。出力制御部156は、動画情報を画面に表示するよう制御する。例えば、出力制御部156は、映像生成部155によって生成された編集後動画を画面に表示させる。
(送信部157)
 送信部157は、映像生成部155によって生成された編集後動画を他の情報処理装置に送信する。他の情報処理装置は、外部のサーバー装置であってもよく、他の利用者の情報処理装置100であってもよい。図11では、送信部157が、映像生成部155によって生成された編集後動画を他の利用者の情報処理装置100に送信する場合について説明する。図11は、本開示の実施形態に係る編集後動画を他の利用者と共有するためのユーザインタフェースの画面の一例を示す図である。出力制御部156は、図11のように、コメントのほかに、構図のアウトラインをタイムラインとして表示してもよい。なお、このアウトラインを属性情報として、検索対象として、活用してもよい。
[4.情報処理手順]
 図12は、本開示の実施形態に係る情報処理装置100による情報処理の一例を示すフローチャートである。図12に示すように、情報処理装置100のカメラ切替え情報生成部152は、参照カメラ切替え情報を生成する(ステップS201)。情報処理装置100の取得部153は、参照カメラ切替え情報と編集対象動画を取得する(ステップS202)。情報処理装置100の判定部154は、参照カメラ切替え情報と編集対象動画との適合性の高さを判定する(ステップS203)。情報処理装置100の映像生成部155は、判定部154によって適合性が高いと判定された参照カメラ切替え情報またはデフォルトのカメラ切替え情報のうちいずれかに基づいて編集された編集後動画を生成する(ステップS204)。
[5.変形例]
 上述した実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
 例えば、送信部157は、カメラ切替え情報生成部152によって生成された参照カメラ切替え情報を他の情報処理装置に送信してよい。また、取得部153は、他の情報処理装置に出力された複数の参照カメラ切替え情報の中から、他の利用者によって選択された参照カメラ切替え情報と編集対象となる編集対象動画を取得する。映像生成部155は、他の利用者によって選択された参照カメラ切替え情報に基づいて編集された編集対象動画である編集後動画を生成する。
 また、映像生成部155は、編集対象動画のすべてに対して、利用者の嗜好を反映する編集を行わなくてよい。例えば、演者側の演出意図により、決まったカメラワークに固定されている場合もある。そのような場合には、前もって、修正不可フラグを設定しておいてもよい。
 また、ライブストリーミングのように、リアルタイムもしくはそれに準ずる場合には、あらかじめ参照カメラ切替え情報を処理サーバーなどに上げることで、ストリーミング時に参照カメラ切替え情報に応じて、編集されたデータを配信してもよい。一方で、非リアルタイム配信のものであれば、あらかじめ利用者に仮編集段階で提示を行い、利用者の追加編集を加えてもよい。
 また、リアルタイム配信の場合において、配信者側で、配信の品質を担保するために、参照データとの比較を行う前に、品質の悪い映像や演者のコンセプトと一致しない映像については、事前フィルターを行ってもよい。また、参照カメラ切替え情報として、演者の心情やパブリックイメージを毀損するカットについて、参照カメラ切替え情報を生成する際のタグ打ちを無効にしたり、その部分を除外するなどの処理を行ってもよい。その際に、例えば、図9のように、出力制御部156は、編集後動画の各楽曲のサムネイルをタイル状に表示する。図9は、本開示の実施形態に係る編集後動画を表示するユーザインタフェースの画面の一例を示す図である。出力制御部156は、サムネイルとして、利用者がその楽曲において、もっと多く「Like」した構図に近いものや、サビ周辺ものなどを選定して表示する。また、出力制御部156は、演者側からの意向で変更処理が行えないものと、行えるものを表示によって通知してもよい。また、出力制御部156は、参照カメラ切替え情報との適合度を数値やバッチで表示してもよい。出力制御部156は、タイル表示以外にも、編集後動画のサマリー動画を表示してもよい。例えば、出力制御部156は、各楽曲のサビであったり、冒頭などを表示することで、編集後動画用の要約版を生成して、表示してもよい。
 出力制御部156は、利用者が編集後動画を一部変更する場合には、変更対象となる楽曲を選択し、同楽曲の別編集の動画を候補として表示してよい。図10は、本開示の実施形態に係る編集後動画を編集するためのユーザインタフェースの画面の一例を示す図である。図10では、出力制御部156は、編集後動画のサムネイルの横に、構図情報や演者ごとの登場割合を示す円グラフを表示する。例えば、利用者が画面上で円グラフの割合を変更させる操作をすると、受付部151が利用者の操作を受け付ける。カメラ切替え情報生成部152は、受付部151が受け付けた操作に基づいて、参照カメラ切替え情報を修正する。映像生成部155は、修正された参照カメラ切替え情報に基づいて、編集後動画をさらに編集する。このようにして、映像生成部155は、修正された参照カメラ切替え情報に基づいてさらに編集された編集後動画を生成する。なお、出力制御部156は、図8のような解析結果を直接表示して、利用者が解析結果を直接変更してもよい。
 次に、スポーツでの活用例を示す。スポーツの場合においても同様に利用者がタグ打ち等を行い、参照カメラ切替え情報を生成する点は同じである。一方で、多くのスポーツにおいて、得点シーンやノックアウトシーンなどの優先すべきシーンと、交代や均衡状態など短縮可能なシーンが存在する。また、カメラの画角として、決まったシーンでの画角も多いため、画角のみでの編集は判定が困難である。そのため、編集時に、優先すべきシーンを中心に編集することで、編集後のコンテンツの時間的な圧縮(カットや倍速再生など)とメリハリをつけてもよい。
[6.効果]
 上述のように、本開示の実施形態又は変形例に係る情報処理装置100は、出力部130を備える。出力部130は、利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する。
 このように、情報処理装置100は、過去に視聴した映像コンテンツの中から利用者が事前に選択した利用者自身の趣向性に合ったカメラワークに基づいて、参照カメラ切替え情報を生成する。これにより、情報処理装置100は、音楽ライブのように同一音源に対して、複数のカメラによって撮影された画像がある場合であっても、複数のカメラによって撮影された画像の中から、参照カメラ切替え情報に基づいて利用者の嗜好にあったカメラの画像を適切に選択することができる。また、情報処理装置100は、利用者が新たな映像コンテンツを視聴する際に、参照カメラ切替え情報に応じた映像編集を行うことができる。したがって、情報処理装置100は、利用者の映像体験を妨げることなく、利用者の嗜好にあった映像を生成することができる。すなわち、情報処理装置100は、動画編集サービスにおけるユーザビリティを向上させることができる。
 また、参照カメラ切替え情報は、第一のカメラと第二のカメラを識別可能なカメラ識別情報と、第一の動画と第二の動画がそれぞれ撮影された撮影時間を示す撮影時間情報と、を含む情報である。また、参照カメラ切替え情報は、第一の対象物に関する情報である第一対象物情報と第二の対象物に関する情報である第二対象物情報を含む情報である。
 これにより、情報処理装置100は、利用者の嗜好にあったカメラワークやスイッチングに基づいて編集対象動画を編集することを可能にする。
 また、第一対象物情報は、第一の対象物を識別する識別情報、画角中の第一の対象物の位置座標、第一の対象物の専有面積、および第一の対象物の各部位の位置座標に関する情報を含み、第二対象物情報は、第二の対象物を識別する識別情報、画角中の第二の対象物の位置座標、第二の対象物の専有面積、および第二の対象物の各部位の位置座標に関する情報を含む。
 これにより、情報処理装置100は、利用者の嗜好にあった撮影対象物(例えば、登場人物)の登場パターンに基づいて編集対象動画を編集することを可能にする。
 また、情報処理装置100は、取得部153と、判定部154と、映像生成部155をさらに備える。取得部153は、編集対象となる編集対象動画と参照カメラ切替え情報を取得する。判定部154は、編集対象動画と参照カメラ切替え情報との適合性の高さを判定する。映像生成部155は、判定部154によって適合性が高いと判定された参照カメラ切替え情報に基づいて編集された編集対象動画である編集後動画を生成する。
 これにより、情報処理装置100は、編集対象動画と適合性が高い参照カメラ切替え情報を選択して、編集対象動画と適合性が高い参照カメラ切替え情報に基づいて編集対象動画を編集することを可能にする。
 また、情報処理装置100は、送信部157をさらに備える。送信部157は、映像生成部155によって生成された編集後動画を他の情報処理装置に送信する。
 これにより、情報処理装置100は、編集後動画をファン同士などで共有することを可能にする。
 また、送信部157は、出力部130によって出力された参照カメラ切替え情報を他の情報処理装置に送信する。また、取得部153は、他の利用者の他の情報処理装置に出力された複数の参照カメラ切替え情報の中から、他の利用者によって選択された参照カメラ切替え情報と編集対象となる編集対象動画を取得する。映像生成部155は、他の利用者によって選択された参照カメラ切替え情報に基づいて編集された編集対象動画である編集後動画を生成する。
 これにより、情報処理装置100は、参照カメラ切替え情報をファン同士などで共有することを可能にする。
 また、映像生成部155は、動画の撮影と同時に動画が配信されるか否かに応じて、編集後動画を生成する。
 これにより、情報処理装置100は、例えば、ライブストリーミングのように、リアルタイムもしくはそれに準ずる場合には、あらかじめ参照カメラ切替え情報を処理サーバーなどに上げることで、ストリーミング時に参照カメラ切替え情報に応じて、編集されたデータを配信することができる。
 また、映像生成部155は、演者があらかじめ設定した映像を除外した編集後動画を生成する。
 これにより、情報処理装置100は、演者側の演出意図を反映した編集後動画を生成することができる。
 また、映像生成部155は、編集対象動画に含まれる楽曲の拍、演出の切替わりのタイミング、振り付けの切替わりのタイミング、または演奏のフレーズの切替わりのタイミングに基づいて、編集後動画を生成する。
 これにより、情報処理装置100は、適切なタイミングで編集後動画を生成することができる。
 また、情報処理装置100は、参照カメラ切替え情報を生成するカメラ切替え情報生成部152をさらに備える。カメラ切替え情報生成部152は、利用者が過去に視聴した映像コンテンツの中から利用者によって選択されたカメラワークに基づいて、参照カメラ切替え情報を生成する。出力部130は、カメラ切替え情報生成部152によって生成された参照カメラ切替え情報を出力する。
 これにより、情報処理装置100は、利用者の嗜好性を反映した参照カメラ切替え情報を生成することができる。
 カメラ切替え情報生成部152は、利用者によって入力された動画の区間である入力区間を画像解析し、入力区間に登場する撮影対象物に関する対象物情報および撮影対象物の登場時間を検出し、検出した対象物情報および登場時間に基づいて、参照カメラ切替え情報を生成する。
 一般的に、同じ登場という状態においても、引きとズームでは、映像表現としての価値が異なるが、することを可能にする。これに対して、情報処理装置100は、引きやズームといったカメラワークを反映した参照カメラ切替え情報を生成することができる。
 カメラ切替え情報生成部152は、演者の演出意図により決められたカメラワークに基づいて、参照カメラ切替え情報を生成する。
 これにより、情報処理装置100は、演者の演出意図を反映した参照カメラ切替え情報することができる。
 カメラ切替え情報生成部152は、演者の心情またはパブリックイメージを毀損するカットについて、利用者の入力操作を無効にして、参照カメラ切替え情報を生成する。
 これにより、情報処理装置100は、演者の心情またはパブリックイメージを毀損するようなカットを含まない参照カメラ切替え情報を生成することができる。
 また、情報処理装置100は、編集後動画を出力部130に出力するよう制御する出力制御部156をさらに備える。出力制御部156は、編集後動画の要約を生成し、生成した要約を出力部130に出力するよう制御する。出力部130は、要約を出力する。
 これにより、情報処理装置100は、利用者が複数の編集後動画の中から所望の編集後動画を選択しやすくすることができる。
 出力部130は、スポーツにおける動画の場面に基づいて、参照カメラ切替え情報を出力する。
 これにより、情報処理装置100は、スポーツにおける動画の場面に基づいて、参照カメラ切替え情報を出力することを可能にする。
[7.ハードウェア構成]
 上述してきた実施形態に係る情報処理装置100等の情報機器は、例えば図13に示すような構成のコンピュータ1000によって再現される。図13は、情報処理装置100等の情報処理装置の機能を再現するコンピュータ1000の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係るプログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部140等の機能を再現する。また、HDD1400には、本開示に係るプログラムや、各種のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力部と、
 を備える情報処理装置。
(2)
 前記参照カメラ切替え情報は、前記第一のカメラと前記第二のカメラを識別可能なカメラ識別情報と、前記第一の動画と前記第二の動画がそれぞれ撮影された撮影時間を示す撮影時間情報と、を含む情報である、
 前記(1)に記載の情報処理装置。
(3)
 前記参照カメラ切替え情報は、前記第一の対象物に関する情報である第一対象物情報と前記第二の対象物に関する情報である第二対象物情報を含む情報である、
 前記(2)に記載の情報処理装置。
(4)
 前記第一対象物情報は、前記第一の対象物を識別する識別情報、画角中の前記第一の対象物の位置座標、前記第一の対象物の専有面積、および前記第一の対象物の各部位の位置座標に関する情報を含み、前記第二対象物情報は、前記第二の対象物を識別する識別情報、画角中の前記第二の対象物の位置座標、前記第二の対象物の専有面積、および前記第二の対象物の各部位の位置座標に関する情報を含む、
 前記(3)に記載の情報処理装置。
(5)
 編集対象となる編集対象動画と前記参照カメラ切替え情報を取得する取得部と、
 前記編集対象動画と前記参照カメラ切替え情報との適合性の高さを判定する判定部と、
 前記判定部によって適合性が高いと判定された前記参照カメラ切替え情報に基づいて編集された前記編集対象動画である編集後動画を生成する映像生成部と、
 をさらに備える前記(1)に記載の情報処理装置。
(6)
 前記映像生成部によって生成された編集後動画を他の情報処理装置に送信する送信部をさらに備える前記(5)に記載の情報処理装置。
(7)
 前記送信部は、
 前記出力部によって出力された前記参照カメラ切替え情報を前記他の情報処理装置に送信する、
 前記(6)に記載の情報処理装置。
(8)
 前記出力部によって出力された前記参照カメラ切替え情報を他の情報処理装置に送信する送信部をさらに備える前記(1)に記載の情報処理装置。
(9)
 他の利用者の前記他の情報処理装置に出力された複数の前記参照カメラ切替え情報の中から、前記他の利用者によって選択された前記参照カメラ切替え情報と編集対象となる編集対象動画を取得する取得部と、
 前記他の利用者によって選択された前記参照カメラ切替え情報に基づいて編集された前記編集対象動画である編集後動画を生成する映像生成部と、
 をさらに備える前記(7)に記載の情報処理装置。
(10)
 前記映像生成部は、
 動画の撮影と同時に前記動画が配信されるか否かに応じて、前記編集後動画を生成する、
 前記(5)に記載の情報処理装置。
(11)
 前記映像生成部は、
 演者があらかじめ設定した映像を除外した前記編集後動画を生成する、
 前記(5)に記載の情報処理装置。
(12)
 前記映像生成部は、
 前記編集対象動画に含まれる楽曲の拍、演出の切替わりのタイミング、振り付けの切替わりのタイミング、または演奏のフレーズの切替わりのタイミングに基づいて、前記編集後動画を生成する、
 前記(5)に記載の情報処理装置。
(13)
 前記参照カメラ切替え情報を生成するカメラ切替え情報生成部をさらに備え、
 前記カメラ切替え情報生成部は、
 前記利用者が過去に視聴した映像コンテンツの中から前記利用者によって選択されたカメラワークに基づいて、前記参照カメラ切替え情報を生成し、
 前記出力部は、
 前記カメラ切替え情報生成部によって生成された前記参照カメラ切替え情報を出力する、
 前記(1)に記載の情報処理装置。
(14)
 前記カメラ切替え情報生成部は、
 前記利用者によって入力された動画の区間である入力区間を画像解析し、前記入力区間に登場する撮影対象物に関する対象物情報および前記撮影対象物の登場時間を検出し、検出した前記対象物情報および前記登場時間に基づいて、前記参照カメラ切替え情報を生成する、
 前記(13)に記載の情報処理装置。
(15)
 前記カメラ切替え情報生成部は、
 演者の演出意図により決められたカメラワークに基づいて、前記参照カメラ切替え情報を生成する、
 前記(13)に記載の情報処理装置。
(16)
 前記カメラ切替え情報生成部は、
 演者の心情またはパブリックイメージを毀損するカットについて、前記利用者の入力操作を無効にして、前記参照カメラ切替え情報を生成する、
 前記(13)に記載の情報処理装置。
(17)
 前記編集後動画を前記出力部に出力するよう制御する出力制御部をさらに備え、
 前記出力制御部は、
 前記編集後動画の要約を生成し、生成した前記要約を前記出力部に出力するよう制御し、
 前記出力部は、
 前記要約を出力する、
 前記(5)に記載の情報処理装置。
(18)
 前記出力部は、
 スポーツにおける動画の場面に基づいて、前記参照カメラ切替え情報を出力する、
 前記(1)に記載の情報処理装置。
(19)
 コンピュータが実行する情報処理方法であって、
 利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力工程と、
 を含む情報処理方法。
(20)
 利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力手順と、
 をコンピュータに実行させる情報処理プログラムが保存された非一時的なコンピュータ可読記憶媒体。
   1 情報処理システム
 100 情報処理装置
 110 通信部
 120 入力部
 130 出力部
 140 記憶部
 150 制御部
 151 受付部
 152 カメラ切替え情報生成部
 153 取得部
 154 判定部
 155 映像生成部
 156 出力制御部
 157 送信部
 200 映像データベース
 300 参照カメラ切替え情報データベース
 400 ストリーミングサーバ

Claims (20)

  1.  利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力部と、
     を備える情報処理装置。
  2.  前記参照カメラ切替え情報は、前記第一のカメラと前記第二のカメラを識別可能なカメラ識別情報と、前記第一の動画と前記第二の動画がそれぞれ撮影された撮影時間を示す撮影時間情報と、を含む情報である、
     請求項1に記載の情報処理装置。
  3.  前記参照カメラ切替え情報は、前記第一の対象物に関する情報である第一対象物情報と前記第二の対象物に関する情報である第二対象物情報を含む情報である、
     請求項2に記載の情報処理装置。
  4.  前記第一対象物情報は、前記第一の対象物を識別する識別情報、画角中の前記第一の対象物の位置座標、前記第一の対象物の専有面積、および前記第一の対象物の各部位の位置座標に関する情報を含み、前記第二対象物情報は、前記第二の対象物を識別する識別情報、画角中の前記第二の対象物の位置座標、前記第二の対象物の専有面積、および前記第二の対象物の各部位の位置座標に関する情報を含む、
     請求項3に記載の情報処理装置。
  5.  編集対象となる編集対象動画と前記参照カメラ切替え情報を取得する取得部と、
     前記編集対象動画と前記参照カメラ切替え情報との適合性の高さを判定する判定部と、
     前記判定部によって適合性が高いと判定された前記参照カメラ切替え情報に基づいて編集された前記編集対象動画である編集後動画を生成する映像生成部と、
     をさらに備える請求項1に記載の情報処理装置。
  6.  前記映像生成部によって生成された編集後動画を他の情報処理装置に送信する送信部をさらに備える請求項5に記載の情報処理装置。
  7.  前記送信部は、
     前記出力部によって出力された前記参照カメラ切替え情報を前記他の情報処理装置に送信する、
     請求項6に記載の情報処理装置。
  8.  前記出力部によって出力された前記参照カメラ切替え情報を他の情報処理装置に送信する送信部をさらに備える請求項1に記載の情報処理装置。
  9.  他の利用者の前記他の情報処理装置に出力された複数の前記参照カメラ切替え情報の中から、前記他の利用者によって選択された前記参照カメラ切替え情報と編集対象となる編集対象動画を取得する取得部と、
     前記他の利用者によって選択された前記参照カメラ切替え情報に基づいて編集された前記編集対象動画である編集後動画を生成する映像生成部と、
     をさらに備える請求項7に記載の情報処理装置。
  10.  前記映像生成部は、
     動画の撮影と同時に前記動画が配信されるか否かに応じて、前記編集後動画を生成する、
     請求項5に記載の情報処理装置。
  11.  前記映像生成部は、
     演者があらかじめ設定した映像を除外した前記編集後動画を生成する、
     請求項5に記載の情報処理装置。
  12.  前記映像生成部は、
     前記編集対象動画に含まれる楽曲の拍、演出の切替わりのタイミング、振り付けの切替わりのタイミング、または演奏のフレーズの切替わりのタイミングに基づいて、前記編集後動画を生成する、
     請求項5に記載の情報処理装置。
  13.  前記参照カメラ切替え情報を生成するカメラ切替え情報生成部をさらに備え、
     前記カメラ切替え情報生成部は、
     前記利用者が過去に視聴した映像コンテンツの中から前記利用者によって選択されたカメラワークに基づいて、前記参照カメラ切替え情報を生成し、
     前記出力部は、
     前記カメラ切替え情報生成部によって生成された前記参照カメラ切替え情報を出力する、
     請求項1に記載の情報処理装置。
  14.  前記カメラ切替え情報生成部は、
     前記利用者によって入力された動画の区間である入力区間を画像解析し、前記入力区間に登場する撮影対象物に関する対象物情報および前記撮影対象物の登場時間を検出し、検出した前記対象物情報および前記登場時間に基づいて、前記参照カメラ切替え情報を生成する、
     請求項13に記載の情報処理装置。
  15.  前記カメラ切替え情報生成部は、
     演者の演出意図により決められたカメラワークに基づいて、前記参照カメラ切替え情報を生成する、
     請求項13に記載の情報処理装置。
  16.  前記カメラ切替え情報生成部は、
     演者の心情またはパブリックイメージを毀損するカットについて、前記利用者の入力操作を無効にして、前記参照カメラ切替え情報を生成する、
     請求項13に記載の情報処理装置。
  17.  前記編集後動画を前記出力部に出力するよう制御する出力制御部をさらに備え、
     前記出力制御部は、
     前記編集後動画の要約を生成し、生成した前記要約を前記出力部に出力するよう制御し、
     前記出力部は、
     前記要約を出力する、
     請求項5に記載の情報処理装置。
  18.  前記出力部は、
     スポーツにおける動画の場面に基づいて、前記参照カメラ切替え情報を出力する、
     請求項1に記載の情報処理装置。
  19.  コンピュータが実行する情報処理方法であって、
     利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力工程と、
     を含む情報処理方法。
  20.  利用者によって入力された利用者の入力操作に応じて、第一のカメラで第一の対象物を撮像した第一の動画と、前記第一のカメラとは異なる第二のカメラで前記第一の対象物と関連する第二の対象物を撮像した第二の動画と、を連続して再生するための参照カメラ切替え情報を出力する出力手順と、
     をコンピュータに実行させる情報処理プログラムが保存された非一時的なコンピュータ可読記憶媒体。
PCT/JP2022/010164 2021-03-31 2022-03-09 情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体 WO2022209648A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021062192 2021-03-31
JP2021-062192 2021-03-31

Publications (1)

Publication Number Publication Date
WO2022209648A1 true WO2022209648A1 (ja) 2022-10-06

Family

ID=83458691

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/010164 WO2022209648A1 (ja) 2021-03-31 2022-03-09 情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体

Country Status (1)

Country Link
WO (1) WO2022209648A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016036078A (ja) * 2014-08-01 2016-03-17 株式会社ミクシィ 情報処理装置、情報処理装置の制御方法及び制御プログラム
JP2017017423A (ja) * 2015-06-29 2017-01-19 ヤマハ株式会社 映像処理装置
JP2019220994A (ja) * 2014-12-25 2019-12-26 パナソニックIpマネジメント株式会社 映像配信方法及びサーバ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016036078A (ja) * 2014-08-01 2016-03-17 株式会社ミクシィ 情報処理装置、情報処理装置の制御方法及び制御プログラム
JP2019220994A (ja) * 2014-12-25 2019-12-26 パナソニックIpマネジメント株式会社 映像配信方法及びサーバ
JP2017017423A (ja) * 2015-06-29 2017-01-19 ヤマハ株式会社 映像処理装置

Similar Documents

Publication Publication Date Title
US10129515B2 (en) Display control device, recording control device, and display control method
CN108337532A (zh) 演出片段的标注方法、视频播放方法、装置及系统
TWI474200B (zh) Scene clip playback system, method and recording medium thereof
US20210082382A1 (en) Method and System for Pairing Visual Content with Audio Content
JP2009004999A (ja) 映像データ管理装置
WO2015107775A1 (ja) 映像情報処理システム
JP2012178028A (ja) アルバム作成装置、アルバム作成装置の制御方法、及びプログラム
WO2022209648A1 (ja) 情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体
JP2013098997A (ja) 映像解析情報送信装置、映像解析情報配信システム及び配信方法、映像視聴システム及び映像視聴方法
JP2016010102A (ja) 情報提示システム
KR101434783B1 (ko) 신 프래그먼트 전송 시스템, 신 프래그먼트 전송방법, 및 그 기록매체
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
JP5544030B2 (ja) 動画シーンのクリップ構成システム、方法および記録メディア
TWI497959B (zh) Scene extraction and playback system, method and its recording media
JP4725554B2 (ja) 番組記録再生システム及び番組記録再生方法
Cremer et al. Machine-assisted editing of user-generated content
JP7130073B2 (ja) 配信サーバ、コンテンツ配信方法、コンテンツ配信プログラム、および、記録媒体
JP7118379B1 (ja) 映像編集装置、映像編集方法、及びコンピュータプログラム
WO2022230291A1 (ja) 情報処理装置、情報処理方法、プログラム
JP7027300B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Mate et al. Automatic multi-camera remix from single video
JP6176933B2 (ja) カラオケ歌唱動画の視聴推薦箇所表示システム
WO2014091484A1 (en) A system and method for creating a video
JP2017184131A (ja) 画像処理装置及び画像処理方法
WO2014162757A1 (ja) 情報処理装置、タグ付け方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22779871

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18551468

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22779871

Country of ref document: EP

Kind code of ref document: A1