WO2022074788A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2022074788A1
WO2022074788A1 PCT/JP2020/038143 JP2020038143W WO2022074788A1 WO 2022074788 A1 WO2022074788 A1 WO 2022074788A1 JP 2020038143 W JP2020038143 W JP 2020038143W WO 2022074788 A1 WO2022074788 A1 WO 2022074788A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
digest
information processing
unit
scene
Prior art date
Application number
PCT/JP2020/038143
Other languages
English (en)
French (fr)
Inventor
建一郎 上木
琢也 山本
晴菜 磯部
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202080105771.0A priority Critical patent/CN116438792A/zh
Priority to EP20956735.3A priority patent/EP4207749A4/en
Priority to US18/246,909 priority patent/US20230353846A1/en
Priority to PCT/JP2020/038143 priority patent/WO2022074788A1/ja
Publication of WO2022074788A1 publication Critical patent/WO2022074788A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Definitions

  • This disclosure relates to information processing devices, information processing methods and programs.
  • Digest moving images are generated for the purpose of appealing content viewing, in addition to confirming the outline of a large amount of image content and missed content as in the above technology.
  • a technology that can easily generate a digest moving image for the purpose of appealing content viewing is desired, but in the conventional technology, a digest moving image for confirming the content is generated, so that the appealing effect of content viewing can be achieved. Difficult to obtain.
  • an information processing device includes a scene extraction unit and a generation unit.
  • the scene extraction unit extracts a plurality of digest scenes from the content information related to the video content based on each of the plurality of generation rules for generating the digest video.
  • the generation unit connects the plurality of digest scenes to generate the digest moving image.
  • Each of one or more embodiments (including examples and modifications) described below can be implemented independently. On the other hand, at least a part of the plurality of embodiments described below may be carried out in combination with at least a part of other embodiments as appropriate. These plurality of embodiments may contain novel features that differ from each other. Therefore, these plurality of embodiments may contribute to solving different purposes or problems, and may have different effects.
  • the information processing method according to the present embodiment is applied when generating a digest movie of a drama.
  • the application example of the information processing method according to the present embodiment is not limited to this.
  • the example to which the information processing method according to the present embodiment is applied is not limited to the generation of a digest movie of a drama, and may be applied to the generation of a digest movie of video content such as a movie, for example.
  • FIG. 1 is a diagram for explaining an outline of an information processing method according to an embodiment of the present disclosure.
  • the information processing apparatus 100 generates a digest movie of the drama.
  • the information processing apparatus 100 acquires video content (hereinafter, also referred to as source content) that is a target for generating a digest video (step S1).
  • the information processing apparatus 100 acquires, for example, the source content uploaded by the user.
  • the information processing apparatus 100 acquires a plurality of rule information (step S2).
  • the rule information includes a generation rule for generating a digest video.
  • the information processing apparatus 100 divides the digest moving image into three blocks B1 to B3 and generates the digest moving image.
  • the information processing apparatus 100 acquires the rules R1 to R3 for each of the blocks B1 to B3.
  • Rules R1 to R3 are rules for extracting content data for generating a digest moving image from, for example, source content. For example, rule R1 is "up the leading role”, rule R2 is “up the enemy role”, and rule R3 is "excitement”.
  • the information processing apparatus 100 analyzes the acquired source content (step S3).
  • the information processing device 100 analyzes the source content by using, for example, an analysis device (not shown) that analyzes the moving image content.
  • the information processing apparatus 100 acquires the source content after analysis (hereinafter, also referred to as analysis content), which is divided into scenes by voice recognition, face recognition, telop recognition, etc., and information related to each scene is added as, for example, a tag. do.
  • the information processing device 100 selects a scene corresponding to each of a plurality of rule information (rules R1 to R3) from the analysis content for each block B1 to B3 (step S4). There may be a plurality of scenes to be selected.
  • the information processing apparatus 100 extracts at least one selected scene as content data (an example of a digest scene) of each block B1 to B3.
  • the rule R1 corresponding to the block B1 is "up the leading role". Therefore, the information processing apparatus 100 selects a scene to which information about the protagonist is added as the content data corresponding to the block B1. Similarly, the information processing apparatus 100 selects a scene to which information about the villain is added as the content data corresponding to the block B2.
  • the information processing apparatus 100 selects the scene estimated to be the most exciting as the content data corresponding to the block B3.
  • the information processing apparatus 100 estimates an exciting scene, for example, based on the sound information given to the source content. For example, the information processing apparatus 100 estimates a scene in which the wavelength of the sound of the source content is above or below the wavelength, in other words, a scene having the largest amplitude fluctuation, as an exciting scene.
  • the information processing device 100 concatenates the extracted content data to generate a digest moving image (step S5).
  • the information processing apparatus 100 may add character information related to the source content to the digest moving image as, for example, a telop.
  • the information processing apparatus 100 extracts a plurality of content data from the source content based on each of the plurality of rule information, and concatenates the extracted plurality of content data to generate a digest moving image. ..
  • the information processing device 100 extracts a plurality of content data based on a plurality of rule information to generate a digest video including a scene having a high appeal effect for content viewing, such as a character in a drama or an exciting scene. Is possible.
  • the information processing apparatus 100 can more easily generate a digest moving image having a higher appealing effect on content viewing.
  • FIG. 2 is a diagram showing a configuration example of an information processing system according to an embodiment of the present disclosure.
  • the information processing system shown in FIG. 2 includes an information processing device 100, an analysis device 200, and a terminal device 300.
  • the information processing device 100, the analysis device 200, and the terminal device 300 are connected via a network, for example, as shown in FIG.
  • the information processing device 100 is a device (for example, a server device) that generates a digest moving image of source content.
  • the information processing device 100 acquires, for example, source content and a plurality of rule information from the terminal device 300.
  • the information processing device 100 analyzes the acquired source content using the analysis device 200, and generates the analysis content.
  • the information processing apparatus 100 generates a digest moving image from the analysis content based on the rule information and outputs it to the terminal apparatus 300.
  • the analysis device 200 is a device (for example, a server device) that analyzes the source content.
  • the analysis device 200 performs voice recognition, face recognition, telop recognition, and the like of the source content acquired by the information processing device 100, and generates various information (metadata).
  • the analysis device 200 divides the source content into a plurality of scenes and assigns information as a tag to each scene.
  • the analysis device 200 outputs the analysis result of the source content to the information processing device 100.
  • the terminal device 300 is a device operated by a user, and is an information processing terminal such as a smartphone, a personal computer (personal computer), or a tablet terminal.
  • the terminal device 300 outputs information for generating a digest moving image such as source contents, rule information, and a telop described later to the information processing device 100.
  • the terminal device 300 acquires the digest moving image generated by the information processing device 100.
  • FIG. 3 is a diagram showing a configuration example of the analysis device 200 according to the embodiment of the present disclosure.
  • the analysis device 200 shown in FIG. 3 includes an I / F (interface) unit 210, a decoder unit 220, a control unit 230, and a storage unit 240.
  • the I / F unit 210 is a communication unit that connects to the information processing device 100 via a network.
  • the I / F unit 210 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the I / F unit 210 receives moving image data, which is source content, from the information processing device 100.
  • the decoder unit 220 is a decoding unit that decodes the moving image data received by the I / F unit 210.
  • the control unit 230 controls each unit of the analysis device 200.
  • the control unit 230 is realized, for example, by executing a program stored in the analyzer 200 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like with a RAM (Random Access Memory) or the like as a work area.
  • the control unit 230 is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the control unit 230 includes a video recognition unit 231, a voice recognition unit 232, an utterance recognition unit 233, a telop recognition unit 234, a face recognition unit 235, a person identification unit 236, a tag extraction unit 237, and a scene division unit. It has a 238 and an analysis data generation unit 239, and realizes or executes the functions and operations of information processing described below.
  • the internal configuration of the control unit 230 is not limited to the configuration shown in FIG. 3, and may be any other configuration as long as it is configured to perform information processing described later. Further, the connection relationship of each processing unit included in the control unit 230 is not limited to the connection relationship shown in FIG. 3, and may be another connection relationship.
  • the video recognition unit 231 recognizes, for example, image switching from moving image data. Further, the image recognition unit 231 may recognize an object reflected in the frame image and a shooting place (indoor, outdoor, room, office, park, etc.).
  • the voice recognition unit 232 extracts voice from the sound information included in the source content, and performs voice recognition (ASR: Automatic Speech Recognition) on the extracted voice to convert the utterance into text. For example, when the source content is a drama, the voice recognition unit 232 extracts the lines of the characters in the drama and converts the extracted lines into text.
  • ASR Automatic Speech Recognition
  • the utterance recognition unit 233 performs, for example, natural language understanding (NLU: Natural Language Understanding) for the utterances converted into text by the voice recognition unit 232, and classifies the utterances into nouns, verbs, modifiers, and the like.
  • NLU Natural Language Understanding
  • the telop recognition unit 234 extracts, for example, character information (telop) superimposed on moving image data.
  • the telop recognition unit 234 can perform NLU on the extracted character information, for example, and classify the character information into nouns, verbs, modifiers, and the like.
  • the telop recognition unit 234 can recognize character information included in a frame image, such as a signboard or a printed matter, in addition to the character information superimposed on the moving image data.
  • the face recognition unit 235 recognizes the face of a person reflected in the frame image.
  • the person identification unit 236 identifies a person recognized by the face recognition unit 235 as a face.
  • the person identification unit 236 refers to a person database (not shown) in which a face is associated with information about a person (for example, a name), and information about a person corresponding to the face recognized by the face recognition unit 235 (hereinafter, person).
  • the person is identified by acquiring (also described as information).
  • the person identification unit 236 may identify the person by extracting the person information from the character information recognized by the telop recognition unit 234. In this case, the person identification unit 236 can update the person database by associating the face of the identified person with the person information.
  • Tag extraction unit 237 extracts metadata to be added to the moving image data as a tag from the utterance information recognized by the utterance recognition unit 233, the character information recognized by the telop recognition unit 234, and the person information identified by the person identification unit 236.
  • the scene division unit 238 is a moving image based on the image recognition result by the image recognition unit 231, the voice information recognized by the voice recognition unit 232, the utterance information recognized by the utterance recognition unit 233, the character information recognized by the telop recognition unit 234, and the like. Divide the data into multiple scenes. For example, the scene dividing unit 238 divides the scene at the timing when the video is switched. Further, the scene division unit 238 may divide the scene based on character information such as "next" and "from here" and utterance information. Further, the scene dividing unit 238 analyzes the voice information and the utterance information, and divides the scene according to whether or not the same content is spoken.
  • the analysis data generation unit 239 generates analysis data by, for example, adding metadata and person information as tags for each scene divided by the scene division unit 238.
  • the analysis data generation unit 239 transmits the generated analysis data as analysis content to the information processing apparatus 100 via the I / F unit 210.
  • the storage unit 240 is a recording device that stores a program executed by the control unit 230 and stores data necessary for executing the program. Further, the storage unit 240 temporarily stores data for processing by the control unit 230. Further, the storage unit 240 stores information used for processing by the control unit 230, such as a person database.
  • FIG. 4 is a diagram showing a configuration example of the information processing apparatus 100 according to the embodiment of the present disclosure.
  • the information processing apparatus 100 shown in FIG. 4 includes an I / F (interface) unit 110, a storage unit 120, and a control unit 130.
  • the I / F unit 210 is a communication unit that connects to the analysis device 200 and the terminal device 300 via a network.
  • the I / F unit 110 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the storage unit 120 is a recording device that stores a program executed by the control unit 130 and stores data necessary for executing the program. Further, the storage unit 120 temporarily stores data for processing by the control unit 130.
  • the control unit 130 controls each unit of the information processing apparatus 100.
  • the control unit 130 is realized by, for example, executing a program stored in the information processing apparatus 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like with a RAM (Random Access Memory) or the like as a work area. Will be done.
  • the control unit 130 is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the control unit 130 includes an acquisition unit 131, an analysis unit 132, a determination unit 133, and a generation unit 134, and realizes or executes the functions and operations of information processing described below.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 4, and may be any other configuration as long as it is configured to perform information processing described later.
  • the connection relationship of each processing unit included in the control unit 130 is not limited to the connection relationship shown in FIG. 4, and may be another connection relationship.
  • the acquisition unit 131 acquires information used for generating the digest moving image from the terminal device 300 and the storage unit 120.
  • the acquisition unit 131 includes a content acquisition unit 1331, a rule acquisition unit 1312, a condition acquisition unit 1313, and a related information acquisition unit 1314.
  • the content acquisition unit 1331 acquires the moving image content used for generating the digest moving image from the terminal device 300 as the source content.
  • the moving image content acquired by the content acquisition unit 1331 may be one or two or more.
  • the content acquisition unit 1331 may acquire a plurality of episodes of the drama or a plurality of series of movies as source content.
  • the content acquisition unit 1331 may concatenate the acquired plurality of video contents and treat them as one source content.
  • the rule acquisition unit 1312 acquires a plurality of rule information which is a generation rule used for generating the digest moving image.
  • the rule acquisition unit 1312 acquires a plurality of rule information instructed by the user from the terminal device 300.
  • FIG. 5 is a diagram for explaining an example of rule information acquired by the rule acquisition unit 1312 according to the embodiment of the present disclosure.
  • the rule acquisition unit 1312 acquires the same number of rule information as the number of blocks of the digest video (here, 5). In the example of FIG. 5, the rule acquisition unit 1312 acquires rules R1 to R5 as a plurality of rule information.
  • rule R1 includes three detailed rules: "solo-up of the main character", “solo-up of the deputy main character”, and “solo-up of the subcast on the ally side".
  • a priority is set for each detailed rule.
  • the highest priority is set in the order of "solo up of the main character", “solo up of the deputy main character”, and "solo up of the subcast on the ally side”. As for the priority shown in FIG. 5, the smaller the number, the higher the priority.
  • the number of detailed rules included in one rule information is not limited to three, and may be two or less or four or more.
  • the rule acquisition unit 1312 acquires a plurality of rule information for each block obtained by dividing the digest video into a plurality of blocks.
  • the rule information includes information about characters in the source content such as "hero” and "deputy hero”. Further, the rule information includes information based on human relationship information (for example, a person relationship diagram described later) showing the relationship between characters such as "group to which the story protagonist belongs", “enemy", and "ally". This information is information for extracting characters belonging to the same group as a predetermined character (for example, a story protagonist) when a plurality of characters are classified into groups based on human relations information.
  • the "story protagonist” is assumed to be the character who appears most (long) in the video content, except for the "hero".
  • the rule information includes generation rules according to at least one of the number of characters, the size occupied on the screen (for example, "solo up"), and the appearance time of the characters (for example, "in order of appearance time”). ..
  • the rule information includes generation rules according to the excitement of video content, such as "the excitement is great".
  • the information processing apparatus 100 estimates the "excitement" of the moving image content based on, for example, the sound information of the moving image content.
  • the rule information includes a generation rule for extracting content data suitable for each block.
  • the condition acquisition unit 1313 acquires the generation condition of the digest moving image.
  • the condition acquisition unit 1313 acquires, for example, the length (time) of the digest moving image to be generated and the number of blocks to be divided from the terminal device 300.
  • the condition acquisition unit 1313 acquires, for example, sound information to be added to the digest moving image from the terminal device 300.
  • the sound information is, for example, a music that becomes a BGM of a digest moving image.
  • condition acquisition unit 1313 acquires information on the length of each block and the excitement in the story in the digest video.
  • FIG. 6 is a diagram for explaining an example of generation conditions acquired by the condition acquisition unit 1313 according to the embodiment of the present disclosure.
  • the condition acquisition unit 1313 which has acquired the length of the digest video and the number of blocks to be divided, acquires the length of each block and the excitement condition of the story in the generated digest video as the generation conditions according to the acquired conditions.
  • condition acquisition unit 1313 has acquired the generation condition that the length of the digest moving image is 30 seconds and the number of divided blocks is 5. In this case, the condition acquisition unit 1313 acquires the condition of the length of each of the five blocks B1 to B5.
  • the condition acquisition unit 1313 acquires a generation condition having a certain range as a condition of the block length. For example, the condition acquisition unit 1313 acquires 2 to 7 seconds as a generation condition as a condition for the length of the block B1. In this way, the condition acquisition unit 1313 acquires a certain range of time as a block length condition, and the information processing apparatus 100 converts the digest moving image into a rhythm of sound information (for example, BGM) as described later. It can be divided together.
  • a rhythm of sound information for example, BGM
  • condition acquisition unit 1313 acquires the excitement in the story in the digest video as a generation condition (hereinafter, also referred to as an excitement condition). For example, in FIG. 6, the condition acquisition unit 1313 acquires the generation condition in which the swelling gradually increases from the block B1 and the swelling becomes the largest in the block B4.
  • the condition acquisition unit 1313 acquires the above generation conditions from, for example, the storage unit 120.
  • the storage unit 120 stores information in which the length and the number of blocks of the digest moving image and the generation conditions are associated with each other.
  • condition acquisition unit 1313 may acquire the excitement condition based on, for example, sound information.
  • the condition acquisition unit 1313 may acquire the excitement condition from the loudness of the sound information (for example, BGM), in other words, the magnitude of the amplitude.
  • the condition acquisition unit 1313 acquires the excitement condition in which the excitement of the block having a small sound is small and the excitement of the block having a large sound is large.
  • the related information acquisition unit 1314 acquires information related to the source content from, for example, another device (not shown) connected to the network.
  • the related information acquisition unit 1314 acquires content-related information such as a synopsis of the source content and a person relationship diagram from the official website of the source content, for example. Further, the related information acquisition unit 1314 acquires a description about the source content as content-related information from, for example, a program guide. The description of the source content such as the synopsis of the source content and the program guide is also described as the text content.
  • the analysis unit 132 analyzes each information acquired by the acquisition unit 131.
  • the analysis unit 132 includes a content analysis unit 1321, a rhythm analysis unit 1322, a scene analysis unit 1323, and a related information analysis unit 1324.
  • the content analysis unit 1321 analyzes the source content by using the analysis device 200.
  • the content analysis unit 1321 may perform content analysis for generating a digest moving image in addition to the analysis by the analysis device 200. For example, the content analysis unit 1321 calculates the cumulative appearance time of the performers.
  • the related information analysis unit 1324 analyzes the related information acquired by the related information acquisition unit 1314.
  • the related information analysis unit 1324 can perform NLU on character information such as a synopsis of source content or a program guide, and classify the character information into nouns, verbs, modifiers, and the like.
  • the related information analysis unit 1324 analyzes the characters, such as the importance and relationships of the characters from the person relationship diagram.
  • the related information analyzed by the related information analysis unit 1324 will be described with reference to FIG. 7.
  • FIG. 7 is a diagram for explaining an example of related information analyzed by the related information analysis unit 1324 according to the embodiment of the present disclosure.
  • the related information analysis unit 1324 classifies the importance of characters from, for example, a person relationship diagram. From the size and position of the photograph of the person relationship diagram, the importance of the characters, for example, the main character, the main cast, or the sub cast is analyzed. For example, in FIG. 7, the related information analysis unit 1324 classifies "AA AA", which has the largest photograph, as the main character. In addition, the related information analysis unit 1324 classifies the characters with the next largest photo (for example, "EE EE" and "BB BB”) into the main cast, and subcasts the characters with the smallest photo (for example, "DD DD"). Classify into.
  • the related information analysis unit 1324 classifies the characters into a plurality of groups from, for example, a person relationship diagram.
  • the related information analysis unit 1324 classifies the characters arranged in the same frame into one group, for example.
  • the related information analysis unit 1324 classifies the characters (for example, "AAAA” and "BBBB”) arranged in the frame described as " ⁇ device” into the same group G1. ..
  • the characters (for example, "EE EE” and "FF FF”) arranged in the frame described as "XX maker" are classified into the same group G2.
  • the related information analysis unit 1324 classifies the relationships between the characters from, for example, the person relationship diagram.
  • the related information analysis unit 1324 uses, for example, character information such as "enemy”, "VS", and "rival” included in the person relationship diagram, marks representing conflicts, and the like to "ally” the relationship between the characters. Or "enemy”.
  • the related information analysis unit 1324 classifies characters belonging to the same group G1 as the main character (for example, "BB BB") into “friends” in relation to the main character. In addition, the related information analysis unit 1324 sets the characters (for example, "EE EE") belonging to the group G1 (" ⁇ device") and the group G2 ("XX maker") marked as hostile to the "enemy”. ”.
  • FIG. 8 is a diagram showing an example of analysis results by the related information analysis unit 1324 according to the embodiment of the present disclosure.
  • the related information analysis unit 1324 analyzes the role name, affiliation group, importance, and relationship for each performer. Note that FIG. 8 also shows the appearance time calculated by the content analysis unit 1321.
  • the scene analysis unit 1323 analyzes each scene of the source content based on the analysis result by the content analysis unit 1321 and the sound information of the source content.
  • FIG. 9 is a diagram for explaining an example of analysis by the scene analysis unit 1323 according to the embodiment of the present disclosure.
  • the scene analysis unit 1323 analyzes the sound information of the source content, estimates the most exciting scene in the source content, and classifies it as an “exciting scene”.
  • the scene analysis unit 1323 classifies the scene having the largest vertical width (amplitude) from the wavelength of the sound of the source content into the "excitement scene". Of the waveforms shown in FIG. 9, the amplitudes of the regions M1 and M2 are larger than the amplitudes of the other regions, but the scene analysis unit 1323 classifies the scene including the region M1 having the largest amplitude into "excited scenes”.
  • the scene analysis unit 1323 may classify a plurality of scenes into "exciting scenes”. For example, the scene analysis unit 1323 may classify the scenes including the regions M1 and M2 into “exciting scenes", respectively. In this case, the scene analysis unit 1323 may classify the "exciting scenes” by ranking them in descending order of amplitude. For example, a scene with a loud sound includes a scene in which a character such as a "hero" makes a loud voice, a scene in which a BGM is loud, and the like.
  • the scene analysis unit 1323 performs various classifications for each scene in addition to the "exciting scene".
  • FIG. 10 is a diagram for explaining another example of analysis by the scene analysis unit 1323 according to the embodiment of the present disclosure.
  • the scene analysis unit 1323 classifies characters, the groups to which the characters belong, the proportion of the characters in the screen (screen occupancy), shots, and the like for each scene.
  • the scene analysis unit 1323 analyzes that "AAAA” appears in “group G1" in scene # 11. Further, the scene analysis unit 1323 analyzes that "AA AA” occupies a small proportion of the screen and the whole body is reflected on the screen as a "full shot”. Further, the scene analysis unit 1323 analyzes that the scene # 11 is an "excitement" scene from the sound information.
  • the rhythm analysis unit 1322 analyzes the rhythm of the sound information (hereinafter, also simply referred to as a musical piece) given to the digest moving image. For example, the rhythm analysis unit 1322 analyzes the beat and time signature of a musical piece.
  • FIG. 11 is a diagram for explaining the analysis by the rhythm analysis unit 1322 according to the embodiment of the present disclosure.
  • the music has a constant rhythm.
  • the rhythm analysis unit 1322 detects beats that are carved with a constant rhythm. Further, as the beat, “strong beat”, “medium beat”, “weak beat” and the like are repeated at regular intervals.
  • the rhythm analysis unit 1322 detects "strong beats” and “weak beats” that are repeated in this fixed cycle as "beats".
  • the information processing device 100 divides the digest moving image into a plurality of blocks based on the beat detected by the rhythm analysis unit 1322. The details of the block division will be described later.
  • the determination unit 133 determines each information to be used for generating the digest moving image based on each information acquired by the acquisition unit 131 and the analysis result by the analysis unit 132.
  • the determination unit 133 includes a block determination unit 1331, a telop determination unit 1332, and a scene determination unit 1333.
  • the block determination unit 1331 determines the block length according to the generation condition regarding the block length acquired by the condition acquisition unit 1313 and the BGM rhythm analyzed by the rhythm analysis unit 1322. The block determination unit 1331 determines the length of the block according to the beat of the BGM.
  • FIG. 12 is a diagram for explaining an example of the block length determined by the block determination unit 1331 according to the embodiment of the present disclosure.
  • the block determination unit 1331 determines the block length according to the beat of the BGM within the range that is the condition of the block length acquired by the condition acquisition unit 1313.
  • the block determination unit 1331 determines the length of the block B1 at the timing of the beat of the BGM analyzed by the rhythm analysis unit 1322. In FIG. 12, the block determination unit 1331 determines the length of the block B1 to be 2 seconds. The block determination unit 1331 determines the length of the blocks B2 to B5 in the same manner.
  • the telop determination unit 1332 determines the telop to be superimposed on the digest moving image based on the character information related to the source content analyzed by the related information analysis unit 1324.
  • the telop determination unit 1332 determines a plurality of telops for each block, for example, from the synopsis of the source content and the wording included in the program guide.
  • FIG. 13 is a diagram for explaining an example of a telop determined by the telop determination unit 1332 according to the embodiment of the present disclosure.
  • the telop determination unit 1332 determines the telop of blocks B1 to B5 from the synopsis of the source content and the wording included in the program guide.
  • the telop determination unit 1332 can determine the telop according to the lengths of the blocks B1 to B5. For example, since the length of the block B1 is 2 seconds, the telop determination unit 1332 determines the telop of the block B1 so that the length (number of characters) of the telop of the block B1 is equal to or less than a predetermined value.
  • the telop determination unit 1332 determines the telop according to the length (time) of the blocks B1 to B5, but the present invention is not limited to this. For example, according to the telop length (number of characters) determined by the telop determination unit 1332 and the rhythm of the BGM, the block determination unit 1331 determines the length of each block so as to meet the block length condition. You may do it.
  • the scene determination unit 1333 determines (extracts) the scene to be used for generating the digest moving image for each block based on the rule information acquired by the rule acquisition unit 1312.
  • the scene determination unit 1333 has a rule correction unit 1333a.
  • the rule correction unit 1333a corrects the rule information according to the telop determined by the telop determination unit 1332.
  • the telop determined by the telop determination unit 1332 may include the names of characters in the source content. In this case, if the character does not appear in the block on which the telop is superimposed, the viewer of the digest video may feel uncomfortable.
  • the rule correction unit 1333a corrects the rule information so that the scene related to the keyword included in the telop is extracted.
  • FIG. 14 is a diagram for explaining an example of correction by the rule correction unit 1333a according to the embodiment of the present disclosure.
  • the telops corresponding to the blocks B2 and B3 include the character names of the source contents.
  • the rule correction unit 1333a corrects the rule information (rules R2 and R3) corresponding to the blocks B2 and B3.
  • the telop corresponding to block B2 includes the name of the character "HH HH". Therefore, the rule correction unit 1333a corrects the rule R2 so that the scene related to "HH HH" is extracted.
  • a plurality of people including "HH solo”, “subcasts of the group to which HH belongs", and "HH / subcasts appear" from the highest priority of rule R2. Change to three "scenes".
  • the rule correction unit 1333a corrects the rule R3.
  • the scene determination unit 1333 extracts a scene for each block of the digest video based on the rule information corrected by the rule correction unit 1333a.
  • the scene determination unit 1333 assigns points according to the priority to the scenes that meet the detailed rules included in the rule information, and extracts the scenes having a high score as the content data corresponding to the block.
  • the content data is data used for generating the digest moving image, and the information processing apparatus 100 concatenates the content data to generate the digest moving image as described later.
  • the scene determination unit 1333 when the length of the extracted scene is longer than the length of the block, the scene determination unit 1333 generates content data by cutting a part of the scene (hereinafter, also referred to as a scene) according to the length of the block. Can be.
  • the scene determination unit 1333 may divide the block into a plurality of parts and extract a plurality of scenes for each divided part.
  • the scene determination unit 1333 connects a plurality of extracted scenes to generate content data corresponding to the block.
  • the scene determination unit 1333 extracts the content data for each block by scoring the scene according to the priority of the detailed rule, but the present invention is not limited to this.
  • the scene determination unit 1333 may extract content data for each block from the source content based on machine learning.
  • the generation unit 134 concatenates the content data determined by the scene determination unit 1333 to generate a digest moving image.
  • FIG. 15 is a diagram showing an example of a digest moving image generated by the generation unit 134 according to the embodiment of the present disclosure.
  • the generation unit 134 superimposes the telop determined by the telop determination unit 1332 on the content data extracted by the scene determination unit 1333 for each block B1 to B5, and concatenates the content data to generate a digest moving image.
  • FIG. 16 is a flowchart showing an example of the generation process executed by the information processing apparatus 100 according to the embodiment of the present disclosure.
  • the information processing apparatus 100 receives an instruction from the user via the terminal apparatus 300, the information processing apparatus 100 executes the generation process of FIG.
  • the information processing device 100 acquires one or more video contents as source contents from the terminal device 300 (step S101). Further, the information processing apparatus 100 acquires a plurality of rule information from the terminal apparatus 300 (step S102).
  • the information processing device 100 acquires the generation conditions used for generating the digest moving image from the terminal device 300 (step S103).
  • the information processing apparatus 100 acquires related information regarding the source content (step S104).
  • the information processing device 100 analyzes the source content using the analysis device 200 (step S105). Further, the information processing apparatus 100 analyzes the rhythm of the BGM (step S106).
  • the information processing apparatus 100 analyzes the scene of the source content (step S107) and analyzes the related information (step S108).
  • the information processing apparatus 100 determines the block length within the range of generation conditions based on the analysis result (step S109). The information processing apparatus 100 determines the telop based on the analysis result of the related information (step S108).
  • the information processing apparatus 100 determines whether or not to correct the rule information according to the determined telop (S111).
  • step S111 When it is determined that the rule information needs to be corrected (step S111; Yes), the information processing apparatus 100 corrects the rule information according to the telop and proceeds to step S113 (step S112).
  • step S111 When it is determined that the correction of the rule information is unnecessary (step S111; No), the information processing apparatus 100 determines the content data corresponding to each block based on the rule information (step S113).
  • the information processing device 100 concatenates the content data to generate a digest moving image (step S114).
  • the information processing device 100 acquires the moving image content and analyzes the moving image content using the analysis device 200, but the present invention is not limited to this.
  • the information processing apparatus 100 may acquire the analysis content which is the analysis result of the moving image content from the terminal device 300.
  • the information processing apparatus 100 may acquire the content information regarding the moving image content for generating the digest moving image, and may not acquire the moving image content itself.
  • the information processing apparatus 100 generates a telop from character content related to video content (for example, a synopsis of video content or a program guide), but the present invention is not limited to this.
  • the information processing device 100 may acquire telop information regarding the digest moving image from the terminal device 300.
  • the information processing device 100 acquires the information (analysis content, telop, etc.) generated by the information processing device 100 from another device (for example, the terminal device 300). May be good.
  • the information processing device 100 itself generates information (for example, rule information and generation conditions) that the information processing device 100 acquires from another device (for example, the terminal device 300). You may.
  • the information processing apparatus 100 may generate the above information based on the information stored in the storage unit 120 in advance, or may generate the information by using machine learning, for example.
  • the information processing apparatus 100 generates one digest moving image from one moving image content, but the present invention is not limited to this.
  • the information processing device 100 may generate one digest moving image from a plurality of moving image contents.
  • the information processing apparatus 100 may generate a plurality of digest videos from one video content.
  • the information processing apparatus 100 may generate a plurality of digest moving images by using a plurality of rule information different for each digest moving image.
  • the information processing apparatus 100 may generate a plurality of digest moving images using the same plurality of rule information.
  • the information processing apparatus 100 may change the weighting of the detailed rule for each digest moving image, or may change the block length, the telop, the excitement of the digest moving image, and the like for each of a plurality of digest moving images.
  • the information processing apparatus 100 may generate a plurality of digest moving images from a plurality of moving image contents.
  • the information processing apparatus 100 may generate digest videos corresponding to each of the plurality of video contents, and the plurality of video contents are regarded as one source content, and a plurality of digest videos are generated from the source contents. You may.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured.
  • FIG. 17 is a hardware configuration diagram showing an example of a computer that realizes the functions of the information processing device 100 and the analysis device 200.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program depending on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by such a program.
  • the HDD 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 and the like by executing the information processing program loaded on the RAM 1200.
  • the HDD 1400 stores the program related to the present disclosure and the data in the storage unit 120.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the information processing apparatus 100 includes a scene determination unit 1333 (an example of a scene extraction unit) and a generation unit 134.
  • the scene determination unit 1333 is based on each of a plurality of rule information (an example of a generation rule) for generating a digest video, and a plurality of content data (an example of a digest scene) from source content (an example of content information related to video content).
  • the generation unit 134 concatenates a plurality of content data to generate a digest moving image.
  • the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the information processing apparatus 100 further includes a telop determination unit (an example of a telop acquisition unit) for acquiring a plurality of telops (an example of telop information) related to a digest moving image.
  • the generation unit 134 superimposes a plurality of telops corresponding to a plurality of content data to generate a digest moving image.
  • the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the information processing apparatus 100 further includes a rule correction unit 1333a that corrects the rule information according to the telop.
  • the scene determination unit 1333 extracts content data based on the corrected rule information.
  • the information processing apparatus 100 can generate a digest moving image according to the content of the telop.
  • the information processing apparatus 100 acquires a plurality of telops from the character content related to the digest moving image. As a result, the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the rule information includes information regarding characters in the video content.
  • the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the rule information includes information for extracting content data including characters based on a human relationship diagram (an example of human relationship information) showing relationships between characters.
  • a human relationship diagram an example of human relationship information showing relationships between characters.
  • the rule information is content data including characters belonging to the same group as a predetermined character when a plurality of characters are classified into a plurality of groups based on a human relationship diagram. Contains information for extracting. As a result, the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the rule information is information for extracting content data including characters according to the number of characters, the size occupied on the screen, and at least one of the appearance times. including.
  • the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the information processing apparatus 100 further includes a scene analysis unit 1323 (an example of an estimation unit) that estimates the excitement of the video content based on the sound information included in the video content.
  • the rule information includes information for extracting the excitement as content data.
  • the information processing apparatus 100 can generate a digest moving image including at least a part of the excitement scene.
  • the information processing apparatus 100 determines the time of a plurality of digest scenes based on the number of rule information, the time of the digest video, and the music (BGM) given to the digest video.
  • a block determination unit 1331 (an example of a determination unit) is further provided. As a result, the information processing apparatus 100 can more easily generate a digest moving image having a high appealing effect on content viewing.
  • the block determination unit 1331 determines the time of a plurality of content data according to the beat of the music. As a result, the information processing apparatus 100 can reduce the discomfort given to the viewer of the digest moving image when switching the content data.
  • the present technology can also have the following configurations.
  • a scene extractor that extracts multiple digest scenes from content information related to video content based on each of the multiple generation rules for generating digest videos, and a scene extractor.
  • a generation unit that concatenates the plurality of digest scenes to generate the digest moving image, Information processing device equipped with.
  • a telop acquisition unit for acquiring a plurality of telop information related to the digest video is provided.
  • the generation unit superimposes the plurality of telop information corresponding to the plurality of digest scenes to generate the digest moving image.
  • the information processing device according to (1).
  • the scene extraction unit extracts the digest scene based on the corrected generation rule.
  • the information processing device according to (2).
  • (4) The information processing device according to (2) or (3), wherein the telop acquisition unit acquires the plurality of telop information from the character content related to the digest moving image.
  • the generation rule includes information about characters in the moving image content.
  • (6) The information processing apparatus according to (5), wherein the generation rule includes information for extracting the digest scene including the characters based on the human relationship information representing the relationship between the characters.
  • the generation rule provides information for extracting the digest scene including the characters belonging to the same group as the predetermined characters when a plurality of the characters are classified into groups based on the human relationship information.
  • the information processing apparatus including.
  • the generation rule includes information for extracting the digest scene including the characters according to the number of the characters, the size occupied on the screen, and at least one of the appearance times, (5) to The information processing apparatus according to any one of (7). (9) Further, an estimation unit for estimating the excitement of the video content based on the sound information included in the video content is provided. The generation rule includes information for extracting the excitement as the digest scene. The information processing apparatus according to any one of (1) to (8). (10) Any of (1) to (9) further comprising a determination unit for determining the time of the plurality of digest scenes based on the number of generation rules, the time of the digest video, and the music given to the digest video. The information processing device described in one.
  • Information processing device 110 210 I / F unit 120, 240 Storage unit 130, 230 Control unit 131 Acquisition unit 132 Analysis unit 133 Decision unit 134 Generation unit 200 Analysis device 220 Decoder unit 300 Terminal device 1311 Content acquisition unit 1312 Rule acquisition unit 1313 Condition acquisition unit 1314 Related information acquisition unit 1321 Content analysis unit 1322 Rhythm analysis unit 1323 Scene analysis unit 1324 Related information analysis unit 1331 Block determination unit 1332 Telop determination unit 1333 Scene determination unit 1333a Rule correction unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(100)は、シーン抽出部(1333)と、生成部(134)と、を備える。シーン抽出部(1333)は、ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出する。生成部(134)は、複数のダイジェストシーンを連結してダイジェスト動画を生成する。

Description

情報処理装置、情報処理方法及びプログラム
 本開示は、情報処理装置、情報処理方法及びプログラムに関する。
 画像などのコンテンツから、ユーザの指示に基づいてダイジェスト動画像を生成する技術が開発されている。上記技術として、例えば下記の特許文献1に記載の技術が挙げられる。
特開2011-82915号公報
 ダイジェスト動画像は、上記技術のように、大量の画像コンテンツや見逃したコンテンツの概要を確認するため以外にも、コンテンツ視聴の訴求を目的として生成される。
 コンテンツ視聴の訴求を目的としたダイジェスト動画像を容易に生成可能な技術が望まれるが、従来の技術では、コンテンツの内容を確認するためのダイジェスト動画像を生成するため、コンテンツ視聴の訴求効果を得ることが困難である。
 そこで、本開示では、コンテンツ視聴の訴求効果が高いダイジェスト動画像をより容易に生成することができる情報処理装置、情報処理方法及びプログラムを提案する。
 なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の1つに過ぎない。
 本開示によれば、情報処理装置が提供される。情報処理装置は、シーン抽出部と、生成部と、を備える。シーン抽出部は、ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出する。生成部は、前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する。
本開示の実施形態に係る情報処理方法の概要を説明するための図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る解析装置の構成例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示す図である。 本開示の実施形態に係るルール取得部が取得するルール情報の一例について説明するための図である。 本開示の実施形態に係る条件取得部が取得する生成条件の一例を説明するための図である。 本開示の実施形態に係る関連情報解析部が解析する関連情報の一例について説明するための図である。 本開示の実施形態に係る関連情報解析部による解析結果の一例を示す図である。 本開示の実施形態に係るシーン解析部による解析の一例を説明するための図である。 本開示の実施形態に係るシーン解析部による解析の他の例を説明するための図である 本開示の実施形態に係るリズム解析部による解析について説明するための図である。 本開示の実施形態に係るブロック決定部が決定したブロックの長さの一例について説明するための図である。 本開示の実施形態に係るテロップ決定部が決定したテロップの一例について説明するための図である。 本開示の実施形態に係るルール補正部による補正の一例を説明するための図である。 本開示の実施形態に係る生成部が生成するダイジェスト動画の一例を示す図である。 本開示の実施形態に係る情報処理装置が実行する生成処理の一例を示すフローチャートである。 情報処理装置、解析装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 以下に説明される1又は複数の実施形態(実施例、変形例を含む)は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。
 なお、説明は以下の順序で行うものとする。
  1.情報処理方法の概要
  2.情報処理システム
   2.1.情報処理システムの構成例
   2.2.解析装置の構成例
   2.3.情報処理装置の構成例
  3.生成処理
  4.その他の実施形態
  5.ハードウェア構成
  6.むすび
 <<1.情報処理方法の概要>>
 本実施形態に係る情報処理方法に係る処理を、本実施形態に係る情報処理装置100が行う場合を例に挙げて説明する。
 なお、以下では、本実施形態に係る情報処理方法が、ドラマのダイジェスト動画を生成する場合に適用される例を、主に説明する。本実施形態に係る情報処理方法の適用例は、これに限定されない。本実施形態に係る情報処理方法が適用される例は、ドラマのダイジェスト動画生成に限定されず、例えば、映画などの動画コンテンツのダイジェスト動画生成にも適用され得る。
 図1は、本開示の実施形態に係る情報処理方法の概要を説明するための図である。本実施形態に係る情報処理方法では、情報処理装置100が、ドラマのダイジェスト動画を生成する。
 図1に示すように、情報処理装置100は、ダイジェスト動画の生成対象である動画コンテンツ(以下、ソースコンテンツとも記載する)を取得する(ステップS1)。情報処理装置100は、例えば、ユーザからアップロードされるソースコンテンツを取得する。
 次に、情報処理装置100は、複数のルール情報を取得する(ステップS2)。ルール情報は、ダイジェスト動画を生成するための生成ルールを含む。
 図1の例では、情報処理装置100は、ダイジェスト動画を3つのブロックB1~B3に分けて生成する。この場合、情報処理装置100は、ブロックB1~B3ごとにルールR1~R3を取得する。ルールR1~R3は、例えば、ソースコンテンツから、ダイジェスト動画を生成するためのコンテンツデータを抽出するためのルールである。例えば、ルールR1は「主役アップ」、ルールR2は「敵役アップ」、ルールR3は「盛り上がり」である。
 続いて、情報処理装置100は、取得したソースコンテンツを解析する(ステップS3)。情報処理装置100は、例えば、動画コンテンツを解析する解析装置(図示省略)を用いてソースコンテンツを解析する。情報処理装置100は、音声認識、顔認識、テロップ認識等により、シーン分割され、シーンごとに関連する情報が例えばタグとして付与された解析後のソースコンテンツ(以下、解析コンテンツとも記載する)を取得する。
 情報処理装置100は、解析コンテンツから複数のルール情報(ルールR1~R3)それぞれにあったシーンをブロックB1~B3ごとに選択する(ステップS4)。なお、選択するシーンは複数であってもよい。情報処理装置100は、選択した少なくとも1つのシーンを、各ブロックB1~B3のコンテンツデータ(ダイジェストシーンの一例)として抽出する。
 例えば、ブロックB1に対応するルールR1は「主役アップ」である。そこで、情報処理装置100は、ブロックB1に対応するコンテンツデータとして、主役に関する情報が付与されたシーンを選択する。同様に、情報処理装置100は、ブロックB2に対応するコンテンツデータとして、敵役に関する情報が付与されたシーンを選択する。
 また、情報処理装置100は、ブロックB3に対応するコンテンツデータとして、最も盛り上がっていると推定されるシーンを選択する。情報処理装置100は、例えば、ソースコンテンツに付与された音情報に基づき、盛り上がりシーンを推定する。例えば情報処理装置100は、ソースコンテンツの音の波長の上下、換言すると振幅の振れ幅が一番大きいシーンを盛り上がりシーンとして推定する。
 情報処理装置100は、抽出したコンテンツデータを連結してダイジェスト動画を生成する(ステップS5)。このとき、情報処理装置100は、ソースコンテンツに関する文字情報を例えばテロップとしてダイジェスト動画に付与してもよい。
 ダイジェスト動画を生成する方法として、従来は、例えば「盛り上がり」等の1つのルール情報に基づいて生成されていた。このように1つのルール情報に基づいて生成されたダイジェスト動画は、ソースコンテンツの概要把握には適しているが、ソースコンテンツの視聴を訴求する効果が高いとは言えなかった。
 そこで、本開示の情報処理方法では、情報処理装置100が、複数のルール情報それぞれに基づき、ソースコンテンツから複数のコンテンツデータを抽出し、抽出した複数のコンテンツデータを連結してダイジェスト動画を生成する。
 情報処理装置100が、複数のルール情報に基づいて複数のコンテンツデータを抽出することで、例えば、ドラマの登場人物や盛り上がりシーンなど、コンテンツ視聴の訴求効果が高いシーンを含むダイジェスト動画を生成することが可能となる。
 このように、本実施形態に係る情報処理方法では、情報処理装置100が、コンテンツ視聴の訴求効果がより高いダイジェスト動画をより容易に生成することができる。
 <<2.情報処理システム>>
 <2.1.情報処理システムの構成例>
 図2は、本開示の実施形態に係る情報処理システムの構成例を示す図である。図2に示す情報処理システムは、情報処理装置100と、解析装置200と、端末装置300と、を含む。情報処理装置100、解析装置200及び端末装置300は、例えば、図2に示すように、ネットワークを介して接続される。
 (情報処理装置100)
 情報処理装置100は、ソースコンテンツのダイジェスト動画を生成する装置(例えば、サーバ装置)である。情報処理装置100は、例えば、端末装置300からソースコンテンツ及び複数のルール情報を取得する。情報処理装置100は、取得したソースコンテンツを、解析装置200を用いて解析し、解析コンテンツを生成する。情報処理装置100は、ルール情報に基づき、解析コンテンツからダイジェスト動画を生成し、端末装置300に出力する。
 (解析装置200)
 解析装置200は、ソースコンテンツを解析する装置(例えば、サーバ装置)である。解析装置200は、情報処理装置100が取得したソースコンテンツの音声認識、顔認識及びテロップ認識等を行い、各種情報(メタデータ)を生成する。解析装置200は、ソースコンテンツを複数のシーンに分割し、シーンごとに情報をタグとして付与する。解析装置200は、ソースコンテンツの解析結果を情報処理装置100に出力する。
 (端末装置300)
 端末装置300は、ユーザが操作する装置であり、例えばスマートフォン、PC(personal computer)、タブレット端末等の情報処理端末である。端末装置300は、ソースコンテンツやルール情報、後述するテロップなどダイジェスト動画生成のための情報を情報処理装置100に出力する。端末装置300は、情報処理装置100が生成したダイジェスト動画を取得する。
 <2.2.解析装置の構成例>
 図3は、本開示の実施形態に係る解析装置200の構成例を示す図である。図3に示す解析装置200は、I/F(interface)部210と、デコーダ部220と、制御部230と、記憶部240と、を備える。
 (I/F部210)
 I/F部210は、ネットワークを介して情報処理装置100と接続する通信部である。I/F部210は、例えば、NIC(Network Interface Card)等によって実現される。I/F部210は、情報処理装置100からソースコンテンツである動画像データを受信する。
 (デコーダ部220)
 デコーダ部220は、I/F部210が受信した動画像データを復号する復号部である。
 (制御部230)
 制御部230は、解析装置200の各部を制御する。制御部230は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって解析装置200内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部230は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 制御部230は、映像認識部231と、音声認識部232と、発話認識部233と、テロップ認識部234と、顔認識部235と、人物識別部236と、タグ抽出部237と、シーン分割部238と、解析データ生成部239と、を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部230の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部230が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
 (映像認識部231)
 映像認識部231は、動画像データから例えば画像の切り替わりを認識する。また、映像認識部231が、フレーム画像に写る物体の認識や、撮影場所(屋内、屋外、部屋、オフィス、公園など)の認識を行うようにしてもよい。
 (音声認識部232)
 音声認識部232は、ソースコンテンツに含まれる音情報から音声を抽出し、抽出した音声に対して音声認識(ASR:Automatic Speech Recognition)を行うことで、発話のテキスト化を行う。例えば、ソースコンテンツがドラマの場合、音声認識部232は、ドラマの登場人物の台詞を抽出し、抽出した台詞のテキスト化を行う。
 (発話認識部233)
 発話認識部233は、音声認識部232によりテキスト化された発話に対して、例えば自然言語理解(NLU:Natural Language Understanding)を行い、発話を、名詞や動詞や修飾語等に分類する。
 (テロップ認識部234)
 テロップ認識部234は、例えば動画像データに重畳された文字情報(テロップ)を抽出する。テロップ認識部234は、例えば抽出した文字情報に対してNLUを行い、文字情報を名詞や動詞や修飾語等に分類し得る。テロップ認識部234は、動画像データに重畳された文字情報以外にも、例えば看板や印刷物等、フレーム画像に含まれる文字情報を認識し得る。
 (顔認識部235)
 顔認識部235は、フレーム画像に映る人物の顔を認識する。
 (人物識別部236)
 人物識別部236は、顔認識部235が顔であると認識した人物を識別する。例えば、人物識別部236は、人物に関する情報(例えば名前等)と顔を対応付けた人物データベース(図示省略)を参照し、顔認識部235が認識した顔に対応する人物に関する情報(以下、人物情報とも記載する)を取得することで人物を識別する。
 あるいは、人物識別部236は、テロップ認識部234が認識した文字情報から人物情報を抽出することで人物を識別するようにしてもよい。この場合、人物識別部236は、識別した人物の顔と人物情報を対応付けて人物データベースを更新し得る。
 (タグ抽出部237)
 タグ抽出部237は、発話認識部233が認識した発話情報、テロップ認識部234が認識した文字情報及び人物識別部236が識別した人物情報からタグとして動画データに付与するメタデータを抽出する。
 (シーン分割部238)
 シーン分割部238は、映像認識部231による映像認識結果、音声認識部232が認識した音声情報、発話認識部233が認識した発話情報及びテロップ認識部234が認識した文字情報等に基づき、動画像データを複数のシーンに分割する。例えば、シーン分割部238は、映像が切り替わるタイミングでシーンを分割する。また、シーン分割部238は、例えば、「次は」、「ここからは」等の文字情報や発話情報に基づき、シーンを分割してもよい。また、シーン分割部238は、音声情報や発話情報を解析し、同じような内容の話がなされているかどうかに応じてシーンを分割する。
 (解析データ生成部239)
 解析データ生成部239は、例えばシーン分割部238が分割したシーンごとにタグとしてメタデータ及び人物情報を付与することで解析データを生成する。解析データ生成部239は、生成した解析データを解析コンテンツとしてI/F部210を介して情報処理装置100に送信する。
 (記憶部240)
 記憶部240は、制御部230によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録装置である。また、記憶部240は、制御部230による処理のためにデータを一時的に記憶する。また、記憶部240は、人物データベース等、制御部230による処理に使用する情報を記憶する。
 <2.3.情報処理装置の構成例>
 図4は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。図4に示す情報処理装置100は、I/F(interface)部110と、記憶部120と、制御部130と、を備える。
 (I/F部110)
 I/F部210は、ネットワークを介して解析装置200及び端末装置300と接続する通信部である。I/F部110は、例えば、NIC(Network Interface Card)等によって実現される。
 (記憶部120)
 記憶部120は、制御部130によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録装置である。また、記憶部120は、制御部130による処理のためにデータを一時的に記憶する。
 (制御部130)
 制御部130は、情報処理装置100の各部を制御する。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって情報処理装置100内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 制御部130は、取得部131と、解析部132と、決定部133と、生成部134と、を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
 (取得部131)
 取得部131は、端末装置300及び記憶部120からダイジェスト動画の生成に使用する情報を取得する。取得部131は、コンテンツ取得部1331と、ルール取得部1312と、条件取得部1313と、関連情報取得部1314と、を有する。
 (コンテンツ取得部1331)
 コンテンツ取得部1331は、端末装置300からダイジェスト動画の生成に使用する動画コンテンツをソースコンテンツとして取得する。コンテンツ取得部1331が取得する動画コンテンツは、1つであってもよく、2以上であってもよい。例えば、動画コンテンツが連続ドラマや映画シリーズである場合、コンテンツ取得部1331は、ドラマの複数話や映画の複数シリーズをソースコンテンツとして取得し得る。複数の動画コンテンツを取得した場合、コンテンツ取得部1331は、取得した複数の動画コンテンツを連結して1つのソースコンテンツとして扱うようにしてもよい。
 (ルール取得部1312)
 ルール取得部1312は、ダイジェスト動画の生成に使用する生成ルールである複数のルール情報を取得する。ルール取得部1312は、端末装置300からユーザが指示する複数のルール情報を取得する。
 ここで、図5を用いてルール取得部1312が取得する複数のルール情報の一例について説明する。図5は、本開示の実施形態に係るルール取得部1312が取得するルール情報の一例について説明するための図である。
 ルール取得部1312は、ダイジェスト動画のブロック数(ここでは5)と同じ数のルール情報を取得する。図5の例では、ルール取得部1312は、複数のルール情報としてルールR1~R5を取得する。
 1つのルール情報には複数のルール(以下、詳細ルールとも記載する)が含まれ得る。例えば、ルールR1には、「主人公のソロアップ」、「副主人公のソロアップ」及び「味方側サブキャストのソロアップ」の3つの詳細ルールが含まれる。各詳細ルールには例えば優先度が設定される。ルールR1では、「主人公のソロアップ」、「副主人公のソロアップ」及び「味方側サブキャストのソロアップ」の順に高い優先度が設定されている。なお、図5に示す優先度は数字が小さい程、優先度が高いものとする。
 1つのルール情報に含まれる詳細ルールの数は3つに限定されず、2つ以下であっても4つ以上であってもよい。
 ルール取得部1312は、ダイジェスト動画を複数に分割したブロックごとに複数のルール情報を取得する。
 ルール情報には、「主人公」や「副主人公」等、ソースコンテンツの登場人物に関する情報が含まれる。また、ルール情報には、「ストーリー主役が属するグループ」や「敵」、「味方」等、登場人物同士の関係を表す人間関係情報(例えば、後述する人物関係図)に基づく情報が含まれる。この情報は、人間関係情報に基づき、複数の登場人物をグループに分類した場合に、所定の登場人物(例えば、ストーリー主役等)と同じグループに属する登場人物を抽出するための情報である。なお、ここでは、「ストーリー主役」とは、「主人公」を除き、動画コンテンツに最も多く(長く)出演する登場人物であるものとする。
 ルール情報には、登場人物の数や画面に占める大きさ(例えば「ソロアップ」)、及び、登場人物の登場時間(例えば「出演時間順」)の少なくとも1つに応じた生成ルールが含まれる。
 また、ルール情報には、「盛り上がりが大きい」等、動画コンテンツの盛り上がりに応じた生成ルールが含まれる。なお、詳細は後述するが、情報処理装置100は、例えば動画コンテンツの音情報に基づき、動画コンテンツの「盛り上がり」を推定する。
 このように、ルール情報は、ブロック毎に適したコンテンツデータを抽出するための生成ルールが含まれる。
 (条件取得部1313)
 図4に戻る。条件取得部1313は、ダイジェスト動画の生成条件を取得する。条件取得部1313は、例えば生成するダイジェスト動画の長さ(時間)や、分割するブロック数を端末装置300から取得する。
 条件取得部1313は、例えばダイジェスト動画に付与する音情報を端末装置300から取得する。音情報は、例えばダイジェスト動画のBGMとなる楽曲等である。
 また、条件取得部1313は、各ブロックの長さやダイジェスト動画におけるストーリー中の盛り上がりに関する情報を取得する。
 ここで、図6を用いて条件取得部1313が取得する生成条件の一例について説明する。図6は、本開示の実施形態に係る条件取得部1313が取得する生成条件の一例を説明するための図である。
 ダイジェスト動画の長さ及び分割するブロック数を取得した条件取得部1313は、取得した条件に応じて、各ブロックの長さや生成するダイジェスト動画におけるストーリーの盛り上がり条件を、生成条件として取得する。
 図6の例では、ダイジェスト動画の長さが30秒、分割ブロック数が5つという生成条件を条件取得部1313が取得したものとする。この場合、条件取得部1313は、5つの各ブロックB1~B5の長さの条件を取得する。
 このとき、条件取得部1313は、ブロックの長さの条件として一定の範囲を有する生成条件を取得する。例えば、条件取得部1313は、ブロックB1の長さの条件として2~7秒を生成条件として取得する。このように、条件取得部1313が一定の範囲の時間をブロックの長さの条件として取得することで、情報処理装置100は、後述するように、ダイジェスト動画を音情報(例えばBGM)のリズムに合わせて分割することができる。
 また、条件取得部1313は、ダイジェスト動画におけるストーリー中の盛り上がりを生成条件(以下、盛り上がり条件とも記載する)として取得する。例えば、図6では、条件取得部1313は、ブロックB1から徐々に盛り上がりが大きくなり、ブロックB4で最も盛り上がりが大きくなる生成条件を取得する。
 条件取得部1313は、上記生成条件を、例えば記憶部120から取得する。この場合、記憶部120には、ダイジェスト動画の長さ及びブロック数と、上記生成条件と、を対応付けた情報が記憶されているものとする。
 なお、条件取得部1313は、例えば音情報に基づき、盛り上がり条件を取得するようにしてもよい。例えば、条件取得部1313は、音情報(例えばBGM)の音の大きさ、換言すると振幅の大きさから盛り上がり条件を取得するようにしてもよい。この場合、条件取得部1313は、音が小さいブロックの盛り上がりが小さく、音が大きいブロックの盛り上がりが大きくなる盛り上がり条件を取得する。
 (関連情報取得部1314)
 図4に戻る。関連情報取得部1314は、ソースコンテンツに関連する情報を例えばネットワークに接続する他の装置(図示省略)から取得する。関連情報取得部1314は、例えばソースコンテンツの公式サイトからソースコンテンツのあらすじや人物関係図等のコンテンツ関連情報を取得する。また、関連情報取得部1314は、例えば番組表等から、ソースコンテンツに関する記載をコンテンツ関連情報として取得する。ソースコンテンツのあらすじや番組表等のソースコンテンツに関する記載等を文字コンテンツとも記載する。
 (解析部132)
 解析部132は、取得部131が取得した各情報の解析を行う。解析部132は、コンテンツ解析部1321と、リズム解析部1322と、シーン解析部1323と、関連情報解析部1324と、を有する。
 (コンテンツ解析部1321)
 コンテンツ解析部1321は、解析装置200を使用して、ソースコンテンツの解析を行う。コンテンツ解析部1321は、解析装置200による解析に加えて、ダイジェスト動画を生成するためのコンテンツ解析を行い得る。例えば、コンテンツ解析部1321は、出演者の出演時間の累計を算出する。
 (関連情報解析部1324)
 関連情報解析部1324は、関連情報取得部1314が取得した関連情報を解析する。関連情報解析部1324は、例えばソースコンテンツのあらすじや番組表などの文字情報に対してNLUを行い、文字情報を名詞や動詞や修飾語等に分類し得る。
 また、関連情報解析部1324は、例えば人物関係図から登場人物の重要度や関係等、登場人物に関する解析を行う。図7を用いて、関連情報解析部1324が解析する関連情報について説明する。
 図7は、本開示の実施形態に係る関連情報解析部1324が解析する関連情報の一例について説明するための図である。
 関連情報解析部1324は、例えば人物関係図から登場人物の重要度を分類する。人物関係図の写真の大きさや位置から、登場人物の重要度、例えば主人公か、メインキャストかサブキャストかを解析する。例えば、図7では、関連情報解析部1324は、写真が最も大きい「AA AA」を主人公に分類する。また、関連情報解析部1324は、次に写真が大きい登場人物(例えば「EE EE」や「BB BB」)をメインキャストに分類し、写真が小さい登場人物(例えば「DD DD」)をサブキャストに分類する。
 また、関連情報解析部1324は、例えば人物関係図から登場人物を複数のグループに分類する。関連情報解析部1324は、例えば、同じ枠内に配置された登場人物を1つのグループに分類する。図7の例では、関連情報解析部1324は、「○○機器」と記載された枠内に配置される登場人物(例えば、「AA AA」や「BB BB」)を同じグループG1に分類する。また、「××メーカー」と記載された枠内に配置される登場人物(例えば「EE EE」や「FF FF」)を同じグループG2に分類する。
 また、関連情報解析部1324は、例えば人物関係図から登場人物の関係を分類する。関連情報解析部1324は、例えば人物関係図に含まれる、例えば、「敵」や「V.S.」、「ライバル」といった文字情報や、対立を表すマーク等から、登場人物の関係を「味方」や「敵」に分類する。
 図7の例では、関連情報解析部1324は、主人公と同じグループG1に属する登場人物(例えば「BB BB」)を主人公との関係において「味方」に分類する。また、関連情報解析部1324は、グループG1(「○○機器」)と敵対を表すマークが付されたグループG2(「××メーカー」)に属する登場人物(例えば「EE EE」)を「敵」に分類する。
 図8は、本開示の実施形態に係る関連情報解析部1324による解析結果の一例を示す図である。図8の例では、関連情報解析部1324は、出演者ごとに役名、所属グループ、重要度及び関係について解析を行う。なお、図8では、コンテンツ解析部1321が算出した出演時間についても示している。
 (シーン解析部1323)
 図4に戻る。シーン解析部1323は、コンテンツ解析部1321による解析結果やソースコンテンツの音情報等に基づき、ソースコンテンツの各シーンを解析する。
 図9は、本開示の実施形態に係るシーン解析部1323による解析の一例を説明するための図である。シーン解析部1323は、ソースコンテンツの音情報を解析し、ソースコンテンツの中で最も盛り上がるシーンを推定して「盛り上がりシーン」に分類する。
 シーン解析部1323は、ソースコンテンツの音の波長から波長の上下幅(振幅)が一番大きいシーンを「盛り上がりシーン」に分類する。図9に示す波形のうち、領域M1、M2の振幅が他の領域の振幅より大きいが、シーン解析部1323は、最も振幅が大きい領域M1を含むシーンを「盛り上がりシーン」に分類する。なお、シーン解析部1323が複数のシーンを「盛り上がりシーン」に分類してもよい。例えば、シーン解析部1323が領域M1、M2を含むシーンをそれぞれ「盛り上がりシーン」に分類してもよい。この場合、シーン解析部1323は、振幅の大きい順に順位付けして「盛り上がりシーン」を分類し得る。例えば、音が大きいシーンとしては、「主人公」等の登場人物が大きな声をだしたシーンやBGMが大きなシーン等が挙げられる。
 シーン解析部1323は、「盛り上がりシーン」以外にもシーンごとに種々の分類を行う。図10は、本開示の実施形態に係るシーン解析部1323による解析の他の例を説明するための図である。
 図10に示すように、シーン解析部1323は、シーンごとに、登場人物や登場人物の所属グループ、登場人物の画面に占める割合(画面占有)、ショット等を分類する。
 例えば、シーン解析部1323は、シーン#11では、「グループG1」に「AA AA」が登場すると解析する。また、シーン解析部1323は、「AA AA」が画面に占める割合が小さく、全身が画面に映る「フルショット」であると解析する。また、シーン解析部1323は、音情報から、シーン#11が「盛り上がり」シーンであると解析する。
 (リズム解析部1322)
 図4に戻る。リズム解析部1322は、ダイジェスト動画に付与する音情報(以下、単に楽曲とも記載する)のリズムを解析する。例えば、リズム解析部1322は、楽曲の拍や拍子を解析する。
 図11は、本開示の実施形態に係るリズム解析部1322による解析について説明するための図である。図11に示すように、楽曲は一定のリズムが刻まれる。リズム解析部1322は、一定のリズムで刻まれる拍を検出する。また、拍は、「強拍」、「中拍」、「弱拍」等が一定周期で繰り返される。リズム解析部1322は、この一定周期で繰り返される「強拍」と「弱拍」を「拍子」として検出する。
 なお、情報処理装置100は、リズム解析部1322で検出した拍に基づき、ダイジェスト動画を複数のブロックに分割する。ブロックの分割の詳細については後述する。
 (決定部133)
 図4に戻る。決定部133は、取得部131が取得した各情報、及び、解析部132による解析結果に基づき、ダイジェスト動画の生成に使用する各情報を決定する。決定部133は、ブロック決定部1331と、テロップ決定部1332と、シーン決定部1333と、を有する。
 (ブロック決定部1331)
 ブロック決定部1331は、条件取得部1313が取得したブロックの長さに関する生成条件と、リズム解析部1322が解析したBGMのリズムと、に応じてブロックの長さを決定する。ブロック決定部1331は、BGMの拍に合わせてブロックの長さを決定する。
 図12は、本開示の実施形態に係るブロック決定部1331が決定したブロックの長さの一例について説明するための図である。ブロック決定部1331は、条件取得部1313が取得したブロックの長さの条件である範囲内で、BGMの拍に合わせてブロックの長さを決定する。
 例えば、ブロックB1の長さの条件は2~7秒である(図6参照)。そこで、ブロック決定部1331は、リズム解析部1322が解析したBGMの拍のタイミングでブロックB1の長さを決定する。図12では、ブロック決定部1331は、ブロックB1の長さを2秒に決定する。ブロック決定部1331は、ブロックB2~B5も同様にして長さを決定する。
 (テロップ決定部1332)
 図4に戻る。テロップ決定部1332は、関連情報解析部1324が解析したソースコンテンツに関する文字情報に基づき、ダイジェスト動画に重畳するテロップを決定する。テロップ決定部1332は、例えば、ソースコンテンツのあらすじや番組表に含まれる文言から、ブロックごとに複数のテロップを決定する。
 図13は、本開示の実施形態に係るテロップ決定部1332が決定したテロップの一例について説明するための図である。テロップ決定部1332は、ソースコンテンツのあらすじや番組表に含まれる文言から、ブロックB1~B5のテロップを決定する。
 このとき、テロップ決定部1332は、ブロックB1~B5の長さに応じてテロップを決定し得る。例えば、ブロックB1の長さは2秒であるため、テロップ決定部1332は、ブロックB1のテロップの長さ(文字数)が所定値以下になるように、ブロックB1のテロップを決定する。
 なお、ここでは、テロップ決定部1332が、ブロックB1~B5の長さ(時間)に応じてテロップを決定するとしたが、これに限定されない。例えば、テロップ決定部1332が決定したテロップの長さ(文字数)及びBGMのリズムに応じて、ブロック決定部1331が、ブロックの長さの条件に合うように、各ブロックの長さを決定するようにしてもよい。
 (シーン決定部1333)
 図4に戻る。シーン決定部1333は、ルール取得部1312が取得したルール情報に基づき、ブロックごとにダイジェスト動画の生成に使用するシーンを決定(抽出)する。シーン決定部1333は、ルール補正部1333aを有する。
 (ルール補正部1333a)
 ルール補正部1333aは、テロップ決定部1332が決定したテロップに合わせてルール情報を補正する。例えば、テロップ決定部1332が決定したテロップにソースコンテンツの登場人物の名前が含まれる場合がある。この場合、テロップを重畳するブロックに当該登場人物が登場しないとダイジェスト動画の視聴者が違和感を抱く恐れがある。
 このように、テロップに含まれるキーワード(例えば、人物名や地名など)にシーンが合わないとダイジェスト動画の視聴者に違和感を与える可能性がある場合がある。この場合、ルール補正部1333aは、テロップに含まれるキーワードに関するシーンが抽出されるようにルール情報を補正する。
 図14は、本開示の実施形態に係るルール補正部1333aによる補正の一例を説明するための図である。
 図13に示すように、テロップ決定部1332が決定したテロップのうち、ブロックB2、B3に対応するテロップにソースコンテンツの登場人物名が含まれる。
 そこで、図14に示すように、ルール補正部1333aは、ブロックB2、B3に対応するルール情報(ルールR2、R3)を補正する。例えば、ブロックB2に対応するテロップには登場人物「HH HH」の名前が含まれる。そこで、ルール補正部1333aは、ルールR2を、「HH HH」に関連するシーンが抽出されるように補正する。例えば、ルール補正部1333aは、ルールR2を優先順位が高い方から「HHのソロ」、「HHが属するグループのサブキャストを出演時間順に出す」、「HH/サブキャストを含む複数人が出演するシーン」の3つに変更する。
 同様に、ルール補正部1333aは、ルールR3の補正を行う。
 図4に戻り、シーン決定部1333は、ルール補正部1333aが補正したルール情報に基づき、ダイジェスト動画のブロック毎にシーンを抽出する。
 例えば、シーン決定部1333は、ルール情報に含まれる詳細ルールに合うシーンに、優先順位に応じた点数を付与し、点数の高いシーンを、ブロックに対応するコンテンツデータとして抽出する。なお、コンテンツデータは、ダイジェスト動画の生成に使用するデータであり、情報処理装置100は、後述するように、コンテンツデータを連結してダイジェスト動画を生成する。
 ここで、シーン決定部1333は、抽出したシーンの長さがブロックの長さより長い場合、シーンの一部(以下、場面とも記載する)をブロックの長さに合わせて切り取ることでコンテンツデータを生成し得る。
 また、シーン決定部1333は、ブロックの長さ(時間)が所定値以上である場合、ブロックを複数のパートに分割し、分割したパートごとに複数のシーンを抽出してもよい。シーン決定部1333は、抽出した複数のシーンを連結してブロックに対応するコンテンツデータを生成する。
 なお、ここでは、シーン決定部1333が、詳細ルールの優先順位に応じてシーンに点数をつけることで、ブロック毎にコンテンツデータを抽出するとしたが、これに限定されない。例えば、シーン決定部1333が機械学習に基づいてソースコンテンツからブロックごとにコンテンツデータを抽出するようにしてもよい。
 (生成部134)
 生成部134は、シーン決定部1333が決定したコンテンツデータを連結してダイジェスト動画を生成する。
 図15は、本開示の実施形態に係る生成部134が生成するダイジェスト動画の一例を示す図である。生成部134は、ブロックB1~B5ごとにシーン決定部1333が抽出したコンテンツデータにテロップ決定部1332が決定したテロップを重畳し、各コンテンツデータを連結してダイジェスト動画を生成する。
 <<3.生成処理>>
 次に、情報処理装置100が実行するダイジェスト動画の生成処理について説明する。図16は、本開示の実施形態に係る情報処理装置100が実行する生成処理の一例を示すフローチャートである。情報処理装置100は、端末装置300を介してユーザからの指示を受信した場合に、図16の生成処理を実行する。
 情報処理装置100は、端末装置300から1以上の動画コンテンツをソースコンテンツとして取得する(ステップS101)。また、情報処理装置100は、複数のルール情報を端末装置300から取得する(ステップS102)。
 情報処理装置100は、端末装置300から、ダイジェスト動画の生成に使用する生成条件を取得する(ステップS103)。情報処理装置100は、ソースコンテンツに関する関連情報を取得する(ステップS104)。
 次に、情報処理装置100は、解析装置200を用いてソースコンテンツを解析する(ステップS105)。また、情報処理装置100は、BGMのリズムを解析する(ステップS106)。
 情報処理装置100は、ソースコンテンツのシーンを解析し(ステップS107)、関連情報を解析する(ステップS108)。
 情報処理装置100は、解析結果に基づき、生成条件の範囲でブロックの長さを決定する(ステップS109)。情報処理装置100は、関連情報の解析結果に基づき、テロップを決定する(ステップS108)。
 情報処理装置100は、決定したテロップに応じてルール情報を補正するか否かを判定する(S111)。
 ルール情報の補正が必要と判定した場合(ステップS111;Yes)、情報処理装置100は、テロップに応じてルール情報を補正し、ステップS113に進む(ステップS112)。
 ルール情報の補正が不要と判定した場合(ステップS111;No)、情報処理装置100は、ルール情報に基づき、各ブロックに対応するコンテンツデータを決定する(ステップS113)。
 情報処理装置100は、コンテンツデータを連結してダイジェスト動画を生成する(ステップS114)。
 <<4.その他の実施形態>>
 上述した実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。
 上述した実施形態の説明では、情報処理装置100が動画コンテンツを取得し、解析装置200を用いて動画コンテンツの解析を行っているが、これに限定されない。情報処理装置100が、動画コンテンツの代わりに、動画コンテンツの解析結果である解析コンテンツを端末装置300から取得するようにしてもよい。このように、情報処理装置100は、ダイジェスト動画を生成する動画コンテンツに関するコンテンツ情報を取得すればよく、動画コンテンツそのものを取得しなくてもよい。
 上述した実施形態の説明では、情報処理装置100が動画コンテンツに関する文字コンテンツ(例えば、動画コンテンツのあらすじや番組表)からテロップを生成するとしたが、これに限定されない。例えば、情報処理装置100が、ダイジェスト動画に関するテロップ情報を端末装置300から取得するようにしてもよい。
 このように、上述した実施形態の説明で、情報処理装置100が生成するとした情報(解析コンテンツやテロップ等)を、情報処理装置100が他の装置(例えば端末装置300)から取得するようにしてもよい。
 あるいは、上述した実施形態の説明で、情報処理装置100が他の装置(例えば端末装置300)から取得するとした情報(例えば、ルール情報や生成条件)を、情報処理装置100自身が生成するようにしてもよい。この場合、情報処理装置100は、あらかじめ記憶部120に記憶された情報に基づいて上記情報を生成してもよく、例えば機械学習を用いて生成してもよい。
 上述した実施形態の説明では、情報処理装置100が1つの動画コンテンツから1つのダイジェスト動画を生成するが、これに限定されない。情報処理装置100が複数の動画コンテンツから1つのダイジェスト動画を生成してもよい。
 また、情報処理装置100が、1つの動画コンテンツから複数のダイジェスト動画を生成するようにしてもよい。この場合、情報処理装置100は、ダイジェスト動画ごとに異なる複数のルール情報を用いて複数のダイジェスト動画を生成してもよい。あるいは、情報処理装置100が、同じ複数のルール情報を用いて複数のダイジェスト動画を生成してもよい。この場合、情報処理装置100は、詳細ルールの重み付けをダイジェスト動画ごとに変更してもよく、あるいは、ブロックの長さやテロップ、ダイジェスト動画の盛り上がり等を複数のダイジェスト動画ごとに変更してもよい。
 また、情報処理装置100が、複数の動画コンテンツから複数のダイジェスト動画を生成するようにしてもよい。この場合、情報処理装置100は、複数の動画コンテンツそれぞれに対応するダイジェスト動画を生成してもよく、複数の動画コンテンツを1つのソースコンテンツとして、当該ソースコンテンツから複数のダイジェスト動画を生成するようにしてもよい。
 また、上述した実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 <<5.ハードウェア構成>>
 上述してきた各実施形態や変形例に係る情報処理装置100、解析装置200等の情報機器は、例えば図17に示すような構成のコンピュータ1000によって実現される。図17は、情報処理装置100、解析装置200の機能を実現するコンピュータの一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インタフェース1500、及び入出力インタフェース1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インタフェース1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインタフェースである。例えば、CPU1100は、通信インタフェース1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インタフェース1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインタフェースである。例えば、CPU1100は、入出力インタフェース1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インタフェース1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係るプログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 <<6.むすび>>
 上述のように、本開示の実施形態によれば、情報処理装置100は、シーン決定部1333(シーン抽出部の一例)と、生成部134と、を備える。シーン決定部1333は、ダイジェスト動画を生成するための複数のルール情報(生成ルールの一例)のそれぞれに基づき、ソースコンテンツ(動画コンテンツに関するコンテンツ情報の一例)から複数のコンテンツデータ(ダイジェストシーンの一例)を抽出する。生成部134は、複数のコンテンツデータを連結してダイジェスト動画を生成する。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、情報処理装置100は、ダイジェスト動画に関連する複数のテロップ(テロップ情報の一例)を取得するテロップ決定部(テロップ取得部の一例)をさらに備える。生成部134は、複数のコンテンツデータに対応する複数のテロップをそれぞれ重畳してダイジェスト動画を生成する。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、情報処理装置100は、テロップに応じてルール情報を補正するルール補正部1333aをさらに備える。シーン決定部1333は、補正後のルール情報に基づき、コンテンツデータを抽出する。これにより、情報処理装置100は、テロップの内容に合わせたダイジェスト動画を生成することができる。
 また、本開示の実施形態によれば、情報処理装置100は、ダイジェスト動画に関連する文字コンテンツから複数のテロップを取得する。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、ルール情報は、動画コンテンツの登場人物に関する情報を含む。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、ルール情報は、登場人物同士の関係を表す人間関係図(人間関係情報の一例)に基づき、登場人物を含むコンテンツデータを抽出するための情報を含む。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、ルール情報は、人間関係図に基づいて複数の登場人物を複数のグループに分類した場合に、所定の登場人物と同じグループに属する登場人物を含むコンテンツデータを抽出するための情報を含む。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、ルール情報は、登場人物の数、画面に占める大きさ、及び、登場時間の少なくとも1つに応じて、登場人物を含むコンテンツデータを抽出するための情報を含む。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、情報処理装置100は、動画コンテンツに含まれる音情報に基づき、動画コンテンツの盛り上がりを推定するシーン解析部1323(推定部の一例)をさらに備える。ルール情報は、盛り上がりをコンテンツデータとして抽出するための情報を含む。これにより、情報処理装置100は、少なくとも一部に盛り上がりシーンを含むダイジェスト動画を生成することができる。
 また、本開示の実施形態によれば、情報処理装置100は、ルール情報の数、ダイジェスト動画の時間、及び、ダイジェスト動画に付与する音楽(BGM)に基づき、複数のダイジェストシーンの時間を決定するブロック決定部1331(決定部の一例)をさらに備える。これにより、情報処理装置100は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。
 また、本開示の実施形態によれば、ブロック決定部1331は、音楽の拍に合わせて、複数のコンテンツデータの時間を決定する。これにより、情報処理装置100は、コンテンツデータの切り替わりにおいてダイジェスト動画の視聴者に与える違和感を小さくすることができる。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、本技術は以下のような構成も取り得る。
(1)
 ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出するシーン抽出部と、
 前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する生成部と、
 を備える情報処理装置。
(2)
 前記ダイジェスト動画に関連する複数のテロップ情報を取得するテロップ取得部をさらに備え、
 前記生成部は、前記複数のダイジェストシーンに対応する前記複数のテロップ情報をそれぞれ重畳して前記ダイジェスト動画を生成する、
 (1)に記載の情報処理装置。
(3)
 前記テロップ情報に応じて前記生成ルールを補正するルール補正部をさらに備え、
 前記シーン抽出部は、補正後の前記生成ルールに基づき、前記ダイジェストシーンを抽出する、
 (2)に記載の情報処理装置。
(4)
 前記テロップ取得部は、前記ダイジェスト動画に関連する文字コンテンツから前記複数のテロップ情報を取得する、(2)又は(3)に記載の情報処理装置。
(5)
 前記生成ルールは、前記動画コンテンツの登場人物に関する情報を含む、(1)~(4)のいずれか1つに記載の情報処理装置。
(6)
 前記生成ルールは、前記登場人物同士の関係を表す人間関係情報に基づき、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、(5)に記載の情報処理装置。
(7)
 前記生成ルールは、前記人間関係情報に基づいて複数の前記登場人物をグループに分類した場合に、所定の前記登場人物と同じグループに属する前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、(6)に記載の情報処理装置。
(8)
 前記生成ルールは、前記登場人物の数、画面に占める大きさ、及び、登場時間の少なくとも1つに応じて、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、(5)~(7)のいずれか1つに記載の情報処理装置。
(9)
 前記動画コンテンツに含まれる音情報に基づき、前記動画コンテンツの盛り上がりを推定する推定部をさらに備え、
 前記生成ルールは、前記盛り上がりを前記ダイジェストシーンとして抽出するための情報を含む、
 (1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記生成ルールの数、前記ダイジェスト動画の時間、及び、前記ダイジェスト動画に付与する音楽に基づき、前記複数のダイジェストシーンの時間を決定する決定部をさらに備える、(1)~(9)のいずれか1つに記載の情報処理装置。
(11)
 前記決定部は、前記音楽の拍に合わせて、前記複数のダイジェストシーンの時間を決定する、(10)に記載の情報処理装置。
(12)
 ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
 前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
 情報処理方法。
(13)
 ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
 前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
 ことをコンピュータに実行させるプログラム。
100 情報処理装置
110、210 I/F部
120、240 記憶部
130、230 制御部
131 取得部
132 解析部
133 決定部
134 生成部
200 解析装置
220 デコーダ部
300 端末装置
1311 コンテンツ取得部
1312 ルール取得部
1313 条件取得部
1314 関連情報取得部
1321 コンテンツ解析部
1322 リズム解析部
1323 シーン解析部
1324 関連情報解析部
1331 ブロック決定部
1332 テロップ決定部
1333 シーン決定部
1333a ルール補正部

Claims (13)

  1.  ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出するシーン抽出部と、
     前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する生成部と、
     を備える情報処理装置。
  2.  前記ダイジェスト動画に関連する複数のテロップ情報を取得するテロップ取得部をさらに備え、
     前記生成部は、前記複数のダイジェストシーンに対応する前記複数のテロップ情報をそれぞれ重畳して前記ダイジェスト動画を生成する、
     請求項1に記載の情報処理装置。
  3.  前記テロップ情報に応じて前記生成ルールを補正するルール補正部をさらに備え、
     前記シーン抽出部は、補正後の前記生成ルールに基づき、前記ダイジェストシーンを抽出する、
     請求項2に記載の情報処理装置。
  4.  前記テロップ取得部は、前記ダイジェスト動画に関連する文字コンテンツから前記複数のテロップ情報を取得する、請求項2に記載の情報処理装置。
  5.  前記生成ルールは、前記動画コンテンツの登場人物に関する情報を含む、請求項1に記載の情報処理装置。
  6.  前記生成ルールは、前記登場人物同士の関係を表す人間関係情報に基づき、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、請求項5に記載の情報処理装置。
  7.  前記生成ルールは、前記人間関係情報に基づいて複数の前記登場人物をグループに分類した場合に、所定の前記登場人物と同じグループに属する前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、請求項6に記載の情報処理装置。
  8.  前記生成ルールは、前記登場人物の数、画面に占める大きさ、及び、登場時間の少なくとも1つに応じて、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、請求項5に記載の情報処理装置。
  9.  前記動画コンテンツに含まれる音情報に基づき、前記動画コンテンツの盛り上がりを推定する推定部をさらに備え、
     前記生成ルールは、前記盛り上がりを前記ダイジェストシーンとして抽出するための情報を含む、
     請求項1に記載の情報処理装置。
  10.  前記生成ルールの数、前記ダイジェスト動画の時間、及び、前記ダイジェスト動画に付与する音楽に基づき、前記複数のダイジェストシーンの時間を決定する決定部をさらに備える、請求項1に記載の情報処理装置。
  11.  前記決定部は、前記音楽の拍に合わせて、前記複数のダイジェストシーンの時間を決定する、請求項10に記載の情報処理装置。
  12.  ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
     前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
     情報処理方法。
  13.  ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
     前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
     ことをコンピュータに実行させるプログラム。
PCT/JP2020/038143 2020-10-08 2020-10-08 情報処理装置、情報処理方法及びプログラム WO2022074788A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080105771.0A CN116438792A (zh) 2020-10-08 2020-10-08 信息处理设备、信息处理方法及程序
EP20956735.3A EP4207749A4 (en) 2020-10-08 2020-10-08 INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD AND PROGRAM
US18/246,909 US20230353846A1 (en) 2020-10-08 2020-10-08 Information processing device, information processing method, and program
PCT/JP2020/038143 WO2022074788A1 (ja) 2020-10-08 2020-10-08 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/038143 WO2022074788A1 (ja) 2020-10-08 2020-10-08 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2022074788A1 true WO2022074788A1 (ja) 2022-04-14

Family

ID=81126354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/038143 WO2022074788A1 (ja) 2020-10-08 2020-10-08 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20230353846A1 (ja)
EP (1) EP4207749A4 (ja)
CN (1) CN116438792A (ja)
WO (1) WO2022074788A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
JP2005109566A (ja) * 2003-09-26 2005-04-21 Toshiba Corp 映像要約装置、説明文生成装置、映像要約方法、説明文生成方法及びプログラム
JP2007294020A (ja) * 2006-04-26 2007-11-08 Sony Corp 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
JP2011082915A (ja) 2009-10-09 2011-04-21 Sony Corp 情報処理装置、画像抽出方法及び画像抽出プログラム
JP2015192336A (ja) * 2014-03-28 2015-11-02 株式会社ニコン 画像処理装置およびデジタルカメラ

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150312652A1 (en) * 2014-04-24 2015-10-29 Microsoft Corporation Automatic generation of videos via a segment list
US10290320B2 (en) * 2015-12-09 2019-05-14 Verizon Patent And Licensing Inc. Automatic media summary creation systems and methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
JP2005109566A (ja) * 2003-09-26 2005-04-21 Toshiba Corp 映像要約装置、説明文生成装置、映像要約方法、説明文生成方法及びプログラム
JP2007294020A (ja) * 2006-04-26 2007-11-08 Sony Corp 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
JP2011082915A (ja) 2009-10-09 2011-04-21 Sony Corp 情報処理装置、画像抽出方法及び画像抽出プログラム
JP2015192336A (ja) * 2014-03-28 2015-11-02 株式会社ニコン 画像処理装置およびデジタルカメラ

Also Published As

Publication number Publication date
CN116438792A (zh) 2023-07-14
EP4207749A4 (en) 2023-10-18
US20230353846A1 (en) 2023-11-02
EP4207749A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
US8407055B2 (en) Information processing apparatus and method for recognizing a user's emotion
JP6824399B2 (ja) 音声ガイド生成装置、音声ガイド生成方法及び放送システム
JP5752585B2 (ja) 映像処理装置、方法及びプログラム
JP4635891B2 (ja) 情報処理装置および方法、並びにプログラム
CN108292314B (zh) 信息处理装置、信息处理方法和程序
WO2008050649A1 (fr) Système, procédé et programme de récapitulation de contenu
JP2007189343A (ja) 映像要約装置、映像要約方法および映像要約プログラム
JP2008176538A (ja) 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
Lambourne et al. Speech-based real-time subtitling services
CN114143479B (zh) 视频摘要的生成方法、装置、设备以及存储介质
JP6914094B2 (ja) 発話生成装置、発話生成方法及び発話生成プログラム
CN110324709A (zh) 一种视频生成的处理方法、装置、终端设备及存储介质
JP2020140326A (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2005109566A (ja) 映像要約装置、説明文生成装置、映像要約方法、説明文生成方法及びプログラム
WO2022074788A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2006343941A (ja) コンテンツ検索・再生方法、装置、プログラム、及び記録媒体
WO2009113505A1 (ja) 映像分割装置、方法及びプログラム
US7949667B2 (en) Information processing apparatus, method, and program
JPWO2003025787A1 (ja) 文章生成装置及び生成方法
US10658006B2 (en) Image processing apparatus that selects images according to total playback time of image data, image selection method, and computer-readable medium
KR102685651B1 (ko) 비디오 영상의 시각 및 음성 정보의 개별적 맥락을 고려한 하이라이트 영상 생성 장치 및 하이라이트 영상 생성 방법
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
JP2004328478A (ja) 要約生成装置及びそのプログラム
JP4323937B2 (ja) 映像コメント生成装置及びそのプログラム
JP2001282285A5 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20956735

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020956735

Country of ref document: EP

Effective date: 20230331

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP