WO2010058509A1 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- WO2010058509A1 WO2010058509A1 PCT/JP2009/004705 JP2009004705W WO2010058509A1 WO 2010058509 A1 WO2010058509 A1 WO 2010058509A1 JP 2009004705 W JP2009004705 W JP 2009004705W WO 2010058509 A1 WO2010058509 A1 WO 2010058509A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- performer
- section
- character
- display section
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/254—Management at additional data server, e.g. shopping server, rights management server
- H04N21/2541—Rights Management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/835—Generation of protective data, e.g. certificates
- H04N21/8355—Generation of protective data, e.g. certificates involving usage data, e.g. number of copies or viewings allowed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/835—Generation of protective data, e.g. certificates
- H04N21/8355—Generation of protective data, e.g. certificates involving usage data, e.g. number of copies or viewings allowed
- H04N21/83555—Generation of protective data, e.g. certificates involving usage data, e.g. number of copies or viewings allowed using a structured language for describing usage rules of the content, e.g. REL
Definitions
- the present invention relates to an information processing apparatus, and more particularly to an information processing apparatus that extracts specific character information from video information.
- Patent Document 1 discloses a rights management system that manages rights such as copyrights attached to contents such as moving images.
- copyrights and other rights are centrally managed by the content management server and linked with the contract management server, billing server, authentication server, etc., and automatic contracts and content Realizes secure distribution.
- Non-Patent Documents 1 and 2 disclose telop recognition technology that reads character information in credit information that displays names of producers and performers that flow in content such as broadcast programs. By using such technology, it is also possible to automatically extract information such as copyright and copyright right existing in the video from the video.
- an object of the present invention is to provide an information processing apparatus capable of solving the above-mentioned problem, “an increase in cost for extracting right information included in content and restriction on secondary use of content”. It is to provide.
- an information processing apparatus provides: Credit section extraction means for extracting, as credit section information, a time section in which character information is superimposed on the video information based on the input video information having a predetermined playback time; Character information extraction means for performing character recognition processing on the video information and extracting the character information included in the video information and the reproduction time information indicating the time during which the character information is reproduced in association with each other.
- Performers to extract performer information display section information which is a time section in which performer information representing the name of the performer who appeared in the video is displayed in the character information based on the credit section information and the recognized character information.
- the program which is the other form of this invention is: In the information processing device, Credit section extraction means for extracting, as credit section information, a time section in which character information is superimposed on the video information based on the input video information having a predetermined playback time; Character information extraction means for performing character recognition processing on the video information and extracting the character information included in the video information and the reproduction time information indicating the time during which the character information is reproduced in association with each other.
- Performers to extract performer information display section information which is a time section in which performer information representing the name of the performer who appeared in the video is displayed in the character information based on the credit section information and the recognized character information.
- an information processing method includes: Based on the input video information having a predetermined reproduction time, a time section in which character information is superimposed on the video information is extracted as credit section information, Before and after extracting the credit section information, character recognition processing is performed on the video information, and the character information included in the video information is associated with the reproduction time information indicating the time at which the character information is reproduced.
- extract performer information display section information which is a time section in which performer information representing the name of the performer who appeared in the video is displayed in the character information, Extracting the character information included in the recognized character information in the time section specified by the performer information display section information as the performer information; The structure is taken.
- the present invention is configured as described above, so that the right information included in the video content can be easily extracted with high accuracy and low cost.
- FIG. 1 It is a functional block diagram which shows the structure of the information processing apparatus of this invention. It is a figure which shows an example of an image
- video. 3 is a flowchart illustrating an operation of the information processing apparatus disclosed in FIG. 1. It is a functional block diagram which shows the structure of the performer information display area extraction means of the information processing apparatus in Embodiment 2. It is a flowchart which shows operation
- FIG. 1 is a functional block diagram illustrating a configuration of the information processing apparatus.
- 2 to 3 are diagrams illustrating an example of an image.
- FIG. 4 is a flowchart showing the operation of the information processing apparatus.
- this embodiment shows a specific example of the information processing apparatus disclosed in Embodiment 6 described later.
- the information processing apparatus in the present embodiment is a general computer that includes an arithmetic device and a storage device. And the video information, such as a movie and a television program, is input, and the structure of extracting performer information from the character information superimposed on this video information is taken.
- FIG. 1 credit section extraction means 2, character information extraction means 3, performer information display section extraction means 4, and performers.
- Information extraction means 5 Each of these means 2 to 5 is constructed in the information processing apparatus 1 by incorporating a performer information extraction program into the arithmetic device. The details will be described below.
- the above program is provided to the information processing apparatus 1 in a state where it is stored in advance in a storage device provided in the information processing apparatus 1 or stored in a storage medium such as a CD-ROM.
- the program may be stored in a storage device of another server computer on the network and provided to the information processing device 1 from the other server computer via the network.
- the video information is moving image data having a predetermined reproduction time such as a movie or a television program.
- Character information is superimposed on this video information.
- character information there is information called credit information (credit title) that displays the names of persons involved in the production of content that is video, and telops such as descriptions of video and words of performers in the video.
- credit information credit title
- telops a description of video and words of performers in the video.
- performer information is further extracted from the credit information.
- FIGS. 2 to 3 show examples of video information, that is, display examples when video is displayed on the display screen.
- the video information includes credit information that is the name of the performer (for example, “XXXXX” or “ ⁇ ”) at the beginning or end of the program.
- credit information that is the name of the performer (for example, “XXXXX” or “ ⁇ ”) at the beginning or end of the program.
- FIG. 2 (A) only the names of the performers may be displayed in one line.
- FIG. 2 (B) “original author”, “ In some cases, information indicating the role of a person who is not appearing in a video such as “screenwriter” or “director” and who is involved in the production of the video may be displayed.
- 2A and 2B show the case where the image is displayed at the center of the video screen.
- the image is displayed only at the lower part of the video screen, or FIG. In some cases, as shown in FIG. Although not shown, it may be displayed together with the cast name of the performer. In some cases, telops such as words spoken by the performers are displayed.
- the credit section extraction means 2 extracts a time section in which character information is superimposed on the video information as credit section information. Then, the credit section information is output to the performer information display section extracting means 4. Specifically, the credit section extraction means 2 extracts the time section of the theme song from the program and outputs it as credit section information. This is because, for example, in the case of a video such as a drama, the credit information is often superimposed on the theme song. Accordingly, the credit section extraction unit 2 has a function of detecting music played during video playback, and uses the time section in which the music is played as credit section information.
- the credit section extracting means 2 detects that music is being reproduced by detecting continuous sounds of a predetermined loudness, for example, but any method may be used. Credit information is often displayed as a roll telop at the end of a program in video information such as a variety program. For this reason, for example, the credit section extracting means 2 may detect a roll telop that scrolls in a predetermined direction such as a horizontal or vertical direction at a constant speed at the end of the program, and outputs this time section as credit time section information.
- the method of extracting the credit section by the credit section extracting unit 2 is not limited to the method described above.
- the character information extracting means 3 receives the input of video information in the same manner as the credit section extracting means 2. Then, character recognition processing is performed on the video information, and character information that is a recognized character string is extracted. At this time, the character information extracting means 3 acquires reproduction time information indicating the time when the recognized character string is reproduced, associates the recognized character information with the reproduction time information, and displays the performer information as recognized character information. It outputs to the section extraction means 4 and the performer information extraction means 5. Note that the character recognition process can be realized using, for example, the techniques disclosed in Non-Patent Documents 1 and 2 described above.
- the character information extraction means 3 may extract the position information on the video screen (frame) of the character string together with the character string, associate the position information with the character string, and include the position information in the recognized character information.
- the position coordinates of each vertex of the circumscribed rectangle of the recognized character string and the width and height information of one vertex of the circumscribed rectangle and the circumscribed rectangle are extracted as the position information of the character string and included in the recognized character information May be.
- the character information extraction unit 3 acquires the credit section information extracted by the credit section extraction unit 2 described above, and the character recognition process described above is performed only for the video of the time section specified by the credit section information. May be executed.
- the performer information display section extracting means 4 first receives input of the credit section information output from the credit section extracting means 4 and the recognized character information output from the character information extracting means 3 as described above. . And the performer information display section extraction means 4 is based on these credit section information and recognition character information, and the time section where the performer information showing the name of the performer who appeared in the image is displayed in the character information is displayed. The performer information display section information that identifies this time section is extracted and output to the performer information extraction means 5. Specifically, the performer information display section extracting means 4 displays the performer information using the characteristics of the recognized character string included in the recognized character information and information representing the temporal position in the credit section. Specify the time interval to be played.
- this performer information display area extraction means 4 ie, the extraction method of a performer information display area, is explained in full detail in other embodiment.
- the performer information extraction means 5 accepts input of performer information display section information output from the performer information display section extraction means 4 and recognized character information output from the character information extraction means 3. And the said character information contained in the image
- the performer information extracting means 5 determines the personality of the character string based on predetermined criteria information from the viewpoints of the number of characters, the arrangement of hiragana and kanji, the used kanji, etc. A character string that satisfies the criteria is extracted as the name of the performer.
- the performer information extracting means 5 may select only the name of the performer after eliminating the cast name based on the arrangement of the recognized character string on the video screen. Good. For example, when the names of people are arranged in two columns and one of the characters is small, the smaller character may be excluded as a cast name, and the other character string may be extracted as the name of the performer. .
- the performer information extracting means 5 detects a character string representing the role of a person involved in the production of a preset video
- the name associated with the character string representing this role is Do not extract as not. For example, if a character string that represents the role of a person who does not appear in the video such as “original author”, “screenwriter”, or “director” is detected, the names of people in the same column as the character string that represents this role Does not extract.
- the performer information extraction means 5 outputs the performer information, which is the name of the performer extracted as described above, to the display of the information processing apparatus 1 or to a predetermined file for storage.
- the method for extracting performer information by the performer information extracting means 5 may be used when the above-described performer information display section extracting means 4 specifies and extracts the performer information display section. That is, as described above, the performer information display section extraction unit 4 extracts, as the performer information display section, the time section that is determined to include the name of the performer from the number of characters, the arrangement of hiragana and kanji, and the like. And may be output to the performer information extraction means.
- the information processing apparatus 1 accepts input of video information (step S1). Then, the information processing apparatus 1 extracts a time interval in which credit information that is character information is superimposed in the video as credit interval information (step S2, credit interval extraction step). At this time, for example, a time section in which music such as a theme song flows is extracted, or a time section in which roll telop is flowing is extracted.
- the information processing apparatus 1 recognizes a character string superimposed in the input video information before and after the credit section information extraction process, associates it with its appearance time, and extracts it as recognized character information. (Step S3, character information extraction step). At this time, not only the time but also position information specifying the display position of the character string may be extracted and included in the recognized character information. Further, as described above, the information processing apparatus 1 may perform character recognition only for the time section extracted as the credit section.
- step S2 by the credit section extraction unit 2 and the process of step S3 by the character information extraction unit 3 are not limited to being performed in the order described above, but are performed in reverse order or simultaneously. Also good.
- the information processing apparatus 1 extracts a time section in which performer information is included in the video based on the credit section information and the recognized character information (step S4, performer information display section extraction step). ). For example, a time interval in which a character string is displayed together more than a certain reference, or a specific time interval such as the beginning or ending portion in a video is extracted as a time interval including performer information.
- the information processing apparatus 1 extracts performer information from the character string within the time interval specified that the performer information is displayed (step S5, performer information extraction step).
- the personality of the character string is determined, and only the personal name is extracted and used as performer information.
- the name of the cast in the video may be specified and excluded according to the arrangement of the character string.
- a character string representing the role of a person who has not appeared in the video such as “original author”, “screenwriter”, “director”, etc. is detected, and the name of the person whose character string representing this role is not in the same column appears. As a person's name.
- performer information representing the name of the performer is output to a display or a file (step S6).
- the time interval in which the performer information is displayed is specified based on the time interval in which the credit information is displayed and the character content of the credit. Therefore, the performer information can be extracted from the video easily, with high accuracy, and at low cost, and the right information included in the content can be specified.
- FIG. 5 is a functional block diagram illustrating a configuration of the information processing apparatus.
- FIG. 6 is a flowchart showing the operation of the information processing apparatus.
- the information processing apparatus 1 has almost the same configuration as that of the first embodiment described above. And in this embodiment, especially the structure of the performer information display area extraction means 4 differs. Therefore, the configuration and operation of the performer information display section extraction unit 4 will be mainly described below.
- the performer information display section extraction unit 4 of the information processing apparatus 1 in this embodiment includes a performer information display section candidate extraction unit 41 and a performer information display section determination unit 42. Yes.
- Each of the means 41 and 42 is constructed in the information processing apparatus 1 by incorporating a performer information extraction program into the arithmetic device. The details will be described below.
- the above program is provided to the information processing apparatus 1 in a state where it is stored in advance in a storage device provided in the information processing apparatus 1 or stored in a storage medium such as a CD-ROM.
- the program may be stored in a storage device of another server computer on the network and provided to the information processing device 1 from the other server computer via the network.
- the performer information display section candidate extracting means 41 acquires recognized character information including character information extracted from the video by the character information extracting means 3 disclosed in FIG. Then, the performer information display section candidate extraction means 41 checks whether or not a predetermined “specific character string” is included in the character information included in the recognized character information.
- the above-mentioned “specific character string” is a character representing the role of the person who is not appearing in the video, such as “original”, “screenplay”, “director”, “producer”, etc. It is.
- the specific character string is a character string representing a right type such as a copyright or a copyright right adjacent to the video.
- the performer information display area candidate extraction means 41 determines whether each character string corresponds to a specific character string, and the continuous time interval from which the character string which does not correspond to any of the said specific character string was extracted Ask for. Then, the information which specifies this time interval is made into performer information display area candidate information, and it outputs to the performer information display area determination means 42 (step S11, performer information display area candidate extraction process). At this time, for example, the start and end times of candidate time intervals are output for each candidate interval. Alternatively, either the start or end time of the candidate section and section length information indicating the length of the section may be output for each section.
- the performer information display section determination means 42 acquires the performer information display section candidate information and the credit section information extracted from the video by the credit section extraction means 2 disclosed in FIG. Then, the performer information display section determination means 42 uses the credit section information, the time from the start of displaying character information of each candidate section included in the performer information display section candidate information, that is, the time of each candidate section. The overall length is calculated. The performer information display section determination means 42 identifies the performer information display section information based on the length of the time section, such as the longest time section represented by the performer display section candidate information. To do.
- the performer information display section determination means 41 may extract the beginning section of the candidate time section as the performer information display section information. For example, since performers are often displayed in the first half of the credit display, the candidate section that is included in the first half of the credit information and has the longest time section length is selected as the performer information display section. (Step S12, performer information display section determination step). And the information which specifies the selected time interval is output to the performer information extraction means 5 as performer information display area information.
- the performer information display section determination means 42 may obtain performer information display section information from only information included in the performer information display section candidate information and may output this. And when there is only one candidate section, this may be used as the performer display section as it is, or when there are multiple candidate sections, one is selected on the basis of the time section length or the like, and the performer display section is selected. You may make it.
- the performer information display section extraction unit 4 in the present embodiment uses a time section in which the recognized character information does not include a predetermined character as a time section in which performer information is displayed. By extracting, the time interval in which performer information is included can be narrowed down more efficiently. Further, based on the length of the time section that does not include a specific character or the relative time with respect to the entire video, the time section in which the performer information is displayed is extracted from the time section candidates. Thus, performer information can be extracted with higher accuracy.
- FIG. 7 is a functional block diagram illustrating the configuration of the information processing apparatus.
- FIG. 8 is a flowchart showing the operation of the information processing apparatus.
- the information processing apparatus 1 in the present embodiment has almost the same configuration as that of the third embodiment described above. And in this embodiment, especially the structure of the performer information display area extraction means 4 differs. Therefore, the configuration and operation of the performer information display section extraction unit 4 will be mainly described below.
- the performer information display section extraction means 4 of the information processing apparatus 1 in this embodiment includes performer information display section candidate extraction means 141, performer information display section determination means 142, and performer information.
- Display probability calculation means 143 Each of the means 141 to 143 is constructed in the information processing apparatus 1 by incorporating a performer information extraction program into the arithmetic device. The details will be described below.
- the above program is provided to the information processing apparatus 1 in a state where it is stored in advance in a storage device provided in the information processing apparatus 1 or stored in a storage medium such as a CD-ROM.
- the program may be stored in a storage device of another server computer on the network and provided to the information processing device 1 from the other server computer via the network.
- the performer information display probability calculating means 143 acquires the credit section information extracted from the video by the credit section extracting means 2 disclosed in FIG.
- the information processing apparatus 1 stores “ease of display information” that represents the relationship between the reproduction time of credit information for video and the ease of display of performer information. Based on this “ease of display information”, the performer information display probability calculation means 143 calculates, as performer information display probability information, the probability that the performer information can be displayed for each time in the credit section information. .
- the above “ease of display information” is expressed by a function relative to the relative time from the beginning of the credit display normalized by the length of the section in which the credit is displayed, and based on this, for each time This is data for which the probability can be calculated. Further, the “ease of display information” may hold, for example, the probability that the performer information is displayed at each relative time from the beginning of the credit display as a value. Further, “ease of display information” may be parameter information describing a model by modeling a function with respect to the relative time from the beginning of the credit display. The “ease of display information” may be information automatically calculated based on a processing function in which the information processing apparatus 1 is incorporated from a plurality of pieces of credit information so far. It may be adjusted and assigned in.
- the performer information display probability calculation means 143 displays the performer information at each reproduction time of the video based on the credit section information and the “displayability information” stored in advance as described above.
- the probability is calculated and output to the performer information display section determination means 142 (step S21, performer information display probability calculation step).
- performer information display section candidate extraction means 141 is substantially the same as that of the third embodiment described above. That is, performer information display section candidate information representing a time section that is a candidate that can include performer information is output to the performer information display section determination means 142 (step S22, performer information display section candidate extraction step).
- step S21 by the performer information display probability calculation unit 143 and the process of step S22 by the performer information display section candidate extraction unit 141 are not limited to being performed in the order described above, and vice versa. May be executed at the same time or simultaneously.
- the performer information display section determining means 142 is configured to output the performer information display probability information output from the performer information display probability calculating means 143 and the performer output from the performer information display section candidate extracting means 141.
- User information display section candidate information is acquired.
- the performer information display area determination means 142 specifies the time interval in which performer information is displayed based on the probability that performer information in each candidate section is included (step S23, performer information display section determination step). ).
- the probability that performer information can be displayed in each candidate section is calculated for each candidate section specified in the performer information display section candidate information.
- the average of the entire performer information display probability in each candidate section, the maximum value, the minimum value, and the like are used as the probability of the section.
- the candidate section having the maximum obtained probability is set as the time section in which the performer information is displayed, and the performer information display section information for specifying this section is output to the performer information extracting means 5. .
- the performer information display section determination means 142 may specify the performer information display section as follows. For example, it further has a standard regarding the section length in which performer information is displayed, and the validity of the section length is verified based on this standard, and the performer information display section is determined together with the above-mentioned probability. It may be. Specifically, a minimum length that is appropriate as a performer information display section is defined as a reference value, and a candidate section that satisfies this reference value and that has the maximum probability is selected. It may be.
- the information of the performer information for each reproduction time is prepared based on information that is prepared in advance by statistics or the like and represents the easiness of display of the performer information according to the reproduction time of the video.
- Display probability is calculated.
- a time interval in which performer information is displayed is calculated based on the calculated probability, such as a time interval in which the probability is maximum. Therefore, performer information can be extracted with higher accuracy.
- FIG. 9 is a functional block diagram illustrating a configuration of the information processing apparatus.
- FIG. 10 is a flowchart showing the operation of the information processing apparatus.
- the information processing apparatus 1 in the present embodiment has almost the same configuration as that of the third embodiment described above. And in this embodiment, especially the structure of the performer information display area extraction means 4 differs. Therefore, the configuration and operation of the performer information display section extraction unit 4 will be mainly described below.
- the performer information display section extraction means 4 of the information processing apparatus 1 in this embodiment includes a performer information display section candidate extraction means 241, a performer information display section determination means 242, and an appearance pattern analysis. Means 244. These means 241, 242, and 244 are constructed in the information processing apparatus 1 by incorporating a performer information extraction program into the arithmetic device. The details will be described below.
- the above program is provided to the information processing apparatus 1 in a state where it is stored in advance in a storage device provided in the information processing apparatus 1 or stored in a storage medium such as a CD-ROM.
- the program may be stored in a storage device of another server computer on the network and provided to the information processing device 1 from the other server computer via the network.
- the appearance pattern analysis unit 244 acquires recognized character information including character information extracted from the video by the character information extraction unit 3 disclosed in FIG. Then, the appearance pattern analysis unit 244 analyzes the appearance pattern representing the temporal appearance status of the character information included in the recognized character information with respect to the video and the appearance pattern representing the appearance status in the display layout of the character information with respect to the video reproduction area. To do.
- the appearance frequency information of the character string in the video is calculated for each time in the credit information.
- performer information is displayed sequentially from the protagonist person to the supporting part, but when the protagonist person is displayed, it is often displayed by that person alone, per unit time
- the appearance frequency of the character string is low.
- a supporting role person a plurality of people are often displayed together, so that the appearance frequency of the character string per unit time increases. Therefore, the appearance frequency information of the character string with the passage of the video playback time can be used for specifying the performer information display section in the performer information display section determination means 242 described later.
- the recognized character information extracted in advance by the character information extraction means 3 includes layout information such as the position and size of the character string in the display screen (frame). Analysis can be performed.
- a predetermined layout structure such as two character strings are displayed in one line, such as a character string indicating the type of right or role and a person's name (such as the keyword “script” and the name of the writer). Whether there is a corresponding character string to be displayed is determined from the layout information of the recognized character string. For example, a performer may be displayed together with a cast name, but there are many cases where there is no cast name and the name is displayed alone.
- the layout may be displayed differently from the display of information on other rights holders. Therefore, when another corresponding character string with a specific layout structure is detected, the spatial positional relationship is analyzed, and if there is a change in the corresponding relationship, it is detected. Also good. For example, analyze whether "right holder information" and "person name” are displayed at the same time, or "casting name” and "person name” are displayed at the same time, according to the character spacing between the corresponding character strings. Can be determined.
- Step S31 appearance pattern analysis step
- performer information display section candidate extraction means 241 is substantially the same as that of the second embodiment described above. That is, performer information display section candidate information representing a time section that can be a candidate for including performer information is output to the performer information display section determination means 242 (step S32, performer information display section candidate extraction step).
- step S31 by the said appearance pattern analysis means 244 and the process of step S32 by the said performer information display area candidate extraction means 241 are not limited to being performed in the order mentioned above, It may be executed simultaneously.
- the said performer information display area determination means 242 acquires the said appearance pattern analysis information and the performer information display area candidate information output from the performer information display area candidate extraction means 241 disclosed in FIG. . Moreover, the performer information display section determination means 242 also acquires credit section information extracted from the video by the credit section extraction means 2 disclosed in FIG. Then, a performer information display section is calculated and extracted from the credit time section information, the telop pattern analysis result information, and the performer information display section candidate information (step S33, performer information display section determination step).
- the performer information display section determination means 242 first calculates the relative time from the start of the credit display of each candidate section included in the performer information display section candidate information using the credit section information. Subsequently, the performer information display section determination means 242 calculates the probability that performer information is displayed for each candidate section using the appearance pattern analysis result information. For example, when the appearance pattern analysis result information includes temporal appearance frequency information of a character string, the increase / decrease in the appearance frequency information in each candidate section is analyzed. Then, the degree of suitability of the analysis result with respect to the information representing the appearance frequency characteristic of the temporal character string specific to the performer display set in advance is determined, and the performers are displayed based on the degree of suitability. Probability is calculated.
- the appearance pattern analysis result information includes the analysis result of the spatial layout information
- the probability that the performer information is displayed in the layout in each candidate section is calculated using the appearance pattern analysis result information. calculate. Then, the degree to which this analysis result matches the preset information representing the layout characteristics of the spatial character string unique to the performer display is determined, and the probability that the performer is displayed is calculated from the degree.
- the cast information is displayed together with the cast name, and the relationship between the cast name and the display position of the cast does not change from the case of other rights holder information, the cast information is displayed from the spatial layout. Since it is difficult to determine whether or not there is any spatial layout information, spatial layout information is not used.
- the appearance pattern analysis result information includes both the temporal appearance frequency information of the character string and the analysis result of the spatial layout information
- the temporal appearance frequency characteristics of the character string, the spatial The degree of matching with the desired layout characteristics is determined, and the probability that the performer is displayed is calculated from the degree.
- the performer information display section is selected and output using the probability that the performer information calculated in this way is displayed and the relative time information from the start of the credit display. For example, since performers are often displayed in the first half of the credit, among the candidate sections included in the first half of the credit, the candidate section having the maximum probability calculated as described above is selected as the performer information display section. Select as. At this time, even if it has the standard regarding the section length by which performer information is displayed, the validity with respect to the section length is verified, and the performer information display section is determined together with the above-mentioned probability Good.
- the above-mentioned probability is calculated, and the candidate section where the probability becomes the maximum May be determined as the performer information display section and output.
- FIG. 11 is a functional block diagram illustrating a configuration of the information processing apparatus.
- FIG. 12 is a flowchart illustrating the operation of the information processing apparatus.
- the information processing apparatus 1 in the present embodiment has almost the same configuration as that of the third and fourth embodiments described above. And in this embodiment, especially the structure of the performer information display area extraction means 4 differs. Therefore, the configuration and operation of the performer information display section extraction unit 4 will be mainly described below.
- the performer information display section extraction means 4 of the information processing apparatus 1 in the present embodiment includes performer information display section candidate extraction means 341, performer information display section determination means 342, and appearance information.
- Display probability calculation means 343 and appearance pattern analysis means 344 are provided. Each of these means 341 to 344 is constructed in the information processing apparatus 1 by incorporating a performer information extraction program into the arithmetic device. The details will be described below.
- the above program is provided to the information processing apparatus 1 in a state where it is stored in advance in a storage device provided in the information processing apparatus 1 or stored in a storage medium such as a CD-ROM.
- the program may be stored in a storage device of another server computer on the network and provided to the information processing device 1 from the other server computer via the network.
- the performer information display probability calculation means 343 is almost the same as that of the third embodiment described above. That is, the performer information display probability calculating unit 343 first acquires the credit section information extracted from the video by the credit section extracting unit 2 disclosed in FIG. And based on "ease of display information" representing the relationship between the reproduction time of the credit information for the video and the ease of display of the performer information stored in the information processing apparatus 1 stored in advance. The probability that performer information can be displayed at each time in the credit section information is calculated as performer information display probability information. And the performer information display probability calculation means 343 outputs the probability that the performer information in each reproduction time of the calculated video is displayed to the performer information display section determination means 342 (step S41, performer information display probability). Calculation step).
- the appearance pattern analysis means 344 is almost the same as that of the fourth embodiment described above. That is, the appearance pattern analysis unit 344 acquires the recognized character information including the character information extracted from the video by the character information extraction unit 3 disclosed in FIG. Then, the appearance pattern analysis information is used to display an appearance pattern that represents a temporal appearance state of the character information included in the recognized character information and / or an appearance pattern that represents a layout appearance state of the video reproduction area. And output to the performer information display section determination means 342 (step S42, appearance pattern analysis step).
- performer information display section candidate extraction means 341 is substantially the same as that of the second embodiment described above. That is, performer information display section candidate information representing a time section that is a candidate that can include performer information is output to the performer information display section determination means 342 (step S43, performer information display section candidate extraction step).
- the performer information display section determining means 342 calculates a performer information display section from the performer information display probability, the appearance pattern analysis result information, and the performer information display section candidate information (step S44, appearance).
- Person information display section determination step Specifically, first, as in the case of Embodiment 3 described above, performer information can be displayed in each candidate section from the time information for each candidate section specified in the performer information display section candidate information. Probability is calculated. Next, as in the case of the fourth embodiment described above, for each candidate section, the probability that the performer information is displayed is calculated from the appearance pattern analysis result information, and multiplied by the probability obtained from the time information. As a result, the section having the maximum probability is selected as the performer information display section.
- FIG. 1 is a functional block diagram illustrating a configuration of the information processing apparatus. In the present embodiment, an outline of the configuration of the information processing apparatus will be described.
- An information processing apparatus 1 for extracting, as credit section information, a time section in which character information is superimposed on the video information based on the input video information having a predetermined reproduction time; Character information extraction means for performing character recognition processing on the video information and extracting the character information included in the video information and the reproduction time information indicating the time during which the character information is reproduced in association with each other. 3 and Performers to extract performer information display section information, which is a time section in which performer information representing the name of the performer who appeared in the video is displayed in the character information based on the credit section information and the recognized character information.
- Person information display section extraction means 4 Performer information extracting means 5 for extracting the character information included in the recognized character information in the time section specified by the performer information display section information as the performer information; Is provided.
- the information processing apparatus first extracts a time section in which character information included in the video is reproduced as credit section information.
- the information processing apparatus performs character recognition processing on the video, and extracts character information and reproduction time information thereof as recognized character information.
- the information processing device displays the time section in the video in which the performer information indicating the name of the performer appearing in the video is displayed based on the credit section information and the recognized character information. Extracted as section information. Then, the information processing apparatus extracts character information displayed in the time section in the video specified by the extracted performer information display section information as the name of the performer.
- the performer information can be extracted from the video easily, with high accuracy, and at low cost, and the right information included in the content can be specified.
- the performer information display section extracting means displays the performer information in a time section in which the character information included in the recognized character information does not include a preset specific character.
- the structure of extracting as a time interval to be taken is adopted.
- the information processing apparatus adopts a configuration in which the specific character is a character that does not appear in the video represented by the video information and represents a role of a person involved in the production of the video information.
- the information processing apparatus displays the performer information in a time section that does not include characters that identify a person who is not a performer, such as characters representing the role of a person involved in the production of video information such as a director or a producer. It is assumed that the time interval is set. Therefore, performer information can be extracted with higher accuracy.
- the performer information display section extracting means is: Performer information display section candidates representing time sections in which the character information included in the recognized character information does not include a preset specific character, and time sections that are candidates for performing the performer information.
- Performer information display section candidate extraction means for extracting as information;
- Performer information display section for extracting the performer information display section information representing the time section in which the performer information is displayed in the character information based on the credit section information and the performer information display section candidate information.
- a determination means The structure is taken.
- the performer information display section determination means extracts the performer information display section information based on the length of the time section represented by the performer display section candidate information. Take the configuration.
- the performer information display section determination means has the longest length of the time section among the time sections represented by the performer display section candidate information, and the credit section information Based on, at least the beginning section of the time section is extracted as the performer information display section information.
- a time section in which specific characters are not displayed is extracted as a candidate for a time section in which performer information is displayed, and further, based on the length of the time section, the relative time with respect to the entire video, etc.
- the time section in which the performer information is displayed is extracted from the time section candidates. Therefore, performer information can be extracted with higher accuracy.
- the performer information display section extraction means is based on the credit section information and display ease information representing a relationship between a preset reproduction time of the character information and ease of display of performer information.
- a performer information display probability calculating means for calculating, as performer information display probability information, a probability that the performer information at each time in the credit section information can be displayed.
- the performer information display section determining means included in the performer information display section extracting means is configured such that the performer is included in the character information in the performer information display section candidate information based on the performer information display probability calculation information. Extracting the performer information display section information representing the time section in which the information is displayed; The structure is taken.
- the performer information display section determination means sets a time section including a time when the probability of the performer information display probability calculation information is maximized as a time section in which the performer information is displayed. Take the configuration.
- the display probability of the performer information for each playback time is calculated based on the information prepared in advance based on the statistics and indicating the ease of display of the performer information according to the playback time of the video. Then, a time interval in which performer information is displayed is calculated based on the calculated probability, such as a time interval in which the probability is maximum. Therefore, performer information can be extracted with higher accuracy.
- the recognized character information includes appearance pattern information indicating the appearance status of the character information in the video
- the performer information display section extracting means calculates the performer information display section based on the appearance pattern information included in the recognized character string information. The structure is taken.
- the performer information display section extraction means includes appearance pattern analysis means for extracting appearance pattern information representing the appearance status of the character information in the video from the recognized character information,
- the performer information display section determining means included in the performer information display section extracting means includes the character information in the character information based on the credit time section information, the performer information display section candidate information, and the appearance pattern information. Extracting the performer information display section information representing the time section in which the performer information is displayed; The structure is taken.
- the performer information display section extraction means includes appearance pattern analysis means for extracting appearance pattern information representing the appearance status of the character information in the video from the recognized character information,
- the performer information display section determining means included in the performer information display section extracting means is based on the performer information display probability information, the performer information display section candidate information, and the appearance pattern information.
- the said appearance pattern analysis means takes the structure that the appearance frequency of the said character information with progress of the reproduction
- the appearance pattern analysis means extracts the layout of the character information for the video reproduction area as the appearance pattern based on the recognized character information.
- the time interval in which the performer information is displayed is extracted based on the appearance pattern such as the appearance frequency of the character information on the video and the layout on the reproduction area. Therefore, performer information can be extracted with higher accuracy.
- the credit section extracting means detects a roll telop in which the character information scrolls in a predetermined direction on the reproduced video, and the time section in which the roll telop is reproduced is credited to the credit information.
- a configuration is adopted in which time interval information is used.
- the credit section extraction unit detects music played on the played video, and uses the time section in which the music is played as the credit time section information. take.
- a program according to another embodiment of the present invention is stored in an information processing apparatus.
- Credit section extraction means for extracting, as credit section information, a time section in which character information is superimposed on the video information based on the input video information having a predetermined playback time;
- Character information extraction means for performing character recognition processing on the video information and extracting the character information included in the video information and the reproduction time information indicating the time during which the character information is reproduced in association with each other.
- Performers to extract performer information display section information which is a time section in which performer information representing the name of the performer who appeared in the video is displayed in the character information based on the credit section information and the recognized character information.
- Person information display section extraction means Performer information extracting means for extracting the character information included in the recognized character information in the time section specified by the performer information display section information as the performer information; It is a program for realizing.
- the performer information display section extraction means displays the performer information in a time section in which the character information included in the recognized character information does not include a preset specific character. A configuration of extracting as a time interval is adopted.
- Performer information display section candidate information representing a time section in which the character information included in the recognized character information does not include a predetermined character set in advance and which is a candidate for which the performer information is displayed.
- Performer information display section candidate extraction means for extracting as: Performer information display section for extracting the performer information display section information representing the time section in which the performer information is displayed in the character information based on the credit section information and the performer information display section candidate information.
- a determination means Is a program for realizing the performer information display section extracting means.
- an information processing method that is executed when the above-described information processing apparatus operates is as follows. Based on the input video information having a predetermined reproduction time, a time section in which character information is superimposed on the video information is extracted as credit section information, Before and after extracting the credit section information, character recognition processing is performed on the video information, and the character information included in the video information is associated with the reproduction time information indicating the time at which the character information is reproduced.
- extract performer information display section information which is a time section in which performer information representing the name of the performer who appeared in the video is displayed in the character information, Extracting the character information included in the recognized character information in the time section specified by the performer information display section information as the performer information; The structure is taken.
- the character information included in the recognized character information includes a time section that does not include a preset specific character. It is configured to extract as a time section in which is displayed.
- Performer information display section candidates representing time sections in which the character information included in the recognized character information does not include a preset specific character, and time sections that are candidates for performing the performer information. Extracted as information, Based on the credit section information and the performer information display section candidate information, the performer information display section information representing a time section in which the performer information is displayed in the character information is extracted. The structure is taken.
- the present invention can be used when an operator who manages and uses video automatically extracts the rights of performers from video information, and has industrial applicability.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、を備える。
Description
本発明は、情報処理装置にかかり、特に、映像情報から特定の文字情報を抽出する情報処理装置に関する。
近年、動画像や音楽といったコンテンツのデジタル化に伴い、これらコンテンツの著作権や著作隣接権などの権利に関する問題が多々生じている。例えば、コンテンツの無断使用や、コンテンツの使用許諾、使用料の徴収、などをいかに管理するか、が問題となっている。このような状況に対して、特許文献1では、動画像などのコンテンツに付随する著作権などの権利を管理する権利管理システムを開示している。この権利管理システムでは、コンテンツマネジメントサーバで著作権などの権利を一括管理し、契約管理サーバや課金サーバ、認証サーバなどと連携することによって、コンテンツ利用者の要求に応じた自動契約、およびコンテンツのセキュアな流通を実現している。
ところが、上記システムでは、著作権などの権利情報は、仲介業者によって人手により登録されることを前提としている。このため、過去に制作したコンテンツを上述したようなシステムで取り扱えるようにするためには、手作業にてコンテンツから権利情報を抽出し、さらに、登録する、という必要がある。すると、例えば、過去のコンテンツの場合には、契約情報の詳細などが残っていないことも多く、まず、誰がコンテンツの権利を有するかを明確にする必要がある。そして、人手で確認しながら登録する作業を行うこととなるが、このプロセスに非常に膨大な工数を費やさねばならないという問題があった。そして、このことが、例えば、テレビ放送されたドラマなどの優良コンテンツが二次流通市場へ活用されることの妨げの原因ともなっていた。
一方で、非特許文献1,2では、放送番組などのコンテンツ中に流れる製作者や出演者の名前などを表示するクレジット情報中の文字情報を読み取る、テロップ認識の技術を開示している。かかる技術を利用することで、映像から当該映像に存在する著作権や著作隣接権などの情報を自動的に抽出することも可能である。
ここで、クレジットタイトルに含まれ、抽出したい著作権に関連する情報として、「原作者」、「脚本家」、「監督」などの人名情報と、著作隣接権に関連する情報として「出演者」の人名情報とがあり、これらは二次利用に際して特に重要である。そして、上記「原作者」や「脚本家」、「監督」などの権利者タイプを判定できる単語とともに人物名が表記されている場合には、テロップ認識後に単語との対応付けを行うことで、人物名の権利者タイプを判定できる。
堀修,三田雄志,"テロップ認識のための映像からのロバストな文字部抽出法",電子情報通信学会論文誌, D-II, Vol.J84-D-II, No. 8, pp.1800-1808, 2001/08
新井啓之,桑野秀豪,倉掛正治,杉村利明,"映像中のテロップ表示フレーム検出方法",電子情報通信学会論文誌, D-II, Vol.J83-D-II, No. 6, pp.1477-1486, 2000/06
しかしながら、上述した後者の「出演者」の場合には、クレジットタイトルに権利者タイプを示す単語が示されず、名前だけが列挙されるか、あるいは、一般名詞ではない配役名と一緒に表記される場合がある。かかる場合には、クレジット情報から認識した文字情報だけでは、その人名が出演者かどうかを自動的に判別できず、その判別を、テロップ認識後に人手に頼らざるを得ない。従って、上述したように依然として、コンテンツに含まれる権利を明確にする作業コストが増大すると共に、コンテンツの二次利用が制限されてしまう、という問題があった。
このため、本発明の目的は、上述した課題である、「コンテンツに含まれる権利情報を抽出するコストの増大、及び、コンテンツの二次利用の制限」を解決することが可能な情報処理装置を提供することにある。
かかる目的を達成するため本発明の一形態である情報処理装置は、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、
を備える。
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、
を備える。
また、本発明の他の形態であるプログラムは、
情報処理装置に、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、
を実現させるためのプログラムである。
情報処理装置に、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、
を実現させるためのプログラムである。
また、本発明の他の形態である情報処理方法は、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出し、
上記クレジット区間情報の抽出に前後して、上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出し、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出し、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する、
という構成を採る。
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出し、
上記クレジット区間情報の抽出に前後して、上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出し、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出し、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する、
という構成を採る。
本発明は、以上のように構成されることにより、映像コンテンツに含まれる権利情報を容易、高精度、低コストにて抽出することができる。
<実施形態1>
本発明の第1の実施形態を、図1乃至図4を参照して説明する。図1は、情報処理装置の構成を示す機能ブロック図である。図2乃至図3は、映像の一例を示す図である。図4は、情報処理装置の動作を示すフローチャートである。なお、本実施形態は、後述する実施形態6にて開示する情報処理装置の具体的な一例を示すものである。
本発明の第1の実施形態を、図1乃至図4を参照して説明する。図1は、情報処理装置の構成を示す機能ブロック図である。図2乃至図3は、映像の一例を示す図である。図4は、情報処理装置の動作を示すフローチャートである。なお、本実施形態は、後述する実施形態6にて開示する情報処理装置の具体的な一例を示すものである。
[構成]
本実施形態における情報処理装置は、演算装置と記憶装置とを備えた一般的なコンピュータである。そして、映画やテレビ番組などの映像情報を入力し、この映像情報に重畳された文字情報のうち、出演者情報を抽出する、という構成を採っている。
本実施形態における情報処理装置は、演算装置と記憶装置とを備えた一般的なコンピュータである。そして、映画やテレビ番組などの映像情報を入力し、この映像情報に重畳された文字情報のうち、出演者情報を抽出する、という構成を採っている。
そして、本実施形態における情報処理装置1の基本的な構成は、図1に示すように、クレジット区間抽出手段2と、文字情報抽出手段3と、出演者情報表示区間抽出手段4と、出演者情報抽出手段5と、を備えている。なお、これら各手段2~5は、演算装置に出演者情報抽出用プログラムが組み込まれることで、情報処理装置1に構築されている。以下、さらに詳述する。
なお、上記プログラムは、例えば、予め情報処理装置1が装備する記憶装置に記憶されていたり、CD-ROMなどの記憶媒体に格納された状態で情報処理装置1に提供される。あるいは、上記プログラムは、ネットワーク上の他のサーバコンピュータの記憶装置に記憶され、当該他のサーバコンピュータからネットワークを介して情報処理装置1に提供されてもよい。
まず、映像情報について詳述する。映像情報は、映画やテレビ番組など、所定の再生時間を有する動画像データである。そして、この映像情報には、文字情報が重畳されている。例えば、文字情報として、映像であるコンテンツの制作に関わった者の名前を表示したクレジット情報(クレジットタイトル)や、映像の説明や映像中の出演者のセリフなどのテロップと呼ばれるものがある。このうち、本発明では、クレジット情報の中からさらに出演者情報を抽出する。
ここで、図2乃至図3に、映像情報の一例、つまり、映像が表示画面に表示されたときの表示例を示す。例えば、映像情報には、図2に示すように、番組の冒頭や最後などに、出演者などの名前(例えば、「○○ ○○」や「△△ △△」)であるクレジット情報を含む場合がある。この場合には、図2(A)に示すように、出演者の名前のみが一行に表示される場合があるが、一方で、図2(B)に示すように、「原作者」、「脚本家」、「監督」などの映像に出演しておらず当該映像の制作に関わる者の役割を表す情報が表示される場合もある。なお、図2(A),(B)の場合は、映像画面の中央に表示される場合を示したが、図3(A)のように映像画面の下部のみに表示されたり、図3(B)のように、映像画面の半分に表示されるような場合もある。また、図示していないが、出演者の配役名と共に表示される場合もある。なお、出演者がしゃべった言葉などのテロップが表示される場合もある。
そして、上記クレジット区間抽出手段2は、入力された映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間を、クレジット区間情報として抽出する。そして、このクレジット区間情報を、出演者情報表示区間抽出手段4に出力する。具体的に、クレジット区間抽出手段2は、番組中から主題歌の時間区間を抽出し、クレジット区間情報として出力する。これは、例えば、ドラマなどの映像の場合には、クレジット情報は主題歌に重畳される場合が多いことによる。従って、クレジット区間抽出手段2は、映像の再生中に再生される音楽を検出する機能を有し、当該音楽が再生されている時間区間をクレジット区間情報とする。このとき、クレジット区間抽出手段2は、例えば、連続した所定の大きさの音を検出することにより音楽が再生されていることを検出するが、その方法はいかなる方法であってもよい。また、クレジット情報は、バラエティ番組などの映像情報では、番組最後にロールテロップとして表示されることが多い。このため、クレジット区間抽出手段2は、例えば、番組最後で等速に水平または垂直方向といった所定の方向にスクロールするロールテロップを検知し、この時間区間をクレジット時間区間情報として出力してもよい。但し、クレジット区間抽出手段2によるクレジット区間の抽出方法は、上述した方法に限定されない。
また、上記文字情報抽出手段3は、上記クレジット区間抽出手段2と同じく映像情報の入力を受ける。そして、映像情報に対して文字認識処理を行い、認識した文字列である文字情報を抽出する。このとき、文字情報抽出手段3は、認識した文字列が再生された時間を表す再生時間情報を取得して、この再生時間情報に認識した文字情報を関連付けて、認識文字情報として出演者情報表示区間抽出手段4と、出演者情報抽出手段5と、に出力する。なお、文字認識処理は、例えば、上述した非特許文献1,2等に開示されている技術を用いて、実現することができる。
ここで、文字情報抽出手段3は、上記文字列と共に、当該文字列の映像画面(フレーム)上における位置情報を抽出し、この位置情報を文字列と共に関連付けて、認識文字情報に含めてもよい。例えば、認識された文字列の外接四角形の各頂点の位置座標や、外接四角形の1つの頂点と外接四角形の幅、高さの情報を、文字列の位置情報として抽出し、認識文字情報に含めてもよい。
さらに、文字情報抽出手段3は、上述したクレジット区間抽出手段2にて抽出されたクレジット区間情報を取得し、このクレジット区間情報で指定される時間区間の映像に対してのみ、上述した文字認識処理を実行してもよい。
また、上記出演者情報表示区間抽出手段4は、まず、上述したようにクレジット区間抽出手段4から出力されるクレジット区間情報と、文字情報抽出手段3から出力される認識文字情報との入力を受け付ける。そして、出演者情報表示区間抽出手段4は、これらクレジット区間情報と認識文字情報とに基づいて、当該文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間を特定し、この時間区間を表す出演者情報表示区間情報を抽出して、出演者情報抽出手段5に出力する。具体的に、出演者情報表示区間抽出手段4は、認識文字情報に含まれる認識された文字列の特性や、クレジット区間内における時間的な位置を表す情報を利用して、出演者情報が表示される時間区間を特定する。例えば、「クレジット情報中で出演者情報が表示される時間区間はまとまって存在する」という法則に基づき、クレジット区間情報のうち、文字情報の出現が密集している時間区間を、出演者情報表示区間とする。なお、この出演者情報表示区間抽出手段4のより詳細な構成、つまり、出演者情報表示区間の抽出方法については、他の実施形態にて詳述する。
また、上記出演者情報抽出手段5は、出演者情報表示区間抽出手段4から出力された出演者情報表示区間情報と、文字情報抽出手段3から出力された認識文字情報と、の入力を受け付ける。そして、上記出演者情報表示区間情報にて特定される時間区間内における映像に含まれる上記文字情報を、出演者の名前を表す出演者情報として抽出する。このとき、出演者情報抽出手段5は、例えば、文字数や、ひらがなと漢字の配置、使用漢字などの観点から予め設定された判断基準情報に基づいて、文字列の人名らしさを判定し、所定の基準を満たした文字列を出演者の名前として抽出する。また、出演者情報抽出手段5は、他の例として、認識された文字列の映像画面上の配置などに基づいて、配役名などは排除した上で、出演者の名前のみを選別してもよい。例えば、人名が2列に並んでおり、一方の文字が小さい場合には、その小さいほうの文字を配役名と特定して排除し、他方の文字列を出演者の名前として抽出してもよい。
さらに、出演者情報抽出手段5は、予め設定された映像の制作に関わる者の役割を表す文字列を検出した場合には、この役割を表す文字列と関連付けられている人名は、出演者ではないとして抽出しない。例えば、「原作者」、「脚本家」、「監督」などの映像に出演していない者の役割を表す文字列を検出した場合には、この役割を表す文字列と同一の列にある人名は、抽出しない。
そして、出演者情報抽出手段5は、上述のようにして抽出した出演者の人名である出演者情報を、情報処理装置1のディスプレイに出力したり、所定のファイルに出力して記憶する。
なお、上記出演者情報抽出手段5による出演者情報を抽出する方法は、上述した出演者情報表示区間抽出手段4が出演者情報表示区間を特定して抽出する際に用いてもよい。つまり、出演者情報表示区間抽出手段4は、上述したように、文字数、ひらがなと漢字の配置などから、出演者の名前が含まれていると判断した時間区間を、出演者情報表示区間として抽出し、出演者情報抽出手段に出力してもよい。
[動作]
次に、上記構成の情報処理装置1の動作を、図4のフローチャートを参照して説明する。まず、情報処理装置1は、映像情報の入力を受け付ける(ステップS1)。そして、情報処理装置1は、映像中に文字情報であるクレジット情報が重畳されている時間区間を、クレジット区間情報として抽出する(ステップS2、クレジット区間抽出工程)。このとき、例えば、主題歌などの音楽が流れている時間区間を抽出したり、ロールテロップが流れている時間区間を抽出する。
次に、上記構成の情報処理装置1の動作を、図4のフローチャートを参照して説明する。まず、情報処理装置1は、映像情報の入力を受け付ける(ステップS1)。そして、情報処理装置1は、映像中に文字情報であるクレジット情報が重畳されている時間区間を、クレジット区間情報として抽出する(ステップS2、クレジット区間抽出工程)。このとき、例えば、主題歌などの音楽が流れている時間区間を抽出したり、ロールテロップが流れている時間区間を抽出する。
また、情報処理装置1は、上記クレジット区間情報の抽出処理に前後して、入力された映像情報中に重畳されている文字列を認識して、その出現時間と共に関連付け、認識文字情報として抽出する(ステップS3、文字情報抽出工程)。このとき、時間だけでなく、文字列の表示位置を特定する位置情報を抽出して、認識文字情報に含めてもよい。また、情報処理装置1は、上述したように、クレジット区間として抽出された時間区間のみの文字認識を行ってもよい。
なお、上記クレジット区間抽出手段2によるステップS2の処理と、上記文字情報抽出手段3によるステップS3の処理とは、上述した順序で実行されることに限定されず、逆の順番や同時に実行されてもよい。
続いて、情報処理装置1は、上記クレジット区間情報と上記認識文字情報とに基づいて、映像中に出演者情報が含まれている時間区間を抽出する(ステップS4、出演者情報表示区間抽出工程)。例えば、文字列が一定の基準以上まとまって表示されている時間区間や、映像における冒頭やエンディング部分などの特定の時間区間を、出演者情報が含まれている時間区間として抽出する。
その後、情報処理装置1は、出演者情報が表示されていると特定された時間区間内の文字列から、出演者情報を抽出する(ステップS5、出演者情報抽出工程)。このとき、例えば、文字列の人名らしさを判定し、人名のみを抽出して、出演者情報とする。また、場合によっては、文字列の配置などに応じて、映像中の配役名を特定し、排除してもよい。また、「原作者」、「脚本家」、「監督」などの映像に出演していない者の役割を表す文字列を検出し、この役割を表す文字列が同一の列にない人名を、出演者の名前として抽出する。その後、出演者の名前を表す出演者情報を、ディスプレイやファイルに出力する(ステップS6)。
以上のように、本実施形態では、まず、クレジット情報が表示されている時間区間とクレジットの文字内容とに基づいて、出演者情報が表示される時間区間を特定している。従って、映像から、容易かつ高精度、さらには、低コストに、出演者情報を抽出して、コンテンツに含まれる権利情報を特定することができる。
<実施形態2>
本発明の第2の実施形態を、図5乃至図6を参照して説明する。図5は、情報処理装置の構成を示す機能ブロック図である。図6は、情報処理装置の動作を示すフローチャートである。
本発明の第2の実施形態を、図5乃至図6を参照して説明する。図5は、情報処理装置の構成を示す機能ブロック図である。図6は、情報処理装置の動作を示すフローチャートである。
本実施形態における情報処理装置1は、上述した実施形態1のものとほぼ同一の構成を採っている。そして、本実施形態では、特に、出演者情報表示区間抽出手段4の構成が異なる。従って、以下では、出演者情報表示区間抽出手段4の構成及び動作について、主に説明する。
図5に示すように、本実施形態における情報処理装置1の出演者情報表示区間抽出手段4は、出演者情報表示区間候補抽出手段41と、出演者情報表示区間判定手段42と、を備えている。なお、これら各手段41,42は、演算装置に出演者情報抽出用プログラムが組み込まれることで、情報処理装置1内に構築されている。以下、さらに詳述する。
なお、上記プログラムは、例えば、予め情報処理装置1が装備する記憶装置に記憶されていたり、CD-ROMなどの記憶媒体に格納された状態で情報処理装置1に提供される。あるいは、上記プログラムは、ネットワーク上の他のサーバコンピュータの記憶装置に記憶され、当該他のサーバコンピュータからネットワークを介して情報処理装置1に提供されてもよい。
上記出演者情報表示区間候補抽出手段41は、上述した図1に開示した文字情報抽出手段3にて映像から抽出された文字情報を含む認識文字情報を取得する。そして、出演者情報表示区間候補抽出手段41は、認識文字情報に含まれる文字情報中に、予め定められた「特定の文字列」が含まれるかどうかを調べる。
ここで、上記「特定の文字列」とは、「原作」、「脚本」、「監督」、「プロデューサー」など、映像に出演しておらず当該映像情報の制作に関わる者の役割を表す文字である。換言すると、特定の文字列とは、映像に対する著作権や著作隣接権などの権利種別を表す文字列である。
そして、出演者情報表示区間候補抽出手段41は、各文字列が特定の文字列に該当するかどうかを判定し、当該特定の文字列のいずれにも該当しない文字列が抽出された連続時間区間を求める。その後、この時間区間を特定する情報を出演者情報表示区間候補情報とし、出演者情報表示区間判定手段42に出力する(ステップS11、出演者情報表示区間候補抽出工程)。このとき、例えば、候補となる時間区間の開始と終了の時刻を、候補区間ごとに出力する。あるいは、候補区間の開始か終了のどちらか一方の時刻と、その区間の長さを表す区間長情報と、を区間ごとに出力するようにしてもよい。
また、出演者情報表示区間判定手段42は、上記出演者情報表示区間候補情報と、図1に開示したクレジット区間抽出手段2にて映像から抽出されたクレジット区間情報と、を取得する。そして、出演者情報表示区間判定手段42は、クレジット区間情報を用いて、出演者情報表示区間候補情報に含まれる各候補区間の、文字情報の表示開始からの時間、つまり、各候補区間の時間的な長さを算出する。そして、出演者情報表示区間判定手段42は、出演者表示区間候補情報にて表される時間区間が最長であるなど、当該時間区間の長さに基づいて、上記出演者情報表示区間情報を特定する。
また、出演者情報表示区間判定手段41は、候補となる時間区間の冒頭側の区間を、上記出演者情報表示区間情報として抽出してもよい。一例を挙げると、出演者は、クレジット表示の前半で表示されることが多いため、クレジット情報の前半に含まれ、かつ、時間区間長が最長となる候補区間を、出演者情報表示区間として選択する(ステップS12、出演者情報表示区間判定工程)。そして、選択された時間区間を特定する情報を、出演者情報表示区間情報として出演者情報抽出手段5に出力する。
なお、出演者情報表示区間判定手段42は、上記出演者情報表示区間候補情報に含まれる情報のみから出演者情報表示区間情報を求め、これを出力してもよい。そして、候補区間が1つのみの場合には、これをそのまま出演者表示区間としてもよいし、あるいは、複数ある場合には、時間区間長等の基準で1つを選択し、出演者表示区間とするようにしてもよい。
以上のように、本実施形態における出演者情報表示区間抽出手段4は、認識した文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出することで、より効率的に出演者情報が含まれる時間区間を絞り込むことができる。そして、さらに、特定の文字が含まれていない時間区間の長さや映像全体に対する相対的な時間などに基づいて、時間区間の候補の中から出演者情報が表示されている時間区間を抽出することで、より高精度に、出演者情報を抽出することができる。
<実施形態3>
本発明の第3の実施形態を、図7乃至図8を参照して説明する。図7は、情報処理装置の構成を示す機能ブロック図である。図8は、情報処理装置の動作を示すフローチャートである。
本発明の第3の実施形態を、図7乃至図8を参照して説明する。図7は、情報処理装置の構成を示す機能ブロック図である。図8は、情報処理装置の動作を示すフローチャートである。
本実施形態における情報処理装置1は、上述した実施形態3のものとほぼ同一の構成を採っている。そして、本実施形態では、特に、出演者情報表示区間抽出手段4の構成が異なる。従って、以下では、出演者情報表示区間抽出手段4の構成及び動作について、主に説明する。
図7に示すように、本実施形態における情報処理装置1の出演者情報表示区間抽出手段4は、出演者情報表示区間候補抽出手段141と、出演者情報表示区間判定手段142と、出演者情報表示確率算出手段143と、を備えている。なお、これら各手段141~143は、演算装置に出演者情報抽出用プログラムが組み込まれることで、情報処理装置1内に構築されている。以下、さらに詳述する。
なお、上記プログラムは、例えば、予め情報処理装置1が装備する記憶装置に記憶されていたり、CD-ROMなどの記憶媒体に格納された状態で情報処理装置1に提供される。あるいは、上記プログラムは、ネットワーク上の他のサーバコンピュータの記憶装置に記憶され、当該他のサーバコンピュータからネットワークを介して情報処理装置1に提供されてもよい。
上記出演者情報表示確率算出手段143は、図1に開示したクレジット区間抽出手段2にて映像から抽出されたクレジット区間情報を取得する。ここで、情報処理装置1は、映像に対するクレジット情報の再生時間と、出演者情報の表示され易さと、の関係を表した「表示され易さ情報」を記憶している。この「表示され易さ情報」に基づいて、出演者情報表示確率算出手段143は、クレジット区間情報内の各時間毎において出演者情報が表示されうる確率を、出演者情報表示確率情報として算出する。
なお、上記「表示され易さ情報」は、例えば、クレジットが表示される区間の長さで正規化された、クレジット表示の冒頭からの相対時間に対する関数で表され、これに基づいて各時間に対する確率を算出可能なデータである。また、この「表示され易さ情報」は、例えば、クレジット表示の冒頭から各相対時刻において、出演者情報が表示される確率そのものを値として保持していてもよい。また、「表示され易さ情報」は、クレジット表示の冒頭からの相対時間に対する関数をモデル化して、このモデルを記述するパラメータ情報であってもよい。そして、この「表示され易さ情報」は、これまでの複数のクレジット情報から情報処理装置1が組み込まれた処理機能に基づいて自動的に学習して算出したものであってもよいし、人手で調整して付与されたものであってもよい。
そして、出演者情報表示確率算出手段143は、クレジット区間情報と、上述したように予め記憶された「表示され易さ情報」とに基づいて、映像の各再生時間における出演者情報が表示される確率を算出し、出演者情報表示区間判定手段142に出力する(ステップS21、出演者情報表示確率算出工程)。
また、上記出演者情報表示区間候補抽出手段141は、上述した実施形態3のものとほぼ同一である。つまり、出演者情報が含まれうる候補となる時間区間を表す出演者情報表示区間候補情報を、出演者情報表示区間判定手段142に出力する(ステップS22、出演者情報表示区間候補抽出工程)。
なお、上記出演者情報表示確率算出手段143によるステップS21の処理と、上記出演者情報表示区間候補抽出手段141によるステップS22の処理とは、上述した順序で実行されることに限定されず、逆の順番や同時に実行されてもよい。
そして、上記出演者情報表示区間判定手段142は、上記出演者情報表示確率算出手段143から出力された上記出演者情報表示確率情報と、上記出演者情報表示区間候補抽出手段141から出力された出演者情報表示区間候補情報と、を取得する。そして、出演者情報表示区間判定手段142は、各候補区間における出演者情報が含まれる確率に基づいて、出演者情報が表示される時間区間を特定する(ステップS23、出演者情報表示区間判定工程)。例えば、出演者情報表示区間候補情報にて特定された各候補区間に対し、各候補区間に出演者情報が表示され得る確率を算出する。このとき、例えば、各候補区間内における出演者情報表示確率の区間全体の平均や最大値、最小値などを用いて、その区間の確率とする。そして、各候補区間のうち、求めた確率が最大となる候補区間を出演者情報が表示される時間区間とし、この区間を特定する出演者情報表示区間情報を出演者情報抽出手段5に出力する。
また、出演者情報表示区間判定手段142は、以下のように出演者情報表示区間を特定してもよい。例えば、出演者情報が表示される区間長に関する基準をさらに有しており、この基準に基づいて区間長に対する妥当性を検証し、上述の確率と合せて出演者情報表示区間を判定するようになっていてもよい。具体的には、出演者情報表示区間として妥当とする最小の長さを基準値として規定しておき、この基準値を満たした候補区間で、かつ上記確率が最大となる区間を選択するようになっていてもよい。
以上のように、本実施形態では、統計などにより予め用意されている、映像の再生時間に応じた出演者情報の表示され易さを表す情報に基づいて、各再生時間毎における出演者情報の表示確率を算出する。そして、その確率が最大となる時間区間など、算出した確率に基づいて出演者情報が表示される時間区間を算出する。従って、より高精度に、出演者情報を抽出することができる。
<実施形態4>
本発明の第4の実施形態を、図9乃至図10を参照して説明する。図9は、情報処理装置の構成を示す機能ブロック図である。図10は、情報処理装置の動作を示すフローチャートである。
本発明の第4の実施形態を、図9乃至図10を参照して説明する。図9は、情報処理装置の構成を示す機能ブロック図である。図10は、情報処理装置の動作を示すフローチャートである。
本実施形態における情報処理装置1は、上述した実施形態3のものとほぼ同一の構成を採っている。そして、本実施形態では、特に、出演者情報表示区間抽出手段4の構成が異なる。従って、以下では、出演者情報表示区間抽出手段4の構成及び動作について、主に説明する。
図9に示すように、本実施形態における情報処理装置1の出演者情報表示区間抽出手段4は、出演者情報表示区間候補抽出手段241と、出演者情報表示区間判定手段242と、出現パターン解析手段244と、を備えている。なお、これら各手段241,242,244は、演算装置に出演者情報抽出用プログラムが組み込まれることで、情報処理装置1内に構築されている。以下、さらに詳述する。
なお、上記プログラムは、例えば、予め情報処理装置1が装備する記憶装置に記憶されていたり、CD-ROMなどの記憶媒体に格納された状態で情報処理装置1に提供される。あるいは、上記プログラムは、ネットワーク上の他のサーバコンピュータの記憶装置に記憶され、当該他のサーバコンピュータからネットワークを介して情報処理装置1に提供されてもよい。
上記出現パターン解析手段244は、図1に開示した文字情報抽出手段3にて映像から抽出された文字情報を含む認識文字情報を取得する。そして、出現パターン解析手段244は、認識文字情報に含まれる文字情報の映像に対する時間的な出現状況を表す出現パターンや、映像の再生領域に対する文字情報の表示レイアウトにおける出現状況を表す出現パターンを解析する。
具体的に、上述した前者の文字情報の時間的な出現パターンの解析では、映像中における文字列の出現頻度情報を、クレジット情報中の各時刻に対して算出する。このとき、出演者情報は、例えば、主役級の人から脇役へと順次表示されるが、主役級の人が表示される場合にはその人単独で表示される場合が多く、単位時間当たりの文字列の出現頻度は低くなる。一方、脇役の人の場合には、まとめて複数の人が表示される場合が多いため、単位時間当たりの文字列の出現頻度は高くなる。従って、映像の再生時間の経過に伴う文字列の出現頻度情報を、後述する出演者情報表示区間判定手段242における出演者情報表示区間の特定に用いることができる。
一方、上述した後者の文字情報の空間的なレイアウトは、事前に文字情報抽出手段3にて抽出した認識文字情報が、文字列の表示画面(フレーム)内における位置や大きさといったレイアウト情報を含んでいる場合に、解析を行うことができる。この場合、権利や役割の種別を表す文字列と人名(「脚本」というキーワードと脚本家の人名など)のように、2つの文字列が一行に表示されるなど、予め設定されたレイアウト構造に対応して表示される文字列が存在するかどうかを、認識された文字列のレイアウト情報から判定する。例えば、出演者は、配役名とともに表示される場合もあるが、配役名がなく、人名単独で表示される場合も多い。このようなケースでは、同一行などの特定のレイアウト構造にて対応する他の文字列が存在しない文字列の表示が連続する場合には、出演者が表示されている可能性が高いと考えられる。従って、このような文字列のレイアウト構造を解析して、後述する出演者情報表示区間判定手段242における出演者情報表示区間の判定精度向上に用いることが可能となる。
なお、仮に配役名と出演者の名前が特定のレイアウトで同時に表示される場合であっても、他の権利者の情報の表示とは、レイアウトが異なって表示される場合がある。そこで、特定のレイアウト構造による他の対応文字列が検知された場合には、その空間的な位置関係を解析し、その対応関係に変化がある場合には、それを検知するようになっていてもよい。例えば、対応文字列同士の文字間隔に応じて、「権利者情報」と「人名」とが同時に表示されているか、あるいは、「配役名」と「人名」とが同時に表示されているか、を解析して判別することが可能である。
また、空間的なレイアウト情報から、文字列の出現頻度情報に相当する情報を算出することも可能である。例えば,同一画面(フレーム)に表示される文字列間の距離は、上述の出現頻度と反比例の関係にあるため、この距離情報から単位時間当たりの文字列の出現頻度情報を算出してもよい。
このようにして解析された時間的な出現パターン、空間的なレイアウトの解析結果の両方、あるいはいずれか一方を、文字列の出現パターン解析情報として抽出し、出演者情報表示区間判定手段242へ出力する(ステップS31、出現パターン解析工程)。
また、上記出演者情報表示区間候補抽出手段241は、上述した実施形態2のものとほぼ同一である。つまり、出演者情報が含まれうる候補となる時間区間を表す出演者情報表示区間候補情報を、出演者情報表示区間判定手段242に出力する(ステップS32、出演者情報表示区間候補抽出工程)。
なお、上記出現パターン解析手段244によるステップS31の処理と、上記出演者情報表示区間候補抽出手段241によるステップS32の処理とは、上述した順序で実行されることに限定されず、逆の順番や同時に実行されてもよい。
そして、上記出演者情報表示区間判定手段242は、上記出現パターン解析情報と、図5に開示した出演者情報表示区間候補抽出手段241から出力された出演者情報表示区間候補情報と、を取得する。また、出演者情報表示区間判定手段242は、図1に開示したクレジット区間抽出手段2にて映像から抽出されたクレジット区間情報も取得する。そして、クレジット時間区間情報と、テロップパタン解析結果情報と、出演者情報表示区間候補情報と、から出演者情報表示区間を算出して抽出する(ステップS33、出演者情報表示区間判定工程)。
具体的に、出演者情報表示区間判定手段242は、まず、クレジット区間情報を用いて、出演者情報表示区間候補情報に含まれる各候補区間のクレジット表示開始からの相対時間を算出する。続いて、出演者情報表示区間判定手段242は、出現パターン解析結果情報を用いて、各候補区間に対して時間毎の出演者情報が表示されている確率を算出する。例えば、上記出現パターン解析結果情報が文字列の時間的な出現頻度情報を含む場合には,各候補区間内における出現頻度情報の増減を解析する。そして、この解析結果が、予め設定された出演者表示特有の時間的な文字列の出現頻度特性を表す情報に対して適合する度合いを判定し、その適合する度合いから出演者が表示されている確率を算出する。
また、出現パターン解析結果情報が空間的なレイアウト情報の解析結果を含む場合には、当該出現パターン解析結果情報を用いて、各候補区間内におけるレイアウト的に出演者情報が表示されている確率を算出する。そして、この解析結果が、予め設定された出演者表示特有の空間的な文字列のレイアウト特性を表す情報に適合する度合いを判定し、その度合いから出演者が表示されている確率を算出する。ただし、出演者情報が配役名とともに表示され、かつ、配役名と出演者の表示位置の関係が他の権利者情報の場合と変化しない場合には、空間的なレイアウトからは出演者情報の表示の有無の判定を行うことが困難なため、空間的なレイアウト情報を用いないようにする。
また、出現パターン解析結果情報が文字列の時間的な出現頻度情報と空間的なレイアウト情報の解析結果の両方を含む場合には、両方の情報を用いて文字列の時間的出現頻度特性、空間的レイアウト特性に適合する度合いを判定し、それらの度合いから出演者が表示されている確率を算出する。
そして、このようにして算出された出演者情報が表示されている確率と、クレジット表示開始からの相対時刻情報とを用いて、出演者情報表示区間を選択し、出力する。例えば、出演者はクレジットの前半で表示されることが多いため、クレジットの前半に含まれる候補区間の中で、上述したように算出された確率が最大となる候補区間を、出演者情報表示区間として選択する。このとき、出演者情報が表示される区間長に関する基準をさらに有しており、区間長に対する妥当性を検証し、上述した確率と合せて出演者情報表示区間を判定するようになっていてもよい。
あるいは,各候補区間のクレジット冒頭からの相対時刻情報と、区間長とから、出演者情報表示区間となりえる区間を予め絞りこんだ上で、上述の確率を算出し、確率が最大となる候補区間を出演者情報表示区間として判定して出力するようにしてもよい。
<実施形態5>
本発明の第5の実施形態を、図11乃至図12を参照して説明する。図11は、情報処理装置の構成を示す機能ブロック図である。図12は、情報処理装置の動作を示すフローチャートである。
本発明の第5の実施形態を、図11乃至図12を参照して説明する。図11は、情報処理装置の構成を示す機能ブロック図である。図12は、情報処理装置の動作を示すフローチャートである。
本実施形態における情報処理装置1は、上述した実施形態3と実施形態4のものとほぼ同一の構成を採っている。そして、本実施形態では、特に、出演者情報表示区間抽出手段4の構成が異なる。従って、以下では、出演者情報表示区間抽出手段4の構成及び動作について、主に説明する。
図11に示すように、本実施形態における情報処理装置1の出演者情報表示区間抽出手段4は、出演者情報表示区間候補抽出手段341と、出演者情報表示区間判定手段342と、出現者情報表示確率算出手段343と、出現パターン解析手段344と、を備えている。なお、これら各手段341~344は、演算装置に出演者情報抽出用プログラムが組み込まれることで、情報処理装置1内に構築されている。以下、さらに詳述する。
なお、上記プログラムは、例えば、予め情報処理装置1が装備する記憶装置に記憶されていたり、CD-ROMなどの記憶媒体に格納された状態で情報処理装置1に提供される。あるいは、上記プログラムは、ネットワーク上の他のサーバコンピュータの記憶装置に記憶され、当該他のサーバコンピュータからネットワークを介して情報処理装置1に提供されてもよい。
まず、出演者情報表示確率算出手段343は、上述した実施形態3のものとほぼ同一である。つまり、出演者情報表示確率算出手段343は、まず、図1に開示したクレジット区間抽出手段2にて映像から抽出されたクレジット区間情報を取得する。そして、予め記憶している情報処理装置1が記憶している、映像に対するクレジット情報の再生時間と、出演者情報の表示され易さと、の関係を表した「表示され易さ情報」に基づいて、クレジット区間情報内の各時間において出演者情報が表示されうる確率を、出演者情報表示確率情報として算出する。そして、出演者情報表示確率算出手段343は、算出した映像の各再生時間における出演者情報が表示される確率を、出演者情報表示区間判定手段342に出力する(ステップS41、出演者情報表示確率算出工程)。
また、出現パターン解析手段344は、上述した実施形態4のものとほぼ同一である。つまり、出現パターン解析手段344は、図1に開示した文字情報抽出手段3にて映像から抽出された文字情報を含む認識文字情報を取得する。そして、認識文字情報に含まれる文字情報の映像に対する時間的な出現状況を表す出現パターン、映像の再生領域に対するレイアウト的な出現状況を表す出現パターンの両方、あるいはいずれか一方を、出現パターン解析情報として抽出し、出演者情報表示区間判定手段342へ出力する(ステップS42、出現パターン解析工程)。
また、上記出演者情報表示区間候補抽出手段341は、上述した実施形態2のものとほぼ同一である。つまり、出演者情報が含まれうる候補となる時間区間を表す出演者情報表示区間候補情報を、出演者情報表示区間判定手段342に出力する(ステップS43、出演者情報表示区間候補抽出工程)。
なお、上述した出演者情報確率算出手段343、出現パターン解析手段344、出演者情報表示区間候補抽出手段341による処理は、図12に示す順番にて実行されることに限定されず、いかなる順序でもよく、あるいは、並列に実行されてもよい。
そして、上記出演者情報表示区間判定手段342では、出演者情報表示確率と、出現パターン解析結果情報と、出演者情報表示区間候補情報と、から出演者情報表示区間を算出する(ステップS44、出演者情報表示区間判定工程)。具体的には、まず、上述した実施形態3の場合と同様に、出演者情報表示区間候補情報で特定された各候補区間に対し、その時間情報から各候補区間に出演者情報が表示され得る確率を算出する。次に、上述した実施形態4の場合と同様に、各候補区間に対し、出現パターン解析結果情報から出演者情報が表示されている確率を算出し、上記時間情報から求めた確率に掛け合わせる。そして、この結果、得られる確率が最大となる区間を出演者情報表示区間として選択する。あるいは、上述した実施形態3の場合と同様に、区間長に対する妥当性を検証し、上記の確率と合せて出演者情報表示区間を判定するようになっていてもよい。そして、選択された区間を記述する情報を出演者情報表示区間情報として出力する。これにより、より高精度に、出演者情報を抽出することができる。
<実施形態6>
本発明の第6の実施形態を、図1を参照して説明する。図1は、情報処理装置の構成を示す機能ブロック図である。なお、本実施形態では、情報処理装置の構成の概略を説明する。
本発明の第6の実施形態を、図1を参照して説明する。図1は、情報処理装置の構成を示す機能ブロック図である。なお、本実施形態では、情報処理装置の構成の概略を説明する。
本発明の一形態である情報処理装置1は、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段2と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段3と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段4と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段5と、
を備える。
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段2と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段3と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段4と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段5と、
を備える。
上記構成の情報処理装置によると、情報処理装置は、まず、映像中に含まれる文字情報が再生される時間区間をクレジット区間情報として抽出する。また、情報処理装置は、映像に対して文字認識処理を行い、文字情報とその再生時間情報とを、認識文字情報として抽出する。さらに、情報処理装置は、上記クレジット区間情報と認識文字情報とに基づいて、映像に出演している出演者の名前を表す出演者情報が表示される映像中の時間区間を、出演者情報表示区間情報として抽出する。そして、情報処理装置は、抽出された出演者情報表示区間情報にて特定される映像中の時間区間に表示される文字情報を、出演者の名前として抽出する。
このように、クレジットが表示されている時間区間とクレジットの文字内容とに基づいて、出演者情報が表示される時間区間を特定している。従って、映像から、容易かつ高精度、さらには、低コストに、出演者情報を抽出して、コンテンツに含まれる権利情報を特定することができる。
そして、上記情報処理装置では、上記出演者情報表示区間抽出手段は、上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出する、という構成を採る。
また、上記情報処理装置では、上記特定の文字は、上記映像情報が表す映像に出演しておらず当該映像情報の制作に関わる者の役割を表す文字である、という構成を採る。
これにより、情報処理装置は、監督やプロデューサーなどの映像情報の制作に関わる者の役割を表す文字など、出演者ではない者を特定する文字が含まれていない時間区間を、出演者情報が表示されている時間区間とする。従って、より高精度に、出演者情報を抽出することができる。
また、上記情報処理装置では、
上記出演者情報表示区間抽出手段は、
上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を、上記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出する出演者情報表示区間候補抽出手段と、
上記クレジット区間情報と上記出演者情報表示区間候補情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する出演者情報表示区間判定手段と、を備えた、
という構成を採る。
上記出演者情報表示区間抽出手段は、
上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を、上記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出する出演者情報表示区間候補抽出手段と、
上記クレジット区間情報と上記出演者情報表示区間候補情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する出演者情報表示区間判定手段と、を備えた、
という構成を採る。
そして、上記情報処理装置では、上記出演者情報表示区間判定手段は、上記出演者表示区間候補情報にて表される時間区間の長さに基づいて上記出演者情報表示区間情報を抽出する、という構成を採る。
また、上記情報処理装置では、上記出演者情報表示区間判定手段は、上記出演者表示区間候補情報にて表される時間区間のうち、当該時間区間の長さが最長であり、上記クレジット区間情報に基づいて少なくともその時間区間の冒頭側の区間を上記出演者情報表示区間情報として抽出する、という構成を採る。
これにより、特定の文字が表示されていない時間区間を出演者情報が表示されている時間区間の候補として抽出し、さらに、その時間区間の長さや映像全体に対する相対的な時間などに基づいて、時間区間の候補の中から出演者情報が表示されている時間区間を抽出する。従って、より高精度に、出演者情報を抽出することができる。
また、上記情報処理装置では、
上記出演者情報表示区間抽出手段は、上記クレジット区間情報と、予め設定された上記文字情報の再生時間と出演者情報の表示され易さとの関係を表した表示され易さ情報と、に基づいて、上記クレジット区間情報内の各時間における上記出演者情報が表示され得る確率を出演者情報表示確率情報として算出する出演者情報表示確率算出手段を備え、
上記出演者情報表示区間抽出手段が有する上記出演者情報表示区間判定手段は、上記出演者情報表示確率算出情報に基づいて、上記出演者情報表示区間候補情報のうち上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
上記出演者情報表示区間抽出手段は、上記クレジット区間情報と、予め設定された上記文字情報の再生時間と出演者情報の表示され易さとの関係を表した表示され易さ情報と、に基づいて、上記クレジット区間情報内の各時間における上記出演者情報が表示され得る確率を出演者情報表示確率情報として算出する出演者情報表示確率算出手段を備え、
上記出演者情報表示区間抽出手段が有する上記出演者情報表示区間判定手段は、上記出演者情報表示確率算出情報に基づいて、上記出演者情報表示区間候補情報のうち上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
また、上記情報処理装置では、上記出演者情報表示区間判定手段は、上記出演者情報表示確率算出情報の確率が最大となる時間を含む時間区間を上記出演者情報が表示される時間区間とする、構成を採る。
これにより、統計などにより予め用意されている、映像の再生時間に応じた出演者情報の表示され易さを表す情報に基づいて、各再生時間毎における出演者情報の表示確率を算出する。そして、その確率が最大となる時間区間など、算出した確率に基づいて出演者情報が表示される時間区間を算出する。従って、より高精度に、出演者情報を抽出することができる。
また、上記情報処理装置では、
上記認識文字情報が、映像中における上記文字情報の出現状況を表す出現パターン情報を含んでおり、
上記出演者情報表示区間抽出手段は、上記認識文字列情報に含まれる上記出現パターン情報に基づいて、上記出演者情報表示区間を算出する、
という構成を採る。
上記認識文字情報が、映像中における上記文字情報の出現状況を表す出現パターン情報を含んでおり、
上記出演者情報表示区間抽出手段は、上記認識文字列情報に含まれる上記出現パターン情報に基づいて、上記出演者情報表示区間を算出する、
という構成を採る。
また、上記情報処理装置では、
上記出演者情報表示区間抽出手段は、上記認識文字情報から映像中における上記文字情報の出現状況を表す出現パターン情報を抽出する出現パターン解析手段を備え、
上記出演者情報表示区間抽出手段が有する上記出演者情報表示区間判定手段は、上記クレジット時間区間情報と上記出演者情報表示区間候補情報と上記出現パターン情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
上記出演者情報表示区間抽出手段は、上記認識文字情報から映像中における上記文字情報の出現状況を表す出現パターン情報を抽出する出現パターン解析手段を備え、
上記出演者情報表示区間抽出手段が有する上記出演者情報表示区間判定手段は、上記クレジット時間区間情報と上記出演者情報表示区間候補情報と上記出現パターン情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
さらに、上記情報処理装置では、
上記出演者情報表示区間抽出手段は、上記認識文字情報から映像中における上記文字情報の出現状況を表す出現パターン情報を抽出する出現パターン解析手段を備え、
上記出演者情報表示区間抽出手段が有する上記出演者情報表示区間判定手段は、上記出演者情報表示確率情報と上記出演者情報表示区間候補情報と上記出現パターン情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
上記出演者情報表示区間抽出手段は、上記認識文字情報から映像中における上記文字情報の出現状況を表す出現パターン情報を抽出する出現パターン解析手段を備え、
上記出演者情報表示区間抽出手段が有する上記出演者情報表示区間判定手段は、上記出演者情報表示確率情報と上記出演者情報表示区間候補情報と上記出現パターン情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
そして、上記情報処理装置では、上記出現パターン解析手段は、上記認識文字情報に基づいて映像の再生時間の経過に伴う上記文字情報の出現頻度を上記出現パターンとして抽出する、という構成を採る。
また、上記情報処理装置では、上記出現パターン解析手段は、上記認識文字情報に基づいて映像の再生領域に対する上記文字情報のレイアウトを上記出現パターンとして抽出する、という構成を採る。
これにより、映像に対する文字情報の出現頻度や再生領域に対するレイアウトなどの出現パターンに基づいて、出演者情報が表示される時間区間を抽出する。従って、より高精度に、出演者情報を抽出することができる。
また、上記情報処理装置では、上記クレジット区間抽出手段は、再生された映像上で上記文字情報が所定の方向にスクロールするロールテロップを検出し、当該ロールテロップが再生されている時間区間を上記クレジット時間区間情報とする、という構成を採る。
また、上記情報処理装置では、上記クレジット区間抽出手段は、再生された映像上で再生される音楽を検出し、当該音楽が再生されている時間区間を上記クレジット時間区間情報とする、という構成を採る。
また、上述した情報処理装置は、当該情報処理装置に、プログラムが組み込まれることで実現できる。
具体的に、本発明の他の形態であるプログラムは、情報処理装置に、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、
を実現させるためのプログラムである。
具体的に、本発明の他の形態であるプログラムは、情報処理装置に、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する出演者情報抽出手段と、
を実現させるためのプログラムである。
そして、上記プログラムでは、上記出演者情報表示区間抽出手段は、上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出する、という構成を採る。
また、上記プログラムは、
上記情報処理装置に、
上記認識文字情報に含まれる上記文字情報に予め設定された特定の文字が含まれていない時間区間を、上記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出する出演者情報表示区間候補抽出手段と、
上記クレジット区間情報と上記出演者情報表示区間候補情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する出演者情報表示区間判定手段と、
を備えた上記出演者情報表示区間抽出手段を実現させるためのプログラムである。
上記情報処理装置に、
上記認識文字情報に含まれる上記文字情報に予め設定された特定の文字が含まれていない時間区間を、上記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出する出演者情報表示区間候補抽出手段と、
上記クレジット区間情報と上記出演者情報表示区間候補情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する出演者情報表示区間判定手段と、
を備えた上記出演者情報表示区間抽出手段を実現させるためのプログラムである。
また、上述した情報処理装置が作動することにより実行される情報処理方法は、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出し、
上記クレジット区間情報の抽出に前後して、上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出し、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出し、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する、
という構成を採る。
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出し、
上記クレジット区間情報の抽出に前後して、上記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出し、
上記クレジット区間情報と上記認識文字情報とに基づいて、上記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出し、
上記出演者情報表示区間情報にて特定される時間区間内における上記認識文字情報に含まれる上記文字情報を上記出演者情報として抽出する、
という構成を採る。
そして、上記情報処理方法では、上記出演者情報表示区間情報を抽出する時に、上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出する、という構成を採る。
また、上記情報処理方法では、
上記出演者情報表示区間情報を抽出する時に、
上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を、上記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出し、
上記クレジット区間情報と上記出演者情報表示区間候補情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
上記出演者情報表示区間情報を抽出する時に、
上記認識文字情報に含まれる上記文字情報に、予め設定された特定の文字が含まれていない時間区間を、上記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出し、
上記クレジット区間情報と上記出演者情報表示区間候補情報とに基づいて、上記文字情報中に上記出演者情報が表示される時間区間を表す上記出演者情報表示区間情報を抽出する、
という構成を採る。
上述した構成を有する、プログラム、又は、情報処理方法、の発明であっても、上記情報処理装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
なお、本発明は、日本国にて2008年11月21日に特許出願された特願2008-297756の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
本発明は、映像を管理したり利用する事業者にて、映像情報から出演者の権利を自動的に抽出する際に利用することができ、産業上の利用可能性を有する。
1 情報処理装置
2 クレジット区間抽出手段
3 文字情報抽出手段
4 出演者情報表示区間抽出手段
5 出演者情報抽出手段
41,141,241,341 出演者情報表示区間候補抽出手段
42,142,242,342 出演者情報表示区間判定手段
143,343 出演者情報表示確率算出手段
244,344 出現パターン解析手段
2 クレジット区間抽出手段
3 文字情報抽出手段
4 出演者情報表示区間抽出手段
5 出演者情報抽出手段
41,141,241,341 出演者情報表示区間候補抽出手段
42,142,242,342 出演者情報表示区間判定手段
143,343 出演者情報表示確率算出手段
244,344 出現パターン解析手段
Claims (21)
- 入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
前記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
前記クレジット区間情報と前記認識文字情報とに基づいて、前記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
前記出演者情報表示区間情報にて特定される時間区間内における前記認識文字情報に含まれる前記文字情報を前記出演者情報として抽出する出演者情報抽出手段と、
を備えた情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記出演者情報表示区間抽出手段は、前記認識文字情報に含まれる前記文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出する、
情報処理装置。 - 請求項2に記載の情報処理装置であって、
前記特定の文字は、前記映像情報が表す映像に出演しておらず当該映像情報の制作に関わる者の役割を表す文字である、
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記出演者情報表示区間抽出手段は、
前記認識文字情報に含まれる前記文字情報に、予め設定された特定の文字が含まれていない時間区間を、前記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出する出演者情報表示区間候補抽出手段と、
前記クレジット区間情報と前記出演者情報表示区間候補情報とに基づいて、前記文字情報中に前記出演者情報が表示される時間区間を表す前記出演者情報表示区間情報を抽出する出演者情報表示区間判定手段と、を備えた、
情報処理装置。 - 請求項4に記載の情報処理装置であって、
前記出演者情報表示区間判定手段は、前記出演者表示区間候補情報にて表される時間区間の長さに基づいて前記出演者情報表示区間情報を抽出する、
情報処理装置。 - 請求項5に記載の情報処理装置であって、
前記出演者情報表示区間判定手段は、前記出演者表示区間候補情報にて表される時間区間のうち、当該時間区間の長さが最長であり、前記クレジット区間情報に基づいて少なくともその時間区間の冒頭側の区間を前記出演者情報表示区間情報として抽出する、
情報処理装置。 - 請求項4乃至6のいずれか一項に記載の情報処理装置であって、
前記出演者情報表示区間抽出手段は、前記クレジット区間情報と、予め設定された前記文字情報の再生時間と出演者情報の表示され易さとの関係を表した表示され易さ情報と、に基づいて、前記クレジット区間情報内の各時間における前記出演者情報が表示され得る確率を出演者情報表示確率情報として算出する出演者情報表示確率算出手段を備え、
前記出演者情報表示区間抽出手段が有する前記出演者情報表示区間判定手段は、前記出演者情報表示確率算出情報に基づいて、前記出演者情報表示区間候補情報のうち前記文字情報中に前記出演者情報が表示される時間区間を表す前記出演者情報表示区間情報を抽出する、
情報処理装置。 - 請求項7に記載の情報処理装置であって、
前記出演者情報表示区間判定手段は、前記出演者情報表示確率算出情報の確率が最大となる時間を含む時間区間を前記出演者情報が表示される時間区間とする、
情報処理装置。 - 請求項1乃至8のいずれか一項に記載の情報処理装置であって、
前記認識文字情報が、映像中における前記文字情報の出現状況を表す出現パターン情報を含んでおり、
前記出演者情報表示区間抽出手段は、前記認識文字列情報に含まれる前記出現パターン情報に基づいて、前記出演者情報表示区間を算出する、
情報処理装置。 - 請求項4乃至6のいずれか一項に記載の情報処理装置であって、
前記出演者情報表示区間抽出手段は、前記認識文字情報から映像中における前記文字情報の出現状況を表す出現パターン情報を抽出する出現パターン解析手段を備え、
前記出演者情報表示区間抽出手段が有する前記出演者情報表示区間判定手段は、前記クレジット時間区間情報と前記出演者情報表示区間候補情報と前記出現パターン情報とに基づいて、前記文字情報中に前記出演者情報が表示される時間区間を表す前記出演者情報表示区間情報を抽出する、
情報処理装置。 - 請求項7又は8に記載の情報処理装置であって、
前記出演者情報表示区間抽出手段は、前記認識文字情報から映像中における前記文字情報の出現状況を表す出現パターン情報を抽出する出現パターン解析手段を備え、
前記出演者情報表示区間抽出手段が有する前記出演者情報表示区間判定手段は、前記出演者情報表示確率情報と前記出演者情報表示区間候補情報と前記出現パターン情報とに基づいて、前記文字情報中に前記出演者情報が表示される時間区間を表す前記出演者情報表示区間情報を抽出する、
情報処理装置。 - 請求項10又は11に記載の情報処理装置であって、
前記出現パターン解析手段は、前記認識文字情報に基づいて映像の再生時間の経過に伴う前記文字情報の出現頻度を前記出現パターンとして抽出する、
情報処理装置。 - 請求項10乃至12のいずれか一項に記載の情報処理装置であって、
前記出現パターン解析手段は、前記認識文字情報に基づいて映像の再生領域に対する前記文字情報のレイアウトを前記出現パターンとして抽出する、
情報処理装置。 - 請求項1乃至13のいずれか一項に記載の情報処理装置であって、
前記クレジット区間抽出手段は、再生された映像上で前記文字情報が所定の方向にスクロールするロールテロップを検出し、当該ロールテロップが再生されている時間区間を前記クレジット区間情報とする、
情報処理装置。 - 請求項1乃至13のいずれか一項に記載の情報処理装置であって、
前記クレジット区間抽出手段は、再生された映像上で再生される音楽を検出し、当該音楽が再生されている時間区間を前記クレジット区間情報とする、
情報処理装置。 - 情報処理装置に、
入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出するクレジット区間抽出手段と、
前記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出する文字情報抽出手段と、
前記クレジット区間情報と前記認識文字情報とに基づいて、前記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出する出演者情報表示区間抽出手段と、
前記出演者情報表示区間情報にて特定される時間区間内における前記認識文字情報に含まれる前記文字情報を前記出演者情報として抽出する出演者情報抽出手段と、
を実現させるためのプログラム。 - 請求項16に記載のプログラムであって、
前記出演者情報表示区間抽出手段は、前記認識文字情報に含まれる前記文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出する、
プログラム。 - 請求項16に記載のプログラムであって、
前記情報処理装置に、
前記認識文字情報に含まれる前記文字情報に、予め設定された特定の文字が含まれていない時間区間を、前記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出する出演者情報表示区間候補抽出手段と、
前記クレジット区間情報と前記出演者情報表示区間候補情報とに基づいて、前記文字情報中に前記出演者情報が表示される時間区間を表す前記出演者情報表示区間情報を抽出する出演者情報表示区間判定手段と、
を備えた前記出演者情報表示区間抽出手段を実現させるためのプログラム。 - 入力された所定の再生時間を有する映像情報に基づいて、当該映像情報に文字情報が重畳されている時間区間をクレジット区間情報として抽出し、
前記クレジット区間情報の抽出に前後して、前記映像情報に対して文字認識処理を行い、当該映像情報に含まれる文字情報と、当該文字情報が再生される時間を表す再生時間情報と、を関連付けて認識文字情報として抽出し、
前記クレジット区間情報と前記認識文字情報とに基づいて、前記文字情報中に映像に出演した出演者の名前を表す出演者情報が表示される時間区間である出演者情報表示区間情報を抽出し、
前記出演者情報表示区間情報にて特定される時間区間内における前記認識文字情報に含まれる前記文字情報を前記出演者情報として抽出する、
情報処理方法。 - 請求項19に記載の情報処理方法であって、
前記出演者情報表示区間情報を抽出するときに、前記認識文字情報に含まれる前記文字情報に、予め設定された特定の文字が含まれていない時間区間を出演者情報が表示される時間区間として抽出する、
情報処理方法。 - 請求項20に記載の情報処理方法であって、
前記出演者情報表示区間情報を抽出するときに、
前記認識文字情報に含まれる前記文字情報に、予め設定された特定の文字が含まれていない時間区間を、前記出演者情報が表示されている候補となる時間区間を表す出演者情報表示区間候補情報として抽出し、
前記クレジット区間情報と前記出演者情報表示区間候補情報とに基づいて、前記文字情報中に前記出演者情報が表示される時間区間を表す前記出演者情報表示区間情報を抽出する、
情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010539115A JP5304795B2 (ja) | 2008-11-21 | 2009-09-18 | 情報処理装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-297756 | 2008-11-21 | ||
JP2008297756 | 2008-11-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2010058509A1 true WO2010058509A1 (ja) | 2010-05-27 |
Family
ID=42197953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2009/004705 WO2010058509A1 (ja) | 2008-11-21 | 2009-09-18 | 情報処理装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5304795B2 (ja) |
WO (1) | WO2010058509A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019213065A (ja) * | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム |
JP2019213067A (ja) * | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法、及びプログラム |
WO2020166382A1 (ja) * | 2019-02-13 | 2020-08-20 | 日本電信電話株式会社 | 検出装置、検出方法およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11261909A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | マルチメディアデータ処理装置および方法,記録媒体 |
JP2005063513A (ja) * | 2003-08-08 | 2005-03-10 | Alpine Electronics Inc | オートディスクチェンジ制御方法及びビデオ再生装置 |
WO2008050718A1 (fr) * | 2006-10-26 | 2008-05-02 | Nec Corporation | Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme |
JP2008283486A (ja) * | 2007-05-10 | 2008-11-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
-
2009
- 2009-09-18 JP JP2010539115A patent/JP5304795B2/ja active Active
- 2009-09-18 WO PCT/JP2009/004705 patent/WO2010058509A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11261909A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | マルチメディアデータ処理装置および方法,記録媒体 |
JP2005063513A (ja) * | 2003-08-08 | 2005-03-10 | Alpine Electronics Inc | オートディスクチェンジ制御方法及びビデオ再生装置 |
WO2008050718A1 (fr) * | 2006-10-26 | 2008-05-02 | Nec Corporation | Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme |
JP2008283486A (ja) * | 2007-05-10 | 2008-11-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019213065A (ja) * | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム |
JP2019213067A (ja) * | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法、及びプログラム |
WO2019235137A1 (ja) * | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム |
WO2019235407A1 (ja) * | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法、及びプログラム |
JP7011170B2 (ja) | 2018-06-05 | 2022-01-26 | 日本電信電話株式会社 | 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム |
WO2020166382A1 (ja) * | 2019-02-13 | 2020-08-20 | 日本電信電話株式会社 | 検出装置、検出方法およびプログラム |
JP2020135029A (ja) * | 2019-02-13 | 2020-08-31 | 日本電信電話株式会社 | 検出装置、検出方法およびプログラム |
JP7208499B2 (ja) | 2019-02-13 | 2023-01-19 | 日本電信電話株式会社 | 検出装置、検出方法およびプログラム |
US11728914B2 (en) | 2019-02-13 | 2023-08-15 | Nippon Telegraph And Telephone Corporation | Detection device, detection method, and program |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010058509A1 (ja) | 2012-04-19 |
JP5304795B2 (ja) | 2013-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5522789B2 (ja) | リンク機能付動画再生装置およびリンク機能付動画再生プログラム | |
US8812311B2 (en) | Character-based automated shot summarization | |
US8392183B2 (en) | Character-based automated media summarization | |
JP5121367B2 (ja) | 映像を出力する装置、方法およびシステム | |
JP5022025B2 (ja) | コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。 | |
JP2021525031A (ja) | 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理 | |
KR101540686B1 (ko) | 동영상의 구간별 댓글과 통계정보 제공 장치 및 그 방법 | |
CN103686344B (zh) | 增强视频系统及方法 | |
JP5218766B2 (ja) | 権利情報抽出装置、権利情報抽出方法及びプログラム | |
US8965916B2 (en) | Method and apparatus for providing media content | |
WO2005029353A1 (ja) | 注釈管理システム、注釈管理方法、文書変換サーバ、文書変換プログラム、電子文書付加プログラム | |
US20100189408A1 (en) | Video delivery device, video delivery method, video delivery program and recording medium | |
US7769761B2 (en) | Information processing apparatus, method, and program product | |
JP2002140712A (ja) | Av信号処理装置および方法、プログラム、並びに記録媒体 | |
JP2008176538A (ja) | 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法 | |
CN106716466A (zh) | 会议信息储存装置、方法以及程序 | |
JP2007267173A (ja) | コンテンツ再生装置および方法 | |
JP2009201041A (ja) | コンテンツ検索装置およびその表示方法 | |
JP5304795B2 (ja) | 情報処理装置 | |
JP2006279898A (ja) | 情報処理装置及びその方法 | |
JP2024133486A (ja) | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 | |
JP4812733B2 (ja) | 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 | |
JP2009272816A (ja) | サーバ、情報処理システム及び情報処理方法 | |
JP2007141092A (ja) | 情報提示装置、情報提示方法、情報提示プログラム及び情報記録媒体 | |
JP2000242661A (ja) | 関連情報検索装置および関連情報検索処理を実行するプログラムを記録した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09827291 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2010539115 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09827291 Country of ref document: EP Kind code of ref document: A1 |