WO2008050718A1 - Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme - Google Patents

Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme Download PDF

Info

Publication number
WO2008050718A1
WO2008050718A1 PCT/JP2007/070550 JP2007070550W WO2008050718A1 WO 2008050718 A1 WO2008050718 A1 WO 2008050718A1 JP 2007070550 W JP2007070550 W JP 2007070550W WO 2008050718 A1 WO2008050718 A1 WO 2008050718A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
credit
section
candidate
acoustic
Prior art date
Application number
PCT/JP2007/070550
Other languages
English (en)
French (fr)
Inventor
Ryoma Oami
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2008540979A priority Critical patent/JP5218766B2/ja
Publication of WO2008050718A1 publication Critical patent/WO2008050718A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video

Definitions

  • Rights information extraction device rights information extraction method and program
  • the present invention relates to a rights information extraction device, rights information extraction method, and program, and in particular, a rights information extraction device and rights information for extracting information about rights such as copyrights and neighboring rights from content such as programs.
  • the present invention relates to an extraction method and a program.
  • Patent Document 1 discloses a rights management system that manages rights such as copyrights attached to content.
  • Patent Document 1 manages content rights such as copyrights collectively with a content management server and cooperates with contract management servers, billing servers, authentication servers, etc. Realize automatic contracts according to user requirements and secure distribution of content!
  • the present situation is that the development of the database of rights information relies on humans, and in order to be able to handle the contents produced in the past with the system described in Patent Document 1, It is necessary to extract information and register it in a database through an intermediary.
  • Patent Document 1 JP 2002-109254 A
  • the first problem is that the identification of rights information related to content such as video is automated. That is not. For this reason, when using past contents, the right information had to be extracted manually in order to identify the right holders of the contents, which took a lot of time and effort.
  • the second problem is that the accuracy is not sufficient when this is extracted by a technique such as telop recognition.
  • telop recognition does not specialize in rights information, so there is a problem that accuracy is low.
  • accuracy is low.
  • the present invention has been invented in view of the above problems, and it is an object of the present invention to provide a right information extraction device and a right information extraction method capable of automatically extracting information about rights from content such as video. .
  • the present invention for solving the above-mentioned problems is characterized by comprising credit information recognition means for reading credit information related to rights from content and outputting the result as credit candidate information.
  • the present invention that solves the above-described problem is a rights information extraction device that extracts rights information related to rights from content, and that reads credit information related to rights from the contents and outputs the result as credit candidate information.
  • the object recognition means for analyzing the content, recognizing the object related to the right in the content, and outputting the result as the object identification information, the credit candidate information, and the object identification information are integrated. And integrating means for outputting as rights information.
  • the present invention that solves the above-described problem is a rights information extraction device that extracts rights information about rights from content, and reads credit information about rights from the contents and outputs the result as credit candidate information.
  • An object recognizing means for referring to the credit candidate information, analyzing the content, recognizing an object related to a right in the content, and outputting the result as object identification information; and the credit candidate And integrating means for integrating the information and the object identification information and outputting the information as right information.
  • the present invention for solving the above problems reads credit information about rights from content. And the result is output as credit candidate information.
  • the present invention for solving the above problems is a rights information extraction method for extracting rights information related to rights from content, the process of reading credit information about rights from content and outputting the result as credit candidate information; Analyzing the content, recognizing the object related to the right in the content, and outputting the result as the object identification information, the credit candidate information and the object identification information are integrated and output as the right information And processing to perform.
  • the present invention for solving the above problems is a rights information extraction method for extracting rights information related to rights from content, the process of reading credit information related to rights from content and outputting the result as credit candidate information; Referencing credit candidate information, analyzing the content, recognizing an object related to rights in the content, and outputting the result as object identification information; and the credit candidate information and the object identification information And a process of integrating and outputting as rights information.
  • the present invention for solving the above-described problems causes an information processing apparatus to execute a process of reading credit information related to rights from content and outputting the result as credit candidate information.
  • the present invention for solving the above-described problems is a process of reading credit information related to rights from content and outputting the result as credit candidate information, analyzing the content, and recognizing an object related to rights in the content.
  • the information processing apparatus is configured to execute a process of outputting the result as object identification information and a process of integrating the credit candidate information and the object identification information and outputting as rights information. It is a program to do.
  • the present invention for solving the above-described problems is a process of reading credit information related to rights from content, outputting the result as credit candidate information, referring to the credit candidate information, analyzing the content, An information processing apparatus that recognizes an object related to the right of the user and outputs the result as object identification information, and integrates the credit candidate information and the object identification information and outputs the information as right information.
  • This program is specially designed to be executed by The invention's effect
  • the present invention reads the credit information related to the right from the content and outputs the result as credit candidate information, the power related to the right related to the content can be accurately and automatically issued. .
  • FIG. 1 is a block diagram of credit recognition means 100.
  • FIG. 2 is a diagram showing a configuration of credit information superimposition section detecting means 400.
  • FIG. 3 is a diagram showing a specific configuration of the theme song detection means 410.
  • FIG. 4 is a diagram showing another specific configuration of the theme song detection means 410.
  • FIG. 5 is a diagram showing another specific configuration of the theme song detection means 410.
  • FIG. 6 is a diagram showing another specific configuration of the theme song detection means 410.
  • FIG. 7 is a view showing another specific configuration of the theme song detection means 410.
  • FIG. 8 is a diagram showing another specific configuration of theme song detection means 410.
  • FIG. 9 is a diagram showing another configuration of credit information superimposition section detecting means 400.
  • FIG. 10 is a diagram showing another configuration of credit information superimposition section detecting means 400.
  • FIG. 11 is a diagram showing another specific configuration of credit information superimposition section detecting means 400.
  • FIG. 12 shows an example of credit information reading means 600.
  • FIG. 13 is a diagram showing another configuration of credit information reading means 600.
  • FIG. 14 is a diagram showing a configuration of theme song background video generation means 620.
  • FIG. 15 is a diagram showing another configuration of credit information reading means 600.
  • FIG. 16 is a diagram showing a configuration of a second exemplary embodiment of the present invention.
  • FIG. 17 is a diagram showing a configuration of a third exemplary embodiment of the present invention.
  • FIG. 18 is a diagram showing a configuration example of the music work recognizing means 101.
  • FIG. 19 is a diagram showing another configuration of the music work recognizing means 101.
  • FIG. 20 is a diagram showing the configuration of the music work collating means 822.
  • FIG. 21 is a diagram showing a configuration of the character recognition means 102.
  • FIG. 22 is a diagram showing another configuration of the character recognition means 102.
  • Fig. 23 is a diagram showing another configuration of the third embodiment of the present invention.
  • Fig. 24 is a diagram showing another configuration of the third embodiment of the present invention.
  • a credit information recognition unit 100 that analyzes content, reads credit information, and outputs information that is a candidate for credit information will be described.
  • FIG. 1 is a block diagram of the credit recognition means 100.
  • the credit information recognizing means 100 extracts a section that is highly likely to contain credit information from the content (hereinafter, this section is referred to as a credit information superimposed section). Next, video and audio included in the credit information superimposition section are analyzed, and telop information and audio are read from the content as credit information. The result is output as credit candidate information.
  • the credit information recognizing means 100 when the credit information is read by the credit information recognizing means 100, not only a section with a high possibility of being overlaid with the credit information but also a low section and a section may be read. Further, the credit information to be read may be such that credit information not related to the content right is also read.
  • the content is composed of video, audio, and the like, for example, a TV program, a radio program, a movie, and the like.
  • Credit information is a telop describing information such as the original author, screenwriter, performer, theme song, cooperating organization, provider, etc., superimposed on the theme song or the last part of the content. Nah, it ’s voice.
  • the content input to the credit information recognition means 100 may be input in a compressed format such as MPEG, or may be input after being already decrypted.
  • compression When input as compressed video, analysis is performed while decoding the video in the credit information recognition means.
  • the program video may be the video for a specific broadcast, or multiple times of the same program (for example, episodes 1 to 10 of the drama) at the same time. It becomes a configuration to input!
  • the credit candidate information includes the recognized character string, its time information, and the position in the image. Information (coordinates within the frame) may be included. In addition, it may include an index representing the certainty of the telop or voice recognition. Further, the credit candidate information may output one information for each recognized character string, or may output a plurality of candidate character strings. If the telop cannot be read, information specifying the spatio-temporal position in the video including the telop may be included in the credit candidate information and output. Furthermore, the video information itself at this spatio-temporal position may be included in the credit candidate information and output.
  • credit information recognition means 100 includes credit information superimposition section detection means 400 and credit information reading means 600.
  • Credit information superimposition section detecting means 400 receives a program video as an input, and its output is connected to credit information reading means 600.
  • the credit information reading means 600 receives the credit information superimposed section video data output from the credit information superimposed section detecting means 400 and outputs credit candidate information.
  • the program video is first input to the credit information superimposition section detecting means 400.
  • the credit information superimposition section detecting means 400 identifies a credit information superimposition section using features such as visual feature quantity, acoustic feature quantity, or telop appearance pattern. Details of this method will be described later. Then, the video data of the specified time section is output as credit information superimposed section video data.
  • the credit information superimposed section video data is input to the credit information reading means 600.
  • telop recognition is performed on an input video or a video obtained by processing it.
  • the recognition result obtained is output as credit candidate information.
  • the credit information recognition means 100 of the present invention simply identifies the location where the credit information is superimposed and identifies the section with priority, so that the video can be simply recorded on the video. It is possible to extract credit information efficiently and accurately compared to the case of applying the group recognition.
  • the credit information superimposition section detecting means 400 described below is a specific example using the fact that credit information is often superimposed on the theme song portion of the sound included in the content.
  • FIG. 2 is a diagram showing a configuration of the credit information superimposition section detecting means 400.
  • the credit information superimposition section detecting means 400 includes a theme song detection means 410 and a video cutout means 420.
  • the theme song detection means 410 receives the program video as input, and the section designation time information as the output is connected to the video cutout means 420.
  • the video cut-out means 420 receives the section specified time information output from the program video and the theme song detection means 410 and outputs credit information superimposed section video data.
  • the program video is first input to the theme song detection means 410.
  • the theme song detection means 410 extracts a section including the theme song from the video. This is because in most cases, such as dramas, credit information is superimposed on the theme song. In other words, the time section of the theme song can be regarded as a credit information superimposition section. Details of the method for extracting the theme song time period from the program video will be described later.
  • the time information for specifying the extracted theme song portion is output as section specified time information.
  • the section designation time information is input to the video cutout means 420 together with the program video.
  • the video cutout means 420 identifies video data specified by the section specifying time information from the program video and outputs it as credit information superimposed section video data.
  • the specified video may be actually cut out from the original program video and output.
  • information for jumping to the beginning and end of the section without actually cutting out may be acquired so that the head can be immediately found in the specified section. In this case as well, the beginning of the specified section can be accessed immediately, so that the subsequent processing can be performed in the same way as when cutting out actually.
  • the credit information superimposition section detecting means shown in FIG. 2 can obtain the credit information superimposition section with high accuracy by detecting the theme song.
  • the theme song detection means 410 includes an acoustic feature quantity extraction means 430, an acoustic feature quantity verification means 431, and a theme song acoustic feature quantity database 432.
  • the acoustic feature quantity extraction means 430 receives a program video as an input, and the acoustic feature quantity as an output thereof is input to the acoustic feature quantity verification unit 431.
  • the acoustic feature quantity matching means 431 receives the acoustic feature quantity output from the acoustic feature quantity extraction means 430 and the acoustic feature quantity from the theme song acoustic feature quantity database 432, and outputs section specified time information.
  • the program video is first input to the acoustic feature quantity extraction means 430.
  • the acoustic feature quantity extraction means 430 analyzes the acoustic signal of the program video and extracts the acoustic feature quantity.
  • the extracted acoustic feature quantity is output to the acoustic feature quantity matching means 431.
  • the acoustic feature quantity collating means 431 collates the acoustic feature quantity of the program video input from the acoustic feature quantity extracting means 430 with the theme song acoustic feature quantity in the theme song acoustic feature quantity database.
  • time information (such as the start point, end point, and time length of the section) that specifies the time section corresponding to the collated portion in the program acoustic feature amount is output as the section designation time information.
  • the theme song acoustic feature quantity is an acoustic feature quantity extracted in advance from the theme song. This is registered in advance and used for theme song detection. At this time, if the theme song is known in advance, the acoustic feature quantity can be extracted from the sound source (such as CD) of the theme song and used. Or, in the case of a series of dramas, etc., the section of the theme song is specified in one video, and this part can be used to detect the theme song in the other drama video using the acoustic features of this part. it can.
  • the theme song detection means 410 described above is registered in the theme song acoustic feature database. Since the matching is performed using the feature amount, the portion of the theme song can be surely extracted.
  • FIG. 4 another specific configuration example of the theme song detection unit 410 is shown, which includes an acoustic feature amount extraction unit 440 and an acoustic feature amount comparison unit 441.
  • the acoustic feature quantity extraction unit 440 receives the program video as an input, and the acoustic feature quantity as an output thereof is input to the acoustic feature quantity verification unit 441.
  • the acoustic feature quantity matching means 441 receives the acoustic feature quantity output from the acoustic feature quantity extraction means 440 and outputs section designation time information.
  • the program video is first input to the acoustic feature quantity extraction means 440.
  • a plurality of program videos are input together as a program video rather than a single program video.
  • drama videos for several episodes are input together.
  • the acoustic feature quantity extraction means 440 extracts the acoustic feature quantity for each of the multiple drama videos.
  • the extracted acoustic feature quantity at each time is output to the acoustic feature quantity matching unit 441.
  • the acoustic feature amount matching unit 441 performs matching between acoustic feature amounts of a plurality of input programs. In this case, collation is performed between sections of arbitrary length extracted from the program that is not performed for the entire program each time. As a result, a section in which the acoustic feature amounts coincide with each other is obtained. Of the sections obtained in this way, those longer than a certain section length are likely to be equivalent to the theme song. Therefore, the time information for designating a section longer than the fixed section length obtained above is output as section designation time information. Or you may determine using the positional information on a section further. In other words, the section of the theme song may be specified using the fact that the theme song often flows at the beginning or end of the program. This information is output for each program.
  • the theme song detection means 410 shown in FIG. 4 does not know what power the theme song is, and uses it to find a place having the same acoustic pattern by using a plurality of images. Can be identified. That is, a database storing theme song feature quantities is not required.
  • the theme song part is specified in the first few times and the feature quantity of the theme song is extracted, In the subsequent rounds, the theme song part can be specified in the same way as in Fig. 3 using the extracted feature quantity of the theme song. This makes it possible to reliably identify the theme song part with a smaller amount of computation than in the case where a common part is found across multiple videos.
  • the theme song detection unit 410 includes a continuous sound segment extraction unit 450 and a theme song segment determination unit 451.
  • the continuous sound segment extraction means 450 receives the program video as input, and the continuous sound time information as the output is input to the theme song segment determination means 451.
  • the theme song section determination means 451 receives the continuous sound time information output from the continuous sound section extraction means 450 and outputs section specified time information.
  • the program video is first input to continuous sound segment extraction means 450.
  • the continuity (sustainability) of the sound is analyzed from the sound signals in the video.
  • the time information is output to the theme song section determination means 451 as continuous sound time information.
  • continuous sound analysis may be performed by finding a silent section from the power of an audio signal of a program video and setting a section between the silent sections as a continuous acoustic section.
  • the acoustic feature quantity is analyzed to determine the musicalness of the acoustic signal, and only when this is high, it may be output as a continuous acoustic interval.
  • an acoustic discriminator such as a support vector machine learned based on acoustic data can be used.
  • the theme song segment determination means 451 selects a time segment corresponding to the input continuous acoustic time information power theme song and outputs it as segment designation time information.
  • the theme song section is determined using conditions such as the sound of the theme song lasting for a long time and the theme song existing near the beginning or end of the program.
  • the theme song detection means 410 of this description there are many theme songs and BGM portions where the sound continues continuously. Especially, the theme song portion has a long acoustic signal (several tens of minutes). The theme song part is specified using the second to several minutes). This will actually make detailed acoustics The theme song can be easily identified without analysis.
  • FIG. 6 an example of another specific configuration of the theme song detection unit 410 is shown, which includes a visual feature amount extraction unit 442 and a visual feature amount comparison unit 443.
  • the visual feature quantity extraction means 442 receives a program video as an input, and the program visual feature quantity as an output thereof is input to the visual feature quantity verification means 443.
  • the visual feature amount matching unit 443 receives the visual feature amount output from the visual feature amount extraction unit 442 as input, and outputs section designation time information.
  • the program video is first input to the visual feature quantity extraction means 442.
  • the program video is input a plurality of times as shown in FIG.
  • the visual feature quantity extraction means 442 extracts a visual feature quantity for each of the plurality of program videos.
  • the extracted visual feature quantity at each time is output to the visual feature quantity matching means 443.
  • the visual feature amount matching means 443 performs matching between visual feature amounts of a plurality of input programs. In this case, collation is performed between sections of arbitrary length extracted from the program that is not performed for the entire program each time. Thereby, the section where visual feature-values correspond in each time is obtained. Of the sections obtained in this way, those longer than a certain section length are likely to be equivalent to the theme song. Therefore, the time information for designating a section that is equal to or greater than the predetermined section obtained above is output as the section designation time information. This information is output for each program.
  • the theme song detection means 410 shown in FIG. 6 also has the same visual pattern using multiple images even if the power of the theme song is not known.
  • the theme song part can be specified by finding it.
  • the visual feature amount may be calculated from the entire screen or may be extracted from only a part of the screen. In the latter case, it is possible to cope with the case where the main video is superimposed on a part of the theme song background.
  • the matching result based on the visual feature quantity in FIG. 6 and the matching result based on the acoustic feature quantity in FIG. This makes it possible to detect the theme song section with higher accuracy. I will become.
  • the appearance order of the background video may change every time, but by combining the acoustic features, the theme song section can be reliably identified even in such a case.
  • the acoustic feature amount extraction unit 440, the acoustic feature amount comparison unit 445, and the acoustic feature amount extraction unit 43 are shown. 0, an acoustic feature quantity matching means 431, and a theme song acoustic feature quantity database 435.
  • the acoustic feature quantity extraction means 440 receives a program video as an input, and the program acoustic feature quantity that is the output is connected to the acoustic feature quantity verification means 445.
  • the acoustic feature quantity matching means 445 receives the program acoustic feature quantity output from the acoustic feature quantity extraction means 440, outputs the theme song acoustic feature quantity to the theme song acoustic feature quantity database 435, and also specifies section specified time information. Output.
  • the theme song acoustic feature quantity database 435 receives the theme song acoustic feature quantity output from the acoustic feature quantity collating means 445 as an input, and outputs it to the acoustic feature quantity collating means 431.
  • the acoustic feature quantity extraction unit 430 receives the program information as an input and outputs the output acoustic feature quantity to the acoustic feature quantity verification unit 431.
  • the acoustic feature quantity matching means 431 receives the theme song acoustic feature quantity output from the theme song acoustic feature quantity database 435 and the acoustic feature quantity output from the acoustic feature quantity extraction means 430 as inputs, and outputs a matching result.
  • the program video is a video composed of a plurality of times.
  • the operation of the acoustic feature quantity extraction means 440 is the same as in the case of FIG.
  • the operation of the acoustic feature quantity matching unit 445 is the same as the operation of the acoustic feature quantity matching unit 441 in FIG. 4, but further outputs the detected theme song acoustic feature quantity to the theme song acoustic feature quantity database 435.
  • the theme song acoustic feature quantity database 435 stores the theme song acoustic feature quantity output from the acoustic feature quantity matching means 445 and outputs it to the acoustic feature quantity matching means 431.
  • the acoustic feature quantity extraction means 430 To the acoustic feature quantity extraction means 430, the remaining multiple times of the program video are input.
  • the operations of the acoustic feature quantity extraction means 430 and the acoustic feature quantity verification means 431 are the same as in the case of FIG.
  • the continuous song section extraction means 450, the theme song candidate section determination means 452, the sound feature quantity extraction means 433, the sound It comprises a feature quantity matching means 431 and a theme song acoustic feature quantity database 432.
  • the continuous sound section extraction means 450 receives the program video as an input, and outputs the continuous sound time information as the output to the theme song candidate section determination means 452.
  • the theme song candidate section determination means 452 receives the continuous sound time information output from the continuous sound section extraction means 450 and outputs the theme song candidate section time information as the output to the acoustic feature quantity extraction means 433.
  • the acoustic feature quantity extraction means 433 receives the program video and the theme song candidate section time information output from the theme song candidate section determination means 452 as input, and outputs the output acoustic feature quantity to the acoustic feature quantity verification means 4 31. .
  • the acoustic feature quantity matching means 431 receives the acoustic feature quantity output from the acoustic feature quantity extraction means 433 and the theme song acoustic feature quantity output from the theme song acoustic feature quantity database 432, and outputs section designation time information.
  • the program video is input to continuous sound segment extraction means 450.
  • the operation of the continuous sound segment extraction means 450 is the same as that in FIG. 5, and the obtained continuous sound time information is output to the theme song candidate section determination means 452.
  • the operation of the theme song candidate section determination means 452 is also basically the same force S as the theme song section determination means 451 of FIG. 5, here, a candidate that does not need to completely specify the theme song section. Because it is only necessary to extract a certain section, it is less than in the case of Fig. 5!
  • the obtained theme song candidate section time information is output to the acoustic feature quantity extraction means 433.
  • the program image is also input to the acoustic feature quantity extraction means 433, and the acoustic feature quantity is extracted. However, here, the acoustic features are extracted only for the section specified by the theme song candidate section time information.
  • the extracted acoustic feature amount is output to the acoustic feature amount matching unit 431.
  • the theme song detection means 410 shown in FIG. 8 extracts and collates acoustic feature quantities only for the theme song candidate section, the amount of processing is reduced compared to the case where feature quantities are extracted for the entire program. it can. Such narrowing down can also be applied to the theme song detection means 4 10 shown in FIG. 4, FIG. 6, FIG. 7, etc., and the amount of processing can be reduced.
  • the credit information superimposition section detecting means 400 described below is a specific example using the characteristic that the telop on which the credit information is superimposed appears continuously in the content.
  • an example of an embodiment of the credit information superimposition section detecting means 400 is shown, which comprises a continuous telop detecting means 470 and a video cutout means 420.
  • the continuous telop detection means 470 receives the program video as input, and the section designation time information as its output is connected to the video cutout means 420.
  • the video segmentation means 420 receives the program video and the section designation time information output from the continuous telop detection means 470, and outputs credit information superimposed section video data.
  • the program video is input to the continuous telop detection means 470.
  • the continuous telop detection means 470 sections where telops appear continuously are extracted. This is based on the characteristic that telops appear continuously in sections where credit information is superimposed as telops in drama and variety programs. Then, this time section is output as section designation time information.
  • the start time and end time are analyzed, and a time interval in which multiple telops appear one after another with almost no gap is obtained.
  • the telop occupied area in one screen may be obtained, and the section designation time information may be obtained as a section where the occupied area of a certain area or more is intermittently continued.
  • the section designation time information is input to the video segmentation unit 420 together with the program video.
  • the operation of the video cutout means 420 is the same as in the case of FIG.
  • the credit information superimposition section detecting means shown in FIG. 9 obtains the credit information superimposition section using only the pattern information of the telop appearance without performing complicated processing such as analysis for acoustic features. Make it possible. This is especially effective for programs that display credit information in a stationary telop.
  • FIG. 10 another example of the credit information superimposing section detecting means 400 is shown, which comprises a roll telop detecting means 480 and a video clipping means 420.
  • the roll telop detection means 480 receives a program video as input, and the section designation time information that is the output is connected to the video cutout means 420.
  • Video segmentation means 420 receives the program video and the section designation time information output from roll telop detection means 480, and outputs credit information superimposed section video data.
  • the program video is first input to the roll telop detection means 480.
  • the roll telop detection means 480 detects a roll telop that scrolls in the horizontal direction or the vertical direction, and outputs a section where the roll telop exists as section designation time information. This is based on the fact that credit information is often displayed while scrolling horizontally or vertically in a drama or variety program.
  • This type of credit is often referred to as an end roll because it is usually the end of a program. For this reason, when detecting a roll telop, time information may also be used in combination, and roll telop detection may be performed on a portion near the end of the video. This greatly reduces the amount of processing compared to the case where roll telop detection is performed for the entire center of the program video. it can.
  • the obtained section designation time information is input to the video cutout means 420 together with the program video.
  • the operation of the video cutout means 420 is the same as in the case of FIG.
  • the credit information superimposition section detecting means shown in FIG. 10 can detect a credit superimposition section without detecting an acoustic signal by detecting a roll telop. This is especially effective when the credit information scrolls vertically or horizontally at the end of the content, such as a movie or drama.
  • the credit overlap section can be obtained by detecting the roll telop.
  • FIG. 11 there is shown another specific configuration of the credit information superimposition section detection means 400, which includes a theme song detection means 410, a roll telop detection means 480, a continuous telop detection means 470, a selection means 481, and a video cutout. Means 420.
  • the theme song detection means 410, the roll terror detection means 480, and the continuous telop detection means 470 all receive the program video and output the interval designation time information to the selection means 481.
  • the selection means 481 includes the section designation time information output from the theme song detection means 410, the section designation time information output from the roll telop detection means 480, and the section designation time information output from the continuous telop detection means 470. Is input, and the section designation time information is output to the video cutout means 420.
  • the video cutout means 420 receives the program video and the section designation time information output from the selection means 481 and outputs credit information superimposed section video data.
  • the program video is input to the theme song detection means 410, the roll telop detection means 480, and the continuous telop detection means 470.
  • the operation of the subsequent telop detection means 470 is the same as that described above.
  • the section specified time information output from these is input to the selection means 481.
  • the selection means 481 selects and outputs a probable piece of input section designation time information. If only one of the inputs is entered, the section specified time information is output.
  • section designation time information when a plurality of section designation time information overlaps (for example, when a roll telop appears in the theme song), overlapping section designation time information is output.
  • each detection means can only detect a part, so the section specified time information may be obtained by taking the entire OR.
  • the obtained section designation time information is output to the video cutout means 420.
  • the credit information superimposition section detecting means shown in Fig. 11 has an advantage that it can appropriately respond to various credit appearance patterns.
  • the use of multiple sources can improve the accuracy of credit overlap detection.
  • FIG. 12 is a diagram showing an example of the credit information reading unit 600, and the credit information reading unit 600 includes a telop reading unit 610.
  • the telop reading means 610 receives credit information superimposed section video data as input, and outputs credit candidate information.
  • the credit information superimposed section video data is input to the telop reading means 610.
  • the telop reading means 610 performs telop recognition on the input video and outputs the recognition result as credit candidate information.
  • the identification rate can be improved. For example, it is possible to use a dictionary that focuses on important words frequently used in credit information, such as “screenplay” and “theme song”. Alternatively, by registering such a specific word in advance and semi-IJing whether or not the word has appeared, it will be possible to move the word more accurately.
  • these specific words are learned for multiple fonts, and when a character string appears, The target may be estimated, and a customized telop recognition dictionary for each font may be selected to read other turret information.
  • the names of people who may appear in credits are registered in the database for each person's attributes (for example, information such as screenwriters, actors, etc.). By identifying and identifying names from the database, the identification accuracy of names can be dramatically improved. Furthermore, by using this personal name database, it is possible to narrow down candidates efficiently even when a part of the personal name cannot be read.
  • telop recognition parameters such parameters used for telop recognition are referred to as telop recognition parameters.
  • Such credit information reading means 600 is configured using only the telop reading means, it can be easily configured.
  • the credit information superimposing section video data on which the telop is superimposed is input to the credit information reading means 600, extra processing is performed as compared with the case where the telop is read for the entire program. The processing can be reduced.
  • the telop can be read by analyzing the portion where the telop is superimposed more efficiently and in detail than when the entire program is read. For this reason, the reading algorithm can be specialized for telop reading, and the reading accuracy of credit information can be improved.
  • FIG. 13 an example of an embodiment of credit information reading means 600 is shown. From the theme song background video generation means 620, the theme song background difference video generation means 630, and the telop reading means 640. Become.
  • the theme song background video generation means 620 receives credit information superimposed section video data as input, The theme song background video is output to the theme song background difference video generation means 630.
  • the theme song background difference video generation means 630 receives the credit information superimposed section video data and the theme song background video output from the theme song background video generation means 620 as input, and reads the theme song background difference video as terror reading means 640. Output to.
  • the telop reading means 640 receives the theme song background difference video output from the theme song background difference video generation means 630 and outputs credit candidate information.
  • the credit information superimposed section video data is input to the theme song background video generation means 620.
  • the credit information superimposed section video data includes a plurality of videos.
  • the theme song background video generation means 620 associates frames having the same background (portion other than credit information) among a plurality of videos. Image processing is performed between the associated frames to create a background video of the theme song and output it to the theme song background difference video generation means 630. Details of the image processing will be described later.
  • the theme song background difference image generation means 630 obtains the difference between the input theme song background image and the credit information superimposed section image data, and generates the theme song background difference image based on this value. Specifically, the original image is used as it is for pixels with a large difference, and the pixel value is set to 0 for other pixels. This makes it possible to generate a theme song background difference video in which only the credit portion remains.
  • the theme song background difference video is output to the telop reading means 640.
  • the telop reading means 640 performs telop recognition on the input video and outputs the recognition result as credit candidate information.
  • an example of an embodiment of the theme song background video generation means 620 is shown, which comprises a visual feature quantity extraction means 720, a corresponding frame calculation means 710, and a background video generation means 700.
  • the visual feature amount extraction means 720 generates credit information superimposed section video data.
  • the theme song background visual feature is output to the corresponding frame calculation means 710.
  • Corresponding frame calculation means 710 receives the theme song background visual feature quantity output from visual feature quantity extraction means 720 as input, and outputs frame correspondence information to background video generation means 700.
  • the background image generation means 700 receives the credit information superimposed section video data and the frame correspondence information output from the corresponding frame calculation means 710, and outputs the theme song background video.
  • the credit information superimposed section video data is input to the visual feature quantity extraction means 720.
  • the credit information superimposed section video data is credit information superimposed section video for a plurality of times of video. For example, in the case of a series of dramas, video corresponding to dramas for several episodes shall be input together.
  • the visual feature quantity extraction means 720 extracts a visual feature quantity from each video.
  • the extracted visual feature quantity is output to the corresponding frame calculation means 710 as the theme song background visual feature quantity.
  • Corresponding frame calculation means 710 performs collation between the inputted visual feature quantities.
  • the background video generation means 700 generates a theme song background video from each input credit information superimposed section video data and the frame correspondence information output from the corresponding frame calculation means 710. It is generated by performing statistical processing on the pixel value at the corresponding position of each frame associated from the frame correspondence information.
  • Fn, m (i, j) be the pixel value at position (I) of the mth frame of the nth video.
  • N be the number of input programs
  • the m_nth frame of the nth video is a corresponding frame.
  • the pixel value at the position (U) of the mth frame of the background video to be generated is represented by Bm (iJ).
  • the pixel value weight of the video without the telop is increased, and the effect of the telop on the background video can be reduced.
  • An index representing the telop-likeness is represented by Rn, m_n (i, j).
  • Rn, m_n (i, j) has a non-negative value, and the larger the value, the higher the possibility of inclusion in the telop.
  • the pixel value Bm (iJ) of the background video is calculated by the following formula.
  • g (X) is a monotonically decreasing function for X that returns a non-negative value.
  • Rn, m_n (i, j) for example, the number of edges near the position (U) and the magnitude of the gradient can be used.
  • you can use a classifier such as a neural network that has learned telop-like patterns to semi-IJ the telop character.
  • First telop reading means 610 receives credit information superimposed section image data as input, and outputs first credit candidate information to telop reading result integrating means 650.
  • the theme song background video generation means 620 receives the credit information superimposed section video data as input, and outputs the theme song background video to the theme song background difference video generation means 630.
  • the theme song background difference video generation means 630 receives the theme song background difference video from the credit information superimposed section video data and the theme song background video generation means 620 as an input, and reads the second telop of the theme song background difference video. Output to means 640.
  • the second telop reading means 640 receives the theme song background difference video output from the theme song background difference video generation means 630, and outputs the second credit candidate information to the telop reading result integration means 650.
  • the reading result integration means 650 is output from the first telop reading means 610.
  • the first credit candidate information and the second credit candidate information output from the second telop reading means 640 are input, and the credit candidate information is output.
  • the operation of the credit information reading means 600 in Fig. 15 will be described.
  • the operation of the first terror reading means 610 is the same as that of the telop reading means 610 of FIG. 12, and the first credit candidate information is output to the telop reading result integrating means 650.
  • the operations of the theme song background video generation means 620 and the theme song background difference video generation means 630 are the same as those in FIG.
  • the operation of the second telop reading means 640 is the same as that of the telop reading means 640 of FIG. 13, and the second credit candidate information is output to the telop reading result integrating means 650.
  • the telop reading result integration unit 650 integrates the first credit candidate information and the second credit candidate information, and generates and outputs credit candidate information.
  • integration methods for example, a method that outputs candidate information by combining the candidate information of both, a method of outputting the one with higher reliability of telop recognition as candidate information, There is a method to output all candidate information with higher reliability than a certain standard. In addition to this, any method may be used as long as both methods are integrated to generate output.
  • the credit information reading means 600 in Fig. 15 only needs to read correctly either normal image data or image data corresponding to the theme song background difference, so when used alone as shown in Fig. 12 or Fig. 13. Compared with, recognition accuracy can be improved.
  • the credit information reading means 600 of this description selects and merges the one having the higher reliability of the reading result by the first reading means and the reading result by the second reading means. Therefore, the reading accuracy can be improved as compared with the case of using only one of them. For example, if the same credit information is superimposed at the same position in the background theme song every time, it is more accurate to read the telop directly because the credit character string cannot be extracted from the background difference. On the other hand, if the telop overlay position and contents are different each time, even if the background is complex and normal telop reading is not possible, the credit information can be read by reading the background difference. In this way, the accuracy of credit reading can be improved by merging both. ⁇ Second Embodiment>
  • FIG. 16 an example of the second embodiment of the present invention is shown, and includes credit information recognition means 100, object recognition means 105, and integration means 103.
  • Credit information recognition means 100 receives a program video as an input, and its output is connected to integration means 103.
  • the object recognition means 105 receives a program video as an input, and the output is an integration means 1
  • the integration means 103 receives the output of the credit information recognition means 100 and the output of the object recognition means 105 as inputs, and outputs right information.
  • the program video is input to the credit information recognition unit 100 and the object recognition unit 101.
  • the operation of the credit information recognition unit 100 is the same as that of the first embodiment or example described above, and the credit candidate information is output to the integration unit 103.
  • the target object recognition means 105 is a means for recognizing a target object related to the right in the content, and the target object is a music work or a character in the content.
  • the target object is a music work
  • an acoustic feature amount is extracted from the program video and collated with an acoustic feature amount already registered in the database.
  • collation is also permitted by permitting collation of only a part of the music work.
  • music identification information for example, an ID given to the music
  • the music identification information may include information for identifying the collation section.
  • the music identification information may include information for identifying the video section that includes the acoustic feature quantity. Also good. Furthermore, the sound signal of this section may be output together. The music identification information obtained in this way is integrated. Output to means 103.
  • the target object is a character
  • the person feature amount of the character appearing in the video is extracted and collated.
  • the person feature is extracted from the video information and collated with the person feature already registered in the database.
  • person identification information for identifying the person for example, an ID given to the person
  • it may also include an index representing the accuracy and accuracy of person identification.
  • only one person identification information may be output for each character, or a plurality of candidates may be output.
  • the extracted human feature quantity does not match with the person feature quantity that has been collated, or in the case of deviation!
  • the information that specifies the video section including the human feature quantity or the spatio-temporal position in the video May be included in the human identification information and output. Furthermore, the video information itself at this spatio-temporal position may be output together.
  • the person identification information obtained in this way is output to the integration means 103.
  • the human feature quantity may be a feature quantity describing a face or a human voice feature quantity.
  • the feature amount may be a combination of these, or may be another feature amount that can be used for identifying a person.
  • the integration unit 103 integrates the credit candidate information output from the credit information recognition unit 100 and the object identification information output from the object recognition unit 105 and outputs it as right information.
  • the credit candidate information output from the credit information recognition means 100 and the object identification information output from the object recognition means 105 are collated, and are output as a gnole.
  • priorities may be assigned according to the reliability. It is also possible to select the one with the highest reliability, or select one with a certain level of reliability.
  • a theme song / theme song is selected from the lengths of continuous sounds from among the identified songs.
  • the title and attribute information of the selected song There is a method in which the information (lyricist, composer, singer, or performer name) is compared with the music information in the credit candidate information, and if the degree of coincidence is more than a certain level, it is regarded as the same music. Also, consider the appearance time in the program and determine whether it is a theme song (ie, determine whether it appears near the beginning of the program or near the end of the program). There is also a method of judging.
  • the object is a person
  • the name obtained simply as a result of person identification is matched with the name of the performer obtained from the credit candidate information.
  • the similarity may be determined in consideration of the versatility of the matched characters. For example, since “Takuya” is easier to identify a person with the same two characters than “Kimura”, the latter may be determined to have higher similarity. For this determination, a method such as the TF'IDF method can be used.
  • the person identification information that is determined to be the same person is grouped to calculate or estimate the appearance frequency or appearance time, determine whether it is the leading role, and the order of appearance in the credit candidate information Or appearance pattern (multiple supporting roles are displayed together, whereas the leading role is displayed alone, or in the case of a roll telop, the leading role is displayed with an interval before and after) Also consider the method of judging whether or not they are the same person.
  • the credit information recognition means and the object recognition means are moved independently, and these results are integrated, thereby making it more accurate than in the case of credit candidate information alone. You can know information about rights.
  • the third embodiment is a combination of the first embodiment and the second embodiment described above, and the object recognition means 105 further includes a credit information recognition means from the credit information recognition means. Feature candidate information is used.
  • examples of the music work recognition means 101 and the character recognition means 102 are shown as examples of the object recognition means.
  • the third embodiment of the present invention includes credit information recognition means 100, music work recognition means 101, character recognition means 102, and integration means 103.
  • the credit information recognition means 100 receives a program video as an input, and its output is connected to a music work recognition means 101, a character recognition means 102, and an integration means 103.
  • the music work recognition means 101 receives the program video and the output of the credit information recognition means 100 as inputs, and the output is connected to the integration means 103.
  • the character recognition means 102 receives the program video and the output of the credit information recognition means 100 as inputs, and the output is connected to the integration means 103.
  • the output of the credit information recognition means 100, the music work recognition means 101, and the character recognition means 102 is connected to the integration means 103, and rights information is output.
  • the program video is input to the credit information recognition means 100, the music work recognition means 101, and the appearance person recognition means 102. Of these three means, the program video is first analyzed by the credit information recognition means 100.
  • the credit information recognition means 100 analyzes the input program video, reads the credit information superimposed in the video, and outputs information that is a candidate for credit information.
  • the credit information is a telop or information that describes information such as the original author, screenwriter, performer, or theme song superimposed on the theme song or the last part of the program. It is voice.
  • Program video may be input in a compressed format such as MPEG, or it may be input after being decoded. When input as compressed video, analysis is performed while decoding the video in the credit information recognition means.
  • the program video may be a video for a specific one-time broadcast, or it may be configured to input multiple times of video of the same program at the same time! /.
  • the credit information recognizing means 100 extracts an information superposition section in which credit information is superposed from the program video. Next, the video included in the credit information superimposition section is analyzed, and the telop information is read from the video. The result is output as credit candidate information.
  • Credit candidate information includes the recognized character string, its time information, and position information in the image. Information (coordinates within the frame) may be included. It may also contain an indicator that shows the accuracy of telop recognition.
  • the credit candidate information may be output as one piece of information for each recognized character string, or may be output as a plurality of candidate character strings.
  • the credit candidate information obtained in this way is output to the integration means 103 and also output to the music work recognition means 101 and the character recognition means 102.
  • the credit information recognition unit 100 can use any of the specific configurations described above.
  • the music work recognizing means 101 analyzes the input program video and the credit candidate information, and extracts and collates the music information used in the video. In other words, first, the acoustic features are extracted from the program video, and then checked against the acoustic features already registered in the database. At this time, the collation is performed by permitting the collation of only a part of the entire music work. In addition, information related to music is extracted from the credit candidate information and used to control the database used for verification or to adjust parameters during verification. As a result of the collation, if it is determined that the music is the same as the music in the database, music identification information (for example, an ID given to the music) for specifying the music is output.
  • music identification information for example, an ID given to the music
  • the music identification information may include information for specifying the collation section. Further, it may include an index that represents the accuracy and accuracy of music identification. Further, only one piece of music identification information may be output for each music piece, or a plurality of candidates may be output. The music identification information obtained in this way is output to the integration means 103.
  • the character recognition means 102 analyzes the input program video and the credit information, and extracts and collates character features of the characters appearing in the video. That is, first, a person feature is extracted from the video information, and is then compared with the person feature already registered in the database. At this time, the credit candidate information is also extracted from information related to the characters and used to control the database used for matching or to adjust parameters during matching. And The collation result is output as person identification information. As a result of the collation, if it is determined that the person is the same as the person in the database, person identification information for identifying the person (for example, an ID given to the person) is output. It may also include an indicator that indicates the likelihood of person identification. Further, only one person identification information may be output for each character, or a plurality of candidates may be output. The person identification information obtained in this way is output to the integration means 103.
  • the person feature quantity may be a feature quantity describing a face! /, Or a human voice feature quantity. Alternatively, it may be a feature amount that is a combination of these, or may be another feature amount that can be used to identify a human being.
  • the integration means 103 integrates the credit candidate information output from the credit information recognition means 100, the music identification information output from the music work recognition means 101, and the character identification information output from the character recognition means 102. And output as rights information.
  • the method described in the integration means 103 in the second embodiment described above may be used, and based on the relationship between the recognized character string and its position, the original, screenwriter, or performer. For example, it may be associated with each type of right object and output as right information.
  • the recognized music title and music identification information are output for each music piece.
  • the right information accompanying the music may be obtained from the music identification information and output.
  • the person identification information may be output as it is, or the person name may be output together with it. Note that these rights information may not be finally narrowed down to one, but all candidates may be output, and finally, humans may confirm. This facilitates correction if the recognized rights information is incorrect.
  • the music candidate extraction means 800 is credit candidate information.
  • the music information is input to the candidate acoustic feature quantity selection means 801.
  • Candidate acoustic feature quantity selection means 801 selects music acoustic feature quantities from the music acoustic feature quantity database 803 based on the music candidate information output from the music candidate extraction means 800 and collates the candidate acoustic feature quantities with the music work collation.
  • Means 802 to output.
  • the music work collation means 802 receives the program image and the candidate acoustic feature quantity output from the candidate acoustic feature quantity selection means 801, and outputs music identification information.
  • the credit candidate information is input to the music candidate information extraction means 800.
  • the music candidate information extraction means 800 extracts candidate information related to music used in the program, such as a theme song or a song, from the credit candidate information. For example, keywords related to music such as ⁇ theme song '', ⁇ introductory song '', ⁇ theme song '' are registered, and if these keywords are detected, they may be displayed side by side! /, Extracts the recognition result of the displayed character string as music candidate information.
  • the information obtained here includes the title of the song, the name of the singer and the performer, the name of the songwriter and the composer. Then, the obtained music candidate information is output to candidate acoustic feature quantity selection means 801.
  • Candidate acoustic feature quantity selection means 801 selects a music feature quantity that matches or is similar to the obtained music candidate information from the music acoustic feature quantity database 803 or is associated with a similar title or person name. . Then, the selected acoustic feature quantity data is output to the music work collating means 802 as a candidate acoustic feature quantity.
  • the music work collation means 802 first extracts an acoustic feature quantity from the program video. This acoustic feature quantity is compared with the candidate acoustic feature quantity output from the candidate acoustic feature quantity selection means 801, and when the acoustic feature quantities are collated, the music identification information is output. At this time, collation is also permitted by permitting collation of only a part of the entire music work.
  • the music copyright recognizing means 101 shown in Fig. 18 does not completely read the credit information, but collates the actually used music with the feature amounts to thereby verify the music related work. The accuracy of right information extraction can be improved.
  • the music related production information extraction means 820 receives the credit candidate information as input, and outputs the music related production information to the music work collation parameter selection means 821.
  • the music work collation parameter selection means 821 receives the music related production information output from the music related production information extraction means 820, selects the music copyright collation parameter from the music work collation parameter database 823, Output to music work collation means 822.
  • the music work collation means 822 receives the program information, the music work collation parameter output from the music work collation parameter selection means 821, and the music acoustic feature quantity stored in the music acoustic feature quantity database 803, Output identification information.
  • the credit candidate information is input to the music-related production information extraction means 820.
  • Music-related production information extraction means 820 extracts music-related production information from credit candidate information.
  • music-related production information is music-related information in program production, such as the person in charge of music, the record company that cooperated in music, and the person in charge of music selection.
  • key words such as “music” and “music selection” are registered, and when these keywords are detected, they are displayed side by side.
  • the recognition result of the displayed character string is extracted as music-related production information. Then, the extraction result is output to the music work collation parameter selection means 821 as music production related information.
  • the music work collation parameter selection means 821 selects a parameter to be used for collation of music works stored in the music work collation parameter database 823 in accordance with the input music-related production information.
  • the music work collation parameter is controlled based on the selected information. For example, if the character string extracted as music-related production information is the name of a record company, the music work collation parameter is adjusted so that the music held by the record company is preferentially selected.
  • music acoustic features are stored in the music acoustic feature database 803, grouped by record company or divided into databases, the group or database is stored. The information for designating the source is selected as a music work collation parameter.
  • the music copyright verification parameter should be adjusted according to the person's past music usage history. It may be.
  • the music work collation parameter thus selected is input to the music work collation means 822.
  • the operation of the music work collating means 822 is basically the same as the operation of the music work collating means 802 of FIG. The difference is that the music work collation parameter selection means 821 inputs music work collation parameters, and the collation parameters can be adjusted accordingly. The result of collation is output as music identification information.
  • an example of an embodiment of the music work collating unit 822 is shown, which includes an audio superimposition determining unit 950 and an acoustic feature amount collating unit 951.
  • the voice superimposition determination means 950 receives the program video as an input, and outputs the voice superimposition section time information to the acoustic feature quantity matching means 951.
  • the acoustic feature quantity matching unit 951 receives the program video and the voice superimposition section time information output from the voice superimposition determination unit 950 and the music copyright work collation parameter, and outputs voice identification information.
  • the program video is input to the audio superimposition determination means 950.
  • the sound superimposition determination means 950 analyzes the acoustic signal and determines whether or not the sound is superimposed. For example, the frequency analysis of an acoustic signal is performed, and if it has a characteristic close to a human voice, it is determined that the voice is superimposed. In addition to this, any method can be used as long as it can determine whether audio is superimposed. If it is determined that the voice is superimposed, the time information of the section in which the voice is superimposed (section start point, end point, section time length, etc.) is used as the sound superimposition section time information. Output to.
  • the acoustic feature quantity matching means 951 extracts the acoustic feature quantity from the input video program, Match with the complementary acoustic feature.
  • the collation method is adjusted using the voice superimposition section time information output from the voice superimposition determination means 950. For example, a method may be considered in which collation is performed by omitting a section in which speech is superimposed, and in a section in which speech is superimposed, collation is performed by lowering the weight of the voice frequency band.
  • a music work collation parameter is also input, and the collation method may be adjusted using this. The result of collation is output as music identification information.
  • the music work collating means 822 in Fig. 20 can improve the recognition accuracy by suppressing the influence even when the voice information is powerful on BGM.
  • Performer candidate information extraction means 900 receives credit candidate information as input, and outputs the performer candidate information to the candidate person feature quantity selection unit 901.
  • Candidate person feature quantity selection means 901 receives the performer candidate information output from performer candidate information extraction means 900, selects candidate person feature quantities from person feature quantity database 903, and outputs them to performer collation means 902. .
  • the performer collating means 902 receives the program image and the candidate person feature quantity output from the candidate person feature quantity selecting means 901, and outputs person identification information.
  • Credit candidate information is input to performer candidate information extraction means 900.
  • Performer candidate information extraction means 900 extracts a portion corresponding to the performer from the credit candidate information and outputs it as performer candidate information. Specifically, the person name displayed along with the presumed name of the cast! /, The name of the person to be extracted, “appearance” and “re”, the word that is displayed at the same time or subsequent to the word! /, There are methods such as extracting names, determining names of people who are not clearly appearing in the program, such as screenwriters and producers, etc. Conceivable. The extracted performer candidate information is output to candidate person feature amount selection means 901.
  • Candidate person feature quantity selection means 901 selects a feature quantity of a person whose name matches or is close to the person feature quantity database 903. At this time, it is also possible to output person feature quantities of persons having a plurality of similar names that do not need to be output by associating one person feature quantity with one recognized person name candidate. The selected candidate person feature amount is output to the performer collating means 902.
  • the performer collating means 902 first extracts a person feature amount from the input program video. For example, when the person feature is a face feature, face detection is performed on the video, and then the face feature of the detected area is calculated. Alternatively, when the person feature quantity is a voice feature quantity, first, a section including the voice is extracted, and then the voice feature quantity of this section is extracted. The extracted person feature quantity is collated with each of the candidate person feature quantity input from the candidate person feature quantity selecting means 901. As a result of the collation, when it is determined that they are the same, information for identifying the person is output as person identification information.
  • the performer affiliation group extraction means 920, the performer collation parameter selection means 921, the performer collation means 922, and the person feature quantity database 903 are shown.
  • the person verification parameter database 923 is shown.
  • Performer affiliation group extraction means 920 receives credit candidate information as input, and outputs performer affiliation related information to performer collation parameter selection means 921.
  • Performer collation parameter selection means 921 inputs performer affiliation related information output from performer affiliation group extraction means 920, selects performer collation parameters from person collation parameter database 923, and performs to performer collation means 922.
  • Performer collation means 922 receives the performer collation parameters output from program video and performer matching parameter selection means 921 and the person feature quantity stored in person feature database 903, and outputs person identification information. To do.
  • the credit candidate information is input to the performer affiliation group extraction means 920.
  • Performer affiliation group extraction means 920 extracts information related to the affiliation of the performer, such as theatrical company name and entertainment production name, from the credit candidate information.
  • a dictionary of performer affiliation information is prepared and can be extracted by collating with names registered in this dictionary.
  • the extracted result is output to performer collation parameter selection means 921 as performer affiliation related information.
  • Performer verification parameter selection means 921 selects performer verification parameters from the human verification parameter database 923. For example, if person features are stored in the person feature database 903 by grouping by organization or by dividing the database, information to specify the group or database is stored. Is selected as a performer matching parameter. The selected performer verification parameters are output to the performer verification means 922.
  • the operation of the performer verification unit 922 is basically the same as the operation of the performer verification unit 902 of FIG. The difference is that the performer collation parameter output from the performer collation parameter selection means 921 is further input, and the collation parameters can be adjusted accordingly. The result of collation is output as person identification information.
  • the object recognition means the music work recognition means 101
  • the example of the character recognition means 102 has been shown, the present invention is not limited to this example. For example, only one of them may be used as shown in FIGS. Further, the object recognition means may be used in combination with the above-described specific configurations!

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

明 細 書
権利情報抽出装置、権利情報抽出方法及びプログラム
技術分野
[0001] 本発明は権利情報抽出装置、権利情報抽出方法及びプログラムに関し、特に、番 組等のコンテンツから、著作権や著作隣接権などの権利に関する情報を抽出する権 利情報抽出装置、権利情報抽出方法及びプログラムに関する。
背景技術
[0002] 従来、コンテンツに付随する著作権などの権利を管理する権利管理システムが、例 えば、特許文献 1に記載されている。
[0003] 特許文献 1に記載されて!/、る権利管理システムは、コンテンツマネジメントサーバで 著作権などの権利を一括管理し、契約管理サーバや課金サーバ、認証サーバなどと 連携することによって、コンテンツ利用者の要求に応じた自動契約、およびコンテン ッのセキュアな流通を実現して!/、る。
[0004] 一方、権利情報は、仲介業者によって人手により登録されることを前提としている。
すなわち、権利情報のデータベースの整備は人手に頼っているのが現状であり、過 去に制作したコンテンツを、特許文献 1に記載されたようなシステムで取り扱えるよう にするためには、誰かが権利情報を抽出し、仲介業者等を通じてデータベースに登 録する必要がある。
[0005] しかしながら、過去のコンテンツの場合、契約情報の詳細などが残って!/、な!/、場合 も多く、まず、誰がコンテンツの権利を有するかを明確にする必要がある。従来、これ らの作業は人手で確認しながら登録するようになっており、このプロセスに非常に膨 大な工数を費やさねばならないという問題があった。これが、例えば、テレビ放送され たドラマなどの優良コンテンツが二次流通市場に流れない原因ともなつていた。
[0006] 特許文献 1:特開 2002— 109254号公報
発明の開示
発明が解決しょうとする課題
[0007] 第 1の問題点は、映像などのコンテンツに関連する権利情報の特定が自動化され ていないことである。このため、過去コンテンツの利用に際しては、コンテンツの権利 者を特定するために、人手で権利情報を抽出しなければならず、膨大な手間がかか つていた。
[0008] 第 2の問題点は、これをテロップ認識などの技術によって抽出する場合には、精度 が十分でないことである。その理由は、通常のテロップ認識では、権利情報に特化し ていないため、精度が低いという問題があった。また、権利に関係のない情報も多く 含まれ、権利情報の特定が困難であるという問題があった。
[0009] そこで、本発明は上記課題に鑑みて発明されたものであって、映像などのコンテン ッから権利に関する情報を自動抽出できる権利情報抽出装置及び権利情報抽出方 法を提供することである。
課題を解決するための手段
[0010] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み 取り、結果をクレジット候補情報として出力するクレジット情報認識手段を有することを 特徴とする。
[0011] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する 権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、 結果をクレジット候補情報として出力するクレジット情報認識手段と、前記コンテンツ を解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別 情報として出力する対象物認識手段と、前記クレジット候補情報と、前記対象物識別 情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。
[0012] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する 権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、 結果をクレジット候補情報として出力するクレジット情報認識手段と、前記クレジット候 補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認 識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジッ ト候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段と を有することを特徴とする。
[0013] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み 取り、結果をクレジット候補情報として出力することを特徴とする権利情報抽出方法で ある。
[0014] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する 権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、 結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテン ッ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する 処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として 出力する処理とを有することを特徴とする。
[0015] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する 権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、 結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、 前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果 を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別 情報とを統合し、権利情報として出力する処理とを有することを特徴とする。
[0016] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み 取り、結果をクレジット候補情報として出力する処理を情報処理装置に実行させること
[0017] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み 取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コン テンッ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力 する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報と して出力する処理とを情報処理装置に実行させることを特徴とするプログラムである。
[0018] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み 取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参 照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、そ の結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象 物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させ ることを特 ί毁とするプログラムである。 発明の効果
[0019] 本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット 候補情報として出力するようにしているので、コンテンツに関連する権利に関する情 幸を精度良く、 自動由出すること力 Sできる。
[0020] また、著作権等のコンテンツに関連する権利に関する情報を、コンテンツから抽出 する処理の省力化が図れる点である。その理由は、コンテンツから自動的に著作権 などの権利情報を抽出することが可能になるためである。
図面の簡単な説明
[0021] [図 1]図 1はクレジット認識手段 100のブロック図である。
[図 2]図 2はクレジット情報重畳区間検出手段 400の構成を示した図である。
[図 3]図 3は主題歌検知手段 410の具体的な構成を示した図である。
[図 4]図 4は主題歌検知手段 410の他の具体的な構成を示した図である。
[図 5]図 5は主題歌検知手段 410の他の具体的な構成を示した図である。
[図 6]図 6は主題歌検知手段 410の他の具体的な構成を示した図である。
[図 7]図 7は主題歌検知手段 410の他の具体的な構成を示した図である。
[図 8]図 8は主題歌検知手段 410の他の具体的な構成を示した図である。
[図 9]図 9はクレジット情報重畳区間検出手段 400の他の構成を示した図である。
[図 10]図 10はクレジット情報重畳区間検出手段 400の他の構成を示した図である。
[図 11]図 11はクレジット情報重畳区間検出手段 400の他の具体的な構成を示した図 である。
[図 12]図 12はクレジット情報読み取り手段 600の一例を示した図である。
[図 13]図 13はクレジット情報読み取り手段 600の他の構成を示した図である。
[図 14]図 14は主題歌背景映像生成手段 620の構成を示した図である。
[図 15]図 15はクレジット情報読み取り手段 600の他の構成を示した図である。
[図 16]図 16は本発明の第 2の実施の形態の構成を示した図である。
[図 17]図 17は本発明の第 3の実施の形態の構成を示した図である。
[図 18]図 18は音楽著作物認識手段 101の構成例を示した図である。
[図 19]図 19は音楽著作物認識手段 101の他の構成を示した図である。 園 20]図 20は音楽著作物照合手段 822の構成を示した図である。
[図 21]図 21は登場人物認識手段 102の構成を示した図である。
園 22]図 22は登場人物認識手段 102の他の構成を示した図である。 園 23]図 23は本発明の第 3の実施の形態の他の構成を示した図である 園 24]図 24は本発明の第 3の実施の形態の他の構成を示した図である 符号の説明
100 睛報認識手段
103 統合手段
105 対象物認識手段
120 統合手段
130 統合手段
400 クレジット情報重畳区間検出手段
410 主題歌検知手段
420 映像切り出し手段
430 音響特徴量抽出手段
431 音響特徴量照合手段
432 主題歌音響特徴量データベース
435 主題歌音響特徴量データベース
440 音響特徴量抽出手段
441 音響特徴量照合手段
442 視覚特徴量抽出手段
443 視覚特徴量照合手段
445 音響特徴量照合手段
450 連続音響区間抽出手段
451 主題歌区間判定手段
452 主題歌候補区間判定手段
470 連続テロップ検知手段
480 ロールテロップ検知手段 481 選択手段
600 クレジット情報読み取り手段
610 テロップ読み取り手段
620 主題歌背景映像生成手段
630 主題歌背景差分映像生成手段
640 テロップ読み取り手段
650 テロップ読み取り結果総合判断
700 背景映像生成手段
710 対応フレーム算出手段
720 視覚特徴量抽出手段
800 楽曲候補抽情報出手段
801 候補音響特徴量選択手段
802 音楽著作物照合手段
803 楽曲音響特徴量データベース
820 音楽関連制作情報抽出手段
821 音楽著作物照合パラメータ選択手段
822 音楽著作物照合手段
823 音楽著作物照合パラメータデータベース
900 出演者候補情報抽出手段
901 候補人物特徴量選択手段
902 出演者照合手段
903 人物特徴量データベース
920 出演者所属団体抽出手段
921 出演者照合パラメータ選択手段
922 出演者照合手段
923 人物照合パラメータデータベース
950 音声重畳判定手段
951 音響特徴量照合手段 発明を実施するための最良の形態
[0023] <第 1の実施の形態〉
第 1の実施の形態を説明する。
[0024] 第 1の実施の形態では、コンテンツを解析してクレジット情報を読み取り、クレジット 情報の候補となる情報を出力するクレジット情報認識手段 100について説明する。
[0025] 図 1はクレジット認識手段 100のブロック図である。
[0026] クレジット情報認識手段 100では、コンテンツ中からクレジット情報が含まれている 可能性が高い区間(以後、この区間をクレジット情報重畳区間と呼ぶ)を抽出する。次 に、クレジット情報重畳区間に含まれる映像や音声を解析し、コンテンツからクレジッ ト情報としてテロップ情報や音声を読み取る。そして、その結果をクレジット候補情報 として出力する。
また、クレジット情報認識手段 100において、クレジット情報を読み取る際には、タレ ジット情報が重畳されてレ、る可能性が高い区間だけではなく低レ、区間も読み取る様 にしても良い。更に、読み取るクレジット情報は、コンテンツの権利に関しないクレジッ ト情報も読取るようにしても良い。
[0027] ここで、コンテンツとは、映像、音声等から構成されるものであり、例えば、テレビ番 組、ラジオ番組、映画等をいい、かならずしも放送や公開されるものに限られず、 DV
D等の記録媒体に格納されたものも含む。
[0028] また、クレジット情報とは、コンテンツの主題歌や最後の部分等に重畳されている、 原作者や脚本家、出演者、主題歌、協力団体、提供企業などの情報を記したテロッ プゃ、音声である。
[0029] また、クレジット情報認識手段 100に入力されるコンテンツは、 MPEGなどの圧縮さ れたフォーマットで入力されてもよいし、既に復号されてから入力されてもよい。圧縮 された映像として入力される場合には、クレジット情報認識手段の中で映像を復号し ながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよ いし、あるいは、同じ番組の複数の回の映像 (例えば、ドラマの第 1話から第 10話まで など)を同時に入力する構成になって!/、てもよ!/、。
[0030] 更に、クレジット候補情報は、認識された文字列とその時間情報、画像中での位置 情報(フレーム内での座標)を含んでいてもよい。また、テロップや音声の認識の確か らしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文 字列に対して 1つの情報を出力するようになっていてもよいし、複数の候補文字列を 出力するようになっていてもよい。また、テロップが読み取れなかった場合には、その テロップを含む映像中の時空間位置を特定する情報をクレジット候補情報に含んで 出力してもよい。さらに、この時空間位置の映像情報自体をクレジット候補情報に含 んで出力してもよい。
[0031] 次に、図 1に示されるクレジット情報認識手段 100の各構成について述べる。尚、以 下の説明では、コンテンツの例として番組映像を例にして説明する。
[0032] 図 1を参照すると、クレジット情報認識手段 100は、クレジット情報重畳区間検出手 段 400とクレジット情報読み取り手段 600とからなる。
[0033] クレジット情報重畳区間検出手段 400は、番組映像を入力とし、その出力はクレジ ット情報読み取り手段 600へ接続される。クレジット情報読み取り手段 600は、クレジ ット情報重畳区間検出手段 400から出力されるクレジット情報重畳区間映像データを 入力とし、クレジット候補情報を出力する。
[0034] 次に、図 1に示すクレジット情報認識手段 100の実施の形態の動作について説明 する。
[0035] 番組映像は、まず、クレジット情報重畳区間検出手段 400へ入力される。クレジット 情報重畳区間検出手段 400では、視覚特徴量や音響特徴量、あるいはテロップの 出現パターンなどの特徴を用いて、クレジット情報重畳区間を特定する。この方式の 詳細については後述する。そして、特定された時間区間の映像データを、クレジット 情報重畳区間映像データとして出力する。
[0036] クレジット情報重畳区間映像データは、クレジット情報読み取り手段 600へ入力され る。クレジット情報読み取り手段 600では、入力される映像、あるいはそれを処理して 得られる映像に対してテロップ認識が行われる。そして得られた認識結果をクレジット 候補情報として出力する。
[0037] このように、本発明のクレジット情報認識手段 100では、クレジット情報が重畳されて いる箇所を特定し、その区間を重点的に識別することで、映像に対して単純にテロッ プ認識を適用する場合に比べ、効率的に精度よくクレジット情報を抽出することが可 能になる。
[0038] <クレジット情報重畳区間検出手段 400の具体的な構成〉
1.主題歌に着目してクレジット情報重畳区間を検出
クレジット情報重畳区間検出手段 400の具体的な構成について説明する。以下に 説明するクレジット情報重畳区間検出手段 400は、コンテンツに含まれる音響のうち 主題歌の部分にクレジット情報が重畳されることが多いことを利用した具体例である。 尚、音響の一例として主題歌を用いた力 これに類するものであれば、主題歌に限ら れなレ、。
[0039] 図 2はクレジット情報重畳区間検出手段 400の構成を示した図であり、クレジット情 報重畳区間検出手段 400は、主題歌検知手段 410と映像切り出し手段 420とからな
[0040] 主題歌検知手段 410は、番組映像を入力とし、その出力である区間指定時刻情報 は映像切り出し手段 420へ接続される。映像切り出し手段 420は、番組映像と主題 歌検知手段 410から出力される区間指定時刻情報を入力とし、クレジット情報重畳区 間映像データを出力する。
[0041] 次に、図 2に示すクレジット情報重畳区間検出手段 400の動作について述べる。
[0042] 番組映像は、まず、主題歌検知手段 410へ入力される。主題歌検知手段 410では 、映像中から主題歌を含む区間を抽出する。これは、ドラマなどの映像では、ほとん どの場合、主題歌の部分にクレジット情報が重畳されるためである。すなわち、主題 歌の時間区間は、クレジット情報重畳区間とみなせる。番組映像から主題歌時間区 間を抽出する方法の詳細については後述する。抽出された主題歌部分を特定する 時刻情報は、区間指定時刻情報として出力される。
[0043] 区間指定時刻情報は、番組映像とともに、映像切り出し手段 420へ入力される。映 像切り出し手段 420では、番組映像ののうち、区間指定時刻情報によって指定される 映像データを特定し、クレジット情報重畳区間映像データとして出力する。ここで、特 定された映像をもとの番組映像から実際に切り出して出力してもよい。あるいは、実 際に切り出すことはせず、区間の先頭と最後の位置へジャンプするための情報 (例え ば番組先頭からのバイト数)を取得し、特定された区間にすぐに頭だしできるようにす るだけでもよい。この場合も、すぐに指定区間の先頭にアクセスできるため、実際に切 り出した場合と同様に後段の処理が行える。
[0044] このように図 2に示すクレジット情報重畳区間検出手段では、主題歌を検知すること で、精度よくクレジット情報重畳区間を求めることを可能にする。
[0045] (1)主題歌検知手段 410の具体的構成例 1
主題歌検知手段 410の具体的な構成について説明する。
[0046] 図 3を参照すると、主題歌検知手段 410は、音響特徴量抽出手段 430と音響特徴 量照合手段 431と主題歌音響特徴量データベース 432とからなる。音響特徴量抽出 手段 430は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手 段 431へ入力される。音響特徴量照合手段 431は、音響特徴量抽出手段 430から 出力される音響特徴量と主題歌音響特徴量データベース 432からの音響特徴量を 入力とし、区間指定時刻情報を出力する。
[0047] 次に、図 3に示す主題歌検知手段 410の動作について述べる。
[0048] 番組映像は、まず、音響特徴量抽出手段 430へ入力される。音響特徴量抽出手段 430では、番組映像の音響信号を解析し、音響特徴量を抽出する。抽出された音響 特徴量は、音響特徴量照合手段 431へ出力される。音響特徴量照合手段 431では 、音響特徴量抽出手段 430から入力される番組映像の音響特徴量と主題歌音響特 徴量データベース内の主題歌音響特徴量を照合する。そして、番組音響特徴量中 の照合した部分に相当する時間区間を特定する時刻情報(区間の始点、終点、時間 長など)を区間指定時刻情報として出力する。
[0049] ここで、主題歌音響特徴量は、主題歌から予め抽出した音響特徴量である。これを 事前に登録しておき、主題歌検知に用いる。この際、主題歌が予め既知の場合には 、その主題歌の音源(CDなど)から音響特徴量を抽出して用いることができる。ある いは、シリーズもののドラマなどの場合には、ある一回の映像で主題歌の区間を特定 し、この部分の音響特徴量を用いて他の回のドラマ映像の主題歌検知に用いること ができる。
[0050] 上述した主題歌検知手段 410は、主題歌音響特徴量データベースに登録されて いる特徴量を用いて照合を行うため、確実に主題歌の部分を抽出することができる。
[0051] (2)主題歌検知手段 410の具体的構成例 2
主題歌検知手段 410の他の具体的な構成について説明する。
[0052] 図 4を参照すると、主題歌検知手段 410の他の具体的な構成例が示されており、音 響特徴量抽出手段 440と音響特徴量照合手段 441とからなる。音響特徴量抽出手 段 440は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段 441へ入力される。音響特徴量照合手段 441は、音響特徴量抽出手段 440から出 力される音響特徴量を入力とし、区間指定時刻情報を出力する。
[0053] 次に、図 4に示す主題歌検知手段 410の動作について述べる。
[0054] 番組映像は、まず、音響特徴量抽出手段 440へ入力される。ここで、番組映像は、 単一の回の番組映像ではなぐ複数回の番組映像をまとめて入力するものとする。例 えば、シリーズもののドラマの場合には、数話分のドラマ映像がまとめて入力されるも のとする。音響特徴量抽出手段 440では、この複数回のドラマ映像それぞれに対し て音響特徴量の抽出を行う。抽出された各回の音響特徴量は、音響特徴量照合手 段 441へ出力される。
[0055] 音響特徴量照合手段 441では、入力される複数回の番組の音響特徴量間で照合 を行う。この際、照合は各回の番組全体で行うのではなぐ番組から切り出される任意 長の区間同士で行う。これにより、各回で音響特徴量が一致する区間が求まる。この ようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性 が高いと考えられる。よって、上記で求まった一定区間長以上の区間を指定する時 刻情報を区間指定時刻情報として出力する。あるいは、さらに区間の位置情報を用 いて判定してもよい。即ち、主題歌は番組の冒頭か最後に流れる場合が多いことを 利用して主題歌の区間を特定してもよい。この情報は、各回の番組に対して出力さ れる。
[0056] 図 4に示す主題歌検知手段 410は、主題歌が何である力、を知っていなくても、複数 回の映像を用いて同じ音響のパターンを有するところを見つけることで、主題歌部分 を特定できる。すなわち、主題歌特徴量を格納したデータベースが不要となる。
[0057] また、はじめの数回で主題歌部分を特定し、主題歌の特徴量を抽出すれば、それ 以降の回では、抽出した主題歌の特徴量を用いて図 3と同様にして主題歌部分を特 定することもできる。これにより、複数回の動画間全体で共通部分を見つける場合に 比べ、より少ない演算量で確実に主題歌部分を特定できる。
[0058] (3)主題歌検知手段 410の具体的構成例 3
主題歌検知手段 410の他の具体的な構成について説明する。
[0059] 図 5を参照すると、主題歌検知手段 410の他の具体的な構成の一例が示されてお り、連続音響区間抽出手段 450と主題歌区間判定手段 451とからなる。連続音響区 間抽出手段 450は、番組映像を入力とし、その出力である連続音響時間情報は主題 歌区間判定手段 451へ入力される。主題歌区間判定手段 451は、連続音響区間抽 出手段 450から出力される連続音響時間情報を入力とし、区間指定時刻情報を出力 する。
[0060] 次に、図 5に示す主題歌検知手段 410の動作について述べる。
[0061] 番組映像は、まず、連続音響区間抽出手段 450へ入力される。ここでは、映像中の 音響信号から音響の連続性 (持続性)を分析する。そして、連続する音響区間がみ つかった場合には、その時刻情報を連続音響時間情報として主題歌区間判定手段 451へ出力する。
[0062] 連続音響の分析は、例えば、番組映像の音響信号のパワーから無音区間を見つ け、無音区間で挟まれる区間を連続音響区間とする方式が考えられる。この際、音響 特徴量を分析して音響信号の楽曲らしさを判定し、これが高いときのみ、連続音響区 間として出力するようにしてもよい。この分析には、音響データに基づいて学習したサ ポートベクターマシンなどの音響判別器を用いることができる。
[0063] 主題歌区間判定手段 451では、入力される連続音響時間情報力 主題歌に相当 する時間区間を選択し、区間指定時刻情報として出力する。この際、主題歌部分は 音響が長く続くこと、および、主題歌は番組のはじめか終わりに近い部分に存在する ことなどの条件を用いて主題歌区間を判定する。
[0064] このように、本説明の主題歌検知手段 410では、音響が連続して続く場所は主題 歌や BGMの部分が多ぐ特に、主題歌の部分は、音響信号が長く続く(数十秒から 数分)ことを利用して主題歌の部分を特定している。これにより、実際に詳細な音響 解析を行わなくても簡易に主題歌部分を特定できる。
[0065] (4)主題歌検知手段 410の具体的構成例 4
主題歌検知手段 410の他の具体的な構成について説明する。
[0066] 図 6を参照すると、主題歌検知手段 410の他の具体的な構成の一例が示されてお り、視覚特徴量抽出手段 442と視覚特徴量照合手段 443とからなる。視覚特徴量抽 出手段 442は、番組映像を入力とし、その出力である番組視覚特徴量は視覚特徴量 照合手段 443へ入力される。視覚特徴量照合手段 443は、視覚特徴量抽出手段 44 2から出力される視覚特徴量を入力とし、区間指定時刻情報を出力する。
[0067] 次に、図 6に示す主題歌検知手段 410の動作について説明する。
[0068] 番組映像は、まず、視覚特徴量抽出手段 442へ入力される。ここで、番組映像は、 図 4と同様に、複数回の番組映像がまとめて入力されるものとする。視覚特徴量抽出 手段 442では、この複数回の番組映像それぞれに対して視覚特徴量の抽出を行う。 抽出された各回の視覚特徴量は、視覚特徴量照合手段 443へ出力される。
[0069] 視覚特徴量照合手段 443では、入力される複数回の番組の視覚特徴量間で照合 を行う。この際、照合は各回の番組全体で行うのではなぐ番組から切り出される任意 長の区間同士で行う。これにより、各回で視覚特徴量が一致する区間が求まる。この ようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性 が高いと考えられる。よって上記で求まった一定区間以上の区間を指定する時刻情 報を区間指定時刻情報として出力する。この情報は、各回の番組に対して出力され
[0070] 図 6に示す主題歌検知手段 410も、図 4の場合と同様に、主題歌が何である力、を知 つていなくても複数回の映像を用いて同じ視覚パターンを有するところを見つけること で、主題歌部分を特定できる。
[0071] なお、視覚特徴量は、画面全体から算出するようになっていてもよいし、画面の一 部分のみから抽出するようになっていてもよい。後者の場合には、主題歌背景の一部 に本編映像が重ね合わせられるような場合にも対処できるようになる。
[0072] さらに、図 6の視覚特徴量による照合結果と、図 4の音響特徴量による照合結果を 組み合わせることも可能である。これにより、より高精度に主題歌区間を検知できるよ うになる。特に、背景映像は、各回によって出現順が入れ替わる場合もあるが、音響 特徴量を組み合わせることで、このような場合であっても、確実に主題歌区間を特定 できるようになる。また、本編の音声が主題歌と重なって音響による全区間の特定が 困難な場合であっても、視覚特徴量による照合の結果を組み合わせることで、補完 すること力 S可倉 となる。
[0073] (5)主題歌検知手段 410の具体的構成例 5
主題歌検知手段 410の他の具体的な構成について説明する。
[0074] 図 7を参照すると、主題歌検知手段 410の他の具体的な構成の一例が示されてお り、音響特徴量抽出手段 440と音響特徴量照合手段 445と音響特徴量抽出手段 43 0と音響特徴量照合手段 431と主題歌音響特徴量データベース 435とからなる。
[0075] 音響特徴量抽出手段 440は、番組映像を入力とし、その出力である番組音響特徴 量は音響特徴量照合手段 445へ接続される。音響特徴量照合手段 445は、音響特 徴量抽出手段 440から出力される番組音響特徴量を入力とし、主題歌音響特徴量を 主題歌音響特徴量データベース 435へ出力するとともに、区間指定時刻情報を出力 する。主題歌音響特徴量データベース 435は、音響特徴量照合手段 445からの出 力される主題歌音響特徴量を入力とし、それを音響特徴量照合手段 431へ出力する 。音響特徴量抽出手段 430は、番組情報を入力とし、その出力である音響特徴量を 音響特徴量照合手段 431へ出力する。音響特徴量照合手段 431は、主題歌音響特 徴量データベース 435から出力される主題歌音響特徴量と音響特徴量抽出手段 43 0から出力される音響特徴量を入力とし、照合結果を出力する。
[0076] 次に、図 7に示す主題歌検知手段の動作について述べる。
[0077] 番組映像は、複数の回からなる映像であるとする。音響特徴量抽出手段 440の動 作は図 4の場合と同じである。音響特徴量照合手段 445の動作も、図 4の音響特徴 量照合手段 441の動作と同様であるが、さらに、検知された主題歌音響特徴量を主 題歌音響特徴量データベース 435へ出力する。主題歌音響特徴量データベース 43 5は、音響特徴量照合手段 445から出力される主題歌音響特徴量を蓄積しておき、 音響特徴量照合手段 431へ出力する。
[0078] 音響特徴量抽出手段 430へは、番組映像のうち、残りの複数回の映像が入力され る。音響特徴量抽出手段 430、音響特徴量照合手段 431の動作は、図 3の場合と同 様である。
[0079] これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演 算量で確実に主題歌部分を特定できる。また、図 7では、音響特徴量を用いた場合 の構成について述べたが、視覚特徴量や、音響特徴量と視覚特徴量を用いた場合 もまったく同様にして主題歌区間を検知できる。
[0080] (6)主題歌検知手段 410の具体的構成例 6
次に、主題歌検知手段 410の他の具体的な構成について説明する。
[0081] 図 8を参照すると、主題歌検知手段 410の他の具体的な構成が示されており、連続 音響区間抽出手段 450、主題歌候補区間判定手段 452、音響特徴量抽出手段 433 、音響特徴量照合手段 431、主題歌音響特徴量データベース 432とからなる。連続 音響区間抽出手段 450は番組映像を入力とし、その出力である連続音響時間情報 を主題歌候補区間判定手段 452へ出力する。主題歌候補区間判定手段 452は、連 続音響区間抽出手段 450から出力される連続音響時間情報を入力とし、その出力で ある主題歌候補区間時刻情報を音響特徴量抽出手段 433へ出力する。音響特徴量 抽出手段 433は、番組映像と主題歌候補区間判定手段 452から出力される主題歌 候補区間時刻情報を入力とし、その出力である音響特徴量を音響特徴量照合手段 4 31へ出力する。音響特徴量照合手段 431は、音響特徴量抽出手段 433から出力さ れる音響特徴量と主題歌音響特徴量データベース 432から出力される主題歌音響 特徴量を入力とし、区間指定時刻情報を出力する。
[0082] 次に、図 8に示す主題歌検知手段 410の動作について説明する。
[0083] 番組映像は、連続音響区間抽出手段 450へ入力される。連続音響区間抽出手段 450の動作は、図 5の場合と同様であり、求まった連続音響時間情報を主題歌候補 区間判定手段 452へ出力する。
[0084] 主題歌候補区間判定手段 452の動作も基本的には、図 5の主題歌区間判定手段 451と同様である力 S、ここでは、完全に主題歌区間を特定する必要はなぐ候補とな る区間を抽出するのみでよレ、ため、図 5の場合よりもゆる!/、判定基準を用いてもよ!/、。 求まった主題歌候補区間時刻情報は音響特徴量抽出手段 433へ出力される。 [0085] 音響特徴量抽出手段 433へは、番組映像も入力され、音響特徴量を抽出する。た だし、ここでは、主題歌候補区間時刻情報で指定された区間に対してのみ音響特徴 量を抽出する。抽出された音響特徴量は、音響特徴量照合手段 431へ出力される。
[0086] 音響特徴量照合手段 431、主題歌音響特徴量データベース 432の動作は、図 3の 場合と同様である。
[0087] 図 8に示す主題歌検知手段 410では、主題歌候補区間に対してのみ音響特徴量 を抽出 ·照合するため、番組全体に対して特徴量抽出を行う場合に比べ、処理量を 軽減できる。なお、このような絞込みは、図 4、図 6、図 7などに示す主題歌検知手段 4 10に対しても適用可能であり、処理量の低減が図れる。
[0088] 2.テロップが連続的に出現するという特性に着目してクレジット情報重畳区間を検 出
クレジット情報重畳区間検出手段 400の具体的な他の構成について説明する。以 下に説明するクレジット情報重畳区間検出手段 400は、コンテンツでは、クレジット情 報が重畳されているテロップは連続的に出現するという特性を利用した具体例である
[0089] 図 9を参照するとクレジット情報重畳区間検出手段 400の実施の形態の一例が示さ れており、連続テロップ検知手段 470と映像切り出し手段 420とからなる。連続テロッ プ検知手段 470は、番組映像を入力とし、その出力である区間指定時刻情報は映像 切り出し手段 420 接続される。映像切り出し手段 420は、番組映像と連続テロップ 検知手段 470から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間 映像データを出力する。
[0090] 次に、図 9に示すクレジット情報重畳区間検出手段 400の動作について述べる。
番組映像は、まず、連続テロップ検知手段 470 入力される。連続テロップ検知手 段 470では、テロップが連続して現れる区間を抽出する。これは、ドラマやバラエティ 番組などで、クレジット情報がテロップとして重畳される区間では、テロップが連続的 に出現するという特性に基づく。そして、この時間区間を区間指定時刻情報として出 力する。
具体的には、番組映像に対してテロップ検出を行い、テロップが検出できた場合に は、その開始時刻と終了時刻を求める処理を繰り返す。次に、開始時刻と終了時刻 を解析し、複数のテロップがほとんど間を空けずに次々と出現する時間区間を求める 。あるいは、異なるテロップ間の時間間隔を解析するかわりに、 1画面中のテロップ占 有面積を求め、ある一定領域以上の占有面積が断続的に続く区間として、区間指定 時刻情報を求めてもよい。区間指定時刻情報は、番組映像とともに、映像切り出し手 段 420へ入力される。映像切り出し手段 420の動作は、図 2の場合と同様である。
[0091] このように図 9に示すクレジット情報重畳区間検出手段は、音響特徴用の解析など の複雑な処理を行わなくても、テロップ出現のパターン情報のみを用いてクレジット情 報重畳区間を求めることを可能にする。特に、静止テロップでクレジット情報が表示さ れる番組に対して有効である。
[0092] 3.ロールテロップ上にクレジット情報が連続的に出現するという特性に着目してク レジット情報重畳区間を検出
図 10を参照するとクレジット情報重畳区間検出手段 400の他の例が示されており、 ロールテロップ検知手段 480と映像切り出し手段 420とからなる。ロールテロップ検知 手段 480は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出 し手段 420へ接続される。映像切り出し手段 420は、番組映像とロールテロップ検知 手段 480から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像 データを出力する。
[0093] 次に、図 10に示すクレジット情報重畳区間検出手段 400の動作について述べる。
[0094] 番組映像は、まず、ロールテロップ検知手段 480へ入力される。ロールテロップ検 知手段 480では、水平方向、あるいは垂直方向にスクロールするロールテロップを検 知し、ロールテロップの存在する区間を区間指定時刻情報として出力する。これは、 ドラマやバラエティ番組などで、クレジット情報が水平方向、あるいは垂直方向にスク ロールしながら表示される場合が多いことに基づく。
[0095] このタイプのクレジットは、たいてい番組の最後であるため、エンドロールと呼ばれる こともある。このため、ロールテロップを検知する際、時刻情報も併用し、映像の終わり に近い部分に対してロールテロップ検知を行うようになっていてもよい。これにより、番 組映像央全体に対してロールテロップ検知を行う場合に比べ、処理量を大幅に低減 できる。
[0096] 具体的なロールテロップの検知方法としては、フレーム間で動き推定を行い、水平 または垂直方向に等速直線運動を行っている領域を探す。そして、この等速直線運 動が一定の時間間隔続く場合にロールテロップとして検知する。動き推定には、例え ばブロックマッチングや、一般化ハフ変換を用いることができる。
[0097] 求まった区間指定時刻情報は、番組映像とともに、映像切り出し手段 420へ入力さ れる。映像切り出し手段 420の動作は、図 2の場合と同様である。
[0098] このように、図 10に示すクレジット情報重畳区間検出手段は、ロールテロップを検 知することで、音響信号を用いずとも、クレジット重畳区間を検知できる。これは、映 画やドラマなど、コンテンツの最後でクレジット情報が縦や横方向にスクロールしてい く場合に特に有効である。また、ノ エティなど、主題歌がなぐ音響情報が使えない 場合であっても、ロールテロップを検知することで、クレジット重畳区間を求めることが できる。
[0099] 4.上述した構成の組み合わせによりクレジット情報重畳区間を検出
次に、主題歌検知手段 400の他の具体的な構成について説明する。図 11を参照 すると、クレジット情報重畳区間検出手段 400の他の具体的な構成が示されており、 主題歌検知手段 410、ロールテロップ検知手段 480、連続テロップ検知手段 470、 選択手段 481、映像切り出し手段 420とからなる。主題歌検知手段 410、ロールテロ ップ検知手段 480、連続テロップ検知手段 470は、すべて、番組映像を入力とし、区 間指定時刻情報を選択手段 481へ出力する。選択手段 481は、主題歌検知手段 41 0から出力される区間指定時刻情報と、ロールテロップ検知手段 480から出力される 区間指定時刻情報と、連続テロップ検知手段 470から出力される区間指定時刻情報 とを入力とし、区間指定時刻情報を映像切り出し手段 420へ出力する。映像切り出し 手段 420は、番組映像と選択手段 481から出力される区間指定時刻情報とを入力と し、クレジット情報重畳区間映像データを出力する。
[0100] 次に、図 11に示すクレジット情報重畳区間検出手段 400の動作について説明する 。番組映像は、主題歌検知手段 410、ロールテロップ検知手段 480、連続テロップ検 知手段 470へ入力される。主題歌検知手段 410、ロールテロップ検知手段 480、連 続テロップ検知手段 470の動作は、前述のものと同様である。これらから出力される 区間指定時刻情報は選択手段 481へ入力される。選択手段 481では、入力される 区間指定時刻情報のうち、確からしいものを選択して出力する。もし、入力のうち、ど れカ、 1つのみしか区間指定時刻情報が入力されない場合には、その区間指定時刻 情報を出力する。一方、複数の区間指定時刻情報が重なる場合 (例えば、主題歌中 にロールテロップが現れる場合など)には、重複する区間指定時刻情報を出力する。 ただし、各検知手段で部分的にしか検知できない場合もあるため、全体の ORをとるよ うにして区間指定時刻情報を求めてもよい。求まった区間指定時刻情報は、映像切 り出し手段 420へ出力される。
[0101] 映像切り出し手段 420の動作は、図 7の場合と同様である。
[0102] 図 11のクレジット情報重畳区間検出手段は、様々なクレジットの出現パターンに適 応的に対応できるという特長がある。また、複数のソースの利用により、クレジット重畳 区間の検出精度を高めることができる。
[0103] <クレジット情報読み取り手段 600の具体的な構成〉
(1)クレジット情報読み取り手段 600の具体的な構成例 1
次に、クレジット情報読み取り手段 600の具体的な構成の一例を説明する。
[0104] 図 12はクレジット情報読み取り手段 600の一例を示した図であり、クレジット情報読 み取り手段 600はテロップ読み取り手段 610からなる。テロップ読み取り手段 610は、 クレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。
[0105] 図 12のクレジット情報読み取り手段 600の動作について述べる。
[0106] クレジット情報重畳区間映像データは、テロップ読み取り手段 610へ入力される。テ ロップ読み取り手段 610では、入力される映像に対してテロップ認識を行い、認識結 果をクレジット候補情報として出力する。ここで、テロップ認識をクレジット用にカスタ マイズすることで、識別率を向上できる。例えば、「脚本」や「主題歌」など、クレジット 情報で頻繁に使用される重要単語を重点的に学習した辞書を用いることができる。 あるいは、このような特定の単語を事前に登録しておき、その単語が現れたかどうか を半 IJ定するようにすることで、より精度よく単語を由出できるようになる。また、このよう な特定な単語を複数のフォントに対して学習しておき、文字列が出現したときにフォ ントを推定し、フォントごとにカスタマイズしたテロップ認識辞書を選択して、他のタレ ジット情報の読み取りを行うようにしてもよい。また、クレジットに現れる可能性がある 人名を、その人の属性 (例えば脚本家、俳優といった職業などの情報)別にデータべ ースに登録しておき、例えば脚本の箇所であれば、脚本家のデータベースから人名 を探して識別するようにすることで、人名の識別精度を飛躍的に向上できる。さらに、 この人名データベースを用いることで、人名の一部が読み取れなかった場合であつ ても、効率よく候補を絞り込むことが可能になる。また、クレジット情報の現れる順番や ノ ターンにもある程度の規則性がある(例えば脚本家や原作家の情報は出演者の情 報よりも時間的に先に出現しやすい、あるいは、単独で表示されることが多いなど)た め、これらの情報を反映させてテロップを識別することで、さらに精度を向上できる。 以後、このようなテロップ認識に用いるパラメータ類をテロップ認識パラメータと呼ぶこ とにする。
[0107] このようなクレジット情報読み取り手段 600は、テロップ読み取り手段のみを用いて 構成しているため、簡易に構成することができる。また、クレジット情報読み取り手段 6 00には、テロップが重畳されているクレジット情報重畳区間映像データが入力される ので、番組全体に対してテロップの読み取りを行う場合に比べると、余分な処理を行 わずに、処理を軽減できる。すなわち、番組全体をテロップ読み取りする場合よりも、 テロップが重畳された部分だけ、より詳細に効率よく解析し、テロップを読み取ること ができる。このため、読み取りアルゴリズムをテロップ読み取りに特化することができ、 クレジット情報の読み取り精度を向上できる。
[0108] (2)クレジット情報読み取り手段 600の具体的な構成例 2
クレジット情報読み取り手段 600の他の具体的な構成の一例を説明する。本例は、 コンテンツに含まれる音響のうち主題歌が流れている映像に着目してクレジット情報 読み取る例である。
[0109] 図 13を参照すると、クレジット情報読み取り手段 600の実施の形態の一例が示され ており、主題歌背景映像生成手段 620と主題歌背景差分映像生成手段 630とテロッ プ読み取り手段 640とからなる。
[0110] 主題歌背景映像生成手段 620は、クレジット情報重畳区間映像データを入力とし、 主題歌背景映像を主題歌背景差分映像生成手段 630へ出力する。主題歌背景差 分映像生成手段 630は、クレジット情報重畳区間映像データと主題歌背景映像生成 手段 620から出力される主題歌背景映像とを入力とし、主題歌背景差分映像をテロ ップ読み取り手段 640へ出力する。テロップ読み取り手段 640は、主題歌背景差分 映像生成手段 630から出力される主題歌背景差分映像を入力とし、クレジット候補情 報を出力する。
[0111] 次に、図 13のクレジット情報読み取り手段 600の動作について説明する。
まず、クレジット情報重畳区間映像データは、主題歌背景映像生成手段 620へ入 力される。ここで、クレジット情報重畳区間映像データは、複数回の映像を含むものと する。
[0112] 主題歌背景映像生成手段 620では、複数回の映像間で背景 (クレジット情報以外 の部分)が同じであるフレーム同士を対応付ける。対応付けられたフレーム間で画像 処理を行って、主題歌の背景映像を作成し、主題歌背景差分映像生成手段 630へ 出力する。画像処理の詳細については後述する。
[0113] 主題歌背景差分映像生成手段 630では、入力される主題歌背景映像とクレジット 情報重畳区間映像データの差分を求め、この値に基づいて主題歌背景差分映像を 生成する。具体的には、差分が大きい画素は原画像をそのまま用いるようにし、そう でない画素は画素値を 0にする。これにより、クレジットの部分のみが残る主題歌背景 差分映像を生成できる。主題歌背景差分映像は、テロップ読み取り手段 640へ出力 される。
[0114] テロップ読み取り手段 640では、入力される映像に対してテロップ認識を行い、認 識結果をクレジット候補情報として出力する。
[0115] 図 13のクレジット情報読み取り手段 600では、テロップ認識において背景の影響が なくなるため、読み取り精度を向上できる。
[0116] ここで、主題歌背景映像生成手段 620について述べる。
[0117] 図 14を参照すると、主題歌背景映像生成手段 620の実施の形態の一例が示され ており、視覚特徴量抽出手段 720と対応フレーム算出手段 710と背景映像生成手段 700とからなる。視覚特徴量抽出手段 720は、クレジット情報重畳区間映像データを 入力とし、主題歌背景視覚特徴量を対応フレーム算出手段 710へ出力する。対応フ レーム算出手段 710は、視覚特徴量抽出手段 720から出力される主題歌背景視覚 特徴量を入力とし、フレーム対応情報を背景映像生成手段 700へ出力する。背景映 像生成手段 700は、クレジット情報重畳区間映像データと対応フレーム算出手段 71 0から出力されるフレーム対応情報とを入力とし、主題歌背景映像を出力する。
[0118] 次に、図 14の主題歌背景映像生成手段 620の動作について説明する。
[0119] まず、クレジット情報重畳区間映像データは、視覚特徴量抽出手段 720へ入力さ れる。ここで、クレジット情報重畳区間映像データは、複数回の映像分のクレジット情 報重畳区間映像である。例えば、シリーズもののドラマの場合には、数話分のドラマ に対応する映像がまとめて入力されるものとする。視覚特徴量抽出手段 720では、各 回の映像から視覚特徴量を抽出する。抽出された視覚特徴量は、主題歌背景視覚 特徴量として、対応フレーム算出手段 710へ出力される。
[0120] 対応フレーム算出手段 710では、入力された各回の視覚特徴量間で照合を行う。
この際、照合は各回の特徴量全体で行うのではなぐ各回のクレジット情報重畳区間 映像から切り出される任意長の区間同士で行う。これにより、各回で映像特徴量が一 致する区間が求まる。区間が求まると、映像のフレーム同士の対応関係も求まる。な お、ここで、区間の対応付けは、数フレーム分前後にずれる可能性もあるため、この ずれを補償する仕組みを追加してもよい。例えば、対応付けられた前後のフレームで フレーム間差分をとり、これが最小なるものを選ぶ、あるいは、マッチングがとれるピク セルの数が最大になるフレームを選ぶなどの方法が考えられる。このようにして求ま つた各回のフレーム間の対応情報は、フレーム対応情報として背景映像生成手段 7 00へ出力される。
[0121] 背景映像生成手段 700では、入力される各回のクレジット情報重畳区間映像デー タと、対応フレーム算出手段 710から出力されるフレーム対応情報とから、主題歌背 景映像を生成する。フレーム対応情報から対応付けられる各回のフレームの対応位 置の画素値に統計処理を行って生成する。
[0122] 次に、このアルゴリズムの詳細について説明する。ここで、 Fn,m(i,j)を n番目の映像 の m番目のフレームの位置 (I)における画素値とする。また、入力される番組の数を Nと し、 n番目の映像の m_n番目のフレームが対応するフレームであるとする。また、生成 する背景映像の m番目のフレームの位置 (U)における画素値を Bm(iJ)で表すこととす る。このとき、 Bm(i,j)の値は、 Fn,m_n(i,j) (n=l、 · · ·、 N)から算出される。
まず、各画素 (U)において、 Fn,m_n(i,j) (n=l、 · · ·、 N)の分散 σ (i,j)を求める。これが 十分小さい場合は、この位置にはどの回もテロップが載っていないと考えられる。よつ て、 Bm(iJ)の値は単純に平均することで算出できる。すなわち、
" ,ゾ)
Figure imgf000025_0001
によって算出する。一方、分散 σ(υ)が大きい場合には、テロップが重畳されている 可能性が高いと考えられる。この場合にそのまま単純平均を出すと、テロップの影響 が背景に含まれ、背景映像力 まく生成できないという問題がある。そこで、分散 σ(υ )が大きいときには、例えば、 Fn,m_n(i,j) (n=l、 · · ·、 N)のメディアン値を Bm(i,j)とする。こ れにより、テロップが載っている回の方が少ない場合には、背景画像生成でのテロッ プの影響を排除できる。
[0123] しかしながら、テロップが載っている回の方が多い位置 (U)も存在すると考えられる。
そこで、各回の映像 Fn,m_n(i,j) (n=l、 · · ·、 N)で、対象画素 (i,j)がテロップに含まれてい る可能性を表す指標を定義し、これが大きいほど重みを小さくして加重平均をとる。こ れにより、テロップの入っていない回の映像の画素値の重みが大きくなり、背景映像 へのテロップの影響を軽減できる。
[0124] このテロップらしさを表す指標を Rn,m_n(i,j)で表すことにする。ただし、 Rn,m_n(i,j)は 非負の値を有し、これが大きいほど、テロップにふくまれている可能性が高いものとす る。これを用いて以下の式により、背景映像の画素値 Bm(iJ)を算出する。
Figure imgf000026_0001
ここで、 g(X)は非負の値を返す Xに対する単調減少関数である。このようにして、テロ ップの影響が少な!/、背景映像を生成することが可能である。 Rn,m_n(i,j)としては、例 えば、位置 (U)近傍のエッジの多さや勾配の大きさなどを用いることができる。あるい は、テロップらしいパターンを学習したニューラルネットなどの識別器を用いて、テロッ プらしさを半 IJ定するようにしてもょレ、。
[0125] このようにして得られた背景映像を用いると、背景の影響がないクレジット部分のみ 力、らなる映像を生成できるため、後段に接続されるテロップ認識の精度向上に貢献 する。
[0126] (3)クレジット情報読み取り手段 600の具体的な構成例 3
図 15を参照すると、クレジット情報読み取り手段 600の他の一例が示されており、 主題歌背景映像生成手段 620と主題歌背景差分映像生成手段 630と第 1のテロッ プ読み取り手段 610と第 2のテロップ読み取り手段 640とテロップ読み取り結果統合 手段 650と力、らなる。第 1のテロップ読み取り手段 610は、クレジット情報重畳区間映 像データを入力とし、第 1のクレジット候補情報をテロップ読み取り結果統合手段 650 へ出力する。主題歌背景映像生成手段 620は、クレジット情報重畳区間映像データ を入力とし、主題歌背景映像を主題歌背景差分映像生成手段 630へ出力する。主 題歌背景差分映像生成手段 630は、クレジット情報重畳区間映像データと主題歌背 景映像生成手段 620から出力される主題歌背景映像とを入力とし、主題歌背景差分 映像を第 2のテロップ読み取り手段 640へ出力する。第 2のテロップ読み取り手段 64 0は、主題歌背景差分映像生成手段 630から出力される主題歌背景差分映像を入 力とし、第 2のクレジット候補情報をテロップ読み取り結果統合手段 650へ出力する。
読み取り結果統合手段 650は、第 1のテロップ読み取り手段 610から出力さ れる第 1のクレジット候補情報と第 2のテロップ読み取り手段 640から出力される第 2 のクレジット候補情報を入力とし、クレジット候補情報を出力する。
[0127] 次に、図 15のクレジット情報読み取り手段 600の動作について述べる。第 1のテロ ップ読み取り手段 610の動作は、図 12のテロップ読み取り手段 610と同様であり、第 1のクレジット候補情報がテロップ読み取り結果統合手段 650へ出力される。主題歌 背景映像生成手段 620と主題歌背景差分映像生成手段 630の動作は、図 13のもの と同様である。また、第 2のテロップ読み取り手段 640の動作も図 13のテロップ読み 取り手段 640と同様であり、第 2のクレジット候補情報がテロップ読み取り結果統合手 段 650へ出力される。
[0128] テロップ読み取り結果統合手段 650では、第 1のクレジット候補情報と第 2のクレジ ット候補情報を統合し、クレジット候補情報を生成して出力する。統合方法としてはい くつか考えられるが、例えば、両者の候補情報を合わせて候補情報として出力する 方法、両者のうち、テロップ認識の信頼度が高い方を候補情報として出力する方法、 両者のうち、信頼度が一定の基準より高いものをすベて候補情報として出力する方 法などがある。これ以外にも、両者を統合して出力を生成する方法であれば、どのよ うな方法でもよい。
[0129] 図 15のクレジット情報読み取り手段 600では、通常の画像データか主題歌背景差 分の画像データのどちらかで正しく読み取れればよいため、図 12や図 13のように単 独で用いる場合に比べ、認識精度を向上できる。
[0130] 本説明のクレジット情報読み取り手段 600は、第 1の読み取り手段での読み取り結 果と第 2の読み取り手段での読み取り結果とのうち、信頼度が高い方を選択してマー ジしているので、どちらか一方のみを用いた場合よりも読み取り精度を向上することが できる。例えば、背景の主題歌で毎回同じ位置に同じクレジット情報が重畳される場 合には、背景差分ではクレジット文字列が抽出できないため、直接テロップを読み取 つた方が精度がよい。一方、テロップ重畳位置や内容が毎回異なる場合には、背景 が複雑で通常のテロップ読み取りができない場合であっても、背景差分を読み取るこ とで、クレジット情報の読み取れるようになる。このようにして、両者をマージすることで クレジット読み取りの精度を向上することができる。 [0131] <第 2の実施の形態〉
本発明の第 2の実施の形態について図面を参照して詳細に説明する。
[0132] 図 16を参照すると、本発明の第 2の実施の形態の一例が示されており、クレジット 情報認識手段 100と、対象物認識手段 105と、統合手段 103とを含む。
[0133] クレジット情報認識手段 100は、番組映像を入力とし、その出力は統合手段 103へ 接続される。対象物認識手段 105は、番組映像を入力とし、その出力は、統合手段 1
03へ接続される。統合手段 103は、クレジット情報認識手段 100の出力と対象物認 識手段 105の出力を入力とし、権利情報を出力する。
[0134] 次に、第 2の実施の形態の動作について説明する。
[0135] 番組映像は、クレジット情報認識手段 100と対象物認識手段 101とへ入力される。
[0136] クレジット情報認識手段 100の動作は、上述した第 1の実施の形態又は実施例のも のと同様であり、クレジット候補情報を統合手段 103へ出力する。
[0137] 対象物認識手段 105は、コンテンツ内の権利に関する対象物を認識する手段であ り、対象物とは、コンテンツ内の音楽著作物や、登場人物等である。
[0138] 例えば、対象物が音楽著作物の場合、番組映像から音響特徴量を抽出し、既にデ ータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体で はなぐ一部区間のみの照合も許可して照合を行う。照合した結果、データベース内 の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報 (例 えば楽曲に付与された ID)を出力する。同じ楽曲でも複数の音源がデータベースに 登録されており、それらの一つが照合された場合には、その音源を特定する情報も 含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合 区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確か らしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対 して 1つだけ出力するようになっていてもよいし、複数の候補を出力するようになって いてもよい。また、抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチ ングしない場合には、その音響特徴量を含む映像区間を特定する情報を音楽識別 情報に含めて出力するようになっていてもよい。さらに、この区間の音響信号を一緒 に出力するようになっていてもよい。このようにして求められた音楽識別情報は、統合 手段 103へ出力される。
[0139] また、対象物が登場人物である場合、映像中に出現する登場人物の人物特徴量を 抽出 '照合する。すなわち、映像情報から人物特徴量を抽出し、既にデータベースに 登録されている人物特徴量と照合する。照合した結果、データベース内の人物と同 一であると判定された場合には、その人物を特定する人物識別情報 (例えば人物に 付与された ID)を出力する。また、人物識別の確力もしさを表す指標も合わせて含ん でいてもよい。また、人物識別情報は、各登場人物に対して 1つだけ出力するように なっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した 人物特徴量が、照合を試行したレ、ずれの人物特徴量ともマッチングしな!/、場合には 、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を人 物識別情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体も合 わせて出力してもよい。このようにして求められた人物識別情報は、統合手段 103へ 出力される。ここで、人物特徴量としては、顔を記述する特徴量であってもよいし、人 の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよく 、また、人物の識別に用いることができる他の特徴量であってもよい。
[0140] 統合手段 103は、クレジット情報認識手段 100から出力されるクレジット候補情報、 対象物認識手段 105から出力される対象物識別情報を統合し、権利情報として出力 する。
[0141] 統合手段 103の統合の方法であるが、単純に、クレジット情報認識手段 100から出 力されるクレジット候補情報と、対象物認識手段 105から出力される対象物識別情報 とを出力する方法が考えられる。
[0142] また、統合の他の方法として、クレジット情報認識手段 100から出力されるクレジット 候補情報と、対象物認識手段 105から出力される対象物識別情報とを照合し、グノレ ープ化して出力する方法が考えられる。このときに信頼度に応じて優先順位をつけて もよい。また、信頼度が最も高いものを選択する、あるいは、信頼度が一定以上のも のを選択するようにしても良レ、。
[0143] 照合の方法として、対象物が音楽の場合、識別された楽曲の中から、連続音響の 長さから主題歌/テーマソングを選択する。選択された楽曲のタイトルやその属性情 報 (作詞者、作曲者、あるいは歌手、演奏家名)と、クレジット候補情報の音楽情報と を照合し、一致度がある一定以上の場合に同一楽曲とみなす方法がある。また、番 組中での出現時刻を考慮し、主題歌かどうかを判定 (すなわち、番組の冒頭に近い 位置あるいは最後に近い位置で出現するかどうかを判定)し、上記と同じ基準で重複 を判定する方法もある。
[0144] 更に、対象物が人物の場合、単純に人物識別の結果得られた名前と、クレジット候 補情報から得られた出演者の名前を照合し、一致度がある一定以上の場合に同一 人物とみなす方法がある。例えば、文字の数が一定以上一致する場合、あるいは、 文字の形状の類似度が名前全体で一定以上になる場合に同一人物とみなす。この 際、一致した文字の汎用度を考慮して類似度を判定してもよい。例えば、「木村」より も「拓也」のほうが同じ 2文字でも人物を特定しやすいため、後者のほうを類似度が高 いと判定するようにしてもよい。この判定には、 TF'IDF法などの方法を用いることがで きる。また、人物識別の結果から、同じ人物と判定される人物識別情報をグループ化 して出演頻度あるいは出演時間を算出あるいは推定し、主役級力、どうかを判定し、ク レジット候補情報での出現順や、出現パターン (脇役は複数まとめて表示されるのに 対し、主役級は単独で表示される、あるいは、ロールテロップの場合は、主役級の場 合は前後と間隔を空けて表示される)を考慮して、同一人物かどうかを判定する方法 もめる。
[0145] このような照合方法を用いて、クレジット候補情報と対象物識別情報とをグループ化 し、権利情報として出力する。
[0146] 次に、本発明の第 2の実施の形態の効果について説明する。
[0147] 第 2の実施の形態では、クレジット情報認識手段と対象物認識手段とを独立に動か し、これらの結果を統合することによって、クレジット候補情報のみの場合と比べて、よ り正確に権利に関する情報を知ることができる。
[0148] <第 3の実施の形態〉
第 3の実施の形態を説明する。
[0149] 第 3の実施の形態は、上述した第 1の実施の形態と第 2の実施の形態とを組み合わ せたものであり、更に、対象物認識手段 105がクレジット情報認識手段からのクレジッ ト候補情報を用いることを特徴とする。尚、以下の説明では、対象物認識手段の例と して、音楽著作物認識手段 101と、登場人物認識手段 102との例を示す。
[0150] 図 17を参照すると、本発明の第 3の実施の形態は、クレジット情報認識手段 100と 、音楽著作物認識手段 101と、登場人物認識手段 102と、統合手段 103とを含む。ク レジット情報認識手段 100は、番組映像を入力とし、その出力は、音楽著作物認識 手段 101と、登場人物認識手段 102と、統合手段 103へ接続される。音楽著作物認 識手段 101は、番組映像とクレジット情報認識手段 100の出力とを入力とし、その出 力は、統合手段 103へ接続される。登場人物認識手段 102は、番組映像とクレジット 情報認識手段 100の出力とを入力とし、その出力は、統合手段 103へ接続される。 統合手段 103へは、クレジット情報認識手段 100と音楽著作物認識手段 101と登場 人物認識手段 102の出力が接続され、権利情報を出力する。
[0151] 次に、図 17の実施の形態の動作について説明する。
[0152] 番組映像は、クレジット情報認識手段 100と、音楽著作物認識手段 101と、登場人 物認識手段 102とへ入力される。これらの 3つの手段のうち、まず、クレジット情報認 識手段 100によって番組映像が解析される。
[0153] クレジット情報認識手段 100では、入力される番組映像を解析し、映像中に重畳さ れているクレジット情報を読み取り、クレジット情報の候補となる情報を出力する。
[0154] ここで、クレジット情報とは、上述したように、番組の主題歌や最後の部分に重畳さ れている、原作者や脚本家、出演者、主題歌などの情報を記したテロップや音声で ある。また、番組映像は、 MPEGなどの圧縮されたフォーマットで入力されてもよいし、 既に復号されてから入力されてもょレ、。圧縮された映像として入力される場合には、 クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、 ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の 映像を同時に入力する構成になって!/、てもよレ、。
[0155] クレジット情報認識手段 100では、番組映像中からクレジット情報が重畳されている 情報重畳区間を抽出する。次に、クレジット情報重畳区間に含まれる映像を解析し、 映像からテロップ情報を読み取る。そして、その結果をクレジット候補情報として出力 する。クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情 報(フレーム内での座標)を含んでいてもよい。また、テロップの認識の確からしさを表 す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対し て 1つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するよう になっていてもよい。このようにして求められたクレジット候補情報は、統合手段 103 へ出力されるとともに、音楽著作物認識手段 101、登場人物認識手段 102へも出力 される。
[0156] 尚、クレジット情報認識手段 100は、上述した具体的な構成のいずれかを用いるこ とが可能である。
[0157] 音楽著作物認識手段 101では、入力される番組映像とクレジット候補情報とを解析 し、映像中で使われている音楽情報を抽出 ·照合する。すなわち、まず番組映像から 音響特徴量を抽出し、次に既にデータベースに登録されている音響特徴量と照合す る。この際、音楽著作物の全体ではなぐ一部区間のみの照合も許可して照合を行う 。また、クレジット候補情報から音楽に関連する情報を抽出し、照合に用いるデータ ベースの制御、あるいは、照合時のパラメータの調整に用いる。照合した結果、デー タベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識 別情報 (例えば楽曲に付与された ID)を出力する。同じ楽曲でも複数の音源がデー タベースに登録されており、それらの一つが照合された場合には、その音源を特定 する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には 、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽 識別の確力もしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、 各楽曲に対して 1つだけ出力するようになっていてもよいし、複数の候補を出力する ようになつていてもよい。このようにして求められた音楽識別情報は、統合手段 103へ 出力される。
[0158] 登場人物認識手段 102では、入力される番組映像とクレジット情報とを解析し、映 像中に出現する登場人物の人物特徴量を抽出 '照合する。すなわち、まず映像情報 から人物特徴量を抽出し、次に既にデータベースに登録されている人物特徴量と照 合する。この際、クレジット候補情報力も登場人物に関連する情報を抽出し、照合に 用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。そして、 この照合結果を人物識別情報として出力する。照合した結果、データベース内の人 物と同一であると判定された場合には、その人物を特定する人物識別情報 (例えば 人物に付与された ID)を出力する。また、人物識別の確からしさを表す指標も合わせ て含んでいてもよい。また、人物識別情報は、各登場人物に対して 1つだけ出力する ようになつていてもよいし、複数の候補を出力するようになっていてもよい。このように して求められた人物識別情報は、統合手段 103へ出力される。
[0159] ここで、人物特徴量としては、顔を記述する特徴量であってもよ!/、し、人の声の特徴 量であってもよい。あるいは、これらを組み合わせた特徴量であってもよぐまた、人 物の識別に用いることができる他の特徴量であってもよい。
[0160] 統合手段 103では、クレジット情報認識手段 100から出力されるクレジット候補情報 、音楽著作物認識手段 101から出力される音楽識別情報、登場人物認識手段 102 力 出力される人物識別情報を統合し、権利情報として出力する。
[0161] 統合の方法は、上述した第 2の実施の形態における統合手段 103で説明した手法 を用いても良いし、認識された文字列とその位置の関係から、原作や脚本家、出演 者など権利対象の種別ごとに対応付け、権利情報として出力するようにしても良い。
[0162] また、音楽著作物の場合には、認識された音楽タイトルや音楽識別情報を各楽曲 に対して出力する。あるいは、各楽曲の著作権情報を格納したデータベースにァクセ スができる場合には、音楽識別情報からその音楽に付随する権利情報を求め、これ を出力してもよい。人物については、人物識別情報をそのまま出力してもよいし、そ れと合わせて人物名を出力するようにしてもよい。なお、これらの権利情報は、最終 的には 1つに絞り込まずに、候補を全て出力するようにし、最終的には人が確認する ようにしてもよい。これにより、認識された権利情報が誤っている場合の訂正が容易に なる。
[0163] <音楽著作物認識手段 101の構成例〉
( 1)音楽著作物認識手段 101の具体的な構成例 1
図 18を参照すると、音楽著作物認識手段 101の構成例が示されており、楽曲候補 抽出手段 800と候補音響特徴量選択手段 801と音楽著作物照合手段 802と楽曲音 響特徴量データベース 803とからなる。楽曲候補抽出手段 800は、クレジット候補情 報を入力とし、楽曲候補情報を候補音響特徴量選択手段 801へ出力する。候補音 響特徴量選択手段 801は、楽曲候補抽出手段 800から出力される楽曲候補情報に 基づいて楽曲音響特徴量データベース 803から楽曲音響特徴量を選択し、候補音 響特徴量を音楽著作物照合手段 802へ出力する。音楽著作物照合手段 802は、番 組映像と候補音響特徴量選択手段 801から出力される候補音響特徴量を入力とし、 音楽識別情報を出力する。
[0164] 次に、図 18の音楽著作物認識手段 101の動作について述べる。
[0165] クレジット候補情報は、楽曲候補情報抽出手段 800へ入力される。楽曲候補情報 抽出手段 800では、クレジット候補情報から、主題歌ゃ揷入歌など、番組中で使われ ている楽曲に関する候補情報を抽出する。例えば、「主題歌」や「揷入歌」、「テーマ ソング」など、楽曲に関するキーワードを登録しておき、これらのキーワードが検出さ れた場合には、これと並んで表示されるかある!/、は続けて表示される文字列の認識 結果を楽曲候補情報として抽出する。ここで得られる情報は、楽曲の題名、歌手ゃ演 奏家の名前、作詞 ·作曲家の名前などである。そして、得られた楽曲候補情報を候補 音響特徴量選択手段 801へ出力する。
[0166] 候補音響特徴量選択手段 801では、楽曲音響特徴量データベース 803から、得ら れた楽曲候補情報と一致するか、あるいは類似する題名や人名と関連付けられた楽 曲の特徴量を選択する。そして、選択された音響特徴量データを候補音響特徴量と して音楽著作物照合手段 802へ出力する。
[0167] 音楽著作物照合手段 802では、まず、番組映像から音響特徴量を抽出する。この 音響特徴量と候補音響特徴量選択手段 801から出力される候補音響特徴量とを照 合し、照合された場合には、その音楽の識別情報を出力する。この際、音楽著作物 の全体ではなぐ一部区間のみの照合も許可して照合を行う。
[0168] このように、図 18の音楽著作物認識手段 101は、クレジットの情報が完全に読み取 れなくても、実際に使われている楽曲を特徴量同士で照合することで、楽曲に関する 著作権情報抽出の精度を向上できる。
[0169] (2)音楽著作物認識手段 101の具体的な構成例 2
図 19を参照すると、音楽著作物認識手段 101の他の構成例が示されており、音楽 関連制作情報抽出手段 820と音楽著作物照合パラメータ選択手段 821と音楽著作 物照合手段 822と音楽著作物照合パラメータデータベース 823と楽曲音響特徴量デ ータベース 803とからなる。音楽関連制作情報抽出手段 820は、クレジット候補情報 を入力とし、音楽関連制作情報を音楽著作物照合パラメータ選択手段 821へ出力す る。音楽著作物照合パラメータ選択手段 821は、音楽関連制作情報抽出手段 820か ら出力される音楽関連制作情報を入力とし、音楽著作物照合パラメータデータべ一 ス 823から音楽著作権照合パラメータを選択し、音楽著作物照合手段 822へ出力す る。音楽著作物照合手段 822は、番組情報と音楽著作物照合パラメータ選択手段 8 21から出力される音楽著作物照合パラメータと楽曲音響特徴量データベース 803に 格納された楽曲音響特徴量とを入力とし、音楽識別情報を出力する。
[0170] 次に、図 19の音楽著作物認識手段 101の動作について述べる。
クレジット候補情報は、音楽関連制作情報抽出手段 820へ入力される。音楽関連 制作情報抽出手段 820では、音楽関連制作情報をクレジット候補情報力 抽出する 。ここで、音楽関連制作情報とは、番組制作における音楽関連の情報であり、音楽の 担当者、音楽協力を行ったレコード会社、選曲を担当した人物などである。これも、 前述の楽曲候補情報抽出手段 800と同様に、「音楽」、「選曲」などといったキーヮー ドを登録しておき、これらのキーワードが検出された場合には、これと並んで表示され るかあるいは続けて表示される文字列の認識結果を音楽関連制作情報として抽出す る。そして、抽出結果を音楽制作関連情報として音楽著作物照合パラメータ選択手 段 821へ出力する。
[0171] 音楽著作物照合パラメータ選択手段 821では、入力される音楽関連制作情報に応 じて、音楽著作物照合パラメータデータベース 823に格納されている音楽著作物の 照合で使用するパラメータを選択する。あるいは、選択された情報に基づいて、音楽 著作物照合パラメータを制御する。例えば、音楽関連制作情報として抽出された文 字列がレコード会社の名前の場合には、そのレコード会社が持っている楽曲を優先 的に選択させるように音楽著作物照合パラメータを調整する。あるいは、レコード会社 ごとにグループ化されて、あるいはデータベースを分けて楽曲音響特徴量データべ ース 803に楽曲音響特徴量が格納されている場合には、そのグループやデータべ ースを指定するための情報を音楽著作物照合パラメータとして選択する。あるいは、 音楽関連制作情報が、 BGMなどの楽曲の選定に関わった人や団体名である場合 には、その人の過去の楽曲使用履歴に応じて、音楽著作物照合パラメータを調整す るようになっていてもよい。このようにして選択された音楽著作物照合パラメータは、 音楽著作物照合手段 822へ入力される。
[0172] 音楽著作物照合手段 822の動作は、基本的に図 18の音楽著作物照合手段 802 の動作と同様である。違いは、さらに音楽著作物照合パラメータ選択手段 821から音 楽著作物照合パラメータが入力され、これによつて照合のパラメータを調整できるよう になっている点である。照合の結果は、音楽識別情報として出力される。
[0173] 図 19の音楽著作物認識手段 101により、照合パラメータを調整することで、認識の 精度を高めることが可能になる。
[0174] ここで、図 19の音楽著作物認識手段 101における音楽著作物照合手段 822につ いて、更に、詳細に説明する。
[0175] 図 20を参照すると、音楽著作物照合手段 822の実施の形態の一例が示されており 、音声重畳判定手段 950と音響特徴量照合手段 951とからなる。音声重畳判定手段 950は、番組映像を入力とし、音声重畳区間時刻情報を音響特徴量照合手段 951 へ出力する。音響特徴量照合手段 951は、番組映像と音声重畳判定手段 950から 出力される音声重畳区間時刻情報と、音楽著作物照合パラメータとを入力とし、音声 識別情報を出力する。
[0176] 次に、図 20の音楽著作物照合手段 822の動作について述べる。
[0177] 番組映像は、音声重畳判定手段 950へ入力される。音声重畳判定手段 950では、 音響信号を解析し、音声が重畳されているかどうかを判定する。例えば、音響信号の 周波数解析を行い、人間の声に近い特性を有する場合には、音声が重畳されている と判定する。これ以外にも、音声の重畳を判定可能な方法であれば、どのような方法 も用いること力 Sできる。音声が重畳していると判定された場合には、音声が重畳して いる区間の時間情報(区間開始点、終了点、区間時間長など)を音声重畳区間時刻 情報として音響特徴量照合手段 951へ出力する。
[0178] 音響特徴量照合手段 951では、入力される映像番組から音響特徴量を抽出し、候 補音響特徴量と照合する。この際、音声重畳判定手段 950から出力される音声重畳 区間時刻情報を用い、照合方法を調整する。例えば、音声が重畳している区間を省 いて照合を行う、音声が重畳している区間では、音声周波数帯域の重みを低くして 照合を行うなどの方法が考えられる。また、音楽著作物照合パラメータも入力されるよ うになつており、これを用いて照合方式を調整するようになっていてもよい。照合の結 果は音楽識別情報として出力される。
[0179] 図 20の音楽著作物照合手段 822は、音声情報が BGMに力、かった場合でもその 影響を小さく抑え、認識精度を向上できる。
[0180] <登場人物認識手段 102の構成例〉
( 1 )登場人物認識手段 102の具体的な構成例 1
図 21を参照すると、登場人物認識手段 102の実施の形態の一例が示されており、 出演者候補情報抽出手段 900と候補人物特徴量選択手段 901と出演者照合手段 9 02と人物特徴量データベース 903とからなる。出演者候補情報抽出手段 900は、ク レジット候補情報を入力とし、出演者候補情報を候補人物特徴量選択手段 901へ出 力する。候補人物特徴量選択手段 901は、出演者候補情報抽出手段 900から出力 される出演者候補情報を入力とし、人物特徴量データベース 903から候補人物特徴 量を選択し、出演者照合手段 902へ出力する。出演者照合手段 902は、番組映像と 候補人物特徴量選択手段 901から出力される候補人物特徴量を入力とし、人物識 別情報を出力する。
[0181] 次に、図 21の登場人物認識手段 102の動作について述べる。
[0182] クレジット候補情報は、出演者候補情報抽出手段 900へ入力される。出演者候補 情報抽出手段 900では、クレジット候補情報から、出演者に相当する部分を抽出し、 出演者候補情報として出力する。具体的には、配役名と推定される名前と一緒に記 されて!/、る人物名を抽出する、「出演」とレ、う単語と同時かあるいはそれに続!/、て表示 される人物名を抽出する、クレジットに記載されている人物名から脚本家やプロデュ ーサ一など、番組に明らかに出演していない人物名を判定し、これらを除いた人物 名を抽出するなどの方法が考えられる。抽出された出演者候補情報は、候補人物特 徴量選択手段 901へ出力される。 [0183] 候補人物特徴量選択手段 901では、人物特徴量データベース 903から、人名が一 致、あるいは近い人物の特徴量を選択する。この際、 1つの認識された人名候補に 対して 1つの人物特徴量を対応付けて出力する必要はなぐ複数の類似した名前を 有する人物の人物特徴量を出力するようになっていてもよい。選択された候補人物 特徴量は、出演者照合手段 902へ出力される。
[0184] 出演者照合手段 902では、まず、入力される番組映像から人物特徴量を抽出する 。例えば、人物特徴量が顔特徴量の場合には、映像に対して顔検出を行い、次に、 検出された領域の顔特徴量を算出する。あるいは、人物特徴量が音声特徴量の場 合には、まず、音声を含む区間を抽出し、次に、この区間の音声の特徴量を抽出す る。抽出された人物特徴量は、候補人物特徴量選択手段 901から入力される候補人 物特徴量の各々と照合される。照合の結果、同一と判定された場合には、その人物 を識別するための情報を人物識別情報として出力する。
[0185] 図 21に示す登場人物認識手段 102では、クレジット情報が完全に正確には認識で きなかった場合や同姓同名などで曖昧な場合であっても、実際の人物特徴量を照合 することで、出演者情報を正しく抽出することを可能にする。
[0186] (2)登場人物認識手段 102の具体的な構成例 2
図 22を参照すると、登場人物認識手段 102の実施の形態の一例が示されており、 出演者所属団体抽出手段 920と出演者照合パラメータ選択手段 921と出演者照合 手段 922と人物特徴量データベース 903と人物照合パラメータデータベース 923と 力 なる。
[0187] 出演者所属団体抽出手段 920は、クレジット候補情報を入力とし、出演者所属関 連情報を出演者照合パラメータ選択手段 921へ出力する。出演者照合パラメータ選 択手段 921は、出演者所属団体抽出手段 920から出力される出演者所属関連情報 を入力とし、人物照合パラメータデータベース 923から出演者照合パラメータを選択 し、出演者照合手段 922へ出力する。出演者照合手段 922は、番組映像と出演者照 合パラメータ選択手段 921から出力される出演者照合パラメータと人物特徴量デー タベース 903に格納されている人物特徴量を入力とし、人物識別情報を出力する。
[0188] 次に、図 22の登場人物認識手段 102の動作について述べる。 [0189] クレジット候補情報は出演者所属団体抽出手段 920へ入力される。出演者所属団 体抽出手段 920では、クレジット候補情報から、劇団名や芸能プロダクション名など、 出演者の所属に関連する情報を抽出する。具体的には、出演者の所属情報の辞書 を用意し、この辞書に登録されている名前と照合することで抽出できる。抽出された 結果は、出演者所属関連情報として出演者照合パラメータ選択手段 921へ出力され
[0190] 出演者照合パラメータ選択手段 921では、人物照合パラメータデータベース 923か ら出演者照合パラメータを選択する。例えば、所属団体ごとにグループ化されて、あ るいはデータベースを分けて人物特徴量データベース 903に人物特徴量が格納さ れて!/、る場合には、そのグループやデータベースを指定するための情報を出演者照 合パラメータとして選択する。選択された出演者照合パラメータは出演者照合手段 9 22へ出力される。
[0191] 出演者照合手段 922の動作は、基本的に図 21の出演者照合手段 902の動作と同 様である。違いは、さらに出演者照合パラメータ選択手段 921から出力される出演者 照合パラメータが入力され、これによつて照合のパラメータを調整できるようになって いる点である。照合の結果は、人物識別情報として出力される。
[0192] 図 22の登場人物認識手段 102により、クレジットには劇団名などの団体名しか記載 されていない場合であっても、その団体に所属する誰が出演した力、を効率的に抽出 することが可能になる。
[0193] 本発明の第 3の実施の形態の効果について説明する。
[0194] 本実施の形態では、映像中からクレジットの重畳区間を求め、テロップ認識を行うた め、権利情報として重要なクレジット情報を直接得ることができる。また、重畳区間の みに処理を絞っているため、番組全体にテロップ認識を行う場合に比べ、演算負荷 を低減できる。
[0195] また、音楽著作物の識別にも、このクレジット情報を用いるため、通常の音楽識別に 比べ、識別の精度を高めることができる。また、登場人物の識別にも、クレジット情報 を用いるため、単体の人物識別に比べ、識別の精度を高めることができる。
[0196] 尚、上述した説明では、対象物認識手段の例として、音楽著作物認識手段 101と、 登場人物認識手段 102との例を示したが、この例に限ることなぐ例えば、図 23、図 2 4のようにいずれかの一方のみを用いる構成としても良い。また、対象物認識手段は 、上述した各具体的な構成のものを組み合わせて用いても良!/、。
本出願は、 2006年 10月 26日に出願された特願 2006— 291442号を基礎とする 優先権を主張し、その開示の全てをここに取り込む。

Claims

請求の範囲
[1] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力するクレジット情報認識手段を有することを特徴とする権利情報抽出装置。
[2] コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、 コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力するクレジット情報認識手段と、
前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結 果を対象物識別情報として出力する対象物認識手段と、
前記クレジット候補情報と、前記対象物識別情報とを統合し、権利情報として出力 する統合手段と
を有することを特徴とする権利情報抽出装置。
[3] コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、 コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力するクレジット情報認識手段と、
前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に 関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手 段と、
前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力す る統合手段と
を有することを特徴とする権利情報抽出装置。
[4] 前記クレジット情報認識手段は、コンテンツ中でクレジット情報が含まれているタレ ジット情報区間を検出するクレジット情報区間検出手段と、
前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報と して出力するクレジット情報読取手段と
を有することを特徴とする請求項 1から請求項 3のいずれかに記載の権利情報抽出 装置。
[5] 前記クレジット情報区間検出手段は、クレジット情報が映像に重畳されている映像 区間をコンテンツから検出し、その映像区間の映像データであるクレジット情報区間 映像データを出力することを特徴とする請求項 4または 5に記載の権利情報抽出装 置。
[6] 前記クレジット情報区間検出手段は、前記コンテンツから音響区間を検知し、音響 区間情報として出力する音響検知手段と、
前記音響区間情報によって特定される前記コンテンツの区間を前記クレジット情報 区間として出力する手段と
を有することを特徴とする請求項 4に記載の権利情報抽出装置。
[7] 前記音響検知手段は、
コンテンツ中の連続的な音響情報の持続時間を計測し、連続音響時間として出力 する連続音響時間計測手段と、
前記連続音響時間を用いて音響区間を判定し、音響区間情報として出力する音響 区間判定手段と
を有することを特徴とする請求項 6に記載の権利情報抽出装置。
[8] 前記音響検知手段は、
前記コンテンツを構成する複数のコンテンツの各回のそれぞれに対して音響特徴 量の抽出し、音響特徴量として出力する音響特徴量抽出手段と、
前記音響特徴量間で音響特徴量の照合を行い、音響特徴量が共通である区間を 特定することによって音響部分を検知し、音響区間情報として出力する音響特徴量 照合手段と
を有することを特徴とする請求項 6又は請求項 7に記載の権利情報抽出装置。
[9] 前記クレジット情報区間検出手段は、
テロップ候補領域が連続的に出現する映像区間を前記コンテンツから検出し、この 映像区間を連続テロップ出現区間情報として出力する連続テロップ検知手段と、 前記連続テロップ出現区間情報によって特定される前記番組映像の映像区間を前 記クレジット情報区間映像データとして出力する手段と
を有することを特徴とする請求項 5に記載の権利情報抽出装置。
[10] 前記クレジット情報区間検出手段は、
前記コンテンツからロールテロップを検知し、この映像区間の時刻情報をロールテ ロップ区間情報として出力するロールテロップ検知手段と、
前記ロールテロップ区間情報によって特定される前記コンテンツの映像区間を前記 クレジット情報区間映像データとして出力する手段と
を有することを特徴とする請求項 5に記載の権利情報抽出装置。
[11] 前記クレジット情報読取手段は、前記クレジット情報区間映像データにテロップ認 識を行って前記クレジット候補情報を出力することを有することを特徴とする請求項 5 に記載の権利情報抽出装置。
[12] 前記クレジット情報読取手段は、
複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のク レジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出 力する音響背景映像生成手段と、
前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背 景差分映像を生成して出力する音響背景差分映像生成手段と、
前記音響背景差分映像にテロップ認識を適用して前記クレジット候補情報を取得し て出力するテロップ読み取り手段と
を有することを特徴とする請求項 5に記載の権利情報抽出装置。
[13] 前記クレジット情報読取手段は、
前記クレジット情報区間映像データにテロップ認識を適用して第 1のクレジット候補 情報を取得して出力する第 1のテロップ読み取り手段と、
複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のク レジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出 力する音響背景映像生成手段と、
前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背 景差分映像を生成して出力する音響背景差分映像生成手段と、
前記音響背景差分映像にテロップ認識を適用して第 2のクレジット候補情報を取得 して出力するテロップ読み取り手段と、
前記第 1のクレジット候補情報と前記第 2のクレジット候補情報とを統合して、クレジ ット候補情報を求め、出力するテロップ読み取り結果統合手段と を有することを特徴とする請求項 5に記載の権利情報抽出装置。
[14] 前記音響背景映像生成手段は、
前記クレジット情報区間映像データの各回のそれぞれに対して視覚特徴量を抽出 し、音響背景視覚特徴量として出力する視覚特徴量抽出手段と、
前記音響背景視覚特徴量間で視覚特徴量の照合を行い、背景が共通である映像 フレームを対応付け、フレーム対応情報として出力する対応フレーム算出手段と、 前記フレーム対応情報で対応付けられる各回のフレーム間で画素値の統計処理を 行って音響背景の各画素の値を算出し、音響背景映像を生成し、出力する背景映 像生成手段と
を有することを特徴とする請求項 12又は請求項 13に記載の権利情報抽出装置。
[15] 前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、 前記統計処理としてメディアンを用いることを特徴とする請求項 14に記載の権利情 報抽出装置。
[16] 前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、 前記統計処理として、前記画素値の近隣の画素値情報から前記画素値がテロップ 領域に該当する可能性を現す指標を算出し、前記指標が小さいほど大きな加重をか けて統計処理を行うことを特徴とする請求項 14に記載の権利情報抽出装置。
[17] 前記クレジット情報認識手段は、
読み取れな力、つたクレジット候補領域が存在した場合には、そのクレジット候補領域 を含む映像中の時空間位置を特定する情報を前記クレジット候補情報とともに出力 することを特徴とする請求項 1から請求項 16のいずれかに記載の権利情報抽出装置
[18] 前記対象物認識手段は、コンテンツの音響特徴量を解析し、前記音響特徴量と前 記クレジット候補情報とに基づいて、コンテンツの音楽著作物を認識し、結果を音楽 識別情報として出力する音楽著作物認識手段であることを特徴とする請求項 2から請 求項 4のいずれかに記載の権利情報抽出装置。
[19] 前記対象物認識手段は、コンテンツの人物特徴量を解析し、前記人物特徴量と前 記クレジット候補情報とに基づいて、コンテンツの登場人物を認識し、結果を出演者 識別情報として出力する登場人物認識手段であることを特徴とする請求項 2から請求 項 4のいずれかに記載の権利情報抽出装置。
[20] 前記音楽著作物認識手段は、
前記クレジット候補情報力 使用楽曲の候補情報を抽出し、使用楽曲候補情報とし て出力する楽曲候補情報抽出手段と、
前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから 選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
前記候補音響特徴量と前記コンテンツ力 抽出される音響特徴量とを照合し、一致 したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段と を有することを特徴とする請求項 18に記載の権利情報抽出装置。
[21] 前記音楽著作物認識手段は、
前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコ ード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報 抽出手段と、
前記音楽関連制作情報に応じて、音楽照合に用いる変数や楽曲データベースの 選択情報などの照合パラメータを選択する音楽著作物照合パラメータ選択手段と、 前記照合パラメータを用いて、楽曲音響特徴量データベース内の音響特徴量と前 記コンテンツから抽出される音響特徴量とを照合し、一致したと判定された場合には その音楽識別情報を出力する音楽著作物照合手段と
を有することを特徴とする請求項 18に記載の権利情報抽出装置。
[22] 前記音楽著作物照合手段は、
前記コンテンツを解析して音声が含まれる区間を判定し、その区間の時刻情報を 音声重畳区間時刻情報として出力する音声重畳判定手段と、
前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて 音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区 間においてのみ、前記音楽著作物照合パラメータを用いて前記候補音響特徴量と の照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段 と を有することを特徴とする請求項 20又は請求項 21に記載の権利情報抽出装置。
[23] 前記音楽著作物照合手段は、
前記コンテンツを解析して音声が含まれる音声重畳区間を判定し、その区間の時 刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、
前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて 音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区 間においては前記音楽著作物照合パラメータを用いて前記候補音響特徴量との照 合を行い、前記音声重畳区間においては音声周波数帯の信号の影響を抑圧して前 記音楽著作物照合パラメータを用いて前記候補音響特徴量との照合を行い、照合 結果を前記音楽識別情報として出力する音響特徴量照合手段と
を有することを特徴とする請求項 20又は請求項 21に記載の権利情報抽出装置。
[24] 前記音楽著作物認識手段は、
前記番組映像から抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチ ングしない場合には、その音響特徴量を含む映像区間を特定する情報を前記音楽 識別情報とともに出力することを特徴とする請求項 18から請求項 23のいずれかに記 載の権利情報抽出装置。
[25] 前記登場人物認識手段は、
前記クレジット候補情報力 出演者に関する人物の候補情報を抽出し、出演者候 補情報として出力する出演者候補情報抽出手段と、
前記出演者候補情報に近い人物の人物特徴量を人物特徴量データベースから選 択し、候補人物特徴量として出力する候補人物特徴量選択手段と、
前記候補人物特徴量と前記コンテンツから抽出される人物特徴量とを照合し、一致 したと判定された場合にはその人物識別情報を出力する出演者照合手段と を有することを特徴とする請求項 19に記載の権利情報抽出装置。
[26] 前記登場人物認識手段は、
前記クレジット候補情報力 出演者の所属団体に関する情報を抽出し、出演者所 属関連情報として出力する出演者所属団体抽出手段と、
前記出演者所属関連情報に応じて照合パラメータを選択する出演者照合パラメ一 タ選択手段と、
前記照合パラメータを用いて、人物特徴量データベース内の人物特徴量と前記コ ンテンッから抽出される人物特徴量とを照合し、一致したと判定された場合にはその 人物識別情報を出力する出演者照合手段と
することを特徴とする請求項 19に記載の権利情報抽出装置。
[27] 前記人物特徴量が少なくとも人物の顔の特徴量を含むことを特徴とする請求項 19
、 25又は 26に記載の権利情報抽出装置。
[28] 前記人物特徴量が少なくとも人物の声の特徴量を含むことを特徴とする請求項 19
、 25又は 26に記載の権利情報抽出装置。
[29] 前記登場人物認識手段は、前記コンテンツから抽出した人物特徴量が、照合を試 行した!/、ずれの人物特徴量ともマッチングしな!/、場合には、その人物特徴量を含む 映像区間または映像中の時空間位置を特定する情報を前記人物識別情報とともに 出力することを特徴とする請求項 19、又は請求項 25から 28のいずれかに記載の権 利情報抽出装置。
[30] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力することを特徴とする権利情報抽出方法。
[31] コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、 コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理と、
前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結 果を対象物識別情報として出力する処理と、
前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力す る処理と
を有することを特徴とする権利情報抽出方法。
[32] コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、 コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理と、
前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に 関する対象物を認識して、その結果を対象物識別情報として出力する処理と、 前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力す る処理と
を有することを特徴とする権利情報抽出方法。
[33] 前記クレジット候補情報として出力する処理は、
コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理 と、
前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理と
を有することを特徴とする請求項 30から請求項 32のいずれかに記載の権利情報抽 出方法。
[34] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理を情報処理装置に実行させることを特徴とするプログラム。
[35] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理と、
前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結 果を対象物識別情報として出力する処理と、
前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力す る処理と
を情報処理装置に実行させることを特徴とするプログラム。
[36] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理と、
前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に 関する対象物を認識して、その結果を対象物識別情報として出力する処理と、 前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力す る処理と
を情報処理装置に実行させることを特徴とするプログラム。
[37] 前記クレジット候補情報として出力する処理は、 コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理 と、
前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報と して出力する処理と
を有することを特徴とする請求項 34から請求項 37のいずれかに記載のプログラム。
PCT/JP2007/070550 2006-10-26 2007-10-22 Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme WO2008050718A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008540979A JP5218766B2 (ja) 2006-10-26 2007-10-22 権利情報抽出装置、権利情報抽出方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006291442 2006-10-26
JP2006-291442 2006-10-26

Publications (1)

Publication Number Publication Date
WO2008050718A1 true WO2008050718A1 (fr) 2008-05-02

Family

ID=39324515

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/070550 WO2008050718A1 (fr) 2006-10-26 2007-10-22 Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme

Country Status (2)

Country Link
JP (1) JP5218766B2 (ja)
WO (1) WO2008050718A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010058509A1 (ja) * 2008-11-21 2010-05-27 日本電気株式会社 情報処理装置
JP2011004197A (ja) * 2009-06-18 2011-01-06 Toshiba Corp 録画再生装置及び再生方法
WO2019235138A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
WO2019235137A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
WO2020162220A1 (ja) * 2019-02-07 2020-08-13 日本電信電話株式会社 クレジット区間特定装置、クレジット区間特定方法及びプログラム
WO2020166382A1 (ja) * 2019-02-13 2020-08-20 日本電信電話株式会社 検出装置、検出方法およびプログラム
US11113519B2 (en) 2018-07-27 2021-09-07 Fujitsu Limited Character recognition apparatus, character recognition program, and character recognition method
EP4068272A4 (en) * 2019-11-26 2022-12-07 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328423A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像テロップ領域判別方法と装置と方法を記録した記録媒体
JP2002199407A (ja) * 2000-12-27 2002-07-12 Kddi Corp 動画像内のロールテロップ検出装置および記録媒体
JP2004363917A (ja) * 2003-06-04 2004-12-24 Pioneer Electronic Corp 音楽番組内容メニュー作成装置及び方法
JP2005110004A (ja) * 2003-09-30 2005-04-21 Casio Comput Co Ltd 画像処理装置、利用者端末装置及びプログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2006025120A (ja) * 2004-07-07 2006-01-26 Casio Comput Co Ltd 記録再生装置、遠隔制御装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002109254A (ja) * 2000-09-29 2002-04-12 Toshiba Corp デジタルコンテンツマネジメントシステム
JP2006080803A (ja) * 2004-09-08 2006-03-23 Toshiba Corp 番組記録装置および出演者リスト作成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328423A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像テロップ領域判別方法と装置と方法を記録した記録媒体
JP2002199407A (ja) * 2000-12-27 2002-07-12 Kddi Corp 動画像内のロールテロップ検出装置および記録媒体
JP2004363917A (ja) * 2003-06-04 2004-12-24 Pioneer Electronic Corp 音楽番組内容メニュー作成装置及び方法
JP2005110004A (ja) * 2003-09-30 2005-04-21 Casio Comput Co Ltd 画像処理装置、利用者端末装置及びプログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2006025120A (ja) * 2004-07-07 2006-01-26 Casio Comput Co Ltd 記録再生装置、遠隔制御装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KODERA N.: "Hanauta kara no Kensaku mo Kanoni? - Ongaku Business o Kasoku saseru Gracenote no Shingijutsu", 22 February 2006 (2006-02-22), Retrieved from the Internet <URL:http://www.web.archive.org/web/20060222012035> *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010058509A1 (ja) * 2008-11-21 2010-05-27 日本電気株式会社 情報処理装置
JP5304795B2 (ja) * 2008-11-21 2013-10-02 日本電気株式会社 情報処理装置
JP2011004197A (ja) * 2009-06-18 2011-01-06 Toshiba Corp 録画再生装置及び再生方法
JP7011170B2 (ja) 2018-06-05 2022-01-26 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
WO2019235138A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
JP2019213066A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
JP2019213065A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
WO2019235137A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
US11113519B2 (en) 2018-07-27 2021-09-07 Fujitsu Limited Character recognition apparatus, character recognition program, and character recognition method
WO2020162220A1 (ja) * 2019-02-07 2020-08-13 日本電信電話株式会社 クレジット区間特定装置、クレジット区間特定方法及びプログラム
JP7196656B2 (ja) 2019-02-07 2022-12-27 日本電信電話株式会社 クレジット区間特定装置、クレジット区間特定方法及びプログラム
JP2020129165A (ja) * 2019-02-07 2020-08-27 日本電信電話株式会社 クレジット区間特定装置、クレジット区間特定方法及びプログラム
JP2020135029A (ja) * 2019-02-13 2020-08-31 日本電信電話株式会社 検出装置、検出方法およびプログラム
WO2020166382A1 (ja) * 2019-02-13 2020-08-20 日本電信電話株式会社 検出装置、検出方法およびプログラム
JP7208499B2 (ja) 2019-02-13 2023-01-19 日本電信電話株式会社 検出装置、検出方法およびプログラム
US11728914B2 (en) 2019-02-13 2023-08-15 Nippon Telegraph And Telephone Corporation Detection device, detection method, and program
EP4068272A4 (en) * 2019-11-26 2022-12-07 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM

Also Published As

Publication number Publication date
JP5218766B2 (ja) 2013-06-26
JPWO2008050718A1 (ja) 2010-02-25

Similar Documents

Publication Publication Date Title
JP5218766B2 (ja) 権利情報抽出装置、権利情報抽出方法及びプログラム
US11960526B2 (en) Query response using media consumption history
US10133538B2 (en) Semi-supervised speaker diarization
JP4442081B2 (ja) 音声抄録選択方法
EP1547060B1 (en) System and method for generating an audio thumbnail of an audio track
US20070294295A1 (en) Highly meaningful multimedia metadata creation and associations
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
US20080187231A1 (en) Summarization of Audio and/or Visual Data
WO2008097051A1 (en) Method for searching specific person included in digital data, and method and apparatus for producing copyright report for the specific person
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
US9659595B2 (en) Video remixing system
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
US7934264B2 (en) Methods, systems, and computer program products for detecting alteration of audio or image data
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
Hoover et al. Putting a face to the voice: Fusing audio and visual signals across a video to determine speakers
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
JPH10187182A (ja) 映像分類方法および装置
JP5304795B2 (ja) 情報処理装置
Adami et al. The ToCAI description scheme for indexing and retrieval of multimedia documents
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
JP3891097B2 (ja) インデックス生成方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
BA MUSIC RECOGNITION USING AUDIO FINGERPRINTING
AU736314B2 (en) Audio spotting advisor
Doudpota Mining movie archives for song sequences

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07830284

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2008540979

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07830284

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)