WO2006028116A1 - 登場物推定装置及び方法、並びにコンピュータプログラム - Google Patents

登場物推定装置及び方法、並びにコンピュータプログラム Download PDF

Info

Publication number
WO2006028116A1
WO2006028116A1 PCT/JP2005/016395 JP2005016395W WO2006028116A1 WO 2006028116 A1 WO2006028116 A1 WO 2006028116A1 JP 2005016395 W JP2005016395 W JP 2005016395W WO 2006028116 A1 WO2006028116 A1 WO 2006028116A1
Authority
WO
WIPO (PCT)
Prior art keywords
appearance
unit
video
data
probability
Prior art date
Application number
PCT/JP2005/016395
Other languages
English (en)
French (fr)
Inventor
Naoto Itoh
Original Assignee
Pioneer Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corporation filed Critical Pioneer Corporation
Priority to US11/662,344 priority Critical patent/US7974440B2/en
Priority to EP05782070A priority patent/EP1802115A1/en
Priority to JP2006535776A priority patent/JP4439523B2/ja
Publication of WO2006028116A1 publication Critical patent/WO2006028116A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information

Definitions

  • the present invention relates to an appearance estimation apparatus and method, and a technical field of computer programs.
  • the recording device records a broadcast program, and at the same time, the occurrence time of each scene appearing in the program A scene index, which is information indicating the content, is created and distributed to the recording device. It is said that the user of the recording device can selectively reproduce only the desired desired scene of the recorded program based on the distributed scene index.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2002-262224
  • a scene index is created by inputting an appropriate scene index to a scene index distribution apparatus while an attendant watches a broadcast program.
  • the conventional technology requires the input of a scene index by a staff member for each broadcast program, resulting in an enormous physical, mental and economic burden, and it is extremely impractical!
  • the present invention has been made in view of the above-described problems, for example, and provides an appearance estimation apparatus and method, and a computer program that can improve the accuracy of identifying an appearance that appears in a video. Let it be an issue. Means for solving the problem
  • the appearance estimation apparatus of the present invention is an appearance estimation apparatus for estimating an appearance that appears in a recorded video, and the appearance that is set in advance for a predetermined type of item. Appearing in one unit video out of a plurality of unit videos obtained by dividing the video according to a predetermined kind of criteria from a database including a plurality of statistical data each having statistical properties And a data acquisition means for acquiring statistical data corresponding to a previously specified appearance, and the one unit video or the one unit video among the plurality of unit videos based on the acquired statistical data. And estimation means for estimating appearances in other unit videos that follow each other.
  • video means, for example, drama, movie, sports, animation, cooking, music
  • an analog or digital video related to various broadcasting programs such as terrestrial broadcasting, satellite broadcasting, or cable television broadcasting belonging to various genres such as information, preferably terrestrial digital broadcasting, etc.
  • images related to digital broadcasting programs refers to a personal image taken with a digital video camera or the like and a video having a specific purpose.
  • “appearance” in such a video means that, for example, a person, an animal or some object appearing in a drama or a movie, a sport player, an animation corresponding to a video of various genres. It is a concept that includes everything that appears in the video, such as a character, cook, singer, or youth caster.
  • “appearance” means, for example, that a person is taken as an example, the appearance is not limited to the state in which the appearance of the appearing person appears, but the appearance does not appear in the image. Both include the state in which the voice of the character or the sound emitted from the character is included. In other words, it is a concept that includes cases in which the viewer is reminded of the presence of an appearance.
  • the data acquisition means includes a plurality of statistical data each having a statistical property related to the appearance set in advance for a predetermined type of item.
  • Statistical data corresponding to the appearances specified in advance in one of the plurality of unit images obtained by dividing the image from the database according to a predetermined type of reference from the database. Is obtained.
  • “statistical data having statistical properties” refers to, for example, data including information estimated or inferred from past information stored in a certain amount. Alternatively, it refers to data that includes information that is calculated, calculated, or specified from past information accumulated to some extent. That is, “statistical data having statistical properties” typically relates to video. Indicates probability data representing the probability of occurrence of a certain event. Data having such statistical properties may be set for all of the appearances or for some of them.
  • statistical data is created based on the appearances identified by performing face recognition on a part of the video (for example, about 10% of the total). May be.
  • a part of the video is selected evenly distributed from the entire video other than the specific part.
  • the "predetermined type of item” is, for example, an item related to a single item such as "probability that character A appears in the first broadcast of drama program B", for example, "character A This refers to items that represent the relationship between the appearances, such as “probability that person and appearance person B are together”.
  • the "unit video” is a video obtained by dividing the video according to the present invention according to a predetermined type of standard. For example, in the case of a drama program, a single camera work is used. Images obtained (referred to as “shots” as appropriate in this specification), content-continuous images (referred to as “cuts” as appropriate in this specification), or the same space. Video (referred to as “scene” as a set of cuts as appropriate in this specification).
  • the “unit video” may be simply a video divided at a constant time interval. That is, the “predetermined type of reference” in the present invention can be freely determined as long as the video can be divided into units having some relationship with each other.
  • the data acquisition means acquires, from the database, statistical data corresponding to an appearance that has been specified to appear in one of the unit videos.
  • the mode of “specifying in advance” may be free without any limitation.
  • a production company that produces a broadcast program, for example, for each appropriate video unit (for example, one scene) It may be “specified” by distributing “Oh, ⁇ , and XX will appear in this scene” at the same time as video information or at an appropriate timing.
  • the appearance material is specified.
  • the estimation unit makes a series of the one unit video or the one unit video out of the one unit video based on the statistical data. Appearances in other unit videos are estimated.
  • estimating includes, for example, qualitative elements (for example, trends) and quantitative elements (for example, probabilities) represented by statistical data acquired by the data acquisition means.
  • qualitative elements for example, trends
  • quantitative elements for example, probabilities
  • statistical data acquired by the data acquisition means.
  • it means that it is determined that an appearance other than those already specified appears in one unit video or a unit video that is related to it. Or it refers to determining what (who) the appearance is not already specified. Therefore, it does not necessarily mean that the actual appearance in the unit video is specified accurately.
  • the data acquisition means For example, data indicating that “Appearance A is likely to appear in the same shot as Appearance B”, or statistics indicating that “Appearance B is likely to appear in this video” Data can be acquired and statistical judgment based on such data can be used to estimate that Appearance B appears in this shot!
  • a criterion for estimation by the estimation means based on the acquired statistical data may be freely set. For example, if the probability of an event represented by these acquired statistical data exceeds a predetermined threshold, it may be considered that the event has occurred. Or experimental, empirical, or simulation If the appearance material can be estimated more suitably than the acquired data power by various methods such as the above, the estimation may be performed by such a method.
  • the appearance estimation apparatus of the present invention even if it is an appearance that cannot be specified by a known recognition technique (for example, a horizontally-facing character), the concept is completely different from the conventional one. Its existence can be estimated by a statistical method, and the identification accuracy of the appearance can be remarkably improved.
  • a known recognition technique for example, a horizontally-facing character
  • the appearance estimation result by the estimation means may take a plurality of modes due to its nature. In this way, when the appearance material in one unit video is not uniquely estimated, the viewer may be able to arbitrarily select the estimation result.
  • estimation results may be provided in the order of V, based on their credibility!
  • the estimation by the estimation means is positive and the probability is significant, but the estimation is not performed even if the probability is not so high.
  • the present invention can be easily combined with a known recognition technique, as long as the estimation by the estimation means is a positive value larger than the correct probability power 0, compared to the case where the estimation is not performed, This is remarkably advantageous in improving the accuracy of identifying the appearing material in the video.
  • the appearance estimation device further includes an input unit that prompts input of data regarding the appearance desired to be viewed, and the data acquisition unit performs the input.
  • the statistical data is acquired based on data relating to the appearance material.
  • the viewer may de- Data can be input via the input means.
  • data relating to an appearance material desired to be viewed refers to data indicating that “actor 00 wants to see”, for example.
  • the data acquisition means acquires statistical data based on the input data. Therefore, it is possible to efficiently extract the part where the appearance material desired by the viewer appears or the part estimated to appear in the video.
  • the appearance estimation device further includes specifying means for specifying appearances in the one unit video based on a geometric feature of the one unit video.
  • Such identification means refers to means for identifying an appearance using the above-described face recognition technology, pattern recognition technology, or the like.
  • a specifying means within the specified limit, it is possible to specify a relatively highly reliable appearance, and it is possible to specify the appearance in a complementary manner with the estimation means. Is possible. Therefore, it is finally possible to identify the appearance material with high accuracy.
  • the estimation unit estimates an exhibit identified by the identification unit among the appearances in the one or other unit video.
  • the appearance material that is not specified by the specifying means is estimated.
  • the specifying means for example, if the credibility of specifying the appearance by the specifying means is higher than that of the estimation means, it is not necessary to estimate the appearance specified by the specifying means by the estimation means. Does not occur. According to this aspect, the processing load related to the appearance estimation by the estimation means can be reduced, which is effective.
  • Metadata refers to data describing content information about certain data. Digital video data can be accompanied by such metadata, and this metadata makes it possible to accurately retrieve information according to the viewer's request. According to this aspect, the appearance material in the unit video is estimated, and the metadata generation unit generates the metadata based on such an estimation result, so that the video editing can be suitably performed. is there. “Based on the estimation result” means the estimation means Metadata that describes only the estimation results obtained by the method may be generated, and metadata that includes information on the finally identified appearances, including those that have been identified to appear in advance. Is that it may be generated.
  • the metadata carries statistical data
  • the database can be configured to extract and store it.
  • the data acquisition means uses, as at least a part of the statistical data, probability data representing a probability that each of the appearances appears in the video. get.
  • the data acquisition means acquires the probability data representing the probability that each of the appearances appears in the video as at least a part of the statistical data, the appearance is estimated with high accuracy. It is possible.
  • the "video” mentioned here is a series of unit videos such as the above-mentioned shots, cuts or scenes, videos corresponding to one broadcast, or a series of several broadcasts. It may be all or at least a part of a minute video.
  • the data set for each of the appearances may not be set for all the appearances in the video.
  • the probability of appearing in the video may be set only for the appearance material that appears relatively frequently.
  • the data acquisition unit displays one of the appearances in the unit video as at least a part of the statistical data.
  • probability data representing the probability that the one appearance appears consecutively in M (M: natural number) unit videos that are mutually continuous with the unit video in which the one appearance appears is obtained. .
  • the appearance when one of the appearances appears in the unit video as at least part of the statistical data, the appearance is displayed as the unit video. Probability data representing the probability of appearing in M unit videos that are consecutive to each other is acquired, so that the appearance can be estimated with high accuracy.
  • the value of the variable M is appropriately determined in accordance with the nature of the video as long as it is a natural number and is not subject to any restrictions. For example, in the case of a drama If the value of M is too large, the probability will be almost zero, so multiple values of M may be set within the range where the data can be used effectively.
  • the data acquisition means displays one of the appearances in the unit video as at least a part of the statistical data.
  • probability data representing a probability that another appearance different from the one appearance appears in the unit video in which the one appearance appears appears (N: natural number).
  • the data acquisition unit when one of the appearances appears in the unit video as the at least part of the statistical data, the data acquisition unit simply displays the one appearance. Probability data representing the probability that N appearances (N people) will appear in the position image, which is different from this one, can be used to estimate the appearance with high accuracy. It is.
  • the value of the variable N is appropriately determined in accordance with the quality of the video as long as it is a natural number and is not subject to any restrictions. For example, in the case of dramas, humans that can be regarded as appearances rarely appear in large quantities in one unit video, and even if the value of N is increased too much, the probability is almost zero. Multiple values of N may be set as long as the data can be used effectively.
  • the data acquisition unit displays one of the appearances in the unit video as at least a part of the statistical data.
  • probability data representing the probability that each of the appearances excluding the one appearance appears in the unit video in which the one appearance appears.
  • the data acquisition unit when one of the appearances appears in the unit video as the at least part of the statistical data, the data acquisition unit simply displays the one appearance. Since the probability data representing the probability that each of the appearances except for this one appears in the rank image is obtained, it is possible to estimate the appearance with high accuracy.
  • the data acquisition means includes, as at least a part of the statistical data, one appearance of the appearances in the unit video, In the case where other appearances different from the one appearance appear, the one appearance and other appearances are units in which the one appearance and other appearances appear.
  • Projection Acquires probability data representing the probability of consecutive appearances in S (L: natural number) unit images that are mutually continuous with the image.
  • the data acquisition means has at least a part of the statistical data in which one of the appearances in the unit image is different from the one of the appearances. If there is an appearance item, the probability data representing the probability that this one appearance item and the other appearance item appear consecutively in L unit images that are mutually continuous with the relevant unit image is acquired. Therefore, it is possible to estimate the appearance material with high accuracy.
  • the value of the variable L is appropriately determined in accordance with the nature of the video as long as it is a natural number and is not subject to any restrictions. For example, in the case of dramas, even if the value of L is increased too much, the probability is only zero, so multiple values of L are set within a range where the data can be used effectively. Also good.
  • audio information acquisition means for acquiring audio information corresponding to each of the one unit video and the other unit video corresponds to each of the above.
  • a comparison means for comparing audio information with each other, wherein the data acquisition means is a probability that the one unit video and the other unit video are videos under the same situation as at least a part of the statistical data. Is obtained in association with the result of the comparison by the comparison means.
  • the "audio information" described here may be, for example, the sound pressure level of the entire video, or any kind of audio related to the unit video that may be an audio signal of a specific frequency. As long as it is a physical or electrical numerical value and the continuity of the unit image can be discriminated, the mode may be arbitrary.
  • the data acquisition means determines the probability that one unit video and another unit video are videos under the same situation as at least a part of the statistical data. Since the probability data expressed in association with the comparison results is acquired, it is possible to estimate the exhibit with high accuracy.
  • this probability data is data for determining the continuity of the unit video, and is different from “data corresponding to an appearance that is specified in advance to appear in one unit video”. If the unit video is continuous, the identified appearance will continue to appear. Therefore, it is in the category of such corresponding data.
  • the "video under the same situation” described here means a video group having high relevance or continuity such as each shot in the same cut and each cut in the same scene.
  • the appearance estimation method of the present invention is an appearance estimation method for estimating an appearance appearing in a recorded video in order to solve the above-described problem, wherein the appearance is set in advance for a predetermined type of item. Appearing in one unit video out of a plurality of unit videos obtained by dividing the video according to a predetermined kind of criteria from a database including a plurality of statistical data each having statistical properties A data acquisition step of acquiring one statistical data corresponding to a previously specified appearance, and based on the acquired one statistical data, the previous one of the one unit video or the plurality of unit videos. And an estimation step of estimating appearances in the unit video and the other unit video.
  • the accuracy of identifying an appearance appearing in a video can be improved by the steps corresponding to the means in the appearance estimation apparatus described above.
  • the computer program of the present invention causes the computer system to function as the above-described deviation estimation means.
  • the computer program of the present invention if the computer program is read into a computer system from a recording medium such as a ROM, CD-ROM, DVD-ROM, and hard disk that stores the computer program and executed, Alternatively, if the computer program is executed after being downloaded to a computer system via, for example, communication means, the above-described appearance estimation apparatus of the present invention can be realized relatively easily.
  • a computer program product in a computer-readable medium clearly embodies a program instruction executable by a computer, and the computer is provided with any of the above estimation means. To function as.
  • the computer program product is If the computer program product is read into a computer from a storage medium such as ROM, CD-ROM, DVD-ROM, or hard disk to be stored, or the computer program product, which is a transmission wave, for example, is transmitted to the computer via communication means.
  • a storage medium such as ROM, CD-ROM, DVD-ROM, or hard disk
  • the computer program product which is a transmission wave, for example, is transmitted to the computer via communication means.
  • the computer program product may be configured by computer-readable code (or computer-readable instruction) that functions as the above-described appearance estimation apparatus of the present invention.
  • the computer program of the present invention can also adopt various aspects in response to the various aspects of the appearance estimation apparatus of the present invention described above.
  • the appearance estimation apparatus includes the data acquisition unit and the estimation unit, so that the accuracy of identifying the appearance can be improved. Since the appearance estimation method includes a data acquisition step and an estimation step, it is possible to improve the identification accuracy of the appearance. Since the computer program causes the computer system to function as an estimation means, the appearance estimation device can be realized relatively easily.
  • FIG. 1 is a block diagram of a character estimation system including a character estimation device according to an embodiment of the present invention.
  • FIG. 2 is a schematic diagram of person identification in the identification unit of the character estimation device in FIG. 1.
  • FIG. 3 is a schematic diagram of a correlation table showing the correlation between characters in the video displayed on the display device in the character estimation system in FIG. 1.
  • FIG. 4 is a schematic diagram showing a part of the structure of an image displayed on the display device in the character estimation system of FIG. 1.
  • FIG. 5 is a diagram illustrating a process of estimating a character according to the first operation example of the character estimation device in FIG. 1.
  • FIG. 6 is a diagram illustrating a process of estimating a character according to the second operation example of the character estimation device in FIG. 1.
  • FIG. 7 A process of estimating a character according to the third operation example of the character estimation device in FIG. FIG.
  • FIG. 1 is a block diagram of a character estimation system 1000 including the character estimation device 10.
  • a character estimation system 1000 includes a character estimation device 10, a statistical database (DB) 20, a recording / playback device 30, and a display device 40.
  • DB statistical database
  • the character estimation device 10 includes a control unit 100, a specification unit 200, an audio analysis unit 300, and a metadata generation unit 400, and a character in the video displayed on the display device 40 (ie, the present invention). It is an example of the “appearance estimation apparatus” according to the present invention configured to be able to specify an “appearance example” according to the present invention.
  • the control unit 100 includes a CPU (Central Processing Unit) 110, a ROM (Read Only Memory) 120, and a RAM (Random Access Memory) 130.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 110 is a unit that controls the operation of character estimation device 10.
  • the ROM 120 is a read-only memory, and stores a character estimation program as an example of the “computer program” according to the present invention. By executing the character estimation program, the CPU 110 functions as an example of the “data acquisition means” and the “estimation means” according to the present invention, or the “data acquisition process” according to the present invention, And an example of an “estimation process”.
  • RAM130 is a rewritable memory The CPU 110 is configured to be able to temporarily store various data generated when the character estimation program is executed.
  • the specifying unit 200 is configured to be able to specify a person appearing in an image displayed on the display device 40, which will be described later, based on its geometric characteristics. Is an example.
  • FIG. 2 is a schematic diagram of person identification by the identification unit 200.
  • the identifying unit 200 is configured to identify a character using a identifiable frame and a recognizable frame for a video displayed on the display device 40.
  • the identifying unit 200 recognizes the presence of the person and identifies who the person is. It is configured to be able to do both specific ( Figure 2 (a)).
  • the human face portion is displayed in an area larger than the area defined by the recognizable frame, even if the human face portion is less than the area defined by the recognizable frame, It is configured to recognize the existence of such humans (Fig. 2 (b)).
  • the specific part 200 is displayed in an area smaller than the area defined by the human face partial force recognizable frame, it cannot even recognize that a human is present in the image ( Figure 2 (c)).
  • the specifying unit 200 sets only a human face that is substantially front-facing as a specific target. Therefore, for example, a sideways face cannot be identified even if it is displayed in an area larger than the area defined by the identifiable frame.
  • the voice analysis unit 300 acquires the sound emitted from the display device 40, and can determine the continuity of shots to be described later based on the acquired sound. It is an example of the “voice information acquisition means” and “comparison means” according to the present invention.
  • the metadata generation unit 400 is configured to be able to generate metadata including information on the characters estimated by the CPU 110 executing the character estimation program. It is an example of “metadata generating means”.
  • the statistics DB 20 stores data Pl, data P2, data P3, data P4, data P5, and data P6, which are examples of the “statistical data having statistical properties” according to the present invention. It is a database. These data will be described later.
  • the recording / playback apparatus 30 includes a storage unit 31 and a playback unit 32.
  • the storage unit 31 stores video data of a video 41 (which is an example of “video” according to the present invention).
  • the storage unit 31 is, for example, a magnetic recording medium such as HD or an optical information recording medium such as a DVD, and the video 41 is stored in the storage unit 31 as digital video data.
  • the playback unit 32 is configured to sequentially read the video data stored in the storage unit 31, appropriately generate a video signal to be displayed on the display device 40, and supply the video signal to the display device 40. Yes.
  • the recording / reproducing apparatus 30 has recording means for recording the video 41 in the storage unit 31, but the illustration is omitted.
  • the display device 40 is a display device such as a plasma display device, a liquid crystal display device, an organic EL display device, or a CRT (Cathode Ray Tube) display device, and is supplied by the playback unit 31 of the recording / playback device 30.
  • the video 41 can be displayed based on the received video signal.
  • the display device 40 includes various sound emitting devices such as a speaker that should provide audio information to the viewer, but is not shown.
  • FIG. 3 is a schematic diagram of the correlation table 21 showing the correlation between the characters appearing in the video 41.
  • the character Hm and the character Hn represent the characters in the video 41, respectively.
  • the number of characters is not limited to the number illustrated here, and may be set freely.
  • the characters described in the correlation table 21 do not have to be all the people who appear on the video 41. For example, the characters may have only important roles.
  • the element corresponding to the intersection of the character Hm and the character Hn Represents a statistical data group “Rm, n” representing the correlation between the character Hn and the character Hm (where m ⁇ n).
  • the statistical data group “Rm, n” is represented by the following equation (1).
  • P4 (Hm I Hn) is the data representing the probability that the character Hm appears in the same shot when the character Hn appears, and corresponds to the data P4 stored in the statistics DB20. To do.
  • the force data P4 limited to shots may be set in the same manner for “scene” and “cut”, for example! /.
  • P5 (SI Hm, Hn) is data representing the probability that characters Hn and Hm appear in one shot in video 41 and continue for S shots. Corresponds to data P5 stored in the statistics DB.
  • Pl (Hn) is data representing the probability that the character Hn appears in the video 41, and corresponds to the data P1 stored in the statistics DB 20.
  • P2 (SI Hn) is data representing the probability that a character Hn appears in one shot of video 41 and is continuous over S shots, and is stored in the statistics DB 20. This corresponds to the data P2.
  • P3 means that when a character Hn appears in one shot in video 41, N characters (N: natural number) appear in the shot.
  • This data represents the probability and corresponds to the data P3 stored in the statistics DB20.
  • the statistical DB 20 stores data P6 not defined in the table 21.
  • Data P6 is expressed as P6 (CI Sn), and the probability that C + 1 shot from Shot Sn—C to Sn is the same cut is associated with the speech recognition result of speech recognition unit 300. It is the data represented.
  • the data P1 to P6 stored in the statistics DB 20 are also examples of “probability data” according to the present invention. ⁇ Operation of the embodiment>
  • FIG. 4 is a schematic diagram showing a part of the structure of the video 41.
  • the video 41 is a video program with a high story such as a drama, for example.
  • scene SC1 which is one scene of image 41, is composed of four cuts C1 to C4, and one of them, cut C1, is further divided into six shots SH1 to SH6. It is configured.
  • Each of these shots is an example of a “unit image” according to the present invention.
  • the shot SH 1 is 10 seconds
  • SH2 is 5 seconds
  • SH4 force seconds SH5 force seconds
  • SH6 are 5 seconds. It is a picture having time. Therefore, the cut C1 is an image having a time of 45 seconds.
  • FIG. 5 is a diagram showing a process in which the characters are estimated in the cut C1 of the image 41.
  • the CPU 110 controls the playback unit 32 of the recording / playback device 30 to display the video 41 on the display device 40.
  • the reproduction unit 32 acquires video data related to the video 41 from the storage unit 31, generates a video signal to be displayed on the display device 40, and supplies the video signal to the display device 40 for display.
  • the shot SH1 is first displayed on the display device 40.
  • the cut C1 is composed of shots SH1 to SH6, and is a cut of two characters, a character H01 and a character H02 (see the “facts” item in FIG. 5).
  • the CPU 110 controls the specifying unit 200, the audio analysis unit 300, and the metadata generation unit 400, and starts the operation of each unit.
  • the identifying unit 200 starts identifying a character in the video 41 according to the control of the CPU 110. Cut C1 shot In SH1, Hxl and Hx2 forces are large enough Therefore, the identifying unit 200 identifies these two persons as the character H01 and the character H02, respectively.
  • the CPU 110 controls the metadata generating unit 400 to generate metadata about the shot SH1. At this time, the metadata generation unit 4
  • the 00 generates metadata describing that characters H01 and H02 appear in the shot SH1.
  • the generated metadata is stored in the storage unit 31 in a form associated with the video data related to the shot SH1.
  • specifying unit 200 is configured to determine that the shots are the same when the geometric change amount of the display content on the display device 40 is within a predetermined range. Yes.
  • the video is switched to shot SH2. That is, a geometric change occurs in the display content of the display device 40.
  • the specifying unit 200 determines that the shot has been switched, and starts specifying a new character.
  • the shot SH2 is a shot focused on the character H01, and the character H02, Hx4, is almost outside the display area of the display device 40.
  • the identifying unit 200 cannot even recognize the presence of Hx4, so the character identified by the identifying unit 200 is only Hx3, that is, the character H01.
  • the CPU 110 starts character estimation.
  • the CPU 110 temporarily stores the voice analysis result by the voice analysis unit 300 in the RAM 130.
  • the stored voice analysis result is a comparison result of the voice data acquired from the display device 40 around the time when the specifying unit 200 determines that the shot is switched. Specifically, the sound pressure level difference before and after the time calculated by the voice analysis unit 300, or comparison data of the included frequency band.
  • CPU 110 collates the acquired data P 6 with the voice analysis result stored in RAM 130. According to this collation, the probability that such a series of shots judged as speech analysis ability is in the same cut is greater than 70%.
  • CPU 110 obtains data P4 from statistical DB 20 because character H01 and character H02 appear in shot SH1. More specifically, “P4 (H02 I H01)” in data P4 is acquired. This is data representing the probability that the character H02 appears in the same shot when the character H01 appears. According to this acquired data P4, this probability is greater than 70%.
  • CPU 110 uses these obtained probabilities as estimation elements, and finally estimates that character H02 also appears in shot SH2.
  • the metadata generation unit 400 In response to the estimation result, the metadata generation unit 400 generates metadata in which “characters H01 and H02 appear in the shot SH2” is described.
  • the video switches to shot SH3.
  • the identifying unit 200 determines that the shot has been switched, and starts identifying a new character.
  • the shot SH3 is a shot focused on the character H02, and the character H01, which is the character H01, is almost out of the display area of the display device 40.
  • the identifying unit 200 cannot even recognize the presence of Hx5, the character identified by the identifying unit 200 is only Hx6, that is, the character H02.
  • the CPU 110 again estimates the characters in the same manner as in the shot SH2. At this time, the CPU 110 obtains data P6, data P4, and data P5 from the statistical DB20. More specifically, the character H01 appears based on the probability data P4 in which a series of three shots from shot SH1 to shot SH3 are shots in the same cut by data P6. Probability that character H02 will appear in the same shot when the character H02 is playing. In addition, if data H5 and character H02 appear in the same shot according to data P5, the power will be continuous over S3 shots. Probability is given as an estimation factor. From these estimation factors, the CPU 110 estimates that the character H01 also appears in the shot SH3. In response to the estimation result, the metadata generation unit 400 generates metadata in which “characters H01 and H02 appear in the shot SH3” are described.
  • the identification unit 200 When the elapsed time is 25 seconds and the video is switched to the shot SH4, the identification unit 200 newly identifies the appearance person. At this time, in the same manner as in the shot SH1, it is specified that the characters are the characters H01 and H02. Here, CPU 110 does not perform character estimation.
  • the identifying unit 200 starts identifying the character for the shot SH5.
  • Hx9 and HxlO are displayed in areas that are smaller than the area defined by the identifiable frame! /, So the identification unit 200 can recognize that there are two people. But I can't specify who it is!
  • the CPU 110 uses the estimation unit 200 to estimate who the two people are. . That is, data P6, data P4, and data P5 are acquired from the statistics DB 20.
  • the specifying unit 200 Begin character identification.
  • the characters are the characters H01 and H02, and the identification of the characters related to the cut C1 is completed.
  • the metadata generation unit 400 “characters are the characters H01 and H02 for all shots related to the cut C1. ”Is generated. Therefore, for example, when searching for “a cut where viewer power ⁇ character H01 and character H02 both appear later”, for example, a complete cut C1 with no missing shots can be easily extracted using this metadata as an index. It becomes possible.
  • the CPU 110 does not particularly perform character estimation for each of the shot SH1, shot SH4, and shot SH6.
  • some statistical data is positively collected.
  • estimation is performed by obtaining from the statistics DB20.
  • the CPU 110 can easily set the character specified by the specifying unit 200 not to perform the estimation, so that the already-identified attendee can be set to “ It is not estimated that it does not exist.
  • the estimation result may be redundant, but there is a possibility that the accuracy of identifying the person who appears and does not leak will deteriorate. Equal to zero and so beneficial.
  • FIG. 6 is a diagram showing a process in which the characters are estimated in the cut C1 of the video 41.
  • the content of the cut C1 is different from the first operation example described above.
  • the cut C1 is composed of 6 shots as in the first embodiment. However, in all shots, the character is only the character H01, and no other characters appear.
  • Hxl, Hx3, and Hx6 are displayed in a sufficiently large display area, and are easily identified by the identifying unit 200 as the character H01.
  • the CPU 110 continues to the character H01 that has a high probability of appearing in the same shot as the shot SH2 shot SH1.
  • the character H01 appears in the shot SH2 Presumed to have appeared.
  • Hx4 is not displayed on the display device 40, and only “cigarette” which is the possession of Hx4 is displayed.
  • the viewer can easily imagine that the cigarette power Hx4 is the character H01, but the specifying unit 200 cannot recognize even the existence of a human being.
  • the CPU 110 again uses the same method that estimated the character H01 in the shot SH2, and the character HOI appeared in the shot SH4 based on the data P6, the data Pl, and the data P2. Estimate that.
  • CPU 110 estimates that character H01 is also appearing in shot SH5 by the same method as that in which characters H01 are estimated to appear in shots SH2 and SH4.
  • the metadata generated by the metadata generation unit 400 includes the character H01 in all six shots from shots SH1 to SH6. The fact that it has appeared is described.
  • the shots that the character H01 appears in the cut C1 are only the shots SH1, SH3, and SH6.
  • a search for “cuts that appear alone” is searched, for example, these three discontinuous shots are extracted, and a very unnatural image is provided to the viewer.
  • the effect of the character estimation according to the present embodiment is fully exhibited, and the character identification accuracy is significantly improved.
  • FIG. 7 is a diagram showing a process in which the characters are estimated in the cut C1 of the video 41.
  • FIG. 7 the content of the cut C1 is different from the above operation example.
  • the cut C1 consists of a single shot SH1.
  • the powers in which the characters H01, H02, and H03 appear are displayed in an area smaller than the area defined by the recognizable frame of the specifying unit 200. Therefore, the existence is recognized only by the character H01 identified by the identifying unit 200, and the other two are not even recognized.
  • the CPU 110 estimates characters other than the character HO 1 as follows.
  • the CPU 110 acquires data P4 and data P3 from the statistics DB 20. More specifically, “P4 (H02, H03
  • the former is data representing the probability that the character H02 and the character H03 appear in the same shot when the character H01 appears in one shot, and the probability is greater than 70%.
  • the latter is data representing the probability of two characters appearing in the same shot, except for the character HO 1, when the character H01 appears in one shot. large.
  • CPU 110 estimates that in addition to character H01, character H02 and character H03 appear. Therefore, the metadata generated by the metadata generation unit 400 describes that the characters of the shot SH1 are the characters H01, H02, and H03.
  • the result of character identification by the identifying unit 200 is not reflected. Therefore, the generated metadata describes only that the character of the shot SH1 is the character H01. Therefore, for example, when searching for “forces where characters H01, H02, and H03” appear, according to this embodiment, it is possible to instantaneously search for the cut C1 according to the third operation example.
  • the comparative example is very inefficient because the viewer has to search for the desired cut in the enormous cuts in which the character H01 appears.
  • the data stored in the statistics DB 20 may be freely set as long as the characters in the video can be estimated, in addition to the data P1 to data P6 described above. For example, in a drama program that is broadcast multiple times, the character “ ⁇ Data representing “probability of appearing” may be set, and “determining the probability of N characters appearing when the characters ⁇ and the characters ⁇ appear” appears. The data is set.
  • the character estimation device 10 may include input means such as a keyboard or a touch button that can be input by the user. Through this input means, the character estimation device 10 may be instructed by the user of the data of the character that the user desires to view. In this case, the character estimation device 10 may select and acquire statistical data corresponding to the input data from the statistics DB 20, and may search for a cut or a shot in which the character appears. . Alternatively, in each of the above-described embodiments, it is possible to positively estimate whether or not there is a character for whom viewing is desired by referring to the obtained statistical data! /.
  • the aspect of identifying the character which is an example of the "appearance” according to the present invention, has been extended, but as described above, in the present invention, the "appearance”
  • the "appearance” Of course, it is not limited to a person, but it is possible to specify these which appear in an image that may be an animal, a plant, or some object in the same manner as in this embodiment.
  • the appearance estimation apparatus and method and the computer program according to the present invention can be used, for example, for an appearance estimation apparatus that can improve the accuracy of the appearance appearance in the video. Further, the present invention can also be used for, for example, an appearance estimation apparatus that is mounted on or can be connected to various computer equipment for consumer use or business use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 登場人物推定装置10は、映像中の登場人物を特定する特定部200を有している。特定部200の特定可能枠によって規定される領域よりも小さい表示面積で表示される登場人物に対しては、特定部200による登場人物特定と併用する形で、CPU110が登場人物を推定する。この際、統計DB20から登場人物個人に関する、又は登場人物相互の関係を表す統計的なデータが取得され、推定要素として与えられる。登場人物はこの推定要素に基づいて推定される。

Description

登場物推定装置及び方法、並びにコンピュータプログラム
技術分野
[0001] 本発明は、登場物推定装置及び方法、並びにコンピュータプログラムの技術分野 に関する。
背景技術
[0002] 例えば、ドラマや映画などの映像番組を録画して視聴する場合に、所望のシーンの みを再生するための装置が提案されている (例えば、特許文献 1参照)。
[0003] 特許文献 1に開示されたインデックス配信装置 (以下、「従来の技術」と称する)によ れば、録画装置が放送番組を録画すると同時に、その番組中に現れる各シーンの発 生時刻や内容を示す情報であるシーンインデックスが作成され、録画装置に配信さ れる。録画装置の利用者は、この配信されたシーンインデックスに基づいて、録画し た番組の中力 所望のシーンのみを選択的に再生することが可能であるとされている
[0004] 特許文献 1:特開 2002— 262224号公報
発明の開示
発明が解決しょうとする課題
[0005] し力しながら、係る従来の技術は、以下に示す問題点を有する。
[0006] 従来の技術にお!、ては、シーンインデックスは、係員が放送番組を視聴しながらシ ーンインデックス配信装置に然るべきシーンインデックスを入力することによって作成 されている。即ち、従来の技術は、放送番組毎に係員によるシーンインデックスの入 力を必要とするため、肉体的、精神的、及び経済的に莫大な負荷が生じ、極めて非 現実的であると!/、う技術的な問題点を有して!/、る。
[0007] また、このような莫大な負荷を軽減するために、顔認識技術などを使用して、映像 の幾何学的な特徴から人物の顔を識別し、登場人物などを特定することによって、自 動的に映像の内容を記録する手法がある。し力しながら、このような顔認識技術では 、例えば、顔が横向きに表示される人間は誰であるか特定できないなど、特定精度が 著しく低ぐ映像の登場人物を実用的に特定することは困難である。
[0008] 更に、映像中に登場人物の姿が現れて 、な 、場合で、その登場人物の声のみが 流れている場合などは、例え一連のストーリであっても、その登場人物を特定すること は著しく困難であると言える。
[0009] 本発明は、例えば、上述した問題点に鑑みてなされたものであり、映像に登場する 登場物の特定精度を向上させ得る登場物推定装置及び方法、並びにコンピュータ プログラムを提供することを課題とする。 課題を解決するための手段
[0010] <登場物推定装置 >
本発明の登場物推定装置は上記課題を解決するために、記録された映像に登場 する登場物を推定するための登場物推定装置であって、所定種類の項目について 予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを 含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って 分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定され た登場物に対応する統計データを取得するデータ取得手段と、前記取得された統計 データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単 位映像と相前後する他の単位映像における登場物を推定する推定手段とを具備す る。
[0011] 本発明において、「映像」とは、例えば、ドラマ、映画、スポーツ、アニメ、料理、音楽
、又は情報など多様なジャンルに属する地上波放送、衛星放送、又はケーブルテレ ビ放送などの各種放送に係る番組に関する、アナログ又はデジタル方式の映像を指 し、好適には、例えば地上波デジタル放送などのデジタル放送番組に関する映像を 指す。或いは、デジタルビデオカメラなどで撮影された個人的な映像又は特定の目 的を有する映像を指す。
[0012] また、このような映像における「登場物」とは、即ち、このような各種ジャンルの映像 に対応した、例えば、ドラマや映画に登場する人物、動物若しくは何らかの物体、ス ポーッ選手、アニメのキャラクター、料理人、歌手、又は-ユースキャスタなどを指し、 映像に登場するもの全てを含む概念である。 [0013] また、本発明において「登場」とは、例えば、人物を例に取った場合、映像中に登場 人物の姿が現れている状態を指すに限らず、映像中に姿が現れていなくとも、その 登場人物の声や登場人物から発せられる音などが含まれている状態も含む。即ち、 視聴者に対し、登場物の存在を連想させるような場合も含まれる概念である。
[0014] このような映像をリアルタイムではなぐ予め、例えば DVD録画装置や HD録画装 置などの、比較的映像の編集が容易なデジタル映像記録装置に録画して視聴する 際には、例えば、所望する登場物のみを視聴したいという要求が自然と生じ得る。より 具体的には、例えば、あるドラマ番組に関し、「俳優〇と女優 Xの二人の場面が観た い」といった要求が生じ得る。この際、例えば、視聴者が映像を逐次確認しつっこれ らの映像を所望の形態に編集するのは精神的、肉体的、或いは時間的にみて極め て困難であり、何らかの手法により映像中の登場物を特定する必要が生じる。
[0015] ここで特に、画像認識、パターン認識、又は音声認識など公知の認識技術を用い た場合、従来技術として説明した如き、「横向きの顔は特定できない」などの諸問題を 含有した比較的低い精度で登場物が特定される。このままでは、視聴者が例えば、「 主人公〇〇が登場する△△のシーンを視聴したい」という要求をもっていても、同一 シーン中であるにも拘らず、これら認識技術では登場物を特定できな力つた箇所が 欠落した、極めて満足度の低 ヽ映像が視聴者に提供される可能性が大である。
[0016] 然るに、本発明の登場物推定装置によれば、以下の如くにして係る欠点を補い得 る。即ち、本発明の登場物推定装置によれば、その動作時には、先ず、データ取得 手段によって、所定種類の項目について予め設定された、登場物に関する統計的性 質を夫々有する複数の統計データを含むデータベースの中から、これら登場物のう ち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の 単位映像に登場することが予め特定された登場物に対応する統計データが取得され る。
[0017] 本発明において、「統計的性質を有する統計データ」とは、例えば、ある程度の量 蓄積された過去の情報カゝら推測又は類推される情報を含むデータを指す。或いは、 ある程度の量蓄積された過去の情報から演算、算出、又は特定される情報を含むデ ータを指す。即ち、「統計的性質を有する統計データ」とは、典型的には、映像に係る 、ある事象の発生確率を表す確率データを指す。このような統計的性質を有するデ ータは、登場物の全てに対し設定されていてもよいし、一部に対し設定されていても よい。
[0018] 例えば、統計的データの作成の一例として、映像の一部分 (例えば、全体の 10% 程度)に対して、顔認識を実行することにより特定された登場物に基づいて統計デー タが作成されてもよい。この場合、特定できない部分が発生し、連続した登場物デー タとしては、不完全なものである力 例えば何 (誰)が、どの程度の確率で登場するか 、或いは何 (誰)と一緒に登場する力などの基準値を作ることが可能となる。尚、この 際、係る映像の一部分は、特定箇所ではなぐ映像全体から満遍なく分散して選択さ れれば好適である。
[0019] また、「所定種類の項目」とは、例えば、「登場人物 Aがドラマ番組 Bの第 1回放送分 に登場する確率」など、登場物単体に関する項目や、例えば、「登場人物 Aと登場人 物 Bとが一緒に居る確率」などのように登場物相互間の関係を表す項目などを指す。
[0020] 本発明において、「単位映像」とは、本発明に係る映像を所定種類の基準に従って 分割してなる映像であり、例えば、ドラマ番組を例に挙げれば、単一のカメラワークに より得られる映像 (本明細書中では適宜「ショット」と称する)、内容的に連続する映像 (本明細書中では適宜、ショットの集合である「カット」と称する)、又は、同一空間を撮 影した映像 (本明細書中では適宜、カットの集合である「シーン」と称する)などを指す 。或いは、「単位映像」とは、単に一定の時間間隔で映像が分割されたものであって もよい。即ち、本発明における「所定種類の基準」とは、映像を相互に何らかの関連 を有するような単位に分割可能な限りにお 、て自由に決定されてよ 、。
[0021] データ取得手段は、このような単位映像のうちの一の単位映像に登場することが予 め特定された登場物に対応する統計データを、データベースの中から取得する。ここ で、「予め特定」する態様は、何らの限定を受けずに自由であってよぐ例えば、放送 番組を制作する製作会社などが、適当な映像単位 (例えば、 1シーン)毎に、例えば「 このシーンには〇〇と△△と X Xが登場する」旨を映像情報と同時に、又は適当なタ イミングで配信することによって「特定」されて 、てもよ 、し、既に述べたような公知の 画像認識、パターン認識、又は音声認識技術などを用い、これら認識技術の限界内 で単位映像中の登場物が特定されて 、てもよ!/、。
[0022] 一方、このような統計データが取得されると、推定手段により、この統計データに基 づ 、て、前記一の単位映像又は前記単位映像のうち前記一の単位映像と相前後す る他の単位映像における登場物が推定される。
[0023] ここで、「推定する」とは、例えば、データ取得手段によって取得された統計データ によって表される定性的な要素(例えば、傾向)や定量的な要素(例えば、確率)など を加味して、最終的に一の単位映像又はそれと相前後する単位映像に、既に特定さ れている以外の登場物が登場していると判断することを指す。或いは既に特定されて いる以外の登場物が何 (誰)であるかを判断することを指す。従って、必ずしも実際に 単位映像中における登場物を正確に特定することを指すものではな 、。
[0024] 例えば、このような「推定する」一の態様として、ある一の単位映像 (例えば、一ショッ ト)に、登場物 Aが登場することが特定されている場合に、データ取得手段によって、 例えば、「登場物 Aは、登場物 Bと同一ショット中に登場する確率が高い」旨を示すデ ータや、「登場物 Bがこの映像中に登場する確率が高い」旨を示す統計データが取 得され、このようなデータに基づいた統計的な判断によって、このショット中に登場物 Bが登場して 、ると推定されてもよ!、。
[0025] 更に、このような推定は、この単位映像における登場物のみに限らず、この単位映 像と相前後する単位映像中の登場物に対しても適用が可能である。例えば、ドラマな どにおける主要な登場物は、一ショットに限って登場することは稀であり、大抵の場合 は複数ショットにわたって登場する。このような性質を定性的或いは定量的に規定す る統計的性質のデータが存在するならば、例えば、「一のショットに登場することが特 定されていれば次のショットにも登場している」旨の推定は容易に可能である。この場 合には、例えば公知の顔認識技術などでは誰の存在も認識されな ヽような単位映像 中であっても、登場物の存在を推定することが可能となる。
[0026] 尚、本発明の登場物推定装置において、取得された統計データに基づいた推定 手段による推定の基準は自由に設定されてよい。例えば、これら取得された統計デ ータによって表されるある事象の確率力 所定の閾値を超えた場合には、その事象 が発生しているとみなしてもよい。或いは、実験的、経験的、或いはシミュレーション などの各種手法により、これら取得されたデータ力 より好適に登場物を推定し得る 場合には、そのような手法により推定がなされてもよい。
[0027] このように、本発明の登場物推定装置によれば、公知の認識技術では特定不能と された登場物 (例えば、横向きの登場人物)であっても、従来とは全く概念の異なる統 計的な手法によってその存在を推定することが可能となり、登場物の特定精度を著し く向上させることが可能となるのである。
[0028] 例えば、あるカット中に横向きの人物のショット、人物が小さいショット、或いは体の 一部しか映らないショットが混在していても、人間の感性では、それが誰であるのか瞬 時に判断可能であるのに対し、従来の認識技術では、そのカット中には誰も登場しな いか、或いは正体不明の人間が登場しているとし力認識されない。これに対し、本発 明の登場物推定装置によれば、そのような感性的な不整合が改善され、極めて人間 の感覚と近似した登場物の特定が可能となるのである。
[0029] 尚、推定手段による登場物の推定結果は、その性質上、複数の態様を採り得る。こ のように、一単位映像中の登場物が一意に推定されない場合には、視聴者側でその 推定結果が任意に選択可能に構成されていてもよい。或いは、得られた複数種類の 結果に対し、客観的な信憑性を数値的に規定し得る場合には、それら信憑性に基づ V、た順番で推定結果が提供されてもよ!、。
[0030] カロえて、本発明によれば、推定手段による推定が正 、確率が高 、程、有意義で あることは言うまでもないが、該確率がさほど高くなくても、当該推定を行わない場合 と比較すれば、映像に登場する人物の特定精度を向上させる上で大きく有利である 。特に、本発明を、公知の認識技術と組み合わせることも容易であるので、推定手段 による推定が正しい確率力 0より大きい正の値である限りにおいて、当該推定を行 わない場合と比較して、映像に登場する登場物の特定精度を向上させる上で顕著に 有利である。
[0031] 本発明の登場物推定装置の一の態様では、視聴が所望される登場物に関するデ ータの入力を促す入力手段を更に具備し、前記データ取得手段は、前記入力がなさ れた登場物に関するデータに基づいて前記統計データを取得する。
[0032] この態様によれば、例えば、視聴者が、自身が視聴を所望する登場物に関するデ ータを、入力手段を介して入力することが可能となる。ここで、「視聴を所望する登場 物に関するデータ」とは、例えば、「俳優〇〇が見たい」旨を表すデータなどを指す。 データ取得手段では、この入力されたデータに基づいて統計データを取得する。従 つて、映像において、視聴者が所望する登場物が登場する部分、或いは登場すると 推定される部分を効率良く抽出することが可能である。
[0033] 本発明の登場物推定装置の他の態様では、前記一の単位映像における登場物を 前記一の単位映像の幾何学的特徴に基づいて特定する特定手段を更に具備する。
[0034] このような特定手段とは、即ち前述した、顔認識技術、又はパターン認識技術など を利用して登場物を特定する手段を指す。このような特定手段を備えることにより、そ の特定限界内においては、比較的に信憑性の高い登場物特定が可能となり、推定 手段との間で言わば相補的に登場物の特定を行うことが可能である。従って、最終 的に登場物を高い精度で特定することが可能となる。
[0035] 特定手段を有する本発明の登場物推定装置の一の態様では、前記推定手段は、 前記一又は他の単位映像における登場物のうち前記特定手段により特定された登 場物については推定せず、前記特定手段により特定されない登場物を推定する。
[0036] 特定手段を備える場合、例えば特定手段による登場物の特定に係る信憑性が推定 手段よりも高いならば、特定手段によって特定された登場物については推定手段に よる推定を行う必要は余り生じない。この態様によれば、推定手段による登場物推定 に係る処理負荷を軽減し得るので効果的である。
[0037] 本発明の登場物推定装置の他の態様では、前記推定手段による推定結果に基づ いて、前記一の単位映像における登場物についての情報が少なくとも記述された所 定のメタデータを生成するメタデータ生成手段を更に具備する。
[0038] ここで述べられる「メタデータ」とは、あるデータについての内容情報を記述したデ ータを指す。デジタル映像データには、このようなメタデータを付帯させることが可能 であり、このメタデータによって、情報の検索を視聴者の要求に応じて的確に行うこと が可能となる。この態様によれば、単位映像中の登場物が推定されると共に、メタデ ータ生成手段によって、そのような推定結果に基づいたメタデータが生成されるので 、映像の編集を好適に実施可能である。尚、「推定結果に基づいて」とは、推定手段 によって得られる推定結果についてのみが記載されたメタデータが生成されてもよく 、予め登場することが特定されている登場物も併せた最終的に特定される登場物の 情報が記載されたメタデータが生成されてもよい趣旨である。
[0039] 逆に、メタデータが統計データを担持しており、これをデータベースが抽出して格納 するように構成することも可能である。
[0040] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計デ ータの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す 確率データを取得する。
[0041] この態様によれば、データ取得手段が、統計データの少なくとも一部として、登場物 の夫々が映像に登場する確率を表す確率データを取得するので、登場物を高い精 度で推定することが可能である。
[0042] 尚、ここで述べられる「映像」とは、上述したショット、カット、或いはシーンなどの単 位映像、一回の放送分に相当する映像、又は数回の放送分を集めた一シリーズ分 の映像などの全て、又は少なくとも一部であってもよい。
[0043] このような登場物各々に設定されるデータは、映像における登場物の全てに対して 設定されていなくともよい。例えば、登場する頻度が比較的に高い登場物についての み、映像に登場する確率が設定されていてもよい。
[0044] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計デ ータの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登 場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に 連続する M個(M:自然数)の単位映像に連続して登場する確率を表す確率データ を取得する。
[0045] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映 像に登場物のうちの一の登場物が登場する場合に、この登場物が、この単位映像と 相互に連続する M個の単位映像に連続して登場する確率を表す確率データを取得 するので、登場物を高!、精度で推定することが可能である。
[0046] 尚、ここで変数 Mの値は、自然数である限り何らの制限を受けるものではなぐ映像 の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合 には、 Mの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有 効に使用され得る範囲で Mの値が複数個設定されて 、てもよ 、。
[0047] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計デ ータの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登 場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる 他の登場物が N個(N:自然数)登場する確率を表す確率データを取得する。
[0048] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映 像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単 位映像に、この一の登場物とは異なる他の登場物が N個(人間なら N人)登場する確 率を表す確率データを取得するので、登場物を高 、精度で推定することが可能であ る。
[0049] 尚、変数 Nの値は、自然数である限り何らの制限を受けるものではなぐ映像の性 質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、 登場物とみなせる人間が一の単位映像に大量に登場することは稀であり、 Nの値を 大きくし過ぎても確率はほぼゼロになるだけであるから、データが有効に使用され得 る範囲で Nの値が複数個設定されて 、てもよ 、。
[0050] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計デ ータの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登 場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前 記登場物の夫々が登場する確率を表す確率データを取得する。
[0051] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映 像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単 位映像にこの一の登場物を除く登場物の夫々が登場する確率を表す確率データを 取得するので、登場物を高 、精度で推定することが可能である。
[0052] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計デ ータの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前 記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一 の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映 像と相互に連続する S (L:自然数)の単位映像に連続して登場する確率を表す確 率データを取得する。
[0053] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映 像に登場物のうちの一の登場物と、登場物のうち係る一の登場物とは異なる他の登 場物とが登場する場合に、この一の登場物及び他の登場物が、係る単位映像と相互 に連続する L個の単位映像に連続して登場する確率を表す確率データを取得する ので、登場物を高い精度で推定することが可能である。
[0054] 尚、ここで変数 Lの値は、自然数である限り何らの制限を受けるものではなぐ映像 の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合 には、 Lの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有 効に使用され得る範囲で Lの値が複数個設定されていてもよい。
[0055] 本発明の登場物推定装置の他の態様では、前記一の単位映像及び前記他の単 位映像の夫々に対応する音声情報を取得する音声情報取得手段と、前記夫々に対 応する音声情報を相互に比較する比較手段とを更に具備し、前記データ取得手段 は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが 同一状況下における映像である確率を、前記比較手段による比較の結果に対応付 けて表してなる確率データを取得する。
[0056] ここで述べられる「音声情報」とは、例えば、映像全体の音圧レベルであってもよ!/ヽ し、特定の周波数の音声信号であってもよぐ単位映像の音声に関する何らかの物 理的又は電気的な数値であって、単位映像の連続性を判別可能な限りにお!ヽてそ の態様は自由であってよい。
[0057] この態様によれば、データ取得手段が、統計データの少なくとも一部として、一の単 位映像と他の単位映像とが同一状況下における映像である確率を、比較手段による これら音声情報の比較結果に対応付けて表してなる確率データを取得するので、登 場物を高 、精度で推定することが可能である。
[0058] 尚、この確率データは、単位映像の連続性を判断するためのデータであり、「一の 単位映像に登場することが予め特定された登場物に対応するデータ」とは趣が異な つて見えるが、単位映像が連続的であるならば特定された登場物も引き続き登場して いるのであり、従って、係る対応するデータの範疇である。
[0059] 尚、ここで述べられる「同一状況下における映像」とは、即ち、同一カット中の各ショ ット、同一シーン中の各カットなど、相互に関連性又は連続性の高い映像群を指す。 <登場物推定方法 >
本発明の登場物推定方法は上記課題を解決するために、記録された映像に登場 する登場物を推定するための登場物推定方法であって、所定種類の項目について 予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを 含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って 分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定され た登場物に対応する一の統計データを取得するデータ取得工程と、前記取得された 一の統計データに基づ 、て、前記一の単位映像又は前記複数の単位映像のうち前 記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程と を具備する。
[0060] 本発明の登場物推定方法によれば、上述した登場物推定装置における各手段と 対応する各工程によって、映像中に登場する登場物の特定精度を向上させ得る。 <コンピュータプログラム >
本発明のコンピュータプログラムは上記課題を解決するために、コンピュータシステ ムを上記 、ずれかの推定手段として機能させる。
[0061] 本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納する ROM, CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当該コンビ ユータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コ ンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウン ロードさせた後に実行させれば、上述した本発明の登場物推定装置を比較的簡単に 実現可能である。
[0062] コンピュータ読取可能な媒体内のコンピュータプログラム製品は上記課題を解決す るために、コンピュータにより実行可會なプログラム命令を明白に具現ィ匕し、該コンビ ユータを、上記いずれかの推定手段として機能させる。
[0063] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を 格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当 該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波 である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口 ードすれば、上述した本発明の登場物推定装置を比較的容易に実施可能となる。更 に具体的には、当該コンピュータプログラム製品は、上述した本発明の登場物推定 装置として機能させるコンピュータ読取可能なコード (或いはコンピュータ読取可能な 命令)から構成されてよい。
[0064] 尚、上述した本発明の登場物推定装置における各種態様に対応して、本発明のコ ンピュータプログラムも各種態様を採ることが可能である。
[0065] 以上説明したように、登場物推定装置は、データ取得手段、及び推定手段を具備 するので、登場物の特定精度を向上させ得る。登場物推定方法は、データ取得工程 、及び推定工程を具備するので、登場物の特定精度を向上させ得る。コンピュータプ ログラムは、コンピュータシステムを推定手段として機能させるので、登場物推定装置 を比較的簡単に実現可能である。
[0066] 本発明のこのような作用及び他の利得は次に説明する実施例から明らかにされる。
図面の簡単な説明
[0067] [図 1]本発明の実施例に係る登場人物推定装置を含んだ登場人物推定システムの ブロック図である。
[図 2]図 1の登場人物推定装置の特定部における人物特定の模式図である。
[図 3]図 1の登場人物推定システムにおける表示装置に表示される映像の登場人物 の相関関係を表す相関テーブルの模式図である。
[図 4]図 1の登場人物推定システムにおける表示装置に表示される映像の構造の一 部を表す模式図である。
[図 5]図 1の登場人物推定装置の第 1動作例に係る、登場人物が推定される過程を 表す図である。
[図 6]図 1の登場人物推定装置の第 2動作例に係る、登場人物が推定される過程を 表す図である。
[図 7]図 1の登場人物推定装置の第 3動作例に係る、登場人物が推定される過程を 表す図である。
符号の説明
[0068] 10· ··登場人物推定装置、 20· ··統計 DB、 21· ··相関テーブル、 30· ··録画再生装 置、 31· ··記憶部、 32· ··再生部、 40· ··表示装置、 41· ··映像、 100…制御部、 110· ·· CPU, 120· -ROM, 130- --RAM, 200· ··特定部、 300· ··音声解析部、 400· "メタ データ生成部、 1000…登場人物推定システム。
発明を実施するための最良の形態
[0069] 以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づ いて説明する。
[0070] 以下、本発明の好適な実施例について図面を参照して説明する。
<実施例の構成 >
始めに、図 1を参照して、本発明の実施例に係る登場人物推定装置の構成につい て説明する。ここに、図 1は、登場人物推定装置 10を含んでなる登場人物推定シス テム 1000のブロック図である。
[0071] 図 1において、登場人物推定システム 1000は、登場人物推定装置 10、統計デー タベース(DB) 20、録画再生装置 30、及び表示装置 40を備える。
[0072] 登場人物推定装置 10は、制御部 100、特定部 200、音声解析部 300、及びメタデ ータ生成部 400を備え、表示装置 40に表示される映像中の登場人物 (即ち、本発明 に係る「登場物」の一例)を特定することが可能に構成された、本発明に係る「登場物 推定装置」の一例である。
[0073] 制御部 100は、 CPU (Central Processing Unit) 110、 ROM (Read Only Memory) 120、及び RAM (Random Access Memory) 130を備える。
[0074] CPU110は、登場人物推定装置 10の動作を制御するユニットである。 ROM 120 は、読み出し専用のメモリであり、本発明に係る「コンピュータプログラム」の一例たる 登場人物推定プログラムが格納されている。 CPU110は、係る登場人物推定プログ ラムを実行することにより、本発明に係る「データ取得手段」、及び「推定手段」の一例 として機能するように、或いは、本発明に係る「データ取得工程」、及び「推定工程」の 一例を実行可能なように構成されている。 RAM130は、書き換え可能なメモリであり 、 CPU110が登場人物推定プログラムを実行する際に生じる各種データを一時的に 格納することが可能に構成されて 、る。
[0075] 特定部 200は、後述する表示装置 40に表示される映像に登場する人物を、その幾 何学的特徴に基づいて特定することが可能に構成された、本発明に係る「特定手段 」の一例である。
[0076] ここで、図 2を参照して、特定部 200による登場人物特定の詳細について説明する 。ここに、図 2は、特定部 200による人物特定の模式図である。
[0077] 図 2において、特定部 200は、表示装置 40に表示される映像に対し、特定可能枠 と認識可能枠とを使用して登場人物の特定を行うように構成されている。
[0078] 特定部 200は、人間の顔部分が、特定可能枠によって規定される領域以上の面積 で表示されている場合には、係る人間の存在の認識、及びその人間が誰であるのか の特定の両方を行うことが可能に構成されている(図 2 (a) )。また、特定部 200は、人 間の顔部分が、特定可能枠によって規定される領域未満であっても、認識可能枠に よって規定される領域以上の面積で表示されて 、る場合には、係る人間の存在を認 識することが可能に構成されている(図 2 (b) )。一方、特定部 200は、人間の顔部分 力 認識可能枠によって規定される領域未満の面積で表示されている場合には、映 像中に人間が存在していることすら認識することができない(図 2 (c) )。また、特定部 200は、ほぼ正面向きの人間の顔のみを特定の対象とする。従って、例えば横向き の顔は、例え特定可能枠によって規定される領域以上の面積で表示されていても、 特定することはできない。
[0079] 図 1に戻り、音声解析部 300は、表示装置 40から放音される音声を取得すると共に 、取得された音声に基づいて、後述するショットの連続性を判断することが可能に構 成された、本発明に係る「音声情報取得手段」、及び「比較手段」の一例である。
[0080] メタデータ生成部 400は、 CPU110が登場人物推定プログラムを実行することによ つて推定される登場人物に関する情報を含んだメタデータを生成することが可能に 構成された、本発明に係る「メタデータ生成手段」の一例である。
[0081] 統計 DB20は、本発明に係る「統計的性質を有する統計データ」の夫々一例となる データ Pl、データ P2、データ P3、データ P4、データ P5、及びデータ P6を格納する データベースである。尚、これら各データについては後述する。
[0082] 録画再生装置 30は、記憶部 31及び再生部 32を備える。
[0083] 記憶部 31には、映像 41 (本発明に係る「映像」の一例である)の映像データが記憶 されている。記憶部 31は、例えば、 HDなどの磁気記録媒体、或いは DVDなどの光 情報記録媒体であり、係る映像 41は、デジタル形式の映像データとして、記憶部 31 に記憶されている。
[0084] 再生部 32は、記憶部 31に記憶された映像データを順次読み出し、表示装置 40〖こ 表示させるべき映像信号を適宜生成して、表示装置 40に供給することが可能に構成 されている。尚、録画再生装置 30には、記憶部 31に映像 41を録画するための録画 手段を有するが、図示は省略されている。
[0085] 表示装置 40は、例えば、プラズマディスプレイ装置、液晶ディスプレイ装置、有機 E Lディスプレイ装置、又は CRT (Cathode Ray Tube)ディスプレイ装置などのディスプ レイ装置であり、録画再生装置 30の再生部 31によって供給される映像信号に基づ いて、映像 41を表示することが可能に構成されている。また、表示装置 40は、音声 情報を視聴者に提供するべきスピーカなどの各種放音装置を備えるが図示は省略さ れている。
[0086] 次に、図 3を参照して、統計データベース 20に保管される各データの詳細について 説明する。ここに、図 3は、映像 41に登場する登場人物の相関関係を表す相関テー ブル 21の模式図である。
[0087] 図 3において、相関テーブル 21は、登場人物 Hm (m=01, 02, · · · , 13)、及び登 場人物 Hn (n=01, 02, · · · , 13)を夫々マトリクス状に配置してなるテーブルである 。ここで、登場人物 Hm及び登場人物 Hnは、夫々映像 41における登場人物を表し、 「m=n」である場合には、同一の登場人物を表す。本実施例では、映像 41の登場人 物は 13人であるとする。尚、登場人物の人数は、ここに例示する数に限定されず、自 由に設定されてよい。また、相関テーブル 21に記述される登場人物は、映像 41に登 場する全ての人物である必要はなぐ例えば、重要な役割を有する人物のみであつ てもよい。
[0088] 相関テーブル 21において、登場人物 Hmと登場人物 Hnとの交点に相当する要素 は、登場人物 Hnと登場人物 Hmとの相関関係を表す統計データ群「Rm, n」を表す (但し、 m≠n)。統計データ群「Rm, n」は、下記(1)式によって表される。
[0089] Rm, n=P4 (Hm | Hn) , P5 (S | Hm, Hn) (1)
ここで、 P4 (Hm I Hn)とは、登場人物 Hnが登場している場合に、登場人物 Hmが 同一のショットに登場する確率を表すデータであり、統計 DB20に保管されるデータ P4に相当する。尚、本実施例においては、ショットに限定される力 データ P4は、例 えば「シーン」及び「カット」につ 、て同様に設定されて ヽても構わな!/、。
[0090] また、 P5 (S I Hm, Hn)とは、映像 41において登場人物 Hnと Hmとが一のショット に登場した場合に、それが S個のショットにわたって連続する確率を表すデータであ り、統計 DBに保管されるデータ P5に相当する。
[0091] 一方、相関テーブル 21において、「m=n」である場合に限り、登場人物 Hmと登場 人物 Hnとの交点に相当する要素は、登場人物個人に関する統計データ群「In ( = I m)」を表す。統計データ群「In」は、下記(2)式によって規定される。
[0092] In=Pl (Hn) , P2 (S | Hn) , P3 (N | Hn) (2)
ここで、 Pl (Hn)とは、登場人物 Hnが映像 41に登場する確率を表すデータであり 、統計 DB20に保管されるデータ P1に相当する。
[0093] また、 P2 (S I Hn)とは、映像 41の一ショットに登場人物 Hnが登場した場合に、そ れが S個のショットにわたって連続する確率を表すデータであり、統計 DB20に保管 されるデータ P2に相当する。
[0094] 更に、 P3 (N I Hn)とは、映像 41における一のショットに登場人物 Hnが登場する 場合に、係るショットに登場人物 Hnとは異なる登場人物が N人 (N:自然数)登場する 確率を表すデータであり、統計 DB20に保管されるデータ P3に相当する。
[0095] 尚、統計 DB20には、テーブル 21では規定されないデータ P6が保管されている。
データ P6とは、 P6 (C I Sn)と表され、ショット Sn— Cから Snにかけての C+ 1個のシ ヨットが同一カット中のショットである確率を音声認識部 300の音声認識結果に対応 付けて表したデータである。
[0096] 即ち、統計 DB20に格納されるデータ P1〜P6は、本発明に係る「確率データ」の 夫々一例でもある。 <実施例の動作 >
続いて、本実施例に係る登場人物推定装置 10の動作について説明する。
[0097] 始めに、図 4を参照して、本実施例の動作に係る映像の詳細について説明する。こ こに、図 4は、映像 41の構造の一部を表す模式図である。
[0098] 映像 41は、例えば、ドラマなどのストーリ性の高い映像番組である。図 4において、 映像 41の一シーンであるシーン SC1は、 4個のカット C1〜C4で構成されており、更 に、そのうちの一であるカット C1は、更に、 6個のショット SH1〜SH6によって構成さ れている。この各ショットは、夫々本発明に係る「単位映像」の一例であり、ショット SH 1が 10秒、 SH2が 5秒、 SH3力 0秒、 SH4力 秒、 SH5力 秒、及び SH6が 5秒 の時間を有する映像である。従って、カット C1は、 45秒の時間を有する映像である。 <第 1動作例 >
次に、図 5を参照して、本発明の第 1動作例について説明する。ここに、図 5は、映 像 41のカット C1において登場人物が推定される過程を表す図である。尚、係る登場 人物の特定は、 CPU110が ROM130に格納される登場人物推定プログラムを実行 すること〖こよって実現される。
[0099] 始めに、 CPU110は、録画再生装置 30の再生部 32を制御して、映像 41を表示装 置 40に表示させる。この際、再生部 32は、映像 41に関する映像データを記憶部 31 より取得すると共に、表示装置 40に表示させるための映像信号を生成して、表示装 置 40に供給し表示させる。こうして、図 5に示すようにカット C1の表示が開始されると 、最初にショット SH1が表示装置 40に表示される。
[0100] 尚、図 5において、「映像」の項目には、表示装置 40の表示内容を示し、登場人物 は夫々 Hxp (p = 0, 1, 2, · · · , P (但し、 Pは通し番号となる自然数))と表すこととす る。また、カット C1は、ショット SH1〜SH6により構成され、登場人物 H01と登場人物 H02との二人のカットである(図 5における「事実」の項目参照)とする。
[0101] CPU110は、映像 41の表示が開始されると、特定部 200、音声解析部 300、及び メタデータ生成部 400を夫々制御し、各部の動作を開始する。
[0102] 特定部 200は、この CPU110の制御に従って、映像 41における登場人物の特定 を開始する。カット C1のショット SH1においては、 Hxl及び Hx2力 夫々十分に大き い面積で表示されているため、特定部 200は、これら二人を夫々登場人物 H01及び 登場人物 H02であると特定する。
[0103] 特定部 200によって登場人物が特定されると、 CPU110は、メタデータ生成部 400 を制御して、ショット SH1に関するメタデータを生成する。この際、メタデータ生成部 4
00は、「ショット SH1には登場人物 H01と H02とが登場している」旨が記述されたメタ データを生成する。生成されたメタデータは、ショット SH1に係る映像データに対応 付けられる形で記憶部 31に記憶される。
[0104] 尚、特定部 200は、表示装置 40における表示内容の幾何学的な変化量が、所定 の範囲内に収まっている場合には、同一のショットであると判断するように構成されて いる。
[0105] ショット SH1の表示開始から 10秒が経過する(以下、「経過時間」とする)と(図 5に おける「時間」の項目参照)、映像はショット SH2に切り替わる。即ち、表示装置 40の 表示内容に幾何学的な変化が生じる。ここで、特定部 200は、ショットが切り替わった と判断し、新たに登場人物の特定を開始する。ショット SH2は、登場人物 H01に焦点 が当たったショットであり、登場人物 H02である Hx4は殆ど表示装置 40の表示領域 外となっている。この状態では、特定部 200は Hx4の存在を認識することすらできな いため、特定部 200によって特定される登場人物は Hx3、即ち登場人物 H01のみと なる。
[0106] ここで、 CPU110は、特定部 200による登場人物の特定を補完するために、登場 人物の推定を開始する。始めに CPU110は、音声解析部 300による音声解析結果 を RAM 130に一時的に格納する。この格納された音声解析結果とは、特定部 200 がショットの切り替わりであると判断した時刻前後における表示装置 40から取得した 音声データの比較結果である。具体的には、音声解析部 300によって演算された、 係る時刻前後の音圧レベルの差分、又は含まれる周波数帯域の比較データなどで ある。
[0107] CPU110は、この音声解析結果に鑑み、統計 DB20からデータ P6を取得する。よ り具体的には、データ P6の中の、「P6 (C= 1 I S2)」を取得する。これは、ショット SH 1力 ショット SH2にかけての連続する 2個のショットが同一のカットに属するショットで ある確率を表すデータである。
[0108] CPU110は、この取得されたデータ P6と、 RAM 130に格納された音声解析結果と を照合する。この照合によれば、音声解析力 判断される、係る一連のショットが同一 カット内のショットである確率は 70%より大きい。
[0109] 次に、 CPU110は、ショット SH1において登場人物 H01と登場人物 H02とが登場 していることから、統計 DB20よりデータ P4を取得する。より具体的には、データ P4の 中の、「P4 (H02 I H01)」を取得する。これは、登場人物 H01が登場している場合 に、登場人物 H02が同一ショットに登場する確率を表すデータである。この取得され たデータ P4によれば、この確率は 70%より大きい。
[0110] 更に、 CPU110は、ショット SH1において登場人物 H01と H02とが登場しているこ とから、統計 DB20よりデータ P5を取得する、より具体的には、データ P5の中の、「P 5 (S = 2 I H02, 01)」を取得する。これは、登場人物 H01と登場人物 H02とが一の ショットに登場している場合に、それが 2ショットにわたって連続する確率を表すデー タである。この取得されたデータ P5によれば、この確率は 70%より大きい。
[0111] CPU110は、これら得られた確率を推定要素とし、最終的にショット SH2にも登場 人物 H02が登場して 、ると推定する。
[0112] その推定結果を受けて、メタデータ生成部 400は、「ショット SH2には登場人物 H0 1と H02とが登場している」旨が記述されたメタデータを生成する。
[0113] 経過時間が 15秒になると、映像はショット SH3に切り替わる。ここでも、特定部 200 はショットが切り替わつたと判断し、新たに登場人物の特定を開始する。ショット SH3 は、登場人物 H02に焦点が当たったショットであり、登場人物 H01である Hx5は、殆 ど表示装置 40の表示領域外となっている。この状態では、特定部 200は Hx5の存在 を認識することすらできないため、特定部 200によって特定される登場人物は Hx6、 即ち登場人物 H02のみである。
[0114] CPU110は、ここでもショット SH2と同様にして登場人物の推定を行う。この際、 CP U110は統計 DB20力ゝら、データ P6、データ P4、及びデータ P5を取得する。より具 体的には、データ P6によって、ショット SH1からショット SH3にかけての一連の 3ショ ットが同一カット中のショットである確率力 データ P4によって、登場人物 H01が登場 している場合に登場人物 H02が同一ショットに登場する確率力 更に、データ P5に よって、登場人物 H01と登場人物 H02とが一のショットに登場している場合に、それ 力 S3ショットにわたって連続する確率力 夫々推定要素として与えられる。 CPU110 は、これら推定要素から、ショット SH3にも登場人物 H01が登場していると推定する。 その推定結果を受けて、メタデータ生成部 400は、「ショット SH3には登場人物 H01 と H02とが登場して 、る」旨が記述されたメタデータを生成する。
[0115] 経過時間が 25秒となり、映像がショット SH4に切り替わると、特定部 200は、登場人 物の特定を新たに開始する。この際、ショット SH1と同様にして、登場人物が登場人 物 H01と H02であることが特定される。ここでは、 CPU110は特に登場人物の推定 を実行しない。
[0116] 経過時間が 30秒となり、再びショットが切り替わると、特定部 200は係るショット SH5 について登場人物の特定を開始する。しかしながら、ショット SH5においては、 Hx9 及び HxlOが夫々特定可能枠によって規定される面積よりも小さ!/、領域に表示され ているため、特定部 200は二人の人間が存在することは認識できても、それが誰であ るのかを特定することはできな!、。
[0117] CPU110は、特定部 200によって、ショット SH5に二人の人物が登場していること は既に認識されているので、推定部 200によって係る二人の人物が誰であるかを推 定する。即ち、統計 DB20から、データ P6、データ P4、及びデータ P5を取得する。
[0118] 先ず、データ P6により、ショット SH1からショット SH5にかけての一連の 5ショットが 同一カットである確率が、データ P4により、登場人物 H01が登場している場合に登 場人物 H02が同一ショットに登場する確率、及び登場人物 H02が登場している場合 に登場人物 H01が同一ショットに登場する確率力 そして、データ P5により、登場人 物 H01と H02とが登場している場合に、それが 5ショットにわたって連続する確率が、 夫々推定要素として与えられる。 CPU110は、これら推定要素から、ショット SH5に おける登場人物は、登場人物 H01と H02であると推定する。その推定結果を受けて 、メタデータ生成部 400は、「ショット SH5には登場人物 H01と H02とが登場している 」旨が記述されたメタデータを生成する。
[0119] 経過時間が 40秒となって、映像がショット SH6に切り替わると、特定部 200は、新た に登場人物の特定を開始する。ここでは、ショット SH1及びショット SH4と同様にして 、登場人物が登場人物 H01と登場人物 H02であることが特定されて、カット C1に係 る登場人物の特定が終了する。
[0120] ここで、登場人物推定装置 10の効果を、メタデータ生成部 400によって生成された メタデータに関連付けて説明する。
[0121] メタデータ生成部 400は、上述した特定部 200による特定及び CPU110による推 定の結果を受けて、カット C1に係る全てのショットについて、「登場人物が登場人物 H01と登場人物 H02である」旨を示すメタデータを生成している。従って、例えば、 後々、視聴者力 ^登場人物 H01と登場人物 H02とが両方登場するカット」を検索する 際、このメタデータをインデックスとして、ショットの欠落のない完全なカット C1を簡便 に抽出することが可能となる。
[0122] 一方、比較例として、特定部 200による登場人物の特定結果のみに基づいてメタデ ータが生成された場合(図 5の比較例参照)を挙げると、カット C1において、登場人 物 H01と H02が両方共登場する旨が記述されたショットは、ショット SH1、 SH4、及 び SH6のみであり、メタデータをインデックスとして、同じようにカット C1を抽出する場 合、ショット SH2、 SH3、及び SH5が欠落した形でカット CIが抽出される。これでは、 会話も、映像も全てが途切れ途切れとなり、極めて不完全な抽出結果となって、視聴 者に不満を抱力せることとなる。
[0123] 以上説明したように、本実施例に係る登場人物推定装置 10によれば、映像に登場 する人物の特定精度を簡便にして向上させることが可能となるのである。
[0124] 尚、上述した第 1動作例において、ショット SH1、ショット SH4及びショット SH6の夫 々に対し、 CPU110は特に登場人物の推定を実行しないが、例えば、積極的に何ら かの統計データを統計 DB20から取得して推定が行われる可能性もある。そのような 場合には、例えば、存在しない人間を登場人物として推定してしまうことも考えられる 。し力しながら、 CPU110は、特定部 200によって特定された登場人物に対しては推 定を行わないように設定することも容易に可能であり、従って、既に特定されている登 場人物が「存在しない」と推定されることはない。即ち、推定結果が冗長となる可能性 はあっても、登場して 、る人物を漏れのな 、ように特定する精度が劣化する可能性は ゼロに等し 、ので有益である。
<第 2動作例 >
次に、図 6を参照して、本発明に係る登場人物推定装置 10の第 2動作例について 説明する。ここに、図 6は、映像 41のカット C1において登場人物が推定される過程を 表す図である。但し、上述の第 1動作例とはカット C1の内容が異なるものとする。尚、 同図において、図 5と重複する箇所には同一の符号を付してその説明を省略する。
[0125] 図 6において、カット C1は、第 1実施例と同様に 6個のショットからなる。但し、全て のショットにおいて、登場人物は登場人物 H01のみであり、他の登場人物は登場し ない。
[0126] 図 6のショット SH1、 SH3、及び SH6においては、 Hxl、 Hx3及び Hx6は十分に 大きい表示面積で表示されており、夫々特定部 200によって容易に登場人物 H01 であると特定される。
[0127] 一方、ショット SH2において、 Hx2は胴体部分よりも下方が表示されており、特定部 200は、人間が存在して 、ることを認識することができな!/、。
[0128] ここで、 CPU110は、ショット SH2に登場人物が存在する力、更にはそれが誰であ るのかを推定するために、統計 DB20から、データ P6、データ Pl、及びデータ P2を 夫々取得する。具体的には、データ P6の中の「P6 (C= 1 I S2)」、データ PIの中の 「P1 (H01)」、及びデータ P2の中の「P2 (S2 | H01)」を夫々取得する。
[0129] これらデータのうち、「P6 (C = 1 I S2)」は、第 1動作例で既に述べたのと同様、ショ ットの連続性の判断に使用される。即ち、ショット SH1からショット SH2にかけての一 連の 2ショットが、同一カット中のショットである確率が推定要素として与えられる。
[0130] また、「P1 (H01)」からは、登場人物 H01が映像 41に登場する確率が推定要素と して与えられる。そして、「P2 (S2 I H01)」から、登場人物 HOIがーのショットに登場 して 、る場合に、それが 2ショットにわたって連続する確率が推定要素として与えられ る。
[0131] CPU110は、これら 3個の推定要素から、ショット SH2力 ショット SH1と同一カット 中のショットである確率が高ぐ登場人物 H01が登場する確率が高ぐ登場人物 H01 カ^シヨットに連続して登場する確率が高いと判断し、ショット SH2に登場人物 H01が 登場していると推定する。
[0132] 次に、映像がショット SH4に切り替わると、表示装置 40には Hx4が表示されず、 Hx 4の所有物である「煙草」のみが表示される。ここで、視聴者は、この煙草力 Hx4が 登場人物 H01であると容易に想像することが可能であるが、特定部 200は、人間の 存在すら認識することができな 、。
[0133] CPU110は、ここでも、ショット SH2において登場人物 H01を推定したのと同様の 手法により、データ P6、データ Pl、及びデータ P2に基づいて登場人物 HOIがショッ ト SH4に登場して 、ることを推定する。
[0134] 更に、映像がショット SH5に切り替わると、表示装置 40には「コーヒーカップ」が表 示される。ここでも、視聴者はこのアイテムによって示唆される登場人物が登場人物 H01であると容易に想像可能であるが、特定部 200は、人間の存在すら認識するこ とができない。
[0135] ここで、 CPU110は、ショット SH2及び SH4において、登場人物 H01の登場を推 定したのと同様の手法により、このショット SH5にも登場人物 H01が登場していると推 定する。
[0136] このようなカット C1中の一連の推定動作により、結果的にメタデータ生成部 400に よって生成されるメタデータには、ショット SH1から SH6にかけての 6個のショット全て に登場人物 H01が登場している旨が記述される。
[0137] 一方、第 1動作例と同様に、比較例と比較すると、カット C1において登場人物 H01 が登場しているとされるショットはショット SH1、 SH3、及び SH6のみとなり、「登場人 物 H01が単独で登場するカット」が検索される場合、例えば、これら不連続な 3個の ショットが抽出されることとなり、極めて不自然な映像が視聴者に提供される。
[0138] このように、第 2動作例においても、本実施例に係る登場人物推定の効果は存分に 発揮され、登場人物の特定精度が著しく向上する。
<第 3動作例 >
次に、図 7を参照して、本発明に係る登場人物推定装置 10の第 3動作例について 説明する。ここに、図 7は、映像 41のカット C1において登場人物が推定される過程を 表す図である。但し、上述の動作例とは、カット C1の内容が異なる。尚、同図におい て、図 5と重複する箇所には同一の符号を付してその説明を省略する。
[0139] 図 7において、カット C1は単一のショット SH1からなる。ショット SH1では、登場人物 H01、 H02、及び H03が登場する力 登場人物 H01以外の二人は、特定部 200の 認識可能枠によって規定される領域よりも小さい面積で表示されている。従って、存 在が認識されるのは、特定部 200によって特定される登場人物 H01のみとなり、他の 二人はその存在すら認識されない。ここで、 CPU110は、以下の如くにして登場人 物 HO 1以外の登場人物を推定する。
[0140] 先ず、 CPU110は、統計 DB20から、データ P4及びデータ P3を取得する。より具 体的には、データ P4の中の「P4 (H02, H03 | H01)」、及びデータ P3の中の「P3 ( 2 I H01)」を取得する。
[0141] 前者は、一のショットに登場人物 H01が登場している場合に、登場人物 H02及び 登場人物 H03が同一ショットに登場する確率を表すデータであり、その確率は 70% より大きい。また、後者は、一のショットに登場人物 H01が登場する場合に、登場人 物 HO 1を除く二人の登場人物が同一ショットに登場する確率を表すデータであり、そ の確率は 30%より大きい。
[0142] CPU110は、これらのデータを推定要素とし、登場人物 H01の他に、登場人物 H0 2及び登場人物 H03が登場していると推定する。従って、メタデータ生成部 400によ つて生成されるメタデータには、ショット SH1の登場人物は登場人物 H01、 H02、及 び H03である旨が記述される。
[0143] 一方、比較例においては、特定部 200による登場人物特定結果し力反映されない ため、生成されるメタデータには、ショット SH1の登場人物は登場人物 H01である旨 のみが記述される。従って、例えば「登場人物 H01、 H02、及び H03」が登場する力 ット」を検索する場合には、本実施例によれば、第 3動作例に係るカット C1を瞬時に 検索可能であるのに対し、比較例では、登場人物 H01が登場する膨大なカットの中 力も所望のカットを視聴者が検索しなければならなくなり、大変に非効率的である。
[0144] 尚、統計 DB20に格納されるデータは、上述したデータ P1からデータ P6以外にも、 映像中の登場人物を推定可能な限りにおいて自由に設定されてよい。例えば、複数 回にわたって放送されるドラマ番組などでは、「第〇〇回の放送分に登場人物△△ が登場する確率」を表すデータが設定されていてもよいし、また、「登場人物△△と登 場人物□□が登場した場合にそれ以外の登場人物が N人登場する確率」を表すデ ータが設定されて 、てもよ 、。
[0145] 尚、登場人物推定装置 10は、ユーザによる入力が可能な、キーボード或いはタツ チボタンなどの入力手段を備えていてもよい。この入力手段を介して、ユーザが視聴 を所望する登場人物のデータを登場人物推定装置 10に指示してもよい。この場合、 登場人物推定装置 10は、統計 DB20の中から、係る入力されたデータに対応する統 計データを選択して取得し、係る登場人物が登場するカットやショットなどを検索して もよい。或いは、上述の各実施例において、係る視聴が所望される登場人物が存在 する力否かを、係る取得された統計データを参照して積極的に推定してもよ!/、。
[0146] 尚、本実施例においては、本発明に係る「登場物」の一例である登場人物を特定す る態様について延べたが、既に述べたように、本発明において「登場物」とは人物に 限定されず、動物、植物、或いは何らかの物体であってもよぐ映像に登場するこれ らを、本実施例と同様にして特定することも勿論可能である。
[0147] 本発明は、上述した実施例に限られるものではなぐ請求の範囲及び明細書全体 力 読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、その ような変更を伴う登場物推定装置及び方法、並びにコンピュータプログラムもまた本 発明の技術的範囲に含まれるものである。
産業上の利用可能性
[0148] 本発明に係る登場物推定装置及び方法、並びにコンピュータプログラムは、例えば 、映像に登場する登場物の特定精度を向上させ得る登場物推定装置に利用可能で ある。また、例えば民生用或いは業務用の各種コンピュータ機器に搭載される又は 各種コンピュータ機器に接続可能な登場物推定装置等にも利用可能である。

Claims

請求の範囲
[1] 記録された映像に登場する登場物を推定するための登場物推定装置であって、 所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々 有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像 を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に 登場することが予め特定された登場物に対応する統計データを取得するデータ取得 手段と、
前記取得された統計データに基づ 、て、前記一の単位映像又は前記複数の単位 映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定す る推定手段と
を具備することを特徴とする登場物推定装置。
[2] 視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、 前記データ取得手段は、前記入力がなされた登場物に関するデータに基づ!/、て前 記統計データを取得する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[3] 前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づ ヽ て特定する特定手段を更に具備する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[4] 前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段 により特定された登場物については推定せず、前記特定手段により特定されない登 場物を推定する
ことを特徴とする請求の範囲第 3項に記載の登場物推定装置。
[5] 前記推定手段による推定結果に基づいて、前記一の単位映像における登場物に つ!、ての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手 段を更に具備する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[6] 前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫 々が前記映像に登場する確率を表す確率データを取得する ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[7] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に 前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の 登場物が登場する単位映像と相互に連続する M個(M:自然数)の単位映像に連続 して登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[8] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に 前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単 位映像に前記一の登場物とは異なる他の登場物が N個(N:自然数)登場する確率 を表す確率データを取得する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[9] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に 前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単 位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率デ ータを取得する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[10] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に 前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他 の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場 物及び他の登場物が登場する単位映像と相互に連続する S (L:自然数)の単位映 像に連続して登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[11] 前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する 音声情報取得手段と、
前記夫々に対応する音声情報を相互に比較する比較手段と
を更に具備し、
前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映 像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による 比較の結果に対応付けて表してなる確率データを取得する
ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。
[12] 記録された映像に登場する登場物を推定するための登場物推定方法であって、 所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々 有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像 を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に 登場することが予め特定された登場物に対応する一の統計データを取得するデータ 取得工程と、
前記取得された一の統計データに基づ 、て、前記一の単位映像又は前記複数の 単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推 定する推定工程と
を具備することを特徴とする登場物推定方法。
[13] コンピュータシステムを請求の範囲第 1項に記載の推定手段として機能させることを 特徴とするコンピュータプログラム。
PCT/JP2005/016395 2004-09-09 2005-09-07 登場物推定装置及び方法、並びにコンピュータプログラム WO2006028116A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/662,344 US7974440B2 (en) 2004-09-09 2005-09-07 Use of statistical data in estimating an appearing-object
EP05782070A EP1802115A1 (en) 2004-09-09 2005-09-07 Person estimation device and method, and computer program
JP2006535776A JP4439523B2 (ja) 2004-09-09 2005-09-07 登場物推定装置及び方法、並びにコンピュータプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-262154 2004-09-09
JP2004262154 2004-09-09

Publications (1)

Publication Number Publication Date
WO2006028116A1 true WO2006028116A1 (ja) 2006-03-16

Family

ID=36036397

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/016395 WO2006028116A1 (ja) 2004-09-09 2005-09-07 登場物推定装置及び方法、並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US7974440B2 (ja)
EP (1) EP1802115A1 (ja)
JP (1) JP4439523B2 (ja)
CN (1) CN101015206A (ja)
WO (1) WO2006028116A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008017041A (ja) * 2006-07-04 2008-01-24 Sony Corp 情報処理装置および方法、並びにプログラム
JP2010072708A (ja) * 2008-09-16 2010-04-02 Kddi Corp 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体
JP2010118868A (ja) * 2008-11-12 2010-05-27 Canon Inc 情報処理装置およびその制御方法
WO2011064938A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600118B2 (en) * 2009-06-30 2013-12-03 Non Typical, Inc. System for predicting game animal movement and managing game animal images

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002051300A (ja) * 2000-05-25 2002-02-15 Fujitsu Ltd 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム
JP2003529136A (ja) * 1999-12-01 2003-09-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オブジェクト追跡によるプログラム分類方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US7013477B2 (en) * 2000-05-25 2006-03-14 Fujitsu Limited Broadcast receiver, broadcast control method, and computer readable recording medium
JP4491979B2 (ja) 2001-03-01 2010-06-30 ヤマハ株式会社 インデックス配信方法、インデックス配信装置および番組記録装置
FR2852422B1 (fr) * 2003-03-14 2005-05-06 Eastman Kodak Co Procede d'identification automatique d'entites dans une image numerique
EP1566788A3 (en) * 2004-01-23 2017-11-22 Sony United Kingdom Limited Display

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529136A (ja) * 1999-12-01 2003-09-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オブジェクト追跡によるプログラム分類方法
JP2002051300A (ja) * 2000-05-25 2002-02-15 Fujitsu Ltd 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008017041A (ja) * 2006-07-04 2008-01-24 Sony Corp 情報処理装置および方法、並びにプログラム
US8782563B2 (en) 2006-07-04 2014-07-15 Sony Corporation Information processing apparatus and method, and program
JP2010072708A (ja) * 2008-09-16 2010-04-02 Kddi Corp 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体
JP2010118868A (ja) * 2008-11-12 2010-05-27 Canon Inc 情報処理装置およびその制御方法
WO2011064938A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Also Published As

Publication number Publication date
EP1802115A1 (en) 2007-06-27
US20080002064A1 (en) 2008-01-03
JP4439523B2 (ja) 2010-03-24
JPWO2006028116A1 (ja) 2008-05-08
CN101015206A (zh) 2007-08-08
US7974440B2 (en) 2011-07-05

Similar Documents

Publication Publication Date Title
US20040083490A1 (en) Program recommendation system, program recommendation method and program for realizing the same
CN101112090B (zh) 视频内容回放辅助方法、系统和信息分发服务器
KR100718606B1 (ko) 프로그램의 추출방법 및 프로그램의 추출장치
US8526784B2 (en) Digital video recorder collaboration and similar media segment determination
US9430115B1 (en) Storyline presentation of content
KR20090040758A (ko) 영상 태깅 방법 및 이를 사용하는 영상 재생 장치.
JP2003250146A (ja) 番組選択支援情報提供サービスシステムとサーバ装置および端末装置ならびに番組選択支援情報提供方法とプログラムおよび記録媒体
JP2008131339A (ja) 番組情報提供装置、番組情報提供方法及びそのプログラム
CN108293140A (zh) 公共媒体段的检测
EP1293914A2 (en) Apparatus, method and processing program for summarizing image information
JP4439523B2 (ja) 登場物推定装置及び方法、並びにコンピュータプログラム
US8325803B2 (en) Signal processing apparatus, signal processing method, and program
JP2007129531A (ja) 番組提示システム
JP4925938B2 (ja) ダイジェスト映像情報作成方法、ダイジェスト映像情報作成プログラム、および、映像装置
CN100397894C (zh) 用于提供个性化新闻的方法和系统
CN100551014C (zh) 内容处理设备、处理内容的方法
US9813771B2 (en) Information processing apparatus, information processing method and program
Dakss et al. Hyperlinked video
US20160062995A1 (en) Selecting adaptive secondary content based on a profile of primary content
JP2000023062A (ja) ダイジェスト作成システム
JP4698545B2 (ja) 情報処理装置及び方法及びプログラム並びに記憶媒体
KR102500735B1 (ko) 영상에 연관된 광고 정보를 표시하기 위한 영상 스트리밍 서비스 서버 및 그 동작 방법
JP2012203773A (ja) 動画推薦装置及び動画推薦方法
JP2009230306A (ja) 映像記録再生装置
JP4609244B2 (ja) コンテンツ再生装置及びコンテンツ再生方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006535776

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580030431.1

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2005782070

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11662344

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2005782070

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11662344

Country of ref document: US