WO2013018913A1 - 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム - Google Patents

映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム Download PDF

Info

Publication number
WO2013018913A1
WO2013018913A1 PCT/JP2012/069930 JP2012069930W WO2013018913A1 WO 2013018913 A1 WO2013018913 A1 WO 2013018913A1 JP 2012069930 W JP2012069930 W JP 2012069930W WO 2013018913 A1 WO2013018913 A1 WO 2013018913A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewer
scene
frame feature
feature amount
video processing
Prior art date
Application number
PCT/JP2012/069930
Other languages
English (en)
French (fr)
Inventor
原田 大生
直毅 藤田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/236,752 priority Critical patent/US9070040B2/en
Priority to EP12820528.3A priority patent/EP2741507B1/en
Priority to JP2013526974A priority patent/JP5880558B2/ja
Publication of WO2013018913A1 publication Critical patent/WO2013018913A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Definitions

  • the present invention relates to a technique for determining a preference of a viewer who views a video.
  • Patent Document 1 discloses a scene in which a viewer has a preference for a scene having a feature amount close to the feature amount of a playback scene after fast-forwarding or rewinding during video playback. Is disclosed.
  • Patent Document 1 can determine the viewer's preference in units of individual scenes, it can determine the viewer's preference from the viewer's continuous viewing content and the viewer's preference. I could't follow the changes.
  • An object of the present invention is to provide a video processing system, a viewer preference determination method, a video processing device, a control method thereof, and a control program for solving the above-described problems.
  • the video processing apparatus of the present invention First storage means for storing a frame feature amount that characterizes each frame of a scene composed of a series of frames included in the video content viewed by the viewer in association with the viewer; Second storage means for storing a frame feature amount of a scene composed of a series of frames as a scene group by grouping according to attributes of the scene; The frame feature quantity stored in the first storage means and the frame feature quantity stored in the second storage means are collated, and if there is a matching frame feature quantity, the scene feature to which the frame feature quantity matches is determined.
  • Interest level accumulating means for increasing the viewer's score representing the level of interest;
  • Viewer preference determination means for determining a scene group having a higher score as a scene group preferred by the viewer.
  • the control method of the video processing apparatus of the present invention includes: A frame feature amount that characterizes each frame of a scene composed of a series of frames included in video content viewed by the viewer, stored in association with the viewer, and a scene composed of a series of frames
  • the viewer's score representing the degree of interest in the scene group that matches the frame feature amount when there is a frame feature amount that matches the frame feature that is grouped and stored as a scene group by attribute.
  • An interest accumulation step to increase A viewer preference determination step of determining a scene group having a higher score as a scene group preferred by the viewer.
  • the control program of the video processing apparatus of the present invention is A frame feature amount that characterizes each frame of a scene composed of a series of frames included in video content viewed by the viewer, stored in association with the viewer, and a scene composed of a series of frames
  • the viewer's score representing the degree of interest in the scene group that matches the frame feature amount if there is a matching frame feature amount by matching the frame feature amount that is grouped and stored as a scene group by attribute Interest accumulation step to increase
  • a viewer preference determination step of determining a scene group having a higher score as a scene group preferred by the viewer is executed by a computer.
  • the video processing system of the present invention A video processing system for determining a preference of the viewer based on video content viewed by a viewer, Frame feature amount extraction means for extracting a frame feature amount characterizing each frame of a scene composed of a series of frames included in the video content viewed by the viewer; First storage means for storing the frame feature value extracted by the frame feature value extraction means in association with a viewer; Second storage means for storing a frame feature amount of a scene composed of a series of frames as a scene group by grouping according to attributes of the scene; The frame feature quantity stored in the first storage means and the frame feature quantity stored in the second storage means are collated, and if there is a matching frame feature quantity, the scene feature to which the frame feature quantity matches is determined.
  • Interest level accumulating means for increasing the viewer's score representing the level of interest; Viewer preference determination means for determining a scene group having a higher score as a scene group preferred by the viewer.
  • the control method of the video processing system of the present invention includes: A viewer preference determination method for determining the viewer preference based on video content viewed by a viewer, A frame feature amount extracting step for extracting a frame feature amount characterizing each frame of a scene composed of a series of frames included in the video content viewed by the viewer; Stored in a group as a scene group according to the frame feature amount of the frame included in the video content viewed by the viewer and the attribute of the scene composed of a series of frames stored in association with the viewer An interest level accumulating step for increasing the viewer's score, which represents a degree of interest in a scene group having a matching frame feature value when there is a matching frame feature value; A viewer preference determination step of determining a scene group having a higher score as a scene group preferred by the viewer.
  • the present invention can determine the viewer's preference from the viewer's continuous viewing content and follow the change in the viewer's preference.
  • a video processing system 100 as a first embodiment of the present invention will be described with reference to FIG.
  • the video processing system 100 includes a first storage unit 110, a second storage unit 120, an interest level accumulation unit 130, and a viewer preference determination unit 140.
  • the first storage unit 110 stores a frame feature amount that characterizes each frame of a scene composed of a series of frames included in video content viewed by the viewer in association with the viewer.
  • the second storage unit 120 stores the frame feature amount of a scene configured by a series of frames as a scene group by grouping according to attributes of the scene.
  • the interest accumulation unit 130 collates the frame feature amount stored in the first storage unit 110 with the frame feature amount stored in the second storage unit 120, and if there is a matching frame feature amount, the frame feature amount Increase the viewer's score, representing the degree of interest in the matched scene group.
  • the viewer preference determination unit 140 determines a scene group having a higher score as a scene group that the viewer likes.
  • the video processing system includes a video viewing terminal, a video content distribution server, and a video processing device.
  • the video viewing terminal When viewing video content distributed from the video content distribution server, the video viewing terminal extracts a frame feature amount from each frame constituting the video content and transmits it to the video processing device.
  • the video processing device collates the frame feature value received from the video viewing terminal with the frame feature value stored in the frame feature value DB (DATABASE) of the video processing device.
  • the frame feature quantity D stores a frame feature quantity that is structured from the scene feature quantity in association with the scene group.
  • a scene group is set for each user preference category such as a genre of video content or a performer for each scene.
  • the video processing apparatus adds the scores of the scene groups whose frame feature values match as a result of the collation. By accumulating these processes, it is determined that the scene group having a large score is the content or scene of the video content that the viewer likes. According to the present embodiment, the viewer's preference can be easily determined from the viewer's viewing and playback operations using the video viewing terminal.
  • FIG. 2 is a block diagram showing the configuration of the video processing system 200 according to the present embodiment.
  • the video processing device 210 has a frame feature value DB 213 that stores frame feature values that characterize each frame of the video content.
  • the frame feature amount is stored in the frame feature amount DB 213 in association with the relationship between scenes composed of a series of frames of video content (see FIG. 6).
  • “In relation between scenes” means that, for example, when both “scene 1” and “scene 2” are landscape videos, they are grouped in the form of a scene group of the landscape video.
  • the frame feature value DB 213 stores the frame feature value of each scene that has been input in a structured manner corresponding to the relationship between the scenes. For example, when “scene 1” and “scene 2” are landscape videos (landscape-related), they are structured and stored corresponding to the landscape.
  • the video processing apparatus 210 includes a communication control unit 211 that communicates with each server or video viewing terminal via the network 270. Communication may be wired or wireless.
  • the frame feature amount storage unit 212 of the video processing device 210 stores a series of frame feature amounts of video content received by the communication control unit 211 in association with a viewer ID (Identification) for identifying the viewer.
  • the frame feature amount matching unit 214 of the video processing device 210 includes the frame feature amount of each scene already structured and stored in the frame feature amount DB 213, and the frame feature amount stored in the frame feature amount storage unit 212.
  • the score addition unit 215 of the video processing device 210 adds the scores of each scene group associated with the viewer ID of the viewer preference DB 216 according to the collation result of the frame feature amount collation unit 214.
  • the viewer preference DB 216 stores the score of each scene group in association with the viewer ID (see FIG. 7).
  • the viewer preference determination unit 217 of the video processing device 210 refers to the viewer preference DB 216, determines viewer preference information, and notifies the result. .
  • the viewer preference determination unit 217 determines the viewer preference, it is also possible to specify information on the video content that matches the viewer preference, and notify the information on the specified video content. It is also possible to do.
  • Broken lines connecting the communication control unit 21, the frame feature amount storage unit 212, the frame feature amount collation unit 214, the score addition unit 215, the viewer preference DB 216, and the viewer preference determination unit 217 shown in the video processing device 210 of FIG. 2. Represents the movement of transmission of the viewer ID.
  • the viewer ID is, for example, a terminal-specific ID of the video viewing terminals 220 to 240, a login ID to the terminal, or a login ID to a service on the Internet provided in association with the video processing device 210.
  • Reference numerals 220 to 240 in FIG. 2 denote video viewing terminals for viewing video content.
  • the video viewing terminals 220 to 240 have frame feature amount extraction units 220a to 240a, respectively.
  • the video viewing terminals 220 to 240 download and view video content from the video content distribution server 250 or 260
  • the video viewing terminals 220 to 240 generate frame feature amounts using the frame feature amount extraction units 220 a to 240 a to the video processing device 210.
  • the video viewing terminals 220 to 240 generate frame feature amounts using the frame feature amount extraction units 220a to 240a when playing back video contents or record and play back broadcast programs, and perform video processing.
  • FIG. 3A is a block diagram showing a configuration of the frame feature quantity extraction units 220a to 240a according to the present embodiment.
  • the frame feature amount extraction units 220a to 240a applied in the present embodiment are functional configuration units that extract video signatures adopted in the standardization of MPEG (Moving Picture Expert Group) 7.
  • the frame feature quantity 350 output from the frame feature quantity extraction units 220a to 240a quantizes the difference of the average luminance value representing the area feature quantity between predetermined areas in each frame image of the captured video. (Actually ternary) and encoded.
  • the predetermined region refers to a large number of region pairs having different sizes or shapes provided in each frame image of a captured video.
  • the dimension determining unit 310 determines the number of region pairs. One dimension corresponds to one region pair.
  • the extraction region acquisition unit 320 acquires a region pair of each dimension for calculating the frame feature amount according to the determination of the dimension determination unit 310.
  • the region feature amount calculation unit 330 includes a first region feature amount calculation unit 331 and a second region feature amount calculation unit 332. Each region feature amount calculation unit calculates an average luminance which is a kind of region feature amount of one region of each dimension region pair.
  • the region feature amount difference encoding unit 340 calculates the difference between the average luminances of the region pairs. Furthermore, the region feature amount difference encoding unit 340 performs quantum encoding on the difference according to the third threshold value and outputs a frame feature amount 350. In this example, the area feature amount of the area is described below by using the average luminance as a representative.
  • FIG. 3B is a diagram showing processing in the frame feature amount extraction units 220a to 240a according to the present embodiment.
  • 300 of FIG. 3B has shown the example of the number of area
  • seven large rectangles each indicate one frame image, and each rectangle inside the frame indicates a region.
  • 330a in FIG. 3B represents the relationship between the region extracted by the region pair from the extraction region acquisition unit 320 and the difference between the regions in one frame image.
  • 340a in FIG. 3B shows a state where the calculated difference is quantum-encoded.
  • the difference obtained by subtracting the second region feature amount from the first region feature amount in FIG. 3A is indicated by a broken line that is the third threshold value centered on the difference “0” (corresponding to the case where the average luminance is equal). If it is within the difference, “0” is set as an output value of quantum coding. If the same difference is a positive (+) value larger than the position of the broken line, “+1” is set as an output value of quantum coding.
  • “ ⁇ 1” is set as an output value of quantum coding.
  • the third threshold value indicated by a broken line is selected from the ratio of the difference values to be quantized to “0” from the distribution of the difference values of all dimensions used. As an example, a value is selected so that the ratio of the difference value to be quantized to “0” is 50%.
  • FIG. 3B shows an example of a frame feature amount generated by collecting the results of differential quantum coding.
  • the frame feature value is obtained by arranging the quantum-coded values of the differences in the one-dimensional direction in the dimensional order.
  • the quantum-coded values of the differences are not simply arranged in the one-dimensional direction in the dimensional order, but may be arranged in the multi-dimensional direction or further added with an additional calculation. Is not limited.
  • FIG. 3C is a diagram showing extraction regions in the frame feature amount extraction units 220a to 240a according to the present embodiment.
  • 320a in FIG. 3B shows an example in which each dimension region pair has two rectangular regions.
  • FIG. 4 is a block diagram showing a hardware configuration of the video processing apparatus 210 according to the present embodiment.
  • a CPU Central Processing Unit
  • FIG. 4 is a block diagram showing a hardware configuration of the video processing apparatus 210 according to the present embodiment.
  • a CPU Central Processing Unit
  • FIG. 4 is a block diagram showing a hardware configuration of the video processing apparatus 210 according to the present embodiment.
  • a CPU Central Processing Unit
  • FIG. 4 is a processor for calculation control, and implements each functional component of FIG. 2 by executing a program.
  • a ROM (Read On Memory) 420 stores initial data and fixed data such as a program and a program.
  • the communication control unit 211 communicates with the video viewing terminals 220 to 240 or the video content distribution servers 250 and 260. Communication may be wireless or wired.
  • a RAM (Random Access Memory) 440 is a random access memory used by the CPU 410 as a work area for temporary storage. In the RAM 440, data areas 212, 441, and 442 for storing data necessary for realizing the present embodiment are secured.
  • the data area 212 functions as a frame feature amount storage unit (see FIG. 5) that stores received frame feature amounts corresponding to viewer IDs.
  • the data area 441 stores a viewer ID whose frame feature value is being verified.
  • the data area 442 stores a scene group that matches as a result of the frame feature amount matching.
  • the storage 450 stores a database or various parameters, or the following data or programs necessary for realizing the present embodiment.
  • the data area 213 functions as a frame feature DB (see FIG. 6).
  • the data area 216 functions as a viewer preference DB (see FIG. 7).
  • the storage 450 stores a program for executing the following processing.
  • the video processing program 451 executes overall processing.
  • the frame feature amount matching module 452 processes frame feature amount matching in the video processing program 451.
  • the score addition module 453 adds the score of the scene group in the viewer preference DB 216 in the video processing program 451.
  • FIG. 5 is a data structure showing the configuration of the frame feature amount storage unit 212-1 according to the present embodiment.
  • this embodiment is described as a frame feature value storage unit 212-1.
  • the frame feature amount storage unit 212-1 stores the received frame feature amount 502 associated with the viewer ID 501.
  • FIG. 6 is a data structure showing the configuration of the frame feature DB 213 according to this embodiment.
  • the frame feature DB 213 stores a scene ID 602 included in the scene group 601 and a series of frame feature 603 corresponding to each scene ID. This frame feature quantity 603 is collated with the received frame feature quantity, so that it can be understood to which scene group the received frame feature quantity belongs.
  • the scene group may be a collection of scenes in which a series of frame feature value difference values are within a predetermined range, or the content of the video content, the genre, the theme to be treated, or a person or subject appearing in the video
  • the same or related scenes may be collected.
  • a certain same scene may be registered in a plurality of scene groups. For example, a case where a scene included in a scene group in which appearance scenes of a specific person are collected is included in another scene group in which scenes shot at a specific shooting site are included.
  • the configuration of the frame feature DB 213 is not limited to the configuration of FIG. 6, and other necessary items may be added. (Viewer preference DB) FIG.
  • the viewer preference DB 216 stores each score 703 in association with a plurality of scene groups 702.
  • the plurality of scene groups 702 are specified by matching the frame feature amount of each scene received so far in association with the viewer ID 701 and the frame feature amount of the frame feature amount DB 213. This score is integrated by receiving the frame feature amount by viewing the video content of the viewer. As a result, a scene group whose score is greater than a predetermined threshold is a scene that the viewer likes.
  • FIG. 8 is a flowchart showing a processing procedure of the video processing apparatus 210 according to the present embodiment. The operation shown in this flowchart is realized by using each functional component shown in FIG.
  • the video processing device 210 determines whether or not a frame feature amount has been received (step S811).
  • the frame feature value matching unit 214 of the video processing device 210 matches the received frame feature value with the frame feature value stored in the frame feature value DB 213 (step S813).
  • the frame feature amount matching unit 214 feeds back the matching result to the frame feature amount DB 213. For example, if the received frame feature value matches the frame feature value of any scene group, the received frame feature value is added to the scene group (step S815). On the other hand, if there is no matching scene group, a new scene group is generated.
  • the newly generated scene group is a group that is out of the past preference classification, and a new preference is formed as the accumulation in the frame feature DB 213 progresses.
  • the video processing device 210 changes the subsequent processing depending on whether or not the frame feature values match (step S817). If there is no match of the frame feature value, the newly generated scene group is added to the viewer ID in the viewer preference DB 216, a new score is generated, and score accumulation is started (step). S819). If there is a match of the frame feature value, the score of the matched scene group is updated (increased) (step S821). On the other hand, the video processing device 210 determines whether there is a request for viewer preference information (step S831).
  • the viewer preference determination unit 217 reads a score of a desired viewer ID from the viewer preference DB 216 and analyzes the viewer preference based on the score (Ste S833).
  • the analyzed viewer preference or the score itself is transmitted to the requester via the communication control unit 211 (step S835).
  • a video processing system according to the third embodiment of the present invention will be described.
  • the video processing system according to the present embodiment is an example in which the amount is weighted in response to a viewer's operation or a reaction to a video or a scene when updating the score of the second embodiment.
  • the third embodiment can analyze a more precise degree of preference than the second embodiment.
  • FIG. 9 is a block diagram showing a configuration of the frame feature amount storage unit 212-2 according to the present embodiment.
  • the frame feature amount storage unit 212-2 receives and stores information related to other weighting from the viewer or the video viewing terminal in addition to the frame feature amount described in the second embodiment.
  • the frame feature amount storage unit 212-2 is associated with the viewer ID 901, in addition to the frame feature amount 902, in addition to the broadcast / playback 903, the playback method 904, the viewer reaction 905, and the total weight 906 of those results.
  • the weighting parameters are not limited to those shown in FIG.
  • Broadcast / playback 903 is information indicating whether the video is a direct broadcast or a playback. In direct broadcasting, the viewer may not be watching the broadcast. On the other hand, it is considered that the viewer is consciously reproducing and viewing. Therefore, the weighting increases the reproduction weight than the broadcast.
  • the reproduction method 904 is also similar to the broadcast / reproduction 903, and the weight of reproduction from the storage medium is made larger than the weight of reproduction of the recorded program.
  • the reaction 905 includes a viewer's positive reaction (positive reaction) and a negative reaction (negative reaction). The reaction may be received directly by voice or key input, or may be determined from the operation of the viewer. For example, it is negative when fast-forwarding, and positive when repeating.
  • FIG. 10 is a diagram showing a data structure of the weight setting table 1000 according to the present embodiment.
  • the weight setting table 1000 is a table that defines the setting of each weight shown in FIG. As described in the weight setting table 1000 in FIG. 9, a numerical value of the weight 1002 is stored in association with each weighting condition 1001. The numerical value may be a plus / minus numerical value or a multiplication value of 1 or more / 1 or less. It should be noted that the condition items in FIG. 10 are just a few examples and are not limited thereto.
  • FIG. 11 is a flowchart showing a processing procedure of the video processing apparatus according to the present embodiment.
  • the frame feature amount stored in the frame feature amount DB is not a frame feature amount of the entire scene but a selected part thereof, as compared with the second and third embodiments. It is different.
  • the selected part may be a front part, a rear part, or an intermediate part representing the characteristics of each scene, and the length thereof may be changed.
  • the fourth embodiment can significantly reduce the storage capacity of the frame feature DB compared to the second embodiment.
  • the configuration of the frame feature DB is mainly described, and the description of the same configuration and operation as in the second or third embodiment is omitted.
  • FIG. 12 is a diagram showing a configuration of the frame feature value DB 1213 according to the present embodiment.
  • the frame feature value DB 1213 is replaced with the frame feature value DB 213 in FIGS. 2 and 4 in the second embodiment.
  • the frame feature DB 1213 stores the frame feature in association with the scene group 601 and the scene ID 602 similar to those in FIG. However, what is stored is a frame feature quantity 1203 of a part of the scene specified by the frame feature quantity storage portion 1204.
  • the storage portion 1204 of the frame feature value is the number of seconds from the start of the scene (t0 represents 0 seconds, t10 represents 10 seconds). In the example of FIG. 12, each scene is described as 30 seconds, but the length of the scene may be variable.
  • the frame feature value for the first 10 seconds is stored for the scene with the scene ID A1.
  • the frame feature amount for 10 seconds to 25 seconds, which is in the middle is stored.
  • the frame feature amount for 10 seconds to 27 seconds, which is in the middle of the first 5 seconds is stored.
  • the frame feature value for the last 8 seconds is stored for the scene with the scene ID B1.
  • the storage portion 1204 of the frame feature value is represented by the number of seconds from the start.
  • the frame number is assigned with a serial number from the start and is stored as from the 100th frame to the 250th frame. May be.
  • the video processing system further includes a subject DB for storing an identifier such as a tag indicating a subject of a scene so as to be searchable, and the viewer's preference is determined from a plurality of viewpoints. It differs in the point judged from.
  • the subject of the scene is a person such as a program performer, a creature such as an insect, or a mountain or sea / building.
  • the viewer's preference can be determined based on the subject included in a part of the scene in addition to the feature of the image data called the frame feature amount of the scene.
  • a scene in which the subject appears for a moment or a scene in which the subject appears in a part of the background can be considered.
  • a scene group based on matching of frame feature amounts and a scene group based on matching of subject IDs are provided separately.
  • FIG. 13 is a block diagram illustrating a configuration of a video processing system 1300 according to the present embodiment.
  • FIG. 13 is a diagram for explaining the video processing apparatus, and devices connected to the network 270 are omitted.
  • the same functional components as those in the second embodiment are denoted by the same reference numerals.
  • differences from the second embodiment will be described.
  • the subject ID storage unit 1312 stores the subject ID of the video being played from the viewing terminal received by the communication control unit 211.
  • the subject ID may correspond to the scene indicated by the frame feature amount, or may correspond to the entire content.
  • the present embodiment is a subject ID corresponding to a scene indicated by a frame feature amount received simultaneously.
  • the subject DB 1313 stores a plurality of scenes including video of the same subject as a scene group (see FIG. 14).
  • the subject collation unit 1314 collates the subject ID received from the video viewing terminal stored in the subject ID storage unit 1312 with the subject ID stored in the subject DB 1313.
  • the score adding unit 1315 adds the score of the scene when the subject ID matches.
  • the viewer preference DB 1316 accumulates the score of the scene group due to the match of the subject ID, in addition to the score of the scene group due to the match of the frame feature amount in the viewer preference DB 216 of the second embodiment (see FIG. 15).
  • FIG. 14 is a diagram showing a configuration of the subject DB 1313 according to the present embodiment.
  • the subject DB 1313 stores a scene ID 1402 included in the scene group 1401 and a subject ID 1403 corresponding to each scene ID.
  • the subject collation unit 1314 collates the subject ID 1403 in the subject DB 1313 with the received subject ID. By this collation, it can be understood to which scene group the received subject ID belongs.
  • the configuration of the subject DB 1313 is not limited to the configuration of FIG. 14, and other necessary items may be added.
  • FIG. 15 is a diagram showing a configuration of the viewer preference DB 1316 according to the present embodiment.
  • the viewer preference DB 1316 stores each attribute 1503 and score 1504 in association with the frame feature amount of the video viewed by the viewer ID 1501 or a plurality of scene groups 1502 to which the subject ID 0 belongs.
  • the score is accumulated by receiving the frame feature amount by viewing the video content of the viewer and / or by the subject of the video content of the viewer. As a result, a scene group having a large score becomes a scene that the viewer likes. If the number of scene groups corresponding to each viewer ID is increased without limit, the capacity of the viewer preference DB 216 continues to increase. For this reason, it is desirable to execute processing such as deleting a scene group having a low score after a certain period. ⁇ Processing procedure of video processing device ⁇ FIG.
  • FIG. 16 is a flowchart showing a processing procedure of the video processing apparatus 1310 according to this embodiment.
  • the operation shown in this flowchart is realized by using each functional component shown in FIG.
  • the operation is executed by the CPU 410 using the RAM 440 with the subject DB 1313 added to the storage 450 of FIG. 4 shown in the second embodiment.
  • the same procedures as those in FIG. 8 of the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • the characteristic part of the present embodiment is a part of steps S1641 to S1651.
  • the video processing device 1310 determines whether or not a subject ID has been received (step S1641).
  • the subject collation unit 1314 of the video processing apparatus 1310 collates the received subject ID with the subject ID stored in the subject DB 1313 (step S1643). Subsequently, the subject collation unit 1314 feeds back the collation result to the subject DB 1313 (step S1645). For example, when the received subject ID matches the subject ID of any scene group stored in the subject DB, the subject collation unit 1314 adds the received subject ID to the scene group. On the other hand, if there is no matching scene group, the subject collation unit 1314 generates a new scene group.
  • the video processing apparatus 1300 performs different processing based on whether or not there is a match between the received subject ID and the subject ID stored in the subject DB 1313 (step S1647). If the subject ID does not match, the score adding unit 1315 adds the newly generated scene group to the viewer ID in the viewer preference DB 1316, and starts accumulating new scores (step S1649). If the subject IDs match, the score addition unit 1315 updates (increases) the score of the matched scene group (step S1651). [Sixth Embodiment] Next, a video processing system according to the sixth embodiment of the present invention will be described.
  • the video processing system is different from the fifth embodiment in that the frame feature DB and the subject DB are integrated, and a viewer's preference is determined by associating a plurality of viewpoints. According to the present embodiment, it is possible to determine a more detailed or nuanced preference of the viewer that cannot be determined by matching the frame feature amount. In the following description of the present embodiment, description of the same configuration and operation as those of the second to fifth embodiments will be omitted, and portions different from those of the second to fifth embodiments will be described. In the present embodiment, as a method for determining by associating a plurality of viewpoints, a scene group is determined based on the match of the frame feature amount, and the score increase amount is determined based on whether or not the subject ID matches.
  • FIG. 17 is a block diagram showing a configuration of a video processing system 1700 according to this embodiment.
  • FIG. 17 is a diagram for explaining the video processing apparatus, and devices connected to the network 270 are omitted.
  • the same functional components as those in the second embodiment are denoted by the same reference numerals.
  • the subject ID storage unit 1712 stores the subject ID of the video being reproduced from the video viewing terminal received by the communication control unit 211.
  • the subject ID corresponds to the scene indicated by the frame feature amount.
  • the frame feature / subject DB 1713 stores the derived frame feature and stores a plurality of scenes including video of the same subject as a scene group (see FIG. 18).
  • the subject collation unit 1714 collates the subject ID received from the video viewing terminal stored in the subject ID storage unit 1712 with the subject ID stored in the frame feature / subject DB 1713.
  • the score adding unit 1715 adds the score of the scene corresponding to whether or not the subject ID matches when the frame feature values match.
  • the viewer preference DB 1716 is different from the score of a separate scene group based on the match of the frame feature amount and the match of the subject ID in the viewer preference DB 1316 of the fourth embodiment, and the subject ID matches when the frame feature amount matches.
  • FIG. 18 is a diagram showing a configuration of the frame feature / subject DB 1713 according to the present embodiment.
  • the frame feature / subject DB 1713 stores a scene ID 1802 included in the scene group 1801, a frame feature 1803 and subject ID 1804 corresponding to each scene ID.
  • the subject collation unit 214 collates the frame feature value / frame feature value 1803 of the subject DB 1713 with the received frame feature value.
  • FIG. 19 is a flowchart showing a processing procedure of the video processing apparatus 1710 according to this embodiment. The operation shown in this flowchart is realized using each functional component shown in FIG.
  • FIG. 19 is a modification of steps S811 to S821 in FIG. 8, and steps similar to those in FIG. 8 are denoted by the same reference numerals and description thereof is omitted. Also, steps S831 to S835 are the same and will be omitted.
  • the video processing device 1710 determines whether or not the frame feature amount and the subject ID are received from the viewing terminal (step S1911). Next, when receiving the frame feature value and the subject ID, the video processing device 1710 performs the same processing as FIG.
  • the subject collation unit 1714 collates the received subject ID with the subject ID stored in the frame feature / subject DB 1813 (step S1913).
  • the collation result is fed back to the frame feature / subject DB 1813 (step S1915). For example, if the subject ID of any scene group matches, the subject collation unit 1714 adds the received subject ID to the scene group. On the other hand, if there is no matching scene group, the subject collation unit 1714 generates a new scene group.
  • the video processing device 1710 performs different processing based on whether or not there is a match between the received subject ID and the subject ID stored in the frame feature / subject DB 1713 (step S1917). If the subject IDs do not match, the score adding unit 1715 decreases the score updated in step S821 (step S1921). On the other hand, if the subject IDs match, the score updated in step S821 is increased (step S1919). As described above, if the frame feature amount matches and the subject ID matches, the score further increases. On the other hand, if the subject feature ID does not match even if the frame feature amount matches, the score decreases. [Seventh Embodiment] Next, a video processing system according to the seventh embodiment of the present invention will be described.
  • the video processing system according to the present embodiment is based on the frame feature amount of the video being played from the video viewing terminal and / or the viewer's preference recognized from the past viewing history.
  • a point for notifying the viewer of content that the viewer has not yet viewed is added.
  • the description of the same configuration and operation as those of the second to sixth embodiments will be omitted, and portions different from those of the second to sixth embodiments will be described.
  • FIG. 20 is a block diagram showing a part of the configuration of the video processing system 2000 according to the present embodiment.
  • the content information DB 2013 of the video processing apparatus 2010 stores content information including the frame feature amount stored in the frame feature amount DB 213.
  • An example of the content information is a content ID that is an identifier for identifying the data of the content itself or the content (see FIG. 21).
  • the viewed DB 2016 stores the viewed content ID that has already been viewed in association with the viewer ID that identifies the viewer.
  • the unviewed information notification unit 2017 notifies the viewer of content candidates by excluding the content accumulated in the viewed DB 2016 from the notification candidate content group.
  • the notification candidate content group is searched from the content information DB 2013 by the unviewed information notification unit 2017 based on the frame feature amount of the video being reproduced and / or the viewer's preference recognized from the past viewing history.
  • FIG. 21 is a diagram showing a configuration of the content information DB 2013 according to the present embodiment.
  • the content information DB 2013 stores the content ID 2101 associated with the frame feature amount 2102.
  • the content information DB 2013 accumulates content information that has been played back on a video viewing terminal in the past and transmitted frame feature values, or content information that has received frame feature values from a video content distribution server or the like.
  • FIG. 22 is a diagram showing a configuration of the viewed DB 2016 according to the present embodiment.
  • the viewed DB 2016 stores the viewed content ID 2202 in association with the viewer ID 2201.
  • the viewed DB 2016 may store content that is not viewed and held by the viewer, or content that is owned by family members or friends, in addition to the content viewed by the viewer.
  • FIG. 23 is a flowchart showing a processing procedure of the video processing apparatus 2010 according to the present embodiment. This flowchart is executed by adding the content information DB 2013 and the viewed DB 2016 and using the RAM 440 by the CPU 410 in FIG. 4, thereby realizing the functional components in FIG. 20.
  • FIG. 23 is a flowchart showing a processing procedure of the video processing apparatus 2010 according to the present embodiment. This flowchart is executed by adding the content information DB 2013 and the viewed DB 2016 and using the RAM 440 by the CPU 410 in FIG. 4, thereby realizing the functional components in FIG. 20.
  • step S2361 it is determined whether or not unviewed information is requested from the video viewing terminal. If unviewed information is requested from the video viewing terminal, the process proceeds to step S2363, and derived content IDs selected from the frame feature amounts transmitted from the video viewing terminal are collected from the content information DB 2013. Next, in step S2365, content IDs that match the viewer preference acquired from the viewer preference DB based on the viewer ID from the video viewing terminal are collected from the content information DB 2013.
  • step S2367 the viewed content ID is read from the viewed DB 2016 based on the viewer ID from the video viewing terminal, and excluded from the content ID group collected in steps S2363 and / or S2365, and the unviewed content To extract.
  • step S2369 the extracted unviewed content is notified to the viewer from the video viewing terminal.
  • the notification format may be a content ID, information such as a content name, a part of the content or a thumbnail.
  • connection destination information for example, URL
  • the information notified to the viewer from the video viewing terminal is connection destination information (for example, URL) from which unviewed content can be obtained.
  • the point is different.
  • content that has not been viewed by the viewer can be notified and introduced in a manner that can be acquired by a simple operation of the viewer.
  • parts different from the seventh embodiment will be described. Since other configurations and operations are the same as those of the seventh embodiment, description thereof will be omitted.
  • Content information DB is a diagram showing a data structure of the content information DB 2413 according to this embodiment.
  • the content acquisition destination shown in FIG. 24 is an example of a URL, but may be a contact such as a content creation source, a content issue source, or a content distribution source.
  • First storage means for storing a frame feature amount that characterizes each frame of a scene composed of a series of frames included in the video content viewed by the viewer in association with the viewer;
  • Second storage means for storing a frame feature amount of a scene composed of a series of frames as a scene group by grouping according to attributes of the scene;
  • the frame feature quantity stored in the first storage means and the frame feature quantity stored in the second storage means are collated, and if there is a matching frame feature quantity, the scene feature to which the frame feature quantity matches is determined.
  • Interest level accumulating means for increasing the viewer's score representing the level of interest; Viewer preference determination means for determining a scene group having a higher score as a scene group preferred by the viewer;
  • a video processing apparatus comprising: (Appendix 2) The video processing apparatus according to claim 1, wherein the first storage unit stores frame feature amounts of some frames characterizing the scene of a series of frames included in the scene. (Appendix 3) The first storage means further stores a weight corresponding to a degree to which the viewer requests viewing of the video content; The video processing apparatus according to claim 1, wherein the interest level accumulating unit adds the weight to the increase in the score.
  • the video processing apparatus corresponds to a method of viewing the video content by the viewer, and gives greater weight to viewing from a storage medium than when viewing as a program.
  • the weighting corresponds to a response of the viewer to the viewing of the video content by the viewer, and assigns a large weight to a positive reaction by the viewer.
  • the video processing apparatus described. (Appendix 6)
  • the attribute of the scene corresponds to the attribute of the video content including the scene,
  • the second storage means further stores subjects included in a scene composed of a series of frames, grouped according to attributes of the scene, and stored as a scene group. 6.
  • the interest level accumulating unit increases a score representing an interest level of a scene group based on a combination of the frame feature amount collation and the subject collation.
  • the video processing apparatus according to item 1.
  • the video processing apparatus according to claim 1 wherein the attribute of the scene includes a content attribute including an attribute indicating that the scene is a derived scene derived from one scene.
  • Appendix 8 Third storage means for storing video content including a frame feature of the scene; Notification means for retrieving information on video content having frame feature quantities of scenes included in a scene group preferred by the viewer determined by the viewer preference determination means from the third storage means and notifying the video viewing terminal.
  • the video processing apparatus further comprising: (Appendix 9) A fourth storage means for storing video content information that the viewer has already viewed in association with the viewer;
  • the notification means retrieves information on video content that has already been viewed by the viewer from information on video content having a frame feature amount of a scene included in a scene group that the viewer likes, which is retrieved from the third storage means.
  • the video processing apparatus notifies the video viewing terminal.
  • the frame feature amount is data obtained by combining the difference of the region feature amount calculated for each region pair of a plurality of region pairs set with different sizes in each frame by the number of region pairs.
  • (Appendix 11) The video processing apparatus according to claim 10, wherein the region feature amount is represented by luminance.
  • Appendix 12 A frame feature amount that characterizes each frame of a scene composed of a series of frames included in video content viewed by the viewer, stored in association with the viewer, and a scene composed of a series of frames The viewer's score representing the degree of interest in the scene group that matches the frame feature amount when there is a frame feature amount that matches the frame feature that is grouped and stored as a scene group by attribute.
  • a control method for a video processing apparatus comprising: (Appendix 13) A frame feature amount that characterizes each frame of a scene composed of a series of frames included in video content viewed by the viewer, stored in association with the viewer, and a scene composed of a series of frames The viewer's score representing the degree of interest in a scene group that matches the frame feature amount when there is a matching frame feature amount by matching the frame feature amount that is grouped and stored as a scene group by attribute Interest accumulation step to increase Viewer preference determination step for determining a scene group having a higher score as a scene group preferred by the viewer;
  • a control program for causing a computer to execute.
  • a video processing system for determining a preference of the viewer based on video content viewed by a viewer, Frame feature amount extraction means for extracting a frame feature amount characterizing each frame of a scene composed of a series of frames included in the video content viewed by the viewer; First storage means for storing the frame feature value extracted by the frame feature value extraction means in association with a viewer; Second storage means for storing a frame feature amount of a scene composed of a series of frames as a scene group by grouping according to attributes of the scene; The frame feature quantity stored in the first storage means and the frame feature quantity stored in the second storage means are collated, and if there is a matching frame feature quantity, the scene feature to which the frame feature quantity matches is determined.
  • Interest level accumulating means for increasing the viewer's score representing the level of interest; Viewer preference determination means for determining a scene group having a higher score as a scene group preferred by the viewer;
  • a video processing system comprising: (Appendix 15) A viewer preference determination method for determining the viewer preference based on video content viewed by a viewer, A frame feature amount extracting step for extracting a frame feature amount characterizing each frame of a scene composed of a series of frames included in the video content viewed by the viewer; Stored in a group as a scene group according to the frame feature amount of the frame included in the video content viewed by the viewer and the attribute of the scene composed of a series of frames stored in association with the viewer An interest level accumulating step for increasing the viewer's score, which represents a degree of interest in a scene group having a matching frame feature value when there is a matching frame feature value; Viewer preference determination step for determining a scene group having a higher score as a scene group preferred by the viewer; A method for determining a preference of

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

継続的な視聴内容から判定される視聴者の嗜好を判定すると共に、変化する視聴者の嗜好にも追随できる映像処理装置を提供する。視聴者に対応付けて、視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量を記憶する第1記憶部と、一連のフレームで構成されるシーンのフレーム特徴量を、シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶部と、第1記憶部に記憶されたフレーム特徴量と第2記憶部に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、視聴者のスコアを増加させる関心度累積部と、スコアのより高いシーングループを、視聴者が嗜好するシーングループと判定する視聴者嗜好判定部と、を備える。

Description

映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム
 本発明は、映像を視聴する視聴者の嗜好を判定する技術に関する。
 映像を視聴する視聴者の嗜好を判定する技術として、特許文献1は、映像再生時の早送り又は巻き戻しの後の再生シーンの特徴量に近い特徴量を有するシーンを、視聴者の嗜好するシーンと判定する技術を開示している。
特開2010−258615号公報
 しかしながら、上記特許文献1の技術は、個別のシーン単位で視聴者の嗜好を判定することはできるが、視聴者の継続的な視聴内容から視聴者の嗜好を判定することと視聴者の嗜好の変化に追随することができなかった。
 本発明の目的は、上述の課題を解決するための映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラムを提供することにある。
 本発明の映像処理装置は、
 視聴者に対応付けて、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量を記憶する第1記憶手段と、
 一連のフレームで構成されるシーンのフレーム特徴量を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶手段と、
 前記第1記憶手段に記憶されたフレーム特徴量と前記第2記憶手段に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積手段と、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定手段と、を備える。
 本発明の映像処理装置の制御方法は、
 視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、を含む。
 本発明の映像処理装置の制御プログラムは、
 視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合は、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、をコンピュータに実行させる。
 本発明の映像処理システムは、
 視聴者が視聴した映像コンテンツに基づいて前記視聴者の嗜好を判定する映像処理システムであって、
 前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴つけるフレーム特徴量を抽出するフレーム特徴量抽出手段と、
 視聴者に対応付けて、前記フレーム特徴量抽出手段が抽出したフレーム特徴量を記憶する第1記憶手段と、
 一連のフレームで構成されるシーンのフレーム特徴量を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶手段と、
 前記第1記憶手段に記憶されたフレーム特徴量と前記第2記憶手段に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積手段と、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定手段と、を備える。
 本発明の映像処理システムの制御方法は、
 視聴者が視聴した映像コンテンツに基づいて前記視聴者の嗜好を判定する視聴者の嗜好判定方法であって、
 前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴つけるフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれるフレームのフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、を含む。
 本発明は、視聴者の継続的な視聴内容から視聴者の嗜好を判定することと視聴者の嗜好の変化に追随することがきる。
本発明の第1実施形態に係る映像処理システムの構成の一部を示すブロック図である。 本発明の第2実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第2実施形態に係るフレーム特徴量抽出部の構成を示すブロック図である。 本発明の第2実施形態に係るフレーム特徴量抽出部における処理を示す図である。 本発明の第2実施形態に係るフレーム特徴量抽出部における抽出領域を示す図である。 本発明の第2実施形態に係る映像処理装置のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係るフレーム特徴量記憶部の構成を示す図である。 本発明の第2実施形態に係るフレーム特徴量DBの構成を示す図である。 本発明の第2実施形態に係る視聴者嗜好DBの構成を示す図である。 本発明の第2実施形態に係る映像処理装置の処理手順を示すフローチャートである。 本発明の第3実施形態に係るフレーム特徴量記憶部の構成を示す図である。 本発明の第3実施形態に係る重み設定テーブルの構成を示す図である。 本発明の第3実施形態に係る映像処理装置の処理手順を示すフローチャートである。 本発明の第4実施形態に係るフレーム特徴量DBの構成を示す図である。 本発明の第5実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第5実施形態に係る被写体DBの構成を示す図である。 本発明の第5実施形態に係る視聴者嗜好DBの構成を示す図である。 本発明の第5実施形態に係る映像処理装置の処理手順を示すフローチャートである。 本発明の第6実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第6実施形態に係るフレーム特徴量/被写体DBの構成を示す図である。 本発明の第6実施形態に係る映像処理装置の処理手順を示すフローチャートである。 本発明の第7実施形態に係る映像処理システムの構成の一部を示すブロック図である。 本発明の第7実施形態に係るコンテンツ情報DBの構成を示す図である。 本発明の第7実施形態に係る視聴済DBの構成を示す図である。 本発明の第7実施形態に係る映像処理装置の処理手順を示すフローチャートである。 本発明の第8実施形態に係るコンテンツ情報DBの構成を示す図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 なお、本明細書で使用される文言「一致」は完全に同一である場合を示し、文言「合致」は所定の類似度の範囲内にあると判断される場合を示すものとする。
 [第1実施形態]
 本発明の第1実施形態としての映像処理システム100について、図1を用いて説明する。
 図1に示すように、映像処理システム100は、第1記憶部110と、第2記憶部120と、関心度累積部130と、視聴者嗜好判定部140と、を含む。
 第1記憶部110は、視聴者に対応付けて、視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量を記憶する。
 第2記憶部120は、一連のフレームで構成されるシーンのフレーム特徴量を、シーンが有する属性によりグループ分けしてシーングループとして記憶する。
 関心度累積部130は、第1記憶部110に記憶されたフレーム特徴量と第2記憶部120に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合には、フレーム特徴量が合致したシーングループへの関心度を表わす、視聴者のスコアを増加させる。
 視聴者嗜好判定部140は、スコアのより高いシーングループを、視聴者が嗜好するシーングループと判定する。
 本実施形態によれば、視聴者の継続的な視聴内容から視聴者の嗜好を判定すること及び視聴者の嗜好の変化に追随することがきる。
 [第2実施形態]
 次に、本実施形態に係る映像処理システムについて説明する。
 本実施形態に係る映像処理システムは、映像視聴用端末、映像コンテンツ配信サーバ、映像処理装置を備える。
 映像視聴用端末は、映像コンテンツ配信サーバから配信された映像コンテンツの視聴時に、映像コンテンツを構成する各フレームからフレーム特徴量を抽出して、映像処理装置に送信する。
 映像処理装置は、映像視聴用端末から受信したフレーム特徴量と、映像処理装置のフレーム特徴量DB(DATABASE)に保存されたフレーム特徴量と照合する。フレーム特徴量Dには、シーングループと対応づけてシーンの特徴量を構造化したフレーム特徴量が保存されている。シーングループは、映像コンテンツのジャンル又はシーンごとの出演者などのユーザ嗜好分類ごとに設定される。
 そして、映像処理装置は、照合の結果、フレーム特徴量が合致したシーングループのスコアを加算する。この処理を集積することにより、スコアの大きいシーングループが視聴者の嗜好する映像コンテンツの内容、あるいはシーンと判定する。
 本実施形態によれば、映像視聴用端末を使った視聴者の視聴および再生動作から、簡単に視聴者の嗜好を判定できる。
 《映像処理システムの構成》
 図2は、本実施形態に係る映像処理システム200の構成を示すブロック図である。
 映像処理装置210は、映像コンテンツの各フレームを特徴付けるフレーム特徴量を蓄積するフレーム特徴量DB213を有する。フレーム特徴量は、映像コンテンツの一連のフレームで構成されるシーン間の関連に対応付けてフレーム特徴量DB213に蓄積される(図6参照)。「シーン間の関連に」とは、例えば、「シーン1」、「シーン2」のいずれも風景の映像の場合に、その風景の映像のシーングループという形でまとめられることを表す。
 また、フレーム特徴量DB213には、既に入力された各シーンのフレーム特徴量が、シーン間の関連に対応して構造化されて格納されている。例えば、「シーン1」と「シーン2」が風景の映像(風景関連)であるときに、風景に対応して構造化され格納される。
 なお、フレーム特徴量DB213の一例としては、図6のシーンID602を含まず、シーンの分類を表すシーングループとフレーム特徴量だけを対応づけた構成としてもよい。
 映像処理装置210は、ネットワーク270を介して各サーバ又は映像視聴用端末と通信する通信制御部211を有する。なお、通信は有線であっても無線であっても構わない。
 映像処理装置の210のフレーム特徴量記憶部212は、通信制御部211で受信する映像コンテンツの一連のフレーム特徴量を、視聴者を識別する視聴者ID(Identification)に対応付けて記憶する。
 映像処理装置210のフレーム特徴量照合部214は、既にフレーム特徴量DB213に構造化されて格納されている各シーンのフレーム特徴量と、フレーム特徴量記憶部212に記憶されているフレーム特徴量とを照合する。そして、フレーム特徴量が合致したか否かの照合結果をスコア加算部215に出力する。
 映像処理装置210のスコア加算部215は、フレーム特徴量照合部214の照合結果にしたがって、視聴者嗜好DB216の視聴者IDに対応付けられた各シーングループのスコアを加算する。
 視聴者嗜好DB216は、視聴者IDに対応付けて各シーングループのスコアを記憶する(図7参照)。
 映像処理装置210の視聴者嗜好判定部217は、通信制御部211を介した外部からの要求を受けて、視聴者嗜好DB216を参照し、視聴者の嗜好の情報を判定して結果を通知する。
 なお、視聴者嗜好判定部217が視聴者の嗜好を判定することに加え、視聴者の嗜好に合致する映像コンテンツの情報などを特定することも可能であり、特定した映像コンテンツの情報などを通知することも可能である。
 図2の映像処理装置210に示す、通信制御部21、フレーム特徴量記憶部212、フレーム特徴量照合部214、スコア加算部215、視聴者嗜好DB216、視聴者嗜好判定部217のそれぞれを繋ぐ破線は、視聴者IDの伝達の動きを表わす。
 なお、視聴者IDは、例えば、映像視聴用端末220~240の端末固有のID又は、その端末へのログインID、あるいは映像処理装置210に関連づけられて提供されるインターネット上のサービスへのログインIDの形で決定され、通信制御部211に伝達される。
 図2の220~240は、映像コンテンツを視聴する映像視聴用端末である。
 映像視聴用端末220~240は、それぞれフレーム特徴量抽出部220a~240aを有する。映像視聴用端末220~240は、映像コンテンツ配信サーバ250又は260から映像コンテンツをダウンロードして視聴する場合、フレーム特徴量抽出部220a~240aを用いてフレーム特徴量を生成して映像処理装置210に送信する。
 また、映像視聴用端末220~240は、ビデオの再生又は放送番組の録画再生を行なう場合も、映像コンテンツの再生時にフレーム特徴量抽出部220a~240aを用いてフレーム特徴量を生成して映像処理装置210に送信する。
 なお、映像処理装置210による映像コンテンツのフレーム特徴量の受信は、上記の場合に限定されない。映像処理装置210で蓄積するフレーム特徴量は、世界のあらゆるメディアを介して流通する映像コンテンツを対象にする。
 また、フレーム特徴量抽出部220a~240aは、1チップのIC回路で製造されて各端末および装置に搭載されることが好ましい。あるいは、フレーム特徴量抽出用のフログラムを各端末および装置にダウンロードする構成にすれば、端末、又は、装置への搭載が簡易になり、標準化されたフレーム特徴量による統一された処理が可能になる。
 《フレーム特徴量抽出部》
 図3Aは、本実施形態に係るフレーム特徴量抽出部220a~240aの構成を示すブロック図である。本実施形態で適用されるフレーム特徴量抽出部220a~240aは、MPEG(Moving Picture Expert Group)7の標準化で採用されているビデオシグネチャを抽出する機能構成部である。
 図3Aにおいて、フレーム特徴量抽出部220a~240aから出力されるフレーム特徴量350は、撮影された映像の各フレーム画像中の所定の領域間の領域特徴量を表す平均輝度値の差分を量子化(実際には3値に)し、符号化したものである。ここで所定の領域とは、撮影された映像の各フレーム画像中に設けた多数の、サイズの大小又は形状の異なる領域対をいう。
 次元決定部310は、領域対の数を決定する。1次元が1領域対に相当する。
 抽出領域取得部320は、次元決定部310の決定にしたがって、フレーム特徴量を算出する各次元の領域対を取得する。
 領域特徴量算出部330は、第1領域特徴量算出部331と第2領域特徴量算出部332とを有する。それぞれの領域特徴量算出部は、各次元の領域対の一方の領域の領域特徴量の一種である平均輝度を算出する。
 領域特徴量差分符号化部340は、領域対のそれぞれの平均輝度の差分を取る。さらに、領域特徴量差分符号化部340は、その差分を第3閾値にしたがって量子符号化してフレーム特徴量350を出力する。
 なお、本例では、以下、平均輝度により領域の領域特徴量を代表させて説明するが、領域の領域特徴量は、平均輝度には限定されず、輝度の他の処理又は輝度以外のフレームの特徴量も適用できる。
 図3Bは、本実施形態に係るフレーム特徴量抽出部220a~240aにおける処理を示す図である。
 図3Bの300は、図3Aの抽出領域取得部320が取得した領域対の数例を示している。図中、7つの大きな矩形は、それぞれ1つのフレーム画像を示し、フレーム内部の各矩形は、領域を示している。
 図3Bの330aは、1つのフレーム画像内において、抽出領域取得部320からの領域対により抽出された領域とその領域間の差分を取る関係を表現したものである。
 1つのフレーム画像内に領域対の2つの領域が抽出されて、それぞれの領域に含まれる画素の平均輝度が算出され、その差分が算出さる様子を各領域の中心を結ぶ矢印で示している。
 図3Bの340aは、算出された差分を量子符号化する様子を示したものである。340aでは、図3Aにおける第1領域特徴量から第2領域特徴量を差し引いた差分が、差分“0”(平均輝度が等しい場合に相当)を中心とする上記第3閾値である破線で示した差分内であれば、“0”を量子符号化の出力値とする。
 同じ差分が破線位置よりも大きな正(+)の値であれば、“+1”を量子符号化の出力値とする。同じ差分が破線位置よりも大きな負(−)の値であれば、“−1”を量子符号化の出力値とする。
 このように、“−1”、“0”、“+1”の3値に符号化するのは、できるだけ多次元とすることでフレーム特徴量の分離を容易にし、かつフレーム特徴量の照合の計算量を削減するためである。したがって、上記3値の例に限定する必要はない。
 なお、破線で示す第3閾値は、使用される全次元の差分値の分布から“0”と量子化する差分値の割合から選定される。一例としては、“0”と量子化する差分値の割合を50%にするような値を選定する。
 図3Bの350aは、差分の量子符号化の結果を集めて生成されたフレーム特徴量の例を示している。フレーム特徴量は、簡単な例としては、差分の量子符号化された値を一次元方向に次元順に並べたものである。
 なお、単純に差分の量子符号化された値を一次元方向に次元順に並べたものではなく、多次元方向に並べたもの又はさらに追加の演算を加えたものであってもよく、本例には限定されない。
 図3Cは、本実施形態に係るフレーム特徴量抽出部220a~240aにおける抽出領域を示す図である。
 図3Bの320aは、各次元の領域対が、2つの矩形領域の例を示した。しかし、フレームを適切に表現するフレーム特徴量を算出するためには、矩形以外の形状が望ましい場合もある。
 図3Cに示す抽出領域は、各次元の領域対が、2つの矩形領域ではない例を示している。
 なお、図3Bの340aで示したように、各次元を3値化することにより、実時間のフレーム特徴量の照合又は、フレーム特徴量の集合である映像コンテンツのフレーム特徴量群の照合を実現する場合であっても、数百次元を設定することが可能である。
 《映像処理装置のハードウェア構成》
 図4は、本実施形態に係る映像処理装置210のハードウェア構成を示すブロック図である。
 図4で、CPU(Central Processing Unit)410は、演算制御用のプロセッサであり、プログラムを実行することで図2の各機能構成部を実現する。
 ROM(Read On Memory)420は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。
 通信制御部211は、映像視聴用端末220~240あるいは映像コンテンツ配信サーバ250,260と通信する。なお、通信は無線でも有線でもよい。
 RAM(Random Access Memory)440は、CPU410が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM440には、本実施形態の実現に必要なデータを記憶するデータ領域212、441、442が確保される。
 データ領域212は、視聴者IDに対応して受信フレーム特徴量を記憶するフレーム特徴量記憶部(図5参照)として機能する。
 データ領域441は、フレーム特徴量を照合中の視聴者IDを記憶する。
 データ領域442は、フレーム特徴量の照合の結果、合致したシーングループを記憶する。
 ストレージ450は、データベース又は各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムを記憶する。
 データ領域213は、フレーム特徴量DB(図6参照)として機能する。
 データ領域216は、視聴者嗜好DB(図7参照)として機能する。
 ストレージ450には、以下の処理を実行するプログラムが格納される。
 映像処理プログラム451は、全体の処理を実行する。
 フレーム特徴量照合モジュール452は、映像処理プログラム451において、フレーム特徴量の照合を処理する。
 スコア加算モジュール453は、映像処理プログラム451において、視聴者嗜好DB216のシーングループのスコアを加算する。
 視聴者嗜好判定モジュール454は、映像処理プログラム451において、視聴者嗜好DB216の蓄積データを使用して視聴者の嗜好を判定する。
 なお、図4には、本実施形態に必須なデータ及びプログラムが示されており、OSなどの汎用のデータ及びプログラムは図示されていない。
 (受信フレーム特徴量)
 図5は、本実施形態に係るフレーム特徴量記憶部212−1の構成を示すデータ構造である。なお、後述する第3実施形態におけるフレーム特徴量記憶部212−2と区別するため、本実施形態においてはフレーム特徴量記憶部212−1と記述する。
 フレーム特徴量記憶部212−1は、視聴者ID501に対応付けられた受信フレーム特徴量502を記憶する。このように、フレーム特徴量記憶部212−1は、視聴者が視聴している映像を出力している端末からそれぞれ送信されるフレーム特徴量を、視聴者ID別に分けて記憶する。
 なお、受信フレーム特徴量の容量は、受信データ量により受信エラーがない程度に確保されればよいため、映像データの記憶に比較して少ない記憶容量で実現できる。
 (フレーム特徴量DB)
 図6は、本実施形態に係るフレーム特徴量DB213の構成を示すデータ構造である。
 フレーム特徴量DB213は、シーングループ601に含まれるシーンID602と、各シーンIDに対応する一連のフレーム特徴量603を蓄積する。このフレーム特徴量603が、受信フレーム特徴量と照合されて、受信フレーム特徴量がどのシーングループに属するかが分かる。
 なお、シーングループは、純粋に一連のフレーム特徴量の差分値が所定範囲内にあるシーンを集めてもよいし、映像コンテンツの内容、ジャンルや扱われるテーマ、又は、映像に登場する人物又は被写体が、同一または互いに関連するシーンを集めてもよい。
 また、ある同一のシーンが、複数のシーングループに登録されていてもよい。例えば、特定の人物の出演シーンを集めたシーングループに含まれるシーンが、特定の撮影現場で撮影されたシーンを集めた別のシーングループに含まれる場合などが含まれる。
 なお、フレーム特徴量DB213の構成は、図6の構成に限定されず、他の必要な項目を追加してもよい。
 (視聴者嗜好DB)
 図7は、本実施形態に係る視聴者嗜好DB216の構成を示すデータ構造である。
 視聴者嗜好DB216は、複数のシーングループ702に対応付けて、それぞれのスコア703を記憶する。複数のシーングループ702は、視聴者ID701に対応付けてこれまでに受信した各シーンのフレーム特徴量とフレーム特徴量DB213のフレーム特徴量と照合することで特定される。
 このスコアが、視聴者の映像コンテンツの視聴によるフレーム特徴量の受信により、積算される。その結果、このスコアが所定の閾値より大きいシーングループが、視聴者が嗜好するシーンとなる。
 さらに、シーングループを映像コンテンツのグループ又は映像の登場人物や物に対応付けることで、視聴者が嗜好するシーングループからさらに嗜好する映像コンテンツや登場人物などが判定可能である。
 なお、各視聴者IDに対応するシーングループを無制限に増加させると、視聴者嗜好DB216の容量が増え続けるので、スコアが所定の閾値より小さなシーングループを一定期間が過ぎると削除するなどの処理を実行するのが望ましい。
 《映像処理装置の処理手順》
 図8は、本実施形態に係る映像処理装置210の処理手順を示すフローチャートである。このフローチャートが示す動作は、図2に示す各機能構成部を用いて実現される。また、その動作は、図4のCPU410によりRAM440を使用して実行される。
 まず、映像処理装置210は、フレーム特徴量を受信したか否か判定する(ステップS811)。
 映像処理装置210が、フレーム特徴量を受信すると、映像処理装置210のフレーム特徴量照合部214は、受信したフレーム特徴量とフレーム特徴量DB213に記憶されたフレーム特徴量とを照合する(ステップS813)。続いてフレーム特徴量照合部214は、照合結果をフレーム特徴量DB213にフィードバックする。例えば、受信したフレーム特徴量が、いずれかのシーングループのフレーム特徴量と合致したら、受信したフレーム特徴量は、そのシーングループに追加される(ステップS815)。
 一方、合致するシーングループが無ければ、新たなシーングループを生成することになる。かかる新たに生成されたシーングループは、今までの嗜好の分類から外れたグループであり、フレーム特徴量DB213への蓄積が進むにつれて、新たな嗜好を形成することになる。
 映像処理装置210は、フレーム特徴量の合致があったか否かに応じて、その後の処理を変える(ステップS817)
 フレーム特徴量の合致がない場合、新たに生成されたシーングループが視聴者嗜好DB216内の視聴者IDに追加されて、新たなスコアが生成され、スコアの積算が開始されることになる(ステップS819)。
 フレーム特徴量の合致がある場合、合致したシーングループのスコアが更新(増加)される(ステップS821)。
 一方で、映像処理装置210は、視聴者嗜好情報の要求かあるか否かを判定する(ステップS831)。映像処理装置210は、視聴者嗜好情報の要求であれば、視聴者嗜好判定部217は、視聴者嗜好DB216から所望の視聴者IDのスコアが読み出し、スコアに基づいて視聴者嗜好を分析する(ステップS833)。分析された視聴者嗜好あるいはスコアそのものが通信制御部211を介して要求者へ送信される(ステップS835)。
 [第3実施形態]
 次に、本発明の第3実施形態に係る映像処理システムについて説明する。
 本実施形態に係る映像処理システムは、第2実施形態のスコアの更新の際に、視聴者の操作又は映像あるいはシーンへの反応に対応して、その量に重み付けをする例である。第3の実施形態は、第2の実施形態に比べより緻密な嗜好程度を分析できる。
 なお、本実施形態では、主に、スコア更新の重み付けに関する情報と、処理手順における重み付けのタイミングを説明し、第2実施形態と同様の構成および動作は、説明を省略する。
 (受信フレーム特徴量)
 図9は、本実施形態に係るフレーム特徴量記憶部212−2の構成を示すブロック図である。
 フレーム特徴量記憶部212−2は、第2実施形態で説明したフレーム特徴量に加え、他の重み付けに関連する情報を視聴者あるいは映像視聴用端末から受信して記憶する。
 フレーム特徴量記憶部212−2は、視聴者ID901に対応付けて、フレーム特徴量902の他に、放送/再生903、再生方式904、視聴者の反応905、そして、それらの結果の重み合計906を記憶する。なお、重み付けのパラメータは図9に限定されない。
 放送/再生903は、映像が直接の放送であるか、又は、再生であるかの情報である。直接の放送は、視聴者は放送を視聴していない可能性もある。一方、再生は、視聴者は意識的に再生して視聴していると考えられる。したがって、重み付けは、放送よりも再生の重みを大きくする。
 再生方式904も放送/再生903に準じるものであり、録画番組の再生の重みよりも記憶媒体からの再生の方の重みを大きくする。
 反応905は、視聴者のプラスの反応(肯定的反応)とマイナスの反応(否定的反応)がある。その反応は、直接に音声又はキー入力で受信してもよいし、また、視聴者の操作から判断してもよい。たとえば、早送りされた場合はマイナス、リピートされた場合はプラスとなる。
 (重み設定テーブル)
 図10は、本実施形態に係る重み設定テーブル1000のデータ構造を示す図である。
 重み設定テーブル1000は、図9に示した各重みの設定を定義するテーブルである。図9の重み設定テーブル1000に記載のように、各重み付けの条件1001に対応付けて重み1002の数値が記憶される。数値はプラス/マイナスの数値でもよいし、1以上/1以下の乗算値であってもよい。なお、図10の条件の項目はほんの数例であって、これに限定されない。
 《映像処理装置の処理手順》
 図11は、本実施形態に係る映像処理装置の処理手順を示すフローチャートである。このフローチャートが示す動作は、図2に示す各機能構成部を用いて実現される。また、その動作は、第2実施形態に示した図4のストレージ450に重み設定テーブル1000を追加した構成で、CPU410によりRAM440を使用して実行される。
 図11のフローチャートは、重み付けのステップを除いて図8と同様である。したがって、重み付けのステップを主に説明し、図8と同じステップは、同じ番号を付して説明を省略する。
 本実施形態は、スコアの更新(ステップS821)の前に、スコアの加算値に対して重み付けを行う(ステップS1101)。
 [第4実施形態]
 次に、本発明の第4実施形態に係る映像処理システムについて説明する。
 本実施形態に係る映像処理システムは、上記第2および第3実施形態と比べ、フレーム特徴量DBに記憶するフレーム特徴量が、シーン全体のフレーム特徴量ではなくその選択された一部である点で異なる。
 選択された一部は、各シーンの特徴を表わす前部分、後部分、中間部分であってもよいし、その長さも変えることができる。
 第4実施形態は、第2実施形態に比べてフレーム特徴量DBの記憶容量を大幅に削減できる。なお、本実施形態では、主に、フレーム特徴量DBの構成を説明し、第2または第3実施形態と同様の構成および動作は、説明を省略する。
 (フレーム特徴量DB)
 図12は、本実施形態に係るフレーム特徴量DB1213の構成を示す図である。なお、本実施形態においては、フレーム特徴量DB1213は、第2実施形態における図2および図4のフレーム特徴量DB213に置き換えられる。
 フレーム特徴量DB1213は、図6と同様のシーングループ601およびシーンID602に対応付けてフレーム特徴量を記憶する。但し、記憶されるのは、フレーム特徴量の記憶部分1204で指定されるシーンの一部のフレーム特徴量1203である。
 ここで、フレーム特徴量の記憶部分1204は、シーン開始からの秒数(t0は0秒、t10は10秒を表わす)である。図12の例では、各シーンを30秒として説明するが、シーンの長さは可変であってよい。例えば、図12の例では、シーンIDがA1のシーンについて、最初の10秒間のフレーム特徴量が記憶されている。また、シーンIDがA2のシーンについて、中間にある10秒~25秒間のフレーム特徴量が記憶されている。また、シーンIDがE3のシーンについて、最初の5秒間と中間にある10秒~27秒間のフレーム特徴量が記憶されている。また、シーンIDがB1のシーンについて、最後の8秒間のフレーム特徴量が記憶されている。
 なお、図12は、フレーム特徴量の記憶部分1204が、開始からの秒数で表されているが、開始からの連番を振ったフレーム番号で100フレーム目から250フレーム目までのように記憶されていてもよい。
 [第5実施形態]
 次に、本発明の第5実施形態に係る映像処理システムについて説明する。
 本実施形態に係る映像処理システムは、上記第2乃至第4実施形態と比べ、シーンの被写体を示すタグなどの識別子を検索可能に記憶する被写体DBをさらに設け、視聴者の嗜好を複数の視点から判定する点で異なる。
 シーンの被写体は、番組の出演者などの人物、昆虫などの生物、或いは、山又は海・建築物などである。本実施形態は、シーンのフレーム特徴量という画像データの持つ特徴に加え、シーンの一部に含まれる被写体により、視聴者の嗜好を判定できる。例えば、対象の被写体が一瞬現われるシーン又は、背景の一部(例えば、フレーム内のテレビの画像又は絵画など)に被写体が現われるシーンなども考慮できる。
 以下に、本実施形態が、上記第2乃至第4実施形態と異なる部分を説明し、第2乃至第4実施形態と同様の構成および動作は、説明を省略する。
 本実施形態は、フレーム特徴量の合致によるシーングループと、被写体IDの合致によるシーングループとを別に設けた例である。しかしながら、フレーム特徴量が合致するシーンと被写体が合致するシーンとを1つのシーングループとして組み合わせることも可能であり、より2つの視点を融合した視聴者の嗜好が可能となる。さらに、フレーム特徴量の合致と被写体IDの合致とに視聴者の嗜好を判断するために異なる重みを持たせることも可能である。
 《映像処理システムの構成》
 図13は、本実施形態に係る映像処理システム1300の構成を示すブロック図である。なお、図13は、映像処理装置を説明するための図であり、ネットワーク270に接続する機器は省略してある。また、第2実施形態と同じ機能構成部には同じ参照番号を付している。以下、第2実施形態との相違点について説明する。
 被写体ID記憶部1312は、通信制御部211が受信した視聴用端末からの再生中の映像の被写体IDを記憶する。なお、被写体IDは、フレーム特徴量が示すシーンに対応するものであってもよいし、コンテンツ全体に対応するものであってもよい。
 以下、本実施形態が、同時に受信するフレーム特徴量が示すシーンに対応する被写体IDである場合を説明する。
 被写体DB1313は、同じ被写体の映像を含む複数のシーンをシーングループとして記憶する(図14参照)。
 被写体照合部1314は、被写体ID記憶部1312が記憶する映像視聴用端末から受信した被写体IDと、被写体DB1313に記憶された被写体IDとを照合する。
 スコア加算部1315は、被写体IDが合致した場合にそのシーンのスコアを加算する。
 視聴者嗜好DB1316は、第2実施形態の視聴者嗜好DB216におけるフレーム特徴量の合致によるシーングループのスコアとは別に、被写体IDの合致によるシーングループのスコアを蓄積する(図15参照)。
 (被写体DB)
 図14は、本実施形態に係る被写体DB1313の構成を示す図である。
 被写体DB1313は、シーングループ1401に含まれるシーンID1402と、各シーンIDに対応する被写体ID1403を記憶する。被写体照合部1314は、被写体DB1313の被写体ID1403と受信した被写体IDとを照合する。この照合により、受信した被写体IDがどのシーングループに属するかが分かる。なお、被写体DB1313の構成は、図14の構成に限定されず、他の必要な項目が追加されてもよい。
 (視聴者嗜好DB)
 図15は、本実施形態に係る視聴者嗜好DB1316の構成を示す図である。
 視聴者嗜好DB1316は、視聴者ID1501が視聴した映像のフレーム特徴量又は被写体ID0が属する複数のシーングループ1502に対応付けて、それぞれの属性1503とスコア1504とを記憶する。視聴者の映像コンテンツの視聴によるフレーム特徴量の受信により、および/または、視聴者の映像コンテンツの被写体により、スコアが積算される。この結果、このスコアの大きいシーングループが、視聴者が嗜好するシーンとなる。
 なお、各視聴者IDに対応するシーングループを無制限に増加させると、視聴者嗜好DB216の容量が増え続けることになる。このため、スコアの小さなシーングループを一定期間が過ぎると削除する、などの処理を実行するのが望ましい。
 《映像処理装置の処理手順》
 図16は、本実施形態に係る映像処理装置1310の処理手順を示すフローチャートである。このフローチャートが示す動作は、図13に示す各機能構成部を用いて実現される。また、その動作は、第2実施形態で示した図4のストレージ450に被写体DB1313を追加した構成で、CPU410によりRAM440を使用して実行される。
 なお、図16において、第2実施形態の図8と同様の手順は、同じ参照番号を付して、説明は省略する。本実施形態の特徴部分は、ステップS1641からS1651の部分である。
 まず、映像処理装置1310は、被写体IDを受信したか否かを判定する(ステップS1641)。
 次に、映像処理装置1310は、被写体IDを受信すると、映像処理装置1310の被写体照合部1314は、受信した被写体IDと被写体DB1313に記憶された被写体IDとを照合する(ステップS1643)。続いて、被写体照合部1314は、照合結果を被写体DB1313にフィードバックする(ステップS1645)。例えば、受信した被写体IDが、被写体DBに記憶された、いずれかのシーングループの被写体IDと合致したら、被写体照合部1314は、受信した被写体IDをそのシーングループに追加する。一方、合致するシーングループが無ければ、被写体照合部1314は、新たなシーングループを生成する。
 映像処理装置1300は、受信した被写体IDと被写体DB1313に記憶された被写体IDとの合致があったか否かに基づいて異なった処理を行う(ステップS1647)。
 被写体IDが合致しない場合、スコア加算部1315は、新たに生成されたシーングループを視聴者嗜好DB1316内の視聴者IDに追加し、新たなスコアの積算を開始する(ステップS1649)。
 被写体IDが合致した場合、スコア加算部1315は、合致したシーングループのスコアを更新(増加)する(ステップS1651)。
 [第6実施形態]
 次に、本発明の第6実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第5実施形態と比べ、フレーム特徴量DBと被写体DBとを一体化して、複数の視点を関連付けて視聴者の嗜好を判定する点で異なる。
 本実施形態は、フレーム特徴量の合致では判断できない視聴者のより詳細、又は、徴妙な嗜好を判断できる。なお、以下の本実施形態の説明では、第2乃至第5実施形態と同様の構成、動作についての説明を省略し、第2乃至第5実施形態と異なる部分を説明する。
 また、本実施形態では、複数の視点を関連付けて判定する方法として、フレーム特徴量の合致でシーングループを定め、被写体IDの合致か否かでスコアの増加量を決定するが、複数の視点を関連付けて判定する方法は、これに限定されない。
 逆に、被写体IDの合致でシーングループを定め、フレーム特徴量の合致か否かでスコアの増加量を決定してもよい。また、両方が合致した場合に、スコアを増加するようにしてもよい。
 《映像処理システムの構成》
 図17は、本実施形態に係る映像処理システム1700の構成を示すブロック図である。なお、図17は、映像処理装置を説明するための図であり、ネットワーク270に接続する機器は省略してある。また、第2実施形態と同じ機能構成部には同じ参照番号を付している。以下、第2実施形態との相違点について説明する。
 被写体ID記憶部1712は、通信制御部211が受信した映像視聴用端末からの再生中の映像の被写体IDを記憶する。なお、被写体IDは、フレーム特徴量が示すシーンに対応するものである。
 フレーム特徴量/被写体DB1713は、派生したフレーム特徴量を記憶し、かつ、同じ被写体の映像を含む複数のシーンをシーングループとして記憶する(図18参照)。
 被写体照合部1714は、被写体ID記憶部1712が記憶する映像視聴用端末から受信した被写体IDと、フレーム特徴量/被写体DB1713に記憶された被写体IDとを照合する。
 スコア加算部1715は、フレーム特徴量が合致した場合に被写体IDが合致したか否かに対応してそのシーンのスコアを加算する。
 視聴者嗜好DB1716は、第4実施形態の視聴者嗜好DB1316におけるフレーム特徴量の合致と被写体IDの合致とによる別個のシーングループのスコアとは異なり、フレーム特徴量が合致した場合に被写体IDが合致したか否かに対応してカウントするシーングループのスコアを蓄積する。
 なお、視聴者嗜好DB1716は、カウントの条件が異なるが、その構成は、第2実施形態の図7と同様であり、説明は省略する。
 (フレーム特徴量/被写体DB)
 図18は、本実施形態に係るフレーム特徴量/被写体DB1713の構成を示す図である。
 フレーム特徴量/被写体DB1713は、シーングループ1801に含まれるシーンID1802と、各シーンIDに対応するフレーム特徴量1803と被写体ID1804を記憶する。被写体照合部214は、フレーム特徴量/被写体DB1713のフレーム特徴量1803と受信したフレーム特徴量とを照合する。この照合により、受信したフレーム特徴量がどのシーングループに属するかが分かる。
 そして被写体照合部1714は、フレーム特徴量/被写体DB1713に記憶された被写体ID1804と受信した被写体IDとを照合して、被写体IDが合致したか否かによりシーングループのスコアの増加量を決定する。なお,フレーム特徴量/被写体DB1713のデータ構造は、図18の構成に限定されず、他の必要な項目が追加されてもよい。
 《映像処理装置の処理手順》
 図19は、本実施形態に係る映像処理装置1710の処理手順を示すフローチャートである。このフローチャートが示す動作は、図17に示す各機能構成部を用いて実現される。また、その動作は、第2の実施形態で示した図4のストレージ450にフレーム特徴量/被写体DB1713を追加した構成で、CPU410によりRAM440を使用して実行される。
 なお、図19は、図8のステップS811~S821の変形であり、図8と同様のステップには同じ参照番号を付して、説明は省略する。また、ステップS831~S835についても、同様であるので省略する。
 映像処理装置1710は、視聴用端末からのフレーム特徴量および被写体IDの受信か否かを判定する(ステップS1911)。
 次に、映像処理装置1710は、フレーム特徴量および被写体IDを受信すると、フレーム特徴量の照合(ステップS813)から照合結果に基づくスコア生成又はスコア更新(ステップS821)まで、図8と同様の処理を行う。但し、図8のフレーム特徴量DBの代わりに、フレーム特徴量/被写体DBを用いる。
 次に、被写体照合部1714は、受信した被写体IDとフレーム特徴量/被写体DB1813に記憶された被写体IDと照合する(ステップS1913)。照合結果をフレーム特徴量/被写体DB1813にフィードバックする(ステップS1915)。例えば、いずれかのシーングループの被写体IDと合致したら、被写体照合部1714は、受信した被写体IDをそのシーングループに追加する。一方、合致するシーングループが無ければ、被写体照合部1714は、新たなシーングループを生成する。
 映像処理装置1710は、受信した被写体IDとフレーム特徴量/被写体DB1713に記憶された被写体IDとの合致があったか否かに基づいて異なった処理を行う(ステップS1917)。
 被写体IDが合致しない場合、スコア加算部1715は、ステップS821において更新したスコアを減少する(ステップS1921)。
 一方、被写体IDが合致する場合、ステップS821において更新したスコアを増加する(ステップS1919)。
 このように、フレーム特徴量が合致してかつ被写体IDが合致すればスコアはさらに増加し、一方、フレーム特徴量が合致しても被写体IDが合致しなければスコアが減少する。
 [第7実施形態]
 次に、本発明の第7実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第2乃至第6実施形態と比べ、映像視聴用端末からの再生中映像のフレーム特徴量および/または過去の視聴履歴から認識した視聴者の嗜好に基づいて、視聴者がまだ視聴していないコンテンツを視聴者に通知する点が追加される。
 本実施形態は、視聴者の嗜好を判断した上で、視聴者の未視聴のコンテンツを通知・紹介することができる。なお、以下の本実施形態の説明では、第2乃至第6実施形態と同様の構成、動作についての説明を省略し、第2乃至第6実施形態と異なる部分を説明する。
 《映像処理システムの構成》
 図20は、本実施形態に係る映像処理システム2000の構成の一部を示すブロック図である。なお、図20は、映像処理装置2010を説明するための図であり、ネットワーク270に接続する機器は省略してある。また、第2実施形態と同じ機能構成部には同じ参照番号を付している。以下、第2実施形態との相違点について説明する。
 映像処理装置2010のコンテンツ情報DB2013は、フレーム特徴量DB213に蓄積されたフレーム特徴量を含むコンテンツ情報を蓄積する。なお、コンテンツ情報の例は、コンテンツ自身のデータ又はコンテンツを識別する識別子であるコンテンツIDとなる(図21参照)。
 視聴済DB2016は、視聴者を識別する視聴者IDに対応付けて、既に視聴した視聴済コンテンツIDを蓄積する。なお、視聴者が視聴したコンテンツ以外に視聴はしていないが保有しているコンテンツ、あるいは家族又は友人が所有しているコンテンツを、容易に視聴可能なコンテンツとして視聴済DB2016に蓄積してもよい。
 未視聴情報通知部2017は、通知候補コンテンツ群の中から、視聴済DB2016に蓄積されたコンテンツを除いて視聴者にコンテンツの候補を通知する。通知候補コンテンツ群は、再生中の映像のフレーム特徴量および/または過去の視聴履歴から認識した視聴者の嗜好に基づいて、未視聴情報通知部2017がコンテンツ情報DB2013から検索する。
 なお、本実施形態では、再生中映像のフレーム特徴量から判断した派生コンテンツ又は視聴者嗜好に基づくコンテンツを通知候補コンテンツとする例を示すが、通知候補コンテンツを検索する他の条件を含むこともできる。すなわち、未視聴情報通知部2017による通知で視聴者の購買意欲を高める宣伝効果を得ることも可能になる。
 (コンテンツ情報DB)
 図21は、本実施形態に係るコンテンツ情報DB2013の構成を示す図である。
 コンテンツ情報DB2013は、フレーム特徴量2102に紐付けられてコンテンツID2101を蓄積する。かかるコンテンツ情報DB2013は、過去に映像視聴用端末で再生されてフレーム特徴量が送信されたコンテンツ情報、あるいは映像コンテンツ配信サーバなどからフレーム特徴量が送信されたコンテンツ情報を蓄積する。
 (視聴済DB)
 図22は、本実施形態に係る視聴済DB2016の構成を示す図である。
 視聴済DB2016は、視聴者ID2201に対応付けられて視聴済コンテンツID2202を蓄積する。上述の如く、視聴済DB2016は、視聴者が視聴したコンテンツ以外に未視聴で視聴者が保有するコンテンツ、あるいは、家族又は友人が所有するコンテンツを蓄積してもよい。
 《映像処理装置の処理手順》
 図23は、本実施形態に係る映像処理装置2010の処理手順を示すフローチャートである。このフローチャートは、コンテンツ情報DB2013および視聴済DB2016が追加されて図4のCPU410によりRAM440を使用しながら実行され、図20の各機能構成部が実現される。なお、図23には、未視聴情報を映像視聴用端末から要求された場合のステップのみを示し、図8、図11、図16、図19で示した他のステップの記載は省略してある。図23をいずれかにも組み込むことが可能である。
 ステップS2361においては、未視聴情報を映像視聴用端末から要求されたか否かが判定される。未視聴情報を映像視聴用端末から要求された場合はステップS2363に進んで、映像視聴用端末から送信されたフレーム特徴量から選別した派生コンテンツIDを、コンテンツ情報DB2013から収集する。次に、ステップS2365において、映像視聴用端末からの視聴者IDに基づいて視聴者嗜好DBから獲得した視聴者嗜好に合致するコンテンツIDを、コンテンツ情報DB2013から収集する。
 次に、ステップS2367において、映像視聴用端末からの視聴者IDに基づいて視聴済DB2016から視聴済コンテンツIDを読み出して、ステップS2363および/またはS2365で収集したコンテンツID群から除いて、未視聴コンテンツを抽出する。ステップS2369においては、抽出された未視聴コンテンツを映像視聴用端末から視聴者に通知する。通知の形式は、コンテンツIDであっても、コンテンツ名称などの情報であっても、コンテンツの一部あるいはサムネールなどであってもよい。
 [第8実施形態]
 次に、本発明の第8実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第7実施形態と比べると、映像視聴用端末から視聴者に通知する情報が未視聴コンテンツの入手が可能な接続先情報(例えば、URLなど)である点が異なる。本実施形態によれば、視聴者の嗜好を判断した上で、視聴者の未視聴のコンテンツを視聴者の簡単な操作で取得可能に通知・紹介することができる。なお、本実施形態においては、上記第7実施形態と異なる部分を説明する。その他の構成および動作は第7実施形態と同様であるため説明を省略する。
 (コンテンツ情報DB)
 図24は、本実施形態に係るコンテンツ情報DB2413のデータ構造を示す図である。
 図24のコンテンツ情報DB2413は、フレーム特徴量2402に紐付けられたコンテンツID2401と、コンテンツの入手先を蓄積する。なお、図24の示すコンテンツ入手先は、URLの例を示したが、コンテンツ作成元あるいはコンテンツ発行元又はコンテンツ配信元などの連絡先でもよい。
 [他の実施形態]
 以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム、または、装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は、2011年8月4日に出願された日本出願特願2011−170864を基礎とする優先権を主張し、その開示の全てをここに取り込む。
(付記)
(付記1)
 視聴者に対応付けて、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量を記憶する第1記憶手段と、
 一連のフレームで構成されるシーンのフレーム特徴量を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶手段と、
 前記第1記憶手段に記憶されたフレーム特徴量と前記第2記憶手段に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積手段と、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定手段と、
 を備えることを特徴とする映像処理装置。
(付記2)
 前記第1記憶手段は、シーンに含まれる一連のフレームの当該シーンを特徴づける一部のフレームのフレーム特徴量を記憶することを特徴とする請求項1に記載の映像処理装置。
(付記3)
 前記第1記憶手段は、前記視聴者が前記映像コンテンツの視聴を要求した程度に対応する重みをさらに記憶し、
 前記関心度累積手段は、前記スコアの増加に前記重みを付けることを特徴とする請求項1または2に記載の映像処理装置。
(付記4)
 前記重み付けは、前記視聴者による前記映像コンテンツの視聴方法に対応し、番組として視聴した場合よりも記憶媒体からの視聴に大きな重みを付けることを特徴とする請求項3に記載の映像処理装置。
(付記5)
 前記重み付けは、前記視聴者による前記映像コンテンツの視聴に対する前記視聴者の反応に対応し、前記視聴者による肯定的な反応に対応して大きな重みを付けることを特徴とする請求項3または4に記載の映像処理装置。
(付記6)
 前記シーンが有する属性は、前記シーンを含む映像コンテンツの属性に対応し、
 前記第2記憶手段は、さらに、一連のフレームで構成されるシーンに含まれる被写体を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶し、
 前記関心度累積手段は、前記フレーム特徴量の照合と前記被写体の照合との組合せに基づいて、シーングループへの関心度を表わすスコアを増加させることを特徴とする請求項1乃至5のいずれか1項に記載の映像処理装置。
(付記7)
 前記シーンが有する属性は、1つのシーンから派生した派生シーンであることを示す属性を含むコンテンツの属性を含むことを特徴とする請求項1乃至6のいずれか1項に記載の映像処理装置。
(付記8)
 前記シーンのフレーム特徴量を含む映像コンテンツを記憶する第3記憶手段と、
 前記視聴者嗜好判定手段が判定した前記視聴者が嗜好するシーングループに含まれるシーンのフレーム特徴量を有する映像コンテンツの情報を前記第3記憶手段から検索し、映像視聴用端末に通知する通知手段と、
 をさらに備えることを特徴とする請求項1乃至7のいずれか1項に記載の映像処理装置。
(付記9)
 前記視聴者に対応付けて、前記視聴者が既に視聴した映像コンテンツの情報を記憶する第4記憶手段をさらに備え、
 前記通知手段は、前記第3記憶手段から検索した、前記視聴者が嗜好するシーングループに含まれるシーンのフレーム特徴量を有する映像コンテンツの情報から、前記視聴者が既に視聴した映像コンテンツの情報を除いて、前記映像視聴用端末に通知することを特徴とする請求項8に記載の映像処理装置。
(付記10)
 前記フレーム特徴量は、各フレームに異なるサイズで設定された複数の領域対の各領域対に対して算出された領域特徴量の差分を領域対の数の分組み合せたデータであることを特徴とする請求項1乃至9のいずれか1項に記載の映像処理装置。
(付記11)
 前記領域特徴量は、輝度で表わされることを特徴とする請求項10に記載の映像処理装置。
(付記12)
 視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、
 を含むことを特徴とする映像処理装置の制御方法。
(付記13)
 視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、
 をコンピュータに実行させることを特徴とする制御プログラム。
(付記14)
 視聴者が視聴した映像コンテンツに基づいて前記視聴者の嗜好を判定する映像処理システムであって、
 前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴つけるフレーム特徴量を抽出するフレーム特徴量抽出手段と、
 視聴者に対応付けて、前記フレーム特徴量抽出手段が抽出したフレーム特徴量を記憶する第1記憶手段と、
 一連のフレームで構成されるシーンのフレーム特徴量を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶手段と、
 前記第1記憶手段に記憶されたフレーム特徴量と前記第2記憶手段に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積手段と、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定手段と、
 を備えることを特徴とする映像処理システム。
(付記15)
 視聴者が視聴した映像コンテンツに基づいて前記視聴者の嗜好を判定する視聴者の嗜好判定方法であって、
 前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴つけるフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれるフレームのフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
 前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、
 を含むことを特徴とする視聴者の嗜好判定方法。

Claims (15)

  1.  視聴者に対応付けて、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量を記憶する第1記憶手段と、
     一連のフレームで構成されるシーンのフレーム特徴量を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶手段と、
     前記第1記憶手段に記憶されたフレーム特徴量と前記第2記憶手段に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積手段と、
     前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定手段と、
     を備えることを特徴とする映像処理装置。
  2.  前記第1記憶手段は、シーンに含まれる一連のフレームの当該シーンを特徴づける一部のフレームのフレーム特徴量を記憶することを特徴とする請求項1に記載の映像処理装置。
  3.  前記第1記憶手段は、前記視聴者が前記映像コンテンツの視聴を要求した程度に対応する重みをさらに記憶し、
     前記関心度累積手段は、前記スコアの増加に前記重みを付けることを特徴とする請求項1または2に記載の映像処理装置。
  4.  前記重み付けは、前記視聴者による前記映像コンテンツの視聴方法に対応し、番組として視聴した場合よりも記憶媒体からの視聴に大きな重みを付けることを特徴とする請求項3に記載の映像処理装置。
  5.  前記重み付けは、前記視聴者による前記映像コンテンツの視聴に対する前記視聴者の反応に対応し、前記視聴者による肯定的な反応に対応して大きな重みを付けることを特徴とする請求項3または4に記載の映像処理装置。
  6.  前記シーンが有する属性は、前記シーンを含む映像コンテンツの属性に対応し、
     前記第2記憶手段は、さらに、一連のフレームで構成されるシーンに含まれる被写体を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶し、
     前記関心度累積手段は、前記フレーム特徴量の照合と前記被写体の照合との組合せに基づいて、シーングループへの関心度を表わすスコアを増加させることを特徴とする請求項1乃至5のいずれか1項に記載の映像処理装置。
  7.  前記シーンが有する属性は、1つのシーンから派生した派生シーンであることを示す属性を含むコンテンツの属性を含むことを特徴とする請求項1乃至6のいずれか1項に記載の映像処理装置。
  8.  前記シーンのフレーム特徴量を含む映像コンテンツを記憶する第3記憶手段と、
     前記視聴者嗜好判定手段が判定した前記視聴者が嗜好するシーングループに含まれるシーンのフレーム特徴量を有する映像コンテンツの情報を前記第3記憶手段から検索し、映像視聴用端末に通知する通知手段と、
     をさらに備えることを特徴とする請求項1乃至7のいずれか1項に記載の映像処理装置。
  9.  前記視聴者に対応付けて、前記視聴者が既に視聴した映像コンテンツの情報を記憶する第4記憶手段をさらに備え、
     前記通知手段は、前記第3記憶手段から検索した、前記視聴者が嗜好するシーングループに含まれるシーンのフレーム特徴量を有する映像コンテンツの情報から、前記視聴者が既に視聴した映像コンテンツの情報を除いて、前記映像視聴用端末に通知することを特徴とする請求項8に記載の映像処理装置。
  10.  前記フレーム特徴量は、各フレームに異なるサイズで設定された複数の領域対の各領域対に対して算出された領域特徴量の差分を領域対の数の分組み合せたデータであることを特徴とする請求項1乃至9のいずれか1項に記載の映像処理装置。
  11.  前記領域特徴量は、輝度で表わされることを特徴とする請求項10に記載の映像処理装置。
  12.  視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
     前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、
     を含むことを特徴とする映像処理装置の制御方法。
  13.  視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴付けるフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
     前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、
     をコンピュータに実行させることを特徴とする制御プログラム。
  14.  視聴者が視聴した映像コンテンツに基づいて前記視聴者の嗜好を判定する映像処理システムであって、
     前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴つけるフレーム特徴量を抽出するフレーム特徴量抽出手段と、
     視聴者に対応付けて、前記フレーム特徴量抽出手段が抽出したフレーム特徴量を記憶する第1記憶手段と、
     一連のフレームで構成されるシーンのフレーム特徴量を、前記シーンが有する属性によりグループ分けしてシーングループとして記憶する第2記憶手段と、
     前記第1記憶手段に記憶されたフレーム特徴量と前記第2記憶手段に記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積手段と、
     前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定手段と、
     を備えることを特徴とする映像処理システム。
  15.  視聴者が視聴した映像コンテンツに基づいて前記視聴者の嗜好を判定する視聴者の嗜好判定方法であって、
     前記視聴者が視聴した映像コンテンツに含まれる一連のフレームで構成されるシーンの、各フレームを特徴つけるフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
     視聴者に対応付けて記憶された、前記視聴者が視聴した映像コンテンツに含まれるフレームのフレーム特徴量と、一連のフレームで構成されるシーンが有する属性によりシーングループとしてグループ分けして記憶されたフレーム特徴量とを照合し、合致するフレーム特徴量がある場合に、フレーム特徴量が合致したシーングループへの関心度を表わす、前記視聴者のスコアを増加させる関心度累積ステップと、
     前記スコアのより高いシーングループを、前記視聴者が嗜好するシーングループと判定する視聴者嗜好判定ステップと、
     を含むことを特徴とする視聴者の嗜好判定方法。
PCT/JP2012/069930 2011-08-04 2012-07-31 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム WO2013018913A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/236,752 US9070040B2 (en) 2011-08-04 2012-07-31 Video processing system, method of determining viewer preference, video processing apparatus, and control method
EP12820528.3A EP2741507B1 (en) 2011-08-04 2012-07-31 Video processing system, method of determining viewer preference, video processing apparatus, and control method and control program therefor
JP2013526974A JP5880558B2 (ja) 2011-08-04 2012-07-31 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-170864 2011-08-04
JP2011170864 2011-08-04

Publications (1)

Publication Number Publication Date
WO2013018913A1 true WO2013018913A1 (ja) 2013-02-07

Family

ID=47629424

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/069930 WO2013018913A1 (ja) 2011-08-04 2012-07-31 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム

Country Status (4)

Country Link
US (1) US9070040B2 (ja)
EP (1) EP2741507B1 (ja)
JP (1) JP5880558B2 (ja)
WO (1) WO2013018913A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016035351A1 (ja) * 2014-09-04 2016-03-10 富士ゼロックス株式会社 情報処理装置、情報処理プログラム、情報処理方法及び記憶媒体
JP2020536335A (ja) * 2018-03-29 2020-12-10 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. ビデオ特徴抽出方法及び装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI552591B (zh) * 2015-08-24 2016-10-01 晶睿通訊股份有限公司 標記視頻中物件的方法、裝置及電腦可讀取記錄媒體
US9721165B1 (en) * 2015-11-13 2017-08-01 Amazon Technologies, Inc. Video microsummarization

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309660A (ja) * 2005-05-02 2006-11-09 Nippon Hoso Kyokai <Nhk> 推薦順位選定装置及び推薦順位選定プログラム推薦順位選定装置及び推薦順位選定プログラム
JP2006333451A (ja) * 2005-04-27 2006-12-07 Matsushita Electric Ind Co Ltd 映像要約装置および映像要約方法
JP2009296346A (ja) * 2008-06-05 2009-12-17 Sony Corp 番組推薦装置、番組推薦方法及び番組推薦プログラム
JP2010074518A (ja) * 2008-09-18 2010-04-02 Mitsubishi Electric Corp 番組推奨装置
JP2010258615A (ja) 2009-04-22 2010-11-11 Fujitsu Ltd 再生装置及びプログラム
JP2011118498A (ja) * 2009-12-01 2011-06-16 Nec Corp 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI449410B (zh) * 2011-07-29 2014-08-11 Nat Univ Chung Cheng Personalized Sorting Method of Internet Audio and Video Data
US8510385B1 (en) * 2012-06-29 2013-08-13 Mobio Technologies, Inc. System and method for user polling over a network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006333451A (ja) * 2005-04-27 2006-12-07 Matsushita Electric Ind Co Ltd 映像要約装置および映像要約方法
JP2006309660A (ja) * 2005-05-02 2006-11-09 Nippon Hoso Kyokai <Nhk> 推薦順位選定装置及び推薦順位選定プログラム推薦順位選定装置及び推薦順位選定プログラム
JP2009296346A (ja) * 2008-06-05 2009-12-17 Sony Corp 番組推薦装置、番組推薦方法及び番組推薦プログラム
JP2010074518A (ja) * 2008-09-18 2010-04-02 Mitsubishi Electric Corp 番組推奨装置
JP2010258615A (ja) 2009-04-22 2010-11-11 Fujitsu Ltd 再生装置及びプログラム
JP2011118498A (ja) * 2009-12-01 2011-06-16 Nec Corp 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2741507A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016035351A1 (ja) * 2014-09-04 2016-03-10 富士ゼロックス株式会社 情報処理装置、情報処理プログラム、情報処理方法及び記憶媒体
JP2016053869A (ja) * 2014-09-04 2016-04-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2020536335A (ja) * 2018-03-29 2020-12-10 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. ビデオ特徴抽出方法及び装置
JP7007474B2 (ja) 2018-03-29 2022-01-24 北京字節跳動網絡技術有限公司 ビデオ特徴抽出方法及び装置

Also Published As

Publication number Publication date
EP2741507A4 (en) 2015-07-29
EP2741507A1 (en) 2014-06-11
US9070040B2 (en) 2015-06-30
JPWO2013018913A1 (ja) 2015-03-05
JP5880558B2 (ja) 2016-03-09
US20140169679A1 (en) 2014-06-19
EP2741507B1 (en) 2017-05-10

Similar Documents

Publication Publication Date Title
US8804999B2 (en) Video recommendation system and method thereof
KR101816113B1 (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
CN104994426B (zh) 节目视频识别方法及系统
US9098807B1 (en) Video content claiming classifier
EP2541963B1 (en) Method for identifying video segments and displaying contextually targeted content on a connected television
JP5312352B2 (ja) ビデオフレーム特徴に基づくビデオ推薦のためのシステム及び方法
US20070086665A1 (en) Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents
KR101345284B1 (ko) 멀티미디어 컨텐츠 부호화/재생 방법 및 장치
US20160210367A1 (en) Transition event detection
CN111757170B (zh) 一种视频分段和标记的方法及装置
WO2007029917A1 (en) Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents
CN113779303B (zh) 视频集合的索引方法、装置和存储介质及电子设备
KR101541495B1 (ko) 캡쳐된 이미지를 이용한 동영상 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
JP5880558B2 (ja) 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム
CN109359203B (zh) 运动轨迹视频的处理方法及装置
JP5569830B2 (ja) 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラム
US20230164369A1 (en) Event progress detection in media items
US9807453B2 (en) Mobile search-ready smart display technology utilizing optimized content fingerprint coding and delivery
US20230142432A1 (en) Content Generating Device, Content Distribution System, Content Generating Method, And Content Generating Program
KR20090096158A (ko) 동영상 스틸컷 기반의 크로스미디어 검색 시스템 및 방법
US20140189769A1 (en) Information management device, server, and control method
CN112101197A (zh) 一种面部信息的获取方法和装置
CN114173200B (zh) 基于广电专网的视频管理推送方法及装置
CN113810737B (zh) 一种视频处理方法、装置、电子设备和存储介质
Teng et al. Rating prediction algorithm and recommendation based on user beahavior in IPTV

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12820528

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013526974

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2012820528

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012820528

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14236752

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE