WO2012132530A1 - 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体 - Google Patents

映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体 Download PDF

Info

Publication number
WO2012132530A1
WO2012132530A1 PCT/JP2012/051924 JP2012051924W WO2012132530A1 WO 2012132530 A1 WO2012132530 A1 WO 2012132530A1 JP 2012051924 W JP2012051924 W JP 2012051924W WO 2012132530 A1 WO2012132530 A1 WO 2012132530A1
Authority
WO
WIPO (PCT)
Prior art keywords
video content
additional information
frame feature
scene
video
Prior art date
Application number
PCT/JP2012/051924
Other languages
English (en)
French (fr)
Inventor
原田 大生
直毅 藤田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to EP12765830.0A priority Critical patent/EP2696578A4/en
Priority to US14/007,245 priority patent/US20140010521A1/en
Priority to JP2013507221A priority patent/JP5569830B2/ja
Publication of WO2012132530A1 publication Critical patent/WO2012132530A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders

Definitions

  • the present invention relates to a technique for adding information to a video being viewed.
  • Patent Document 1 the feature amount of the content including the moving image and the additional information of the subtitles and the audio commentary are associated and registered in advance, and the subtitles and the audio commentary are based on the feature amounts extracted from the content to be reproduced.
  • a technique for searching and synchronously reproducing content and subtitles and audio commentary is disclosed.
  • Patent Document 2 discloses a technique for extracting a frame feature quantity that characterizes a frame image with a small amount of information from each frame of video content.
  • JP 2008-166914 A International Publication No. 2010/084714
  • the created original content is referred to as “original (video) content”, and the “original (video) content” is subjected to “modification (video ) "Contents”.
  • a plurality of video contents including "original (video) content” and “derived (video) content” will be referred to as “video content group”.
  • a series of continuous frames from a specific frame to a specific frame is referred to as a "scene”.
  • Patent Document 1 as feature quantities extracted from a moving image, morphological features representing the area or perimeter of an object, temporal changes in density characteristics of pixels, or velocity vector images (optical Flow) etc. These feature quantities characterize specific moving image content, and only specific content and specific additional information are associated. In this method, it works only when it is specified in advance which of various moving image contents existing in the world is added. For this reason, it is not possible to refer to additional information linked to a specific content among a plurality of video contents in a mutually derived relationship in association with other derived content. Furthermore, additional information can not be associated with one scene or one frame in moving image content. Therefore, even if the frame feature quantity of Patent Document 2 is applied as the feature quantity of Patent Document 1, it is necessary to teach correspondence between derived content and additional information, and correspondence between one scene or one frame and additional information. Can not.
  • An object of the present invention is to provide a technique for solving the above-mentioned problems.
  • a video processing system for outputting additional information to be added to video content comprising: A frame feature extracting means for extracting a frame feature of a frame included in an arbitrary video content; The frame feature quantity of the arbitrary video content extracted by the frame feature quantity extraction unit is compared with the frame feature quantity of another video content, and a scene comprising a series of plural frames in the arbitrary video content is obtained.
  • Video content extraction means for extracting a video content group which is a video content group and includes original video content in which the scene is not modified and derived video content in which the scene is modified; Additional information extraction means for extracting additional information added to the scene of the extracted video content group; And the like.
  • the method according to the present invention is A video processing method for outputting additional information to be added to video content, comprising: A frame feature extracting step of extracting a frame feature of a frame included in an arbitrary video content; The frame feature quantity of the arbitrary video content extracted in the frame feature quantity extraction step is compared with the frame feature quantity of another video content, and a scene comprising a series of plural frames in the arbitrary video content is obtained.
  • a video content extraction step of extracting a video content group which is a video content group and includes original video content in which the scene is not modified and derived video content in which the scene is modified;
  • An additional information extraction step of extracting additional information added to the scene of the extracted video content group It is characterized by including.
  • a video processing apparatus for outputting additional information to be added to video content, comprising: A frame feature extracting means for extracting a frame feature of a frame included in an arbitrary video content; The frame feature quantity of the arbitrary video content extracted by the frame feature quantity extraction unit is compared with the frame feature quantity of another video content, and a scene comprising a series of plural frames in the arbitrary video content is obtained.
  • Video content extraction means for extracting a video content group which is a video content group and includes original video content in which the scene is not modified and derived video content in which the scene is modified; Additional information extraction means for extracting additional information added to the scene of the extracted video content group; An additional information notification means for notifying the additional information added to the video content extracted by the additional information extraction means is provided.
  • a control method of a video processing apparatus for outputting additional information to be added to video content comprising: A frame feature extracting step of extracting a frame feature of a frame included in an arbitrary video content; The frame feature quantity of the arbitrary video content extracted in the frame feature quantity extraction step is compared with the frame feature quantity of another video content, and a scene comprising a series of plural frames in the arbitrary video content is obtained.
  • a storage medium is: A storage medium storing a control program of a video processing apparatus for outputting additional information to be added to video contents, A frame feature extracting step of extracting a frame feature of a frame included in an arbitrary video content; The frame feature quantity of the arbitrary video content extracted in the frame feature quantity extraction step is compared with the frame feature quantity of another video content, and a scene comprising a series of plural frames in the arbitrary video content is obtained.
  • a control program that causes a computer to execute an additional information notification step of notifying the additional information added to the video content group extracted in the additional information extraction step is stored.
  • an apparatus that adds additional information to video content and outputs it, and A frame feature extracting means for extracting a frame feature of a frame included in an arbitrary video content;
  • a frame feature quantity transmission unit for transmitting the frame feature quantity extracted by the frame feature quantity extraction unit;
  • Video content reproduction means for adding the additional information to the arbitrary video content and reproducing it; And the like.
  • the method according to the present invention is It is a control method of a video processing apparatus which adds additional information to video content and outputs it,
  • a storage medium storing a control program of a video processing apparatus that adds additional information to video content and outputs the added content, A frame feature extracting step of extracting a frame feature of a frame included in an arbitrary video content; A frame feature amount transmission step of transmitting the frame feature amount extracted in the frame feature amount extraction step; A scene consisting of a series of multiple frames in the arbitrary video content extracted based on a frame feature of a scene consisting of a series of multiple frames of the arbitrary video content returned from the transmission destination of the frame feature quantity Of the video content group including the original video content in which the scene is not modified and the derived video content in which the scene is modified, the video content group being added to the scene An additional information receiving step of receiving information; A video content reproduction step of adding the additional information to the arbitrary video content and reproducing it; And a control program that causes a computer to execute the program.
  • FIG. 1 is a block diagram showing a configuration of a video processing system according to a first embodiment of the present invention. It is a block diagram which shows the structure of the video processing system which concerns on 2nd Embodiment of this invention. It is a sequence diagram which shows the operation
  • the video processing system 100 is a system that outputs additional information to be added to video content.
  • the video processing system 100 includes a frame feature quantity extraction unit 110, a video content extraction unit 120, and an additional information extraction unit 130.
  • the frame feature quantity extraction unit 110 extracts a frame feature quantity 110a included in a frame included in any video content.
  • the video content extraction unit 120 compares the frame feature amount 110a of the arbitrary video content extracted by the frame feature amount extraction unit 110 with the frame feature amount 140a of the other video content, A video content group 120a to 120c having a scene consisting of frames, the video content group including the original video content 120a in which the scene is not modified and the derived video content 120b and 120c in which the scene is modified Extract 120a to 120c.
  • the additional information extraction unit 130 extracts additional information 130a added to the scenes of the extracted video content groups 120a to 120c.
  • the frame feature amounts transmitted from various video viewing terminals having a frame feature amount extraction unit are compared with the frame feature amounts stored in the video processing apparatus, and the scene of the same original video content is obtained.
  • additional information added to a video content group including the same scene can be added to the video content being viewed.
  • FIG. 2 is a block diagram showing the configuration of the video processing system 200 according to the present embodiment. Note that FIG. 2 shows functional components related to the present embodiment, and functional components that perform other functions are omitted to avoid complexity.
  • reference numeral 210 denotes a video processing apparatus.
  • the video processing device 210 has a frame feature DB 214 for storing frame feature characterizing each frame of video content in association with frame ID identifying each frame.
  • scene DB 216 that associates and accumulates a series of frame sequences of a predetermined length and a scene ID that identifies a scene consisting of the frame sequences.
  • the series of frame sequences are identified by corresponding frame feature sequences.
  • it has an additional information DB 218 for storing additional information added to a derived scene derived from the scene in association with the scene ID. Note that the derived scene is sorted based on the comparison of a series of frame feature amount sequences between the scene and the derived scene.
  • the video processing device 210 includes a communication control unit 211 that communicates via the network 250.
  • the communication may be wired or wireless.
  • the frame feature amount receiving unit 212 receives a series of frame feature amount sequences of video content by the communication control unit 211.
  • the frame feature quantity matching unit 213 matches the series of frame feature quantity sequences received by the frame feature quantity receiving unit 212 with the frame feature quantity sequences stored in the frame feature quantity DB 214. Then, if the difference is within the predetermined threshold, it is determined that both frame feature quantity sequences match.
  • the scene determination unit 215 receives the coincidence signal from the frame feature amount matching unit 213, determines a scene consisting of a frame sequence corresponding to the series of frame feature amount sequences from the scene DB 216, and identifies the determined scene. Output the scene ID to be
  • the additional information provision unit 217 searches the additional information DB 218 for additional information based on the scene ID output from the scene determination unit 215, and the communication control unit 211 provides additional information of the search result
  • Reference numeral 220 in FIG. 2 denotes a video content providing server for providing video content.
  • the video content providing server 220 has a content DB 223 for storing video content to be provided, and an additional information DB 222 for storing additional information added to the content.
  • the content DB 223 and the additional information DB 222 may be provided as an integrated DB.
  • Reference numeral 230 in FIG. 2 denotes a television station that produces and provides video content.
  • the television station 230 also has a content DB 233 for storing video content to be provided, and an additional information DB 232 for storing additional information added to the content.
  • the content DB 233 and the additional information DB 232 may be provided as an integral DB.
  • Reference numerals 261 to 267 in FIG. 2 denote video viewing terminals that transmit frame feature amounts of video content to the video processing apparatus 210 via the network 250 and receive provision of related additional information.
  • the video viewing terminals 261 to 267 include a television receiver, a personal computer (hereinafter, PC), and a mobile terminal such as a mobile phone.
  • the video viewing terminal is not limited to the type illustrated in FIG. Any communication device capable of viewing images can be applied.
  • the video viewing terminals 261 to 267 need to have frame feature quantity extraction units 261a to 267a that extract frame feature quantities from each frame of the video content. .
  • the video viewing terminals 261 to 267 need to be able to download and execute the frame feature extraction program.
  • frame feature amounts of the video content extracted from the video viewing terminals 261 to 267 using the frame feature amount extracting units 261a to 267a are transmitted to the video processing device 210.
  • the video processing apparatus 210 extracts the additional information added to the scene having the matching frame feature amount in the related video content including the original video content and the derived video content from the comparison with the stored frame feature amount, It is provided to the viewing terminals 261-267.
  • the additional information is extracted and provided not only from the additional information DB 218 in the video processing device 210 but also from the additional information DB 222 of the video content providing server 220 and the additional information DB 232 of the television station 230.
  • the video processing apparatus 210 is provided independently of the video content providing server 220 and the television station 230 in FIG. 2, the video processing apparatus 210 may be installed in the video content providing server 220 or the television station 230.
  • the video content providing server 220 and the television station 230 which are the main service, are illustrated as having an additional information DB and a content DB, respectively.
  • a service entity in which additional information DBs and content DBs of multiple service entities are coordinated and controlled in a coordinated manner, collectively held on one side, or separately separately managing additional information DBs and content DBs. It is good.
  • FIG. 3 is a sequence diagram showing an operation procedure 300 of the video processing system according to the present embodiment.
  • FIG. 3 shows in more detail the transfer sequence of information between the components of FIG.
  • step S300 preparation of each DB is performed by the video processing apparatus 210 as preparation for the operation in the present embodiment.
  • the video processing device 210 receives the distribution of the video content from the video content providing server 220 and the television station 230, extracts the frame feature amount, and prepares each DB (see FIG. 9).
  • a frame feature extraction unit may be provided in the video content providing server 220 or the television station 230, or a frame feature program may be downloaded and the frame feature may be transmitted to the video processing apparatus 210. You may configure it.
  • the original video content is found not only from the scene consisting of the same frame image but also from the scene of the derived video content to which correction and editing have been added and conversely the derived video content
  • the additional information DB 218 can be prepared.
  • a service of providing additional information to the video viewing terminals 261 to 267 of this embodiment is started.
  • This DB preparation process may be performed once before the service for providing additional information is started.
  • the DB preparation process is repeated and each DB is updated.
  • the update process of each DB is executed.
  • step S301 video content from a DVD (Digital Versatile Disc) or the like is input to the video viewing terminal.
  • video content is input from the video content providing server 220 or the television station 230 to the video viewing terminal in real time.
  • Each video viewing terminal decodes a video from the video content input in step S305.
  • step S307 a frame feature amount is extracted for each frame of the video content being decoded.
  • the frame feature amount may be extracted from the video content being decoded and reproduced at the video viewing terminal.
  • the timing of frame feature extraction is not limited to this.
  • the frame feature amount may be extracted while receiving video content, such as during recording.
  • the timing when the stored video content is detected, or during the idle time when the video viewing terminal after detection is not operating, is stored.
  • Frame feature quantities may be extracted for video content.
  • the extracted frame feature amount is transmitted to the video processing apparatus 210 in the order of the frames of the video content in step S309.
  • the video processing device 210 receives the frame feature amount transmitted from the video viewing terminal in the order of the frames of the video content. Then, the frame ID is stored as a unique identifier for each frame feature amount. The storage of the frame feature amount is temporary even when the provision of the additional information is received, or is permanently stored in the frame feature amount DB 214 together with the identifier specifying the video content, and the subsequent additional information It may be used when receiving the offer.
  • step S311 the video processing apparatus 210 collates the received series of frame feature quantity sequences with the frame feature quantity sequences of the frame feature quantity DB 214. From the result of the comparison, in step S313, it is determined whether they match. In step S313, if the difference (for example, distance etc.) by collation of step S311 is less than a predetermined
  • the original video content is found not only from the same frame image but also from the scene of the derived video content to which the modification or the modification of the editing has been added, or conversely from the derived video content, by the matching process of step S311 and the determination process of step S313. be able to.
  • step S315 determines whether additional information is added to the scene of the video content having the matched frame feature sequence. If there is no additional information, the next frame feature quantity sequence is received and matching is repeated. If there is additional information, in step S317, information indicating all additional information found is transmitted to the video viewing terminal of the transmission source of the frame feature amount, and additional information is notified. Then, it asks for permission to add additional information and selection of additional information.
  • the video viewing terminal receives the additional information, and when the addition of the additional information is permitted, requests the video processing apparatus 210 to add the selected additional information in step S319.
  • the inquiry of the video viewing terminal can be changed according to the method of the additional service of the additional information. For example, the transmission of the frame feature amount in step S309 is recognized as the permission of the addition of the additional information and added. It is also good. In that case, the selection will be inquired only when there are a plurality. In addition, if the additional information is voice and subtitles, etc., it can be added as it is and the deletion can be inquired.
  • the video processing apparatus 210 determines whether or not the additional information is in the apparatus itself in step S321. If it is in the own apparatus, the additional information is transmitted to the video viewing terminal in step S323. On the other hand, if not in the own apparatus, in step S325, the video content providing server 220 or the television station 230 which holds the video content and the additional information is requested to provide the additional information. If there is a reply of the additional information in response to the additional information request in step S327, the video processing device 210 transmits the additional information received in step S329 to the video viewing terminal.
  • step S331 the video viewing terminal performs additional control so as to combine the provided additional information with the video to be decoded.
  • the additional information combined with the screen to be reproduced is reproduced in step S331.
  • synchronization of synthesis of the additional information to the reproduced video may be performed by using a common time stamp, or may be performed in real time by the video processing device 210 or the video viewing terminal. Such processing is not a main part of the present invention, so details are omitted.
  • the additional information may be an operation that is displayed in the area for displaying additional information in the screen without being combined with the video.
  • the additional information is downloaded in advance and temporarily stored in the storage unit of the video viewing terminal in association with the video content ID of the extraction source, and is controlled to be added later when the video content of the extraction source is reproduced. May be
  • FIG. 4 is a diagram showing a specific example 400 of the operation of the video processing system according to the present embodiment.
  • FIG. 4 is an example in which one scene of a past baseball game is being watched by playing back a recording, watching a provided video library, or a video in a television program.
  • Reference numeral 410 denotes a scene of a video currently being viewed.
  • a television receiver which is one of the video viewing terminals
  • frame feature quantity sequences of a series of frames of the scene are extracted and transmitted to the video processing apparatus 210.
  • the scene of the original video content and the scene of the derived video content are found from the comparison between the transmitted series of frame feature amounts and the frame feature amount DB.
  • the additional information added to the scene is retrieved from the additional information DB.
  • the original video content is a live game content of a baseball game.
  • 420 of FIG. 4 the above three additional information are found, and a message 421 (or a button may be used) for inquiring of the viewer which of the three is added is displayed.
  • the viewer can view the scene to which the additional information is added by selecting any of them. If no selection is made, it is determined that no addition is made.
  • 430 in FIG. 4 is a display when "Telop” is selected.
  • a telop 431 which is additional information that is not originally added to the scene of the video currently being viewed, is added.
  • 440 in FIG. 4 is a display when “news speech” is selected.
  • FIG. 5A is a block diagram showing a configuration of frame feature quantity extraction units 261a to 267a according to the present embodiment.
  • the frame feature quantity extraction units 261a to 267a applied in the present embodiment are functional configuration units that extract video signatures adopted in the standardization of MPEG7.
  • the frame feature quantity 550 to be output is an average which is a kind of area feature quantity between the areas by providing an area pair having many different sizes and shapes in each frame image of the captured image.
  • the difference between the luminance values is quantized (actually, three values) and encoded.
  • the dimension determination unit 510 determines the number of area pairs. One dimension corresponds to one area pair. According to the determination of the dimension determination unit 510, the extraction region acquisition unit 520 acquires a pair of regions of each dimension for which frame feature quantities are to be calculated.
  • the region feature amount calculation unit 530 has a first region feature amount calculation unit 531 and a second region feature amount calculation unit 532, and each has an average luminance which is a type of region feature amounts of one region of each dimension pair of region pairs. calculate.
  • the area feature amount difference encoding unit 540 obtains the difference of the average luminance which is a type of the area feature amount of each of the area pair, quantizes the difference according to the third threshold, and outputs the frame feature amount 550.
  • the average luminance represents the region feature amount in the following description, but the region feature amount is not limited to the average luminance of the region, and other processing of luminance and feature amounts of frames other than luminance are also applied. it can.
  • FIG. 5B is a diagram showing processing in the frame feature quantity extraction units 261a to 267a according to the present embodiment.
  • 520a of FIG. 5B has shown the example of the number of the area
  • the outer frame indicates a frame
  • the inner rectangles indicate areas.
  • Reference numeral 530 a in FIG. 5B represents a relationship in which an area extracted by the area pair from the extraction area acquiring unit 520 and a difference between the areas are taken in the frame image. Two regions of a region pair are extracted in the frame image, the average luminance of the pixels included in each region is calculated, and the manner in which the difference is calculated is indicated by an arrow connecting the centers of the respective regions.
  • 540a in FIG. 5B shows how the calculated difference is subjected to quantum encoding.
  • the difference obtained by subtracting the second region feature amount from the first region feature amount in FIG. 5A is indicated by a broken line which is the above-mentioned third threshold centering on a difference "0" (corresponding to the same average luminance). If it is within the difference, "0" is taken as the output value of the quantum coding. If the same difference is a positive (+) value larger than the broken line position, “+1” is taken as the output value of the quantum coding. If the same difference is a negative (-) value larger than the broken line position, "-1" is taken as the output value of quantum coding.
  • the third threshold value indicated by the broken line is selected from the ratio of difference values to be quantized to “0” from the distribution of difference values in all dimensions used. As an example, a value is selected such that the ratio of the difference value to be quantized to "0" is 50%.
  • FIG. 5B shows an example of frame feature quantities generated by collecting the results of quantum coding of differences.
  • the frame feature quantity is, as a simple example, a value obtained by arranging the quantum encoded values of the difference in a one-dimensional direction in a dimensional order. It should be noted that the values obtained by simply arranging the quantum encoded values of the difference in a one-dimensional direction in a dimensional order, instead of arranging them in a multidimensional direction, or adding an additional operation, may be used.
  • FIG. 5C is a diagram showing extraction regions in the frame feature quantity extraction units 261a to 267a according to the present embodiment.
  • an area pair of each dimension is shown by two rectangular areas.
  • a shape other than a rectangle may be desirable.
  • the extraction area shown in FIG. 5C exemplifies an area pair that is not two rectangular areas.
  • realizing comparison of frame feature quantities in real time or comparison of frame feature quantity groups of video content that is a set of frame feature quantities by ternaryizing each dimension as indicated by 540a in FIG. 5B. Even if there are, it is possible to set several hundred dimensions.
  • FIG. 6 is a diagram showing the configuration of the frame feature DB 214, the scene DB 216, and the additional information DB 218 according to the present embodiment and the relationship between them.
  • the frame feature DB 214 shown in FIG. 6 is a frame feature storage unit, which corresponds to the frame ID 621 specifying each frame in the video content, and is a frame extracted from the video content in accordance with FIGS. 5A to 5C.
  • Feature amounts 622 are sequentially accumulated.
  • the frame feature quantities stored in the frame feature quantity DB 214 are managed in units of video content and scene.
  • the frame feature amounts received from the video viewing terminal are sequentially stored in the frame feature amount receiving unit 212 and shifted.
  • a series of a predetermined number of frame feature amount sequences are set from the frame feature amount receiving unit 212 in the frame feature amount buffer constituting the frame feature amount matching unit 213.
  • seven frame feature quantities are illustrated in the frame feature quantity buffer in FIG. 6, the length of the frame feature quantity buffer is in a trade-off relationship between the matching accuracy and the matching speed, and the appropriate length Is selected. It is also possible to prepare a predetermined length based on the accuracy of collation and calculate and set the length to be used from the relation between the accuracy of collation and the collation speed.
  • the frame feature quantity sequence set in the frame feature quantity buffer is compared with a series of frame feature quantity sequences of the frame feature quantity DB 214 while being compared, and similar frame feature quantity sequences are retrieved.
  • the determination as to whether or not the similarity is made by the matching is made based on whether the comparison result (for example, distance calculation, mean square, etc.) is within a predetermined threshold. Then, when a similar frame feature amount sequence is found, the start frame ID and the end frame ID of the frame feature amount sequence are output.
  • the scene DB 216 in FIG. 6 is a scene accumulation unit, and a start frame ID 632 and an end frame ID 633 are accumulated in association with the scene ID 631 specifying the scene.
  • the start frame ID 632 and the end frame ID 633 may coincide with the start and end of the scene indicated by the scene ID 631 or may be part of the scene indicated by the scene ID 631.
  • the frame feature extraction method of the present embodiment shown in FIGS. 5A to 5C described above it is possible to identify a scene including more frames even by matching with a small number of series of frame feature sequences.
  • the additional information DB 218 in FIG. 6 is an additional information storage unit, which is an additional information ID or additional information from an original scene or a derived scene having a scene ID found based on the scene DB 216 and original video content or derived video content including them. Accumulate ID groups.
  • additional information 642 is stored in association with each additional information ID 641.
  • additional information 642 of the professional baseball game added to the video being reproduced in the specific example of FIG. 4 is accumulated.
  • FIG. 7 is a block diagram showing the hardware configuration of the video processing apparatus 210 according to the present embodiment.
  • a CPU 710 is a processor for arithmetic control, and executes the programs to realize each functional component in FIG. 2.
  • the ROM 720 stores fixed data and programs such as initial data and programs.
  • the communication control unit 730 communicates with the video viewing terminals 261 to 267 or each server / TV station. Note that the television broadcast radio wave and the other communication may be configured by a plurality of separate communication control units. The communication may be wireless or wired. However, if the television becomes digital terrestrial, processing by the common communication control unit is also possible.
  • a RAM 740 is a random access memory used by the CPU 710 as a temporary storage work area. In the RAM 740, an area for storing data necessary for realizing the present embodiment is secured.
  • Reference numeral 741 denotes a received frame feature amount received from the video viewing terminal.
  • the buffer also serves as a buffer of the frame feature amount sequence of the frame feature amount matching unit 213.
  • Reference numeral 742 denotes a comparison target frame feature quantity for comparing sequentially with the frame feature quantity sequence read out from the frame feature quantity DB 214 and received.
  • Reference numeral 743 denotes a match determination threshold value for determining whether the received frame feature amount 741 and the comparison target frame feature amount 742 match.
  • 744 is a match presence / absence flag indicating the result of the match determination.
  • Reference numeral 745 is a scene ID obtained from the matched frame feature amount sequence.
  • An additional information ID 746 identifies the additional information detected based on the scene ID.
  • Reference numeral 747 denotes an additional information search table storing processing results from comparison of frame feature amounts to search of additional information (see FIG. 8).
  • Reference numeral 748 denotes an inquiry message for permission to add additional information or selection of additional information to the video viewing terminal, and a response message from the video viewing terminal.
  • 749 is additional information for transmission for which addition has been determined.
  • the storage 750 stores a database, various parameters, or the following data or program necessary for realizing the present embodiment.
  • Reference numeral 214 denotes a frame feature DB shown in FIG.
  • Reference numeral 216 denotes the scene DB shown in FIG.
  • Reference numeral 218 denotes the additional information DB shown in FIG.
  • FIG. 7 does not show a DB of video content, but may have a content DB. However, the content DB is not an essential component in the video processing apparatus 210 of the present embodiment.
  • the storage 750 stores the following programs.
  • a video processing program 754 executes the entire processing.
  • Reference numeral 755 denotes a DB preparation module for preparing each of the DBs (see FIG. 9A).
  • Reference numeral 756 denotes a frame feature matching module that indicates a procedure for matching a frame feature string in the video processing program 754.
  • Reference numeral 757 denotes an additional information search module for searching for related additional information in the video processing program 754.
  • An additional information transmission module 758 transmits additional information to be added in the video processing program 754. In order to synchronize the video content and the additional information in the video processing device 210, the additional information transmission module 758 is performed.
  • FIG. 7 shows only data and programs essential to the present embodiment, and general-purpose data and programs such as the OS are not shown.
  • FIG. 8 is a diagram showing the configuration of the additional information search table 747 according to the present embodiment.
  • the additional information search table 747 is a table for storing a process history from the reception of the frame feature amount sequence to the search of the additional information in order to assist the additional information search process of the present embodiment.
  • the following information is stored in the additional information search table 747 of FIG. 8 in association with the frame feature amount column 801 in which a matching scene is found as a result of the comparison with the frame feature amount DB 214 received.
  • Reference numeral 802 denotes a comparison target frame feature amount sequence read out from the frame feature amount DB 214 and matched with the frame feature amount sequence 801. If the comparison difference is within the predetermined threshold, it is added to the original video content or the derived video content as a match.
  • Reference numeral 803 denotes a frame ID string having the matched comparison target frame feature string 802.
  • Reference numeral 804 denotes a scene ID searched from the frame ID column 803. Here, the scene ID is the same "199801121012", and the original scene and the derived scene are shown in the alphabet. 805 indicates whether the scene is an original scene or a derived scene.
  • Reference numeral 806 denotes an ID of video content including the scene of scene ID 804.
  • Reference numeral 807 denotes additional information added to this scene in each video content.
  • Reference numeral 808 denotes an additional information ID for specifying the additional information 807.
  • FIG. 9A is a flowchart showing the preparation procedure (S300 of FIG. 3) of each DB by the video processing apparatus according to the present embodiment. This flowchart is executed by the CPU 710 of FIG. 7 using the RAM 740.
  • step S901 a frame feature amount is extracted for each frame of video content transmitted from the video content providing server 220, the television station 230, and the like.
  • step S 903 a unique frame ID is added in the order of frames, and a frame feature amount is registered in the frame feature amount DB 214 corresponding to the frame ID.
  • step S 905 a scene ID is attached to the combination of the start frame and the end frame of the scene for which the additional information is set, and the combination is registered in the scene DB 216.
  • step S 907 the additional information ID and the additional information thereof are set corresponding to the scene ID, and are registered in the additional information DB 218.
  • step S909 it is determined whether the processing for all the video content has been completed, and if there is another video content that has not been processed, the process returns to step S901 to repeat the processing.
  • FIG. 9B is a flowchart showing a video processing procedure by the video processing apparatus according to the present embodiment. This flowchart is executed by the CPU 710 of FIG. 7 using the RAM 740.
  • step S911 frame feature amounts are received from the video viewing terminal.
  • step S 913 the predetermined number of received series of frame feature quantity sequences are compared with the frame feature quantity sequences of the frame feature quantity DB 214.
  • step S915 it is determined from the comparison result whether or not the conditions match (including whether the difference is within the predetermined threshold). If it matches, the process proceeds to step S 917, and additional information is searched from the additional information DB 218 by the scene ID representing the matched frame feature quantity sequence or including the matched frame feature quantity sequence. The search process of such additional information will be described in detail based on FIG. 9C.
  • step S 919 it is determined whether the search for additional information has been completed by comparison with all the frame feature amounts stored in the frame feature amount DB 214.
  • the amount of data of the stored frame feature amount is large, it is divided according to the type of video content and the like, and retrieval of additional information in group units is possible. It is also good.
  • one CPU may be assigned to the processing of each grape to perform parallel processing.
  • a plurality of video processing devices 210 may be provided, each device may be specialized to the type of video content, and device selection or parallel processing of a plurality of devices may be performed.
  • step S921 if there is additional information searched in the loop of steps S913 to S919, the terminal for video viewing of the transmission source of the frame feature amount is inquired about permission of addition of additional information and selection of additional information.
  • step S 923 it is determined whether addition of additional information has been requested as a response to the inquiry. If addition of additional information is requested, the process proceeds to step S 925 to transmit the additional information to the video viewing terminal. If there is no additional information addition request, the process ends without transmitting the additional information.
  • FIG. 9C is a flowchart showing the procedure of the additional information search process (S917) by the video processing apparatus according to this embodiment. This flowchart is executed by the CPU 710 of FIG. 7 using the RAM 740.
  • step S 931 the scene DB 216 is searched using the start frame ID and the end frame of the scene in which the frame feature amount sequence matches.
  • step S933 it is determined whether there is a corresponding scene ID. If there is no scene ID, the process proceeds to step S937. If the scene ID is found, the process proceeds to step S935, the additional information is read from the additional information DB 218 using the acquired scene ID, and is temporarily stored as a transmission candidate.
  • step S937 it is determined whether all the scene DB 216 has been searched, and if it is not yet returned to step S931 to repeat the search for additional information. If all scenes DB 216 have been searched, the process returns.
  • FIG. 10 is a block diagram showing a hardware configuration of video viewing terminals 261 to 267 according to the present embodiment.
  • FIG. 10 only the part relevant to the process of this embodiment is shown, Therefore The part concerning the use of each apparatus is abbreviate
  • a CPU 1010 is a processor for arithmetic control, and executes the programs to implement each functional component shown in FIG.
  • the ROM 1020 stores fixed data and programs such as initial data and programs.
  • the communication control unit 1030 communicates with the video processing apparatus 210 and various servers via the network 250. The communication may be wireless or wired. The reception of the television broadcast radio wave is performed by a control unit (not shown). However, in the case of digital terrestrial waves, communication by the common communication control unit 1030 is also possible.
  • a RAM 1040 is a random access memory used by the CPU 1010 as a work area for temporary storage. In the RAM 1040, an area for storing data necessary for realizing the present embodiment is secured.
  • a video buffer 1041 stores an input video.
  • Reference numeral 1042 denotes frame data of each frame.
  • Reference numeral 1043 denotes a first region coordinate for setting a first region on a frame and a first feature amount which is the feature amount thereof.
  • Reference numeral 1044 denotes a second region coordinate for setting a second region on the frame and a second feature amount which is the feature amount.
  • Reference numeral 1045 denotes an area feature amount difference code value of three values in this example of each dimension, which is output by quantum encoding from the difference between the first region feature amount and the second region feature amount.
  • Reference numeral 1046 denotes a frame feature amount obtained by combining area feature amount difference code values 1045 by the number of dimensions.
  • Reference numeral 1047 denotes additional information retrieved by the video processing apparatus 210 and transmitted.
  • Reference numeral 1048 denotes display data added with the additional information 1047 to the video being reproduced.
  • the storage 1050 stores a database, various parameters, or the following data or program necessary for realizing the present embodiment.
  • An extraction area pair DB 1051 stores all extraction area pairs used in the present embodiment.
  • 1052 is an algorithm for frame feature quantity extraction shown in FIG. 5A to FIG. 5C.
  • a video storage DB 1053 stores video content.
  • the storage 1050 stores the following programs.
  • Reference numeral 1054 denotes a video processing program for executing the entire processing (see FIG. 11).
  • Reference numeral 1055 denotes a frame feature extraction module included in the video processing program 1054.
  • Reference numeral 1056 denotes an additional information combining module for combining the additional information with the scene of the video content, or synchronizing the additional information with the scene of the video content, which the video processing program 1054 has.
  • the input interface 1060 interfaces with peripheral devices for input. Connected to the input interface 1060 are a video input unit 1062 such as a DVD drive and a keyboard 1061 for inputting instructions.
  • An output interface 1070 interfaces with peripheral devices for output.
  • a display unit 1071 is connected to the output interface 1070.
  • FIG. 10 only data and programs essential to the present embodiment are shown, and general-purpose data and programs such as an OS are not shown.
  • FIG. 11 is a flowchart showing an additional information processing procedure by the video viewing terminal according to the present embodiment. This flowchart is executed by the CPU 1010 of FIG. 10 using the RAM 1040.
  • step S1101 the video content is read into the video viewing terminal.
  • step S1103 frame feature quantities are extracted from the frames of the video content.
  • step S1105 the frame feature quantity extracted via the network 250 is transmitted to the video processing apparatus 210.
  • step S1111 After waiting for a reply from the video processing apparatus 210, it is determined whether the reply is an inquiry for permission to add additional information. If the inquiry is not made, it is judged that the additional information is not found, and the reproduction of the video content without the additional information is continued in step S1117. If it is an inquiry, the process proceeds to step S1109, and it is determined whether the viewer has instructed addition of additional information. If the instruction to add the additional information is not issued, the video content reproduction without the additional information is continued in step S1117. If there is an instruction to add additional information, in step S1111, reception of additional information from the video processing device 210 is awaited. If there is additional information received, the process proceeds to step S1113. In the case of real-time processing, the timing of reproduction of the video content and output of the additional information is controlled. Then, in step S1115, the video content and the additional information are combined and reproduced on the display unit 1071 of the video viewing terminal.
  • a frame feature DB 214, a scene DB 216, and an additional information DB 218 are provided to search for additional information.
  • the additional information can be added to the video content.
  • the same additional information as in the second embodiment is searched by providing one DB that associates the frame feature amount with the additional information.
  • additional information can be added in frame units without being converted once into a scene ID as in the second embodiment, so speeding-up and synchronization control of additional information search processing can be performed. become.
  • FIG. 12 is a view showing the configuration of a frame feature amount / additional information DB 1200 in the video processing system according to the present embodiment.
  • the frame feature amount / additional information DB 1200 is replaced with the three DBs of the second embodiment.
  • the frame feature amount / additional information DB 1200 is a frame feature amount / additional information unit, and the following information is stored in association with the frame ID 1201.
  • Reference numeral 1202 denotes a frame feature amount of the frame identified by the frame ID 1201.
  • Reference numeral 1203 denotes an ID of the video content.
  • 1204 is additional information added to each frame.
  • audio is registered one by one as additional information corresponding to each frame ID of video content A1 which is derived video content.
  • the frame feature amount / additional information DB 1200 having such a configuration is used, it is easy to add the additional information in association with the reproduction of each frame.
  • the terminal for video viewing which is the transmission source of the frame feature amount is inquired about permission of addition information or selection of the additional information.
  • the video viewing terminal while performing processing such as recording, there are cases where it is desired to confirm the search result and inquiry of the additional information at a location apart from the video viewing terminal.
  • the search result of the additional information and the inquiry are transmitted not to the video viewing terminal but to another device such as a portable terminal.
  • the additional information can be added to the video content without the viewer being tied to the video viewing terminal.
  • FIG. 13 is a sequence diagram showing an operation procedure 1300 of the video processing system according to the present embodiment.
  • the same reference numerals are given to the same sequence processing as that in FIG. 3.
  • the difference from FIG. 3 in FIG. 13 is the processing in steps S1317 and S1319.
  • the other processes are the same, so the description of FIG.
  • step S1317 an inquiry for permission to add additional information or selection of additional information is sent to the portable terminal.
  • step S1319 a request for addition of additional information from the portable terminal is sent back to the video processing apparatus 210 according to a user's instruction.
  • the video processing apparatus executes the collation of the frame feature amount and the search of the additional information.
  • the video processing apparatus can distribute the load by registering and managing viewers and leaving the collation of the frame feature amount and the search of the additional information to the video content providing server holding the video content and the television station.
  • the matching of the frame feature amount and the search of the additional information are performed in the video content providing portion that holds the video content. According to this embodiment, the load of video processing can be distributed.
  • the configuration and operation of the video processing system are the same except that the apparatus for arranging the functional components in FIG. 2 of the second embodiment is changed, so only the newly added functional portions will be described.
  • the description of the internal configuration and operation of the same functional configuration unit will be omitted.
  • FIG. 14 is a block diagram showing the configuration of a video processing system 1400 according to the present embodiment.
  • the video processing device 1410 in FIG. 14 includes a frame feature amount transmission unit / additional information acquisition unit 1411 that transmits the frame feature amount received from the video viewing terminal and acquires additional information.
  • the transmission destination of the frame feature amount and the transmission source of the additional information are the video content providing server 1420 or the television station 1430.
  • the television station of FIG. 14 includes a frame feature amount reception unit 1431, a frame feature amount comparison unit 1432, a scene determination unit 1435, and an additional information provision unit 1436, which are shown in FIG.
  • the DB 1434 includes a content DB for accumulating video content, a scene DB, and an additional information DB.
  • a frame feature extraction unit 1433 is also provided that extracts frame features from each frame of video content read from the content DB.
  • the frame feature quantity extraction unit 1433 is the same as the frame feature quantity extraction unit included in the video viewing terminal.
  • the video content providing server 1420 in FIG. 14 basically has the same configuration as the television station 1430 having the DB 1424.
  • the frame feature amount / additional information control unit 1421 is a group of units that collate frame feature amounts of a television station and search additional information.
  • the provision of the service related to the additional information is realized by the initiative of the video processing apparatus, and the intention of the viewer is that the addition of the additional information or the selection of the additional information was a passive response to
  • the case is shown where the viewer has a user interface (UI) that allows the user to actively set the operation of the video processing apparatus regarding the additional information.
  • UI user interface
  • it is possible to receive provision of a service regarding additional information according to the setting of the user.
  • the second to fifth embodiments can be used for the search of additional information according to the basic embodiment, the description will be omitted here.
  • a configuration for realizing the additional function of the present embodiment will be described.
  • FIG. 15 is a view showing a table 1500 showing setting information of the viewer regarding the additional information in the video processing system according to the present embodiment.
  • a table representing the setting information of the viewer regarding such additional information may be disposed in any device of the video processing system of FIGS. 2 and 14. However, it is desirable to arrange in a device having a function of providing additional information.
  • information 1503 related to an inquiry set by the viewer is stored in association with the video viewing terminal ID 1501 and the viewer ID 1502.
  • 1503 has the destination of the query and its form.
  • information 1504 related to the addition request set by the viewer is stored in association with the video viewing terminal ID 1501 and the viewer ID 1502.
  • a field 1504 includes the presence or absence of an addition request and the notification destination of the additional information.
  • information 1505 relating to the addition mode set by the viewer is stored in association with the video viewing terminal ID 1501 and the viewer ID 1502.
  • a field 1505 has a medium of additional information and a form of additional information.
  • the presence / absence 1506 of additional information of another video content having the same scene which corresponds to the information related to the additional information set by the viewer, is stored.
  • additional information 1507 of another video content having the same scene is stored in association with the video viewing terminal ID 1501 and the viewer ID 1502 but does not correspond to the information related to the additional information set by the viewer.
  • the setting contents are not limited to FIG.
  • the setting by the viewer with the video viewing terminal ID "0001" and the viewer ID "AA" is registered.
  • the addition of the additional information or the selection of the additional information is displayed in the form of display A on the video viewing terminal as the destination indicates.
  • the video viewing terminal is a television
  • an inquiry is displayed on the television screen in the form of display A.
  • the viewer's response to the inquiry is set in the addition request.
  • Addition of additional information is requested, and the addition destination is a video viewing terminal, for example, a television in the above example.
  • the additional form required by the viewer is additional information of voice, and the form is not limited. As a result, it is shown that the audio additional information is included in the other video content.
  • the setting by the viewer having the video viewing terminal ID "0002" and the viewer ID "BB" is registered.
  • the addition of additional information or the selection of additional information is displayed in the form of voice B on another terminal (of ID 1011) as its destination indicates.
  • the video viewing terminal is a television and the other terminal is a mobile phone
  • the mobile phone utters an inquiry in the form of audio B.
  • the viewer's response to the inquiry is set in the addition request.
  • Addition of additional information is requested, and the addition destination is a video viewing terminal, for example, a television in the above example.
  • the additional form required by the viewer is additional information on the display, and the form is B3. As a result, it is shown that there is no other video content having additional information by the display of the format B3.
  • additional information specified by the viewer may be retrieved, and the presence or absence, and if not, other additional information may be notified.
  • special information such as displaying additional information in such a form that a character string is displayed at a designated position on the screen with respect to a frame of an arbitrary scene, as in the insertion of a user-posted comment of a Nico Nico video There may be terminal control.
  • the present invention may be applied to a system constituted by a plurality of devices or to a single device. Furthermore, the present invention is also applicable to the case where a control program for realizing the functions of the embodiments is supplied to a system or apparatus directly or remotely. Therefore, in order to realize the functions of the present invention by a computer, a control program installed on the computer, a medium storing the control program, and a WWW (World Wide Web) server for downloading the control program are also within the scope of the present invention. include.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明のシステムは、映像コンテンツに付加すべき付加情報を出力する映像処理システムである。この映像処理システムは、任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出部と、フレーム特徴量抽出部が抽出した任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、シーンに改変が加えられていない元映像コンテンツとシーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出部と、抽出した映像コンテンツ群のシーンに付加されている付加情報を抽出する付加情報抽出部と、を備えることを特徴とする。かかる構成により、1つの映像コンテンツから、同じシーンを含む映像コンテンツ群に付加されている付加情報を参照できる。

Description

映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体
 本発明は、視聴中の映像に対して情報を付加するための技術に関する。
 特許文献1には、動画を含むコンテンツの特徴量と、字幕や音声解説の付加情報とを対応付けて予め登録しておき、再生するコンテンツから抽出された特徴量に基づいて字幕や音声解説を検索し、コンテンツと字幕や音声解説とを同期して再生する技術が開示されている。また、特許文献2には、映像コンテンツの各フレームから少ない情報量でフレーム画像を特徴付けるフレーム特徴量を抽出する技術が開示されている。
特開2008-166914号公報 国際公開2010/084714号公報
 世界中には元の動画コンテンツに対して、シーンのカットや別のシーンの挿入、字幕の挿入、モザイクがけや色調変更などの様々な修正及び編集を加えた派生コンテンツが存在する。従来は、そのような派生コンテンツや元の動画コンテンツのそれぞれに対して個別に付加情報が登録されていたが、元の動画コンテンツと派生コンテンツの間で、あるいは、派生コンテンツ同士の間で、一方のコンテンツにのみ登録されている付加情報を、他の派生コンテンツの同一シーンでも参照可能にするような、トータルな付加情報の管理が求められている。また、付加情報の管理は動画コンテンツ単位ではなく、動画コンテンツ内の一部である1シーンや1フレームについて管理することも求められる。なお、本明細書では、以下、作成されたオリジナルのコンテンツを「元(映像)コンテンツ」と称し、この「元(映像)コンテンツ」に修正あるいは編集などの改変を加えたコンテンツを「派生(映像)コンテンツ」と称す。また、「元(映像)コンテンツ」と「派生(映像)コンテンツ」とを含む複数の映像コンテンツを「映像コンテンツ群」と称す。また、特定のフレームから特定のフレームまでの一連の連続するフレームを、「シーン」と称す。
 しかしながら、上記特許文献1では、動画から抽出する特徴量として、物体の面積や周囲長などを表す形態特徴や、画素の濃淡特徴の時間的変化、若しくは画面上の各点の速度ベクトル画像(オプティカルフロー)などが挙げられている。これらの特徴量は特定の動画コンテンツを特徴付けるものであり、特定のコンテンツと特定の付加情報とが対応付けられているに過ぎない。この方式では、世界中に存在する様々な動画コンテンツのどのコンテンツに対して付加されたものか事前に特定されている場合のみ機能する。このため、互いに派生関係にある複数の映像コンテンツのうち、ある特定のコンテンツに紐づけられた付加情報を、他の派生コンテンツに対応付けて参照することはできない。 さらに、動画コンテンツ内の1シーンや1フレームに付加情報を対応付けることもできない。したがって、特許文献1の特徴量として、特許文献2のフレーム特徴量を適用したとしても、派生コンテンツと付加情報との対応付けや、1シーンや1フレームと付加情報との対応付けを教えることはできない。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係るシステムは、
 映像コンテンツに付加すべき付加情報を出力する映像処理システムであって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出手段と、
 前記フレーム特徴量抽出手段が抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出手段と、
 前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出手段と、
 を備えることを特徴とする。
 上記目的を達成するため、本発明に係る方法は、
 映像コンテンツに付加すべき付加情報を出力する映像処理方法であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 前記フレーム特徴量抽出ステップにおいて抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出ステップと、
 前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出ステップと、
 を含むことを特徴とする。
 上記目的を達成するため、本発明に係る装置は、
 映像コンテンツに付加すべき付加情報を出力する映像処理装置であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出手段と、
 前記フレーム特徴量抽出手段が抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出手段と、
 前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出手段と、
 前記付加情報抽出手段により抽出された前記映像コンテンツに付加されている前記付加情報を通知する付加情報通知手段
 を備えることを特徴とする。
 映像コンテンツに付加すべき付加情報を出力する映像処理装置の制御方法であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 前記フレーム特徴量抽出ステップにおいて抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出ステップと、
 前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出ステップと、
 前記付加情報抽出ステップにおいて抽出された前記映像コンテンツ群に付加されている前記付加情報を通知する付加情報通知ステップ
 を含むことを特徴とする。
 上記目的を達成するため、本発明に係る記憶媒体は、
 映像コンテンツに付加すべき付加情報を出力する映像処理装置の制御プログラムを格納した記憶媒体であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 前記フレーム特徴量抽出ステップにおいて抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出ステップと、
 前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出ステップと、
 前記付加情報抽出ステップにおいて抽出された前記映像コンテンツ群に付加されている前記付加情報を通知する付加情報通知ステップ
 をコンピュータに実行させる制御プログラムを格納したことを特徴とする。
 上記目的を達成するため、本発明に係る装置は、
 映像コンテンツに付加情報を付加して出力する映像処理装置であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出手段と、
 前記フレーム特徴量抽出手段が抽出したフレーム特徴量を送信するフレーム特徴量送信手段と、
 前記フレーム特徴量の送信先から返信された、前記任意の映像コンテンツの一連の複数のフレームからなるシーンのフレーム特徴量に基づいて抽出した前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群の、前記シーンに付加されている付加情報を受信する付加情報受信手段と、
 前記任意の映像コンテンツに前記付加情報を付加して再生する映像コンテンツ再生手段と、
 を備えることを特徴とする。
 上記目的を達成するため、本発明に係る方法は、
 映像コンテンツに付加情報を付加して出力する映像処理装置の制御方法であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 前記フレーム特徴量抽出ステップにおいて抽出したフレーム特徴量を送信するフレーム特徴量送信ステップと、
 前記フレーム特徴量の送信先から返信された、前記任意の映像コンテンツの一連の複数のフレームからなるシーンのフレーム特徴量に基づいて抽出した前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群の、前記シーンに付加されている付加情報を受信する付加情報受信ステップと、
 前記任意の映像コンテンツに前記付加情報を付加して再生する映像コンテンツ再生ステップと、
 を含むことを特徴とする。
 上記目的を達成するため、本発明に係る記憶媒体は、
 映像コンテンツに付加情報を付加して出力する映像処理装置の制御プログラムを格納した記憶媒体であって、
 任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
 前記フレーム特徴量抽出ステップにおいて抽出したフレーム特徴量を送信するフレーム特徴量送信ステップと、
 前記フレーム特徴量の送信先から返信された、前記任意の映像コンテンツの一連の複数のフレームからなるシーンのフレーム特徴量に基づいて抽出した前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群の、前記シーンに付加されている付加情報を受信する付加情報受信ステップと、
 前記任意の映像コンテンツに前記付加情報を付加して再生する映像コンテンツ再生ステップと、
 をコンピュータに実行させる制御プログラムを格納したことを特徴とする。
 本発明によれば、同じ映像コンテンツを元に作成された複数の派生コンテンツ及び元の映像コンテンツの間で、同じシーンを含む他の映像コンテンツに付加されている付加情報を互いに参照できる。
本発明の第1実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る映像処理システムの動作手順を示すシーケンス図である。 本発明の第2実施形態に係る映像処理システムの動作の具体例を示す図である。 本発明の第2実施形態に係るフレーム特徴量抽出部の構成を示すブロック図である。 本発明の第2実施形態に係るフレーム特徴量抽出部における処理を示す図である。 本発明の第2実施形態に係るフレーム特徴量抽出部における抽出領域を示す図である。 本発明の第2実施形態に係るフレーム特徴量DB、シーンDB及び付加情報DBの構成及びその関連を示す図である。 本発明の第2実施形態に係る付加情報検索テーブルの構成を示す図である。 本発明の第2実施形態に係る映像処理装置のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る映像処理装置による各DBの準備手順を示すフローチャートである。 本発明の第2実施形態に係る映像処理装置による映像処理手順を示すフローチャートである。 本発明の第2実施形態に係る映像処理装置による付加情報の検索処理の手順を示すフローチャートである。 本発明の第2実施形態に係る映像視聴用端末のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る映像視聴用端末による付加情報処理手順を示すフローチャートである。 本発明の第3実施形態に係る映像処理システムにおけるフレーム特徴量/付加情報DBの構成を示す図である。 本発明の第4実施形態に係る映像処理システムの動作手順を示すシーケンス図である。 本発明の第5実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第6実施形態に係る映像処理システムにおける付加情報に関する視聴者の設定情報を表わすテーブルを示す図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 [第1実施形態]
 本発明の第1実施形態としての映像処理システム100について、図1を用いて説明する。映像処理システム100は、映像コンテンツに付加すべき付加情報を出力するシステムである。
 図1に示すように、映像処理システム100は、フレーム特徴量抽出部110と、映像コンテンツ抽出部120と、付加情報抽出部130と、を備える。フレーム特徴量抽出部110は、任意の映像コンテンツに含まれるフレームが有するフレーム特徴量110aを抽出する。映像コンテンツ抽出部120は、フレーム特徴量抽出部110が抽出した任意の映像コンテンツのフレーム特徴量110aと他の映像コンテンツのフレーム特徴量140aとを比較して、任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群120aから120cであって、シーンに改変が加えられていない元映像コンテンツ120aとシーンに改変が加えられている派生映像コンテンツ120b,120cとを含む映像コンテンツ群120a~120cを抽出する。付加情報抽出部130は、抽出した映像コンテンツ群120a~120cのシーンに付加されている付加情報130aを抽出する。
 本実施形態によれば、1つの映像コンテンツから、同一のシーンを含む映像コンテンツ群に付加されている付加情報を参照できる。
 [第2実施形態]
 第2実施形態においては、フレーム特徴量抽出部を有する各種の映像視聴用端末から送信されたフレーム特徴量を、映像処理装置において蓄積したフレーム特徴量と比較して、同じ元映像コンテンツのシーンを含む派生映像コンテンツを見つける。そして、その元映像コンテンツ及び派生映像コンテンツのシーンに付加されている付加情報を取得して、視聴中の映像コンテンツのシーンに付加する。本実施形態によれば、視聴中の映像コンテンツに、同一のシーンを含む映像コンテンツ群に付加されている付加情報を付加できる。
 《映像処理システムの構成》
 図2は、本実施形態に係る映像処理システム200の構成を示すブロック図である。なお、図2には、本実施形態に関連する機能構成部を示しており、他の機能を果たす機能構成部は煩雑さを避けるために省略している。
 図2において、210は映像処理装置である。映像処理装置210は、映像コンテンツの各フレームを特徴付けるフレーム特徴量を、各フレームを識別するフレームIDに対応付けて蓄積するフレーム特徴量DB214を有する。また、所定の長さの一連のフレーム列と、このフレーム列からなるシーンを識別するシーンIDとを対応付けて蓄積するシーンDB216を有する。なお、一連のフレーム列は、対応するフレーム特徴列によって特定される。また、シーンIDに対応付けて、かかるシーンから派生した派生シーンに付加された付加情報を蓄積する付加情報DB218を有する。なお、派生シーンは、シーン及び派生シーン間の一連のフレーム特徴量列の比較に基づいて選別される。
 映像処理装置210は、ネットワーク250を介して通信する通信制御部211を有する。なお、通信は有線であっても無線であっても構わない。フレーム特徴量受信部212は、通信制御部211により映像コンテンツの一連のフレーム特徴量列を受信する。フレーム特徴量照合部213は、フレーム特徴量受信部212が受信した一連のフレーム特徴量列と、フレーム特徴量DB214に蓄積されたフレーム特徴量列とを照合する。そして、所定の閾値内の相違であれば両フレーム特徴量列が一致すると判断する。シーン判別部215は、フレーム特徴量照合部213からの一致信号を受信して、その一連のフレーム特徴量列に対応するフレーム列からなるシーンをシーンDB216中から判別して、判別したシーンを識別するシーンIDを出力する。付加情報提供部217は、シーン判別部215が出力したシーンIDに基づいて付加情報DB218から付加情報を検索し、通信制御部211により検索結果の付加情報を提供する。
 図2の220は、映像コンテンツを提供する映像コンテンツ提供サーバである。映像コンテンツ提供サーバ220は、提供する映像コンテンツを蓄積するコンテンツDB223と、そのコンテンツに付加された付加情報を蓄積する付加情報DB222とを有する。なお、コンテンツDB223と付加情報DB222とは一体のDBとして設けられても良い。
 図2の230は、映像コンテンツを製作及び提供するテレビ局である。テレビ局230も、提供する映像コンテンツを蓄積するコンテンツDB233と、そのコンテンツに付加された付加情報を蓄積する付加情報DB232とを有する。なお、コンテンツDB233と付加情報DB232とは一体のDBとして設けられても良い。
 図2の261~267は、ネットワーク250を介して映像処理装置210に映像コンテンツのフレーム特徴量を送信して、関連する付加情報の提供を受ける映像視聴用端末である。かかる映像視聴用端末261~267には、テレビ受信機や、パーソナルコンピュータ(以下、PC)や、携帯電話などの携帯端末が含まれる。しかし、映像視聴用端末は図2に図示された種類に限定されない。映像視聴が可能なあらゆる通信機器が適用できる。ただし、本実施形態における付加情報の提供を受けるためには、映像視聴用端末261~267が、映像コンテンツの各フレームからフレーム特徴量を抽出するフレーム特徴量抽出部261a~267aを有する必要がある。あるいは、映像視聴用端末261~267が、フレーム特徴量抽出プログラムをダウンロードして実行可能である必要がある。
 かかる構成により、映像視聴用端末261~267からフレーム特徴量抽出部261a~267aを使って抽出された映像コンテンツのフレーム特徴量が映像処理装置210に送信される。映像処理装置210は、蓄積されたフレーム特徴量との比較から元映像コンテンツや派生映像コンテンツを含む関連映像コンテンツ内のフレーム特徴量の一致するシーンに付加している付加情報を抽出して、映像視聴用端末261~267に提供する。付加情報は、映像処理装置210内の付加情報DB218のみでなく、映像コンテンツ提供サーバ220の付加情報DB222やテレビ局230の付加情報DB232からも抽出して提供する。なお、図2においては、映像処理装置210を映像コンテンツ提供サーバ220やテレビ局230と独立に設けたが、映像コンテンツ提供サーバ220やテレビ局230内に設置されていても構わない。
 また、図2では、サービス主体である映像コンテンツ提供サーバ220とテレビ局230がそれぞれ付加情報DBとコンテンツDBとを有するように図示されている。しかしながら、複数のサービス主体の付加情報DBやコンテンツDBが連携して統一的に制御されたり、一方にまとめて保持したり、あるいは、別途付加情報DBやコンテンツDBを専用に管理するサービス主体を設けても良い。
 《映像処理システムの動作手順》
 図3は、本実施形態に係る映像処理システムの動作手順300を示すシーケンス図である。図3は、図2の構成要素間の情報の伝達シーケンスをより詳細に示している。
 まず、ステップS300において、本実施形態における動作の準備として映像処理装置210で各DBの準備が行なわれる。かかるDBの準備のために、映像処理装置210は映像コンテンツ提供サーバ220やテレビ局230から映像コンテンツの配信を受けて、そのフレーム特徴量を抽出して、各DBを準備する(図9参照)。なお、通信トラフィックを低減するために、映像コンテンツ提供サーバ220やテレビ局230にフレーム特徴量抽出部を設けて、あるいはフレーム特徴量プログラムをダウンロードして、フレーム特徴量を映像処理装置210に送信するように構成してもよい。かかるステップS300におけるDBの準備処理において、同一のフレーム画像からなるシーンのみでなく、修正や編集が加えられた派生映像コンテンツのシーンや、逆に派生映像コンテンツから元映像コンテンツを見つけてシーンDB216や付加情報DB218を準備することができる。映像処理装置210において、上記各DBの準備が完了した後に、本実施形態の映像視聴用端末261~267への付加情報提供のサービスが開始される。なお、このDBの準備処理は、付加情報提供のサービスが開始される前に一度実行されればよい。そして、新たな(あるいは派生の)映像コンテンツの登場時にもDBの準備処理は繰り返されて、各DBは更新される。また、既存の映像コンテンツに対して新たに付加情報が作成された場合にも、各DBの更新処理が実行される。
 ステップS301においては、DVD(Digital Versatile Disc.)などからの映像コンテンツが映像視聴用端末に入力される。一方、ステップS303においては、映像コンテンツ提供サーバ220やテレビ局230から映像コンテンツがリアルタイムに映像視聴用端末に入力される。各映像視聴用端末においては、ステップS305において入力される映像コンテンツから映像をデコードする。そして、ステップS307において、デコードしている映像コンテンツのフレームごとにフレーム特徴量を抽出する。なお、デコードして映像視聴用端末で映像再生中の映像コンテンツからフレーム特徴量を抽出してよい。しかし、フレーム特徴量の抽出のタイミングはこれに限定されることはない。たとえば、録画中など単に映像コンテンツの受信中にフレーム特徴量を抽出してもよい。あるいは、映像視聴用端末内や接続したDBに映像コンテンツが蓄積されていれば、その蓄積映像コンテンツを検出したタイミングや、検出後の映像視聴用端末が動作していないアイドル時間中に、その蓄積映像コンテンツに対して、フレーム特徴量を抽出してもよい。抽出したフレーム特徴量は、ステップS309において、映像コンテンツのフレーム順に映像処理装置210に送信される。
 映像処理装置210は、映像視聴用端末から映像コンテンツのフレーム順に送信されるフレーム特徴量を受信する。そして、各フレーム特徴量に対して一意の識別子としてフレームIDを付与しながら記憶する。かかるフレーム特徴量の記憶は、付加情報の提供を受ける際の一時的なものであっても、あるいは映像コンテンツを特定する識別子と共にフレーム特徴量DB214に永続的に蓄積されて、以降の付加情報の提供を受ける際に利用してもよい。
 映像処理装置210では、ステップS311において、受信した一連のフレーム特徴量列とフレーム特徴量DB214のフレーム特徴量列との照合を行なう。照合の結果から、ステップS313において、合致するかを判定する。ステップS313においては、ステップS311の照合による差(たとえば距離など)が所定の閾値以内であれば合致していると判断する。かかるステップS311の照合処理とステップS313の判定処理とによって、同一のフレーム画像のみでなく、修正や編集の改変が加えられた派生映像コンテンツのシーンや、逆に派生映像コンテンツから元映像コンテンツを見つけることができる。合致するフレーム特徴量列がフレーム特徴量DB214に無ければ、次のフレーム特徴量列を受信して照合を繰り返す。合致していればステップS315に進んで、合致したフレーム特徴列を有する映像コンテンツのシーンに付加情報が付加されているかを判断する。付加情報がなければ、次のフレーム特徴量列を受信して照合を繰り返す。付加情報があれば、ステップS317において、見付かった全ての付加情報を示す情報をフレーム特徴量の送信元の映像視聴用端末に送信して付加情報通知をする。そして、付加情報の付加の許諾と付加情報の選択を問い合わせる。
 映像視聴用端末は、付加情報受信をし、付加情報の付加が許諾されればステップS319において、選択された付加情報の付加が映像処理装置210に要求する。なお、この映像視聴用端末の問合せは、付加情報の付加サービスの仕方により変更が可能であり、たとえばステップS309におけるフレーム特徴量の送信を付加情報の付加の許諾として認識して、付加をしてもよい。その場合は、複数ある場合のみに選択を問い合わせることになる。また、付加情報が音声と字幕などであればそのまま付加して、削除を問い合わせることもできる。
 映像処理装置210は、付加情報の付加の許諾(要求)を受けて、ステップS321において、その付加情報が自装置内にあるか否かを判断する。自装置にあればステップS323において、付加情報を映像視聴用端末に送信する。一方、自装置になければステップS325において、その映像コンテンツと付加情報を保有する映像コンテンツ提供サーバ220やテレビ局230に付加情報の提供を要求する。ステップS327において付加情報要求に応答して付加情報の返信があれば、映像処理装置210は、ステップS329において受信した付加情報を映像視聴用端末に送信する。
 映像視聴用端末は、ステップS331において、提供された付加情報をデコードされている映像に合成するように付加制御して提供する。なお、ステップS305においてデコードされた映像を表示画面から再生する場合には、ステップS331においては、再生される画面と共に合成された付加情報が再生されることになる。この場合、付加情報の再生している映像への合成の同期については、共通のタイムスタンプにより行なっても良いし、リアルタイムに映像処理装置210や映像視聴用端末で行なってもよい。かかる処理は本発明の主要部分ではないので詳細は省く。また、付加情報は映像に合成せず、画面内の付加情報表示用の領域に表示される動作であってもよい。さらに、付加情報は事前にダウンロードされて、一旦映像視聴用端末の記憶部に抽出元の映像コンテンツIDに対応付けて保持され、後で抽出元の映像コンテンツを再生する時に付加するように制御されてもよい。
 (映像処理システムの動作の具体例)
 図4は、本実施形態に係る映像処理システムの動作の具体例400を示す図である。図4は、録画の再生や提供される映像ライブラリの視聴、あるいはテレビ番組中の映像によって、過去の野球試合の1シーンを視聴中の例である。
 410は、現在視聴中の映像のシーンである。映像視聴用端末の1つであるテレビ受像機において、このシーンの一連のフレームのフレーム特徴量列が抽出されて、映像処理装置210に送信される。映像処理装置210において、この送信された一連のフレーム特徴量とフレーム特徴量DBとの照合から、元映像コンテンツのシーンや派生映像コンテンツのシーンを見つける。そして、そのシーンに付加されている付加情報が付加情報DBから検索される。本例では、元映像コンテンツは野球試合の実況コンテンツである。
 本例では、検索の結果として、現在視聴しているシーン410の元映像コンテンツ(実況コンテンツ)の該当シーンに付加された付加情報(実況音声)が見付かる。また、その試合中の派生映像コンテンツ(他局のニュース)で報道された該当シーンに付加された付加情報(ニュース音声)が見付かる。さらに、派生映像コンテンツ(別のスポーツニュースや番組)中に編集して挿入された付加情報(テロップ:文字)が見付かる。
 図4の420は、上記3つの付加情報が見付かり、そのいずれを付加するかを視聴者に問い合わせるメッセージ421(あるいはボタンを兼ねてもよい)が表示されている。視聴者は、いずれかを選択すればその付加情報が付加されたシーンを視聴できる。選択がなければ付加しないと判断する。
 図4の430は、「テロップ」が選択された場合の表示である。現在視聴している映像のシーンに本来は付加されていない付加情報であるテロップ431が付加される。一方、図4の440は、「ニュース音声」が選択された場合の表示である。現在視聴している映像のシーンに本来は付加されていない付加情報であるニュース音声442が付加されて、スピーカ441から出力される。
 《フレーム特徴量抽出部》
 図5Aは、本実施形態に係るフレーム特徴量抽出部261a~267aの構成を示すブロック図である。本実施形態で適用されるフレーム特徴量抽出部261a~267aは、MPEG7の標準化で採用されているビデオシグネチャを抽出する機能構成部である。
 図5Aにおいて、出力されるフレーム特徴量550は、撮影された映像の各フレーム画像中に多数のサイズの大小や形状の異なる領域対を設けて、この領域間の領域特徴量の一種である平均輝度値の差分を量子化(実際には3値に)し、符号化したものである。次元決定部510は、領域対の数を決定する。一次元が1領域対に相当する。抽出領域取得部520は、次元決定部510の決定にしたがって、フレーム特徴量を算出する各次元の領域対を取得する。領域特徴量算出部530は第1領域特徴量算出部531と第2領域特徴量算出部532とを有し、それぞれ各次元の領域対の一方の領域の領域特徴量の一種である平均輝度を算出する。領域特徴量差分符号化部540は、領域対のそれぞれの領域特徴量の一種である平均輝度の差分を取って、その差分を第3閾値にしたがって量子符号化してフレーム特徴量550を出力する。
 なお、本例では、以下、平均輝度により領域特徴量を代表させて説明するが、領域特徴量は領域の平均輝度には限定されない、輝度の他の処理や輝度以外のフレームの特徴量も適用できる。
 図5Bは、本実施形態に係るフレーム特徴量抽出部261a~267aにおける処理を示す図である。
 図5Bの520aは、図5Aの抽出領域取得部520が取得した領域対の数例を示している。520aにおいて、外枠がフレームを示しており、内部の各矩形が領域を示している。
 図5Bの530aは、フレーム画像内において、抽出領域取得部520からの領域対により抽出された領域とその領域間の差分を取る関係を表現したものである。フレーム画像内に領域対の2つの領域が抽出されて、それぞれの領域に含まれる画素の平均輝度が算出され、その差分が算出さる様子を各領域の中心を結ぶ矢印で示している。
 図5Bの540aは、算出された差分を量子符号化する様子を示したものである。540aでは、図5Aにおける第1領域特徴量から第2領域特徴量を差し引いた差分が、差分"0"(平均輝度が等しい場合に相当)を中心とする上記第3閾値である破線で示した差分内であれば、"0"を量子符号化の出力値とする。同じ差分が破線位置よりも大きな正(+)の値であれば、"+1"を量子符号化の出力値とする。同じ差分が破線位置よりも大きな負(-)の値であれば、"-1"を量子符号化の出力値とする。このように、“-1”、“0”、“+1”の3値に符号化するのは、次元ごとのデータ量を少なくして、できるだけ多次元の情報を生成することでフレーム特徴量の分離を容易にし、かつフレーム特徴量の比較の計算量を削減するためである。したがって、上記3値の例に限定する必要はない。なお、破線で示す第3閾値は、使用される全次元の差分値の分布から"0"と量子化する差分値の割合から選定される。一例としては、"0"と量子化する差分値の割合を50%にするような値を選定する。
 図5Bの550aは、差分の量子符号化の結果を集めて生成されたフレーム特徴量の例を示している。フレーム特徴量は、簡単な例としては、差分の量子符号化された値を一次元方向に次元順に並べたものである。なお、単純に差分の量子符号化された値を一次元方向に次元順に並べたものではなく、多次元方向に並べたものやさらに追加の演算を加えたものであってもよく、本例には限定されない、
 図5Cは、本実施形態に係るフレーム特徴量抽出部261a~267aにおける抽出領域を示す図である。
 図5Bの520aには、各次元の領域対は2つの矩形領域で示された。しかしながら、フレームを適切に表現するフレーム特徴量を算出するためには、矩形以外の形状が望ましい場合もある。図5Cに示す抽出領域は、2つの矩形領域ではない領域対を例示している。図5Bの540aで示したように各次元を3値化することで、実時間のフレーム特徴量の比較や、フレーム特徴量の集合である映像コンテンツのフレーム特徴量群の比較を実現する場合であっても、数百次元を設定することが可能である。
 《フレーム特徴量DB、シーンDB及び付加情報DBの構成及びその関連》
 図6は、本実施形態に係るフレーム特徴量DB214、シーンDB216及び付加情報DB218の構成及びその関連を示す図である。
 (フレーム特徴量DB)
 図6のフレーム特徴量DB214は、フレーム特徴量蓄積部であり、映像コンテンツ中の各フレームを特定するフレームID621にそれぞれ対応付けられて、上記図5A~図5Cにしたがって映像コンテンツから抽出されたフレーム特徴量622が順次に蓄積されている。なお、フレーム特徴量DB214に蓄積されるフレーム特徴量は、映像コンテンツやシーン単位に管理されるのが望ましい。
 (フレーム特徴量受信部及びフレーム特徴量照合部)
 映像視聴用端末から受信したフレーム特徴量は、フレーム特徴量受信部212に順次に記憶されてシフトされる。フレーム特徴量受信部212から一連の所定数のフレーム特徴量列が、フレーム特徴量照合部213を構成するフレーム特徴量バッファにセットされる。図6には、フレーム特徴量バッファに7つのフレーム特徴量が図示されているが、かかるフレーム特徴量バッファの長さは、照合の正確さと照合速度とのトレードオフの関係にあり、適切な長さが選択される。また、照合の正確さを基準に所定の長さのものを準備し、照合の正確さと照合速度との関連から使用する長さを計算して設定することも可能である。
 このフレーム特徴量バッファにセットされたフレーム特徴量列をフレーム特徴量DB214の一連のフレーム特徴量列とシフトしながら比較し、類似のフレーム特徴量列を検索する。かかる照合による類似か否かの判断は、比較結果(たとえば、距離計算や二乗平均など)が所定の閾値以内か否かにより成される。そして、類似のフレーム特徴量列が見付かると、そのフレーム特徴量列の開始フレームIDと終了フレームIDとを出力する。
 (シーンDB)
 図6のシーンDB216は、シーン蓄積部であり、シーンを特定するシーンID631にそれぞれ対応付けられて、開始フレームID632と終了フレームID633とが蓄積されている。なお、開始フレームID632と終了フレームID633とは、シーンID631が示すシーンの開始及び終了と一致していて良いし、シーンID631が示すシーン内の一部であってもよい。上述の図5Aから図5Cで示した本実施形態のフレーム特徴量の抽出方法によれば、少ない数の一連のフレーム特徴量列による照合によってもより多くのフレームを含むシーンを特定可能である。
 (付加情報DB)
 図6の付加情報DB218は、付加情報蓄積部であり、シーンDB216に基づいて見付けたシーンIDを持つ元シーンや派生シーン、それらを含む元映像コンテンツや派生映像コンテンツから、付加情報ID又は付加情報ID群を蓄積する。付加情報DB218には、各付加情報ID641に対応付けて付加情報642が蓄積される。図6の付加情報DB218には、図4の具体例において再生中の映像に付加されたプロ野球試合の付加情報642が蓄積されている。
 《映像処理装置のハードウェア構成》
 図7は、本実施形態に係る映像処理装置210のハードウェア構成を示すブロック図である。
 図7で、CPU710は演算制御用のプロセッサであり、プログラムを実行することで図2の各機能構成部を実現する。ROM720は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部730は、映像視聴用端末261~267あるいは各サーバ/テレビ局と通信する。なお、テレビ放送用電波と他の通信とはそれぞれの別個の複数の通信制御部で構成してもよい。通信は無線でも有線でもよい。しかしながら、テレビがデジタル地上波になれば共通の通信制御部での処理も可能である。
 RAM740は、CPU710が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM740には、本実施形態の実現に必要なデータを記憶する領域が確保されている。741は、映像視聴用端末から受信した受信フレーム特徴量である。なお、フレーム特徴量照合部213のフレーム特徴量列のバッファを兼ねている。742は、フレーム特徴量DB214から順に読出して受信したフレーム特徴量列と比較するための、比較対象フレーム特徴量である。743は、受信フレーム特徴量741と比較対象フレーム特徴量742とが合致しているか否かを判断するための合致判断用閾値である。744は、合致判断の結果を示す合致有無フラグである。745は、合致したフレーム特徴量列から得られたシーンIDである。746は、シーンIDに基づいて検出された付加情報を特定する付加情報IDである。747は、フレーム特徴量の比較から付加情報の検索までの間の処理結果を記憶する付加情報検索テーブルである(図8参照)。748は、映像視聴用端末に対して付加情報の付加の許諾あるいは付加情報の選択を問合せメッセージと、映像視聴用端末からの応答メッセージとである。749は、付加が許諾決定された送信用付加情報である。
 ストレージ750は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。214は、図6に示したフレーム特徴量DBである。216は、図6に示したシーンDBである。218は、図6に示した付加情報DBである。なお、図7には、映像コンテンツのDBは示していないが、コンテンツDBを持っていても良い。しかしながら、本実施形態の映像処理装置210にコンテンツDBは必須の構成要素ではない。ストレージ750には、以下のプログラムが格納される。754は、全体の処理を実行させる映像処理プログラムである。755は、上記各DBを準備するDB準備モジュールである(図9A参照)。756は、映像処理プログラム754において、フレーム特徴量列を照合する手順を示すフレーム特徴量照合モジュールである。757は、映像処理プログラム754において、関連する付加情報を検索する付加情報検索モジュールである。758は、映像処理プログラム754において、付加する付加情報を送信する付加情報送信モジュールである。映像処理装置210において映像コンテンツと付加情報との同期を取る処理をする場合は、付加情報送信モジュール758で行なうことになる。
 なお、図7には、本実施形態に必須なデータやプログラムのみが示されており、OSなどの汎用のデータやプログラムは図示されていない。
 (付加情報検索テーブルの構成)
 図8は、本実施形態に係る付加情報検索テーブル747の構成を示す図である。かかる付加情報検索テーブル747は、本実施形態の付加情報検索処理を補助するため、フレーム特徴量列の受信から付加情報の検索までの処理履歴を記憶するテーブルである。
 図8の付加情報検索テーブル747には、受信してフレーム特徴量DB214との照合の結果、合致するシーンが見付かったフレーム特徴量列801に対応付けて、以下の各データが記憶される。
 802は、フレーム特徴量DB214から読出されて、フレーム特徴量列801と合致した比較対象フレーム特徴量列である。比較差が所定の閾値内のものは合致したとして、元映像コンテンツあるいは派生映像コンテンツに加えられる。803は、合致した比較対象フレーム特徴量列802を有するフレームID列である。804は、フレームID列803から検索されるシーンIDである。ここで、シーンIDは同じ"199801121012"であり、元シーンと派生シーンとがアルファベットで示されている。805は、元シーンか派生シーンであるかを示している。806は、シーンID804のシーンを含む映像コンテンツのIDを示している。807は、各映像コンテンツ中でこのシーンに付加されている付加情報である。808は、付加情報807を特定する付加情報IDである。
 《映像処理装置の処理手順》
 次に、図7の構成を有する映像処理装置210が本実施形態の付加情報検索を実現する処理手順を説明する。
 (各DBの準備手順)
 図9Aは、本実施形態に係る映像処理装置による各DBの準備手順(図3のS300)を示すフローチャートである。このフローチャートは、図7のCPU710がRAM740を使用して実行する。
 まず、ステップS901において、映像コンテンツ提供サーバ220やテレビ局230などから送信された映像コンテンツのフレームごとにフレーム特徴量を抽出する。ステップS903において、フレーム順に一意のフレームIDを付し、フレームIDに対応してフレーム特徴量をフレーム特徴量DB214に登録する。次に、ステップS905において、付加情報が設定されているシーンの開始フレームと終了フレームとの組みにシーンIDを付して、シーンDB216に登録する。ステップS907において、シーンIDに対応して付加情報IDとその付加情報を設定し、付加情報DB218に登録する。ステップS909において、全映像コンテンツについての処理が終了したかが判定され、未処理の他の映像コンテンツがあればステップS901に戻って処理を繰り返す。
 (映像処理手順)
 図9Bは、本実施形態に係る映像処理装置による映像処理手順を示すフローチャートである。このフローチャートは、図7のCPU710がRAM740を使用して実行する。
 まず、ステップS911において、映像視聴用端末からフレーム特徴量うぃ受信する。ステップS913において、受信した所定数の一連のフレーム特徴量列を、フレーム特徴量DB214のフレーム特徴量列と比較する。ステップS915において、比較結果から一定条件(差異が所定閾値内かを含む)で合致するか否かを判定する。合致すればステップS917に進んで、合致したフレーム特徴量列を表わす、あるいは合致したフレーム特徴量列を含むシーンIDによって、付加情報DB218から付加情報を検索する。かかる付加情報の検索処理については、図9Cに基づいて詳細に説明する。
 合致しなければステップS919に進む。ステップS919においては、フレーム特徴量DB214に蓄積している全てのフレーム特徴量との比較による付加情報の検索が終了したかを判断する。なお、リアルタイムによる付加情報の検索を実現するため、蓄積しているフレーム特徴量のデータ量が多量であれば、映像コンテンツの種別などでグループ分けしてそのグループ単位の付加情報の検索であってもよい。あるいは、各グレープの処理に1つのCPUを割り当てて、並列処理を行なっても良い。あるいは、映像処理装置210を複数台設け、各装置を映像コンテンツの種別に特化させて、装置の選別や複数装置の並行処理を行なっても良い。
 フレーム特徴量DB214内の目的とする全てのフレーム特徴量列との比較が終了すると、ステップS919からS921に進む。ステップS921において、ステップS913からS919のループにより検索された付加情報があれば、フレーム特徴量の送信元の映像視聴用端末に対して、付加情報の付加の許諾と付加情報の選択を問い合わせる。ステップS923においては、問合せの応答として付加情報の付加が要求されたか否かを判定する。付加情報の付加が要求されればステップS925に進んで、付加情報を映像視聴用端末に対して送信する。付加情報の付加要求が無ければ付加情報の送信はせずに、処理を終了する。
 (付加情報の検索処理の手順)
 図9Cは、本実施形態に係る映像処理装置による付加情報の検索処理(S917)の手順を示すフローチャートである。このフローチャートは、図7のCPU710がRAM740を使用して実行する。
 ステップS931において、フレーム特徴量列が合致したシーンの開始フレームIDと終了フレームとを用いてシーンDB216を検索する。ステップS933において、対応するシーンIDがあるか否かを判定する。シーンIDがなければステップS937に進む。シーンIDが見付かればステップS935に進んで、取得したシーンIDを用いて、付加情報DB218から付加情報を読み出して、送信候補として一時保存する。ステップS937においては、シーンDB216を全て検索したかを判定し、まだであればステップS931に戻って、付加情報の検索を繰り返す。シーンDB216を全て検索したならばリターンする。
 《映像視聴用端末のハードウェア構成》
 図10は、本実施形態に係る映像視聴用端末261~267のハードウェア構成を示すブロック図である。なお、図10には、本実施形態の処理に関連する部分のみを示すので、各機器の用途にかかる部分は省略している。
 図10で、CPU1010は演算制御用のプロセッサであり、プログラムを実行することで図2の各機能構成部を実現する。ROM1020は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部1030は、ネットワーク250を介して映像処理装置210や各種サーバと通信する。通信は無線でも有線でもよい。なお、テレビ放送用電波の受信については図示しない制御部で行なわれる。しかし、デジタル地上波となれば、共通の通信制御部1030による通信も可能である。
 RAM1040は、CPU1010が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM1040には、本実施形態の実現に必要なデータを記憶する領域が確保されている。1041は、入力される映像を記憶する映像バッファである。1042は、各フレームのフレームデータである。1043は、フレーム上の第1領域を設定する第1領域座標と、その特徴量である第1特徴量である。1044は、フレーム上の第2領域を設定する第2領域座標と、その特徴量である第2特徴量である。1045は、第1領域特徴量と第2領域特徴量との差分から量子符号化して出力される、各次元の本例では3値の領域特徴量差分符号値である。1046は、領域特徴量差分符号値1045を次元の数だけ組み合わせたフレーム特徴量である。1047は、映像処理装置210で検索されて送信された付加情報である。1048は、付加情報1047を再生中の映像に付加した表示用のデータである。
 ストレージ1050は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。1051は、本実施形態で使用する全抽出領域対を記憶する抽出領域対DBである。1052は、図5A~図5Cに示したフレーム特徴量抽出用アルゴリズムである。1053は、映像コンテンツを蓄積する映像蓄積DBである。ストレージ1050には、以下のプログラムが格納される。1054は、全体の処理を実行させる映像処理プログラムである(図11参照)。1055は、映像処理プログラム1054が有する、フレーム特徴量抽出モジュールである。1056は映像処理プログラム1054が有する、映像コンテンツのシーンに付加情報を合成するための、あるいは映像コンテンツのシーンに付加情報を同期させるための付加情報合成モジュールである。
 入力インタフェース1060は、入力用の周辺機器とのインタフェースを行なう。入力インタフェース1060には、DVDドライブなどの映像入力部1062と、指示入力のためのキーボード1061とが接続される。出力インタフェース1070は、出力用の周辺機器とのインタフェースを行なう。出力インタフェース1070には、表示部1071が接続される。
 なお、図10には、本実施形態に必須なデータやプログラムのみが示されており、OSなどの汎用のデータやプログラムは図示されていない。
 《映像視聴用端末の処理手順》
 次に、図10の構成を有する映像視聴用端末の処理手順を説明する。なお、本実施形態の要旨は付加情報に関する処理であるので、その他の処理については説明を省略する。
 (付加情報処理手順)
 図11は、本実施形態に係る映像視聴用端末による付加情報処理手順を示すフローチャートである。このフローチャートは、図10のCPU1010がRAM1040を使用して実行する。
 まず、ステップS1101において、映像視聴用端末へ映像コンテンツを読み込む。ステップS1103において、映像コンテンツのフレームからフレーム特徴量を抽出する。ステップS1105において、ネットワーク250を介して抽出したフレーム特徴量を映像処理装置210に送信する。
 映像処理装置210からの返信を待って、返信が付加情報の付加の許諾の問合せであるかを判定する。問合せでなければ付加情報は見付からなかったと判断して、ステップS1117において、付加情報無しの映像コンテンツ再生を継続する。問合せであればステップS1109に進んで、視聴者が付加情報の付加を指示したかを判断する。付加情報の付加の指示でなければ、ステップS1117において、付加情報無しの映像コンテンツ再生を継続する。付加情報の付加の指示があれば、ステップS1111において、映像処理装置210からの付加情報の受信を待つ。付加情報の受信があればステップS1113に進んで、リアルタイム処理の場合には、映像コンテンツの再生と付加情報の出力とのタイミングを制御する。そして、ステップS1115において、映像視聴用端末の表示部1071に、映像コンテンツと付加情報とを合成して再生する。
 [第3実施形態]
 第2実施形態においては、図6に示すように、付加情報を検索するように、フレーム特徴量DB214と、シーンDB216と、付加情報DB218とを設けていた。しかしながら、シーン単位で付加情報を登録せずに、各フレーム単位で付加情報を登録しても、映像コンテンツに付加情報を付加することが可能である。本実施形態では、フレーム特徴量と付加情報とを関連付ける1つのDBを設けることにより第2実施形態と同様の付加情報の検索を行なう。本実施形態によれば、第2実施形態のように一旦シーンIDに変換することなしに、フレーム単位に付加情報を付加できるので、付加情報の検索処理の高速化や同期制御を簡単にできるようになる。
 なお、本実施形態の第2実施形態との相違は、DBの構造のみであり他の構成及び動作は同様であるので、同様な構成の説明は省略する。
 《フレーム特徴量/付加情報DBの構成》
 図12は、本実施形態に係る映像処理システムにおけるフレーム特徴量/付加情報DB1200の構成を示す図である。かかるフレーム特徴量/付加情報DB1200を、第2実施形態の3つのDBに置き換える。
 フレーム特徴量/付加情報DB1200は、フレーム特徴量/付加情報部であり、フレームID1201に対応付けられて、以下の情報が蓄積されている。1202は、フレームID1201で特定されるフレームのフレーム特徴量である。1203は、映像コンテンツのIDである。1204は、各フレームの付加されている付加情報である。図12では、派生映像コンテンツである映像コンテンツA1の各フレームIDに対応して、付加情報として音声の1つ1つが登録されている。
 かかる構成によるフレーム特徴量/付加情報DB1200を使用すれば、各フレームの再生に付加情報を対応付けて付加することが容易である。
 [第4実施形態]
 第2及び第3実施形態においては、付加情報を付加するか否かの許諾、あるいは付加情報の選択を、フレーム特徴量の送信元の映像視聴用端末に問い合わせていた。しかしながら、映像視聴用端末においては録画などの処理を行ないながら、映像視聴用端末とは離れた場所で付加情報の検索結果や問合せを確認したい場合がある。本実施形態においては、付加情報の検索結果や問合せを、映像視聴用端末ではなく携帯端末などの別の機器に送信する。本実施形態によれば、付加情報の検索結果や問合せを映像視聴用端末から分離したので、視聴者が映像視聴用端末に縛られることなく映像コンテンツへの付加情報の付加処理が可能となる。
 なお、本実施形態の第2実施形態との相違は、動作手順を示すシーケンスの一部であり他の構成及び動作は同様の変更により良いので、同様な構成の説明は省略する。
 《映像処理システムの動作手順》
 図13は、本実施形態に係る映像処理システムの動作手順1300を示すシーケンス図である。なお、図13において、図3と同様のシーケンス処理には、同じ参照番号を付与している。図13の図3との相違は、ステップS1317とS1319の処理である、他は同様であるのでその説明は図3の説明を援用する。
 ステップS1317においては、付加情報の付加の許諾あるいは付加情報の選択の問合せを、携帯端末に送信する。ステップS1319においては、携帯端末からの付加情報の付加の要求がユーザの指示により、映像処理装置210に返信される。
 [第5実施形態]
 第2乃至第4実施形態では、映像処理装置がフレーム特徴量の照合と付加情報の検索とを実行していた。しかしながら、映像処理装置は視聴者の登録・管理などを行ない、フレーム特徴量の照合と付加情報の検索とを映像コンテンツを保持する映像コンテンツ提供サーバやテレビ局に任せることで負荷を分散できる。本実施形態においては、フレーム特徴量の照合と付加情報の検索とを映像コンテンツを保持する映像コンテンツ提供部分で行なう。本実施形態によれば、映像処理の負荷を分散できる。
 なお、本実施形態は、第2実施形態の図2の機能構成部を配置する装置を変えただけで、映像処理システムの構成及び動作は同様なので、新たに追加された機能部分のみ説明し、同様の機能構成部については内部構成及び動作についての説明は省略する。
 《映像処理システムの構成》
 図14は、本実施形態に係る映像処理システム1400の構成を示すブロック図である。
 図14の映像処理装置1410は、映像視聴用端末から受信したフレーム特徴量を送信して付加情報を取得する、フレーム特徴量送信部/付加情報取得部1411を有する。フレーム特徴量の送信先及び付加情報の送信元は、映像コンテンツ提供サーバ1420、又はテレビ局1430である。
 図14のテレビ局は、図2では映像処理装置にあったフレーム特徴量受信部1431、フレーム特徴量照合部1432、シーン判別部1435、付加情報提供部1436、を有する。また、DB1434として、映像コンテンツを蓄積するコンテンツDB、シーンDB、付加情報DBを有する。さらに、本実施形態では、フレーム特徴量を蓄積するフレーム特徴量DBを持たないので、コンテンツDBから読出した映像コンテンツの各フレームからフレーム特徴量を抽出するフレーム特徴量抽出部1433も有する。なお、フレーム特徴量抽出部1433は、映像視聴用端末が有するフレーム特徴量抽出部と同様である。
 図14の映像コンテンツ提供サーバ1420は、基本的にDB1424を持ったテレビ局1430と同様の構成を有している。ここで、フレーム特徴量/付加情報制御部1421は、テレビ局のフレーム特徴量を照合して付加情報を検索する各部をまとめたものである。
 なお、第2実施形態と第5実施形態とは異なる、各装置への機能構成部の配置も可能であり、処理速度や記憶容量、あるいは通信の混雑などに悪影響がない限り、その配置に制限はない。
 [第6実施形態]
 第2乃至第5実施形態においては、付加情報に関するサービスの提供は映像処理装置の主導により実現され、視聴者の意向は付加情報の付加の許諾、あるいは付加情報の選択についても、映像処理装置からの問い合わせに対する受動的な応答であった。本実施形態では、視聴者が積極的に付加情報に関する映像処理装置の動作を設定可能となるユーザインタフェース(UI)を有する場合を示す。本実施形態によれば、ユーザの設定に従った付加情報に関するサービスの提供を受けることができる。なお、基本的な本実施形態の付加情報の検索は、第2乃至第5実施形態を利用できるので、ここでは説明は省略する。ここでは、本実施形態の追加機能を実現する構成を説明する。
 《付加情報に関する視聴者の設定情報を表わすテーブル》
 図15は、本実施形態に係る映像処理システムにおける付加情報に関する視聴者の設定情報を表わすテーブル1500を示す図である。かかる付加情報に関する視聴者の設定情報を表わすテーブルは、図2及び図14の映像処理システムのいずれの装置内に配置されてもよい。しかし、付加情報を提供する機能を有する装置内に配置するのが望ましい。
 図15のテーブル1500には、映像視聴用端末ID1501と視聴者ID1502とに対応付けて、視聴者が設定した問合せに関する情報1503が記憶される。1503は、問合せの宛先とその形式とを有する。また、映像視聴用端末ID1501と視聴者ID1502とに対応付けて、視聴者が設定した付加要求に関する情報1504が記憶される。1504は、付加要求の有無と付加情報の通知先とを有する。また、映像視聴用端末ID1501と視聴者ID1502とに対応付けて、視聴者が設定した付加形態に関する情報1505が記憶される。1505は、付加情報のメディアと付加情報の形式とを有する。また、映像視聴用端末ID1501と視聴者ID1502とに対応付けて、視聴者が設定した付加情報に関する情報に対応する、同じシーンを有する他の映像コンテンツの付加情報の有無1506が記憶される。また、映像視聴用端末ID1501と視聴者ID1502とに対応付けて、視聴者が設定した付加情報に関する情報に対応しないが、同じシーンを有する他の映像コンテンツの付加情報1507が記憶される。なお、設定内容は図15に制限されない。
 図15の例では、次の2つの設定例が示されている。1510の例は、映像視聴用端末IDが"0001"、視聴者IDが"AA"の視聴者による設定が登録されている。付加情報を付加するか、あるいは付加情報の選択は、その宛先が示すように映像視聴用端末に表示Aの形式で表示される。たとえば、映像視聴用端末がテレビであればテレビ画面に表示Aの形式で問合せが表示される。問合せに対する視聴者の回答が付加要求に設定されている。付加情報の付加が要求され、その付加先は映像視聴用端末、たとえば上記例ではテレビである。視聴者が求める付加形態は音声の付加情報であり、形式は問わない。その結果、音声による付加情報が他の映像コンテンツが有していたことが示されている。一方、1520の例は、映像視聴用端末IDが"0002"、視聴者IDが"BB"の視聴者による設定が登録されている。付加情報を付加するか、あるいは付加情報の選択は、その宛先が示すように(ID1011の)他の端末に音声Bの形式で表示される。たとえば、映像視聴用端末がテレビであり、他の端末が携帯電話である場合、携帯電話から音声Bの形式で問合せが発声される。問合せに対する視聴者の回答が付加要求に設定されている。付加情報の付加が要求され、その付加先は映像視聴用端末、たとえば上記例ではテレビである。視聴者が求める付加形態は表示の付加情報であり、形式はB3である。その結果、形式B3の表示による付加情報を持つ他の映像コンテンツが無いことが示されている。
 なお、図15の例では、視聴者が特定の付加情報を指定して検索する例は示されていないが、かかる対応も図15への簡単な変更により可能である。この場合には、視聴者が特定した付加情報を検索し、その有無と、無ければ他の付加情報について通知してもよい。また、ニコニコ動画の視聴者投稿コメントの挿入のように、任意のシーンのフレームに対して画面上の指定された位置に文字列を表示するような形態で付加情報を表示するような、特殊な端末制御があってもよい。
 [他の実施形態]
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。なお、以上の実施形態では、一連の複数のフレームからなるシーンの照合について説明したが、フレーム特徴量によっては1フレームの照合から映像コンテンツを特定することも可能であり、かかる技術も本発明に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は、2011年3月25日に出願された日本国特許出願 特願2011-067642号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (19)

  1.  映像コンテンツに付加すべき付加情報を出力する映像処理システムであって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出手段と、
     前記フレーム特徴量抽出手段が抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出手段と、
     前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出手段と、
     を備えることを特徴とする映像処理システム。
  2.  映像コンテンツから抽出したフレーム特徴量に対応付けて、前記映像コンテンツのシーンに付加されている付加情報を蓄積する蓄積手段をさらに備え、
     前記映像コンテンツ抽出手段は、前記フレーム特徴量抽出手段が抽出した前記任意の映像コンテンツのフレーム特徴量と前記蓄積手段に蓄積された映像コンテンツのフレーム特徴量とを比較して、前記映像コンテンツ群のシーンを抽出し、
     前記付加情報抽出手段は、前記蓄積手段から前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する、
     ことを特徴とする請求項1に記載の映像処理システム。
  3.  前記蓄積手段は、
      各映像コンテンツの各フレームに対応つけてフレーム特徴量を記憶するフレーム特徴量蓄積手段と、
      一連の複数のフレームを1つのシーンとして記憶するシーン蓄積手段と、
      各シーンに対応付けて付加情報を記憶する付加情報蓄積手段と、
     を含むことを特徴とする請求項2に記載の映像処理システム。
  4.  前記蓄積手段は、
      映像コンテンツから抽出したフレーム特徴量に対応付けて、前記映像コンテンツに付加されている付加情報を識別する識別子を蓄積する付加情報蓄積手段と、
      前記識別子に対応付けて前記映像コンテンツのシーンに付加されている付加情報を保持する保持手段と、
     を有することを特徴とする請求項2に記載の映像処理システム。
  5.  前記付加情報抽出手段により抽出された前記映像コンテンツ群に付加されている前記付加情報を通知する付加情報通知手段を、さらに備えることを特徴とする請求項1乃至4のいずれか1項に記載の映像処理システム。
  6.  前記付加情報を付加するか否かの指示と、前記付加情報が複数ある場合に付加すべき付加情報の選択とを問い合わせる問合せ手段と、
     前記指示と前記選択との応答に対応して、前記任意の映像コンテンツに対する前記付加情報の付加を制御する付加制御手段と、
     をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の映像処理システム。
  7.  前記任意の映像コンテンツを表示する表示手段を有する第1の機器と、
     前記通知手段又は前記問合手段を有する前記第1の機器と異なる第2の機器と、
     をさらに備えることを特徴とする請求項5又は6に記載の映像処理システム。
  8.  前記付加情報抽出手段による付加情報の抽出及び前記付加情報通知手段による付加情報の通知の実行、又は、前記問合手段による問合せの実行と、前記通知の形式又は前記問合せの形式との指示をユーザより受け付けるユーザインタフェース手段をさらに備えることを特徴とする請求項5乃至7のいずれか1項に記載の映像処理システム。
  9.  前記フレーム特徴量抽出手段は、各フレーム上に異なるサイズで設定された複数の領域対の各領域対に対して算出された領域特徴量の差分を領域対の数だけ組み合せて、フレーム特徴量とすることを特徴とする請求項1乃至8のいずれか1項に記載の映像処理システム。
  10.  前記領域特徴量は、輝度で表わされることを特徴とする請求項9に記載の映像処理システム。
  11.  前記付加情報は、映像、音声及び文字の少なくとも1つからなる情報を含むことを特徴とする請求項1乃至10のいずれか1項に記載の映像処理システム。
  12.  映像コンテンツに付加すべき付加情報を出力する映像処理方法であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
     前記フレーム特徴量抽出ステップにおいて抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出ステップと、
     前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出ステップと、
     を含むことを特徴とする映像処理方法。
  13.  映像コンテンツに付加すべき付加情報を出力する映像処理装置であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出手段と、
     前記フレーム特徴量抽出手段が抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出手段と、
     前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出手段と、
     前記付加情報抽出手段により抽出された前記映像コンテンツに付加されている前記付加情報を通知する付加情報通知手段
     を備えることを特徴とする映像処理装置。
  14.  映像コンテンツから抽出したフレーム特徴量に対応付けて、前記映像コンテンツのシーンに付加されている付加情報を蓄積する蓄積手段をさらに備え、
     前記映像コンテンツ抽出手段は、前記フレーム特徴量抽出手段が抽出した前記任意の映像コンテンツのフレーム特徴量と前記蓄積手段に蓄積された映像コンテンツのフレーム特徴量とを比較して、前記映像コンテンツ群のシーンを抽出し、
     前記付加情報抽出手段は、前記蓄積手段から前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する、
     ことを特徴とする請求項13に記載の映像処理装置。
  15.  映像コンテンツに付加すべき付加情報を出力する映像処理装置の制御方法であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
     前記フレーム特徴量抽出ステップにおいて抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツにある一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出ステップと、
     前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出ステップと、
     前記付加情報抽出ステップにおいて抽出された前記映像コンテンツ群に付加されている前記付加情報を通知する付加情報通知ステップ
     を含むことを特徴とする映像処理装置の制御方法。
  16.  映像コンテンツに付加すべき付加情報を出力する映像処理装置の制御プログラムを格納した記憶媒体であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
     前記フレーム特徴量抽出ステップにおいて抽出した前記任意の映像コンテンツのフレーム特徴量と他の映像コンテンツのフレーム特徴量とを比較して、前記任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群を抽出する映像コンテンツ抽出ステップと、
     前記抽出した映像コンテンツ群の前記シーンに付加されている付加情報を抽出する付加情報抽出ステップと、
     前記付加情報抽出ステップにおいて抽出された前記映像コンテンツ群に付加されている前記付加情報を通知する付加情報通知ステップ
     をコンピュータに実行させる制御プログラムを格納したことを特徴とする記憶媒体。
  17.  映像コンテンツに付加情報を付加して出力する映像処理装置であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出手段と、
     前記フレーム特徴量抽出手段が抽出したフレーム特徴量を送信するフレーム特徴量送信手段と、
     前記フレーム特徴量の送信先から返信された、前記任意の映像コンテンツの一連の複数のフレームからなるシーンのフレーム特徴量に基づいて抽出した前記任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群の、前記シーンに付加されている付加情報を受信する付加情報受信手段と、
     前記任意の映像コンテンツに前記付加情報を付加して再生する映像コンテンツ再生手段と、
     を備えることを特徴とする映像処理装置。
  18.  映像コンテンツに付加情報を付加して出力する映像処理装置の制御方法であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
     前記フレーム特徴量抽出ステップにおいて抽出したフレーム特徴量を送信するフレーム特徴量送信ステップと、
     前記フレーム特徴量の送信先から返信された、前記任意の映像コンテンツの一連の複数のフレームからなるシーンのフレーム特徴量に基づいて抽出した前記任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群の、前記シーンに付加されている付加情報を受信する付加情報受信ステップと、
     前記任意の映像コンテンツに前記付加情報を付加して再生する映像コンテンツ再生ステップと、
     を含むことを特徴とする映像処理装置の制御方法。
  19.  映像コンテンツに付加情報を付加して出力する映像処理装置の制御プログラムを格納した記憶媒体であって、
     任意の映像コンテンツに含まれるフレームが有するフレーム特徴量を抽出するフレーム特徴量抽出ステップと、
     前記フレーム特徴量抽出ステップにおいて抽出したフレーム特徴量を送信するフレーム特徴量送信ステップと、
     前記フレーム特徴量の送信先から返信された、前記任意の映像コンテンツの一連の複数のフレームからなるシーンのフレーム特徴量に基づいて抽出した前記任意の映像コンテンツに有る一連の複数のフレームからなるシーンを持つ映像コンテンツ群であって、前記シーンに改変が加えられていない元映像コンテンツと前記シーンに改変が加えられている派生映像コンテンツとを含む映像コンテンツ群の、前記シーンに付加されている付加情報を受信する付加情報受信ステップと、
     前記任意の映像コンテンツに前記付加情報を付加して再生する映像コンテンツ再生ステップと、
     をコンピュータに実行させる制御プログラムを格納したことを特徴とする記憶媒体。
PCT/JP2012/051924 2011-03-25 2012-01-30 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体 WO2012132530A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP12765830.0A EP2696578A4 (en) 2011-03-25 2012-01-30 VIDEO PROCESSING SYSTEM, VIDEO PROCESSING METHOD, VIDEO PROCESSING DEVICE, CONTROL PROCESS AND MEMORY FOR STORING A CONTROL PROGRAM
US14/007,245 US20140010521A1 (en) 2011-03-25 2012-01-30 Video processing system, video processing method, video processing apparatus, control method of the apparatus, and storage medium storing control program of the apparatus
JP2013507221A JP5569830B2 (ja) 2011-03-25 2012-01-30 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011067642 2011-03-25
JP2011-067642 2011-03-25

Publications (1)

Publication Number Publication Date
WO2012132530A1 true WO2012132530A1 (ja) 2012-10-04

Family

ID=46930297

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/051924 WO2012132530A1 (ja) 2011-03-25 2012-01-30 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体

Country Status (4)

Country Link
US (1) US20140010521A1 (ja)
EP (1) EP2696578A4 (ja)
JP (1) JP5569830B2 (ja)
WO (1) WO2012132530A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060568A (zh) * 2016-06-28 2016-10-26 电子科技大学 一种视频篡改检测及定位方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720457A4 (en) * 2011-06-13 2015-03-25 Nec Corp VIDEO PROCESSING SYSTEM, VIDEO PROCESSING METHOD, VIDEO PROCESSING DATABASE CREATING METHOD, VIDEO PROCESSING DATA BASE, VIDEO PROCESSING APPARATUS, AND CONTROL METHOD AND CONTROL PROGRAM THEREOF
US10291561B2 (en) 2015-02-09 2019-05-14 Nokia Technologies Oy Apparatus, a method and a computer program for image coding and decoding
CN115883818B (zh) * 2022-11-29 2023-09-19 北京优酷科技有限公司 视频帧数自动统计方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008166914A (ja) 2006-12-27 2008-07-17 Internatl Business Mach Corp <Ibm> コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
WO2010084714A1 (ja) 2009-01-23 2010-07-29 日本電気株式会社 画像識別子抽出装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536706B1 (en) * 1998-08-24 2009-05-19 Sharp Laboratories Of America, Inc. Information enhanced audio video encoding system
JP2000242795A (ja) * 1999-02-25 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 映像差分検出装置、映像差分検出方法およびこの方法を記録した記録媒体
EP1286541B1 (en) * 2000-04-14 2012-05-02 Nippon Telegraph And Telephone Corporation Method, system, and apparatus for acquiring information concerning broadcast information
US20060195858A1 (en) * 2004-04-15 2006-08-31 Yusuke Takahashi Video object recognition device and recognition method, video annotation giving device and giving method, and program
US20070124282A1 (en) * 2004-11-25 2007-05-31 Erland Wittkotter Video data directory
JP2007279813A (ja) * 2006-04-03 2007-10-25 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN101711392A (zh) * 2007-04-13 2010-05-19 艾法罗媒体有限责任公司 视频检测系统和方法
JP4916950B2 (ja) * 2007-05-14 2012-04-18 ヤフー株式会社 動画像比較装置、動画像比較方法、及び動画像比較プログラム
JP5127318B2 (ja) * 2007-06-25 2013-01-23 株式会社東芝 再生装置、記録再生装置、記録再生システム、およびタイトル情報管理方法
US8364020B2 (en) * 2007-09-28 2013-01-29 Motorola Mobility Llc Solution for capturing and presenting user-created textual annotations synchronously while playing a video recording
KR100993601B1 (ko) * 2008-09-16 2010-11-10 (주)위디랩 디지털 동영상 컨텐츠의 유사도 측정 방법, 이를 이용한 동영상 컨텐츠의 관리 방법 및 상기 관리 방법을 이용한 동영상 컨텐츠의 관리 시스템
US8587808B2 (en) * 2009-12-17 2013-11-19 Ricoh Company, Ltd Methods and apparatus to provide availability for networked scanning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008166914A (ja) 2006-12-27 2008-07-17 Internatl Business Mach Corp <Ibm> コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
WO2010084714A1 (ja) 2009-01-23 2010-07-29 日本電気株式会社 画像識別子抽出装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HIROYUKI TODA ET AL.: "A Content Guide System Utilizing High-Level Semantic Metadata and Low- Level Signal Metadata", PROCEEDINGS OF DBWEB, 3 December 2002 (2002-12-03), TOKYO JAPAN, pages 351 - 358, XP008171285 *
RYOJI KATAOKA ET AL.: "Similar Scene Detection Using MPEG Encoded Video Data", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 41, no. SIG 3, 15 May 2000 (2000-05-15), pages 37 - 45, XP008171100 *
See also references of EP2696578A4
YUICHIRO KATSUDA: "Eizo Shikibetsu Gijutsu", I/O, vol. 35, no. 7, 1 July 2010 (2010-07-01), pages 97 - 99, XP008171270 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060568A (zh) * 2016-06-28 2016-10-26 电子科技大学 一种视频篡改检测及定位方法
CN106060568B (zh) * 2016-06-28 2018-12-18 电子科技大学 一种视频篡改检测及定位方法

Also Published As

Publication number Publication date
EP2696578A1 (en) 2014-02-12
JPWO2012132530A1 (ja) 2014-07-24
EP2696578A4 (en) 2014-08-20
JP5569830B2 (ja) 2014-08-13
US20140010521A1 (en) 2014-01-09

Similar Documents

Publication Publication Date Title
JP6972260B2 (ja) メディアセグメント識別効率向上のために探索索引を区分するためのシステムおよび方法
WO2015162548A1 (en) An electronic system and method for marking highlights in a multimedia file and manipulating the multimedia file using the highlights
JP6903653B2 (ja) 共通メディアセグメントの検出
TWI376948B (en) Method, device and storage medium for frame specification
WO2015029393A1 (ja) 情報処理装置および情報処理方法
CN101883230A (zh) 一种数字电视演员检索方法及系统
JP2012129724A (ja) 映像配信装置及び映像配信方法
WO2012132530A1 (ja) 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体
CN103200441A (zh) 一种电视频道信息的获取方法、确认方法及装置
US20140115618A1 (en) Video processing system, advertisement acquisition method, video processing device, and method for controlling same
JP5880558B2 (ja) 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム
JP2013141050A (ja) コンテンツ推薦サーバ、コンテンツ表示端末、およびコンテンツ推薦システム
JP2014130536A (ja) 情報管理装置、サーバ及び制御方法
CN106412715A (zh) 一种信息检索方法、终端以及服务器
KR20140134126A (ko) 콘텐츠 생성 방법 및 그 장치
KR101930488B1 (ko) 연동형 서비스 제공을 위한 메타데이터 생성 방법 및 그를 위한 장치
KR20160067685A (ko) 비디오 장면 모아보기 제공 방법, 서버 및 시스템
JP2006139682A (ja) 映像検索システム、映像検索方法及びプログラム
US10148984B2 (en) Terminal device, server device, data management system, and recording medium on which program is recorded
US20150032718A1 (en) Method and system for searches in digital content
JP7336427B2 (ja) 画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置
JP6001293B2 (ja) コンテンツ録画再生システム及び方法
KR101409019B1 (ko) 콘텐츠 생성 방법 및 그 장치
KR20240026002A (ko) 실시간 콘텐츠 제공 서비스 시스템, 실시간 콘텐츠 제공 방법 및 이를 위한 컴퓨터 프로그램
CN114880494A (zh) 一种数据存储方法和相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12765830

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013507221

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14007245

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE