WO2011065236A1 - 2次コンテンツ提供システムおよび方法 - Google Patents

2次コンテンツ提供システムおよび方法 Download PDF

Info

Publication number
WO2011065236A1
WO2011065236A1 PCT/JP2010/070102 JP2010070102W WO2011065236A1 WO 2011065236 A1 WO2011065236 A1 WO 2011065236A1 JP 2010070102 W JP2010070102 W JP 2010070102W WO 2011065236 A1 WO2011065236 A1 WO 2011065236A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
metadata
content
secondary content
unit
Prior art date
Application number
PCT/JP2010/070102
Other languages
English (en)
French (fr)
Inventor
寛明 木村
由希子 土生
Original Assignee
Kddi株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kddi株式会社 filed Critical Kddi株式会社
Priority to US13/511,833 priority Critical patent/US20120274846A1/en
Publication of WO2011065236A1 publication Critical patent/WO2011065236A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00132Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture in a digital photofinishing system, i.e. a system where digital photographic images undergo typical photofinishing processing, e.g. printing ordering
    • H04N1/00185Image output
    • H04N1/00196Creation of a photo-montage, e.g. photoalbum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00132Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture in a digital photofinishing system, i.e. a system where digital photographic images undergo typical photofinishing processing, e.g. printing ordering
    • H04N1/00185Image output
    • H04N1/00198Creation of a soft photo presentation, e.g. digital slide-show
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document

Definitions

  • the present invention relates to a secondary content providing system and method, and more particularly, to automatically create secondary content such as a digital album using primary content obtained by automatically adding metadata to each image captured and stored by a user.
  • the present invention relates to a system and method in which a user can perform feedback correction on secondary content.
  • Patent Document 1 In order to easily create a digital album that can organize and view these images using a group of image data with metadata added in advance, it can be used for various scenarios such as athletic meet and wedding, Prepare a set of templates for creating digital albums. Each template has a keyword with a priority. By matching the image data metadata and the keyword of each template, the image data is attached to a template having a keyword with a high priority. In particular, image data groups that have not been classified and arranged are pasted on templates according to their contents and arranged as digital albums.
  • Metadata for deciding images to be inserted into music, effects, and material frames to be used in accordance with various themes in order to create video data with effects such as music and effects added to image materials with metadata added in advance Prepare a template file that defines, and create a video using this template file.
  • Patent Document 3 In order to create an album composed of image data suitable for a desired story using image data stored without any particular classification by the user, the creation date and time, location, Image data is searched and classified using information such as a person included in the image data determined from the sound, and an album is created.
  • Patent Document 4 In order to automatically create an album from a video obtained from a surveillance camera, etc. with little editing effort, the person captured in the moving image is discriminated, and the video taken by the person identified from the acquired video is extracted. Create albums by connecting them in order.
  • An object of the present invention is to provide a secondary content providing system and method capable of solving the above-described problems, automatically creating and distributing secondary content such as a digital album with a low user burden and high user satisfaction. There is.
  • the present invention provides a video standard conversion unit that converts a video content including a still image uploaded via a network into a predetermined video standard, and the video standard conversion unit converts the video content.
  • a classification / detection category assigning unit that automatically assigns a hail classification / detection category to a video segment, a metadata creation unit that creates metadata including the classification / detection category, and a video file of the video segment as the metadata
  • a primary content storage unit that stores the primary content in association with the metadata, and the video file associated with the metadata is selected from the primary content storage unit based on the metadata and is subjected to predetermined editing 2
  • a secondary content creation unit for automatically creating a secondary content, and the secondary content and the secondary content A transmission unit that transmits correction candidate information; and a feedback processing unit that receives and processes correction feedback information related to the secondary content, wherein the feedback processing unit determines the classification / It is characterized in that an update process is requested to at least one of the detection category assigning unit and the metadata creating unit.
  • the present invention also relates to a video standard conversion unit that converts video content uploaded via a network into a predetermined video standard, and a video content converted by the video standard conversion unit.
  • a video dividing unit that divides content into a plurality of video segments, a classification / detection category adding unit that automatically assigns classification / detection categories to the video segments divided by the division unit, and the classification / detection
  • a metadata creation unit that creates metadata including a category, a primary content storage unit that stores a video file of the video section as primary content in association with the metadata, and the metadata based on the metadata The associated video file is selected from the primary content storage unit and the secondary content with a predetermined edit is automatically added.
  • a secondary content creation unit a transmission unit that transmits the secondary content and correction candidate information related to the secondary content, and a feedback processing unit that receives and processes correction feedback information related to the secondary content
  • the feedback processing unit is characterized in that an update processing request is made to at least one of the video dividing unit, the classification / detection category adding unit, and the metadata creating unit according to the content of the correction feedback information.
  • primary content in which the system automatically adds metadata to video captured and uploaded by the user is created, and secondary content that is worth viewing is added to the material by performing predetermined editing. Since it is created / distributed, the user can enjoy watching the secondary content, and can send feedback information to the system even if the user wants to modify the secondary content.
  • the feedback information is used for update processing such as a function for assigning metadata to the primary content
  • the performance of these functions can be improved by learning.
  • the video feature amount database has distinction between general and individual, it is possible to properly use a database suitable for giving metadata.
  • the secondary content of the story based on who the face is in the video is created using the video provided and accumulated by the user, the user enjoys secondary content with high viewing value. be able to.
  • the user can enjoy secondary content with high viewing value. .
  • the user can receive the correction candidate video list of the location where the secondary content is to be corrected, the user can easily correct the video by simply selecting from the list.
  • the correction information by the user improves performance such as a metadata providing function as feedback information.
  • video selection is performed using the same story template, primary content before correction is difficult to select and primary content after correction is easily selected. Learning can be updated to meet user requirements.
  • the user can change the metadata of the story template, the user can also enjoy secondary content arranged from the viewed secondary content.
  • FIG. 1 is a block diagram illustrating an example of a network environment in which the present invention is implemented. It is a block diagram which shows the structure of the principal part of this invention. It is a block diagram which shows the structure in the case of utilizing mail delivery in 1st embodiment of this invention. It is a block diagram which shows the structure in the case of utilizing VoD delivery in 2nd embodiment of this invention. It is a conceptual diagram which shows that the feature-value database is provided with the separate database for every user in addition to a general database.
  • 5 is a flowchart for explaining processing from a video section dividing unit to a metadata creating unit in FIGS. 3 and 4.
  • FIG. 7 is a diagram showing an example in which classification / detection categories and fitness values obtained in FIG.
  • FIG. 16A and FIG. 16B It is a figure which shows the example of a story template which produces the secondary content shown to FIG. 16A and FIG. 16B. It is a figure which shows the derivative scene of the scene 3 of FIG. 16B partially. It is a flowchart which shows the flow which performs the update process of the primary content creation function using the correction information by the user, and secondary content correction / recreation processing. It is a conceptual diagram which shows the example of the scene before and behind correction when a user corrects the video file used for the system automatic creation scene through the process of FIG.
  • FIG. 19 is a conceptual diagram illustrating an example in which a scene-related metadata suitability is updated in video files before and after correction exchange in FIG. 18.
  • FIG. 19 is a conceptual diagram illustrating an example in which a scene-related metadata suitability is updated in video files before and after correction exchange in FIG. 18.
  • FIG. 18 is a conceptual diagram illustrating an example of mail sent to the user side in the case of mail handling in the process of FIG. 17 and a reply mail thereof. It is a flowchart which shows the flow of the feedback process in embodiment different from the flow of FIG. It is a block diagram which shows the structure of the principal part of this invention in embodiment which limits an image input to a still image.
  • FIG. 1 shows an example of a network environment in which the present invention is implemented. First, FIG. 1 will be described.
  • the imaging device 1 is composed of a video camera, a digital camera, etc., and the video content of a user or the like captured by the imaging device 1 is management / recognition of the user ID, password, etc. in the video recognition / secondary content creation platform 4 of the user.
  • the network 3 including the Internet via the terminal device 2 such as a PC or directly by WiFi, WiMax or the like.
  • the video content sent to the network 3 is input from the video input unit 4a to the video recognition / secondary content creation platform 4 (secondary content providing system 4) which is a server.
  • the configuration of the video recognition / secondary content creation platform 4 will be described in detail later.
  • the video content received from the video input unit 4a is divided into video sections.
  • a function for creating and assigning metadata including classification / detection information to create primary contents, a dictionary function that is referred to in creating and assigning the metadata, and a metadata associated with the video section and the video section A function for creating secondary content, a function for generating a user ID and password to associate with the primary content and the secondary content, a function for responding to feedback information such as a content correction request by the user, and the like have.
  • the imaging device 1 may use a camera or the like included in the mobile device 2.
  • a mobile terminal such as a mobile phone or a smartphone
  • a means for inputting video to the platform 4 it may be input via another system site such as a blog page or SNS (social networking service).
  • the user inputs an image in advance to another system site existing on the network 3 using the imaging device 1 or the terminal device 2 as described above. Then, the user logs in to another system site where his / her video is stored, permits video output to the platform 4, and inputs the video to the platform 4.
  • the video recognition / secondary content creation platform 4 creates secondary content at a predetermined time or when a user request is received by a schedule management function described later.
  • the secondary content uses a predetermined story template that includes an array of metadata corresponding to stories, scenes, etc., and sequentially selects and incorporates the primary content as a constituent material using the degree of matching of the metadata. Automatically created and provided to each user from the video / modification list output unit 4c.
  • the provision of secondary content to the user is provided by the network 3 by various methods such as use of mail or a VoD infrastructure network.
  • a user views the secondary content with a viewing device 5 such as a portable terminal, a PC, or a VoD viewing device.
  • a correction request can be transmitted as feedback information to the video recognition / secondary content creation platform 4 using the device 5.
  • the video recognition / secondary content creation platform 4 receives the correction request at the feedback information / secondary content designation information input unit 4b, uses the information of the correction request to update the primary content creation function, and The secondary content according to the correction request is created again.
  • the user can also select a desired secondary content including the regenerated secondary content at a desired time and transmit a viewing request in the same manner as in the well-known VoD viewing mode.
  • the viewing device 5 may be a digital photo frame.
  • the digital photo frame may only have a function of receiving secondary content and allowing the user to view it.
  • the secondary content request transmission function and the feedback transmission function of the viewing device 5 may be handled by a mobile terminal or the like instead of the digital photo frame.
  • the video recognition / secondary content creation platform 4 mainly determines whether video content uploaded together with authentication information such as a user ID and a password from a user's imaging device / terminal device via a network is a still image or a moving image.
  • a still image / moving image determination unit 10 a video standard conversion unit 11 that converts video content into a predetermined video standard, and a plurality of video content converted by the video standard conversion unit 11 with a related content as one video section.
  • a video dividing unit 12 that divides the video section, a classification / detection category adding unit 13 that automatically assigns a classification / detection category to the video section divided by the video division unit 12, and metadata including the classification / detection category
  • a metadata creation unit 14 for creating the video content and the video section file of the video content in association with the metadata.
  • a primary content storage unit 15 that stores the content as content
  • a secondary content creation / storage unit 16 that automatically creates secondary content using the primary content, and a modification request received by the secondary content and the user
  • a transmission unit 17 that sends the correction candidate list as correction candidate information to the user
  • a reception unit 18 that receives correction feedback information and viewing request information from the user
  • a feedback processing unit that processes the received correction feedback information 19.
  • the video standard conversion unit 11 is connected to the video dividing unit 12, while when it is determined to be a still image, the video dividing unit 12 is skipped.
  • the video section or the section video divided by the video dividing unit 12 is regarded as including a case of a still image skipped by the video dividing unit 12 in addition to the case of a moving image, and the classification / detection category adding unit 13 You may consider that it receives subsequent processing.
  • the video section and the section video have the same contents, but the term of the video section is mainly used in the stage before dividing into the sections, and after dividing into the sections (even in the case of still images that do not require division processing).
  • the term of section video is mainly used in the stage of (including).
  • the feedback processing unit 19 Upon receiving the correction request as feedback information, the feedback processing unit 19 authenticates the transmission source user with a user ID or the like, and then obtains a list of primary contents made up of correction candidates at the correction request location, that is, correction candidate information.
  • the secondary content creation / storing unit 16 makes the reply to the user, and the user transmits a specific instruction of the correction content by selecting the optimum candidate.
  • the feedback processing unit 19 receives a specific instruction of the correction content as correction feedback information from the user in this way, the secondary content creation / storing unit 16 re-creates the secondary content reflecting the correction content, and the secondary content is created. Send the content to users so that they can view and check the content.
  • the feedback processing unit 19 requests the video dividing unit 12, the classification / detection category adding unit 13, and the metadata creating unit 14 to perform update processing based on the correction content.
  • the configuration and operation corresponding to the stage until a section video as a unit for creating primary contents is prepared are as follows.
  • the video recognition / secondary content creation platform 4 is a video input unit 21 to which video content sent together with user authentication information via the network 3 is input, for example, DV format video or still image.
  • a video standard conversion unit 22 that converts the JPEG video into MPEG2 or uncompressed video
  • a video segment dividing unit 23 that divides the converted video into segment videos such as scenes and shots in which a series of related contents continues.
  • the video input unit 21 receives video content and determines whether it is a still image or a moving image, and connects the video standard conversion unit 22 to the video segment dividing unit 23 based on the determination signal. It controls whether to skip the unit 23 and connect to the video feature amount extraction unit 24. In the case of a still image, since it is not necessary to divide into segment videos, the video segment dividing unit 23 is skipped and the still image becomes a segment video as it is.
  • the video segment dividing unit 23 corresponds to the video dividing unit 12.
  • the video recognition / secondary content creation platform 4 has a video feature quantity extraction unit 24 that extracts a feature quantity from the divided section video, a video feature quantity and video classification / detection information (hereinafter referred to as a classification / detection category).
  • the classification / detection category also includes correspondence data (to be described later including fitness and fitness values), and a feature database (or feature database) 25 having a dictionary function for video classification / detection, and the video.
  • the feature amount comparison processing unit 26 that compares the video feature amount extracted by the feature amount extraction unit 24 with the dictionary data of the feature amount database 25, and the image feature amount acquired by the comparison processing in the feature amount comparison processing unit 26 Includes applicable classification / detection category, the degree of conformity of the classification / detection category to the video feature, and the ID of the user who uploaded the video
  • the metadata creating unit 27 for creating metadata, having the metadata and the said association with the image file of the divided sectional images primary content database 30 to store and accumulate as the primary content corresponding to the metadata.
  • the classification / detection category assigning unit 13 corresponds to the video feature amount extracting unit 24, the feature amount database 25, and the feature amount comparison processing unit 26.
  • the feature database 25 may be a knowledge base using a neural network or the like, and may be provided with classification / detection categories and learnable by feedback from a user.
  • the feature quantity database 25 has individual databases (or individual DBs) 25b1 to 25bn for each user in addition to the general database (or general DB) 25a as shown in FIG.
  • recognition data specialized for individual users for example, face recognition data of a user's family and a name are linked and stored, and each user is identified using user authentication information.
  • the individual database is referred to and used.
  • the general database 25a stores general image feature data such as baby, hi-hi, walking, water play, birthday, nursery school, athletic meet, amusement park, etc., and is common to all users.
  • the event recognition data is referred to and used.
  • the feature database 25 is processed by using the feature database 25 in the same manner as the feature database 25 is used for each user by using user authentication information in addition to the common use for all users.
  • the primary content database 30 and the secondary content storage unit 34 in which the content is stored and stored, the content distinguished for each user is stored, and in other processing, the user is necessary if not specified. Differentiated processing is performed.
  • the present invention will be described based on the embodiment in which the general database in the feature amount database 25 and the database of each user as described above are distinguished and the user is also distinguished in other processes.
  • Only a general database may be used without providing a personal database.
  • data corresponding to personal use is stored in a general database and applied to various processes.
  • the various processes do not use parameters specialized for each user, and the processes common to all users are performed.
  • the video recognition / secondary content creation platform 4 will be described in detail later in the metadata of the primary content and the story template database 32 in accordance with an instruction from the schedule management unit 35 or feedback information from the user / secondary content designation information.
  • a comparison is made with the metadata information of the story template, and the appropriate 1 as the secondary content material or secondary content correction candidate from the primary content database 30 from the ranking of the degree of fitness obtained by the comparison processing.
  • a metadata comparison / selection unit 31 that automatically selects the next content and sends the selection result to the secondary content creation unit 33, and sequentially arranges the selected primary content in the frame provided by the story template according to the story template Have
  • Secondary contents such as a slide show and an album for PC are created, and correction confirmation information for confirming whether the secondary content has a portion where the user requests feedback correction, and the secondary content of the secondary content in response to the feedback correction request.
  • Secondary content creation unit 33 for creating correction candidate information for user delivery, secondary content storage unit 34 for saving the created secondary content, creation of secondary content or correction candidate information for secondary content, etc. It has a story template database 32 for storing various story templates prepared in advance for creation.
  • the configuration and operation for automatically managing the schedule of matters such as creation of primary content, creation of secondary content, sending of secondary content to the user, and various communications are as follows.
  • the video recognition / secondary content creation platform 4 also includes a schedule management unit 35.
  • the schedule management unit 35 gives an instruction to the metadata comparison / selection unit 31 as a secondary content creation management function at a first predetermined time, so that the story template is selected from the primary contents of the primary content database 30.
  • Primary content suitable for a predetermined story template in the database 32 is selected, the secondary content creation unit 33 creates secondary content based on the primary content, and the secondary content storage unit 34 stores the secondary content.
  • the secondary content created and stored as a secondary content user transmission management function at a predetermined time is read from the secondary content storage unit 34 and sent to the mail transmission unit 37, and the secondary content is transmitted by the mail transmission unit 37. Attached to e-mails, etc. and if the creation of secondary content is not appropriate There has functions such as to transmit along with a like reply possible modifications locations instruction list when it is determined.
  • the configuration as an interface unit for viewing and correcting secondary content with the user and the flow of the correction feedback process performed through the configuration are as follows.
  • the feedback from the user is used for the correction from the alternative video list of the correction part sent back from the system as the second stage, and the transmission of the correction request information that tells the system the secondary content to be corrected as the first stage. It consists of sending correction decision information that determines and conveys the video.
  • the video recognition / secondary content creation platform 4 further corresponds to the video / correction list output unit 4c in FIG. 1 and sends a mail to the mobile terminal or PC where the user views the secondary content and the correction candidate list.
  • the received mail analysis unit 41 When the received mail analysis unit 41 receives correction request information that indicates a portion of the secondary content to be corrected as first-stage feedback information from the user, the received mail analysis unit 41 transmits information on the correction target portion to the metadata comparison / selection unit 31.
  • the metadata comparison / selection unit 31 reads the frame to be corrected in the story template, and receives the correction request from the comparison of the degree of matching between the metadata specified in the frame and the metadata of the primary content.
  • Primary content candidates that can be exchanged for the content are selected and sent to the secondary content creation unit 33 as correction candidate information.
  • the secondary content creation unit 33 that has received the primary content candidate to be exchanged processes it as a list or modified secondary content corresponding part as it is and sends it to the mail transmission unit 37.
  • the user receives a correction candidate list by mail.
  • the received mail analysis unit 41 again transmits the correction determination information to the metadata comparison / selection unit 31.
  • the metadata comparison / selection unit 31 sends to the feedback processing unit 45 primary content information before and after correction, and metadata application information of a frame of secondary content in which the primary content is used as a material.
  • the feedback processing unit 45 has, as a learning function, the video segment dividing unit 23, the feature amount database 25, and the metadata creation so as to increase the tendency to obtain the corrected result from the beginning using the sent information. Request update processing to the unit 27.
  • the update processing as a learning function is applied to the feature amount database 25
  • the database of the feature amount database 25 is corrected, and update correction processing is performed by distinguishing between the general database and the individual database.
  • the metadata comparison / selection unit 31 sends the feedback information to the feedback processing unit 45 as described above so as to perform the update process, and also supplies the secondary content after the correction reflection to the user again. 33, the secondary content storage unit 34 and the mail transmission unit 37 are requested to perform processing reflecting the correction.
  • the user may give a command to that effect.
  • the flow when a secondary content viewing request or a secondary content creation request with a desired condition is received from the user is as follows.
  • the video recognition / secondary content creation platform 4 also receives the secondary content designation information transmitted from the user in the received mail analysis unit 41.
  • the secondary content designation information is, for example, designation information of the story template stored in the story template database 32, or designation / limitation / change of metadata used in the designated story template in addition to the designation information of the story template.
  • the received mail analysis unit 41 sends the secondary content designation information to the metadata comparison / selection unit 31, it follows the instruction of the secondary content designation information and then the secondary of the schedule management unit 35.
  • secondary content according to the secondary content designation information is created and transmitted to the user.
  • the secondary content designation information when the secondary content designation information is transmitted, the secondary content is created and transmitted according to the secondary content designation information at a predetermined time determined by the schedule management unit 35, instead of the secondary content designation information. You may go immediately after sending. In this case, the user can prepare and transmit the requested secondary content immediately after transmitting the secondary content request without waiting for the secondary content creation / transmission by the secondary content creation / transmission management function.
  • the schedule management unit 35 gives an instruction to the metadata comparison / selection unit 31 at a predetermined time as a secondary content creation management function similar to the case of mail delivery, and the metadata comparison / selection unit 31 stores the story template database 32.
  • the story template is read, the material of the primary content database 30 is selected from the metadata conformity level, the secondary content is created in the secondary content creation unit 33 using the selection result, and saved in the secondary content storage unit 34
  • the schedule management unit 35 does not have a secondary content user transmission management function, and as described below, secondary content creation for the user in the flow of processing related to the secondary content creation management function Only completion notification is made.
  • the VoD transmission unit 36 is instructed, and unlike the case of the mail distribution, the content body is not sent and the content completion notification mail is sent. Only to the VoD viewing device that the user views.
  • the user receives the content completion notification mail and then logs in to the site, for example, and issues a VoD viewing request to the VoD receiving unit 40, so that the VoD receiving unit 40 receives the secondary content specified in the secondary content storage unit 34 by the user.
  • the user views the content.
  • FIG. 4 the flow and processing of feedback information when there is a correction request for the secondary content viewed by the user, and the flow and processing of the secondary content designation information when the user desires are delivered by mail. It is almost the same as time.
  • the video recognition / secondary content creation platform 4 when mail transmission or VoD distribution is used for the sending unit 17 and the feedback processing unit 19, that is, in the case of FIG. Even in this case, the description of the operation of each part of the present invention will be continued as being applicable in common.
  • the VoD distribution as shown in FIG. 4 is not limited to a distribution form in which a request and viewing are performed by the STB using a dedicated STB (set top box), but a general PC terminal.
  • a distribution form in which a VoD distribution website is accessed and a request or viewing is performed using a mobile terminal or a portable terminal is also included. That is, according to these various usage modes, the VoD viewing device of FIG. 4 may be a VoD viewing-only device or a general terminal capable of web access such as a PC terminal or a mobile terminal. Shall.
  • the processing in the video segmentation unit 23 basically processes a segment video segmentation screen (or cut screen or cut screen) when the amount of video change between frames of video content is equal to or greater than a predetermined threshold in time.
  • the scene change screen is output to the video feature quantity extraction unit 24.
  • the video section dividing unit 23 is, for example, the IEICE Autumn Meeting, D-264 (1993) “Video Cut Point Detection Using Filters”, IEICE Autumn Meeting, D-501 (1994). "Cut detection from compressed moving image data by inter-frame luminance difference and color difference correlation", Japanese Patent Application Laid-Open No. 07-059108, Japanese Patent Application Laid-Open No. 09-083864, etc.
  • the video section dividing unit 23 can perform update processing by correcting the threshold value based on feedback information from the user. Note that a “frame” referred to as a screen for dividing a video in the video section dividing unit 23 is different from a “frame” in a story template described later.
  • the primary content is created by adding metadata to the section video.
  • the video feature quantity extraction unit 24 extracts feature quantities from the section video (quantitative portions of the video features), for example, the area, perimeter, circularity, and center of gravity of an object such as a moving object. And / or color features, facial features such as facial part recognition and position information, and the like are extracted.
  • the feature amount is preferably extracted not only from the moving object but also from a stationary object or an object of a background image.
  • the feature amount can be extracted using the method described on pages 60 to 62 of “Basics and Applications of Revised Digital Image Processing” issued by CQ Publishing Co., Ltd. on March 15, 2007.
  • the feature quantity comparison processing unit 26 compares the feature quantity with information in the general database 25a of the feature quantity database 25 (for example, pattern recognition), and performs various classification / detection categories and their suitability, and the classification. -If there is a part in the video recognized by the detection category, obtain its coordinates.
  • the numerical value of the fitness can be a value from 0 to 1 by normalization.
  • the degree of conformity may be calculated numerically, and the value may be set to 1 or 0 depending on whether or not a predetermined threshold is exceeded, or determination such as “conformity” or “nonconformity” may be assigned.
  • FIG. 7 shows an example of listing the classification / detection category acquired in step S2, the fitness value, the coordinates of the parts in the video, and the like.
  • specific values such as fitness values and coordinates are not shown, and only correspondence with classification / detection category items is shown.
  • examples of classification / detection category items include “eating”, “sleeping”, “walking”, “park”, “theme park”, and the like. Is obtained in step S2 as described above.
  • Some classification / detection category items have relevance / hierarchy. For example, for the classification / detection category “face”, the “affiliation face group” indicating who the face is, the face partial structure such as “eyes”, “nose”, “mouth”, etc.
  • classification / detection categories such as “smile”, “crying face”, “surprise”, etc.
  • the classification / detection category item for clarifying what is specifically shown in the video as shown in FIG. 7 may be particularly called the video classification / detection item.
  • the degree of matching of the classification / detection category for example, in the case of “face”, the characteristics of each classification / detection category and its secondary, such as using the numerical value of the matching degree when pattern recognition is performed in comparison with the feature amount database 25. It is only necessary to calculate the fitness value according to the usage method in the content. For classification / detection categories that express facial expressions such as “smile”, other items such as facial expression values are prepared as fitness values. You can also As the classification / detection category items are related to each other, the degree of matching can be calculated using the relatedness. In addition, as described above, the fitness and the fitness value for each classification / detection category item may be included in the classification / detection category.
  • the classification / detection category is “face”
  • the coordinate information of the area where the part “face” is detected can also be acquired in step S2.
  • values such as eye position coordinates and line-of-sight angles can be acquired for the part “eye”.
  • the coordinate information of these parts and the line-of-sight angle may be regarded as being included in the classification / detection category.
  • step S3 the feature quantity comparison processing unit 26 compares the feature quantities with information in the individual databases 25b1 to 25bn of the feature quantity database 25 (for example, pattern recognition), and performs various classification / detection categories and their suitability, If there are parts in the video recognized by the classification / detection category, the coordinates thereof are acquired.
  • the process of step S3 is different from the process of step S2 in that the feature quantity comparison is performed using a personal database instead of the general database of the feature quantity database 25, and the classification / detection category and its matching degree are compared with the individual database.
  • a fitness calculation method reflecting personal preference may be provided.
  • the use of the individual database is performed using authentication information such as a user ID, and the comparison process is performed only with the information of the individual database of the user who uploaded the video. (For example, when the user ID is x, only the information of the corresponding individual database 25bx among the individual databases 25b1 to 25bn is compared.)
  • step S4 the classification / recognition result of the general database in step S2 is compared with the classification / recognition result of the individual database in step S3, and the result of the individual database is selected with priority.
  • FIG. 8 shows a conceptual diagram of the process in step S4.
  • the classification / detection category and the fitness value as shown in (b) are obtained.
  • (c) is the result that has priority over the result in the general database compared with the individual database, and “Daiki-kun” is the fitness for the face that was not recognized as “not applicable” in the general database.
  • step S4 the face of the individual named “Daikikun”, which is not recognized in the general database because there is no corresponding data, is recognized in the individual database, and the name can be read out as one item of the classification / detection category. It is necessary to register at least one scene, preferably several scenes, in the video section in which the classification / detection categories “Daiki-kun” and “Daiki-kun” are photographed in advance in the individual database.
  • FIG. 9 shows a conceptual diagram of the case of using a PC. The registration can be performed using the user authentication information from the imaging device 1, the terminal device 2, or the viewing device 5, and arbitrary classification / detection categories can be registered in addition to the face information. By such initial registration of individual classification / detection categories, the individual database-specific classification / detection categories and their feature data for video recognition are stored in association with each other.
  • the metadata creation unit 27 creates metadata corresponding to the section video.
  • the metadata includes user ID, section video file information including the video content information before and after the division (imaging date and time, content playback time, file ID before and after the division and division location / division order, etc.), time information of the section video, step S3 , The classification / detection category acquired in S4, each item of the classification / detection category, the fitness of each item, the coordinate information of the related parts, and the like.
  • step S6 it is determined whether or not classification has been performed for all the segment videos. If the determination is negative, the process proceeds to step S7, and the next segment video is sent to the video feature amount extraction unit 24. . Then, the processes of steps S1 to S5 are repeated. When the processing for all the section videos is completed and an affirmative determination is made in step S6, the metadata corresponding to each section video is associated with each section video in step S8 as primary contents in the primary content database 30. save.
  • FIG. 10 shows a conceptual diagram of the primary content created from the section video through the steps of FIG. 6 as described above.
  • the detection category, the degree of adaptation thereof, and the shooting date and time are associated with the original input segment video as a part of the metadata and are primary content.
  • step S3 and step S4 in FIG. 6 are omitted, and it is clear that step S2 is followed by step S5.
  • predetermined editing was performed using the primary content as a material by the metadata comparison / selection unit 31, the story template database 32, the secondary content creation unit 33, the secondary content storage unit 34, the schedule management unit 35, and the like. Details of the operation of creating and saving the secondary content and the delivery of the secondary content to the user after saving will be described.
  • the start of secondary content creation may be in accordance with an instruction from the schedule management unit 35, or may be instructed to specify a work or the like from a user.
  • the start of secondary content creation may be in accordance with an instruction from the schedule management unit 35, or may be instructed to specify a work or the like from a user.
  • step S21 the schedule management unit 35 instructs the metadata comparison / selection unit 31 to generate secondary content at a predetermined time.
  • the predetermined time is set, for example, when a new story template is added to the story template database 32, or when a predetermined number or more of primary content is added to the primary content storage unit 30 by video content upload by the user.
  • Each user can have an individual schedule, a common schedule for all users, or an individual and common combination schedule.
  • step S 22 the metadata comparison / selection unit 31 reads a predetermined story template from the story template database 32 in response to an instruction from the schedule management unit 35.
  • the story template to be read follows the designation from the schedule management unit 35 as in step S21. Details of the story template will be described later with reference to FIG.
  • step S23 if a face group, that is, a section video person associated with the metadata, of the metadata of the primary content stored / accumulated in the primary content database 30 is shown for each user, that person
  • the maximum group face in each user that is, the face group with the largest number stored as the primary content is determined by referring to the metadata indicating who the person is.
  • a plurality of face groups are assigned as metadata to each primary content.
  • the face group of the primary content is the one with the highest fitness numerical value of the metadata. It will be used as.
  • the step S23 is assumed to create secondary content in which the main character of the face group is the protagonist, as will be described later with specific examples.
  • step S23 uses a plurality of top face groups, a face group corresponding to the user's family, or a face group corresponding to the user's friend. There may be cases. Further, if there is no instruction in the story template, processing without using a face group may be performed.
  • step S24 referring to the ordered frames constituting the story template as described later, the primary content having the most suitable metadata for specifying the metadata described in the frame is selected, and the primary content is selected.
  • An included section video that is, a video file is selected as a material to be applied to the frame portion of the secondary content.
  • step S25 it is determined whether the process has been performed up to the last frame. If the determination is negative, the process returns to step S24 to process the next frame. If all frames constituting the secondary content are processed in step S24, and if a positive determination is made in step S25, the process proceeds to step S26.
  • each video file selected in step S24 is combined with a template image of the corresponding frame, that is, a video is generated by combining each video file with audio information such as decoration video, effect function, narration, and the like.
  • a plurality of the synthesized videos are combined in accordance with the instructions of the story template, thereby creating secondary contents such as a slide show and an album for PC, and storing them in the secondary contents storage unit 34.
  • step S271 the secondary content distribution form is selected, and in the case of mail correspondence, the process proceeds to step S281, and when an instruction is received at a predetermined time designated by the schedule management unit 35, the process proceeds to step S282 and the mail is attached by mail.
  • Secondary content is transmitted to each user in a format such as, and a correction / confirmation message of the secondary content is also transmitted by mail after the mail transmission or simultaneously.
  • step S271 the process proceeds to step S291 to notify each user that secondary content creation has been completed by e-mail, and when the user receives the notification, the process proceeds to step S292 and enters the VoD viewing site.
  • the secondary content is viewed by logging in or the like.
  • the metadata comparison / selection unit 31 performs the primary content selection process (1) above at a predetermined timing in advance, without the instruction of the schedule management unit 35, and lists the selection results and the like. Save as.
  • the processing corresponding to the above (2) is performed based on the selection result in the list created in advance.
  • FIG. 11A shows a flow in which the metadata comparison / selection unit 31 performs the primary content selection process in advance.
  • the predetermined timing of step S210 for starting the flow may be every time a video is uploaded by the user, every predetermined interval set by the metadata comparison / selection unit 31 itself, or the like. Further, the predetermined timing in step S210 may be when there is a change, addition, deletion or the like of the story template.
  • the subsequent steps S220, S230, S240, and S250 are the same as steps S22, S23, S24, and S25 of FIG. 11, respectively, but the processing target is a new primary content selection process from the story template. It is limited only to the part which became.
  • step S210 For example, if a new story template is created and processing is started in step S210, the entire new story template is processed, but only a part of the existing story template is changed in step S210. When the process is started, the process is performed only on the changed part. In step S210, if the video is uploaded by the user and the process is started, only the story template that may use the primary content of the video is processed.
  • step S251 the selection result, that is, the best match primary content selection result that is actually used for the secondary content, and the selection candidates including information on the primary content of a predetermined number of second and lower ranks are stored as a list. Keep it.
  • FIG. 11B shows a flow in which secondary content is created and provided according to a schedule instruction from the schedule management unit 35 based on a list that is created in advance and updated whenever necessary.
  • the schedule management unit 35 instructs the creation of secondary content at a predetermined timing.
  • the secondary content creation unit 33 performs video composition by referring to the list created in advance by the metadata comparison / selection unit 31 according to the flow of FIG. 11A. Since secondary content creation / provision after step S27 is the same as the step with the same number in FIG. 11, the description thereof is omitted. *
  • step S211 an instruction to create an arrangement work by changing the metadata specification method to the user's preference using an existing story template from an individual user, or in particular, viewing without specifying the arrangement of metadata as secondary content
  • an arrangement work creation instruction the user can watch secondary content created with a story template that uses “smile” and “best shot” as the main metadata used to create the work, and exists in the existing story template
  • the user wants to view secondary content created using a story template in which the metadata designation “smile” is changed to “surprise” in the story template.
  • step S212 the specified existing story template is read from the story template database 32.
  • step S213 it is determined whether or not the user has instructed the arrangement of the secondary content work by changing, adding, or deleting the designated metadata. If there is an arrangement instruction, the process proceeds to step S214, and each frame is added to the existing story template loaded. When the user instruction is reflected in the metadata designation method and there is no arrangement instruction, step S214 is skipped and the existing story template is used as it is.
  • step S215 as described above, it is described in each frame of the story template in which the metadata designation method has been changed by the arrangement creation creation instruction or the story template itself that has been instructed to be used without changing the metadata designation method. Confirm the specified metadata specification method.
  • the subsequent step S24 and subsequent steps are the same as in FIG. 11 (except for the case where the user selects a video manually described below), and the description thereof will be omitted.
  • step S24 is automatically processed by the metadata comparison / selection unit 31 or the like
  • a method in which the user manually selects a video in step S24 is also possible.
  • the metadata designation confirmed in step S215 is processed by the metadata comparison / selection unit 31 and the like, and the allowable range of the metadata suitability is expanded by the process as in step S321 in FIG.
  • the user can manually select a desired video from the video candidates, and can directly perform the primary processing without narrowing down the use of metadata compatibility by the system.
  • a video may be selected from the content.
  • the steps after step S26 after the manual selection of the video for all the frames and the affirmative determination in step S25 are the same as those in FIG.
  • the general structure of a story template is as follows. First, as an item for recognizing the story template itself, a story template ID, a story template file, that is, a primary content selection command file for creating secondary content, and 2
  • the system automatically creates a storage path for material files such as narration and background images inserted as production information and data for creating the next content, images added to the primary content and text, the total number of frames used, and secondary content. Or an item of automatic / manual that describes whether it is done manually by the arrangement designation by the user.
  • a frame item describing conditions for selecting the primary content to be used as a component in the secondary content, designation of the production of the selected primary content, and an arrangement location in the scene, that is, an arrangement frame, is provided. Includes multiple.
  • the effect method that is, the effect on the arrangement frame and the arrangement will be described later with reference to FIGS. 16A and 16B.
  • One or more frames can be used to construct one scene in the secondary content, and the created secondary content consists of one or more related scenes.
  • the production method and the arrangement location may be common or related between the frames.
  • each frame item “Face Group” indicating who is shown as a person, “Frequency”, “Position”, “Gaze”, “Direction”, “Facial Expression”, “Scene 1”, “Scene 2”, “Scene 3” indicating what is reflected in the background, “Still Image / Movie / Both” And the like, and these items include items common to the metadata assigned to the primary content.
  • the “content” column is a column used to specify how to select and refer to the metadata items when actually selecting the primary content
  • the “remarks” column is a secondary content creation. This is a column used for making a note on the street template creation side about how to use metadata items in the case of.
  • the “face group” with the maximum number of primary contents can be designated as in step S23 in FIG. If there is a “face group” designation, the designation can be followed.
  • a predetermined condition for both the “direction” and “expression” items and the predetermined condition is the item having the highest degree of conformity in the primary content metadata for each item. It can be a condition such as selection.
  • a specified condition can be set for one or more items in this way, and the specified condition can be a combination of specified conditions for multiple items with a logical expression such as “and”, “or”, Other conditions can be left unspecified.
  • Metadata that matches keywords used in scripts for creating stories and scenarios in story templates for example, expressions related to emotional expressions, facial expressions, and scene depictions if the theme is facial material
  • a deeply related item may be called a tag in distinction from metadata that only vaguely represents a video feature amount.
  • a plurality of related conditions can be specified as metadata specification conditions within one frame, but a story template is a story content using primary content video data sequentially selected according to continuing frames as a material. Since it is a template for creating a certain secondary content, there is usually a relevance even between metadata designation conditions between successive frames.
  • FIG. 16C shows an example of a main part of a story template having the same format as that of FIG. 13 used to select a video and create a story called Momotaro's demon eradication story.
  • the scene 1 shown in FIG. 16A is created by the instruction of frame 1 shown in (a-2). From the primary content database 30 (a), by searching for the one with a large fitness value of the metadata designation “Face Group Max”, “Up Level Great”, “Face Expression No Expression” shown in (a-2) The primary content having the video file F1 shown in -3) is selected.
  • the effect designation in frame 1 shown in (a-2) that is, the effect on the arrangement frame, “detect the forehead area and insert the bee-maki image P1” and “flow narration sound”
  • scene 1 shown in (a-1) is created by specifying the placement of the video file F1 on the entire scene screen (not shown), that is, the placement frame.
  • the scene 2 shown in FIG. 16A is created by an instruction of two frames 21 and 22 shown in (b-2).
  • Frames 21 and 22 indicate primary contents having video files F21 and F22 shown in (b-3) from metadata designations related to “face group”, “up degree”, and “expression” shown in (b-2), respectively. Let them be elected. Then, by designating the use of both the frame 21 and the frame 22 shown in (b-2), the character L21 of “Okoku naare” is inserted into the selected image of the frame 21, and the character L22 of “Sustain” is inserted into the selected image of the frame 22.
  • the scene 2 shown in (b-1) is created by following the downward designation.
  • the image size may be appropriately enlarged / reduced, and the designation of enlargement / reduction may be included in the effect designation of the frames 21, 22. it can.
  • select “up degree medium” or “up degree low” select the primary content.
  • the video files F21 and F22 used in the scene 2 can be detected by detecting a face area in the video file of the primary content and cutting and extracting only the neighboring area including the face area.
  • the scene 3 shown in FIG. 16B is created by an instruction of two frames of the frame 31 and the frame 32 shown in (c-2).
  • Frames 31 and 32 indicate primary contents having video files F31 and F32 shown in (c-3), respectively, from metadata designations related to “face group”, “up degree”, and “expression” shown in (c-2). Let them be elected. Then, by the effect designation using both the frame 31 and the frame 32 shown in (c-2), the image P31 of “the character bullying the demon” is selected in the selected image of the frame 31, and “the demon is scared” in the selected image of the frame 32.
  • an angry image such as F321 is selected instead of the image F32 shown in FIG. 16 (c-1), and the image corresponding to FIG. 16 (c-1) F33 is directed rightward.
  • An image F331 angry at the line of sight is selected, and an image P32 is arranged between them.
  • the scene 4 shown in FIG. 16B is created by the instruction of the frame 4 shown in (d-2).
  • the primary content having the video file F4 shown in (d-3) is selected from the metadata designation regarding the “face group”, “up degree”, and “expression” shown in (d-2).
  • the effect shown in (d-2) the character L4 of “Banzai!” Is inserted in the video file F4 or placed in the vicinity, and the narration voice “I was pleased with everyone” is added, and (d-2)
  • the scene 4 shown in (d-1) is created by following the arrangement designation in the scene screen of the video file F4.
  • the metadata specification mainly describes “face group”, “up degree”, and “expression” as examples, but it is also possible to prepare a story template with more detailed specification.
  • 16A and 16B in addition to the face group, that is, the video selection based on who the face is, for example, pets such as cars, vehicles, buildings, dogs and cats, animals, plants, scenery, mountains,
  • a story template suitable for each imaging target can also be obtained by selecting images that have been captured many times by users who have interests, interests, attachments, etc. If prepared, secondary content having a high viewing value for the user can be automatically created.
  • the portion or feature corresponding to each imaging target is detected, such as the eyes, nose, mouth, and facial expressions that are features of the face. It will be used in story templates as metadata items.
  • the highest conformance value of the metadata item is used for selecting the primary content, but the distribution of the suitability value of each metadata item in the primary content database 30 is compared and selected as metadata. If the processing for grasping in the section 31 and selecting the primary content at the top of the distribution at random is described in the story template, the secondary content created by the same primary content population as the same template Even for content, it is possible for the user to make the content enjoyable to be viewed every time it is created. In addition, when applying the process of randomly selecting the primary content of the higher distribution, the primary content is used redundantly in the same secondary content and between the same stories created multiple times using the same template. It is also possible to perform processing so as to avoid the occurrence of the content, and to make sure that the primary content of the upper distribution is used for the secondary content.
  • secondary content without a very clear story structure can be created.
  • secondary content without a very clear story structure.
  • the primary content higher in the fitness value is randomly selected or selected according to the order, and as a production effect, a predetermined number of smile images selected are displayed in order in each scene as a slide show.
  • a story template consisting of designations such as reducing an image in one scene and arranging a plurality of images at the same time to make it like an album, and adding BGM that is somewhat related to “smile”.
  • the template can easily receive an arrangement instruction according to a user request, and can generate secondary content worth viewing after the arrangement.
  • the arrangement instruction it is only necessary to change the items of “face group” and “expression”, and if necessary, BGM designation or the like can be additionally specified in the story template.
  • addition of a metadata item in addition to the arrangement by changing the “face group” and “expression” items of the metadata item as described above, addition of a metadata item, for example, addition of “front of line of sight” Can also be arranged, and conversely, an arrangement can be made to delete a metadata item and select a video from a wider range of primary content.
  • the above secondary content creation and arrangement can be performed regardless of whether the section video of the primary content used is a moving image or a still image. If the moving image / still image is not specified by the metadata in the frame of the story template, generally, secondary content in which both the moving image / still image selected by the other metadata specification in the frame is mixed is created. If specified by the metadata of the frame, it is possible to create secondary contents only for moving images or only still images, and it is also possible to create secondary contents with the designation of moving images and still images for each frame or scene. When the viewing value of the secondary content can be increased by specifying the moving image / still image, it is preferably specified in the story template. In addition, when the user uploads video content from the imaging device / terminal device, it is possible to use only one of a moving image and a still image depending on the user's intention or system operation setting.
  • FIG. 17 describes the case where the mail delivery is used in relation to the secondary content delivery and the case where the VoD is used. The difference between the two is only the portion related to the user interface.
  • step S300 secondary content is created at a predetermined time in accordance with an instruction from the schedule management unit 35, and the process proceeds to step S301, where the distribution / viewing mode of the secondary content is divided into mail correspondence or VoD correspondence.
  • the process proceeds to step S302, and secondary content is transmitted to the user by e-mail.
  • step S303 an e-mail prompting confirmation / correction of the transmitted secondary content is performed as correction confirmation information to the user.
  • Steps S302 and S303 may be performed simultaneously by including both secondary contents and a confirmation / correction message in one mail transmission.
  • step S304 it is determined whether there is a correction content.
  • step S320 If there is no correction content, the process ends. If there is a correction content, the process proceeds to step S320. If VoD is supported in step S301, the process proceeds to step S310, the user views secondary content by logging in to the VoD site or the like, and the process proceeds to step S311. If there is no correction request, the process ends. If there is a correction request, the process proceeds to step S320. As described above, in step S301, the processing is divided into mail correspondence and VoD correspondence. If there is a correction content, the processing is merged in step S320. Note that the secondary content creation by the schedule management function in step S300 may be creation by the embodiment described in FIG. 11 as described above, or creation by the embodiment described by FIGS. 11A and 11B. May be.
  • step S320 the story template that received the correction request is read, and the contents of the correction target frame, that is, the metadata designation and the primary content selected by the designation are grasped, and the process proceeds to step S321.
  • the primary content to be corrected is searched by expanding the selection range based on the data suitability, etc., and the candidate video to be corrected is selected, and the process proceeds to step S322.
  • step S322 the distribution / viewing form of the secondary content is divided again according to whether it is mail-compatible or VoD-compatible. If mail is compatible, the process proceeds to step S323, where correction candidate videos are converted into thumbnails as necessary and corrected.
  • the candidate list / correction candidate information is attached to an e-mail and transmitted to the user.
  • step S324 the user issues a correction instruction by e-mail reply.
  • step S325 the e-mail reply content is analyzed, and the process proceeds to step S326.
  • steps S321 to S325 are embodiments in which the user selects the correction candidate video provided by the system attached to the mail, but as another embodiment, the user himself / herself directly selects the video he / she owns, For example, the possessed video may be used by replying with an e-mail attachment in step S325.
  • step S329 the user confirms the correction candidate information as a correction candidate information by using a list or the like in which the correction candidate video is directly displayed on the VoD site or the like where the secondary content was viewed.
  • the video used in is exchanged with the video desired by the user, and the process proceeds to step S326.
  • step S329 may be displayed on a site such as the user's My Page.
  • the user uploads an image held by the user via the site as the desired video. You may make it utilize.
  • the correction candidate video including the specified metadata item of each frame as a heading is sent as a list. Allows users to specify correction candidates by e-mail reply or VoD site using numbers, etc., and corrects video that applies video specification to the misselected video file before correction in the relevant secondary content frame part before correction If it is arranged in the candidate list, it is preferable for the user to easily view the corrected video.
  • step S326 it is confirmed whether or not the correction is a user's personal preference with respect to the correction information obtained through either mail correspondence or VoD correspondence processing.
  • step S327 the video used by applying the correction to the target frame is actually corrected.
  • step S328 it is determined whether there is any correction content of the next frame. If there is still a frame to be corrected, correction processing is performed on the next correction target frame, so that the process returns to step S321 and the same processing is repeated.
  • step S330 all video files before and after replacement are handled in the form of primary contents.
  • the relevance value of the metadata item referred to by the frame instruction in the story template is changed in the process of selecting the video file as the primary content. For example, processing is performed such that the fitness value of the corresponding metadata item in the video file before the exchange is reduced by 20%, and the fitness value of the corresponding metadata item in the video file after the exchange is increased by 50% as specified by the user. If the fitness value is a standardized value between 0 and 1, increase by 50 in the above process and set it to 1 if it exceeds 1, or reduce the difference between the fitness value and 1 by 50% May be performed.
  • step S330 the process proceeds to step S331, and personal preferences such as correction related to an individual user, that is, face group individually registered by the user, and facial expression determination in a video file corresponding to the face group.
  • personal preferences such as correction related to an individual user, that is, face group individually registered by the user, and facial expression determination in a video file corresponding to the face group.
  • the correction such as the above is authenticated by the user ID or the like, it is fed back to the individual database of the feature amount database 25.
  • the metadata items to be feedback-processed to the individual database particularly those items with a large number of feedbacks, are highly important for the user, the information is left in the individual database, and feedback to the metadata creation unit 27 is performed.
  • weighting reflecting the importance for the user unlike other metadata items, the value may be uniformly increased by 10%
  • step S333 secondary content is created again in accordance with the primary content video file designation information for all the corrected frames, and the process proceeds to step S334 to determine whether the mail is compatible or VoD. If the mail is compatible, the process proceeds to S335 for correction. A mail is sent to the secondary content user, and a re-confirmation / re-correction mail is subsequently sent again to see if the correction is appropriate. If VoD is supported in step S334, the process proceeds to step S336, and the user views the modified secondary content on the VoD site.
  • the processing described above with reference to FIG. 17 is mainly feedback processing for the feature amount database 25 and the metadata creation unit 27.
  • feedback processing to the video section dividing unit 23 is also possible.
  • the correction request is determined by the user that the video file used in the secondary content is appropriate in the first half but not in the second half. There may be cases where In this case, the primary content is created again for each divided video file by designating the division location.
  • step S326 for confirming whether the correction is a personal preference and the feedback process to the individual DB are performed.
  • Step S331 is omitted.
  • all feedback processing is performed on the general DB in step S332.
  • FIG. 18 shows an example in which the user corrects the video file used in the scene automatically created by the system by the correction and feedback processing described with reference to FIG. 17 as described above.
  • the scene shown in FIG. 18 selects a video file using metadata items such as “expression smile” in the story template, and displays images of characters “Banzai!” And “Oni ga mitta” that have a large effect on smiles.
  • a scene created in addition to the effect designation described in the frame is assumed.
  • the scene automatically selected / created by the system is shown in FIG. 5A, and the video file F11 is selected.
  • the user views the scene, determines that the video file F11 being used is not suitable considering the story, and selects the video file F12 in response to a request for correction.
  • the scene shown in FIG. 5B is obtained as a result of the correction.
  • the system receives as feedback information information indicating that the video whose facial expression smile should be increased is F12 rather than F11, and performs feedback processing.
  • FIG. 19 shows metadata designation items for selecting the selected video file.
  • FIG. 19A shows metadata designation items for selecting a video file for creating the scene of FIG.
  • FIG. 5B shows changes in the video F11 selected by the system according to the metadata designation item and its metadata suitability before and after the video exchange, and the suitability is uniformly reduced in the corresponding item.
  • FIG. 19A shows metadata designation items for selecting a video file for creating the scene of FIG.
  • FIG. 5B shows changes in the video F11 selected by the system according to the metadata designation item and its metadata suitability before and after the video exchange, and the suitability is uniformly reduced in the corresponding item.
  • FIGS. 5C shows the change in the video file F12 selected by the user as an object to be exchanged and its metadata suitability before and after the video exchange, and the suitability is uniformly increased in the corresponding items. Also, comparing the suitability before and after the exchange in FIGS. 5B and 5C, the system selects F11 before the video exchange, but no other primary content with a higher fitness is newly added after the video exchange. As long as F12 is selected instead of F11, it is understood that feedback learning processing reflecting the user's request is performed.
  • FIGS. 20 (a) to 20 (d) examples of mail sent to the user side in the case of mail correspondence and the reply mail are shown in FIGS. 20 (a) to 20 (d).
  • FIG. 5A shows an example of a mail text for confirming the presence of a correction portion sent together with the secondary content or after a predetermined time after the secondary content is completed.
  • FIG. 6B shows an example of the user's reply mail text to (a).
  • the correction part refers to each of the frames 1 to 6, but since the metadata items “expressionless” to “smile” are written together, the user refers to the frame constituting the secondary content. Even if there is no concept, it is easy to determine which video in which scene “Frame 1: Expressionless” indicates from the story and scenario of secondary content. What is necessary is just to add the information which clarifies which image of which scene.
  • FIG. 20C shows an example of a mail text in which the system returns the correction candidate list of frame 2 among the correction requests of frames 2 and 5 by the user reply shown in FIG.
  • the correction candidate video list is images 1 to 3, which are indicated by thumbnail images, for example, and also has a question column for personal preference or not.
  • the reply to this is (d) in the figure, and the user only needs to designate the number “2” to adopt the image 2 and also designate the number “1” to indicate that the personal preference is changed. Good.
  • the system receives the correction information and corrects the personal database.
  • FIG. 20 shows an example of an alternative replacement instruction for video, but in the same manner, feedback processing of a segment video subdivision point can be exchanged between the user and the system by e-mail text.
  • the user can instruct the video section desired to be re-divided by a symbol such as a number as in FIG.
  • VoD it is possible to instruct a division location by stopping reproduction at a desired division location while actually reproducing the segment video.
  • FIG. 21 shows a flowchart of feedback processing according to this embodiment.
  • the user uploads a video to the system, and provides part or all of the video metadata to the system side.
  • the upload corresponds to the general video input to the video input unit 4a to the platform 4 as described in FIG. 1, and includes user-assigned metadata as an additional input other than the video.
  • the type of the input video for example, a general video input for the user to use the service is assumed instead of the video necessary for registering each user's face information as described in FIG.
  • the system side provisionally creates primary content from the user's uploaded video.
  • provisional primary content (primary content in which the video is associated with metadata automatically assigned by the system) is created in the primary content DB 30.
  • step S3300 processing corresponding to step S330 in FIG. 17 is performed. That is, as information corresponding to the feedback information in FIG. 17, information for changing the metadata automatically given by the system in step S3000 to the metadata given by the user at the time of video registration is passed to the feedback processing unit 45. Subsequent steps S331 and S332 are the same as described in FIG.
  • the fitness value of the item is set as a predetermined value close to 1 as feedback information. Further, in step S332, the processing contents with high importance are made to correspond.
  • the secondary content generation is not accompanied, the same feedback effect as in FIG. 17 can be obtained. That is, the accuracy is improved by the feature amount DB 25 performing learning by feedback of the change to the value given to the user by the metadata, and even if the user does not give the metadata at the time of registration in the future, the highly accurate metadata Can be granted.
  • FIG. 22 is a block diagram showing the configuration of this embodiment.
  • the video recognition / secondary content creation platform 4 has a configuration in which the video standard conversion unit 11, the still image moving image determination unit 10, and the video division unit 12 are excluded from the configuration of FIG.
  • a still image of a predetermined standard is input from the imaging device / terminal device.
  • the still image is regarded as a video section in each of the above embodiments, and the processing after the classification category adding unit 13 is the same.
  • the feedback processing unit 19 requests the feedback.
  • each functional block can be realized in the same manner as in the description of the embodiment of FIG.
  • the imaging device 1 may use a camera or the like included in the portable device 2.
  • the viewing device 5 may be a digital photo frame.
  • a still image composed of each frame of the moving image may be used as a video input.
  • a still image of 30 frames / second 30 still images are generated every second of the moving image and used as video input.
  • the embodiment shown in FIG. 22 may be realized by using still images in units of frames. In the embodiment of FIG. 2, the video input may be limited to such still images in units of frames.
  • the user simply transmits a moving image or a still image shot by himself / herself to the secondary content creation platform via the net, and the system automatically adds the user ID, classification / detection category, and Since metadata including the degree of fitness is added and stored and stored as primary content, the user is not burdened with inputting metadata indicating the content of the captured video.
  • the system receives a request for a predetermined time or a user's request, a slide show or digital narration added with illustrations and narration along the story using a story template prepared in advance and the primary content accumulated for each user.
  • Secondary content such as albums with high viewing value is automatically created and distributed via email or VoD (video on demand), so users can enjoy viewing various secondary content simply by saving the captured video. become.
  • the system uses the correction information from the user to correct and update the dictionary function for adding metadata to the primary content and learns it, thereby improving the accuracy of the function for adding metadata to the primary content.
  • the correction is an active request for improvement of secondary content worth viewing, the user's willingness to perform correction work is promoted, and the correction work corrects and exchanges the material video used for the secondary content.
  • the dictionary function has a separate database for each user, the individual recognition function required only for a specific user is enhanced and learned using feedback information only by the specific user, and the recognition required for other users. Does not adversely affect functionality.
  • the dictionary function that can be used in common regardless of the user has a database common to the user, the commonly required recognition function is efficiently enhanced and learned by feedback from a large number of users. Become.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 ユーザにかかる負担が小さく、かつユーザの満足度の高いデジタルアルバム等の2次コンテンツを自動作成・配信できる2次コンテンツ提供システムおよび方法を提供する。 ユーザの撮像した映像は区間分割後、その映像特徴量を辞書と照らし合わせメタデータを付与され1次コンテンツとして保存される。2次コンテンツ作成部16にてストーリーテンプレートに記載のメタデータ指定から1次コンテンツを素材映像として選出して2次コンテンツを作成し、ユーザに配信する。修正要求がある場合、ユーザは1次コンテンツのリストから交換映像を決定して修正させる。修正情報は辞書更新などにも利用される。

Description

2次コンテンツ提供システムおよび方法
 本発明は2次コンテンツ提供システムおよび方法に関し、特に、ユーザが撮像し蓄積された各映像に自動的にメタデータを付与した1次コンテンツを素材としてデジタルアルバム等の2次コンテンツを自動作成すると共に、ユーザが2次コンテンツ内容に対してフィードバック修正ができるシステムおよび方法に関する。
 下記の特許文献1には、次のような技術が記載されている。予めメタデータが付加されている画像データ群を用いてこれら画像を整理、閲覧できるデジタルアルバムを容易に作成するために、運動会や結婚式といった各種のシナリオに対応し、画像データを貼付することでデジタルアルバムを作成できるテンプレート群を用意しておく。各テンプレートには優先順位を付したキーワードが設けられており、画像データのメタデータと各テンプレートのキーワードのマッチング分析を行い、優先順位の高いキーワードを持つテンプレートに画像データを貼付していくことで、特に分類・整理されていなかった画像データ群が各々その内容にあったテンプレートに貼付されデジタルアルバムとして整理される。
 また、下記の特許文献2には、次のような技術が記載されている。予めメタデータが付与された画像素材に楽曲やエフェクトなどの演出を加えた動画データを作成するため、各種テーマに沿って用いる楽曲やエフェクトおよび素材枠に挿入して用いる画像を決めるためのメタデータを定義したテンプレートファイルを用意しておき、このテンプレートファイルを用いて動画を作成する。
 また、下記の特許文献3には、次のような技術が記載されている。ユーザが特に分類せずに蓄積した画像データを用いて、所望のストーリーに適合した画像データから構成されるアルバムを作成するために、画像データに撮像時等にあらかじめ付与される作成日時、場所、音声から判断した画像データに含まれる人物といった情報を用いて画像データの検索・分類を行い、アルバムを作成する。
 さらに、下記の特許文献4には、次のような技術が記載されている。監視カメラなどから取得した動画からアルバムを少ない編集の手間で自動作成するために、動画像に撮影された人物を判別し、取得済みの動画中から判別された人物の撮影された動画を抽出し、順番につなげることでアルバムを作成する。
特開2002-49907号公報 特開2009-55152号公報 特開2005-107867号公報 特開2009-88687号公報
 しかしながら、特許文献1、2に記載の技術では、素材の画像や動画に対して利用者自身がメタデータを付与する必要があり、素材映像が大量になった場合、利用者に多くの負担がかかるという課題がある。
 さらにまた、特許文献3、4に記載の技術では、素材の画像や動画に対して一部のメタデータを自動付与することができるが、自動付与に誤りがあった映像は、利用者にとって最適と思われる映像であっても、アルバム作成には使われないという課題がある。
 本発明の目的は、前記した課題を解消し、ユーザにかかる負担が小さく、かつユーザの満足度の高いデジタルアルバム等の2次コンテンツを自動作成・配信できる2次コンテンツ提供システムおよび方法を提供することにある。
 前記目的を達成するために、本発明は、ネットワーク経由でアップロードされた静止画を含む映像コンテンツを所定の映像規格に変換した映像区間とする映像規格変換部と、該映像規格変換部で変換された映像区間に 分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与部と、前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成部と、前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存部と、前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存部から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成部と、前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信部と、前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処理部とを具備し、前記フィードバック処理部は、前記修正フィードバック情報の内容に応じて、前記分類・検出カテゴリ付与部および前記メタデータ作成部の内の少なくとも一つに更新処理要求する点に特徴がある。
 前記目的を達成するために、本発明はまた、ネットワーク経由でアップロードされた映像コンテンツを所定の映像規格に変換する映像規格変換部と、該映像規格変換部で変換された映像コンテンツを、関連する内容を一映像区間とする複数映像区間に分割する映像分割部と、該分割部で分割された映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与部と、前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成部と、前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存部と、前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存部から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成部と、前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信部と、前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処理部とを具備し、前記フィードバック処理部は、前記修正フィードバック情報の内容に応じて、前記映像分割部、前記分類・検出カテゴリ付与部および前記メタデータ作成部の内の少なくとも一つに更新処理要求する点に特徴がある。
 本発明によれば、ユーザが撮像しアップロードした映像にシステムが自動的にメタデータを付した1次コンテンツを作成し、これを素材に所定の編集を加えることで視聴価値のある2次コンテンツを作成・配信するのでユーザは該2次コンテンツの視聴を楽しめ、もし該2次コンテンツに修正をしたい場合もシステムにフィードバック情報を送ることができる。
 また該フィードバック情報は1次コンテンツへのメタデータ付与機能などの更新処理に用いられるのでこれらの機能は学習により性能を上げていくことができる。また、映像特徴量データベースには一般と個別の区別があるので、メタデータ付与において適したデータベースの使い分けができる。また、映像に映っている顔が誰であるかを基にしたストーリーの2次コンテンツがユーザの提供および蓄積した映像を利用して作成されるので、ユーザは視聴価値の高い2次コンテンツを楽しむことができる。
 また、映像に映っている顔の表情の種類を基にしたストーリーの2次コンテンツがユーザの蓄積した映像を利用して作成されるので、ユーザは視聴価値の高い2次コンテンツを楽しむことができる。また、ユーザは2次コンテンツの修正したい箇所の修正候補映像リストを受け取ることができるので、該リストから選択するだけで容易に修正することができる。ユーザによる修正情報は、フィードバック情報としてメタデータ付与機能などの性能を向上させる。この結果、同一のストーリーテンプレートにより映像選出を行った場合、修正前の1次コンテンツが選出されにくくなり修正後の1次コンテンツが選出されやすくなるので、修正フィードバック後の2次コンテンツ作成機能をよりユーザの要求に即したものへと学習更新できる。また、ユーザはストーリーテンプレートのメタデータを変更できるので、視聴した2次コンテンツをアレンジした2次コンテンツも楽しむことができる。
本発明が実施されるネットワーク環境の一例を示すブロック図である。 本発明の要部の構成を示すブロック図である。 本発明の第一の実施形態でメール配信を利用する場合の構成を示すブロック図である。 本発明の第二の実施形態でVoD配信を利用する場合の構成を示すブロック図である。 特徴量データベースが一般データベースに加えて各ユーザごとの個別データベースを備えることを示す概念図である。 図3および図4の映像区間分割部からメタデータ作成部までの処理を説明するフローチャートである。 図6にて取得される分類・検出カテゴリと適合度数値、映像中の部品の座標などをリストアップした例を示す図である。 図6のステップS3にて個人データベースの結果が一般データベースの結果より優先されることを示す概念図である。 個別データベースにユーザが顔情報を登録する作業画面を示す概念図である。 区間映像から作成された1次コンテンツを示す概念図である。 スケジュール管理部の指示により2次コンテンツを作成する流れを示すフローチャートである。 メタデータ比較・選択部が予め1次コンテンツの選択候補などをリストとして用意しておく流れを示すフローチャートである。 図11Aで予め用意されたリストに従う2次コンテンツを、スケジュール管理部の指示に従って作成する流れを示すフローチャートである。 ユーザ指示により2次コンテンツを作成する流れを示すフローチャートである。 ストーリーテンプレートの一般的な構成を示す概念図である。 ストーリーテンプレートにおける1次コンテンツ選出用メタデータ項目の例として、顔検出、顔認識、顔表情認識関連で利用可能な項目の例を示す図である。 ストーリーテンプレートにおける1次コンテンツ選出用メタデータ項目の例として、シーン認識関連に利用可能な項目の例を示す図である。 ストーリーテンプレートに従い1次コンテンツを選出して作成された2次コンテンツの例を示す概念図である。 ストーリーテンプレートに従い1次コンテンツを選出して作成された2次コンテンツの例を示す概念図である。 図16Aおよび図16Bに示す2次コンテンツを作成するストーリーテンプレート例を示す図である。 図16Bのシーン3の派生シーンを部分的に示す図である。 ユーザによる2次コンテンツ修正・再作成処理および該修正情報を利用して1次コンテンツ作成機能の更新処理を行う流れを示すフローチャートである。 図17の処理を介してユーザがシステム自動作成シーンに用いられた映像ファイルを修正した際の修正前後のシーンの例を示す概念図である。 図18の修正交換前および後の映像ファイルにてシーン関連のメタデータ適合度が更新される例を示す概念図である。 図17の処理にてメール対応の場合にユーザ側に送付されてくるメール、およびその返信メールの例を示す概念図である。 図17のフローとは別の実施形態におけるフィードバック処理の流れを示すフローチャートである。 映像入力を静止画に限定する実施形態における、本発明の要部の構成を示すブロック図である。
 以下に、図面を参照して本発明を詳細に説明する。図1に、本発明が実施されるネットワーク環境の一例を示す。まず、図1に関して説明する。
 撮像装置1はビデオカメラ、デジカメなどからなり、撮像装置1で撮影されたユーザ個人等の映像コンテンツは該ユーザの映像認識・2次コンテンツ作成プラットフォーム4の利用におけるユーザID、パスワードなどの管理・認識情報と共に、PC等の端末装置2を経由して、または直接にWiFi、WiMax等によりインターネットなどからなるネットワーク網3へ送られる。ネットワーク網3に送られた映像コンテンツはサーバである映像認識・2次コンテンツ作成プラットフォーム4(2次コンテンツ提供システム4)に映像入力部4aから入力される。映像認識・2次コンテンツ作成プラットフォーム4の構成は後で詳細に説明するが、概略的な機能としては、映像入力部4aから受信した映像コンテンツを映像区間に分割する機能、該映像区間ごとに映像分類・検出情報を含むメタデータを作成・付与して1次コンテンツを作成する機能、該メタデータの作成・付与において参照される辞書機能、該映像区間と該映像区間に関連づけられたメタデータを含む2次コンテンツを作成する機能、ユーザのIDおよびパスワードを生成して該1次コンテンツおよび該2次コンテンツに関連させる機能、ユーザによる2次コンテンツの内容修正要求などのフィードバック情報に対応する機能などを有している。
 なお、撮像装置1は、携帯装置2内に含まれるカメラ等を利用してもよい。この場合、例えば、携帯端末(携帯電話やスマートフォンなど)が上記説明の撮像装置1と携帯装置2との、両方の機能を担うこととなる。
 また、プラットフォーム4へ映像が入力される手段としては、ブログページやSNS(ソーシャル・ネットワーキング・サービス)などの、他システムサイトを経由して入力されてもよい。この場合、ユーザは上記のような撮像装置1又は端末装置2などを利用して、ネットワーク網3上に存在する他システムサイトに予め映像を入力しておく。そしてユーザは自身の映像が保存されている他システムサイトにログインし、プラットフォーム4への映像出力の許可などを行い、プラットフォーム4に映像入力する。
 映像認識・2次コンテンツ作成プラットフォーム4は後述するスケジュール管理機能により、所定の時間になると、もしくはユーザ要求を受信するなどすると2次コンテンツを作成する。該2次コンテンツは、ストーリー、シーンなどに対応したメタデータの配列を含んだ所定のストーリーテンプレートを利用し、メタデータの適合度を用いて1次コンテンツを構成素材として順次選択して組み込んでいくことによって自動的に作成され、映像・修正リスト出力部4cから各ユーザに提供される。ユーザへの2次コンテンツの提供はネットワーク網3によりメールあるいはVoDインフラ網などの利用といった各種の方式によって提供される。ユーザは携帯端末、PC、あるいはVoD視聴装置などの視聴装置5により該2次コンテンツを視聴する。
 このときユーザがもし、用いられている1次コンテンツは該2次コンテンツのストーリー性などから不適切である、あるいはユーザ自身の嗜好に合わないなどの判断を下すと、ユーザは利用している視聴装置5を用いて映像認識・2次コンテンツ作成プラットフォーム4にフィードバック情報として修正要求を送信することができる。映像認識・2次コンテンツ作成プラットフォーム4はフィードバック情報・2次コンテンツ指定情報入力部4bで該修正要求を受信し、該修正要求の情報を利用して1次コンテンツ作成機能に更新処理をすると共に該修正要求に従う2次コンテンツを再度作成する。またユーザは、周知のVoDの視聴形態と同様に、所望の時間に前記再度作成された2次コンテンツを含む所望の2次コンテンツを選び視聴要求を送信することもできる。
 なお、視聴装置5は、デジタルフォトフレームであってもよい。視聴装置5としてデジタルフォトフレームを利用する場合には、デジタルフォトフレームは2次コンテンツを受信してユーザが視聴できるようにする機能のみを担ってもよい。そして、視聴装置5の2次コンテンツ要求送信機能やフィードバック送信機能に関しては、デジタルフォトフレームの代わりに携帯端末などが担ってもよい。
 次に、図2を参照して前記映像認識・2次コンテンツ作成プラットフォーム4(2次コンテンツ提供システム4)の構成の要部について説明する。
 映像認識・2次コンテンツ作成プラットフォーム4は、主に、ユーザの撮像装置・端末装置からネットワーク経由でユーザID、パスワードなどの認証情報と共にアップロードされた映像コンテンツが静止画像か動画像であるかを判定する静止画・動画判定部10と、映像コンテンツを所定の映像規格に変換する映像規格変換部11と、映像規格変換部11で変換された映像コンテンツを、関連する内容を一映像区間とする複数映像区間に分割する映像分割部12と、映像分割部12で分割された映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与部13と、前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成部14と、前記映像コンテンツの映像区間ファイルを前記メタデータと関連づけて1次コンテンツとして保存する1次コンテンツ保存部15と、前記1次コンテンツを用いて自動的に2次コンテンツを作成する2次コンテンツ作成・保存部16と、該2次コンテンツおよびユーザの修正要求を受けた場合には修正候補リストを修正候補情報としてユーザに送出する送信部17と、ユーザからの修正フィードバック情報や視聴要求情報を受信する受信部18と、受信された修正フィードバック情報を処理するフィードバック処理部19とから構成される。
 前記静止画・動画判定部10で動画像と判定された場合には、映像規格変換部11は映像分割部12に接続され、一方静止画像と判定された場合には映像分割部12をスキップして分類・検出カテゴリ付与部13に接続される。よって映像分割部12で分割された映像区間もしくは区間映像は、動画像の場合の他に映像分割部12をスキップされた静止画像の場合を含んでいるとみなして、分類・検出カテゴリ付与部13以降の処理を受けるとみなしてよい。
 なお、映像区間と区間映像は同一内容の用語であるが、区間に分割する前の段階では映像区間の用語を主に用い、区間に分割した後(分割処理を必要としない静止画の場合も含む)の段階では区間映像の用語を主に用いることとする。
 フィードバック処理部19は、フィードバック情報として修正要求を受け取ると、送信元のユーザをユーザIDなどで認証したうえで、修正要求箇所の修正候補からなる1次コンテンツのリスト、すなわち修正候補情報、などを2次コンテンツ作成・保存部16に作成させてユーザに返信させ、ユーザは最適候補を選択するなどして修正内容の具体的な指示を送信する。フィードバック処理部19はユーザからこうして、修正フィードバック情報として該修正内容の具体的な指示を受け取ると、修正内容を反映した2次コンテンツをあらためて2次コンテンツ作成・保存部16に作成させ、該2次コンテンツを視聴・確認できるようユーザへ送信させる。またフィードバック処理部19は該修正内容に基づく更新処理を映像分割部12、分類・検出カテゴリ付与部13、メタデータ作成部14に要求する。
 次に、前記映像認識・2次コンテンツ作成プラットフォーム4の構成の詳細を、前記送出部17および前記フィードバック処理部19にメール配信を利用する場合につき図3を参照して説明する。
 まず、1次コンテンツを作成するための単位となる区間映像を準備するまでの段階に対応する構成および動作は次のとおりである。
 映像認識・2次コンテンツ作成プラットフォーム4は図示されているように、前記ネットワーク網3を介してユーザ認証情報と共に送られてきた映像コンテンツが入力する映像入力部21、例えばDVフォーマットの映像や静止画のJPEG映像をMPEG2や非圧縮映像に変換する映像規格変換部22と、該変換された映像を一連の関連する内容が継続しているシーンやショットなどの区間映像に分割する映像区間分割部23を有する。映像入力部21は、映像コンテンツを受信すると共に静止画像であるか動画像であるかの判定をし、その判定信号で映像規格変換部22を映像区間分割部23へ接続するか該映像区間分割部23をスキップして映像特徴量抽出部24に接続するかの制御をする。静止画像の場合には区間映像への分割をする必要がないので、映像区間分割部23をスキップし、静止画像がそのまま区間映像となる。
 なお、映像区間分割部23は、映像分割部12に対応する。
 また、区間映像から1次コンテンツを作成するまでの段階に対応する構成および動作は次のとおりである。
 すなわち、映像認識・2次コンテンツ作成プラットフォーム4は前記分割された区間映像から特徴量を抽出する映像特徴量抽出部24、映像特徴量と映像分類・検出情報(以下、分類・検出カテゴリという。また該分類・検出カテゴリは後述する適合度、適合度数値も含むものとする。)との対応データを格納し、映像分類・検出における辞書機能を有する特徴量データベース(又は、特徴量DB)25、前記映像特徴量抽出部24で抽出された映像特徴量と特徴量データベース25の辞書データとを比較する特徴量比較処理部26、該特徴量比較処理部26での比較処理により取得された映像特徴量に適合する分類・検出カテゴリ、該分類・検出カテゴリの映像特徴量への適合度および該映像をアップロードしたユーザのIDなどを含むメタデータを作成するメタデータ作成部27、前記メタデータおよび前記メタデータに対応する前記分割された区間映像の映像ファイルとを関連づけて1次コンテンツとして保存・蓄積する1次コンテンツデータベース30を有する。前記分類・検出カテゴリ付与部13は前記映像特徴量抽出部24、特徴量データベース25、および特徴量比較処理部26に相当する。前記特徴量データベース25は、ニューラルネットワーク等を利用した知識ベースであって、分類・検出カテゴリの付与を行うと共に、ユーザからのフィードバックによって学習可能なものであってもよい。
 ここで、前記特徴量データベース25は、図5に示すように一般データベース(又は、一般DB)25aに加えて各ユーザごとの個別データベース(又は、個別DB)25b1~25bnを有する。前記個別データベース25b1~25bnには、ユーザ個人に特化された認識用データ、例えばユーザの家族の顔認識用データと名前とがリンクして格納されており、ユーザ認証情報を用いて各ユーザごとに該個別データベースが参照・利用される。前記一般データベース25aには、一般的な映像特徴量、例えば赤ちゃん、ハイハイ、歩き、水遊び、誕生日、保育園、運動会、遊園地などの一般的な事象認識用のデータが格納され、全ユーザで共通して該事象認識用データが参照・利用される。また、前記特徴量データベース25が全ユーザ共通での利用に加えてユーザ認証情報を用いて各ユーザごとに区別された利用がなされるのと同様に、該特徴量データベース25を用いた処理を経てコンテンツが蓄積・保存される1次コンテンツデータベース30、2次コンテンツ保存部34においても各ユーザごとに区別されたコンテンツが保存され、またその他の処理においても特に明記してなくとも必要に応じてユーザ区別をした処理がなされる。
 なお、上記のような、特徴量データベース25における一般データベースと各ユーザのデータベースとを区別し、その他の処理でもユーザ区別を行う実施形態を基本として本願発明の説明を行うが、別実施形態として、個人用データベースを設けず、一般データベースのみを用いるようにしてもよい。この場合、個人用に相当するデータは一般用データベースの中に保存され、各種処理に適用されることとなる。またこの場合、各種処理においても、ユーザ毎に特化したパラメータ等を利用せず、全ユーザで共通の処理がなされることとなる。
 また、図3において1次コンテンツから2次コンテンツを作成するまでの段階に対応する構成および動作は次の通りである。
 映像認識・2次コンテンツ作成プラットフォーム4は、スケジュール管理部35からの指示もしくはユーザからのフィードバック情報・2次コンテンツ指定情報に従って前記1次コンテンツのメタデータとストーリーテンプレートデータベース32内の、後に詳述するストーリーテンプレートのメタデータ情報との比較を行い、該比較処理によって得られる適合度の高さの順位などから1次コンテンツデータベース30の中から2次コンテンツの素材もしくは2次コンテンツ修正候補として適切な1次コンテンツを自動的に選出し、該選出結果を2次コンテンツ作成部33に送るメタデータ比較・選択部31、ストーリーテンプレートに従って該選出された1次コンテンツを該ストーリーテンプレートの提供するフレームに順次配置していくことによってスライドショーやPC向けアルバムといった2次コンテンツを作成すると共に、2次コンテンツにユーザがフィードバック修正を要求する箇所があるかを確認する修正確認情報および該フィードバック修正の要求に対して2次コンテンツの修正候補情報をユーザ送付用に作成する2次コンテンツ作成部33、作成された前記2次コンテンツを保存する2次コンテンツ保存部34、前記2次コンテンツの作成もしくは2次コンテンツの修正候補情報などの作成のために予め用意しておく各種ストーリーテンプレートを保存するストーリーテンプレートデータベース32を有する。
 また、1次コンテンツの作成および2次コンテンツの作成、ユーザへの該2次コンテンツ送付や各種の連絡といった事項のスケジュールを自動管理する構成および動作は次のとおりである。
 映像認識・2次コンテンツ作成プラットフォーム4は、また、スケジュール管理部35を有する。該スケジュール管理部35は、第一の所定の時間に2次コンテンツ作成管理機能として前記メタデータ比較・選択部31に指示を与えて前記1次コンテンツデータベース30の1次コンテンツの中から前記ストーリーテンプレートデータベース32の所定のストーリーテンプレートに適する1次コンテンツを選出させ、該1次コンテンツを基に2次コンテンツ作成部33に2次コンテンツを作成させて2次コンテンツ保存部34に保存させ、また第二の所定の時間に2次コンテンツのユーザ送信管理機能として該作成され保存された2次コンテンツを2次コンテンツ保存部34から読み出してメール送信部37に送り、メール送信部37にて該2次コンテンツをメールなどに添付させると共に、該2次コンテンツの作成が適当ではないとユーザが判断した場合に返信可能な修正箇所指示リストなどを添えて送信させるなどの機能を有する。
 ユーザとの間で2次コンテンツの視聴および修正関連のやりとりをするインターフェース部としての構成、およびその構成を介してなされる修正フィードバック処理の流れは次のとおりである。ユーザからのフィードバックは第一段階としてシステムに視聴した2次コンテンツの修正したい箇所を伝える修正要求情報の送信と、第二段階としてシステムより返信されてきた修正箇所の代替映像リスト中から修正に用いる映像を決定して伝える修正決定情報の送信とからなる。
 映像認識・2次コンテンツ作成プラットフォーム4は、さらに、図1の映像・修正リスト出力部4cに対応し前記2次コンテンツや修正候補リストなどをユーザが視聴する携帯端末やPCへメール送信するメール送信部37、図1のフィードバック情報・2次コンテンツ指定情報入力部4bに相当する受信メール解析部41を有する。
 該受信メール解析部41は、ユーザからの第一段階フィードバック情報として2次コンテンツのうち修正したい箇所を伝える修正要求情報を受け取ると、修正対象箇所の情報をメタデータ比較・選択部31に送信し、メタデータ比較・選択部31はストーリーテンプレートの修正対象箇所フレームを読み込み、該フレームに指定されるメタデータと1次コンテンツのメタデータとの適合度順位などの比較から修正要求を受けた1次コンテンツに対して交換対象となりうる1次コンテンツ候補を選択して修正候補情報として2次コンテンツ作成部33に送る。該交換対象1次コンテンツ候補を受け取った2次コンテンツ作成部33は、これらをそのままリストとしてもしくは修正後の2次コンテンツ該当箇所に加工してメール送信部37へ送り、該メール送信部37からのメールによりユーザは修正候補リストを受け取る。
 ユーザは該修正候補リストから修正に用いる1次コンテンツを決定し、該修正決定情報を第二段階フィードバック情報として送信すると、受信メール解析部41は該修正決定情報を再度メタデータ比較・選択部31に送る。該メタデータ比較・選択部31はフィードバック処理部45に対して、修正前・修正後の1次コンテンツ情報および該1次コンテンツが素材として用いられた2次コンテンツのフレームのメタデータ適用情報を送り、フィードバック処理部45は学習機能として、該送られた情報を用いて修正後の結果を最初から得ることができる傾向を高めるように、前記映像区間分割部23、特徴量データベース25、メタデータ作成部27に更新処理を要求する。ここで学習機能としての該更新処理を前記特徴量データベース25に適用するにあたっては該特徴量データベース25のデータベースが修正され、前記一般データベースと前記個別データベースとで区別した更新修正処理が行われる。また前記メタデータ比較・選択部31はフィードバック処理部45に上記のようにフィードバック情報を送り更新処理をさせると共に、修正反映後の2次コンテンツを再度ユーザに供給するよう、前記2次コンテンツ作成部33、2次コンテンツ保存部34、メール送信部37に修正を反映した処理を要求する。
 なお、修正がない場合は、ユーザはその旨の指令をすればよい。
 ユーザから2次コンテンツ視聴要求もしくは所望条件の2次コンテンツ作成要求を受けた場合の流れは次の通りである。
 映像認識・2次コンテンツ作成プラットフォーム4はまた、前記受信メール解析部41において、ユーザから送信された2次コンテンツ指定情報を受け取る。該2次コンテンツ指定情報はストーリーテンプレートデータベース32に保存されたストーリーテンプレートの指定情報、もしくは該ストーリーテンプレートの指定情報に追加して該指定されたストーリーテンプレートにおいて用いられるメタデータの指定・限定・変更などからなり、前記受信メール解析部41は前記2次コンテンツ指定情報をメタデータ比較・選択部31に送ると、該2次コンテンツ指定情報の指示に従ったうえで前述のスケジュール管理部35の2次コンテンツ作成管理機能および2次コンテンツユーザ送信管理機能と同様の処理がなされることにより、該2次コンテンツ指定情報に従った2次コンテンツが作成され、ユーザへ送信される。また前記2次コンテンツ指定情報が送信された場合は、該2次コンテンツ指定情報に従う2次コンテンツの作成・送信をスケジュール管理部35の定める所定の時間に行う代わりに、該2次コンテンツ指定情報の送信後ただちに行ってもよい。この場合、ユーザは2次コンテンツ作成・送信管理機能による2次コンテンツ作成・送信を待たずに、2次コンテンツ要求の送信後ただちに要求した2次コンテンツが用意・送信されて視聴可能となる。
 以上では映像認識・2次コンテンツ作成プラットフォーム4において、前記送出部17および前記フィードバック処理部19にメール配信を利用する場合につき図3を参照して説明したが、前記送出部17および前記フィードバック処理部19にVoD配信(ビデオオンデマンド配信)を利用する場合につき、メール配信を利用する場合と異なる点に注目して図4を参照して説明する。
 図4において、ユーザの映像コンテンツアップロードによる映像入力から1次コンテンツデータベース30までの処理や流れはメール配信時と同様である。スケジュール管理部35はメール配信の場合と同様の2次コンテンツ作成管理機能として、所定の時間にメタデータ比較・選択部31に指示を与え、該メタデータ比較・選択部31にストーリーテンプレートデータベース32のストーリーテンプレートを読み込ませ、メタデータ適合度から1次コンテンツデータベース30の素材を選出させ、該選出結果を用いて2次コンテンツ作成部33に2次コンテンツを作成させ、2次コンテンツ保存部34に保存させる。メール配信の場合と異なりスケジュール管理部35は2次コンテンツのユーザ送信管理機能を持たず、次に述べるように2次コンテンツ作成管理機能に関連した処理の流れの中でユーザへの2次コンテンツ作成完了連絡のみがなされる。すなわち、2次コンテンツ作成管理機能によって2次コンテンツ保存部34が2次コンテンツ保存を完了すると、VoD送出部36に指示し、メール配信の場合と異なりコンテンツ本体は送付せず、コンテンツ完成の連絡メールのみをユーザの視聴するVoD視聴装置に送付させる。ユーザはコンテンツ完成連絡メールを受け取ってからサイトにログインするなどしてVoD受信部40にVoD視聴要求を出すことで、VoD受信部40は2次コンテンツ保存部34に指定された2次コンテンツをユーザ側へ送付され、ユーザは該コンテンツを視聴する。
 また、図4においても、ユーザが視聴した2次コンテンツへの前記修正要求がある場合のフィードバック情報の流れや処理、ユーザが希望する場合の前記2次コンテンツ指定情報の流れや処理についてはメール配信時とほぼ同様である。以降では、ことわりのない限り映像認識・2次コンテンツ作成プラットフォーム4において、前記送出部17および前記フィードバック処理部19にメール配信またはVoD配信のいずれを利用する場合、すなわち図3の場合でも図4の場合でも共通に適用可能であるものとして本発明の各部分の動作に関する説明を続ける。
 なお、本願発明において、図4に示したようなVoD配信は、専用STB(セットトップボックス)を用いて、当該STBでリクエスト及び視聴などを行うような配信形態のみではなく、一般的なPC端末や携帯端末などを用いて、VoD配信のウェブサイトにアクセスしてリクエスト及び視聴などを行う配信形態をも、含むものとする。すなわち、これらの各種の利用形態に応じて、図4のVoD視聴装置は、VoD視聴専用装置であっても、PC端末や携帯端末などのウェブアクセスが可能な一般的な端末であってもよいものとする。
 映像区間分割部23の動作の詳細は次の通りである。
 映像区間分割部23における処理は基本的には、映像コンテンツの各フレーム間での映像変化量が時間的に予め定められた閾値以上の場合に該フレームを区間映像の区切り画面(又はカット画面又はシーンチェンジ画面)とし、該区間映像の区切り画面間の映像を映像特徴量抽出部24に出力する。なお、該映像区間分割部23は、例えば、電子情報通信学会秋期大会、D-264(1993)の「フィルタを用いた映像カット点検出」、電子情報通信学会秋期大会、D-501(1994)の「フレーム間輝度差分と色差相関による圧縮動画像データからのカット検出」、特開平07-059108号公報、特開平09-083864号公報等に記載されている周知の技術を用いて、区間映像への分割を行うことができる。映像区間分割部23は、ユーザからのフィードバック情報により、前記閾値を修正する等して更新処理することができる。なお該映像区間分割部23において映像を区切る画面として言及している「フレーム」は、後述のストーリーテンプレートにおける「フレーム」とは異なる。
 次に、前記映像特徴量抽出部24、特徴量比較処理部26およびメタデータ作成部27の動作の詳細を、図6のフローチャートを参照して説明する。ここでは区間映像にメタデータを付与して1次コンテンツが作成される。
 ステップS1では、映像特徴量抽出部24は区間映像から特徴量(映像の特徴となっている部分を定量化したもの)、例えば、動物体などの対象物の面積、周囲長、円形度、重心など及び/又は色特徴、顔部品の認識や位置情報といった顔特徴などを抽出する。該特徴量は、動物体に限らず、静止物体や背景画像の対象物からも抽出するのが好ましい。一例として、2007年3月15日 CQ出版株式会社発行「改訂版ディジタル画像処理の基礎と応用」の第60~62頁に記されている方法を用いて前記特徴量を抽出することができる。
 ステップS2では、特徴量比較処理部26が、前記特徴量を特徴量データベース25の一般データベース25a内の情報と比較(例えば、パターン認識)し、各種分類・検出カテゴリおよびその適合度、また該分類・検出カテゴリによって認識されている映像中の部品がある場合はその座標などを取得する。適合度の数値は規格化により0~1までの値とすることができる。また適合度は数値で算出したのち、所定の閾値を越えているか否かで価を1または0とする、もしくは「適合」または「不適合」などの判定を割り当ててもよい。
 ステップS2で取得される分類・検出カテゴリと適合度数値、映像中の部品の座標などをリストアップした例を図7に示す。なお、図7においては適合度数値や座標などの具体的な値は表記せず、分類・検出カテゴリ項目などとの対応のみが示されている。図7に示されるように分類・検出カテゴリ項目の例としては、「食べる」、「寝る」、「歩く」、「公園」、「テーマパーク」などと各種のものがあり、それぞれについて適合度数値が前述のとおりステップS2において求められる。また分類・検出カテゴリ項目間には関連性・階層性を持っているものもある。例えば分類・検出カテゴリ「顔」に対して、その顔が誰であるかを示す「所属顔グループ」、その顔の部分構造として、「目」、「鼻」、「口」など、またその顔の表情として、「笑顔」、「泣き顔」、「驚き」などといったように関連する分類・検出カテゴリを用意しておくことができる。図7におけるような具体的に映像に何が映っているかを明らかにする分類・検出カテゴリ項目を特に映像分類・検出項目と呼んでもよい。
 分類・検出カテゴリの適合度としては例えば「顔」のような場合は特徴量データベース25と比較してパターン認識したときのマッチング度合いの数値を用いるなど、各分類・検出カテゴリの性質やその2次コンテンツにおける利用法に応じて適合度数値を算出すればよく、「笑顔」など「顔」の表情を表す分類・検出カテゴリであれば適合度数値として特に表情数値などの別項目を用意しておくこともできる。分類・検出カテゴリの項目間に関連性があるのに伴い、それらの適合度も関連性を用いて算出させることもできる。なお、前述のように各分類・検出カテゴリ項目に対する適合度および適合度数値は分類・検出カテゴリに含まれるものとしてよい。
 また分類・検出カテゴリが「顔」のような場合は、「顔」という部品が検出されている領域の座標情報などもステップS2で取得できる。また「目」という部品に対して目の位置座標や視線角度といった値も取得できる。これらの部品の座標情報や、視線角度も分類・検出カテゴリに含まれるとみなしてよい。
 ステップS3では特徴量比較処理部26が、前記特徴量を特徴量データベース25の個別データベース25b1~25bn内の情報と比較(例えば、パターン認識)し、各種分類・検出カテゴリおよびその適合度、また該分類・検出カテゴリによって認識されている映像中の部品がある場合はその座標などを取得する。ステップS3の処理は前記特徴量の比較が特徴量データベース25の一般データベースではなく個人データベースを用いてなされる点がステップS2の処理と異なり、個別データベースとの比較によって分類・検出カテゴリとその適合度を取得するにあたり、個人特定の分類・検出カテゴリを設けるだけでなく、さらに個人嗜好などを反映した適合度算出法を設けておいてもよい。個人と関連しない分類・検出カテゴリに関しては一般データベースのみで比較し、個別データベースには該分類・検出カテゴリの項目を設けないようにして、個別データベースと一般データベースとでの重複データや重複処理を避けてもよい。また、ここで個別データベースの利用はユーザIDなどの認証情報を用いてなされ、当該映像をアップロードしたユーザの個別データベースの情報とのみ前記比較処理がなされる。(例えば、ユーザIDがxの場合、個別データベース25b1~25bnのうち該当する個別データベース25bxの情報のみと比較される。)
 ステップS4では、ステップS2における一般データベースによる分類・認識結果とステップS3における個別データベースによる分類・認識結果を比較し、個別データベースの結果を優先して選ぶ。ステップS4における処理の様子の概念図を図8に示す。図8では入力された区間映像(a)に対して一般データベースとの比較の結果、(b)のような分類・検出カテゴリおよび適合度数値を得ている。続いて個別データベースとの比較して一般データベースでの結果より優先した結果が(c)であり、一般データベースで「該当なし」として認識されていなかった顔に対して「だいきくん」が適合度「0.9」にて認識され、表情「怒り」の表情数値が「0.3」から「0.8」へ、またシーンを表す「屋内」の適合度数値が「0.5」から「0.7」へ変更されている。また、「アップ度合い」および「位置」に関しては一般データベースと個別データベースで同結果となった、もしくは個別データベースに項目を設けておく必要がなく一般データベースの結果のみがあり、変更されていない。
 ステップS4において図8のように一般データベースでは該当データがなく認識されない「だいきくん」という名前の個人の顔を個別データベースにて認識し、該名前を分類・検出カテゴリの1項目として読み出せるようにするにはあらかじめ個別データベースに分類・検出カテゴリ「だいきくん」および「だいきくん」を撮影した映像区間を最低1シーン、望ましくは数シーン程度を登録する必要があるが、この登録作業画面の概念図をPC利用の場合につき図9に示す。該登録は撮像装置1、端末装置2、または視聴装置5よりユーザ認証情報を用いて可能であり、顔情報以外にも任意の分類・検出カテゴリが登録できる。こうしたユーザ個別の分類・検出カテゴリの初期登録により、個別データベースには該ユーザ個別の分類・検出カテゴリとその映像認識用の特徴データが関連づけられて保存される。
 ステップS5では、メタデータ作成部27が区間映像に対応したメタデータを作成する。メタデータは、ユーザID、分割前後の映像コンテンツ情報(撮像日時、コンテンツ再生時間、分割前後のファイルIDと分割箇所・分割順番など)を含んだ区間映像ファイル情報、区間映像の時刻情報、ステップS3、S4にて取得された分類・検出カテゴリ、分類・検出カテゴリの各項目および該各項目の適合度、関連部品の座標情報などを含んで作成される。
 ステップS6では、全ての区間映像に対して分類付けが行われたか否かの判断がなされ、否定の場合には、ステップS7に進んで、次の区間映像が映像特徴量抽出部24に送られる。そして、前記ステップS1~S5の処理が繰り返される。全区間映像に対して処理が終了し、ステップS6で肯定の判断がなされると、ステップS8にて各区間映像と対応する各メタデータを関連づけて各1次コンテンツとして、1次コンテンツデータベース30に保存する。
 以上のように、図6の各ステップを経て区間映像から作成された1次コンテンツの概念図を図10に示す。図10では「だいきくん」、「はるかちゃん」、「パパ」、「ママ」、また、「顔のアップ」、「顔正面」、「笑顔」、・・・、「水遊び」などといった分類・検出カテゴリとその適合度、および撮影日時がメタデータの一部として、元の入力された区間映像と関連づけられて1次コンテンツとなっている。
 なお、図6では前述のとおり、一般用と個人用とでデータベース等を使い分ける実施形態として説明した。一般用の処理のみの実施形態では、図6のステップS3とステップS4とが省略され、ステップS2の次にステップS5に至ることは明らかである。
 次に、メタデータ比較・選択部31、ストーリーテンプレートデータベース32、2次コンテンツ作成部33、2次コンテンツ保存部34、およびスケジュール管理部35などによる、1次コンテンツを素材として所定の編集を加えた2次コンテンツを作成・保存する動作および保存後のユーザへの2次コンテンツ配信の詳細を説明する。
 2次コンテンツ作成の開始はスケジュール管理部35の指示による場合、ユーザから作品などの指定指示を受けた場合などがあるが、まずスケジュール管理部35の指示による場合の流れに関して図11を参照して説明する。
 ステップS21では、スケジュール管理部35が所定の時間に2次コンテンツ生成をメタデータ比較・選択部31に指示する。該所定の時間としては、ストーリーテンプレートデータベース32に新規のストーリーテンプレートを追加したとき、ユーザによる映像コンテンツアップロードによって1次コンテンツ保存部30に所定数以上の1次コンテンツが追加されたときなどを設定しておくことができ、各ユーザごとに個別のスケジュールとしても、全ユーザで共通のスケジュールとしても、また個別と共通の併用スケジュールとすることもできる。
 ステップS22では前記スケジュール管理部35の指示を受けてメタデータ比較・選択部31がストーリーテンプレートデータベース32から所定のストーリーテンプレートを読み込む。読み込むストーリーテンプレートに関しては前記ステップS21と同様にスケジュール管理部35からの指定に従う。なお、該ストーリーテンプレートの詳細は図13などを参照して後述する。
 ステップS23では各ユーザごとに、1次コンテンツデータベース30に保存・蓄積された1次コンテンツのメタデータのうち顔グループ、すなわち該メタデータで対応づけられた区間映像人物が映っている場合、その人物が誰であるかを示すメタデータを参照して、各ユーザ内の最大グループ顔、すなわち1次コンテンツとして保存されている個数が最も多い顔グループを決定する。またここで各1次コンテンツに対して一般には複数の顔グループがメタデータとして付与されているが、それら顔グループのうち前記メタデータの適合度数値が最大のものを該1次コンテンツの顔グループとして用いることとする。また該ステップS23は具体例を後述するように、顔グループ最大の人物を主人公とした2次コンテンツを作成することを想定しており、その場合の処理の説明をわかりやすくするために補足的に挿入された処理であり、実際は以下に述べるステップS24とステップS25でストーリーテンプレートの全ての指示に従う形の処理がなされる。2次コンテンツの作成指定をするストーリーテンプレートの種類によってはステップS23が顔グループの上位複数を用いる場合や、ユーザの家族に対応する顔グループを用いる場合や、ユーザの友人に対応する顔グループを用いる場合などもありうる。またストーリーテンプレートに指示がなければ顔グループを用いない処理であってもよい。
 ステップS24では後述するようにストーリーテンプレートを構成している順序づけられたフレームを参照して、該フレームに記載されたメタデータ指定に最適なメタデータを持つ1次コンテンツを選び、該1次コンテンツに含まれる区間映像すなわち映像ファイルを2次コンテンツの該フレーム部分に適用する素材として選択する。ステップS25では最後のフレームまで処理がなされたかの判断がされ、否定の場合はステップS24に戻って次のフレームに対して処理を行う。2次コンテンツを構成する全フレームに対してステップS24の処理が行われ、ステップS25で肯定の判断がなされると、ステップS26に進む。
 ステップS26では、ステップS24で選択された各映像ファイルを対応するフレームのテンプレート映像などと合成、すなわち各映像ファイルをデコレーション映像、エフェクト機能、ナレーション等の音声情報などと合成した映像を作成し、さらにステップS27に進んで該合成された映像を複数、ストーリーテンプレートの指示に従って組み合わせることで、スライドショーやPC向けアルバムといった2次コンテンツを作成し、2次コンテンツ保存部34に保存する。
 ステップS271では該2次コンテンツの配信形態の選択が行われ、メール対応の場合はステップS281に進みスケジュール管理部35の指示する所定の時間に指示を受けると、ステップS282に進みメールにより、メール添付などの形式で2次コンテンツを各ユーザへ送信し、該メール送信後または同時に該2次コンテンツの修正・確認メッセージもメール送信される。
 一方、ステップS271にてVoD配信の場合は、ステップS291に進み各ユーザに対してメールにて2次コンテンツ作成完了の旨を連絡し、ユーザは該連絡を受け取るとステップS292に進みVoD視聴サイトにログインするなどして該2次コンテンツを視聴する。
 以上、図11のフローを説明した。当該フローは、スケジュール管理部35のスケジュール管理下で、2次コンテンツの作成指示があったときに、(1)1次コンテンツの選択処理を行い、(2)選択結果に従う2次コンテンツを作成して、ユーザに2次コンテンツを提供する、という処理を全て行うものであった。次に、これらを別個に行う別実施形態につき、説明する。
 当該実施形態では、上記(1)の1次コンテンツ選択処理を、スケジュール管理部35の指示によらずに、メタデータ比較・選択部31が所定のタイミングで予め行っておき、選択結果などをリストとして保存しておく。そして、スケジュール管理部35による2次コンテンツ作成・提供があったときは、上記(2)に対応する処理を、予め作成しておいたリストにおける選択結果に基づいて、行う。
 メタデータ比較・選択部31が予め1次コンテンツ選択処理を行うフローを図11Aに示す。当該フローを開始するステップS210の所定のタイミングは、ユーザより映像がアップロードされる毎や、メタデータ比較・選択部31自身の設定する所定の間隔毎、などであってよい。また、当該ステップS210の所定のタイミングは、ストーリーテンプレートの内容変更、追加、削除などがあった場合、であってもよい。
 続く、ステップS220、S230、S240、S250はそれぞれ図11のステップS22、S23、S24、S25と同様であるが、処理対象が、ストーリーテンプレートのうちの、新たに1次コンテンツの選択処理が必要となった部分のみに限定される。
 例えばステップS210で、新規のストーリーテンプレートが作成されて処理を開始する場合であれば、当該新規ストーリーテンプレート全体に対して処理が行われるが、ステップS210で、既存のストーリーテンプレートの一部分のみが変更されて処理を開始する場合には、当該変更された一部分のみに対して処理が行われる。また、ステップS210で、ユーザより映像がアップロードされて処理が開始される場合であれば、当該映像による1次コンテンツが使われる可能性のあるストーリーテンプレートのみが処理対象となる。
 そして、ステップS251では選択結果、すなわち2次コンテンツに実際に利用されるベストマッチの1次コンテンツ選択結果と、2位以下所定数の1次コンテンツの情報からなる選択候補とを、リストとして保存しておく。
 このような予め作成され、必要がある毎に更新されるリストに基づいて、スケジュール管理部35によるスケジュール指示に従って2次コンテンツが作成・提供されるフローを図11Bに示す。ステップS2100では、スケジュール管理部35が所定タイミングで2次コンテンツの作成を指示する。ステップS260では、2次コンテンツ作成部33が、図11Aのフローによりメタデータ比較・選択部31が予め作成したリストを参照して、映像合成を行う。ステップS27以降の2次コンテンツ作成・提供に関しては、図11の同番号のステップと同様であるので、説明を省略する。 
 また、2次コンテンツ作成の開始がユーザから作品などの指定指示を受けることによる場合の流れに関して図12を参照して説明する。
 ステップS211では、個別のユーザから既存ストーリーテンプレートを利用してメタデータ指定法をユーザの好みに変更することによるアレンジ作品作成の指示、または特に2次コンテンツとしてメタデータのアレンジを指定せずに視聴したい作品に対応する既存ストーリーテンプレートの指示を受ける。アレンジ作品作成指示の例としては、ユーザが「笑顔」および「ベストショット」を作品作成に用いる主要なメタデータとしたストーリーテンプレートで作成された2次コンテンツを視聴して、既存ストーリーテンプレートには存在しないが、該ストーリーテンプレートにおいてメタデータ指定「笑顔」を「驚き」に変更したストーリーテンプレートを用いて作成された2次コンテンツを視聴したくなるような場合がありうる。
 ステップS212では指定された既存ストーリーテンプレートをストーリーテンプレートデータベース32から読み込む。ステップS213ではユーザーが指定メタデータ変更、または追加、削除などによる2次コンテンツ作品のアレンジを指示しているか判断し、アレンジ指示がある場合はステップS214に進み読み込んだ既存ストーリーテンプレートに対して各フレームのメタデータ指定法にユーザ指示を反映させ、アレンジ指示がない場合はステップS214をスキップし既存ストーリーテンプレートをそのまま用いる。ステップS215では上述のようにアレンジ作品作成指示によってメタデータ指定法を変更されたストーリーテンプレート、もしくはメタデータ指定法は変更せずに用いるストーリーテンプレート自体の指示だけがあったストーリーテンプレートの各フレームに記載されたメタデータ指定法を確認する。次のステップS24以降は図11の場合と同様(ただし次に述べるユーザが手動で映像を選ぶ場合を除く)であるので説明を省略する。
 上述のようにステップS24がメタデータ比較・選択部31などにより自動処理される方式に代わって、ステップS24においてユーザが手動で映像を選ぶようにする方式も可能である。この場合、ステップS215において確認されたメタデータ指定をメタデータ比較・選択部31などに処理させ、後述の図17におけるステップS321のような処理によってメタデータ適合度の許容範囲を広げて映像候補を複数用意しておき、ユーザはステップS24においてこの映像候補の中から手動で所望の映像を選択するなどが可能であり、またシステムによるメタデータ適合度利用での絞り込みなどを経ずに直接1次コンテンツの中から映像を選択してもよい。この場合も全フレームに対して映像の手動選択を終えてステップS25にて肯定判断がなされた後のステップS26以降については図11と同様であるので説明を省略する。
 次に、ストーリーテンプレートの一般的な構成の例を図13を用いて説明する。ストーリーテンプレートには映像ファイルを配置する複数の配置枠や、配置枠への演出効果や、配置枠へ配置する映像ファイルのメタデータの参照による1次コンテンツ保存部内の1次コンテンツからの選出に関する定義などが含まれている。
 ストーリーテンプレートの一般的な構成は同図に示すように、まずストーリーテンプレート自体の認識などのための項目として、ストーリーテンプレートID、ストーリーテンプレートファイルすなわち2次コンテンツ作成用の1次コンテンツ選択指令ファイルおよび2次コンテンツ作成のための演出用情報・データとして挿入されるナレーションや背景画像、1次コンテンツへの追加画像・文字といった素材ファイルの保存パス、使用フレーム総数、2次コンテンツ作成がシステムにより自動になされるか、ユーザによる前記アレンジ指定などによる手動でなされるかを記載しておく自動/手動といった項目を含む。
 また具体的に2次コンテンツ作成にあたり、2次コンテンツにおいて部品として使用する1次コンテンツを選出する条件および選出した1次コンテンツの演出指定とシーン中の配置の箇所すなわち配置枠を記載したフレーム項目を複数含む。該演出方法、すなわち配置枠への演出効果、と配置に関しては図16Aおよび図16Bを参照して後述する。フレームを1つもしくは複数用いることによって2次コンテンツにおける1つのシーンを構成でき、作成される2次コンテンツは1つもしくは複数の関連したシーンからなる。演出方法および配置箇所はフレーム間で共通もしくは関連がある場合がある。各フレーム項目のうち1次コンテンツ選出条件としては、同図の「フレーム1」以下に示すように人物として誰が映っているかを示す「顔グループ」、その顔の「アップ度合い」、「位置」、「視線」、「向き」、「表情」、また背景に何が映っているかを示す「場面1」、「場面2」、「場面3」、映像ファイルの形式に関して「静止画/動画/どちらでも」といった項目などが含まれ、これらの項目は1次コンテンツに付与されるメタデータと共通の項目からなる。
 図13において「内容」欄は実際に1次コンテンツを選出するにあたり、メタデータ項目をどう参照して選出させるかを指定するなどに用いられる欄であり、「備考など」欄は2次コンテンツ作成にあたりメタデータ項目をどう活用するかをストリートテンプレート作成側でメモしておくためなどに用いられる欄である。
 「内容」欄の指定は例えば「顔グループ」に関しては前述図11のステップS23のように1次コンテンツ数が最大となる「顔グループ」を指定させることもでき、また前記ユーザによるアレンジ指示における指定に「顔グループ」指定があれば該指定に従わせることもできる。また、「向き」および「表情」の両項目につき所定の条件を満たすものを選出するよう指定することもでき、所定の条件としては各項目で1次コンテンツメタデータにおける適合度が最大のものを選ぶなどの条件とすることができる。「内容」欄はこのように1項目以上に指定条件を設けることができ、複数項目に対する指定条件を"かつ"、"または"などの論理式で組み合わせたものを指定条件とすることもでき、その他の条件に関しては無指定とすることもできる。メタデータを参照してたとえば「顔グループ」以外の項目で指定条件を設けることもできる。ストーリーテンプレートの各フレームにおける1次コンテンツ選出のメタデータ項目の例として、顔検出、顔認識、顔表情認識関連に利用可能な項目の例を図14に、またシーン認識関連に利用可能な項目の例を図15に示す。
 なお、メタデータのうち、ストーリーテンプレートのストーリーやシナリオを作成するための台本などにおいて用いるキーワード(例えば顔の素材をテーマにする場合なら感情表現、表情、また情景描写などに関するもの)と一致するものもしくは関連の深いものを、メタデータのうち漠然と映像特徴量を表すだけのものと区別してタグと呼ぶこともある。
 以上のように1フレーム内でメタデータの指定条件は関連性のある複数の条件を指定することができるが、ストーリーテンプレートは継続するフレームによって順次選出した1次コンテンツ映像データを素材としてストーリー性のある2次コンテンツを作成させる雛型であるので、継続するフレーム間におけるメタデータの指定条件の間でも通常は関連性があることとなる。
 以上のように、図11、図11A、図11B、図12などの流れの処理で図13のような形式のストーリーテンプレートを用いて2次コンテンツの作成される例を図16Aおよび図16Bを用いて示す。該2次コンテンツは一連のストーリーやシナリオを持った4シーンからなり、あるユーザの1次コンテンツにおいて該ユーザの個別データベースに登録されたメタデータ項目において最大グループ顔となる人物を主役として該人物の映像を選出させ桃太郎の鬼退治物語というストーリーを作成するものであり、このストーリーを作成するにあたって用いる図13と同様の形式のストーリーテンプレートの主要部の例を図16Cに示す。このテンプレートにより2次コンテンツの作成されていることを示す図16Aおよび図16Bは、あるユーザの1次コンテンツにおける最大グループ顔が「だいきくん」であった場合の例を示している。従って「顔グループ 最大」のメタデータ指定では全て人物が「だいきくん」であると認識された映像を選出している例が示されている。この図16Cのストーリーテンプレート例においてあるユーザの1次コンテンツから選出される「だいきくん」はユーザの4歳程度の子供であってユーザが多くの回数撮像し、結果として「だいきくん」に該当する1次コンテンツも豊富に存在するような場合が特に作成された2次コンテンツのユーザにとっての視聴価値を高める意味で好ましく、図16Cのストーリーテンプレートはそのような1次コンテンツを保存しているユーザに対する2次コンテンツ視聴提供を想定した一つの例である。
 図16Aに示すシーン1は(a-2)に示すフレーム1の指示によって作成される。(a-2)に示すフレーム1のメタデータ指定「顔グループ 最大」、「アップ度合い 大」、「表情 無表情」の適合度数値の大きなものを検索することによって1次コンテンツデータベース30から(a-3)に示す映像ファイルF1を持つ1次コンテンツが選ばれる。該映像ファイルF1に対して(a-2)に示すフレーム1における演出指定すなわち配置枠への演出効果、「額領域を検出してハチマキ画像P1を挿入」および「ナレーション音声を流す『桃太郎が流れてきました』」による加工が加えられ、さらに(a-2)では不図示のシーン画面全体への映像ファイルF1の配置指定、すなわち配置枠、によって(a-1)に示すシーン1が作成される。
 図16Aに示すシーン2は(b-2)に示すフレーム21とフレーム22の2フレームの指示によって作成される。フレーム21、フレーム22は(b-2)に示す「顔グループ」、「アップ度合い」、「表情」に関するメタデータ指定からそれぞれ(b-3)に示す映像ファイルF21、F22を持つ1次コンテンツを選出させる。そして(b-2)に示すフレーム21とフレーム22両方を用いる演出指定により、フレーム21の選出画像に「おおきくなぁれ」の文字L21、フレーム22の選出画像に「すやすや」の文字L22を挿入もしくは近辺に配置し、ナレーション音声「桃太郎は食べたり寝たりで大きくなりました」を加え、さらに(b-2)に不図示の映像ファイルF21のシーン画面左上への配置指定およびF22のシーン画面右下への配置指定に従うことによって(b-1)に示すシーン2が作成される。ここで映像ファイルF21およびF22は(b-1)に示すシーン2に組み込むにあたり画像サイズを適宜拡大・縮小してもよく、該拡大・縮小の指定もフレーム21、22の演出指定に含めることができる。また映像ファイルF21およびF22を選ぶにあたり(b-2)の指定メタデータ「アップ度合い 大」の代わりに「アップ度合い 中」もしくは「アップ度合い 小」を指定し1次コンテンツを選出してから、該1次コンテンツの映像ファイルにおける顔領域を検出し、該顔領域を含む近辺の領域のみを切り取って抽出した映像ファイルを、シーン2において用いる映像ファイルF21、F22とすることもできる。
 図16Bに示すシーン3は(c-2)に示すフレーム31とフレーム32の2フレームの指示によって作成される。フレーム31、フレーム32は(c-2)に示す「顔グループ」、「アップ度合い」、「表情」に関するメタデータ指定からそれぞれ(c-3)に示す映像ファイルF31、F32を持つ1次コンテンツを選出させる。そして(c-2)に示すフレーム31とフレーム32両方を用いる演出指定により、フレーム31の選出画像に「鬼がいじめているキャラ」の画像P31、フレーム32の選出画像に「鬼が怖がっているキャラ」の画像P32を挿入もしくは近辺に配置し、ナレーション音声「鬼を退治に行きました」を加え、さらに(c-2)には不図示の映像ファイルF31およびF32の配置指定に従うことによって(c-1)に示すシーン3が作成される。映像ファイルF31、F32に対して、シーン2のF21、F22に関して述べたのと同様にして1次コンテンツの映像ファイルに拡大・縮小処理もしくは顔領域近辺の抽出処理をしたものを用いることもできる。またシーン3の派生として、フレーム32の指定メタデータに「視線 左」を追加、さらに追加のフレーム33としてメタデータ指定が「顔グループ 最大」、「アップ度合い 大」、「表情 怒り」、「視線 右」のフレームを追加し、演出指定にフレーム33関連事項も追加することで(c-1)において領域だけ示したF33にフレーム33による選出映像ファイルを配置するようにすれば、「鬼が怖がっているキャラ」の画像P32を「だいきくん」の映像ファイルF33とF32が左右で取り囲んで「表情 怒り」の状態でにらんでいるという、フレーム間のメタデータの関連性をよりよく活用したシーンの作成なども可能である。この派生シーンの図16(c-1)からのフレーム指定追加による変更部分を図16Dに示す。フレーム指定を追加したことにより、図16(c-1)の映像F32の代わりにF321のような左向き視線で怒っている映像が選出され、また図16(c-1)F33対応部分には右向き視線で怒っている映像F331が選出され、それらの間に画像P32が配置されている。
 図16Bに示すシーン4は(d-2)に示すフレーム4の指示によって作成される。フレーム4は(d-2)に示す「顔グループ」、「アップ度合い」、「表情」に関するメタデータ指定から(d-3)に示す映像ファイルF4を持つ1次コンテンツを選出させる。そして(d-2)に示す演出指定により、映像ファイルF4に「バンザーイ!」の文字L4を挿入もしくは近辺に配置し、ナレーション音声「みんなで喜びました」を加え、さらに(d-2)には表記していないが映像ファイルF4のシーン画面内の配置指定に従うことによって(d-1)に示すシーン4が作成される。
 以上のように、メタデータ指定により選出された1次コンテンツの映像ファイルに対して、シーン画面における配置指定すなわち配置枠を設定したうえで、文字や画像といったデコレーション映像の追加やエフェクト機能の追加、ナレーションなどの音声情報の追加など各種の演出指定から定義される各種の演出効果を施すにより、シーン1~シーン4から構成され各シーンにおけるナレーション音声で示されるようなストーリーを持った2次コンテンツが作成可能である。該ナレーション音声は同内容の挿入・配置文字として演出指定に用い、各シーンのタイトルとすることも可能であり、ナレーション音声の代わりにBGMを加えるなど、2次コンテンツの視聴価値を高めるような種々の演出が可能である。
 また以上ではシーン1~シーン4が明確に区切られている想定であったが、演出指定によりシーン間にグラデーション効果などを用いて徐々に切換えることも可能であり、映像ファイルの挿入にあたりスライドイン・ディゾルブインなどの効果を加えることや、次シーンへの切換えで逆に映像ファイルにスライドアウト・ディゾルブアウトなどの効果を加えることも可能である。この場合、特にスライドインのような場合は前記シーン画面における配置枠を固定のものではなく移動するものとして定義すれば、演出指定を用いなくとも同等の効果が得られる。各種効果はBGMやナレーションなどと同期させるなどし、効果を加える時間を設定することが可能である。
 また以上ではメタデータ指定として主に「顔グループ」、「アップ度合い」、「表情」に関するものを例として述べたが、さらに細かい指定を加えたストーリーテンプレートを用意しておくことも可能である。また以上図16A、図16Bの例より明らかなように顔グループすなわち誰の顔であるかによる映像選出以外にも例えば車、乗り物、建物、犬や猫といったペット、動物、植物、景色、山、コレクションしている物や頻繁に撮る撮影対象などといったような、ユーザが興味・関心・愛着などを持ち多くの回数撮像しているような対象による映像選出によっても、各撮像対象に合うストーリーテンプレートを用意しておけば、ユーザにとって視聴価値の高い2次コンテンツが同様に自動作成できる。この場合図6のステップ2において顔に対してその部分である目、鼻、口、また顔に対してその特徴である表情を検出したように、各撮像対象に応じた部分や特徴を検出しておきメタデータ項目としてストーリーテンプレートにて利用することとなる。
 また以上では1次コンテンツ選出にあたりメタデータ項目の適合度数値が最大のものを用いるという想定で述べたが、1次コンテンツデータベース30における各メタデータ項目の適合度数値の分布をメタデータ比較・選択部31において把握した上で、該分布の上位に属する1次コンテンツをランダムに選ぶような処理をストーリーテンプレートに記載しておけば、同一テンプレートと同一の1次コンテンツ母集団によって作成された2次コンテンツであっても、ユーザにとっては作成のたびに新たに視聴を楽しめる内容とすることができる。また該分布上位の1次コンテンツをランダムに選ぶ処理を適用する際には、同一2次コンテンツ内、および同一テンプレートを利用して複数回作成される同一ストーリー間において1次コンテンツが重複して用いられるのを適宜避けるように処理し、該上位分布の1次コンテンツがもれなく2次コンテンツに用いられるようにすることも可能である。
 また、以上のようにナレーション音声で示されるような明確なストーリー構成を持った2次コンテンツを作成する代わりに、あまり明確なストーリー構成を持たない2次コンテンツも作成可能である。例えばメタデータ指定として「顔グループ」と「表情 笑顔」のみを用い、最大グループ顔となる人物の笑顔ベストショットという、特にストーリー性がなくとも視聴価値の高い2次コンテンツを作成させることもできる。この場合、上述したように適合度数値の上位の1次コンテンツをランダムに選ばせるか、もしくは順位に従って選ばせる処理とし、演出効果としては所定数選出した笑顔映像をスライドショーとして各シーンに順序表示させるもしくは1シーン内に映像を縮小して同時に複数配置してアルバムのようにする、さらに「表情 笑顔」にある程度関連性のあるBGMを加えるなどの指定からなるストーリーテンプレートを用意しておけばよい。該テンプレートは図12を参照して述べたような、ユーザ要求によるアレンジ指示を容易に受けることができ、かつアレンジ後も視聴価値のある2次コンテンツを生成できる。アレンジ指示としては、「顔グループ」および「表情」の項目変更のみでよく、必要ならBGM指定などもストーリーテンプレートに追加で指示できる。またメタデータ変更によるアレンジ指示としては、上述のようなメタデータ項目の「顔グループ」および「表情」の項目の変更によるアレンジの他にも、メタデータ項目の追加、例えば「視線 正面」の追加によるアレンジ指示も可能であり、逆にメタデータ項目を削除してより広い範囲の1次コンテンツから映像を選ばせるようなアレンジ指示も可能である。
 また、以上の2次コンテンツ作成およびアレンジは用いられる1次コンテンツの区間映像が動画か静止画のいずれにあるかによらず可能である。動画・静止画は特にストーリーテンプレートのフレームにおけるメタデータで指定しなければ一般にはフレームにおいて他のメタデータ指定により選出された動画・静止画の両者が混在する2次コンテンツが作成される。フレームのメタデータで指定すれば動画のみもしくは静止画のみの2次コンテンツ作成が可能であり、またフレームもしくはシーンごとに動画・静止画の指定を加えた2次コンテンツの作成も可能である。動画・静止画を指定することで2次コンテンツの視聴価値を高められる場合はストーリーテンプレートにおいて指定しておくことが好ましい。また、ユーザが映像コンテンツを撮像装置・端末装置からアップロードする段階において、ユーザの意図もしくはシステム運用設定によって、動画・静止画のいずれか一方のみを利用するようにすることも可能である。
 さらに、2次コンテンツを視聴したユーザからのフィードバック情報により、使用されている1次コンテンツを変更して2次コンテンツを修正すると共に、該修正情報によって1次コンテンツ作成機能を更新させる処理につき、図17を参照して説明する。該処理につき図17では2次コンテンツ配信と関連してメール配信を用いる場合とVoDを用いる場合とを説明するが、両者の違いはユーザーインターフェース関連の部分のみである。
 まずステップS300ではスケジュール管理部35の指示により所定の時間に2次コンテンツが作成され、ステップS301に進んで2次コンテンツの配信・視聴形態がメール対応かVoD対応かの場合分けがなされる。メール対応の場合、ステップS302に進んでユーザに対して2次コンテンツがメール送信され、続いてステップS303に進み、ユーザへの修正確認情報として、送信した2次コンテンツの確認・修正を促すメールを送信する。ステップS302とステップS303は、一度のメール送信に2次コンテンツと確認・修正メッセージ両方を含めるなどして同時に行ってもよい。続いてステップS304にて修正内容があるか判断され、修正内容がなければ終了し、修正内容があればステップS320へ進む。またステップS301においてVoD対応の場合、ステップS310に進み、ユーザはVoDサイトなどにログインするなどして2次コンテンツを視聴し、ステップS311に進みユーザが修正したいコンテンツがあるか、すなわち修正確認情報が判断され、修正要求がなければ終了し、修正要求があればステップS320へ進む。以上のようにステップS301においてメール対応とVoD対応とで処理が分かれたが、修正内容がある場合はステップS320で合流する。
 なお、ステップS300におけるスケジュール管理機能による2次コンテンツ作成とは、前述の通り、図11で説明した実施形態による作成であってもよいし、図11A、図11Bで説明した実施形態による作成であってもよい。
 ステップS320では、修正要求を受けたストーリーテンプレートを読み込み、修正対象フレームの内容、すなわちメタデータ指定と該指定により選出された1次コンテンツとを把握し、ステップS321に進み、該把握した内容からメタデータ適合度による選出範囲を広げるなどして修正対象となる1次コンテンツを探し修正対象の候補映像を選択して、ステップS322に進む。ステップS322では再度2次コンテンツの配信・視聴形態がメール対応かVoD対応かの場合分けがなされ、メール対応の場合はステップS323に進み、修正候補映像を必要に応じてサムネイル化するなどして修正候補リスト・修正候補情報としてメール添付してユーザに送信し、ステップS324にてユーザは修正指示をメール返信にて行い、ステップS325でメールの返信内容が解析され、ステップS326に進む。
 なお、ステップS321~S325は、システム側がメール添付で提供する修正候補映像をユーザが選択するという実施形態であるが、別実施形態として、ユーザ自身が自ら保有する映像を直接に選択して、当該保有映像を例えばステップS325でメール添付返信して、利用させるようにしてもよい。
 またステップS322においてVoD対応の場合、ステップS329に進み、ユーザは2次コンテンツを視聴していたVoDサイトなどにて直接修正候補映像を表示されるリストなどによって修正候補情報として確認し、修正対象フレームにおいて用いられる映像をユーザの所望の映像へと交換してステップS326に進む。
 当該、VoD対応の場合、ステップS329はユーザのマイページなどのサイトに表示させてもよい。また、ユーザは当該サイトに表示される修正候補映像の中から選択して所望の映像へと交換する代わりに、所望の映像として、自身が保有する画像を、当該サイトを介してアップロードすることで利用させるようにしてもよい。
 ここでメール対応時のステップS323、S324やVoD対応時のステップS329といった、ユーザが修正候補を選ぶ関連の処理においては、各フレームの指定メタデータ項目を見出しとして添えた修正候補映像をリストとして送り、ユーザが番号などで修正候補をメール返信もしくはVoDサイト上にて指定できるようにすると共に、修正前の2次コンテンツ該当フレーム部分において修正前の誤選出映像ファイルに映像指定を適用した映像を修正候補リストと並べるなどすれば、ユーザにとっては修正後の映像がイメージしやすく好ましい。
 ステップS326ではメール対応、VoD対応のいずれかの処理を経て得られた修正情報に対して、該修正がユーザ個人の嗜好かどうかの確認をする。ステップS327では該修正を対象フレームに適用して使用される映像を実際に修正する。ステップS328では次フレームの修正内容がないか判断され、まだ修正すべきフレームが残っている場合は次の修正対象フレームに対し修正処理を行うため、ステップS321に戻って同様の処理を繰り返す。
 修正すべき全フレームに対して修正処理がなされ、ステップS328にて肯定の判断となったときはステップS330に進み交換前および交換後の全ての映像ファイルに対して各々1次コンテンツの形で対応づけられているメタデータ項目のうち、該映像ファイルが1次コンテンツとして選出される処理においてストーリーテンプレートにおけるフレームの指示により参照されるメタデータ項目の適合度数値の変更を行う。例えば、交換前の映像ファイルにおいて対応するメタデータ項目の適合度数値を2割下げ、ユーザ指定により交換後の映像ファイルにおける対応メタデータ項目の適合度数値を5割上げる、などといった処理を行う。適合度数値が規格化で0~1の値の場合には前記処理で5割上げて1を越える場合には1とする、または該適合度数値の1との差を5割減らすなどの処理を行ってもよい。ステップS330にて適合度数値の変更を終えると、ステップS331に進み、個人ユーザに関連した修正すなわち該ユーザが個別に登録した顔グループ、また該顔グループに対応する映像ファイルにおける表情判定といった個人嗜好などの修正をユーザIDなどによる認証を行ったうえで特徴量データベース25の個別データベースへフィードバック処理する。ここで個別データベースへフィードバック処理するメタデータ項目で、特にフィードバックの回数が多いような項目は該ユーザにとって重要度が高いと判断し、個別データベースにその情報を残すと共に、メタデータ作成部27に対するフィードバック処理として該メタデータ項目の適合度を決める際に、ユーザにとっての重要度を反映した重みつけ(他のメタデータ項目と異なり一律に値を1割増やすなど)をさせるようにしてもよい。
 次にステップS332に進み、全体に関連した修正、すなわち例えばテーマパーク、水辺といった場面判定のような個人嗜好ではないものへの修正を、特徴量データベース25の一般データベースへフィードバック処理する。ステップS333では修正された全フレームに対する1次コンテンツ映像ファイル指定情報に従って再度2次コンテンツを作成し、ステップS334に進みメール対応かVoD対応かが場合分けされ、メール対応の場合はS335に進んで修正された2次コンテンツユーザにがメール送信され、再度修正が適切だったか再確認・再修正のメールも続いて送信される。ステップS334にてVoD対応の場合はステップS336に進みユーザはVoDサイト上にて修正後の2次コンテンツを視聴する。
 以上の図17を参照して説明した処理は主に特徴量データベース25、メタデータ作成部27に対するフィードバック処理であった。一方、映像区間分割部23へのフィードバック処理も可能であり、この場合の修正要求は2次コンテンツにおいて用いられている映像ファイルが前半部分は適切であったが後半部分は適切でないとユーザが判断するような場合がありうる。この場合は分割箇所を指定してかつ分割後のそれぞれの映像ファイルに対し再度1次コンテンツ作成が行われることとなる。
 なお、個人用データベースを用いず、一般用データベースのみを利用する実施形態では、以上の図17のフローにおいて、修正が個人の嗜好であるか確認するステップS326と、個別DBへのフィードバック処理を行うステップS331とは、省略される。特に、フィードバック処理は全て、ステップS332において一般DBに対して行われる。
 次に、以上のように図17を参照して説明した修正およびフィードバック処理により、システムが自動作成したシーンに用いられた映像ファイルをユーザが修正した例を図18に示す。図18に示すシーンは、ストーリーテンプレートにおいて特に「表情 笑顔」などのメタデータ項目を利用して映像ファイルを選出し、笑顔に対する演出効果の大きい文字「バンザーイ!」や「鬼がマイッタ」の画像をフレーム記載の演出指定として加えて作成されたシーンを想定している。これに対してシステムが自動選出・作成したシーンが同図(a)であり、映像ファイルF11が選出されている。しかしユーザは該シーンを視聴して、用いられている映像ファイルF11がストーリー性から考えてふさわしくないと判断し、修正を行いたいという要求に駆られ修正指示を出すことで、映像ファイルF12を選択する。こうして修正された結果得られたのが同図(b)のシーンである。次に図19を参照して示すように、この修正によりシステムはフィードバック情報として「表情 笑顔」の適合度を大きくすべき映像はF11よりもF12であるという情報を受け取りフィードバック処理することとなる。
 また図18の修正例において映像ファイルF11(映像交換前)、F12(映像交換後)のメタデータ適合度がユーザからのフィードバックによって修正される例を、ストーリーテンプレートのフレームにおいて図18のシーンに適した映像ファイルを選出させるメタデータ指定項目と共に図19にて示す。図19(a)は図18のシーンを作成する映像ファイルを選ぶためのメタデータ指定項目である。同図(b)は該メタデータ指定項目によりシステムが選んだ映像F11とそのメタデータ適合度の映像交換前後の変化を示すものであり、適合度は該当項目で一律に減っている。同図(c)はユーザが交換対象として選んだ映像ファイルF12とそのメタデータ適合度の映像交換前後の変化を示すものであり、適合度は該当項目にて一律で増えている。また同図(b)、(c)の交換前後の適合度を見比べると、映像交換前はシステムはF11を選ぶが、映像交換後は他にもっと適合度の高い1次コンテンツが新たに追加されない限りF11ではなくF12を選ぶようになるので、ユーザの要求を反映したフィードバック学習処理がなされていることもわかる。
 さらにまた、図17の処理にて映像ファイルの修正・交換を行う場合で、メール対応の場合にユーザ側に送付されてくるメール、およびその返信メールの例を図20(a)~(d)に示す。同図(a)は2次コンテンツ完成後、2次コンテンツと共にもしくは所定時間後に送付されてくる修正箇所の存在を確認するメールの文面例である。同図(b)が(a)に対するユーザの返信メール文面例であり、(b)からわかるようにユーザは修正したい箇所を「2,5」と番号指定するだけでよい。また修正箇所はフレーム1~フレーム6の各フレームを参照しているが、それぞれ「無表情」~「笑顔」とメタデータ項目が併記されているのでユーザは2次コンテンツを構成しているフレームという概念がなくとも、2次コンテンツのストーリー性・シナリオ性から「フレーム1:無表情」がどのシーンのどの映像を指しているのか容易に判断可能であり、必要ならば「無表情」以外にもどのシーンのどの映像を指すのか明らかにする情報を追加すればよい。
 また図20(c)は同図(b)のユーザ返信によるフレーム2、5の修正要求のうち、フレーム2の修正候補リストをシステムが返信したメール文面の例である。修正候補映像リストは画像1~3で、例えばサムネイル画像で示されており、また個人嗜好か否かの質問欄もある。これに対する返信が同図(d)であり、ユーザは画像2を採用する旨を「2」と番号指定するだけでよく、また個人嗜好の変更である旨を「1」と番号指定するだけでよい。システムは該修正情報を受け、個人データベースの修正を行うこととなる。
 以上、図20を参照してメール対応の場合にユーザが送受信するメール文面の例を示したが、同様のやりとりがVoD対応の場合も可能である。例えば図20とほぼ同様のやりとりがウェブサイト上で可能であり、ウェブサイト上での場合は例えば同図(a)の「フレーム1:無表情 の画像を替えたい」の代わりに実際にフレーム1を映像としてリストに載せて示すこともできる。また同図(c)において代替画像もメールの場合よりも数多く表示することもでき、同図(a)~(d)の項目番号選択はポップアップウィンドウなどを介して行うこともできる。
 また、図20では映像の代替交換指示につき例を示したが、同様にしてメール文面にて区間映像の再分割箇所のフィードバック処理をユーザとシステムでやりとりすることができる。例えば、メールならば再分割を希望する映像区間を図20と同様に数字などの記号によってユーザが指示し、かつ分割希望箇所を再生時間などの指定により指示することができる。VoDの場合は実際に区間映像を再生しながら分割希望箇所で再生を止めることにより分割箇所を指示するなども可能である。
 以上、図17のフローにより、ユーザに対して提供された2次コンテンツの修正を通じてフィードバックを行う処理を説明した。次に、フィードバックを行う別実施形態として、映像(メタデータを付与できるよう区間映像の単位に分割済みの映像とする)をユーザがアップロードする際に、分類・検出カテゴリ又はより一般にメタデータを、全部又は一部付与する場合があるので、当該付与情報を利用してフィードバックを行う実施形態につき、説明する。
 当該実施形態によるフィードバック処理のフローチャートを図21に示す。まずステップS2900にて、ユーザが映像をシステムにアップロードすると共に、当該映像のメタデータを一部又は全部付与してシステム側に提供する。なお、当該アップロードとは、図1で説明したような、プラットフォーム4への映像入力部4aへの映像入力一般に対応し、映像以外の追加入力としてユーザ付与のメタデータを伴うものである。入力される映像の種類としては、例えば図9で説明したような各ユーザの顔情報登録に必要な映像ではなく、ユーザがサービスを利用するために入力する一般的な映像を想定する。
 次に、ステップS3000で、システム側で、ユーザのアップロード映像より1次コンテンツを暫定的に作成する。すなわち、ユーザが当該映像と共に付与したメタデータは参照せずに、当該映像に対して、図3などの映像特徴量抽出部24、特徴量比較処理部26、メタデータ作成部27で順次処理を行い、1次コンテンツDB30に暫定的な1次コンテンツ(当該映像と、本システムによる自動付与のメタデータとを対応づけた1次コンテンツ)を作成する。
 ステップS3300では、図17のステップS330に対応する処理を行う。すなわち図17でのフィードバック情報に相当する情報として、ステップS3000でシステムが自動付与したメタデータを、ユーザが映像登録に際して付与したメタデータに変更させる情報を、フィードバック処理部45に渡すようにする。続くステップS331、S332は、図17での説明と同様である。
 なお、ユーザ付与のメタデータがメタデータ項目のみである場合には、当該項目の適合度数値を1に近い所定値としてフィードバック情報とする。さらに、ステップS332では重要度の高い処理内容として対応させる。
 以上のように、当該実施形態では、2次コンテンツ生成は伴わないものの、図17と同様のフィードバックの効果が得られる。すなわち、メタデータのユーザ付与の値への変更フィードバックにより、特徴量DB25が学習を行うことで精度が上がり、今後、登録時にユーザがメタデータを付与しない場合であっても、精度の高いメタデータを付与することができるようになる。
 また、本願発明における映像入力の形式を、例えばJPEGなどの所定規格の静止画に限定する実施形態につき説明する。図22は当該実施形態の構成を示すブロック図である。図22に示すように、映像認識・2次コンテンツ作成プラットフォーム4は、図2の構成から映像規格変換部11、静止画動画判定部10及び映像分割部12を除いた構成となる。撮像装置・端末装置からは、所定規格の静止画が入力される。そして、当該静止画を前記各実施形態における映像区間とみなして、分類カテゴリ付与部13以降の処理は同様となるが、映像分割部12が存在しないので、フィードバック処理部19がフィードバック要求するのは分類カテゴリ付与部13、メタデータ作成部14及び2次コンテンツ作成・保存部16である。
 なお、当該図22の実施形態においても、図2の実施形態における説明と同様にして各機能ブロックを実現することができることは明らかである。特に、撮像装置1は、携帯装置2内に含まれるカメラ等を利用してもよい。また、プラットフォーム4へ映像が入力される手段としては、ブログページやSNSなどの、他システムサイトを経由して入力されてもよい。さらに、視聴装置5は、デジタルフォトフレームであってもよい。
 なおまた、本願発明において、撮像装置・端末装置が静止画ではなく動画を保有している場合、当該実施形態を利用するには、動画の各フレームよりなる静止画を映像入力とすればよい。例えば、30フレーム/秒の動画であれば、動画1秒毎に30枚の静止画を生成して、映像入力とする。また、事前設定で、所定数毎にフレームを間引いて静止画を生成して映像入力としてもよい。このようなフレーム単位の静止画利用によって、図22の実施形態を実現してもよい。また、図2の実施形態において、このようなフレーム単位の静止画に映像入力を限定してもよい。
 本発明によれば、ユーザは自分で撮影した動画像や静止画像をネットを介して2次コンテンツ作成プラットフォームに送信するだけで、システムが自動的にユーザの映像にユーザIDや分類・検出カテゴリおよびその適合度などからなるメタデータを付与して1次コンテンツとして保存・蓄積されるので、ユーザは撮影映像の内容を示すメタデータを入力する手間にわずらわされることがない。また、システムが所定の時間もしくはユーザのリクエストを受けて、あらかじめ準備されたストーリーテンプレートとユーザごとに蓄積された該1次コンテンツとを用いて、ストーリーに沿ったイラストやナレーションを加えたスライドショーやデジタルアルバムといった視聴価値の高い2次コンテンツを自動的に作成し、メールやVoD(ビデオオンデマンド)にて配信するので、ユーザは撮影した映像を保存するだけで様々な2次コンテンツの視聴を楽しめるようになる。また、システムが誤ったもしくはユーザ嗜好に合わないメタデータ付与を行った場合、ユーザが視聴する2次コンテンツにおいてストーリー性に合わない1次コンテンツが利用されることとなるが、ユーザはこの用いられている1次コンテンツを不適切であると判断し、自分の1次コンテンツから交換対象、代替対象の映像候補を受け取り、交換指示を送って修正させ、修正された2次コンテンツを再視聴することができる。
 また、システムはユーザからの修正情報を利用して1次コンテンツに対するメタデータ付与の辞書機能などを修正更新し学習させることにより1次コンテンツへのメタデータ付与機能の精度を上げ、結果として以降の2次コンテンツ作成における映像選択に際してユーザの意向がより反映された選択がなされ、ユーザにとって満足度の高い2次コンテンツが作成される傾向が強まる。すなわち、フィードバックにより、今後、フィードバックを行った映像に類似する映像が入力された場合には、先にユーザがフィードバックしたメタデータ又は当該メタデータに近いデータが自動で付与される可能性が高くなる。
 また、該修正は視聴価値のある2次コンテンツの改善に対する積極的な要求であるのでユーザの修正作業を行う意欲が促進され、しかも該修正作業は2次コンテンツに利用される素材映像を修正交換候補リストから選択するだけであって煩雑なメタデータ編集のような負担もないが、結果として直接手作業によって行うと非常に煩雑な作業となってしまうメタデータ付与の辞書機能の学習更新に用いられることとなる。また、辞書機能はユーザ毎に個別のデータベースが用意されているので、特定ユーザにのみ必要な個別の認識機能は特定ユーザのみでフィードバック情報を利用して強化・学習され、他ユーザに必要な認識機能に悪影響を与えることがない。さらに、ユーザによらず共通に用いることのできる辞書機能にはユーザ共通のデータベースが用意されているので、共通に必要な認識機能は多数のユーザのフィードバックによって効率的に強化・学習されることとなる。
11、22・・・映像規格変換部、12・・・映像分割部、23・・・映像区間分割部、13・・・分類・検出カテゴリ付与部、14、27・・・メタデータ作成部、15・・・1次コンテンツ保存部、30・・・1次コンテンツデータベース、16、33・・・2次コンテンツ作成部、17・・・送信部、19、45・・・フィードバック処理部、24・・・映像特徴量抽出部、25・・・特徴量データベース、26・・・特徴量比較処理部、33・・・2次コンテンツ作成部、32・・・ストーリーテンプレートデータベース

Claims (14)

  1.  ネットワーク経由でアップロードされた静止画を含む映像コンテンツを所定の映像規格に変換した映像区間とする映像規格変換部と、
     該映像規格変換部で変換された映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与部と、
     前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成部と、
     前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存部と、
     前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存部から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成部と、
     前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信部と、
     前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処理部とを具備し、
     前記フィードバック処理部は、前記修正フィードバック情報の内容に応じて、前記分類・検出カテゴリ付与部および前記メタデータ作成部の内の少なくとも一つに更新処理要求することを特徴とする2次コンテンツ提供システム。
  2.  ネットワーク経由でアップロードされた映像コンテンツを所定の映像規格に変換する映像規格変換部と、
     該映像規格変換部で変換された映像コンテンツを、関連する内容を一映像区間とする複数映像区間に分割する映像分割部と、
     該分割部で分割された映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与部と、
     前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成部と、
     前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存部と、
     前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存部から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成部と、
     前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信部と、
     前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処理部とを具備し、
     前記フィードバック処理部は、前記修正フィードバック情報の内容に応じて、前記映像分割部、分類・検出カテゴリ付与部およびメタデータ作成部の内の少なくとも一つに更新処理要求することを特徴とする2次コンテンツ提供システム。
  3.  所定規格の静止画を映像区間として、該映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与部と、
     前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成部と、
     前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存部と、
     前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存部から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成部と、
     前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信部と、
     前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処理部とを具備し、
     前記フィードバック処理部は、前記修正フィードバック情報の内容に応じて、前記分類・検出カテゴリ付与部および前記メタデータ作成部の内の少なくとも一つに更新処理要求することを特徴とする2次コンテンツ提供システム。
  4.  前記分類・検出カテゴリ付与部は、前記映像区間の映像特徴量を抽出する映像特徴量抽出部と、前記映像特徴量と複数項目からなる映像分類・検出項目との関連を記憶する特徴量データベースと、前記映像特徴量と前記特徴量データベースとを比較して、前記映像分類・検出項目の適合度を決める特徴量比較処理部とを含み、
     前記分類・検出カテゴリは前記映像分類・検出項目と該映像分類・検出項目に付属する前記適合度とを含むことを特徴とする請求項1ないし3のいずれかに記載の2次コンテンツ提供システム。
  5.  前記特徴量データベースは、前記映像特徴量との比較での利用時および前記フィードバック処理部による更新処理での利用時において、前記映像区間に含まれるユーザIDに関わらず一般に利用される一般データベースと、前記ユーザIDによって区別して利用される個別データベースとを含み、
     前記特徴量比較処理部は前記一般データベースとの比較結果よりも前記個別データベースとの比較結果を優先することを特徴とする請求項4に記載の2次コンテンツ提供システム。
  6.  前記2次コンテンツ作成部は、前記映像ファイルを配置する複数の配置枠と、前記配置枠への演出効果と、前記配置枠へ配置する前記映像ファイルの前記メタデータの参照による前記1次コンテンツ保存部内の1次コンテンツからの選出に関する定義とを含むストーリーテンプレートを保存するストーリーテンプレートデータベースを備え、
    前記2次コンテンツを前記ストーリーテンプレートデータベース内のストーリーテンプレートに従って作成することを特徴とする請求項1ないし5のいずれかに記載の2次コンテンツ提供システム。
  7.  前記分類・検出カテゴリ付与部で付与された前記映像分類・検出カテゴリは、前記映像区間に映っている顔が誰であるかを示す顔グループと該顔グループの適合度を含み、前記ストーリーテンプレートデータベース内には、前記選出に関する定義が所定の顔グループの適合度が所定基準を満たすことを選出判断基準とするものであるストーリーテンプレートが含まれることを特徴とする請求項6に記載の2次コンテンツ提供システム。
  8.  前記分類・検出カテゴリ付与部で付与された前記映像分類・検出カテゴリは、前記映像区間に映っている顔の表情を示す表情項目と該表情項目の適合度を含み、前記ストーリーテンプレートデータベース内には、前記選出に関する定義が所定の表情項目の適合度が所定基準を満たすことを選出判断基準とするものであるストーリーテンプレートが含まれることを特徴とする請求項6に記載の2次コンテンツ提供システム。
  9.  前記2次コンテンツ作成部は、前記ストーリーテンプレートを参照して前記2次コンテンツにおいて選出・配置された前記映像ファイルの修正交換候補リストを前記修正候補情報として作成し、前記修正フィードバック情報は前記修正交換候補リストから修正候補を決定する情報を含むことを特徴とする請求項6に記載の2次コンテンツ提供システム。
  10.  前記フィードバック処理部は、前記修正フィードバック情報から修正前後の1次コンテンツのメタデータおよび該修正箇所の前記ストーリーテンプレートにおける前記選出に関する定義を読みとって、前記2次コンテンツ作成部において、該修正の後の1次コンテンツが該修正の前の1次コンテンツよりも前記選出に関する定義によって選出されやすくなるよう更新処理をさせることを特徴とする請求項6に記載の2次コンテンツ提供システム。
  11.  前記2次コンテンツに関する修正フィードバック情報には前記ストーリーテンプレートにおけるメタデータの指定情報が含まれ、
     前記ストーリーテンプレートは前記修正フィードバック情報のメタデータ指定情報を受けて前記ストーリーテンプレートにおけるメタデータの指定情報を変更できることを特徴とする請求項6に記載の2次コンテンツ提供システム。
  12.  前記送信部による送信と前記フィードバック処理部によるフィードバック情報の受信とを、メールまたはVoDにより行うことを特徴とする請求項1ないし11のいずれかに記載の2次コンテンツ提供システム。
  13.  ネットワーク経由でアップロードされた静止画を含む映像コンテンツを所定の映像規格に変換した映像区間とする映像規格変換工程と、
     該映像規格変換工程で変換された映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与工程と、
     前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成工程と、
     前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存工程と、
     前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存工程から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成工程と、
     前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信工程と、
     前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処工程とを具備し、
     前記フィードバック処理工程は、前記修正フィードバック情報の内容に応じて、前記分類・検出カテゴリ付与工程および前記メタデータ作成工程の内の少なくとも一つに更新処理要求することを特徴とする2次コンテンツ提供方法。
  14.  ネットワーク経由でアップロードされた映像コンテンツを所定の映像規格に変換する映像規格変換工程と、
     該映像規格変換工程で変換された映像コンテンツを、関連する内容を一映像区間とする複数映像区間に分割する映像分割工程と、
     該映像分割工程で分割された映像区間に分類・検出カテゴリを自動的に付与する分類・検出カテゴリ付与工程と、
     前記分類・検出カテゴリを含むメタデータを作成するメタデータ作成工程と、
     前記映像区間の映像ファイルを前記メタデータと関連付けて1次コンテンツとして保存する1次コンテンツ保存工程と、
     前記メタデータに基づいて前記メタデータに関連づけられた前記映像ファイルを前記1次コンテンツ保存工程から選出して所定の編集を加えた2次コンテンツを自動的に作成する2次コンテンツ作成工程と、
     前記2次コンテンツおよび前記2次コンテンツに関する修正候補情報を送信する送信工程と、
     前記2次コンテンツに関する修正フィードバック情報を受信・処理するフィードバック処工程とを具備し、
     前記フィードバック処理工程は、前記修正フィードバック情報の内容に応じて、前記映像分割工程、前記分類・検出カテゴリ付与工程および前記メタデータ作成工程の内の少なくとも一つに更新処理要求することを特徴とする2次コンテンツ提供方法。
PCT/JP2010/070102 2009-11-25 2010-11-11 2次コンテンツ提供システムおよび方法 WO2011065236A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/511,833 US20120274846A1 (en) 2009-11-25 2010-11-11 Secondary content provision system and method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009-267394 2009-11-25
JP2009267394 2009-11-25
JP2010-232913 2010-10-15
JP2010232913A JP5697139B2 (ja) 2009-11-25 2010-10-15 2次コンテンツ提供システムおよび方法

Publications (1)

Publication Number Publication Date
WO2011065236A1 true WO2011065236A1 (ja) 2011-06-03

Family

ID=44066342

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/070102 WO2011065236A1 (ja) 2009-11-25 2010-11-11 2次コンテンツ提供システムおよび方法

Country Status (3)

Country Link
US (1) US20120274846A1 (ja)
JP (1) JP5697139B2 (ja)
WO (1) WO2011065236A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013170023A1 (en) * 2012-05-11 2013-11-14 Intellectual Ventures Fund 83 Llc Photo -album generaton from a photo-collection based on a scenario and on the statistical distribution of the types of photos.
JP2014520345A (ja) * 2011-06-20 2014-08-21 グーグル・インク 画像へのテキストによる提案
US8831360B2 (en) 2011-10-21 2014-09-09 Intellectual Ventures Fund 83 Llc Making image-based product from digital image collection
JP2017534127A (ja) * 2014-08-01 2017-11-16 ソニー株式会社 コンテンツフォーマット変換の検証
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
JP2020065307A (ja) * 2020-01-31 2020-04-23 株式会社オープンエイト サーバおよびプログラム、動画配信システム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5618059B2 (ja) * 2010-06-28 2014-11-05 カシオ計算機株式会社 画像表示装置、画像記憶方法並びにプログラム
US8504910B2 (en) * 2011-01-07 2013-08-06 Facebook, Inc. Mapping a third-party web page to an object in a social networking system
US20140068515A1 (en) * 2012-08-29 2014-03-06 mindHIVE Inc. System and method for classifying media
CN103947217B (zh) * 2012-09-28 2018-02-27 松下电器(美国)知识产权公司 影像管理方法以及影像管理系统
JP6099511B2 (ja) * 2013-07-26 2017-03-22 三菱電機株式会社 ドキュメント作成装置
US9619470B2 (en) 2014-02-04 2017-04-11 Google Inc. Adaptive music and video recommendations
CA2977025C (en) * 2015-03-03 2020-12-08 Taser International, Inc. Automated integration of video evidence with data records
KR102275194B1 (ko) 2017-03-23 2021-07-09 스노우 주식회사 스토리영상 제작 방법 및 시스템
JP7104779B2 (ja) * 2017-09-15 2022-07-21 達闥科技(北京)有限公司 対象認識方法、装置及びインテリジェント端末
US10575069B2 (en) * 2017-12-20 2020-02-25 International Business Machines Corporation Method and system for automatically creating narrative visualizations from audiovisual content according to pattern detection supported by cognitive computing
US11429658B1 (en) * 2018-04-11 2022-08-30 Soroco Private Limited Systems and methods for content-aware image storage
JP7515903B2 (ja) 2022-06-24 2024-07-16 株式会社フォーシスアンドカンパニー 画像編集システム
US12032622B2 (en) * 2022-07-20 2024-07-09 DroneDeploy, Inc. Methods and systems for automatically classifying reality capture data

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132796A (ja) * 2000-10-24 2002-05-10 Kyodo Printing Co Ltd 画像特徴量対キーワード辞書を記録したコンピュータ読み取り可能な記録媒体、画像特徴量対キーワード辞書構築装置及びその方法並びに画像データベース構築補助装置及びその方法
JP2002185908A (ja) * 2000-12-12 2002-06-28 Minolta Co Ltd 画像抽出プログラムを記録したコンピュータ読取可能な記録媒体、画像抽出装置および画像抽出方法
JP2004362314A (ja) * 2003-06-05 2004-12-24 Ntt Data Corp 検索情報登録装置、情報検索装置、検索情報登録方法
JP2007026316A (ja) * 2005-07-20 2007-02-01 Yamaha Motor Co Ltd 画像管理装置、ならびに画像管理用コンピュータプログラムおよびそれを記録した記録媒体
WO2008079249A2 (en) * 2006-12-20 2008-07-03 Eastman Kodak Company Storyshare automation
JP2009055152A (ja) * 2007-08-24 2009-03-12 Sony Corp 動画作成装置、動画作成方法、およびプログラム
JP2009064079A (ja) * 2007-09-04 2009-03-26 Yahoo Japan Corp Webページに対して適合する画像を提示するシステム
JP2009071480A (ja) * 2007-09-12 2009-04-02 Sony Corp 撮像装置、撮像方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69915566T2 (de) * 1998-11-25 2005-04-07 Eastman Kodak Co. Zusammenstellung und Änderung von Fotocollagen durch Bilderkennung
US7286723B2 (en) * 2003-06-27 2007-10-23 Hewlett-Packard Development Company, L.P. System and method for organizing images
JP2005346440A (ja) * 2004-06-03 2005-12-15 Ntt Docomo Inc メタデータ付与支援システム、制御装置、及び、メタデータ付与支援方法
US8555318B2 (en) * 2006-12-06 2013-10-08 Verizon Patent And Licensing Inc. Customized media on demand
US8934717B2 (en) * 2007-06-05 2015-01-13 Intellectual Ventures Fund 83 Llc Automatic story creation using semantic classifiers for digital assets and associated metadata
US8311344B2 (en) * 2008-02-15 2012-11-13 Digitalsmiths, Inc. Systems and methods for semantically classifying shots in video

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132796A (ja) * 2000-10-24 2002-05-10 Kyodo Printing Co Ltd 画像特徴量対キーワード辞書を記録したコンピュータ読み取り可能な記録媒体、画像特徴量対キーワード辞書構築装置及びその方法並びに画像データベース構築補助装置及びその方法
JP2002185908A (ja) * 2000-12-12 2002-06-28 Minolta Co Ltd 画像抽出プログラムを記録したコンピュータ読取可能な記録媒体、画像抽出装置および画像抽出方法
JP2004362314A (ja) * 2003-06-05 2004-12-24 Ntt Data Corp 検索情報登録装置、情報検索装置、検索情報登録方法
JP2007026316A (ja) * 2005-07-20 2007-02-01 Yamaha Motor Co Ltd 画像管理装置、ならびに画像管理用コンピュータプログラムおよびそれを記録した記録媒体
WO2008079249A2 (en) * 2006-12-20 2008-07-03 Eastman Kodak Company Storyshare automation
JP2009055152A (ja) * 2007-08-24 2009-03-12 Sony Corp 動画作成装置、動画作成方法、およびプログラム
JP2009064079A (ja) * 2007-09-04 2009-03-26 Yahoo Japan Corp Webページに対して適合する画像を提示するシステム
JP2009071480A (ja) * 2007-09-12 2009-04-02 Sony Corp 撮像装置、撮像方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014520345A (ja) * 2011-06-20 2014-08-21 グーグル・インク 画像へのテキストによる提案
US10091202B2 (en) 2011-06-20 2018-10-02 Google Llc Text suggestions for images
US8831360B2 (en) 2011-10-21 2014-09-09 Intellectual Ventures Fund 83 Llc Making image-based product from digital image collection
WO2013170023A1 (en) * 2012-05-11 2013-11-14 Intellectual Ventures Fund 83 Llc Photo -album generaton from a photo-collection based on a scenario and on the statistical distribution of the types of photos.
US8917943B2 (en) 2012-05-11 2014-12-23 Intellectual Ventures Fund 83 Llc Determining image-based product from digital image collection
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
JP2017534127A (ja) * 2014-08-01 2017-11-16 ソニー株式会社 コンテンツフォーマット変換の検証
JP2020065307A (ja) * 2020-01-31 2020-04-23 株式会社オープンエイト サーバおよびプログラム、動画配信システム

Also Published As

Publication number Publication date
US20120274846A1 (en) 2012-11-01
JP2011134302A (ja) 2011-07-07
JP5697139B2 (ja) 2015-04-08

Similar Documents

Publication Publication Date Title
JP5697139B2 (ja) 2次コンテンツ提供システムおよび方法
KR102444712B1 (ko) 다중-모달리티 특징 융합을 통한 퍼스널 미디어 자동 재창작 시스템 및 그 동작 방법
US8010486B2 (en) Network media channels
JP5092000B2 (ja) 映像処理装置、方法、及び映像処理システム
CN102428466B (zh) 数据处理装置以及数据处理方法
JP4510718B2 (ja) 画像出力装置及びその制御方法
JP6669952B1 (ja) 動画のためのタグ付け装置、方法、およびプログラム
TWI436808B (zh) Input support device, input support method and recording medium
WO2012137397A1 (ja) コンテンツ処理装置、コンテンツ処理方法、コンテンツ処理プログラム、及び集積回路
US20120110432A1 (en) Tool for Automated Online Blog Generation
JP2007116658A (ja) 画像集作成システム、画像集作成方法および画像集作成プログラム
KR102313203B1 (ko) 인공지능 콘텐츠 창작 시스템 및 방법
JP2012129724A (ja) 映像配信装置及び映像配信方法
JP2002108892A (ja) データ管理システム、データ管理方法、及び、記録媒体
CN113841417A (zh) 影片生成方法、终端设备、拍摄设备及影片生成系统
US11080531B2 (en) Editing multimedia contents based on voice recognition
CN113302603A (zh) 用于搜索和排序个性化视频的系统和方法
US11330307B2 (en) Systems and methods for generating new content structures from content segments
WO2009145257A1 (ja) コンテンツ自動再生方法、コンテンツ自動再生プログラム、コンテンツ自動再生システム、およびコンテンツ自動再生サーバ
JP2012178028A (ja) アルバム作成装置、アルバム作成装置の制御方法、及びプログラム
CN101471115B (zh) 拍摄装置和拍摄方法
CN115315960B (zh) 内容修正装置、内容发布服务器、内容修正方法以及记录介质
JP2011124655A (ja) 映像コンテンツ推奨管理装置、映像コンテンツの録画を実行させる方法及びそのプログラム
JP6673771B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2009290651A (ja) コンテンツ管理方法、コンテンツ自動編集方法、コンテンツ管理プログラム、コンテンツ自動編集プログラム、サーバ、情報機器、およびコンテンツ自動編集システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10833083

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13511833

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10833083

Country of ref document: EP

Kind code of ref document: A1