WO2020021651A1 - 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体 - Google Patents

自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体 Download PDF

Info

Publication number
WO2020021651A1
WO2020021651A1 PCT/JP2018/027871 JP2018027871W WO2020021651A1 WO 2020021651 A1 WO2020021651 A1 WO 2020021651A1 JP 2018027871 W JP2018027871 W JP 2018027871W WO 2020021651 A1 WO2020021651 A1 WO 2020021651A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
parent
predetermined
data
automatic
Prior art date
Application number
PCT/JP2018/027871
Other languages
English (en)
French (fr)
Inventor
大西 邦一
誠治 村田
Original Assignee
マクセル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マクセル株式会社 filed Critical マクセル株式会社
Priority to CN201880095217.1A priority Critical patent/CN112352421A/zh
Priority to PCT/JP2018/027871 priority patent/WO2020021651A1/ja
Priority to JP2020531889A priority patent/JP7252236B2/ja
Priority to US17/262,224 priority patent/US11841901B2/en
Publication of WO2020021651A1 publication Critical patent/WO2020021651A1/ja
Priority to JP2023047096A priority patent/JP2023080121A/ja
Priority to US18/385,409 priority patent/US20240061882A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present invention relates to an automatic video production device and an automatic video production method for processing and editing video content.
  • next-generation video for example, in the AR or MR, advanced video technology for real-time, rational, and seamless fusion of a real space image (user's real visual recognition video) and a virtual video (predetermined video object, etc.) Is required.
  • the information processing devices may automatically or autonomously perform video processing tasks conventionally performed by humans, such as video processing and editing. It is becoming possible in practice, and several techniques for that purpose have been disclosed.
  • AI artificial intelligence
  • Patent Document 1 As a background art in this technical field, there is, for example, Patent Document 1.
  • a predetermined information processing apparatus such as a computer gives a series of shooting instruction commands to a shooting apparatus in accordance with a predetermined rendering procedure, and automatically edits a shot moving picture according to the set of instructions.
  • Video system technology is disclosed.
  • Patent Literature 1 discloses a technique in which a predetermined video processing device performs video processing and editing processing in accordance with a predetermined rendering scheme (framework indicating the content and procedure of the rendering). .
  • a predetermined rendering scheme framework indicating the content and procedure of the rendering.
  • automatic and autonomous video fusion production that does not impair the storyline or content image of the fusion source video content, and that can achieve a desired appeal to viewers and users by embedding and fusion of video objects.
  • the present invention has been made in order to solve the above-described problems, and has as its object to provide an automatic video production device and an automatic video production system for automatically or autonomously executing the advanced video fusion production as described above.
  • An object of the present invention is to provide a method and a video recording medium used for the method.
  • the present invention has been made in view of the above background art and problems, and, for example, embedding or fusing a predetermined child video object not included in a parent video in a predetermined video scene of a parent video content to be a video fusion source.
  • Automatic video production device that performs decoding of all or part of the parent video content, or divides the parent video content into predetermined parent video scenes, and decodes the parent video content or the parent video scene.
  • FIG. 1 is a block diagram illustrating a configuration of an automatic video effect device according to a first embodiment.
  • 5 is a processing flowchart of a cast data and script data generation process according to the first embodiment.
  • FIG. 3 is a schematic diagram showing the contents and data structure of cast data in the first embodiment.
  • FIG. 2 is a schematic diagram illustrating the contents and data structure of script data according to the first embodiment.
  • FIG. 2 is a schematic diagram illustrating a data stream structure of video content in which cast data and script data are embedded in the first embodiment.
  • 5 is a processing flowchart of a video fusion effect, processing, and editing process according to the first embodiment.
  • FIG. 1 is a block diagram illustrating a configuration of an automatic video effect device according to a first embodiment.
  • 5 is a processing flowchart of a cast data and script data generation process according to the first embodiment.
  • FIG. 3 is a schematic diagram showing the contents and data structure of cast data in the first embodiment.
  • FIG. 2 is a schematic diagram
  • FIG. 2 is a schematic diagram showing an outline of a specific example of a video fusion effect, processing, and editing process according to the first embodiment for each processing step.
  • 13 is a flowchart of a processing process according to the second embodiment.
  • FIG. 13 is a schematic diagram conceptually showing a flow of a processing process in a second embodiment.
  • FIG. 14 is a configuration block diagram of an automatic video effect device according to a third embodiment. 13 is a flowchart of a processing process according to the third embodiment.
  • FIG. 14 is a block diagram illustrating a configuration of an automatic video effect device according to a fourth embodiment. 15 is a flowchart of a processing process according to the fourth embodiment.
  • FIG. 14 is a schematic diagram illustrating an example of an AR display performed by a glasses-type HMD according to a fourth embodiment.
  • FIG. 15 is a block diagram illustrating a configuration of an automatic video effect device according to a fifth embodiment.
  • 17 is a flowchart of a processing process according to the fifth embodiment.
  • FIG. 18 is a conceptual diagram of a commercial image fusion service system using an automatic video production device in a sixth embodiment.
  • FIG. 1 is a block diagram showing the configuration of the automatic video production device according to the present embodiment.
  • the automatic video production device 80 surrounded by a broken line includes a video content data reading unit 1, a video content decoding unit 2, a video object identification and extraction unit 3, a viewer biometric data detection unit 4, a viewer gesture and behavior data.
  • Detection unit 5 surrounding environment data detection unit 6, cast data generation unit 7, script data generation unit 8, child (fusion target) video object data storage unit 9, processing data storage unit 10, video fusion detection unit 11, video processing, It is composed of functional units such as an editing and rendering unit 12 and a control unit 20.
  • the respective functional units are connected to a common data bus 25 as shown in the figure, and data signals and control signals can be exchanged between predetermined functional units via the data bus 25.
  • the video (hereinafter referred to as a parent video for simplicity) content serving as a fusion source of video fusion is video content that has been produced, such as a drama or a recorded artist live video.
  • the video content data reading unit 1 in the automatic video production device 80 has a function of reading video data of the parent video content 50.
  • the video content decrypting unit 2 decrypts the video content and scenario from the video data of the parent video content 50 obtained from the video content data reading unit 1, and further converts the entire parent video content into a predetermined video scene from the decryption result. It has a function to perform division processing.
  • the video object identification and extraction unit 3 identifies, extracts, and extracts, as individual video objects, some or all of video objects including persons and objects appearing in the parent video content 50 and also backgrounds and scenes.
  • the viewer biometric data detection unit 4 has a function of detecting and acquiring biometric data of the viewer or the user 60, such as the respiratory rate, heart rate, body temperature, blood pressure, and perspiration rate, using the predetermined biometric sensor 15.
  • the viewer gesture and behavior data detection unit 5 uses a predetermined visual sensor 16 such as a viewer monitor camera to detect, for example, various data relating to the gesture or behavior of the viewer or the user 60 such as a change in the viewer's line of sight or facial expression. It has the function of detecting and acquiring.
  • a predetermined visual sensor 16 such as a viewer monitor camera to detect, for example, various data relating to the gesture or behavior of the viewer or the user 60 such as a change in the viewer's line of sight or facial expression. It has the function of detecting and acquiring.
  • the surrounding environment data detecting unit 6 has a function of detecting and acquiring data relating to the state of the surrounding environment of the viewer or the user 60 such as temperature, humidity, atmospheric pressure, and illuminance (brightness) by the predetermined environment sensor 17. Note that these detection and acquisition data are not limited to the above-described data, and any data item may be added or selected as needed. Also, it is needless to say that all of the detection units need not be provided in the automatic video production device 80, and can be arbitrarily added or selected according to necessary data items. If detection and acquisition data are not required at all, it is of course not necessary to equip them all.
  • the cast data creation unit 7 is each video object (hereinafter referred to as a parent video object for simplicity) in the parent video identified and extracted by the video object identification and extraction unit 3 and an object to be merged with the parent video.
  • Generates data (hereinafter referred to as cast data for simplicity) in which a video object (hereinafter referred to as a child video object) is clarified in terms of its physical attributes, social attributes, and the like, characteristics, characteristics, and characters of the video object. , And a function of linking them to corresponding video objects.
  • the script data generation unit 8 outputs, for each video object appearing in each video scene of the parent video divided by the video content decryption unit 2, the broadcast content of the parent video similarly decrypted in the video content decryption unit 2, Generates data (hereinafter referred to as script data for simplicity) in which the position, movement, movement, etc. of the video object analyzed based on a scenario or the like are specified along a predetermined time table, and the corresponding video scene and video are respectively generated. It has a function to link to objects. The specific contents of the script data and the cast data will be described later.
  • the child video object data storage unit 9 and the processing data storage unit 10 are each configured by a storage device such as a predetermined storage device or a server, or a predetermined data storage medium such as a magnetic disk or an optical disk.
  • the video data of the child video object is stored and stored in the child video object data storage unit 9.
  • the child video object stored here may be a single video object, and the automatic video production device 80 can freely select the child video object according to the situation of the viewer and its surrounding environment or the broadcast contents or scenario of the parent video content.
  • a plurality of video objects may be stored in the form of a library as possible. Further, these nested child video objects may be changed or updated sequentially according to predetermined conditions such as the passage of time or the transition of seasons.
  • the processed data storage unit 10 appropriately stores various data such as cast data and script data generated or processed by the automatic video production device 80, or a data stream of a parent video incorporating these data.
  • the child video object data storage unit 9 and the processing data storage unit 10 are shown as independent storage devices, but, of course, are configured to share the same storage device. It does not matter.
  • the child video object data storage unit 9 and the processing data storage unit 10 are configured to be incorporated inside the automatic video production device 80, but the present embodiment is limited to such a configuration. Not. For example, a configuration in which these data storage units are installed in an external server such as a cloud, and data is exchanged and controlled with the automatic image production device 80 by a predetermined communication means or a network may be used.
  • the video fusion rendering unit 11 has a function of executing a “video fusion rendering” process for blending a child video object with a parent video content using various data such as cast data and script data.
  • the specific contents of the "video fusion effect" processing will be described later.
  • the video processing, editing and rendering unit 12 has a function of actually executing processing such as video processing, editing or rendering (video drawing) based on the result of the “video fusion effect” processing.
  • the processing, editing, or rendering processing of the video can be executed by making full use of a predetermined digital image processing technique such as a computer graphics technique, a 3D morphing technique, or a shading technique, and therefore, a detailed description thereof is omitted here.
  • control unit 20 has a function of connecting to each of the functional units via the data bus 25 and appropriately controlling its functions.
  • each functional unit is divided into blocks. It is not necessary to be composed of divided functional blocks as in the above.
  • a configuration in which the processing in each of the functional units is comprehensively performed using a predetermined information processing device such as an AI may be used.
  • the advanced AI technology such as a deep learning technology can be used to perform advanced estimation closer to human thinking.
  • Each of the above-described processing processes can be performed with a judgment ability.
  • the parent video content in which the child video object is subjected to the fusion processing through the series of processing is reproduced by the video reproduction unit 13 and reproduced or distributed to the viewer or the user 60 through the predetermined display device 14, It will be aired.
  • a series of processing processes in the present embodiment includes a “casting data and script data generation process” for first generating cast data and script data over the entire parent video content, and then a cast data and script data generated in the processing process.
  • a “casting data and script data generation process” for first generating cast data and script data over the entire parent video content, and then a cast data and script data generated in the processing process.
  • video fusion effects and video processing, editing, and rendering processing and further reproduce, distribute, and broadcast the parent video content, in which the child video objects are fused, to the viewer or user 60 as necessary.
  • Video fusion effect, processing, and editing process ”.
  • FIG. 2 is a flowchart of the cast data and script data generation process in this embodiment.
  • processing step 101 (S101; hereinafter, processing step is abbreviated as S), reading of the entire main video content and all of the video data of the child video object is executed.
  • a part or all of the video object including the person and the object appearing in the parent video content 50 and the background and the scenery is identified, extracted, and extracted as an individual parent video object.
  • a predetermined object identifier such as an object name or an ID number is provided to each of the parent video objects and the separately read child video objects to distinguish them from other video objects.
  • the video content and scenario of the entire video parent video content that is, the story of the content, the world view or the framework of the video production, etc. are decoded. Then, the entire content is appropriately divided into predetermined video scenes based on the decoding result.
  • the decrypted video content information, scenario information, or video scene division information is converted into data in a predetermined data description language or format and stored in the processing data storage unit 10 as appropriate.
  • predetermined cast data which will be described later, is generated for each parent video object (hereinafter, parent video object) and child video object identified and extracted in the preceding processing step. Further, in the next S105, the parent video distribution data is associated with the corresponding parent video object, and then incorporated into the video data stream of the parent video content. The cast data relating to the child video object is also linked to the corresponding parent video object, and then written into the child video object data storage unit 9, the processing data storage unit 10, or a predetermined data storage unit other than the above.
  • the scene number N is set to 1, and in the next S107, the Nth scene from the head of the parent video content is selected.
  • predetermined script data as described later is generated for each parent video object appearing in the video scene of the parent video, and in the next S109, the corresponding video scene corresponds to the corresponding video scene. And associated with the video object, and then incorporated into the video data stream of the parent video content.
  • FIG. 3 is a schematic diagram showing the contents and data structure of the cast data generated in S104 in this embodiment.
  • the cast data is used by the automatic video production device 80 to determine what position and role each parent video object and each child video object identified and extracted in S103 play in the parent video content or by itself. This is data that is generated to make.
  • the cast data is based on the video content information and the scenario information of the parent video content decoded in S103 or the analysis information of the video object itself for each of the video objects, for example, as shown in FIG. That is, (A) Physical attributes (items that specify the physical classification and attributes of the object) (B) Social attributes (persons and animals are items that characterize the person or animal in video content, such as social attributes, personality, and characters, or other items related to objects that cannot be specified by physical attributes) (C) Visible state (items that clearly indicate the state recognizable from video such as shape, size, and color) (D) Invisible state (items that clearly indicate unrecognizable or difficult states such as weight, temperature, tactile sensation, etc.) (E) Correlation parameters (items that specify relationships between objects, such as human relationships, social relationships, or physical and chemical relationships between objects) For example, necessary information related to the classification, attribute, role, positioning, feature, character, and the like of each video object in the video content is converted into data or parameterized, and is associated
  • FIG. 4 is a schematic diagram showing the contents and data structure of the script data generated in S108 in this embodiment.
  • the script data is data generated in order to make the automatic video production device 80 surely recognize information corresponding to a script created and used in a drama or a drama with respect to each parent video content. Therefore, the script data includes, for each video scene and each video object appearing in the scene, video content information and scenario information for each scene of the parent video content decoded in S103, or analysis information of the video object itself. Based on the items, for example, as shown in FIG.
  • the items of the cast data and the script data described above are merely examples, and are not limited to these.
  • information on a predetermined item may be added as data or parameterized information, or may be arbitrarily selected.
  • the data description language or format for describing the cast data or script data, or the above-described video content information data or scenario information data, or video scene division information data can of course be recognized by the automatic video production device. Any description language or format may be used.
  • the description returns to the processing flow of the “casting data, script data generation process” in FIG. 2 again.
  • S110 following S109 it is determined whether the generation and the incorporation of the script data have been completed for all scenes of the parent video. If the determination is “Yes”, in the next S111, the parent video data stream in which the cast data and the script data are incorporated is written to the processing data storage unit 10 or another predetermined data storage unit. The cast data associated with the object is also written in the child video object data storage unit 9 or the processing data storage unit 10.
  • FIG. 5 shows a data stream structure of a parent video content in which casting data and script data are incorporated in the present embodiment.
  • FIG. 5A shows an example of a data structure in which casting data and script data are collectively arranged at the head of the data stream.
  • FIG. 5B shows that only casting data is arranged at the head of the data stream and script data is written. Shows an example of a data structure arranged at the head of each video data divided for each scene.
  • FIG. 5 shows only two embodiments, and the data stream structure is not limited to this embodiment.
  • any data structure may be used as long as it can be freely read and written by the automatic image production device 80.
  • a series of “casting data and script data generation process” is determined in S113. Is determined. If the determination is “Yes”, a series of “casting data, script data generation process” processing ends. On the other hand, in the case of “No”, the process returns to S101, and a series of “casting data, script data generation process” is subsequently repeated for another parent video content.
  • FIG. 6 is a flowchart of a video fusion effect, processing, and editing process in the present embodiment.
  • the video data stream of the parent video content including the cast data and the script data which is generated in the “casting data and script data generation process” and stored in the predetermined data storage unit, and all The child video object data (the video data of the child video object and the cast data linked to the child video object) is read.
  • the parent video data stream into which the cast data and the script data are read is not limited to the video data stream generated by the above-described “cast data and script data generation process”.
  • the video data may be generated by another video device or a processing process.
  • the cast data and the script data manually created and the original video content data stream may be read separately.
  • the biological data of the viewer or the user 60 such as respiratory rate, heart rate, body temperature, blood pressure, and perspiration, are detected and acquired from the viewer biological data detecting unit 4.
  • data on the gesture or behavior such as the gaze direction and facial expression of the viewer or the user 60 from the viewer gesture and behavior data detection unit 5 and the temperature, humidity, air pressure,
  • Various data regarding the surrounding environment state of the viewer or the user 60 such as illuminance (brightness) is detected and acquired.
  • the types of the detection data are not limited to the present embodiment, and may be arbitrarily added or selected as needed.
  • the automatic video direction device 80 itself is in a state of health or physiology of the viewer or the user 60, and furthermore, in a state of mind such as emotion, preference, desire, and an object of interest. Estimate.
  • the automatic video production device 80 in the present embodiment is limited to a condition for selecting an optimal video object, which will be described later, based on the estimation result of the health state, physiological state, and psychological state of the viewer or the user 60 as described above.
  • the selection may be made under any selection condition.
  • the data to be acquired in S122 is not limited to the above-described data, but may be arbitrarily changed according to the selection condition. May not need data on In such a case, it goes without saying that S122 or S123 may be skipped or the processing step itself may be omitted.
  • the automatic video rendering device 80 itself determines whether the fitting or fusion will produce the most appropriate appealing effect, and the optimum child video object is selected from one or a plurality of child video objects.
  • a fusion source video scene to which the selected child video object is to be fused is selected from each scene of the parent video content.
  • next step S126 a screen position at which the target child video object is fitted or fused in the video scene is designated.
  • the next step S127 determines the frame of the video effect by the video processing and editing.
  • cast data and script data for each parent video object read in S127, cast data for each child video object, and various data obtained in S122 and obtained in S123 based on them.
  • the automatic image production apparatus 80 determines the child image object and the parent image fusion target scene by the judgment of the automatic image production apparatus 80 itself. Designate the fusion position of the video object and construct the "video processing and editing scheme".
  • an optimal process is performed so as to clear the “video fusion condition” as described below.
  • A Do not hinder the storyline or content image of the content recalled from the broadcast content or scenario of the parent video content.
  • B A predetermined appeal effect is created by fusing the child video objects.
  • C There should be no irrationality or physical inconsistency due to the fusion of child video objects.
  • D The viewer does not feel discomfort or disgust due to the fusion of the child video objects. Note that, in the above “image fusion condition” example, “there is no irrationality or physical contradiction” in (c), specifically, for example, an object floats in the air despite no support. It means that there is no irrational image of a moving or moving entity passing through a wall.
  • the “video fusion condition” can be appropriately relaxed or strengthened in consideration of the balance of each condition. Further, regarding the “video fusion condition”, each of the items (a) to (d) described above is merely an example, and it is needless to say that the items are not limited to only the items. It does not matter if the user or the administrator of the automatic video production device 80 arbitrarily adds, deletes, or changes.
  • step S131 the selection result of the parent video scene to be fused and the designation result of the parent video object to be fused or the screen position obtained in the “video fusion effect” step, and further, the “video processing and editing scheme” A process of writing various data into the processing data storage unit 10 as predetermined video fusion effect data is performed.
  • the video data stream of the parent video content for which the series of video fusion processing has been completed is also written to the processed data storage unit 10 or another predetermined data storage unit.
  • next S132 it is determined whether or not to reproduce the parent video content for which the series of video fusion processing has been completed. If the determination is "Yes”, the reproduction, distribution, and broadcasting of the video are actually executed in the next step S133. On the other hand, in the case of “No”, S133 is skipped, and a series of processing flows relating to “video fusion effect, processing, and editing process” are completed.
  • FIG. 7 is a schematic diagram showing a specific processing procedure for each processing step in the “video fusion production, processing, and editing process” for a certain video fusion processing example.
  • a live concert video of a certain idol (a pseudonym (A)) is taken as a produced parent video content as a video fusion source, and a certain beverage maker (a pseudonym (B)
  • A live concert video of a certain idol
  • B a certain beverage maker
  • the characters described in the processing step column correspond to the names of the respective processing steps described in FIG. 6, and the processing content column outlines the processing content in the processing step.
  • the specific processing contents in this case are described in the specific processing case column using sentences and schematic diagrams.
  • the automatic video production device 80 estimates that the viewer 60 is currently thirsty and wants some kind of drinking water. It is determined that a high CM appeal effect can be obtained by incorporating the video of drinking water into the live video (S123).
  • CM video object the video of the soft drink plastic bottle (C) manufactured by (B) is selected, and the video object data is read (S124).
  • the automatic video production device 80 recognizes that the parent video content is a video of a live concert in which the idol (A) plays a leading role, and does not disturb the content image and provides a predetermined commercial appeal effect. As an effect, it was decided to naturally merge the image of the plastic bottle (C), which is a child image object, into the image scene where the idol (A) dances during the live concert. A dance scene to be a video fusion source is selected from the video scenes of the parent video content (S125).
  • the right hand of the idle (A) as the specific child video object (plastic bottle (C)) fitting position.
  • the idol (A) changes the performance to a video in which the plastic bottle (C) is danced with the right hand (S126).
  • the automatic video production device 80 changes the production from the original parent video, which has no hand, to a video in which the plastic bottle (C) is danced with the right hand.
  • a “video processing / editing scheme” that specifies the specific contents and procedure of whether or not to perform appropriate video processing or editing is constructed by its own judgment (S127).
  • FIG. (A) Match the superimposition state (front-back relation) of each finger of the right hand and the plastic bottle in (A)
  • (b) Process the image of the opened right finger in (A) into an image of the finger holding the plastic bottle
  • (c) Adjusting the irradiation state or the reflection state of the illumination light irradiating the PET bottle
  • (d) Adding a shadow created by the PET bottle and changing a shadow created by the changed finger.
  • the “video processing / editing scheme” constructed in this manner is applied to an actual moving image by making full use of a predetermined digital image processing technology such as a computer graphics technology, a 3D morphing technology, and a shading technology (S129). ).
  • a predetermined digital image processing technology such as a computer graphics technology, a 3D morphing technology, and a shading technology (S129).
  • a live video including a parent video content in which the child video object (PET bottle (C)) is correctly fused that is, a scene where the idol (A) dances with the PET bottle (C) in a predetermined dance scene. Is distributed and broadcast to the viewer 60 (S133).
  • a predetermined video object independent of the video content can be included in the predetermined video content by the story property of the video content or the content image. Can be fused very naturally and seamlessly without obstruction.
  • the video object to be fused is selected so as to be adapted to the emotion, preference, desire, interest, etc. of the viewer or the individual user, or almost real-time (for example, However, it is possible to flexibly cope with the situation change (just while the video content is being watched) and appropriately execute effective video fusion at each time.
  • the automatic video production device as in the present embodiment is very effective for use in incorporating CM video into video content as introduced in FIG.
  • the automatic video production device of the present embodiment When the automatic video production device of the present embodiment is used for the purpose of embedding CM video into predetermined video content as described above, the number of times and time at which the target CM video is embedded in or merged with the parent video content are set. Depending on the result of the counting, it is also possible to limit the provision of the CM, or to combine a mechanism for charging and charging a predetermined CM fee to the CM sponsor.
  • the automatic video production device according to the present embodiment is not limited to the application for incorporating the CM video into the video content as described above, and may be used for any application.
  • first, cast data and script data are once generated for the entire parent video content by the “casting data and script data generation process”, and are incorporated into the parent video data stream.
  • This is a two-stage embodiment in which image fusion processing of a child image object is performed by "fusion effect, processing, and editing process”.
  • an automatic video production device that simultaneously and concurrently executes the reproduction or distribution of the parent video content, the broadcasting process, and the video fusion effect, processing, and editing process on the parent video content is provided.
  • An example of installation on a video content supply server for broadcasting or distribution will be described.
  • a block diagram of the configuration of the automatic video effect device according to the present embodiment is the same as that of FIG.
  • FIG. 8 is a flowchart relating to a processing process in this embodiment.
  • predetermined classification, attributes, characteristics, and the like of the child video objects are performed.
  • a predetermined data or a data group obtained by converting or parameterizing the above information, that is, data corresponding to the casting data described in the embodiment of the “casting data, script data generation process” in FIG. 2 is linked to the child video object.
  • the data is stored in a predetermined data storage unit in the form in which it is attached.
  • step S201 the automatic video direction device 80 reads all the child video object data, that is, the video data of the child video object and the cast data linked to the child video object from a predetermined data storage unit.
  • the reading of the video data of the parent video content is started.
  • the automatic video production device 80 starts reproduction of the parent video content and simultaneously reproduces, distributes, and broadcasts the parent video that is reproduced or distributed for a predetermined time, for example, several seconds to several tens of seconds from the current reproduction scene. Read video data in advance.
  • step S204 in the same manner as in step S102 described with reference to FIG. 2, all the objects including the newly appearing person and the object and the background and the scenery are respectively applied to the pre-read image.
  • Each video object is identified and extracted as an individual video object, and a predetermined object identifier such as an object name or an ID number is added to each of the extracted video objects so as to be distinguished from other video objects.
  • the video content and scenario of the pre-read video are decrypted from the information data such as the position, movement, dialogue, etc. of each parent video object identified and extracted in S204, and further based on the decryption information. Is divided into predetermined video scenes as needed.
  • Step S205 is mainly executed by a functional unit corresponding to the video content decrypting unit 2 in the block unit of the automatic video rendering device 80 shown in FIG.
  • the video content decoding unit 2 has a function of once reading all the parent video contents, and decoding the broadcast contents and the scenario and processing the scene division for all the contents.
  • the video content decoding unit 2 according to the present embodiment performs the video reading or pre-reading from the start of the video reproduction or distribution of the parent content to the broadcast from the start of the video, that is, the video data up to the middle stage of the video content.
  • the present embodiment and the first embodiment have slightly different functions.
  • the video content decryption unit 2 or the control unit 20 that controls the video content decryption unit 2 according to the present embodiment adds the above-described video content information, scenario information, scene division information, and the like to the latest added or changed or modified information.
  • a function of sequentially updating information data and storing the information data in a predetermined processing data storage unit 10 is also provided.
  • next S206 it is determined whether or not the parent video scene read in advance is the parent video scene to which the child video object is to be inserted or merged.
  • the determination is “Yes”
  • the process proceeds to S207 and later.
  • S207 to S210 to be described later are skipped and the process jumps to S211.
  • a child video object to be inserted or fused into the selected target parent video scene is selected from among the child video objects.
  • next step S209 in order to naturally and seamlessly fuse the selected child video object with the target parent video object or screen position without any uncomfortable feeling, the child video object, the parent video object, or another parent video screen is processed.
  • a "video processing and editing scheme” is established, which specifies the specific video processing and editing contents and procedures to be performed.
  • a part or all of the cast data on the child video object side is set as a predetermined keyword, and the suitability or appeal effect of each parent video scene to the keyword is determined. Is evaluated by a predetermined numerical value or parameter, and a method of performing high-speed processing by using the magnitude as a reference for determination or selection can be used.
  • the “image processing / editing scheme” to be constructed may be partially simplified or omitted.
  • a video fusion effect that defines only the context or overlapping relationship between a child video object that fits into a predetermined video scene of a parent video and an existing parent video object in the parent video scene, or The effect is such that the selected predetermined child video object or a part thereof is simply inserted into the specified screen position in the predetermined video scene of the selected parent video, and all the processing steps for processing and editing the video itself are omitted.
  • it may be a video fusion production.
  • a process of sequentially writing the parent video data, which has been subjected to the above-described child video insertion or fusion processing, to the predetermined data storage unit 10 is performed.
  • the parent video scene or child video object of the fusion target obtained in the above-mentioned "video fusion effect" process, or the insertion of the target child video object in the fusion target parent video scene is performed.
  • a process of writing or updating the result of designating the position of the screen to be merged and various data related to “video fusion production” such as “video processing / editing scheme” may be performed.
  • next S212 the parent video data that has been subjected to the video embedding or fusion processing written in the data storage unit 10 in S211 is read, and the next video scene after the current reproduction video scene is reproduced, distributed, and broadcast.
  • next step S213 it is determined whether or not all the scenes of the parent video content have been reproduced, distributed, or broadcast. If the determination is "No”, the process returns to S203, and a series of processing processes is repeated. On the other hand, if “Yes”, a series of processing processes ends.
  • FIG. 9 is a schematic diagram conceptually showing a flow of a processing process in the automatic image rendering apparatus of the preceding reading type shown in the present embodiment.
  • the automatic video rendering device 80 first reads the video data of the child video object to be fitted into the parent video content and its accompanying information, that is, the cast data.
  • the video data of the parent video content is prefetched for each predetermined video scene or video cut from the beginning, and it is determined whether or not to insert the target child video object for each read parent video scene or cut, Further, a scan (search) of the fitting position is performed. For example, let this be the nth scene or cut.
  • n-th parent video scene or cut is a child video object insertion target
  • a process of actually inserting a child video object at a designated position of the parent video scene or cut is performed.
  • the prefetching process and the like are performed on the next (n + 1) th parent video scene or cut.
  • the n-th parent video scene or cut is played back while the child video object is inserted into the (n + 1) -th parent video scene or cut. And the above-described pre-reading process is performed.
  • Such a processing process of performing a plurality of processing steps sequentially and simultaneously in parallel is generally called pipeline processing.
  • a predetermined parent video content can be reproduced or reproduced. While being broadcast and distributed, it becomes possible to execute a video effect in which a predetermined child video object is inserted into the parent video content in real time.
  • the automatic video production device performs the “casting data and script data generation process” shown in FIG. 2 and the “video fusion production, processing, and editing process” shown in FIG. It is equipped with a treatment process that is performed throughout.
  • the automatic video production device as in the present embodiment is used for the purpose of embedding a CM video into video content or the like, similarly to the first embodiment, the target CM video is embedded or fused and displayed in the parent video content. It is also possible to count the number of times, time, and the like, and to limit the provision of the CM according to the count result, or combine a mechanism for charging and charging a predetermined CM fee to the CM sponsor.
  • the parent video content can be pre-read in parallel and the child video object can be inserted and the fusion process can be performed.
  • an automatic video production means or apparatus for performing fitting processing and fusion processing of a child video object in parallel while reproducing, distributing and broadcasting the parent video content, and a video content supply server for broadcasting and distributing the parent video content The embodiment shown on the side is shown. However, it is of course possible to provide an automatic video production means or device having the same function on a so-called edge terminal side typified by a smartphone carried by a general user.
  • an automatic video production device having the same function as that of the second embodiment and installed in an edge terminal such as a smartphone will be described.
  • FIG. 10 is a block diagram showing a schematic configuration of the automatic video production device in the present embodiment. Note that, in FIG. 10, the functional units having the same functions as those in FIG. 1 are given the same numbers.
  • an edge terminal 65 such as a smartphone carried by the user 60 incorporates the automatic video effect device 80 according to the present embodiment.
  • This automatic video production device 80 includes a video content data reading unit 1, a video object identification extraction unit 3, a viewer biometric data detection unit 4, a viewer gesture, similarly to the automatic video production device of the first embodiment shown in FIG.
  • Each function unit such as an action data detection unit 5, an ambient environment data detection unit 6, a processing data storage unit 10, an editing and rendering unit 12, and a control unit 20 is provided.
  • Each of the functional units of the viewer biometric data detector 4, the viewer gesture and behavior data detector 5, and the surrounding environment data detector 6 includes a predetermined biosensor 15, a viewer monitor camera 16 as a visual sensor, The sensor 17 and the like are connected. Since these functional units and sensors have the same functions as the respective functional units shown in FIG. 1, detailed description thereof will be omitted here.
  • a preceding read cut video outline decoding unit 32 is provided instead of the video content decoding unit 2 in FIG.
  • the video that is sequentially read in advance is used. It is necessary to decode information in near real time.
  • the automatic rendering device 80 is incorporated in an edge terminal such as a smartphone as in the present embodiment, its processing capability is limited, and it is difficult to perform advanced video decoding processing as in the first embodiment. difficult.
  • a video cut which is a video unit obtained by further subdividing the video scene, is extracted from video information that is sequentially read in advance, and a video cut that appears in the video cut is determined based on the type and arrangement of the video object.
  • a function for decoding the outline of the cut at a high speed is provided in the pre-read cut video outline decoding unit 32.
  • the processing function is simplified by specializing the video fusion rendering only into the rendering of the child video object into the parent video cut.
  • the high-speed processing is realized by disposing the video embedding production section 31 in a simplified form.
  • the video data of the child video object fitted into the parent video is stored in the child video object data storage unit 9 provided in the external server. Further, for each of the child video objects, the cast data described in the “casting data and script data generation process” of FIG. 2, that is, predetermined information relating to the classification, attributes, characteristics, and the like of the child video object is converted into data or The parameterized predetermined data or data group is stored in the child video object data storage 9 in a form linked to the child video object. The child video object-related data is appropriately read into the automatic video production device 80 in this embodiment by a predetermined communication means.
  • the external server provided with the child video object data storage unit 9 may be a dedicated server managed by a CM sponsor or a predetermined video content distribution company, or may be a cloud connected via the Internet or the like. It may be a general-purpose server such as.
  • FIG. 11 is a flowchart relating to a processing process in this embodiment.
  • the automatic video rendering device 80 stores the video data of each target child video object, the classification and the attribute of the child video object from the externally placed child video object data storage unit 9.
  • a predetermined data or data group obtained by converting predetermined information relating to features or the like into data or parameters, that is, data corresponding to the cast data described in the embodiment of the “casting data, script data generation process” in FIG. Read in the form linked to the video object.
  • the pre-read parent video is subdivided into predetermined video cuts as described above, and for each of the subdivided video cuts, “casting data and script data generation described in FIG. Similarly to S102 in the “process”, all the objects including the newly appearing person and the object and the background and the scenery are identified and extracted as individual video objects.
  • the outline of the target parent video cut is decoded from the type of each parent video object identified and extracted in S304, the arrangement in the video, and the like.
  • various biometric data of the viewer or the user 60 is transmitted from the viewer biometric data detection unit 4 to the acquired viewer gesture and the behavior data detection unit 5 or the gesture of the viewer or user 60 or Data related to the behavior form and the like, and various data related to the surrounding environment state of the viewer or the user 60 are detected and acquired from the surrounding environment data detecting unit 6.
  • the automatic video production device 80 itself, based on the data detected and obtained in S306, as well as S123 shown in FIG. Estimate emotions, preferences, desires, objects of interest, etc.
  • the automatic video production device 80 does not necessarily require the detection data and estimation results of the health state, physiological state, and psychological state regarding the viewer or the user 60, and the detection data and estimation target May be arbitrarily changed as necessary, or may be a processing process that does not particularly require these data regarding the viewer or the user.
  • S306 and S307 may be skipped, or the processing step itself may be omitted.
  • next step S308 it is determined whether or not the pre-read parent video cut is the parent video cut to which the child video object is to be inserted. If the determination here is “Yes”, the process proceeds to S309 and later. On the other hand, in the case of “No”, S309 to S312 to be described later are skipped and the process jumps to S313.
  • step S309 when there are a plurality of types of child video objects, a child video object to be inserted or fused into the target parent video scene selected from among the plurality of types is selected.
  • next step S310 a screen position where the target child video object is to be fitted in the parent video cut to be fitted is designated.
  • the selection of the child video object in S309, and the designation of the child video object insertion position in S310 for example, one of the cast data on the child video object side described above is used.
  • a part or all of the keyword is used as a keyword, and a keyword is obtained from the outline of the target parent video cut or, if necessary, the biometric data, gesture, action data, surrounding environment data, and the viewer status estimation result of the viewer detected in S306.
  • a method of high-speed processing can be used by quantifying the suitability or appealing effect of, and determining the magnitude of the value as a criterion for determination or search.
  • step S312 processing of video processing, editing, and rendering is actually performed. These processes are the same as S210 in FIG. 6, and thus description thereof will be omitted.
  • an automatic video production device with a simplified processing capability installed in an edge terminal such as a smartphone.
  • a predetermined produced video content such as a drama or a recorded live video is targeted. That is, it is intended for video contents in which the story and scenario of the content and the video content relating to all video scenes in the content have already been defined.
  • HMD head-mounted display
  • an image which is a base image for insertion or fusion of an image, that is, a parent image
  • a real image visually recognized by a user that is, an HMD wearer in real time
  • the video scene or video cut changes from moment to moment due to the user's own gestures and actions such as changes in the object being viewed by the user and the surrounding environment, or changes in the line of sight. I do. Therefore, the content corresponding to the content content or scenario of the parent video is completely indefinite.
  • a virtual image in a predetermined child image object that is, an AR / MR
  • a parent image in which the content and scenario of the image content and the image scene itself are indefinite or fluid and change in real time.
  • FIG. 12 is a block diagram showing the configuration of the automatic image production apparatus according to this embodiment. Note that, in FIG. 12, the same units as those in FIGS. 1 and 10 are denoted by the same reference numerals.
  • the child video object data storage unit provided in the external server stores the video data of the virtual video to be inserted or merged into the parent video as the child video object. 9 is stored. Further, for each of the child video objects, the cast data described in the “casting data and script data generation process” of FIG. 2, that is, predetermined information relating to the classification, attributes, characteristics, and the like of the child video object is converted into data or The parameterized predetermined data or data group is also stored in the child video object data storage unit 9 in a form linked to the child video object.
  • the child video object related data is appropriately read into the automatic video production device 80 in this embodiment by a predetermined communication means.
  • the external server provided with the child video object data storage unit 9 may be a dedicated server managed by a CM sponsor or a predetermined video content distribution company, or may be a cloud connected via the Internet or the like. It may be a general-purpose server such as.
  • the HMD 44 mounted on the head of the user 60 as an AR / MR image display device is connected to the automatic image production device 80 in this embodiment.
  • both a see-through type in which a real image visually perceived by the user himself through the transparent display as an actual visual recognition image, and a virtual video image embedded and fused with the real visual observation image are both video images.
  • a video see-through type the present embodiment is applicable to both types of HMD.
  • the HMD 44 detects a gesture or behavior of the user such as movement of the line of sight of the user 60, a sensor for detecting biological information of the user 60, and further detects environmental information such as temperature and humidity around the user. Equipped with sensors. In FIG. 12, these sensors are collectively described as a sensor 18 for convenience. Further, all of the sensors are not indispensable to the present embodiment, and may be arbitrarily selected as needed, and of course, a sensor for detecting information different from the sensors may be added. . Conversely, the HMD 44 may not be equipped with these sensors at all.
  • the HMD 44 is further equipped with an external world photographing camera 19 that can photograph the external world in at least the same visual field as the user's actual visual recognition image, and is connected to the automatic video production device 80 as an input device for parent video data.
  • connection between the HMD 44, the sensor 18, the external photographing camera 19, and the automatic video production device 80 is not limited to a wired connection as shown in FIG. 12, and a predetermined data signal such as a predetermined wireless communication connection can be exchanged. Any connection form may be used as long as the connection is made.
  • real-time video data corresponding to the user's actual visual recognition image captured by the external world camera 19 is transmitted to the automatic video production device 80 as parent video data serving as a fusion source via the user's real visual field image reading unit 41.
  • the video object identification and extraction unit 3 has a function of sequentially identifying and extracting video objects newly appearing in each video cut as individual video objects from real-time video data. Note that the video object identification and extraction unit 3 has the same function as the functional unit of the same number shown in FIG. 1 or FIG. 10, and therefore detailed description of the function is omitted here.
  • the real-time video cut decoding unit 42 is a functional unit corresponding to the video content decoding unit 2 in FIG. 1 and the preceding read cut video outline decoding unit 32 in FIG. A function is provided for decoding the contents in predetermined video cut units and converting the contents into data.
  • an automatic video production is performed based on a history of information data such as a decoding result and a scenario regarding the past video obtained up to that point.
  • the device 80 itself considers and judges and decodes and converts the data.
  • the real-time video cut decoding unit 42 may have a function of constructing a scenario up to the current video scene based on the decoding result and sequentially updating existing scenario data as the latest scenario data. Absent.
  • each detection data detected by the sensor 18 is obtained by the automatic video production device 80 via the viewer biometric data detection unit 4, the user gesture and behavior data detection unit 5, the surrounding environment data detection unit 6, etc. as necessary. Is done. Note that these detection units also have the same functions as the same-numbered function units in FIG. 1 or FIG. 10, and therefore detailed description of the functions is omitted here.
  • the video content data and scenario data that are sequentially generated or updated, as well as the respective detection data detected and acquired from the sensor 18 are stored and stored in the processing data storage unit 10 as appropriate.
  • the processing data storage unit 10 is configured to be incorporated inside the automatic video production device 80.
  • the present embodiment is not limited to such a configuration. May be installed in an external server such as a cloud, and data may be exchanged and controlled with the automatic video production device 80 by a predetermined communication means or a network. Further, the processing data storage unit 10 and the child video object data storage unit 9 may share the same storage device.
  • the same image embedding or fusion effect process as that of the same number function unit shown in FIG. 10 is performed. It should be noted that the specific processing content of the video embedding or fusion effect processing has already been described in the first to third embodiments, and thus a detailed description thereof will be omitted.
  • the automatic video production device 80 in the present embodiment must execute the processing in each of the functional units as described above almost in real time. Therefore, depending on the processing capability of the automatic video production device 80 itself, it may be difficult to completely execute each of the above processes without delay. In such a case, in consideration of the processing capability of the automatic video production device 80, the priority of each data and the processing, and the like, the predetermined processing procedure or the functional unit that performs the processing may be partially omitted. .
  • video processing and editing processing may be limited to only the child video object.
  • all the procedures of video processing and editing are omitted, a predetermined child video object or a part thereof is superimposed or fitted only on the parent video, and a screen position where the predetermined child video object is superimposed within the parent video scene It may be a video production that stops only at the designation of.
  • both the parent image and the child image object to be fitted or fused with it are video images as described above. Is possible.
  • the HMD 44 is of a so-called see-through type, a real image directly viewed by the user 60 through the see-through display of the HMD 44 becomes a parent image, so that the parent image cannot be naturally processed or edited. Therefore, video processing or editing processing for video embedding or fusion is limited to only the child video object side. In such a case, inevitably, the video embedding or the fusion effect must be simplified or partially omitted as described above.
  • the automatic video effect device 80 similarly to the first embodiment, it is not necessary for the automatic video effect device 80 to be constituted by divided functional blocks as shown in FIG.
  • a configuration in which the processing in each of the functional units is comprehensively performed using an information processing device such as an AI may be used.
  • the parent video on which the child video object has been fitted or fused through the above-described processes is displayed on the predetermined display of the HMD 44 worn by the user 60 via the AR / MR video playback unit 43.
  • the HMD 44 is a sheath-through type
  • what is displayed on the see-through display is a child video object that has been subjected to video fitting or fusion processing applied to a predetermined AR / MR as described above, that is, a virtual video object. Only video is displayed.
  • FIG. 13 is a flowchart relating to a processing process in the present embodiment.
  • the processing in this embodiment is basically executed by the same processing flow as the processing described in FIG.
  • the automatic video direction device 80 reads all the child video object data, that is, the video data of the child video object and the cast data linked to the child video object from a predetermined data storage unit.
  • step S402 when the reproduction of the parent video, that is, the real-time real visual recognition image is started (in the case of a see-through HMD, it corresponds to the start of the user's real visual observation), the automatic video production device 80 transmits the external video camera 19 in step S403.
  • the video data of the obtained parent video (real-time real visual recognition image) is read.
  • next step S404 objects such as a person and an object newly appearing in the current parent video scene are identified and extracted as individual parent video objects, and the extracted parent video objects and child video objects are replaced with other video images.
  • a predetermined identifier such as an object name or an ID number for distinguishing from an object is added.
  • each parent video object identified and extracted in S404 based on the type of each parent video object identified and extracted in S404, its placement position or its movement, and the information history such as the decoding result and scenario data on the past video obtained up to that point.
  • the video content of the parent video that is, the real-time real visual recognition image, is decoded and converted into data.
  • next S406 the same processing as that in S306 of FIG. 11 is performed, and predetermined detection data is obtained. Further, in the next step S407, the same processing as in step S307 in FIG. 11 is performed, and a predetermined viewer situation is estimated. Needless to say, S406 and S407 may be skipped or the processing step itself may be omitted as necessary, as in the above-described embodiments.
  • step S409 a child video object to be inserted into the parent video cut is selected from a plurality of child video objects. Further, in the next step S410, a screen position at which the target child video object is fitted in the cut of the parent video is designated.
  • next step S411 in order to naturally and seamlessly fuse the target child video object with the specified screen position in the target parent video cut as much as possible without any incongruity, a specific process is performed on the child video object or the parent video cut.
  • a "video processing and editing scheme" is established that specifies the contents and procedures of basic video processing and editing.
  • a series of processes from S409 to S411 will be referred to as a “video embedding fusion effect” process.
  • processing of video processing, editing, and rendering are actually executed based on the “video processing and editing scheme”.
  • these processes are executed by making full use of a predetermined digital image processing technology such as a computer graphics technology, a 3D morphing technology, and a shading technology.
  • the "video insertion fusion effect" processing process and the video processing, editing, and rendering processing processes must be executed in almost real time. Therefore, depending on the processing capability of the automatic video production device 80 itself, it may be difficult to completely execute the above-described processing processes without delay. In such a case, a part can be simplified or a part can be omitted in consideration of the processing capability of the automatic image rendering device 80 and the priority of each data or processing step as described above.
  • the processing result obtained in each of the above-described processing steps if necessary, that is, the parent video cut to be inserted or merged with the child video and the selection result of the parent video cut or fusion spliced image object selected therewith,
  • the result of specifying the position of the insertion or fusion screen in the video cut, or various data related to the “video processing / editing scheme”, and the parent video data that has been subjected to the insertion or fusion processing of the child video object, that is, the virtual video, are determined as necessary.
  • a process of writing or updating the data storage unit is performed.
  • next step S414 the parent video in which the virtual video has been fitted or merged, that is, the real-time real view image is reproduced. Note that the processing order of S413 and S414 may be reversed, or both processing steps may be performed simultaneously.
  • step S415 it is determined whether or not the fitting or fusion processing of the child video object with the parent video, that is, whether to end the AR / MR virtual video display by the HMD or the like is to be ended. If the determination is “No”, the process returns to S403 and a series of processing flows is repeated. On the other hand, if “Yes”, a series of processing processes ends.
  • an AR / MR video apparatus capable of fitting a predetermined virtual video into a real visual image of a user in a seamless and natural manner without any unnaturalness or in a fused state.
  • the target CM video is embedded in or merged with the parent video. It is also possible to count the number of times, time, and the like, and to limit the provision of the CM according to the count result, or combine a mechanism for charging and charging a predetermined CM fee to the CM sponsor.
  • FIG. 14 shows an example of an AR video device using an HMD using an automatic video production device according to the present embodiment.
  • reference numeral 55 denotes one scene of a demonstration site in which a person (for example, the idol (A)) 61 is dancing on a special stage having a bar counter beside it, and shows the real world.
  • Reference numeral 44 is a schematic external view of the eyeglass-type HMD worn by the user as viewed from the user side, and the user idles (A) 61 through the left-eye see-through display 45L and the right-eye see-through display 45L of the HMD 44.
  • the dance performance scene three-dimensional image).
  • FIG. 14 shows an example in which the automatic image production apparatus of the present embodiment AR-displays, for example, a predetermined soft drink water bottle image as a CM image in such a situation.
  • the automatic video production device determines a three-dimensional position where the target plastic bottle is to be placed in the real world 55, and displays the video display position of the plastic bottle 46 corresponding to the three-dimensional position on each of the see-through displays 45L and 45R. Obtained by calculation.
  • the depth distance between the plastic bottle 46 and the user is calculated from the three-dimensional position where the target plastic bottle 46 is virtually placed in the real world 55, and the binocular disparity d at which the user recognizes the depth distance is calculated.
  • the images of the plastic bottle 46 shifted from each other by the binocular parallax d are displayed in an AR manner on the see-through display 45L for the left eye and the see-through display 45R for the right eye, respectively.
  • the direction and shape of the shadow of the plastic bottle projected on the bar counter are determined by predetermined arithmetic means from the incident direction of the illumination light in the real world 55, and this shadow is also superimposed and displayed by a predetermined shading technique.
  • a more advanced image fusion effect such as performing, a more realistic image can be displayed by AR / MR.
  • a real-time real visual recognition image in an AR / MR image device such as an HMD is used as a parent image to be inserted or merged with a virtual image. Therefore, a series of processing processes such as the above-described “video insertion fusion effect” processing relating to the insertion or fusion of a child video object to be a virtual video, subsequent processing, editing, and rendering of the video, and reproduction and display of the processed video must be performed in near real time.
  • a certain time lag accompanying the execution of the series of processing processes inevitably occurs. .
  • This embodiment describes an embodiment of an AR / MR-compatible automatic image production apparatus capable of performing such advanced image insertion or fusion processing.
  • FIG. 15 is a block diagram of the configuration of the automatic video effect device according to this embodiment. Note that, in FIG. 15, the same units as those in FIG. 1 or FIG. 12 are denoted by the same reference numerals.
  • the automatic video production device 80 in the present embodiment has almost the same functional unit configuration as that of FIG. The difference from FIG. 12 is that a video cut estimation unit 53 is newly added. Therefore, detailed description of each functional unit other than the video cut estimating unit 53 will be omitted.
  • the external world photographing camera 19 provided in the automatic video production device 80 in the present embodiment has a function of photographing the external world with a wider field of view including the real field of view of the user 60, and a function of visually recognizing the user 60 within the field of view. It has a function to define (frame) the field of view.
  • real-time external world video data captured by the external world camera 19 is read into the automatic video production device 80 as parent video data.
  • the video cut estimating unit 53 includes the parent video data, the video content information of the parent video decrypted from the parent video data by the real-time video cut decrypting unit 42, the latest scenario information at that time, and further, for example, the gaze movement of the user 60. Based on detection data on the user's gestures and actions, the parent video is cut for a predetermined time from the current time, for example, a few seconds to several tens of seconds in the future, that is, the user 60 is likely to visually recognize the current time from the current time to the elapse of the predetermined time. It has a function for estimating future visual image cuts.
  • the fact that the real-time external image captured by the external image capturing camera 19 is a wider visual field image including the actual visual field of the user 60 is estimated from the future visual recognition image based on the user's gaze movement history and the like. It is effective for
  • the estimated future visual recognition video is always determined to be the most correct at that time based on the parent video content information already decoded by the real-time video cut decoding unit 42 or the scenario information that is sequentially updated to the latest one. It is updated to an estimated video that can be determined.
  • the preceding parent video cut estimated as described above is based on the “video embedding fusion effect” processing process and the “video embedding fusion effect” result as described in the fourth embodiment.
  • the image processing, editing, and rendering processing processes are performed prior to the current parent image, that is, the current actual visual recognition image.
  • a series of video fusion processing processes can be performed with a sufficient time margin by performing pre-processing on the estimated future visual recognition video, so that advanced video fusion processing can be performed even in an AR / MR video device.
  • the automatic image rendering device 80 is configured by divided functional blocks as shown in FIG.
  • a configuration in which the processing in each of the functional units is comprehensively performed using an information processing device such as an AI may be used.
  • FIG. 16 is a flowchart of a processing process in the present embodiment.
  • steps S501 to S505a have exactly the same processing contents as steps S401 to S405 described with reference to FIG. 13, and a detailed description thereof will be omitted.
  • steps S506 and S507 have exactly the same processing contents as S406 and S407 in FIG. 13, and therefore detailed description is omitted here.
  • the feature of the present embodiment is that, in S505b, a parent video cut for a predetermined time, for example, several seconds to several tens of seconds in the future from the current time, that is, the future of the user 60 which is considered to be visually recognized by the user 60 from the current time to the predetermined time has elapsed. This is the point of estimating the actual visual recognition image. Then, if there is a video object on the parent video side that is estimated to newly appear in the future cut of the visually recognized video, a predetermined identifier is given to the estimated parent video object as necessary. Note that the processing order of S505b, S506, and S507 may be reversed.
  • S508 it is determined whether or not the child video object is to be inserted or fused into the parent video scene. If the determination is “Yes”, the flow proceeds to S509 and later described later. On the other hand, in the case of “No”, S509 to S512 to be described later are skipped and the process jumps to S513.
  • a process of sequentially adding parent video data, which has been subjected to the embedding or fusion processing of the child video object, that is, the virtual video, to a predetermined data storage unit is performed.
  • the processing result obtained in each processing step that is, the selection result of the parent video cut to be inserted or merged with the child video or the selection result of the child video object to be inserted or merged therein,
  • a process of writing or updating the result of designating the fusion screen position or various data related to the “image processing / editing scheme” in the data storage unit may be performed as necessary.
  • step S514 the child video object to be reproduced at that time, that is, the parent video that has been subjected to the embedding or fusion processing of the predetermined virtual video, is reproduced with the passage of time.
  • step S515 it is determined whether or not the process of inserting or integrating a series of child video objects into the parent video, that is, ending the display of the virtual video in AR / MR. If the determination is "No”, the process returns to S503, and a series of processing processes is repeated. On the other hand, if “Yes”, a series of processing processes ends.
  • each processing step has been described such that each processing step in FIG. 16 is sequentially executed according to the flowchart.
  • a plurality of processing processes each including several processing steps are executed independently and concurrently.
  • the process of estimating the future parent video cut from S503 to S507, the “video inlay fusion effect” process from S508 to S512, and the image processing, editing, and rendering process based on the “video inlay fusion effect” result are as follows. Executed concurrently.
  • the automatic video production device 80 sequentially estimates the latest future parent video from the real-time user's actual visual recognition video, and at the same time, uses the already estimated future parent video, based on the “video embedding fusion production” process and its production result. Video processing, editing and rendering processes.
  • the reproduction of the parent video in S514 is a video corresponding to the real-time real visual recognition image at that time, the reproduction of the parent video in S514 and a series of processing processes in S503 to S513 are actually executed in parallel. .
  • the real-time real visual recognition image as the parent video (in the case of the video see-through type HMD) or visually viewing the real image (in the case of the see-through type HMD)
  • the estimated future that precedes by a predetermined time simultaneously and in parallel.
  • a process of fitting or merging a predetermined child video object, that is, a virtual video is performed on the visually recognized video.
  • the target CM video is embedded in or merged with the parent video. It is also possible to count the number of times, time, and the like, and to limit the provision of the CM according to the count result, or combine a mechanism for charging and charging a predetermined CM fee to the CM sponsor.
  • an AR / MR-compatible automatic image production device capable of performing advanced image insertion or fusion processing.
  • FIG. 17 is a conceptual diagram of a CM video fusion service system using the automatic video production device in the present embodiment.
  • a CM sponsor for example, a predetermined product maker
  • X company gives a video content production / distributor who manages the automatic video direction device 80 or a company manager Y (company) who manages the automatic video direction device 80 to a predetermined company.
  • Company Y issues a video fusion rendering command to the automatic video rendering device 80 managed by the company.
  • the automatic video rendering device 80 Upon receiving the video fusion rendering command, the automatic video rendering device 80 first reads video data of the target parent video content from the Y server 82 or an external server 83 such as a cloud connected via a predetermined communication means or network.
  • the parent video content may be a general produced video content obtained from a predetermined server as described above, or may be a user's actual video content obtained through an HMD or the like as described in the fourth or fifth embodiment. Visual images may be used.
  • the automatic video production device 80 receives video data to be commercialized as a child video object from the server 81 of Company X, which is a CM sponsor, or an external server 83 such as a cloud connected via a predetermined communication means or a network.
  • the CM fusion effect processing is executed through the processing process as described in each of the above embodiments, and the CM fusion processing is completed.
  • the parent video is distributed and broadcast to the viewer 60 via the predetermined display device 14.
  • a predetermined billing system 84 is connected to the automatic video production device 80, and the billing system counts the number of times and time when the target CM video is embedded or fused with the parent video content, and the counting result is obtained.
  • the provision of the CM is restricted, or a predetermined CM fee is charged and charged to Company X which is the CM sponsor.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above-described embodiments have been described in detail in order to easily explain the present invention, and are not necessarily limited to those having all the configurations described above. It is also possible to add the configuration of another embodiment to the configuration of one embodiment. Further, it is possible to add / delete / replace other configurations for a part of each embodiment.
  • 1 video content data reading unit
  • 2 video content decoding unit
  • 3 video object identification and extraction unit
  • 4 viewer biometric data detection unit
  • 5 viewer gesture and behavior data detection unit
  • 6 surrounding environment data detection unit
  • 7 Casting data generation unit
  • 8 Script data generation unit
  • 9 Child (integration target) video object data storage unit
  • 10 Processing data storage unit
  • 11 Video fusion detection unit
  • 12 Video processing, editing and rendering Unit
  • 20 control unit
  • 32 preceding read video outline decoding unit
  • 53 video cut estimation unit
  • 80 automatic video production unit
  • 44 head mounted display (abbreviated $ HMD), 60: Viewer or user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

AR(拡張現実)やMR(複合現実)等に代表される次世代映像技術において、所定の情報処理装置を用いて、高度な映像演出による合理的かつシームレスな映像融合を自動的、自律的に行うための自動映像演出装置及び自動映像演出方法を提供することである。 そのために、自動映像演出装置として、融合元となる親映像コンテンツの映像内容やシナリオを解読する機能部と、その解読結果から生成された各親映像オブジェクトやユーザに関する各種データを生成する各機能部と、各種データと融合対象の子映像オブジェクトに関する配役データ(当該映像オブジェクトの属性、特徴などを明示するデータ)を基に、所定の映像融合条件をクリアするよう融合対象となる親映像シーンの選択、子映像オブジェクト融合位置の決定、映像融合のための映像加工、編集手順の構築など所定の映像融合演出を行う機能部を設ける。

Description

自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体
 本発明は、映像コンテンツの加工、編集を行う自動映像演出装置及び自動映像演出方法に関する。
 近年「拡張現実(Augmented Reality;略称 AR)」や「複合現実(Mixed Reality;略称 MR)」などに代表される次世代向けの新しい映像が注目されている。これら次世代映像の分野においては、例えば前記ARやMRにおいて現実空間像(ユーザ実視認映像)と仮想映像(所定の映像オブジェクト等)とを、リアルタイムかつ合理的でシームレスに融合させる高度な映像技術が要求される。
 一方、例えば人工知能(AI)などに代表される高機能情報処理装置の出現により、映像の加工や編集など従来人間が行っていた映像処理作業を情報処理装置が自動的または自律的行うことも現実的に可能になりつつあり、そのための技術もいくつか開示されている。
 本技術分野における背景技術として、例えば特許文献1がある。特許文献1では、コンピュータ等の所定の情報処理装置が予め定められた演出手順に応じて一連の撮影指示命令を撮影装置に与え、その命令群に従い撮影された動画を自動編集する動画シーケンス合成用ビデオシステム技術が開示されている。
特開2010-232813号公報
 特許文献1は、所定の映像処理装置が予め定められた演出スキーム(演出の内容や手順を示す枠組み)に即して、映像の加工や編集処理作業を行うための技術を開示したものである。しかしながら、融合元の映像コンテンツが持つストーリー性やコンテンツイメージ等を損なうことなく、かつ映像オブジェクトの嵌め込み、融合により視聴者やユーザに対して所定の訴求効果が望めるような映像融合演出を自動、自律的に行うための映像技術に関して開示は無い。
 特に前記したARやMRのケースのように、シナリオ不定の現実空間像を映像の嵌め込みまたは融合元として、この現実空間像に所定の仮想映像をリアルタイムかつ合理的でシームレスに融合するための高度映像融合演出手段の創出は、次世代映像分野における一つの技術課題である。
 本発明は前記課題を解決するためになされたものであり、その目的とするところは、前記のような高度映像融合演出を自動的または自律的に実行するための自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体を提供することである。
 本発明は、上記背景技術及び課題に鑑み、その一例を挙げるならば、映像融合元となる親映像コンテンツの所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出装置であって、親映像コンテンツの全部または一部の映像内容を解読、または当該親映像コンテンツを所定の親映像シーンに分割して、親映像の内容解読結果または親映像シーン分割結果を所定の記述形式でデータ化した所定の親映像解読データを生成する映像コンテンツ解読部を備える。
 本発明によれば、合理的でシームレスな映像融合を実現するための高度映像演出および加工、編集処理を自動、自律的に実行させることができる。
実施例1における自動映像演出装置の構成ブロック図である。 実施例1における配役データ及び脚本データ生成プロセスの処理フローチャートである。 実施例1における配役データの内容およびデータ構造を示した概略模式図である。 実施例1における脚本データの内容およびデータ構造を示した概略模式図である。 実施例1における配役データ及び脚本データ組込み済み映像コンテンツのデータストリーム構造を示した概略模式図である。 実施例1における映像融合演出、加工、編集プロセスの処理フローチャートである。 実施例1における映像融合演出、加工、編集プロセスの具体的な実施事例の概略を処理ステップ別に示した模式図表である。 実施例2における処理プロセスのフローチャートである。 実施例2における処理プロセスの流れを概念的に表した模式図である。 実施例3における自動映像演出装置の構成ブロック図である。 実施例3における処理プロセスのフローチャートである。 実施例4における自動映像演出装置の構成ブロック図である。 実施例4における処理プロセスのフローチャートである。 実施例4における眼鏡型HMDによるAR表示の一実施事例を示した概略図である。 実施例5における自動映像演出装置の構成ブロック図である。 実施例5における処理プロセスのフローチャートである。 実施例6における自動映像演出装置を用いたCM映像融合サービスシステムの概念図である。
 以下、図面を用いて本発明の実施例について説明する。
 図1は、本実施例における自動映像演出装置の構成ブロック図である。図1において、破線で囲まれた自動映像演出装置80は、映像コンテンツデータ読込み部1、映像コンテンツ解読部2、映像オブジェクト識別抽出部3、視聴者生体データ検知部4、視聴者仕草及び行動データ検知部5、周囲環境データ検知部6、配役データ生成部7、脚本データ生成部8、子(融合対象)映像オブジェクトデータ格納部9、処理データ格納部10、映像融合検出部11、映像加工、編集及びレンダリング部12、制御部20等の各機能部から構成されている。また各機能部は図に示すように共通のデータバス25に接続しており、このデータバス25を経由して所定の機能部間で互いにデータ信号や制御信号のやり取りを行える。
 次に各機能部の具体的な機能について説明する。なお本実施例においては、映像融合の融合元となる映像(以下簡単のため親映像と記す)コンテンツは、例えばドラマや収録済みのアーティストライブ映像など制作済みの映像コンテンツである。
 自動映像演出装置80内の映像コンテンツデータ読込み部1は、親映像コンテンツ50の映像データを読込む機能を備えている。
 また映像コンテンツ解読部2は、映像コンテンツデータ読込み部1から得た親映像コンテンツ50の映像データからその映像内容やシナリオを解読し、さらにその解読結果から当該親映像コンテンツ全編を所定の映像シーンに分割処理する機能を備えている。
 また映像オブジェクト識別抽出部3は、親映像コンテンツ50内に登場する人物や物体さらには背景、情景なども含めた映像対象物の一部または全てをそれぞれ個別の映像オブジェクトとして識別、抽出し、抽出された各映像オブジェクトに他の映像オブジェクトと区別するためのオブジェクト名あるいはID番号などの所定のオブジェクト識別子を付与する機能を備えている。
 一方、視聴者生体データ検知部4は、所定の生体センサ15により視聴者またはユーザ60の呼吸数、心拍数、体温、血圧、発汗量等々の生体データを検知、取得する機能を備えている。
 また視聴者仕草及び行動データ検知部5は、視聴者モニタカメラなど所定の視覚センサ16により、例えば視聴者の視線方向や表情の変化など視聴者またはユーザ60の仕草あるいは行動形態などに関する諸データを検知、取得する機能を備えている。
 さらに周囲環境データ検知部6は、所定の環境センサ17により温度、湿度、気圧、照度(明るさ)など視聴者またはユーザ60の周囲環境の状態に関するデータを検知、取得する機能を備えている。なお、これら検知、取得データは前記したデータに限定されるものではなく、必要に応じて任意のデータ項目を追加あるいは取捨選択しても一向に構わない。また各検知部についても当然のことながら、その全てが自動映像演出装置80内に装備される必要は無く、必要なデータ項目に応じて任意に追加あるいは取捨選択できるし、後述するように、これら検知、取得データを全く必要としない場合は、当然全て装備しなくても構わない。
 次に配役データ作成部7は、映像オブジェクト識別抽出部3で識別、抽出された親映像内の各映像オブジェクト(以下簡単のため親映像オブジェクトと記す)や、当該親映像に融合する対象である映像オブジェクト(子映像オブジェクトと記す)に対して、その物理的属性、社会的属性等々その映像オブジェクトの種別、特長、キャラクターなどを明示化したデータ(以下簡単のため配役データと記す)を生成し、それぞれ対応する映像オブジェクトに紐付けする機能を備えている。
 同様に脚本データ生成部8は、映像コンテンツ解読部2によって分割された親映像の各映像シーンに登場する各映像オブジェクトに対して、同じく映像コンテンツ解読部2において解読された親映像の放映内容やシナリオなどを基に解析した当該映像オブジェクトの位置や動き、移動などを所定のタイムテーブルに沿って明示化したデータ(以下簡単のため脚本データと記す)を生成し、それぞれ対応する映像シーン及び映像オブジェクトに紐付けする機能を備えている。なお、この脚本データ及び前記の配役データの具体的な内容については後述する。
 次に子映像オブジェクトデータ格納部9及び処理データ格納部10は、それぞれ所定の記憶装置またはサーバなどの記憶装置、あるいは磁気ディスクや光ディスクなど所定データ記憶媒体で構成されている。
 そして子映像オブジェクトデータ格納部9には、前記した子映像オブジェクトの映像データが格納、記憶されている。なお、ここに格納される子映像オブジェクトは単一の映像オブジェクトでも構わないし、視聴者やその周囲環境の状況あるいは親映像コンテンツの放映内容やシナリオに応じて自動映像演出装置80が自由に取捨選択できるように、複数の映像オブジェクトがライブラリーの形で格納されていても構わない。さらに、これら格納子映像オブジェクトは、時間経過や季節の推移など所定の条件に応じて逐次変更または更新される仕組みであっても一向に構わない。
 一方、処理データ格納部10には、配役データや脚本データなど自動映像演出装置80で生成または処理された諸データ、あるいは、これら各データを組み込んだ親映像のデータストリームなどが適宜格納される。
 なお図1では、説明の便宜上、子映像オブジェクトデータ格納部9及び処理データ格納部10は各々独立した記憶装置で示されているが、当然のことながら同一の記憶装置を共用するような構成であっても構わない。
 また図1では、子映像オブジェクトデータ格納部9や処理データ格納部10が自動映像演出装置80の内部に組み込まれた構成になっているが、本実施例はこのような構成に限定されるものでは無い。例えば、これらデータ格納部をクラウドのような外部サーバに設置し、所定の通信手段あるいはネットワークによって自動映像演出装置80とデータのやり取りや制御を行う構成であっても一向に構わない。
 次に映像融合演出部11は、配役データや脚本データなどの各種データを用いて、親映像コンテンツに子映像オブジェクトを融合するための「映像融合演出」処理を実行する機能を備えている。この「映像融合演出」処理の具体的な内容については後述する。
 次に映像加工、編集及びレンダリング部12は、「映像融合演出」処理結果に基づき、実際に映像の加工、編集またはレンダリング(映像描画)等の処理を実行する機能を備えている。なおこの映像の加工、編集またはレンダリング処理については、コンピュータグラフィクス技術や3Dモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行できるので、ここではその詳細な説明は省略する。
 最後に制御部20は、データバス25を通じて前記各機能部と繋がり適宜その機能を制御する機能を備えている。
 なお以上説明したように、図1の実施例においては、説明の便宜上機能部ごとにブロック分けされた例を示したが、当然の事ながら本実施例の自動映像演出装置80は、実際に図のように分割された機能ブロックで構成される必要は無い。例えばAIなど所定の情報処理装置を用いて前記各機能部における処理を包括的に実行するような構成であっても一向に構わない。
 なお、このようにAI等の情報処理装置を本実施例の自動映像演出装置80として用いると、例えばディープラーニング技術など最新のAI技術を駆使することで、より人間の思考に近づいた高度な推定、判断能力を持って前記各処理プロセスを遂行させることができる。
 そして最後に、前記一連の処理を経て子映像オブジェクトが融合処理された親映像コンテンツは、映像再生部13で再生処理され所定の表示装置14を経て視聴者またはユーザ60に向けて再生または配信、放映される。
 次に本実施例における自動映像演出装置80の処理プロセスの実施例について説明する。
 本実施例における一連の処理プロセスは、最初に親映像コンテンツ全編にわたって配役データや脚本データを生成する「配役データ、脚本データ生成プロセス」と、次に当該処理プロセスで生成された配役データと脚本データを用いて映像融合演出及び映像の加工、編集、レンダリング処理を実施し、さらに必要に応じて子映像オブジェクトが融合された親映像コンテンツを視聴者またはユーザ60に向けて再生または配信、放映する「映像融合演出、加工、編集プロセス」の2段階の処理プロセスに分けられる。
 まず初めに「配役データ、脚本データ生成プロセス」の処理フローについて説明する。図2は本実施例における配役データ、脚本データ生成プロセスのフローチャートである。
 図2において、まず処理ステップ101(S101、以降、処理ステップをSと略す)において、親映像コンテンツの全編及び子映像オブジェクトの映像データの全ての読込みが実行される。
 そして次のS102において、親映像コンテンツ50内に登場する人物や物体さらには背景、景色なども含めた映像対象物の一部または全部が、それぞれ個別の親映像オブジェクトとして識別、抽出され、抽出された各親映像オブジェクトおよび別途読込まれた子映像オブジェクトに他の映像オブジェクトと区別するためのオブジェクト名あるいはID番号などの所定のオブジェクト識別子が付与される。
 さらに次のS103において、S102で識別、抽出した各親映像オブジェクトの位置や動き、台詞などから、映像親映像コンテンツ全編の映像内容やシナリオすなわちコンテンツのストーリー、世界観あるいは映像演出の枠組みなどが解読され、さらにその解読結果に基づきコンテンツ全編が所定の映像シーンに適宜分割処理される。そして解読された映像内容情報やシナリオ情報、あるいは映像シーン分割情報は、所定のデータ記述言語あるいはフォーマットでデータ化され適宜処理データ格納部10に格納される。
 そして次のS104では、前段の処理ステップで識別、抽出された各親映像オブジェクト(以下親映像オブジェクト)や子映像オブジェクトに対して、それぞれ後述するような所定の配役データが生成される。さらに次のS105で、当該親映像配役データがそれぞれ対応する親映像オブジェクトに紐付けされた上で親映像コンテンツの映像データストリームに組み込まれる。また子映像オブジェクトに関する配役データもそれぞれ対応する親映像オブジェクトに紐付けされた上で子映像オブジェクトデータ格納部9あるいは処理データ格納部10または前記以外の所定のデータ格納部に書き込まれる。
 その後、次のS106において、まずシーン番号Nを1とし、次のS107において親映像コンテンツの先頭からN番目のシーンが選択される。
 さらに次のS108では、当該親映像の映像シーン内に登場する各親映像オブジェクトに対して、後述するような所定の脚本データが生成され、次のS109で、当該脚本データがそれぞれ対応する映像シーンおよび映像オブジェクトに紐付けされた上で、親映像コンテンツの映像データストリームに組み込まれる。
 ここで、前記配役データ及び前記脚本データの内容および構成に関する実施例について説明する。
 図3は、本実施例における前記のS104で生成される配役データの内容およびデータ構造を示した概略模式図である。
 配役データとは、S103において識別、抽出された各親映像オブジェクトおよび子映像オブジェクトが、それぞれ親映像コンテンツ内あるいはそれ単独でどのような位置づけや役割を担っているかを、自動映像演出装置80に確実に認識させるために生成されるデータである。
 したがって、この配役データは、前記各映像オブジェクトに対して、S103で解読された当該親映像コンテンツの映像内容情報やシナリオ情報あるいは映像オブジェクト自体の解析情報に基づき、例えば図3に示すような項目、すなわち、
(a)物理的属性(対象物の物理的類別や属性を明示する項目)
(b)社会的属性(人物、動物については社会的属性や性格、キャラクターなど映像コンテンツ内でその人物や動物を特徴づける事項、あるいはその他物理的属性では明示できないオブジェクトに関する項目)
(c)可視的状態(形状、寸法、色など映像から認識可能な状態を明示する項目)
(d)非可視的状態(重量、温度、触感など映像では認識不可能または困難な状態を明示する項目)
(e)相関パラメータ(人間関係、社会的関係、あるいはオブジェクト同士の物理的、化学的相互関係などオブジェクト間の関係性を明示する項目)
等々、当該映像コンテンツにおける各映像オブジェクトの分類、属性、役割、位置づけ、特徴、キャラクターなどに関する必要諸情報がデータ化あるいはパラメータ化され、対応する映像オブジェクト毎に紐付けされ包括管理されたデータ群またはパラメータ群で構成される。
 一方、図4は、本実施例における前記S108で生成される脚本データの内容およびデータ構造を示した概略模式図である。
 脚本データとは、個々の親映像コンテンツに関してちょうどドラマや演劇などで作成、使用される脚本に相当する情報を、自動映像演出装置80に確実に認識させるために生成されるデータである。したがってこの脚本データは、前記各映像シーン及び当該シーン内に登場する各映像オブジェクトに対して、S103で解読された当該親映像コンテンツのシーン毎の映像内容情報やシナリオ情報あるいは映像オブジェクト自体の解析情報に基づき、例えば図4に示すような項目、すなわち、
(a)当該映像オブジェクトのシーン内における3次元位置
(b)当該映像オブジェクトの向きや姿勢
(c)当該映像オブジェクトの台詞(台詞があるオブジェクトの場合)、表情、仕草、行動
(d)各映像オブジェクトあるいはシーン全体に課せられる所定の制約条件
等々、当該映像シーン内における各映像オブジェクトの位置や動きあるいはそれらに課せられる制約条件などに関する情報がデータ化あるいはパラメータ化され、対応する映像シーン及び映像オブジェクト毎に紐付けされ包括管理されたデータ群またはパラメータ群で構成される。
 なお前記した配役データや脚本データの各項目は、あくまで一実施例であり勿論これに限定されるものではない。後述する映像演出への必要性に応じて、所定の項目に関する情報をデータ化あるいはパラメータ化して追加しても構わないし、任意に取捨選択しても構わない。
 また、この配役データや脚本データ、あるいは前記の映像内容情報データやシナリオ情報データ、あるいは映像シーン分割情報データなどを記述するデータ記述言語あるいはフォーマットについては、当然のことながら自動映像演出装置が認識できるものであれば、どのような記述言語、フォーマットであっても構わない。
 ここで再び図2の「配役データ、脚本データ生成プロセス」の処理フローについての説明に戻る。
前記のS109に引き続きS110では、親映像の全シーンについて関して脚本データの生成、組込みが完了したか否かが判定される。判定が「Yes」の場合は、次のS111にて配役データや脚本データが組み込まれた親映像データストリームが処理データ格納部10またはそれ以外の所定のデータ格納部に書き込まれ、さらに各子映像オブジェクトに紐付けされた配役データも子映像オブジェクトデータ格納部9もしくは処理データ格納部10に書き込まれる。一方「No」の場合はS112にてN=N+1の処理がなされ、S107に戻り、一連の処理プロセスが繰り返される。
 図5は、本実施例における配役データ及び脚本データが組み込まれた親映像コンテンツのデータストリーム構造を示している。図5(a)は当該データストリームの先頭に配役データ及び脚本データを一括して配置したデータ構造例を示しており、図5(b)は配役データのみデータストリームの先頭に配置し、脚本データはシーン毎に分割された各映像データの先頭に配置したデータ構造例を示している。
 なお、図5は単に2つの実施例を示したものであって、当該データストリーム構造は本実施例に限定されるものではない。当然のことながら、自動映像演出装置80が自由に読込み、書き出しできるものであればどのようなデータ構造でも一向に構わない。
 最後に以上の処理フローに従い、親映像コンテンツの全シーンに対して配役データ及び脚本データの生成、組込み処理が完了すると、S113にて一連の「配役データ、脚本データ生成プロセス」を終了するか否かが判定される。判定が「Yes」の場合は一連の「配役データ、脚本データ生成プロセス」の処理プロセスが終了する。一方「No」の場合は、S101に戻り、引き続いて別の親映像コンテンツに対して一連の「配役データ、脚本データ生成プロセス」が繰り返される。
 次に、もう一つの処理プロセスである「映像融合演出、加工、編集プロセス」の処理フローについて説明する。図6は本実施例における映像融合演出、加工、編集プロセスのフローチャートである。
 図6において、まずS121において、前記の「配役データ、脚本データ生成プロセス」で生成され所定のデータ格納部に格納されている配役データ及び脚本データ組込み済み親映像コンテンツの映像データストリームや、全ての子映像オブジェクトデータ(子映像オブジェクトの映像データ及び当該子映像オブジェクトに紐付けされた配役データ)が読込まれる。
 なお、ここで読込まれる配役データ及び脚本データ組込み済みの親映像データストリームは、前記の「配役データ、脚本データ生成プロセス」で生成された映像データストリームに限定されるものではない。当然他の映像機器または処理プロセスで生成されたものでも構わないし、例えば手動によって作成された配役データ及び脚本データなどと元の映像コンテンツデータストリームをそれぞれ別個に読込んでも構わない。
 次のS122では、視聴者生体データ検知部4から視聴者またはユーザ60の呼吸数、心拍数、体温、血圧、発汗量等々の生体データが検知、取得される。また同時に、視聴者仕草及び行動データ検知部5から当該視聴者またはユーザ60の視線方向や顔の表情など仕草あるいは行動形態などに関するデータが、さらに周囲環境データ検知部6から温度、湿度、気圧、照度(明るさ)など当該視聴者またはユーザ60の周囲環境状態に関する諸データが検知、取得される。
 なおこれら検知データの種類については本実施例に限定されるものではなく、必要に応じて任意に追加あるいは取捨選択して構わない。
 次にS123では、S122で検知、取得された各データから、自動映像演出装置80自身が視聴者またはユーザ60の健康状態や生理状態、さらには心理状態例えば感情、嗜好、欲求、興味の対象物などを推定する。
 なお勿論、本実施例における自動映像演出装置80は、以上説明したように視聴者またはユーザ60に関する健康状態、生理状態、心理状態の推定結果をもって後述する最適映像オブジェクトの選択条件とするものに限定されるものではなく、どのような選択条件で選択しても構わない。その場合は当然のことながらS122で取得対象となるデータは前記した各データに限定されるものではなく、選択条件に合わせて任意に変更して構わないし、選択条件によってはこのような視聴者状況に関するデータを必要としない場合もある。そのような場合は、当然のことながらS122やS123をスキップまたは当該処理ステップ自体を省略しても一向に構わない。
 そして次のS124では、検知、取得した各データ、あるいはそこから推定される視聴者またはユーザ60の健康状態、生理状態、心理状態を基に、その時点でどのような子映像オブジェクトを親映像に嵌め込みまたは融合すれば、最も適切な訴求効果を生み出すかを自動映像演出装置80自身が判断し、単独または複数ある子映像オブジェクトの中から最適な子映像オブジェクトが選択される。
 さらに次のS125では、親映像コンテンツの各シーンの中から選択した子映像オブジェクトを融合すべき融合元映像シーンが選択される。
 また次のS126では、当該映像シーンの中で対象の子映像オブジェクトの嵌め込みまたは融合する画面位置が指定される。
 ここで特に注意しなければならないのは、当該映像シーン中の前記子映像オブジェクト嵌め込みまたは融合位置に何らかの親映像オブジェクトが存在している場合である。このような場合は、対象の子映像オブジェクトと親映像オブジェクトとの前後関係や重畳関係に注意してこの両映像オブジェクトが違和感無く自然かつシームレスに嵌め込みまたは融合して見えるように、所定の映像加工や編集を行う必要がある。この映像加工や編集による映像演出の枠組みを決めるのが、次のS127である。
 すなわち、このS127では、選択された子映像オブジェクトを対象の親映像オブジェクトまたは画面位置に違和感無く自然かつシームレスに融合するために、当該子映像オブジェクトまたは当該親映像オブジェクトあるいはその他親映像画面に施すべき具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。
 なお、このS124、S125、S126及びS127の4段階の処理ステップは、主として図1に示した本実施例のブロック図中の映像融合演出部11で実行される処理プロセスであり、本実施例の最も主要な構成要件である。以下では説明の便宜上、当該処理プロセスを総称して「映像融合演出」ステップと記す。
 この「映像融合演出」プロセスでは、S127で読み込んだ各親映像オブジェクトに関する配役データや脚本データと、各子映像オブジェクトの配役データ、さらにはS122で得られた各種データとそれに基づきS123で得られた視聴者またはユーザ60の健康状態、生理状態、心理状態の推定結果等の各種データを基にして、自動映像演出装置80自身の判断で前記した子映像オブジェクト及び親映像融合対象シーンの選択、子映像オブジェクト融合位置の指定、「映像加工編集スキーム」の構築を実行する。
 各処理の実行に当たっては、例えば、以下に示すような「映像融合条件」をクリアするように最適処理がなされる。
(a)親映像コンテンツの放映内容やシナリオから想起されるコンテンツのストーリー性やコンテンツイメージを阻害しない事。
(b)子映像オブジェクトの融合により所定の訴求効果が生まれる事。
(c)子映像オブジェクトの融合により非合理性や物理的矛盾が無い事。
(d)子映像オブジェクトの融合により視聴者へ違和感や嫌悪感を与え無い事。
なお、上記「映像融合条件」例のうち(c)の「非合理性や物理的矛盾が無い事」とは、具体的に云うと、例えば何ら支えが無いのにも関わらず物体が空中に浮いていたり、あるいは実体物が壁をすり抜けたりするような非合理的な映像が存在しないということを意味している。
 しかしながら、例えば他の「映像融合条件」をクリアするため敢えてファンタジー的あるいはSF的な映像演出を行うことが適当であると判断された場合は、上記のような非合理性や物理的矛盾がある演出でも許容される。
 このように前記「映像融合条件」は各条件のバランスを考慮して適宜緩和あるいは強化することが可能である。さらに、この「映像融合条件」については、前記した(a)~(d)の各項目はあくまで一例であり、当然のことながら当該項目にのみ限定されるものではない。自動映像演出装置80の使用者あるいは管理者が任意に追加、削除、変更しても一向に構わない。
 次にS128では、前記「映像融合演出」ステップに引き続き、その処理結果に基き、実際に映像加工、編集、レンダリング等の映像融合処理を実行するか否かが判定される。「Yes」の場合は、次のS129で実際に映像の加工、編集またはレンダリングの処理が実行される。なおこの映像の加工、編集またはレンダリング処理については、前記したようにコンピュータグラフィクス技術や3Dモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行できるので、その詳細な説明は省略する。一方「No」の場合は、このS129はスキップされ、次のS130において、一連の「映像融合演出、加工、編集プロセス」が親映像コンテンツ全編に対して完了したか否かが判定される。判定が「Yes」の場合は、処理フローが再びS122に戻り一連のプロセスが繰り返される。一方「No」の場合は、次のS131に移る。
 そして、このS131では、前記「映像融合演出」ステップで得られた融合対象の親映像シーンの選択結果や融合対象親映像オブジェクトまたは画面位置の指定結果、さらには前記「映像加工編集スキーム」などの諸データを所定の映像融合演出用データとして処理データ格納部10に書き込む処理がなされる。また併せて一連の映像融合処理が完了した親映像コンテンツの映像データストリームも処理データ格納部10またはそれ以外の所定のデータ格納部に書き込まれる。
 また次のS132では、一連の映像融合処理が完了した親映像コンテンツを再生するか否かが判定される。判定が「Yes」の場合は次のS133で実際に映像の再生あるいは配信、放映が実行される。一方「No」の場合は、このS133はスキップされ、「映像融合演出、加工、編集プロセス」に関する一連の処理フローが完了する。
 なお本実施例では、説明の便宜上一連の「映像融合演出、加工、編集プロセス」が親映像コンテンツ全編に対して完了した後で、改めて映像融合処理済みの親映像コンテンツの再生あるいは配信、放映処理が実行される処理フローについて説明したが、本実施例はそれに限定されるものではない。すなわち「映像融合演出、加工、編集プロセス」を先行させながら、並行して映像融合処理済み親映像コンテンツの追っかけ再生または配信、放映を行う仕組みであっても勿論構わない。
 次に、具体的な処理事例を使って図6で説明した「映像融合演出、加工、編集プロセス」の各処理ステップにおける具体的な処理手順を説明する。
 図7は、ある映像融合処理事例に関して、前記「映像融合演出、加工、編集プロセス」における処理ステップ別の具体的処理手順を示した模式図表である。ここで紹介する処理事例は、映像融合元となる制作済み親映像コンテンツとして、あるアイドル(仮名(A))のライブコンサート映像を取り上げ、当該制作済みライブコンサート映像に、ある飲料メーカ(仮名(B)社)が発売している製品をCM映像として組み込んで配信、放映する事例である。なおこの制作済み親映像コンテンツは、既に前記「配役データ、脚本データ生成プロセス」により所定の配役データ及び脚本データの生成、映像データストリームに組込まれているものとする。
 また図7において、処理ステップ欄に記載されている文字は、図6で説明した各処理ステップ名に相当し、処理内容欄は当該処理ステップにおける処理内容の概要を記している。そして具体的処理事例欄で本事例における具体的処理内容を文章と模式図を用いて説明している。
 図7において、(B)社からCM映像提示のリクエストがあると、まず配役及び脚本データが組込まれた当該ライブコンサート映像データストリームが自動映像演出装置80に読み込まれる(S121)。
 次に自動映像演出装置80は、各種センサから視聴者の生体状況や表情、注視対象物(=興味対象物)、周囲環境などに関するデータを検知、取得する(S122)。
 そして、これら検知、取得データから自動映像演出装置80は、視聴者60は現在喉が渇いており、何らかの飲料水を欲している状態と推定。当該ライブ映像の中に飲料水の映像を組み込むと高いCM訴求効果が得られるものと判断する(S123)。
 そこで親映像に組込む子映像オブジェクト(CM映像対象物)として、(B)社製清涼飲料水ペットボトル(C)の映像を選択し、その映像オブジェクトデータを読込む(S124)。
 次に自動映像演出装置80は、親映像コンテンツがアイドル(A)を主役とするライブコンサートの映像であることを認識し、そのコンテンツイメージを阻害せず、かつ所定のCM訴求効果が得られる映像演出として、ライブコンサート中にアイドル(A)がダンスをする映像シーンの中に、子映像オブジェクトであるペットボトル(C)の映像を自然に融合させることを決定。親映像コンテンツの映像シーンの中から映像融合元となるダンスシーンを選択する(S125)。
 さらに選択したダンスシーン内で、具体的な子映像オブジェクト(ペットボトル(C))の嵌め込み位置として、アイドル(A)の右手を指定。あくまで自然でシームレスな映像融合を実践するために、アイドル(A)がペットボトル(C)を右手で持ってダンスする映像に演出を変更することを決定する(S126)。
 そこで自動映像演出装置80は、次に、何も手にしていない元の親映像から右手にペットボトル(C)持ってダンスする映像に演出変更するため、親映像側や子映像オブジェクトにどのような映像加工あるいは編集を施せばよいか、その具体的な内容や手順が明示された「映像加工編集スキーム」を、自身の判断で構築していく(S127)。
 ここで当該「映像加工編集スキーム」の概要としては、例えば図7に示すように、
(a)(A)の右手の各手指とペットボトルの重畳状態(前後関係)を整合
(b)(A)の開いた右手指の映像を、ペットボトルを持つ手指の映像に加工
(c)ペットボトルに照射する照明光の照射状態や照り返し状態を調整
(d)ペットボトルが作る影の追加と変更した手指が作る影の変更
等が挙げられる。なお上記は「映像加工編集スキーム」の一例でかつその概要であり、実際はもっと具体的で詳細なスキームが構築される。
 そして、このようにして構築された「映像加工編集スキーム」は、コンピュータグラフィクス技術や3Dモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで、実際の動画映像に施される(S129)。
 そして最後に、子映像オブジェクト(ペットボトル(C))が正しく融合処理された親映像コンテンツ、すなわち所定のダンスシーンでアイドル(A)がペットボトル(C)を持ちながらダンスするシーンを含むライブ映像が視聴者60に対して配信、放映される(S133)。
 以上述べてきたように、本実施例の自動映像演出手段または装置を用いると、所定の映像コンテンツの中に当該映像コンテンツとは独立した所定の映像オブジェクトを、当該映像コンテンツのストーリー性やコンテンツイメージを阻害することなくごく自然かつシームレスに融合させることが出来る。
 さらに本実施例の自動映像演出装置によれば、融合させる映像オブジェクトを、視聴者あるいはユーザ個々人の感情、嗜好、欲求、興味などに適合するよう選択する、あるいは視聴者またはユーザのほぼリアルタイム(例えば、まさに当該映像コンテンツを鑑賞している最中)の状況変化に合わせてその時々に有効な映像融合を適宜実行するなどの柔軟な対応が可能である。
 したがって、このような特徴を考慮すると、本実施例のような自動映像演出装置は、図7で紹介したような映像コンテンツへのCM映像組込み用途として非常に有効であるといえる。
 なお、このように本実施例の自動映像演出装置を所定の映像コンテンツへのCM映像組込み用途等で用いる場合は、対象のCM映像が親映像コンテンツに嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、CM提供に制限を加える、あるいはCMスポンサー側に所定のCM料金を課金、請求する仕組みなどを組み合わせることもできる。勿論本実施例における自動映像演出装置は、前記のような映像コンテンツへのCM映像組込み用途に限定されるものではなく、どのような用途に用いても構わない。
 実施例1では、初めに「配役データ、脚本データ生成プロセス」により、一旦親映像コンテンツ全編に対して配役データ及び脚本データを生成し、親映像データストリームへの組込みを実施した後に、改めて「映像融合演出、加工、編集プロセス」によって子映像オブジェクトの映像融合処理を行う2段構えの実施例であった。
 これに対して、親映像コンテンツを再生または配信、放映しつつ、並行して親映像コンテンツを先行読み込みして子映像オブジェクトの嵌め込み、融合処理を行うことも可能である。
 そこで、本実施例では、親映像コンテンツの再生または配信、放映処理と当該親映像コンテンツへの映像融合演出、加工、編集処理とを同時並行的に実行する自動映像演出装置を、親映像コンテンツを放映あるいは配信する映像コンテンツ供給サーバ等に設置する例について説明する。
 本実施例における自動映像演出装置の構成ブロック図は、図1と同様であるので省略する。
 図8は本実施例における処理プロセスに関するフローチャートである。
 本実施例では、一連の処理プロセス開始前の事前準備として、子映像オブジェクトデータ格納部9に格納されている個々の子映像オブジェクトに対して、当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群、すなわち前記図2の「配役データ、脚本データ生成プロセス」の実施例で説明した配役データに相当するデータを、当該子映像オブジェクトに紐付けした形で所定のデータ格納部に格納しておく。
 図8において、まずS201で自動映像演出装置80は、所定のデータ格納部から子映像オブジェクトデータ、すなわち子映像オブジェクトの映像データ及び当該子映像オブジェクトに紐付けされた配役データを全て読込む。
 次にS202において、親映像コンテンツの映像データ読込みが開始される。そして次のS203で自動映像演出装置80は、親映像コンテンツの再生を開始すると共に、同時並行で現再生シーンから所定時間例えば数秒から数十秒先までに再生または配信、放映される親映像の映像データを先行して読込む。
 そして次のS204では、前記の先行読込み済み映像に対して、図2で説明したS102と同様に、そこに新たに登場する人物や物体さらには背景、景色なども含めた全ての対象物がそれぞれ個別の映像オブジェクトとして識別、抽出され、抽出された各映像オブジェクトに他の映像オブジェクトと区別するためのオブジェクト名あるいはID番号など所定のオブジェクト識別子が付加される。
 次にS205では、S204で識別、抽出した各親映像オブジェクトの位置や動き、台詞などの情報データから、当該先行読込み済みの映像に関して、その映像内容やシナリオが解読され、さらにそれら解読情報を基に必要に応じて所定の映像シーンに適宜分割される。
 なおS205は、主として図1に示した自動映像演出装置80のブロック部における映像コンテンツ解読部2に相当する機能部で実行される。この映像コンテンツ解読部2に関しては、実施例1では親映像コンテンツを一旦全て読込み、その全編に対して放映内容やシナリオの解読及びシーン分割の処理を行う機能を備えていた。しかしながら本実施例における映像コンテンツ解読部2は、前記したように当該親コンテンツの映像再生または配信、放映の開始時からその時点までに先行読込み済みの映像、すなわち映像コンテンツの途中段階までの映像データをもって、その映像内容やシナリオを解読しシーン分割処理を行う機能により実現可能である。この点において本実施例と実施例1とは機能が若干異なる。
 なお、このようなコンテンツの途中段階での映像解読の場合、当然のことながら、親映像データの読込み、解読が進行するに従って解読されていく映像内容情報やシーン分割情報は順次追加される。そして、これら追加情報に基づき、配信、放映の開始時からその時点までの映像コンテンツのシナリオ情報にも所定の追加、変更あるいは修正が加えられる形で逐次更新されていく。
 そこで本実施例における映像コンテンツ解読部2あるいはそれを制御する制御部20は、このような映像内容情報やシナリオ情報、シーン分割情報などを前記のように追加あるいは変更、修正が加えられた最新の情報データに逐次更新したうえで、所定の処理データ格納部10に格納する機能をも備えている。
 そして次のS206では、先行読込みした親映像シーンが、子映像オブジェクトを嵌め込みまたは融合すべき対象の親映像シーンであるか否かが判定される。そして判定が「Yes」の場合は後述のS207以降に進む。一方「No」の場合は、後述のS207からS210はスキップされ、S211に飛ぶ。
 次のS207では、子映像オブジェクトが複数種類ある場合にその中から選択された対象親映像シーンへの嵌め込みまたは融合の対象となる子映像オブジェクトが選択される。
 そして次のS208では、当該融合対象親映像シーン内において対象の子映像オブジェクトを嵌め込みまたは融合すべき画面位置が指定される。
 さらに次のS209では、選択された子映像オブジェクトを対象の親映像オブジェクトまたは画面位置に違和感無く自然にかつシームレスに融合するために、当該子映像オブジェクトまたは当該親映像オブジェクトあるいはその他親映像画面に施される具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。
 なお、これら各処理ステップにおける具体的な処理内容や手順については、図6のS124乃至S127で説明した所謂「映像融合演出」処理ステップと全く同様なので、ここではその詳細な説明は省略する。
 ただし本実施例は、実施例1の場合と異なり、親映像コンテンツを再生または配信、放映しながら並行して先読みした親映像コンテンツの映像データから一連の処理を実行するので、実施例1の場合に比べ時間的な制約が多く、より高速な処理が求められる。
 そこでS206やS207あるいはS208における各判定、選択、指定処理ステップでは、例えば子映像オブジェクト側の配役データの一部または全部を所定のキーワードとして、そのキーワードに対する各親映像シーンの適合性あるいは訴求効果等を所定の数値あるいはパラメータで評価し、その大小を判定や選択の基準にすることで高速に処理を行う手法などを用いることができる。
 さらに、S209での「映像加工編集スキーム」構築処理ステップにおいても、構築される「映像加工編集スキーム」を一部簡略化あるいは省略しても構わない。
 例えば「映像加工編集スキーム」として、親映像の所定映像シーンに嵌め込む子映像オブジェクトと当該親映像シーン内の既存の親映像オブジェクトとの前後関係または重複関係だけを規定する映像融合演出や、あるいは選択された所定の子映像オブジェクトまたはその一部を同じく選択された親映像の所定映像シーン内の指定画面位置に嵌め込むだけの演出とし、映像自体の加工や編集の演出手順を全て省略するような映像融合演出であっても勿論構わない。
 次に、以上のように構築された「映像融合演出」結果に基づき、S210では実際に映像の加工、編集、レンダリングの処理が実行される。これらの処理は、図6や図7の実施事例におけるS129で説明したように、コンピュータグラフィクス技術や3Dモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行される。
 そして次のS211では、上記の子映像嵌め込みまたは融合処理済みの親映像データを所定のデータ格納部10に逐次書き込んでいく処理が行われる。なお、ここでは前記映像データと併せて、前記の「映像融合演出」処理で得られた融合対象の親映像シーンや子映像オブジェクト、あるいは当該融合対象親映像シーン内で対象の子映像オブジェクの嵌め込みまたは融合する画面位置の指定結果、さらには「映像加工編集スキーム」など「映像融合演出」関連の諸データ等を書き込みあるいは更新する処理を行っても構わない。
 そして次のS212では、S211でデータ格納部10に書き込まれた映像嵌め込みまたは融合処理済みの親映像データが読出され、現再生映像シーンの次の映像シーンが再生または配信、放映される。
 そして次のS213で、親映像コンテンツの全シーンが再生または配信、放映されたか否かが判定される。判定が「No」の場合はS203まで戻り一連の処理プロセスが繰り返される。一方「Yes」の場合は、一連の処理プロセスが終了する。
 図9は、本実施例に示した先行読込みタイプの自動映像演出装置における処理プロセスの流れを概念的に表した模式図である。
 図9に示すように、一連の処理プロセスがスタートすると、自動映像演出装置80は、まず親映像コンテンツに嵌め込む子映像オブジェクトの映像データとその付属情報いわゆる前記配役データを読込む。
 そして次に、親映像コンテンツの映像データを先頭から所定の映像シーンあるいは映像カットごとに先読みし、読込んだ親映像シーンまたはカットごとに対象の子映像オブジェクトを嵌め込むか否かの判定し、さらに嵌め込み位置のスキャン(検索)を行う。例えばこれをn番目のシーンまたはカットとする。
 そして次のステップでは、このn番目の親映像シーンまたはカットが子映像オブジェクト嵌め込み対象であった場合、実際に親映像シーンまたはカットの指定位置に子映像オブジェクトを嵌め込む処理を行う。また同時に、次のn+1番目の親映像シーンまたはカットに対して前記先読み処理他が行われる。
 さらに次のステップでは、前記n番目の親映像シーンまたはカットを映像再生しつつ、同時に前記n+1番目の親映像シーンまたはカットに対して前記の子映像オブジェクト嵌め込み処理と、さらにn+2番目の親映像シーンに対する前記先読み処理他が行われる。
 このように複数の処理ステップを逐次かつ同時並行的に行う処理プロセスは、一般にパイブライン処理と呼ばれるが、本実施例ではこのようなパイプライン処理を採用することで、所定の親映像コンテンツを再生または放映、配信しつつ、併行して当該親映像コンテンツ内への所定の子映像オブジェクトの嵌め込み映像演出をほぼリアルタイムに実行することが可能となる。
 以上説明したように、本実施例における自動映像演出装置は、実施例1における図2で示す「配役データ、脚本データ生成プロセス」と図6で示す「映像融合演出、加工、編集プロセス」を一気通貫で行っているような処理プロセスを備えている。
 しかしながら本実施例では、図2におけるS104乃至S105の配役データ生成および親映像データへの組込み、さらにはS108乃至S109の脚本データ生成および親映像データへの組込みの一連の処理が省略されている。これは本実施例のように、親コンテンツの再生と並行して、先行読込みした親映像シーンに対する子映像オブジェクトの嵌め込み、融合処理を行う自動映像演出装置では、より高速の処理が求められるため、処理の負担軽減策の一つとして前記一連の処理を省略した例を記したものである。したがって、もし自動映像演出装置の処理能力が充分高い場合は、当然のことながら図6の実施例と同様に配役データや脚本データの生成および親映像データへの組込み処理を追加しても一向に構わない。このような処理を追加することで、後々対象の親映像コンテンツに再び何らかの子映像オブジェクトを嵌め込み、融合処理する場合、図6で説明した実施例1のように、配役データや脚本データを用いたより複雑で高度な映像融合演出処理を行うことができる。
 また同様に、本実施例では、図6で説明した実施例1の処理プロセスの場合と異なり、各種センサから視聴者の生体状況や周囲環境などに関するデータを検知、取得し、対象となる視聴者の健康状態や生理状態、さらには心理状態などを推定する処理ステップ(図6におけるS122およびS123)、およびその推定結果を親映像コンテンツに嵌め込む子映像オブジェクトの選択処理や映像融合演出処理などに反映させる一連の処理が省かれている。これも前記のように、より高速の処理を実現するために処理の負担軽減策の一つとして省略した例を記したものである。したがって、もし自動映像演出手段または装置の処理能力が充分高い場合は、当然のことながら図6の実施例と同様、視聴者関連情報の検知、推定、および当該推定結果を反映させたより高度な映像融合演出を行う事も可能である。
 さらにまた、本実施例のような自動映像演出装置を映像コンテンツへのCM映像組込み用途等に用いる場合は、実施例1と同様に、対象のCM映像が親映像コンテンツに嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、CM提供に制限を加える、あるいはCMスポンサー側に所定のCM料金を課金、請求する仕組みなどを組み合わせることもできる。
 以上のように本実施例によれば、親映像コンテンツを再生または配信、放映しつつ、並行して親映像コンテンツを先行読み込みして子映像オブジェクトの嵌め込み、融合処理を行うことができる。
 実施例2では、親映像コンテンツを再生または配信、放映しつつ、並行して子映像オブジェクトの嵌め込み、融合処理を行う自動映像演出手段または装置を、親映像コンテンツを放映、配信する映像コンテンツ供給サーバ側等に設置した実施例を示した。しかしながら、同様の機能を備えた自動映像演出手段または装置を一般ユーザが携帯しているスマートフォンなどに代表されるような所謂エッジ端末側に設けることも勿論可能である。
 そこで本実施例では、実施例2と同様の機能を備え、かつスマートフォン等のエッジ端末内に設置される自動映像演出装置について説明する。
 図10は本実施例における自動映像演出装置の概略構成を示したブロック図である。なお図10において、図1の同様の機能を備えた機能部には同じ番号を付している。
 図10において、ユーザ60が携帯しているスマートフォン等のエッジ端末65には、本実施例における自動映像演出装置80が内蔵されている。この自動映像演出装置80には、図1に示した実施例1の自動映像演出装置と同様、映像コンテンツデータ読込み部1、映像オブジェクト識別抽出部3、視聴者生体データ検知部4、視聴者仕草及び行動データ検知部5、周囲環境データ検知部6、処理データ格納部10、編集及びレンダリング部12、制御部20等の各機能部が配備されている。また視聴者生体データ検知部4、視聴者仕草及び行動データ検知部5、周囲環境データ検知部6の各機能部には、それぞれ所定の生体センサ15、視覚センサである視聴者モニタカメラ16、環境センサ17などが接続されている。これら各機能部およびセンサ類は、図1に示した当該各機能部と同様の機能を備えているので、ここではその詳しい説明は省略する。
 一方、本実施例では、図1における映像コンテンツ解読部2に代わり先行読込みカット映像概要解読部32が配備されている。
 本実施例では、実施例1のように親映像コンテンツを全編読込んだ上でそのコンテンツを構成する各映像シーンに関して詳細な映像内容を解読していくのではなく、逐次先行読み込みされている映像情報をほぼリアルタイムで解読処理していく必要がある。しかも本実施例のように自動演出装置80がスマートフォン等のエッジ端末側に組み込まれている場合は、その処理能力には限界があり、実施例1のような高度な映像解読処理を行うことは難しい。
 そこで本実施例では、逐次先行して読込まれる映像情報から前記映像シーンをさらに細分化された映像単位である映像カットを抽出し、当該映像カット内に登場する映像オブジェクトの種類や配置等からそのカットの概要を高速に解読する機能を先行読込みカット映像概要解読部32に具備させている。
 さらに本実施例では、実施例1の映像融合演出部11の代わりに、例えば後述するように映像融合演出を親映像カットへの子映像オブジェクトの嵌め込み演出のみに特化させることで処理機能を簡略化した映像嵌め込み演出部31に配備することで、高速処理を実現している。
 また本実施例では、親映像内に嵌め込まれる子映像オブジェクトの映像データが、外部サーバ内に設けた子映像オブジェクトデータ格納部9に格納されている。さらに、それら個々の子映像オブジェクトに対して、図2の「配役データ、脚本データ生成プロセス」で説明した配役データ、すなわち当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群が、当該子映像オブジェクトに紐付けされた形で子映像オブジェクトデータ格納部9に格納されている。そしてこれら子映像オブジェクト関連データは、所定の通信手段によって本実施例における自動映像演出装置80内に適宜読込まれるようになっている。
 なお、この子映像オブジェクトデータ格納部9が設けられている外部サーバは、CMスポンサーあるいは所定の映像コンテンツ配信会社等が管理している専用サーバでも構わないし、インターネット等を経由して繋がっているクラウドなどの汎用サーバであっても構わない。
 図11は本実施例における処理プロセスに関するフローチャートである。図11おいて、まずS301で自動映像演出装置80は、外部に配置された子映像オブジェクトデータ格納部9から、対象となる個々の子映像オブジェクトの映像データと、当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群、すなわち前記図2の「配役データ、脚本データ生成プロセス」の実施例で説明した配役データに相当するデータを当該子映像オブジェクトに紐付けされた形で読込む。
 次にS302とS303において、S202やS203と同様に、親映像コンテンツの映像データ読込みが開始され、親映像コンテンツの再生を開始すると共に、同時並行で現再生シーンから所定時間までに再生または配信、放映される親映像の映像データを先行して読込む。
 そして次のS304では、先行読込み済み親映像を前記したように所定の映像カットに細分化し、当該細分化された映像カット毎に、実施例1の図2で説明した「配役データ、脚本データ生成プロセス」におけるS102と同様、そこに新たに登場する人物や物体さらには背景、景色なども含めた全ての対象物がそれぞれ個別の映像オブジェクトとして識別、抽出される。
 次にS305では、S304で識別、抽出した各親映像オブジェクトの種類や映像内の配置などから対象の親映像カットの概要が解読される。
 そしてS306では、図8におけるS122と同様、視聴者生体データ検知部4から視聴者またはユーザ60の各種生体データが、取得視聴者仕草及び行動データ検知部5から当該視聴者またはユーザ60の仕草あるいは行動形態などに関するデータが、さらに周囲環境データ検知部6から当該視聴者またはユーザ60の周囲環境状態に関する諸データが検知、取得される。
 また次のS307では、図8に示したS123と同様、S306で検知、取得された各データから、自動映像演出装置80自身が視聴者またはユーザ60の健康状態や生理状態、さらには心理状態例えば感情、嗜好、欲求、興味の対象物などを推定する。
 なお勿論、本実施例における自動映像演出装置80は、前記ように視聴者またはユーザ60に関する健康状態、生理状態、心理状態の検知データや推定結果が必ずしも必須では無く、これら検知データや推定の対象は必要に応じて任意に変更して構わないし、これら視聴者またはユーザに関する諸データを特に必要としない処理プロセスであっても構わない。そのような場合は、当然のことながらS306およびS307をスキップするか、あるいは当該処理ステップ自体を省略しても一向に構わない。
 次のS308では、先行読込みした親映像カットが、子映像オブジェクトを嵌め込むべき対象の親映像カットであるか否かが判定される。ここでの判定が「Yes」の場合は後述のS309以降に進む。一方「No」の場合は、後述のS309からS312はスキップされ、S313に飛ぶ。
 そして次のS309では、子映像オブジェクトが複数種類ある場合にその中から選択された前記対象親映像シーンへの嵌め込みまたは融合の対象となる子映像オブジェクトが選択される。
 さらに次のS310では、嵌め込み対象の親映像カット内において対象の子映像オブジェクトを嵌め込むべき画面位置が指定される。
 ところで、S308における子映像嵌め込み対象親映像カットの判定、あるいはS309における子映像オブジェクトの選択、さらにはS310における子映像オブジェクト嵌め込み位置の指定等にあたっては、例えば前記した子映像オブジェクト側の配役データの一部または全部をキーワードとし、対象の親映像カットの概要、あるいは必要に応じてS306で検知した視聴者の生体データ、仕草、行動データ、周囲環境データ、さらには視聴者状況の推定結果などからキーワードの適合性あるいは訴求効果等を数値化し、その値の大小を判定または検索の基準にすることで高速に処理を行う手法などを用いることができる。
 そして次のS311では、選択された子映像オブジェクトを指定の親映像カット内画面位置に極力違和感無く自然かつシームレスに嵌め込むために、当該子映像オブジェクトまたは親映像カット画面に施される具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。
 ただし本実施例は、実施例2と同様に、親映像コンテンツを再生または配信、放映しながら並行して先読みした親映像コンテンツの映像データから一連の処理を実行するので、実施例1の場合に比べ時間的な制約が多く、より高速な処理が求められる。そこでS311の「映像加工編集スキーム」構築処理ステップにおいても、S209と同様に、構築される「映像加工編集スキーム」を一部簡略化あるいは省略しても構わない。なお、この処理の詳細は、S209と同様なのでその説明は省略する。
 次に、以上のように構築された「映像融合演出」結果に基づき、S312では、実際に映像の加工、編集、レンダリングの処理が実行される。これらの処理は、図6のS210と同様なのでその説明は省略する。
 そして次のS313では、上記の子映像嵌め込み処理済みの親映像データを所定のデータ格納部10に逐次書き込んでいく処理が行われる。なお、この処理の詳細は、S211と同様なのでその説明は省略する。以降のS314、S315は、図6のS212、S213と同様なのでその説明は省略する。
 以上のように本実施例によれば、スマートフォン等のエッジ端末内に設置される処理能力を簡略化した自動映像演出装置を提供できる。
 実施例1乃至3は、いずれも映像融合元となる親映像として、ドラマや収録済みのライブ映像などに代表されるような所定の制作済み映像コンテンツを対象としていた。すなわちコンテンツのストーリーやシナリオ、さらには当該コンテンツ内の全映像シーンに関する映像内容が既に規定されている映像コンテンツを対象としている。
 しかしながら、例えば次世代の映像として注目されているAR(拡張現実)やMR(複合現実)においては、ヘッドマウントディスプレイ(Head Mounted Display;略称HMD)などのAR,MR表示装置を使ってユーザ(HMD装着者)が視認している実像に、所定の仮想映像を嵌め込みまたは融合させる映像技術が必須である。
 このようなARまたはMRの場合、映像の嵌め込みや融合のベースとなる映像すなわち親映像は、ユーザすなわちHMD装着者がリアルタイムに視認している実像(以下、このユーザが視ている実像を実視認像と記す)に相当するが、その映像シーンあるいは映像カットはユーザが視認している対象物やその周りの外界状況の変化、あるいは視線方向の変化などユーザ自身の仕草や動作などによって時々刻々変化する。したがってその親映像のコンテンツ内容やシナリオに相当するものも完全に不定である。
 本実施例は、このように映像コンテンツの内容やシナリオ、さらには映像シーンそのものが不定あるいは流動的でリアルタイムに変化するような親映像に対して、所定の子映像オブジェクトすなわちAR/MRにおける仮想映像に相当する映像を、違和感なく自然かつシームレスな状態で嵌め込みまたは映像融合できる自動映像演出装置について説明する。
 図12は本実施例における自動映像演出装置の構成ブロック図である。なお図12において、図1および図10と同様の働きをする機能部には同じ番号を付している。
 なお本実施例においても実施例3の場合と同様、その事前準備として、親映像に嵌め込みまたは融合される仮想映像の映像データが子映像オブジェクトとして、外部サーバ内に設けた子映像オブジェクトデータ格納部9に格納されている。さらに、それら個々の子映像オブジェクトに対して、図2の「配役データ、脚本データ生成プロセス」で説明した配役データ、すなわち当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群が、当該子映像オブジェクトに紐付けされた形で同じく子映像オブジェクトデータ格納部9に格納されている。
 そして、これら子映像オブジェクト関連データは、所定の通信手段によって本実施例における自動映像演出装置80内に適宜読込まれるようになっている。
 なお、この子映像オブジェクトデータ格納部9が設けられている外部サーバは、CMスポンサーあるいは所定の映像コンテンツ配信会社等が管理している専用サーバでも構わないし、インターネット等を経由して繋がっているクラウドなどの汎用サーバであっても構わない。
 また本実施例における自動映像演出装置80には、図12に示すようにAR/MR映像表示装置としてユーザ60の頭部に装着されたHMD44が接続されている。
 なお、このHMD44には、ユーザ自身が透明ディスプレイを通して肉眼視する実像を実視認像とするシースルータイプと、当該実視認像およびそこに嵌め込みまたは融合表示される仮想映像の両者が共にビデオ映像であるビデオシースルータイプがあるが、本実施例はその両方のタイプのHMDに適用可能である。
 また、このHMD44には、ユーザ60の視線の移動などユーザの仕草や行動を検知するセンサ、あるいはユーザ60の生体情報を検知するセンサ、さらにはユーザ周囲の温度や湿度などの環境情報を検知するセンサ類が装備されている。なお図12においては、便宜上これらセンサ類を一括してセンサ18として表記している。また前記センサ類は全てが本実施例に必須のものではなく、必要に応じて任意に取捨選択してもよいし、勿論前記センサ類とは異なる情報を検知するセンサを追加しても構わない。また逆にHMD44がこれらのセンサ類を全く装備していなくても構わない。
 さらにHMD44には、少なくともユーザ実視認像と同様の視野領域で外界を撮影できる外界撮影カメラ19が装備され、親映像データの入力装置として自動映像演出装置80に接続されている。
 なおHMD44、センサ18及び外界撮影カメラ19と自動映像演出装置80との接続は、図12のような有線による接続に限定されるものではなく、所定の無線通信接続など所定のデータ信号をやり取りできる接続であればどのような接続形態であっても構わない。
 図12において、外界撮影カメラ19で撮影されたユーザ実視認像に相当するリアルタイム映像データは、ユーザ実視野像読込み部41を経て融合元となる親映像データとして、自動映像演出装置80内へ送られる。
 映像オブジェクト識別抽出部3は、リアルタイム映像データからその各映像カット内に新たに登場する映像対象物を個別の映像オブジェクトとして逐次識別、抽出する機能を備えている。なお映像オブジェクト識別抽出部3に関しては、図1または図10に示した同番号の機能部と同様の機能を持つので、ここでの詳しい機能説明は省略する。
 またリアルタイム映像カット解読部42は、図1の映像コンテンツ解読部2や図10の先行読込みカット映像概要解読部32に相当する機能部で、読込まれた親映像すなわちユーザのリアルタイム実視視認像の内容を所定の映像カット単位で解読してデータ化する機能を備えている。
 なお、このリアルタイム実視認像の解読に当たっては、当該実視認像の映像情報データに加え、その時点までに得られた過去映像に関する解読結果やシナリオなどの情報データの履歴を基に、自動映像演出装置80自身が考察、判断で解読、データ化が行われる。なお、このリアルタイム映像カット解読部42は、前記解読結果に基づきシナリオを現映像シーンまでのシナリオを構築し、最新のシナリオデータとして既存のシナリオデータを逐次更新していく機能を備えていても構わない。
 一方センサ18で検知された各検知データは、それぞれ必要に応じて視聴者生体データ検知部4、ユーザ仕草及び行動データ検知部5、周囲環境データ検知部6等を経て自動映像演出装置80に取得される。なお、これら各検知部に関しても、図1あるいは図10の同番号機能部と同様の機能を持つので、ここでの詳しい機能説明は省略する。
 そして逐次生成または更新される映像内容データやシナリオデータ、さらにはセンサ18から検知、取得された各検知データ等は、適宜処理データ格納部10に格納、記憶される。
 なお図12では、処理データ格納部10は自動映像演出装置80の内部に組み込まれた構成になっているが、本実施例はこのような構成に限定されるものでは無く、例えばこれらデータ格納部をクラウドのような外部サーバに設置し、所定の通信手段あるいはネットワークによって自動映像演出装置80とデータのやり取りや制御を行う構成であっても一向に構わない。さらには、この処理データ格納部10と子映像オブジェクトデータ格納部9が同一の記憶装置を共用するような構成であっても構わない。
 次に映像嵌め込み演出部31においては、図10に示した同番号機能部と同様の映像嵌め込みまたは融合演出処理が行われる。なお、この映像嵌め込みまたは融合演出処理の具体的な処理内容については、既に実施例1乃至実施例3で説明済みであるので、ここでの詳細な説明は省略する。
 さらに映像加工、編集及びレンダリング部12においても、図1あるいは図10内の同番号機能部と同様、映像嵌め込みまたは融合演出結果に基づき、実際に映像の加工、編集、レンダリングの処理が実行されるので、ここでの詳しい機能説明は省略する。
 ただし本実施例における自動映像演出装置80は、以上説明したような各機能部での処理をほぼリアルタイムに実行しなければならない。したがって自動映像演出装置80自体の処理能力によっては、上記の各処理を遅滞なく完全に実行することが困難な場合もある。このような場合は、自動映像演出装置80の処理能力や各データや処理の優先度等を勘案して、所定の処理手順またはその当該処理を担う機能部自体を一部省略しても構わない。
 例えば、映像嵌め込みまたは融合演出に関しては、親映像に嵌め込む子映像オブジェクトの選択と、当該親映像シーン内における対象の子映像オブジェクトの嵌め込みまたは融合位置、そして当該位置における親映像オブジェクトと対象の子映像オブジェクトとの前後関係または重複関係の指定に限定し、映像加工、編集処理の対象を子映像オブジェクト側のみに限定した映像演出であっても構わない。さらには、映像加工や編集の手順を全て省略して、親映像に所定の子映像オブジェクトまたはその一部を重畳または嵌め込みのみとし、当該親映像シーン内で所定の子映像オブジェクトを重畳する画面位置の指定だけに止める映像演出であっても構わない。
 なお、特に本実施例をシースルータイプのHMDによるAR/MR映像装置に適用する場合は、注意を要する。
 すなわちAR/MR映像を表示するHMD44がビデオシースルータイプであれば、前記したように親映像もそれに嵌め込みまたは融合される子映像オブジェクトも両方ビデオ映像なので、当然両者を自由に映像加工、編集することが可能である。しかしながら、HMD44が所謂シースルータイプの場合は、ユーザ60がHMD44のシースルーディスプレイ越しに直接肉眼視する実体像が親映像になるので、当然この親映像を加工、編集することはできない。したがって映像嵌め込みまたは融合のための映像加工あるいは編集処理は、子映像オブジェクト側だけに限定される。このような場合は必然的に、映像嵌め込みまたは融合演出は前記のように簡略化あるいは一部省略したものにならざるを得ない。
 なお図12において、前記で説明した機能部以外の機能部については、図1あるいは図10内の同番号機能部と同様の機能を持つので、ここでの詳しい機能説明は省略する。
 ところで以上説明した本実施例においても、前記した実施例1と同様に、自動映像演出装置80は図10に示したように分割された機能ブロックで構成される必要は無い。例えばAI等の情報処理装置を用いて前記各機能部における処理を包括的に実行するような構成であっても一向に構わない。
 最後に、以上説明した各処理を経て子映像オブジェクトの嵌め込みまたは融合処理済みの親映像は、AR/MR映像再生部43を経てユーザ60が装着しているHMD44の所定のディスプレイに表示される。なお当然のことながら、HMD44がシーススルー型の場合は、そのシースルーディスプレイに表示されるのは、前記したような所定のAR/MRに適用した映像嵌め込みまたは融合処理を施した子映像オブジェクトすなわち仮想映像のみが表示される。
 次に本実施例における自動映像演出装置80の処理プロセスについて説明する。図13は、本実施例における処理プロセスに関するフローチャートである。本実施例における処理プロセスは、基本的には図10で説明した処理プロセスと同様の処理フローで実行される。
 図13において、まずS401で自動映像演出装置80は、所定のデータ格納部から子映像オブジェクトデータ、すなわち子映像オブジェクトの映像データ及び当該子映像オブジェクトに紐付けされた配役データを全て読込む。
 次にS402で親映像すなわちリアルタイム実視認像の再生がスタート(シースルー型HMDの場合はユーザの肉眼実体視の開始に相当)すると、自動映像演出装置80は、次のS403で外界撮影カメラ19から得られた親映像(リアルタイム実視認像)の映像データを読込む。
 そして次のS404では、現親映像シーンで新たに登場する人物や物体などの対象物がそれぞれ個別の親映像オブジェクトとして識別、抽出され、抽出された各親映像オブジェクト及び子映像オブジェクトを他の映像オブジェクトと区別するためのオブジェクト名あるいはID番号など所定の識別子が付加される。
 そして次のS405では、S404で識別、抽出された各親映像オブジェクトの種類やその配置位置あるいはその動き、またその時点までに得られた過去映像に関する解読結果やシナリオデータなどの情報履歴を基に、親映像すなわちリアルタイム実視認像の映像内容が解読、データ化される。
 また次のS406では、図11のS306と同様の処理が行われ、所定の検知データが取得される。さらに次のS407では、同じく図11のS307と同様の処理が行われ、所定の視聴者状況が推定される。なお当然のことながらS406及びS407は、前記各実施例の場合と同様、必要に応じてスキップまたは当該処理ステップ自体を省略しても一向に構わない。
 そして次のS408では、現時点での親映像カットすなわちユーザ実視認像に対して、子映像オブジェクトの嵌め込みまたは融合を施すか否かが判定される。判定が「Yes」の場合は後述するS409以降に進む。一方「No」の場合は、後述のS409乃至S412はスキップされ、S413に飛ぶ。
 そして次のS409では、複数ある子映像オブジェクトの中から当該親映像カットに嵌め込む子映像オブジェクトが選択される。さらに次のS410では、当該親映像のカット内で対象の子映像オブジェクトの嵌め込む画面位置が指定される。
 さらに次のS411では、対象の子映像オブジェクトを対象の親映像カット内の前記指定画面位置に極力違和感無く自然かつシームレスに融合するために、当該子映像オブジェクトまたは当該親映像カットに施される具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。以下では、S409乃至S411の一連の処理を「映像嵌め込み融合演出」処理と記す。
 次にS412では、「映像加工編集スキーム」に基づき、実際に映像の加工、編集、レンダリングの処理が実行される。これらの処理は、実施例1乃3でも説明したように、コンピュータグラフィクス技術や3Dモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行される。
 ただし本実施例は、「映像嵌め込み融合演出」処理プロセスおよび映像加工、編集、レンダリングの処理プロセスをほぼリアルタイムに実行しなければならない。したがって自動映像演出装置80自体の処理能力によっては、上記各処理プロセスを遅滞なく完全に実行することが困難な場合もある。このような場合は、前記したように自動映像演出装置80の処理能力や前記各データあるいは処理ステップの優先度等を勘案して、一部を簡略化あるいは一部省略することもできる。
 そして次のS413では、必要に応じて前記の各処理ステップで得られた処理結果、すなわち子映像嵌め込みまたは融合対象となる親映像カットやそこに嵌め込むまたは融合子映像オブジェクトの選択結果、当該親映像カット内の嵌め込みまたは融合画面位置の指定結果、あるいは前記「映像加工編集スキーム」関連の諸データ、さらには子映像オブジェクトすなわち仮想映像の嵌め込みまたは融合処理済み親映像データなどを必要に応じて所定のデータ格納部に書き込みあるいは更新する処理が行われる。
 さらに次のS414では、仮想映像の嵌め込みまたは融合処理済みの親映像すなわちリアルタイム実視認像が再生される。なおS413とS414は、その処理順が入れ替わってもよいし、両処理ステップを同時に実施しても構わない。
 そして最後のS415で、親映像に対する子映像オブジェクトの嵌め込みまたは融合処理、すなわちHMDなどのよるAR/MR仮想映像表示を終了するか否かが判定される。判定が「No」の場合は、S403まで戻り一連の処理フローが繰り返される。一方「Yes」の場合は、一連の処理プロセスが終了する。
 以上のように本実施例では、ユーザの実視認像に所定の仮想映像を自然で違和感なくかつシームレスな状態で嵌め込みまたは融合表示できるAR/MR映像装置を実現することができる。
 なお本実施例のような自動映像演出装置をAR/MR表示画面へのCM映像組込み用途等に用いる場合は、実施例1乃至3同様、対象のCM映像が親映像に嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、CM提供に制限を加える、あるいはCMスポンサー側に所定のCM料金を課金、請求する仕組みなどを組み合わせることもできる。
 図14に、本実施例における自動映像演出装置を用いたHMDによるAR映像装置の一実施事例を示す。
 図14において、55は、人物(例えば前記アイドル(A))61が、脇にバーカウンターが設置されている特設ステージ上でダンスをしている実演現場の1シーンであり、現実世界を示している。また44は、ユーザが装着している眼鏡型HMDをユーザ側から視た概略外観図であり、ユーザはこのHMD44の左眼用シースルーディスプレイ45Lと右眼用シースルーディスプレイ45L越しにアイドル(A)61のダンス実演シーン(3次元像)を肉眼視している。
 図14は、このようなシチュエーションにおいて、本実施例の自動映像演出装置が例えば所定の清涼飲料水ペットボトル映像をCM映像としてAR重畳表示させる実施事例を示している。
 まず自動映像演出装置は、前記シチュエーションにおいて、違和感無くかつ一定のCM訴求効果が期待できる映像融合演出として、あたかもアイドル(A)61のすぐ脇のバーカウンター上にCM対象のペットボトル46が置かれているように当該ペットボトルの仮想映像をAR重畳表示する映像演出を決定する。
 次に自動映像演出装置は、現実世界55において対象ペットボトルを配置すべき3次元位置を決定し、シースルーディスプレイ45L、45Rの各々上において当該3次元位置に相当するペットボトル46の映像表示位置を演算で求める。
 すなわち、現実世界55における対象ペットボトル46が仮想的に置かれる3次元位置から当該ペットボトル46とユーザ間の奥行き距離を計算し、その上でユーザが当該奥行き距離を認知する両眼視差dを求める。そしてこの両眼視差dだけ相互にずらしたペットボトル46の映像を、それぞれ左眼用シースルーディスプレイ45Lおよび右眼用シースルーディスプレイ45R上にAR重畳表示させる。
 このように所定の両眼視差dを与えたペットボトル46映像をHMDの左右のシースルーディスプレイにAR重畳表示することで、CM対象である清涼飲料水ペットボトルがあたかも現実世界55内のアイドル(A)のすぐ脇のカウンター上に置かれているようにユーザに知覚させることができる。
 さらに云えば、現実世界55における照明光の入射方向等から、バーカウンター上に射影される当該ペットボトルの影の方向や形状を所定の演算手段で求め、この影も所定のシェーディング技術によって重畳表示する等さらに高度な映像融合演出を施すことにより、よりリアリティのある映像をAR/MR表示させることができる。
 以上のように本実施例によれば、AR/MR対応の自動映像演出装置を提供できる。
 実施例4では、HMDなどのAR/MR映像装置等におけるリアルタイム実視認像を仮想映像の嵌め込みまたは融合元となる親映像としていた。したがって、仮想映像となる子映像オブジェクトの嵌め込みまたは融合に関する前記「映像嵌め込み融合演出」処理やそれに続く映像の加工、編集、レンダリングの処理、さらには処理済み映像の再生、表示などの一連の処理プロセスをほぼリアルタイムに実行しなければならない。しかしながら、ユーザが実視認像を視認する瞬間と一連の処理プロセスを経て当該実視認像に嵌め込まれる仮想映像の表示の間には、どうしても一連の処理プロセス実行に伴うある所定のタイムラグが生じてしまう。したがってHMDなどのAR/MR映像装置において、例えば図7で紹介したような合理的で違和感の無い高度な映像融合演出を行おうとすると、自動映像演出装置の処理能力によっては、ユーザから視てほぼリアルタイムに感じられる程度に微小なタイムラグで処理を実行することが困難になってしまう可能性がある。
 本実施例は、このような高度な映像嵌め込みまたは融合処理が可能なAR/MR対応の自動映像演出装置の実施例について説明する。
 図15は本実施例における自動映像演出装置の構成ブロック図である。なお図15において、図1あるいは図12と同様の働きをする機能部には同じ番号を付している。
 本実施例における自動映像演出装置80は、図12とほぼ同一の機能部構成になっている。図12と異なるのは新たに映像カット推定部53が追加されている点である。したがってこの映像カット推定部53以外の各機能部についての詳しい説明は省略する。
 また本実施例における自動映像演出装置80に装備されている外界撮影カメラ19は、ユーザ60の実視野を含むより広い視野で外界を撮影する機能と、その撮像視野の中でユーザ60の実視認視野を規定(枠取り)する機能を備えている。
 図15において、外界撮影カメラ19で撮影されたリアルタイム外界映像データは、親映像データとして自動映像演出装置80内に読込まれる。
 映像カット推定部53は、親映像データと、当該親映像データからリアルタイム映像カット解読部42で解読された親映像の映像内容情報やその時点で最新のシナリオ情報、さらには例えばユーザ60の視線移動などユーザ仕草及び行動に関する検知データなどを基に、現時点から所定時間例えば数秒から数十秒先の未来までの親映像カット、すなわち現時点から当該所定時間経過時までにユーザ60が実視認すると思われる未来の視認映像カットを推定する機能を備えている。
 なお、この時、外界撮影カメラ19によって撮影されたリアルタイム外界映像がユーザ60の実視認視野を含むより広い視野映像になっていることが、ユーザ60の視線移動履歴などの基づく未来視認映像の推定に有効である。
 また、この推定未来視認映像は、リアルタイム映像カット解読部42においてその時点までに解読済みの親映像内容情報や逐次最新のものに更新されているシナリオ情報等に基づき、常にその時点で最も正しいと判断できる推定映像に更新される。
 本実施例では、以上のように推定した先行親映像カットすなわち未来視認映像に対して、実施例4で説明したような「映像嵌め込み融合演出」処理プロセスおよび当該「映像嵌め込み融合演出」結果に基づく映像の加工、編集、レンダリング処理プロセスを、現親映像すなわち現在の実視認像に先行して実施する。
 すなわち本実施例では、推定未来視認映像に対する先行処理により、十分な時間的余裕を以て一連の映像融合処理プロセスを遂行できるので、AR/MR映像装置においても高度な映像融合処理が可能になる。
 なお以上説明した本実施例においても、前記した実施例1と同様に、自動映像演出装置80は図15に示したように分割された機能ブロックで構成されることは必須では無い。例えばAI等の情報処理装置を用いて前記各機能部における処理を包括的に実行するような構成であっても一向に構わない。
 次に本実施例における自動映像演出装置80の処理プロセスについて説明する。図16は本実施例における処理プロセスのフローチャートである。
 図16において、S501乃至S505aは、図13で説明したS401乃至S405と全く同じ処理内容であるので、ここでの詳しい説明は省略する。また同様に次のS506およびS507は、図13におけるS406およびS407と全く同じ処理内容であるので、ここでの詳しい説明は省略する。
 本実施例の特徴は、S505bにおいて、現時点から所定時間例えば数秒から数十秒先の未来までの親映像カット、すなわち現時点から当該所定時間経過時までにユーザ60が実際に視認すると思われる未来の実視認映像を推定する点である。そしてこの未来の実視認映像カットにおいて新たに登場すると推定される親映像側の映像オブジェクトがあれば、必要に応じてこの推定親映像オブジェクトに所定の識別子を付与する。なおS505bとS506およびS507は、その処理順が入れ替わっていても構わない。
 そしてS508では、親映像シーンに対して、子映像オブジェクトの嵌め込みまたは融合を施すか否かが判定される。判定が「Yes」の場合は後述するS509以降に進む。一方「No」の場合は、後述のS509乃至S512はスキップされ、S513に飛ぶ。
 なお次のS509からS512にかけての各処理内容は、図13で説明したS409からS412にかけての各処理内容の各処理内容と全く同様なので、ここでの詳しい説明は省略する。
 そして次のS513では、子映像オブジェクトすなわち仮想映像の嵌め込みまたは融合処理済みの親映像データを逐次所定のデータ格納部に追記する処理が行われる。また必要に応じて各処理ステップで得られた処理結果、すなわち子映像嵌め込みまたは融合対象となる親映像カットやそこに嵌め込みまたは融合すべき子映像オブジェクトの選択結果、当該親映像カット内の嵌め込みまたは融合画面位置の指定結果、あるいは「映像加工編集スキーム」関連の諸データなども必要に応じてデータ格納部に書き込みあるいは更新する処理を行っても良い。
 そして次のS514で、時間経過に合わせてその時間に再生すべき子映像オブジェクトすなわち所定の仮想映像の嵌め込みまたは融合処理済み親映像が再生される。
 さらに最後のS515で、親映像に対する一連の子映像オブジェクトの嵌め込みまたは融合処理プロセス、すなわちAR/MRにおける仮想映像の表示を終了するか否かが判定される。判定が「No」の場合はS503まで戻り一連の処理プロセスが繰り返される。一方「Yes」の場合は一連の処理プロセスが終了する。
 ところで本実施例に関するこれまでの説明では、説明の便宜上各処理ステップが図16中の各処理ステップがフローチャートに従って逐次的に実行されているように説明してきたが、本実施例においては、実際にはそれぞれいくつかの処理ステップからなる複数の処理プロセスが独立して同時並行的に実行される。
 例えば、S503からS507までの未来親映像カットの推定プロセスと、S508からS512に至る「映像嵌め込み融合演出」プロセスおよび当該「映像嵌め込み融合演出」結果に基づく映像の加工、編集、レンダリング処理プロセスは、同時並行的で実行される。
 すなわち自動映像演出装置80は、リアルタイムのユーザ実視認映像から逐次最新の未来親映像を推定しつつ、同時にすでに推定済みの未来親映像を用いた「映像嵌め込み融合演出」プロセスおよびその演出結果に基づいた映像の加工、編集、レンダリング処理プロセスを実行している。
 またS514での親映像の再生は、その時点におけるリアルタイム実視認像に相当する映像であるため、実際はこのS514での親映像の再生とS503乃至S513の一連の処理プロセスは並行して実行される。
 すなわち本実施例では、親映像であるリアルタイム実視認像を再生(ビデオシースルータイプHMDの場合)または実体像を肉眼視(シースルータイプHMDの場合)しつつ、同時並行に所定時間だけ先行した推定未来視認映像に対して、所定の子映像オブジェクトすなわち仮想映像の嵌め込みまたは融合する処理が行われる。このような同時並行処理により、AR/MR映像装置のようにリアルタイム実視野像を映像の嵌め込みまたは融合元となる親映像とする場合においても、高度な映像融合による違和感無く自然な仮想映像融合を行うことができる。
 なお本実施例のような自動映像演出装置をAR/MR表示画面へのCM映像組込み用途等に用いる場合は、実施例1乃至4同様、対象のCM映像が親映像に嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、CM提供に制限を加える、あるいはCMスポンサー側に所定のCM料金を課金、請求する仕組みなどを組み合わせることもできる。
 以上のように本実施例によれば、高度な映像嵌め込みまたは融合処理が可能なAR/MR対応の自動映像演出装置を提供できる。
 本実施例は、実施例1から5で説明した自動映像演出装置を用いたサービスの一実施事例として、CM映像の自動放映サービスシステムについて説明する。
 図17は、本実施例における自動映像演出装置を用いたCM映像融合サービスシステムの概念図である。図17において、まずCMスポンサー(例えば所定の製品メーカ)X社が、自動映像演出装置80を管理する映像コンテンツ制作、配信者あるいは自動映像演出装置80の管理担当者(会社)Y社に、所定の映像コンテンツへのCM映像放映リクエストを出すと、それに応じてY社は自社が管理している自動映像演出装置80に映像融合演出指令を出す。
 自動映像演出装置80は、映像融合演出指令を受け取ると、まずY社のサーバ82もしくは所定の通信手段またはネットワークを通じて繋がっているクラウド等の外部サーバ83から対象の親映像コンテンツの映像データを読込む。なお、この親映像コンテンツとしては、前記のように所定のサーバから入手される一般の制作済み映像コンテンツでも構わないし、実施例4や実施例5で示したようなHMD等を通じて得られるユーザの実視認映像でも構わない。
 一方、自動映像演出装置80は、CMスポンサーであるX社のサーバ81もしくは所定の通信手段またはネットワークを通じて繋がっているクラウド等の外部サーバ83から、子映像オブジェクトとしてCM対象の映像データを受け取る。
 そして、これら親、子映像と視聴者から提供された所定の視聴者関連情報等を用い、前記各実施例で示したような処理プロセスを経てCM融合演出加工を実行し、CM融合処理済みの親映像を配信し、所定の表示装置14を経て視聴者60に向けて放映する。
 一方、自動映像演出装置80には所定の課金システム84が接続されており、本課金システムにより対象のCM映像が親映像コンテンツに嵌め込みまたは融合表示される回数や時間などがカウントされ、そのカウント結果に応じて、CM提供に制限を加える、あるいはCMスポンサーであるX社に所定のCM料金が課金、請求される仕組みになっている。
 このようなCM映像自動提供サービスシステムが構築されていると、ほとんど人手を煩わすことなく、常にスポンサー側、ユーザ側の両者とって最適なCM付き映像コンテンツ鑑賞環境が得ることができる。
 以上実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであって、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の一部について、他の構成の追加・削除・置換をすることが可能である。
1:映像コンテンツデータ読込み部、2:映像コンテンツ解読部、3:映像オブジェクト識別抽出部、4:視聴者生体データ検知部、5:視聴者仕草及び行動データ検知部、6:周囲環境データ検知部、7:配役データ生成部、8:脚本データ生成部、9:子(融合対象)映像オブジェクトデータ格納部、10:処理データ格納部、11:映像融合検出部、12:映像加工、編集及びレンダリング部、20:制御部、31:映像嵌め込み演出部、32:先行読込みカット映像概要解読部、53:映像カット推定部、80:自動映像演出装置、44:ヘッドマウントディスプレイ(略称 HMD)、60:視聴者またはユーザ

Claims (15)

  1.  映像融合元となる親映像コンテンツの所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出装置であって、
     前記親映像コンテンツの全部または一部の映像内容を解読、または当該親映像コンテンツを所定の親映像シーンに分割して、
     前記親映像の内容解読結果または親映像シーン分割結果を所定の記述形式でデータ化した所定の親映像解読データである処理データを生成する映像コンテンツ解読部を備えることを特徴とする自動映像演出装置。
  2.  映像融合元となる親映像の所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出装置であって、
     前記親映像内の所定の第1映像シーンにおける映像内容を解読し、当該解読結果を基に前記第1映像シーンから所定時間経過時に放映される第2映像シーンの映像内容を推定したうえで、
     当該第2映像シーンにおける親映像内容推定結果を所定の記述形式でデータ化した所定の親映像推定データである処理データを生成する映像カット推定部を備えることを特徴とする自動映像演出装置。
  3.  請求項1または2に記載の自動映像演出装置であって、
     前記処理データを基に、前記親映像内で映像化されている所定の親映像オブジェクト及び前記子映像オブジェクトを他の映像オブジェクトから識別、抽出し、所定のオブジェクト識別子を付加する映像オブジェクト識別抽出部を備えたことを特徴とする自動映像演出装置。
  4.  請求項3に記載の自動映像演出装置であって、
     前記映像オブジェクト識別抽出部によって識別、抽出された各映像オブジェクトに対して、所定の観点から当該映像オブジェクトの物理的な類別、属性または特徴を規定した物理的属性項目、あるいは
     所定の観点から当該映像オブジェクトの社会的な類別、属性または特徴を規定した社会的属性項目、あるいは
     当該映像オブジェクトの可視的な外観の類別または特徴を明示した項目、または
     当該映像オブジェクトの非可視的な状態の類別または特徴を明示した項目、または
     当該映像オブジェクト間の相互の関係性あるいは接続性を明示した項目、
     に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した所定の配役データである処理データを生成する配役データ生成部を備えることを特徴とする自動映像演出装置。
  5.  請求項3に記載の自動映像演出装置であって、
     前記映像オブジェクト識別抽出部によって識別、抽出された親映像オブジェクトのうち、前記親映像内の所定の親映像シーン内において映像化されている所定の親映像オブジェクトまたは子映像オブジェクトに対して、
     当該親映像オブジェクトの当該親映像シーン内での3次元位置に関する項目、または
     当該親映像オブジェクトの3次元方向に関する向きあるいは姿勢に関する項目、または
     当該親映像オブジェクトの台詞あるいは表情、仕草、行動に関する項目、または
     当該親映像オブジェクトまたは前記子映像オブジェクトに対して課せられる所定の制約条件、または
     前記所定の親映像シーン内で前記子映像オブジェクトの嵌め込みまたは融合が許容される映像領域の指定を含む前記所定の親映像シーン全体に対して課せられる制約条件、
     に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した脚本データである処理データを生成する脚本データ生成部を備えることを特徴とする自動映像演出装置。
  6.  請求項1から5の何れか1項に記載の自動映像演出装置であって、
     前記処理データを前記親映像の映像データストリームまたは前記子映像オブジェクトの映像データ内の所定位置に付加する機能を備えることを特徴とする自動映像演出装置。
  7.  請求項1から6の何れか1項に記載の自動映像演出装置であって、
     所定の検知手段により検知された視聴者または使用者の生体状況や仕草、動作、行動等に関する情報、あるいは季節、日時、場所、温度、湿度等視聴者の周囲環境状況に関する情報を検知する機能、あるいは前記各検知情報を基に前記視聴者または使用者の生理状態あるいは心理状態を推定する機能、あるいは当該推定の結果または前記検知した各情報を基に複数の前記子映像オブジェクトの中から当該視聴者または使用者に提示する子映像オブジェクトを適宜選択する機能を備えていることを特徴とする自動映像演出装置。
  8.  請求項1から7の何れか1項に記載の自動映像演出装置であって、
     前記処理データを基に、前記親映像の中で前記子映像オブジェクトの嵌め込みまたは融合処理を行う映像シーン、あるいは当該映像シーン内で前記子映像オブジェクトの嵌め込みまたは融合処理を行う画面位置、
     あるいは映像内容の合理性あるいはコンテンツイメージを保持しつつ前記嵌め込みまたは融合処理を実行するために前記所定の親映像オブジェクトまたは子映像オブジェクトに施す映像加工または編集処理の内容及び手順を決定し、当該決定結果を所定の記述形式でデータ化した映像融合演出スキームを生成する映像融合演出部を備えたことを特徴とする自動映像演出装置。
  9.  請求項8に記載の自動映像演出装置であって、
     所定のコンピュータグラフィックスもしくはレンダリング機能を用いて前記映像融合演出スキームを実行することにより前記親映像への前記子映像オブジェクトの嵌め込みまたは融合を実現する映像加工編集部を備えたことを特徴とする自動映像演出装置。
  10.  請求項6に記載の自動映像演出装置によって記録される映像記録媒体であって、
     前記処理データを付加された前記親映像の映像データストリームまたは前記子映像オブジェクトの映像データを記録したことを特徴とする映像記録媒体。
  11.  請求項1から9の何れか1項に記載の自動映像演出装置であって、
    仮想現実映像または拡張現実映像または複合現実映像の映像表示装置を有することを特徴とする自動映像演出装置。
  12.  映像融合元となる親映像コンテンツの所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出方法であって、
     前記親映像コンテンツの全部または一部の映像内容を解読、または当該親映像コンテンツを所定の親映像シーンに分割して、
     前記親映像の内容解読結果または親映像シーン分割結果を所定の記述形式でデータ化した所定の親映像解読データを生成することを特徴とする自動映像演出方法。
  13.  請求項12に記載の自動映像演出方法であって、
     前記親映像解読データを基に、前記親映像内で映像化されている所定の親映像オブジェクト及び前記子映像オブジェクトを他の映像オブジェクトから識別、抽出し、所定のオブジェクト識別子を付加することを特徴とする自動映像演出方法。
  14.  請求項13に記載の自動映像演出方法であって、
     前記識別、抽出された各映像オブジェクトに対して、所定の観点から当該映像オブジェクトの物理的な類別、属性または特徴を規定した物理的属性項目、あるいは
     所定の観点から当該映像オブジェクトの社会的な類別、属性または特徴を規定した社会的属性項目、あるいは
     当該映像オブジェクトの可視的な外観の類別または特徴を明示した項目、または
     当該映像オブジェクトの非可視的な状態の類別または特徴を明示した項目、または
     当該映像オブジェクト間の相互の関係性あるいは接続性を明示した項目、
     に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した所定の配役データを生成することを特徴とする自動映像演出方法。
  15.  請求項13に記載の自動映像演出方法であって、
     前記識別、抽出された親映像オブジェクトのうち、前記親映像内の所定の親映像シーン内において映像化されている所定の親映像オブジェクトまたは子映像オブジェクトに対して、
     当該親映像オブジェクトの当該親映像シーン内での3次元位置に関する項目、または
     当該親映像オブジェクトの3次元方向に関する向きあるいは姿勢に関する項目、または
     当該親映像オブジェクトの台詞あるいは表情、仕草、行動に関する項目、または
     当該親映像オブジェクトまたは前記子映像オブジェクトに対して課せられる所定の制約条件、または
     前記所定の親映像シーン内で前記子映像オブジェクトの嵌め込みまたは融合が許容される映像領域の指定を含む前記所定の親映像シーン全体に対して課せられる制約条件、
     に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した脚本データを生成することを特徴とする自動映像演出方法。
PCT/JP2018/027871 2018-07-25 2018-07-25 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体 WO2020021651A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201880095217.1A CN112352421A (zh) 2018-07-25 2018-07-25 自动影像编导装置、自动影像编导方法和用于其的影像存储介质
PCT/JP2018/027871 WO2020021651A1 (ja) 2018-07-25 2018-07-25 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体
JP2020531889A JP7252236B2 (ja) 2018-07-25 2018-07-25 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体
US17/262,224 US11841901B2 (en) 2018-07-25 2018-07-25 Automatic video production device, automatic video production method, and video recording medium used therefor
JP2023047096A JP2023080121A (ja) 2018-07-25 2023-03-23 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体
US18/385,409 US20240061882A1 (en) 2018-07-25 2023-10-31 Automatic video production device, automatic video production method, and video recording medium used therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/027871 WO2020021651A1 (ja) 2018-07-25 2018-07-25 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/262,224 A-371-Of-International US11841901B2 (en) 2018-07-25 2018-07-25 Automatic video production device, automatic video production method, and video recording medium used therefor
US18/385,409 Continuation US20240061882A1 (en) 2018-07-25 2023-10-31 Automatic video production device, automatic video production method, and video recording medium used therefor

Publications (1)

Publication Number Publication Date
WO2020021651A1 true WO2020021651A1 (ja) 2020-01-30

Family

ID=69180953

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/027871 WO2020021651A1 (ja) 2018-07-25 2018-07-25 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体

Country Status (4)

Country Link
US (2) US11841901B2 (ja)
JP (2) JP7252236B2 (ja)
CN (1) CN112352421A (ja)
WO (1) WO2020021651A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170540A (zh) * 2020-08-21 2022-03-11 四川大学 一种融合表情和姿态的个体情绪识别方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7468391B2 (ja) * 2021-02-09 2024-04-16 株式会社Jvcケンウッド 撮像装置および撮像処理方法
JP2022144514A (ja) * 2021-03-19 2022-10-03 株式会社リコー 学習装置、学習システム、非言語情報学習方法およびプログラム
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015015712A1 (ja) * 2013-07-30 2015-02-05 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
JP2015038696A (ja) * 2013-08-19 2015-02-26 国立大学法人佐賀大学 拡張現実装置、拡張現実方法及び拡張現実プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7898950B2 (en) * 2006-08-18 2011-03-01 Microsoft Corporation Techniques to perform rate matching for multimedia conference calls
JP5532645B2 (ja) 2009-03-26 2014-06-25 株式会社ニコン 映像編集プログラムおよび映像編集装置
US9264765B2 (en) * 2012-08-10 2016-02-16 Panasonic Intellectual Property Corporation Of America Method for providing a video, transmitting device, and receiving device
US10674135B2 (en) * 2012-10-17 2020-06-02 DotProduct LLC Handheld portable optical scanner and method of using
CN116708767A (zh) * 2013-01-04 2023-09-05 Ge视频压缩有限责任公司 高效可伸缩编码概念
US9787896B2 (en) * 2015-12-29 2017-10-10 VideoStitch Inc. System for processing data from an omnidirectional camera with multiple processors and/or multiple sensors connected to each processor
GB201602877D0 (en) * 2016-02-18 2016-04-06 Landa Corp Ltd System and method for generating videos

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015015712A1 (ja) * 2013-07-30 2015-02-05 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
JP2015038696A (ja) * 2013-08-19 2015-02-26 国立大学法人佐賀大学 拡張現実装置、拡張現実方法及び拡張現実プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170540A (zh) * 2020-08-21 2022-03-11 四川大学 一种融合表情和姿态的个体情绪识别方法
CN114170540B (zh) * 2020-08-21 2023-06-13 四川大学 一种融合表情和姿态的个体情绪识别方法

Also Published As

Publication number Publication date
JP7252236B2 (ja) 2023-04-04
US11841901B2 (en) 2023-12-12
CN112352421A (zh) 2021-02-09
JP2023080121A (ja) 2023-06-08
US20210295055A1 (en) 2021-09-23
US20240061882A1 (en) 2024-02-22
JPWO2020021651A1 (ja) 2021-06-24

Similar Documents

Publication Publication Date Title
WO2020021651A1 (ja) 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体
EP3787285B1 (en) Image processing device, image processing method, and program
JP6686186B2 (ja) 注視追跡のための装置及び方法
CN108701369B (zh) 针对虚拟现实的娱乐数据的制作与封装的装置和方法
JP2023088956A (ja) 仮想、拡張、または複合現実環境内で3dビデオを生成および表示するための方法およびシステム
JP2020036334A (ja) ヘッドマウントディスプレイによって提示されるパーソナル空間コンテンツの制御
CN110300909A (zh) 用于显示交互式增强现实展示的系统、方法和介质
US20120200667A1 (en) Systems and methods to facilitate interactions with virtual content
JP2020039029A (ja) 動画配信システム、動画配信方法、及び動画配信プログラム
CN103258339A (zh) 基于实况记录和基于计算机图形的媒体流的实时合成
JP2018113616A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20200126367A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
US20190347864A1 (en) Storage medium, content providing apparatus, and control method for providing stereoscopic content based on viewing progression
US20200077021A1 (en) Image processing apparatus and method, and program
JP7416903B2 (ja) 動画配信システム、動画配信方法、及び動画配信プログラム
US20220174367A1 (en) Stream producer filter video compositing
JP2014182597A (ja) 仮想現実提示システム、仮想現実提示装置、仮想現実提示方法
WO2018070092A1 (ja) 情報提供装置と情報提供方法および情報再生装置と情報再生方法
JP7385385B2 (ja) 画像配信システムおよび画像配信方法
KR101856632B1 (ko) 화자의 위치를 기반으로 한 자막 디스플레이 방법 및 이러한 방법을 수행하는 장치
EP4080907A1 (en) Information processing device and information processing method
JP5864789B1 (ja) 鉄道模型観賞用装置、方法、プログラム、専用表示モニタ、合成用情景画像データ
JP2017097854A (ja) プログラム、記録媒体、コンテンツ提供装置及び制御方法
EP3606049B1 (en) Image processing device, method, and program
JP7403256B2 (ja) 映像提示装置およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18927827

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020531889

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18927827

Country of ref document: EP

Kind code of ref document: A1