WO2016152634A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2016152634A1
WO2016152634A1 PCT/JP2016/058066 JP2016058066W WO2016152634A1 WO 2016152634 A1 WO2016152634 A1 WO 2016152634A1 JP 2016058066 W JP2016058066 W JP 2016058066W WO 2016152634 A1 WO2016152634 A1 WO 2016152634A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving image
image
subject
performer
information processing
Prior art date
Application number
PCT/JP2016/058066
Other languages
English (en)
French (fr)
Inventor
貴晶 中川
理央 山崎
秀男 岡本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2017508250A priority Critical patent/JP6610659B2/ja
Priority to EP16768537.9A priority patent/EP3276943A4/en
Priority to US15/559,162 priority patent/US10264194B2/en
Publication of WO2016152634A1 publication Critical patent/WO2016152634A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/643Hue control means, e.g. flesh tone control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program, and in particular, an information processing apparatus and information that can easily generate a moving image in which performers imaged at different points are combined in a balanced manner.
  • the present invention relates to a processing method and a program.
  • the chroma key composition technique used in movies and TV broadcasts mainly captures images of performers against a green background or blue background. Then, after performing the work of cutting out performers from the captured moving image, an operation of correcting or adjusting the moving image prepared separately is synthesized with the background and the appropriate size and position are performed. In addition, when the composition is broadcast in real time, it is necessary to match the composition of the composition destination moving image with the composition of capturing the performer.
  • Patent Document 1 the position and size of a person portion cut out from a captured moving image based on data designating an appropriate person composition layout that matches the content of the moving image serving as the background are described as the background.
  • a synthesizing method for adjusting according to the content of the moving image is disclosed.
  • Patent Document 1 requires time and labor for registering data for designating a person composition layout, and therefore generates a moving image in which performers imaged at different points are synthesized in a balanced manner. It was supposed to take various troubles. Therefore, it has been demanded to generate a moving image in which performers imaged at different points are combined in a balanced manner with easier means.
  • This disclosure has been made in view of such a situation, and makes it possible to easily generate a moving image in which performers imaged at different points are combined in a balanced manner.
  • An information processing apparatus includes an image analysis of a region in which a first subject is captured, and a second moving image different from the first moving image, included in the first moving image. And an adjustment unit that adjusts a synthesis condition for synthesizing the first moving image and the second moving image based on an analysis result obtained by at least one of the image analyses.
  • An information processing method or program includes an image analysis of a region in which a first subject is captured, and a second moving image different from the first moving image, included in the first moving image A step of adjusting a synthesis condition for synthesizing the first moving image and the second moving image based on an analysis result obtained by at least one of the image analyzes of the image;
  • the synthesis condition for synthesizing the first moving image and the second moving image is adjusted.
  • FIG. 18 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a distribution system to which the present technology is applied.
  • a distribution system 11 includes performer-side information processing devices 13-1 and 13-2, a distribution server 14, and N viewer-side information processing devices via a network 12 such as the Internet. 15-1 to 15-N are connected.
  • moving images captured by the performer side information processing device 13-1 or 13-2 are sequentially transmitted to the distribution server 14 via the network 12, and the network 12 is transmitted from the distribution server 14. Via the viewer side information processing devices 15-1 to 15-N.
  • the viewers of the viewer-side information processing devices 15-1 to 15-N can view the moving images in which the users of the performer-side information processing devices 13-1 or 13-2 appear as performers. Can do.
  • the distribution system 11 can distribute a composite moving image in which a performer of the performer-side information processing device 13-1 and a performer of the performer-side information processing device 13-2 are combined.
  • the performer-side information processing device 13-2 transmits a moving image obtained by capturing the performer to the performer-side information processing device 13-1 via the distribution server 14.
  • the performer-side information processing device 13-1 then performs, for example, the performer-side information processing so as to line up next to the performer shown in the moving image transmitted from the performer-side information processing device 13-2.
  • a synthesized moving image obtained by synthesizing the performers of the device 13-1 is generated and transmitted to the distribution server 14.
  • synthesized moving images in which performers imaged at different points are synthesized are delivered to the viewer-side information processing devices 15-1 to 15-N via the delivery server 14.
  • FIG. 2 is a block diagram showing a configuration example of the performer side information processing apparatus 13-1.
  • the performer side information processing apparatus 13-1 includes an imaging unit 21, a communication unit 22, a display 23, a speaker 24, and an image processing unit 25.
  • the imaging unit 21 includes an optical system and an imaging element (not shown), and supplies a moving image obtained by imaging a performer of the performer side information processing apparatus 13-1 to the image processing unit 25.
  • the communication unit 22 communicates with the performer-side information processing device 13-2 and the distribution server 14 via the network 12.
  • the communication unit 22 receives the moving image transmitted from the performer-side information processing device 13-2 and supplies it to the image processing unit 25, or the synthesized moving image output from the image processing unit 25 is distributed to the distribution server. 14 or the like.
  • the display 23 displays a synthesized moving image supplied from the synthesis processing unit 36 of the image processing unit 25 or displays a guidance image supplied from the guide unit 38 of the image processing unit 25.
  • the speaker 24 outputs a guidance voice supplied from the guide unit 38 of the image processing unit 25.
  • the image processing unit 25 cuts out performers from a moving image captured by the image capturing unit 21 (hereinafter referred to as “captured moving image” as appropriate), and a moving image supplied from the communication unit 22 (hereinafter referred to as “composite destination moving image” as appropriate). ) Is processed. Then, the image processing unit 25 supplies the synthesized moving image generated by performing the image processing to the communication unit 22 and the display 23. As illustrated, the image processing unit 25 includes a cutout unit 31, a composition position adjustment unit 32, a layer setting unit 33, a size adjustment unit 34, an image quality adjustment unit 35, a composition processing unit 36, a part creation unit 37, and a guide. A portion 38 is provided.
  • the clipping unit 31 performs a face detection process and a person detection process on the captured moving image supplied from the imaging unit 21, and detects a performer (hereinafter referred to as an imaging performer as appropriate) shown in the captured moving image. To do. Then, the cutout unit 31 performs image processing to cut out an area where the imaged performer is captured from the captured moving image, and the imaged performer cutout moving image (in the captured moving image) formed along the contour of the imaged performer. A moving image of an area in which the imaged performer is included is generated and supplied to the size adjusting unit 34.
  • the composition position adjustment unit 32 adjusts the composition position (composition condition) when compositing the clipped moving image of the imaging performer generated by the clipping unit 31 to the composition destination moving image to be an appropriate arrangement, and the composition destination Set the composition position in the video.
  • the composite position adjustment unit 32 performs image analysis on the composite destination moving image supplied from the communication unit 22, and performs the performers (hereinafter referred to as the composite destination moving image). (Referred to as “combined performer”).
  • the composition position adjusting unit 32 acquires the position of the composition performer that is copied in the composition destination moving image as the analysis result.
  • the composition position adjustment unit 32 considers the composition when the imaging performers and the composite destination performers are arranged based on the analysis result, so that the imaging performers are arranged in a balanced manner with respect to the composite performers. Next, adjust the composite position.
  • the layer setting unit 33 performs an object detection process on the synthesized moving image supplied from the communication unit 22, and, as will be described later with reference to FIG. 4, the imaging appearance of the object detected from the synthesized moving image.
  • a layer indicating the front or rear positional relationship with respect to the person is set in the composite destination moving image.
  • the size adjustment unit 34 performs image processing for adjusting the size (combination condition) when the cutout moving image of the imaging performer supplied from the cutout unit 31 is combined with the combined position of the combined destination moving image.
  • the adjusted moving image of the imaged performer is supplied to the image quality adjustment unit 35.
  • the imaging performers are substantially the same in size. Adjust the size of the clipped moving image.
  • the size adjusting unit 34 performs image analysis on the clipped moving image and the composite destination moving image of the imaging performer, the size of the face of the imaging performer in the clipped moving image of the imaging performer, and the composite destination moving image.
  • the size of the face of the destination performer shown in the image is acquired as an analysis result, and the size of the clipped moving image of the imaging performer is adjusted based on the analysis result.
  • the image quality adjustment unit 35 adjusts the image quality (for example, brightness, saturation, and hue) of the clipped moving image of the imaged performer when the image is combined with the combined destination moving image in accordance with the image quality of the combined performer of the combined moving image.
  • Image processing for adjusting the color properties and the synthesis conditions such as resolution) supplies the resultant image to the synthesis processing unit 36.
  • the image quality adjustment unit 35 considers the brightness balance between the imaging performer and the destination performer, Image processing for increasing the brightness of the clipped moving image of the imaging performer is performed.
  • the image quality adjustment unit 35 performs image analysis on the clipped moving image and the synthesized moving image of the imaging performer, acquires the image quality of each performer as an analysis result, and based on the analysis result, the imaging appearance Adjust the quality of the clipped moving image.
  • the synthesizing processing unit 36 performs a synthesizing process that superimposes the clipped moving image of the imaging performer on the synthesized moving image, and generates a synthesized moving image.
  • the composition processing unit 36 uses the composition position adjusting unit 32 to combine the cutout moving image of the imaging performer having the image quality adjusted by the image quality adjusting unit 35 with the size adjusted by the size adjusting unit 34.
  • Composite at the composite position set to.
  • the layer setting unit 33 sets a layer indicating the forward positional relationship with respect to the imaged performer for the object detected from the combined moving image
  • the combining processing unit 36 sets the layer. After the object is cut out from the synthesized moving image and the cut out moving image of the imaging performer is synthesized, the moving image obtained by cutting out the object is superimposed.
  • the parts creation unit 37 has a part of the body of the imaging performer synthesized with the synthesized moving image as a result of the composition processing unit 36 performing composition analysis on the synthesized moving image. If so, a part (interpolated image) for complementing the missing part (insufficient part) is generated and supplied to the synthesis processing unit 36. Thereby, the composition processing unit 36 performs composition processing for compositing the parts generated by the part creating unit 37 so as to hide the missing parts of the imaging performer.
  • the guide unit 38 performs image analysis on the synthesized moving image generated by the synthesis processing unit 36, and based on the analysis result, the imaging performer and the synthesis destination performer are not identified.
  • guidance for giving various instructions to the imaging performer is output (instructions are presented).
  • the guide unit 38 instructs the direction of the imaging performer, instructs the position where the imaging unit 21 is disposed, and displays a guidance image that instructs the brightness of the surrounding environment that captures the imaging performer. Is supplied and displayed, or a guidance voice is supplied to the speaker 24 for output.
  • the performer-side information processing device 13-1 is configured, and the image processing unit 25 considers the position and size of the imaging performer and the composition destination performer in the image processing unit 25, and takes the imaging performer and the composition. It is possible to generate a composite video that combines the performers in a balanced manner. Further, the performer side information processing apparatus 13-1 sequentially performs image processing in the image processing unit 25 in response to the captured moving image in which the imaging unit 21 captures the captured performer being supplied to the image processing unit 25. And a synthesized moving image can be output in real time (including some time lag due to processing) of the imaging performer. The synthesized moving image output from the image processing unit 25 is transmitted to the distribution server 14 via the communication unit 22 and distributed to the viewer-side information processing devices 15-1 to 15-N via the network 12.
  • the synthesized moving image output from the image processing unit 25 is transmitted to the distribution server 14 via the communication unit 22 and distributed to the viewer-side information processing devices 15-1 to 15-N via the network 12.
  • FIG. 3 shows a captured moving image A1 captured by the imaging unit 21 and a synthesized destination moving image B1 transmitted from the performer side information processing device 13-2. Shows a synthesized moving image C ⁇ b> 1 that has been synthesized by the synthesis processing unit 36.
  • the imaging performer D1 in the captured moving image A1 and the position of the synthesis destination performer E1 in the synthesis destination moving image B1 are in a positional relationship such that they overlap each other.
  • the imaging performer D1 is cut out from the captured moving image A1 and synthesized without performing position adjustment, the imaging performer D1 is synthesized so as to overlap the synthesis destination performer E1.
  • a synthesized moving image in which the synthesized performer E1 is hidden behind D1 is generated. Therefore, conventionally, the imaging performer D1 needs to change the standing position at the time of imaging while understanding the composite destination moving image B1 well so that the composite destination performer E1 is not hidden, and performs appropriate alignment. It was difficult.
  • the composition position adjustment unit 32 performs image analysis (for example, person detection processing, face detection processing, composition recognition, etc.) on the composite destination moving image B1, and performs composition.
  • the position of the composite destination performer E1 shown in the previous moving image B1 can be specified.
  • combination position adjustment part 32 can adjust the synthetic
  • the synthesis position adjustment unit 32 sets the initial synthesis position in an arrangement that is arranged next to the synthesis destination performer E1, as indicated by a broken line in the synthesis destination moving image B1.
  • the composite position of the imaging performer D1 is appropriately arranged automatically by the composite position adjustment unit 32, that is, without the imaging performer D1 adjusting his / her standing position. Is set as follows. Thereby, the image processing unit 25 can easily generate the synthesized moving image C1 arranged so that the synthesized performer E1 and the imaging performer D1 do not overlap.
  • the composite position adjusting unit 32 can accurately recognize the position of the composite destination performer E1 by using the distance information.
  • the synthesis position can be set more appropriately.
  • the combining position adjustment unit 32 can adjust the combining position with an appropriate arrangement so that the respective performers do not overlap.
  • FIG. 4 shows a captured moving image A2 captured by the imaging unit 21 and a synthesized destination moving image B2 transmitted from the performer side information processing device 13-2. Shows a synthesized moving image C ⁇ b> 2 that has been synthesized by the synthesis processing unit 36.
  • the imaging performer D2 is cut out from the captured moving image A2 and synthesized as it is, the object F is synthesized so as to overlap the synthesis destination performer E1, and although not shown, the object F is hidden behind the imaging performer D1.
  • a synthesized moving image in which the context is reversed is generated. That is, originally, a composition in which the object F is arranged in front of the imaging performer D1 is desirable, but it is difficult to generate a composite moving image having such a composition.
  • the layer setting unit 33 performs object detection processing on the composite destination moving image B2, and displays a layer indicating the context of the object F with respect to the imaging performer D2 as a composite destination video.
  • the layer setting unit 33 displays an area surrounding the object F detected from the composite destination moving image B2 (an area indicated by a broken line) on the display 23 as an area where a layer can be set.
  • the layer setting part 33 displays the graphical user interface which instruct
  • the layer setting unit 33 obtains the distance to the subject imaged in the composite destination moving image B2 using the distance measuring technique, and when the distance information is added to the composite destination moving image B2, the distance information
  • the layer can be set with reference to FIG. For example, if the distance to the object F is less than a predetermined value, the layer setting unit 33 sets a forward layer for the imaging performer D2, and if the distance to the object F is equal to or greater than a predetermined value, the imaging appearance A rear layer is set for the person D2.
  • the layer setting unit 33 sets a layer on the object F to be displayed in front of the imaging performer D1.
  • the image processing unit 25 can generate a composite moving image C2 having an originally desirable composition in which the object F is arranged in front of the imaging performer D1.
  • FIG. 5 shows a captured moving image A3 imaged by the imaging unit 21 and a composite destination moving image B3 transmitted from the performer-side information processing device 13-2. 5 shows a synthesized moving image C3 that has been subjected to size adjustment processing by the size adjustment unit 34 and synthesized by the synthesis processing unit 36, and on the right side of FIG. A synthesized moving image C3 ′ in which the parts created in the parts creating unit 37 are synthesized with the moving image C3 is shown.
  • the imaged performer D3 in the captured moving image A3 is photographed larger than the imaged performer D3 in the composite destination moving image B3.
  • the imaged performer D3 is cut out from the imaged moving image A3 and synthesized as it is without adjusting the size, the imaged performer D3 becomes very large with respect to the composition-destination performer E3, which is not shown.
  • a synthesized moving image is generated. Therefore, conventionally, the imaging performer D3 has to move to a standing position away from the imaging unit 21 so as to have the same size as the synthesis destination performer E3.
  • the size adjustment unit 32 sets the composition position
  • the size of the face of the composition destination performer E3 shown in the composition destination moving image B3 is set. It can be recognized and notified to the size adjustment unit 34.
  • the size adjusting unit 34 has the face size (dotted circle) of the imaging performer D3 supplied from the cutout unit 31 substantially the same as the face size (dashed circle) of the destination performer E3. Image processing for adjusting the size (enlargement operation or reduction operation) of the imaging performer D3 is performed.
  • the size adjusting unit 34 may compare the size of the face of the imaging performer D3 with the size of the object G, and may adjust the size of the imaging performer D3 based on the comparison result. Moreover, you may perform size comparison with a chair or a table other than the flower as shown in figure.
  • the imaging performer D3 whose size has been adjusted by the size adjustment unit 34 is synthesized with the synthesis destination moving image B3, so that the imaging performer D3 and the synthesis destination performer E3 are synthesized in a balanced manner.
  • a synthesized moving image C3 can be generated.
  • the composition processing unit 36 performs a skeleton estimation for the imaging performer D3 synthesized with the synthesized moving image C3, and the missing parts of the imaging performer D3 (in the example of FIG. 5).
  • combination process part 36 requests
  • the synthesis processing unit 36 recognizes the floor below the imaging performer D3 by performing image recognition on the synthesized moving image C3, a part that is arranged on the floor and hides the missing part of the imaging performer D3. Is requested to the parts creation unit 37.
  • the part creation unit 37 creates a part H (a speech stand in the example of FIG. 5) according to a request from the synthesis processing unit 36 by computer graphics and supplies it to the synthesis processing unit 36.
  • the composition processing unit 36 then composes the synthesized moving image C3 ′ in which the part H created by the parts creating unit 37 is arranged on the floor of the synthesized moving image C3 to compensate for the missing parts of the imaging performer D3. Is generated.
  • the size adjustment unit 34 adjusts the size of the imaging performer D3, and the part H created by the parts creation unit 37 is synthesized so as to hide the missing parts of the imaging performer D3.
  • the image processing unit 25 can generate a composite moving image C3 'that avoids the imaging performer D3 from entering an unnatural state.
  • FIG. 6 shows a display image J displayed on the display 23.
  • the display 23 displays a display image J in which the guide image K output from the guide unit 38 is superimposed on the composite moving image C4 output from the composite processing unit 36.
  • the guide unit 38 provides guidance for giving various instructions to the imaging performer D4. Do.
  • the guide unit 38 analyzes the synthesized moving image C4 supplied from the synthesis processing unit 36, thereby detecting the faces of the imaging performer D4 and the synthesis destination performer E4 and recognizing the direction of each face. Then, the guide unit 38 is composed of an arrow indicating the direction of the destination performer E4 and a message “please see here to speak” so that the composition is such that a natural conversation is performed. K is output to the display 23. The guide image K is only displayed on the display 23 so as to overlap the synthesized moving image C4, and is not transmitted via the communication unit 22.
  • the guide unit 38 uses the guide image K for the imaging performer D4 such that the imaging performer D4 and the composition destination performer E4 have a conversation.
  • Guidance can be provided.
  • the image processing unit 25 can generate a composite moving image C4 having a natural composition with no sense of incongruity for the imaging performer D4 and the composite destination performer E4.
  • the guide unit 38 instructs the imaging performer D4 of the performer side information processing apparatus 13-1
  • guidance that instructs installation of the imaging unit 21 can be output.
  • the guide unit 38 displays a message such as “Please increase the height of the camera”, “Place the camera a little more to the right” or “Please move away from the camera” on the display 23. It can be displayed or output from the speaker 24.
  • the guide unit 38 analyzes the white balance of the imaging performer D4, and when it is detected that the image is taken in an extremely dark place, the guidance unit 38 points out the darkness of the room and brightens it. For example, the message “Please brighten the room” can be displayed on the display 23 or output from the speaker 24.
  • FIG. 7 a process of synthesizing the imaging performer D5 clipped from the captured moving image and the synthesized performer E5 clipped from the synthesized moving image with the background still image L serving as the background thereof will be described. To do. On the left side of FIG. 7, an imaging performer D5 and a composition destination performer E5, and a background still image L are shown. On the right side of FIG. 7, a synthesized moving image C5 in which the imaging performer D5 and the synthesized performer E5 are synthesized by the synthesis processing unit 36 with the background still image L as the background is shown.
  • the brightness of the imaging performer D5 and the synthesis destination performer E5 are different as illustrated.
  • the imaged performer D5 is imaged in a backlight environment, and is a darker image than the combined performer E5.
  • the imaged performer D5 and the combined performer E5 are combined as they are, they are not shown. Unnatural synthesized moving images with different brightness are generated.
  • the image quality adjustment unit 35 adjusts the white balance of the imaging performer D5 so that the imaging performer D5 and the composite destination performer E5 have the same brightness. Thereby, the image processing unit 25 can generate the composite moving image C5 in which the imaging performer D5 and the composite destination performer E5 are combined with the background still image L with the same brightness and the unnaturalness is eliminated. .
  • the image quality adjustment unit 35 may perform relative adjustment so that the imaging performer D5 and the synthesis destination performer E5 have the same brightness. Furthermore, the image quality adjustment unit 35 can adjust the image pickup performer D5 and the composition destination performer E5 to have the same degree of saturation and hue as well as brightness.
  • FIG. 8 is a flowchart for explaining image processing by the image processing unit 25.
  • processing is started when an operation on an operation unit (not shown) is performed so as to synthesize a performer of the performer-side information processing device 13-1 with a synthesized moving image.
  • the cutout unit 31 performs image processing to cut out an area where the imaged performer is captured from the captured moving image supplied from the image capture unit 21, generates a cutout moving image of the imaged performer, and generates a size adjusting unit. 34.
  • step S ⁇ b> 12 the composition position adjustment unit 32 performs image analysis on the composite destination moving image supplied from the communication unit 22, and the composition position when combining the clipped moving image of the imaging performer with the composition destination moving image is appropriate.
  • the position is adjusted so as to be the position, and the composition position is set in the composition destination moving image.
  • the composite position adjustment unit 32 supplies the composite destination moving image in which the composite position is set to the image quality adjustment unit 35.
  • the composition position adjustment unit 32 recognizes the size of the face of the composition destination performer shown in the composition destination moving image and notifies the size adjustment unit 34 of the size of the face of the composition destination performer.
  • step S13 the size adjustment unit 34 approximates the size of the clipped moving image of the imaging performer supplied from the clipping unit 31 in step S11, and the size of the imaging performer's face is approximately the size of the face of the destination performer.
  • the image quality is adjusted to be the same and supplied to the image quality adjustment unit 35.
  • step S14 the image quality adjustment unit 35 matches the image quality of the destination performer of the synthesis destination moving image supplied from the synthesis position adjustment unit 32 in step S12, and the imaging appearance supplied from the size adjustment unit 34 in step S13. Image processing for adjusting the image quality of the clipped moving image of the person is performed and supplied to the synthesis processing unit 36.
  • step S ⁇ b> 15 the layer setting unit 33 performs object detection processing on the composite destination moving image supplied from the communication unit 22, and the position of the object detected from the composite destination moving image in front of or behind the imaging performer.
  • a layer indicating the relationship is set in the synthesis destination moving image and is supplied to the synthesis processing unit 36.
  • step S16 the composition processing unit 36 extracts the cutout moving image of the imaging performer having the image quality adjusted by the image quality adjusting unit 35 in step S14 in the size adjusted by the size adjusting unit 34 in step S13.
  • the composition position adjustment unit 32 performs composition processing for composition at the composition position set in the composition destination moving image.
  • the composition processing unit 36 cuts out the object for which the layer is set from the composite destination moving image. Then, after synthesizing the cutout moving image of the imaging performer, a synthesizing process is performed to superimpose the image obtained by clipping the object. Then, the synthesis processing unit 36 performs composition analysis on the synthesized moving image generated by such synthesis processing.
  • step S ⁇ b> 17 the composition processing unit 36 lacks the imaging performer synthesized with the composition destination moving image as described with reference to FIG. 5 based on the result of the composition analysis performed on the composition moving image in step S ⁇ b> 16. Determine if there are parts.
  • step S17 if the composition processing unit 36 determines that the imaging performer has a missing part, the process proceeds to step S18, and the composition processing unit 36 creates a part so as to create a part that compensates for the missing part.
  • Request to unit 37 The parts creation unit 37 creates computer graphic parts in response to a request from the synthesis processing unit 36 and supplies them to the synthesis processing unit 36.
  • the synthesis processing unit 36 compensates for the missing parts of the imaging performer.
  • a synthesized moving image is generated by synthesizing the part generated by the creating unit 37 with the synthesized destination moving image.
  • step S18 the process proceeds to step S19, and the synthesis processing unit 36 outputs the synthesized moving image to the display 23. To display. Further, the synthesis processing unit 36 supplies the synthesized moving image to the communication unit 22 and transmits it to the distribution server 14 via the network 12.
  • step S20 the guide unit 38 analyzes the synthesized moving image generated by the synthesis processing unit 36 and determines whether or not it is necessary to output guidance.
  • step S20 If it is determined in step S20 that the guidance unit 38 needs to output guidance, the process proceeds to step S21, and the guidance unit 38 displays a guidance image on the display 23 or outputs guidance voice from the speaker 24.
  • step S21 After step S21 or when it is determined in step S20 that the guide unit 38 does not need to output guidance, the process returns to step S11, and the same process is repeated thereafter.
  • the image processing unit 25 considers the cutout moving image of the imaged performer to be a combined moving image in consideration of the position, size, image quality, and the like of the imaged performer and the combined performer being appropriate. By adjusting the conditions at the time of synthesis, it is possible to easily generate an image in which performers imaged at different points are synthesized in a balanced manner.
  • the performer-side information processing device 13-2 captures a composite destination moving image.
  • image analysis may be performed, and a composite destination moving image in which a composite position is set may be transmitted.
  • the performer side information processing apparatus 13-2 may detect an object shown in the composite destination moving image by using a distance measuring technique and perform layer setting.
  • the performer side information processing apparatus 13-1 may transmit the cutout moving image of the imaged performer to the distribution server 14, and the distribution server 14 may perform the combining process with the combined destination moving image.
  • the distribution server 14 may perform image processing by the image processing unit 25. That is, the performer-side information processing devices 13-1 and 13-2 transmit moving images obtained by capturing the performers to the distribution server 14, respectively. Then, the distribution server 14 cuts out the performer from the moving image of the performer-side information processing device 13-1, and performs a combining process using the moving image of the performer-side information processing device 13-2 as a combined moving image. At this time, the distribution server 14 can perform the layer setting process, the size adjustment process, the image quality adjustment process, and the part creation process as described above.
  • the region that becomes the insufficient part of the imaging performer is trimmed to enlarge a part of the synthesized moving image. You may make it synthesize an imaging performer.
  • the captured moving image of the performer imaged at different points in addition to the captured moving image in which the performer is captured at a physically distant location, a certain short distance A captured moving image in which each performer is captured by a different imaging device (for example, in the same room) is also included.
  • a different imaging device for example, in the same room
  • captured moving images captured at different imaging times or imaging locations are also included.
  • the synthesized moving image is first captured and recorded (recorded), and the captured moving image showing the performer is reproduced during real-time distribution. It can be combined with an image and distributed.
  • the captured moving image is not limited to that captured at different points.
  • the size or image quality of the cutout moving image of the imaged performer is adjusted to match the combined moving image, and the cutout moving image of the imaged performer and the combined video You may perform relative adjustment with respect to an image.
  • the processes described with reference to the flowcharts described above do not necessarily have to be processed in chronological order in the order described in the flowcharts, but are performed in parallel or individually (for example, parallel processes or objects). Processing).
  • the program may be processed by one CPU, or may be distributedly processed by a plurality of CPUs.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
  • the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
  • FIG. 9 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 105 is further connected to the bus 104.
  • the input / output interface 105 includes an input unit 106 including a keyboard, a mouse, and a microphone, an output unit 107 including a display and a speaker, a storage unit 108 including a hard disk and nonvolatile memory, and a communication unit 109 including a network interface.
  • a drive 110 for driving a removable medium 111 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
  • the CPU 101 loads, for example, the program stored in the storage unit 108 to the RAM 103 via the input / output interface 105 and the bus 104 and executes the program. Is performed.
  • the program executed by the computer (CPU 101) is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disc, or a semiconductor.
  • the program is recorded on a removable medium 111 that is a package medium including a memory or the like, or is provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 108 via the input / output interface 105 by attaching the removable medium 111 to the drive 110. Further, the program can be received by the communication unit 109 via a wired or wireless transmission medium and installed in the storage unit 108. In addition, the program can be installed in the ROM 102 or the storage unit 108 in advance.
  • this technique can also take the following structures.
  • An information processing apparatus comprising: an adjustment unit that adjusts a combining condition for combining the first moving image and the second moving image based on an analysis result in the obtained image analysis.
  • the image analysis processing unit performs image analysis using the position of the second subject imaged in the second moving image as the analysis result, The adjustment unit avoids the first subject from overlapping the second subject based on the position of the second subject in the second moving image, and the first moving image is The information processing apparatus according to (1), wherein a synthesis position to be synthesized with the second moving image is adjusted as the synthesis condition.
  • the image analysis processing unit performs image analysis using the size of the second subject captured in the second moving image as the analysis result,
  • the adjustment unit adjusts the size of the first moving image with respect to the second moving image as the synthesis condition based on the size of the second subject in the second moving image.
  • the information processing apparatus according to (2) or the information processing apparatus according to (2).
  • the image analysis processing unit captures the size of the face of the first person captured in the first moving image as the first subject and the second moving image as the second subject. Image analysis using the size of the second person's face as the analysis result,
  • the information processing apparatus according to (3) wherein the adjustment unit adjusts the synthesis condition so that a face size of the first person is substantially the same as a face size of the second person.
  • the image analysis processing unit captures the size of the face of the first person captured in the first moving image as the first subject and the second moving image as the second subject. Image analysis with the size of a given object being the analysis result, The information processing apparatus according to (3), wherein the adjustment unit adjusts the synthesis condition based on a comparison result between the size of the face of the first person and the size of the object.
  • the image analysis processing unit performs image analysis using the analysis result as the image quality of the first subject and the image quality of the second subject imaged in the second moving image, The information processing apparatus according to any one of (1) to (5), wherein the adjustment unit adjusts image quality of the first subject and image quality of the second subject as the synthesis condition.
  • the image analysis processing unit performs image analysis using the color property of the first subject and the color property of the second subject captured in the second moving image as the analysis result,
  • the information processing apparatus according to any one of (1) to (6), wherein the adjustment unit adjusts the color property of the first subject and the color property of the second subject as the synthesis condition. .
  • the color property is brightness, The information processing apparatus according to (7), wherein the adjustment unit adjusts the brightness of the first subject and the brightness of the second subject as the synthesis condition. (9)
  • the color property is saturation; The information processing apparatus according to (7) or (8), wherein the adjustment unit adjusts the saturation of the first subject and the saturation of the second subject as the synthesis condition.
  • the color property is hue;
  • the information processing apparatus according to any one of (7) to (9), wherein the adjustment unit adjusts the hue of the first subject and the hue of the second subject as the synthesis condition.
  • the captured moving image obtained by capturing the first subject is supplied, image analysis by the image analysis processing unit and adjustment of synthesis conditions by the adjustment unit are sequentially performed, and the first moving image
  • An information processing apparatus according to any one of (1) to (10), wherein a combined moving image is generated by combining an image and the second moving image.
  • the image processing apparatus further includes a clipping processing unit that performs image processing for clipping an area where the first subject is captured from the captured moving image in which the first subject is captured, and generates the first moving image.
  • a layer setting processing unit that detects an object shown in the second moving image and performs a process of setting a layer indicating a front or rear positional relationship of the detected object with respect to the first subject; When the object whose layer is set forward with respect to the first subject by the layer setting processing unit overlaps the first subject, the first moving image is combined with the second moving image.
  • the information processing apparatus according to any one of (1) to (13), further comprising: a combining processing unit that performs a combining process of combining a moving image obtained by clipping the object from the second moving image.
  • the information processing apparatus according to any one of (1) to (14), further including: an instruction processing unit that performs a process of presenting an instruction for.
  • an information processing method including a step of adjusting a synthesis condition for synthesizing the first moving image and the second moving image based on an analysis result obtained.
  • a program for causing a computer to execute information processing including a step of adjusting a synthesis condition for synthesizing the first moving image and the second moving image based on an analysis result obtained.
  • 11 distribution system 12 networks, 13-1 and 13-2 performer side information processing device, 14 distribution server, 15-1 to 15-N viewer side information processing device, 21 imaging unit, 22 communication unit, 23 display, 24 speakers, 25 image processing section, 31 clipping section, 32 composition position adjustment section, 33 layer setting section, 34 size adjustment section, 35 image quality adjustment section, 36 composition processing section, 37 parts creation section, 38 guidance section

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Studio Circuits (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 本開示は、異なる地点で撮像された出演者どうしをバランスよく合成した動画像を容易に生成することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 第2の動画像に対する画像解析が行われて、第2の動画像に写されている第2の被写体の位置を解析結果とし、その解析結果に基づいて、第1の被写体が第2の被写体に重なることを回避して、第1の動画像を第2の動画像に合成する合成位置を合成条件として調整する処理が行われる。また、第1の被写体として第1の動画像に写されている第1の人物の顔の大きさ、および、第2の被写体として第2の動画像に写されている第2の人物の顔の大きさを解析結果とし、その解析結果に基づいて、第1の人物の顔の大きさが第2の人物の顔の大きさと略同一となるように合成条件を調整する処理が行われる。本技術は、例えば、動画像を配信する配信システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、異なる地点で撮像された出演者どうしをバランスよく合成した動画像を容易に生成することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 従来、映画やテレビ放送で使用されるクロマキー合成技術は、主にグリーンバックまたはブルーバックを背景として出演者が撮像される。そして、撮像された動画像から出演者を切り出す作業を行った後、別途用意された動画像を背景に合成され、適切な大きさおよび位置に来るように修正または調整する操作が行われる。また、リアルタイムに合成を行って放送する場合では、合成先動画の構成と出演者を撮像する構成とを一致させておく必要があった。
 例えば、特許文献1には、背景となる動画像の内容に合わせた適切な人物合成レイアウトを指定するデータに基づいて、撮像された動画像から切り出した人物部分の位置や大きさを、背景となる動画像の内容に応じて調整する合成方法が開示されている。
特開2004-328788
 しかしながら、特許文献1に開示されている合成方法では、人物合成レイアウトを指定するデータを登録する手間が必要であったため、異なる地点で撮像された出演者どうしをバランスよく合成した動画像を生成するには、様々な手間を要することになっていた。そのため、より容易な手段で、異なる地点で撮像された出演者どうしをバランスよく合成した動画像を生成することが求められていた。
 本開示は、このような状況に鑑みてなされたものであり、異なる地点で撮像された出演者どうしをバランスよく合成した動画像を容易に生成することができるようにするものである。
 本開示の一側面の情報処理装置は、第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する調整部とを備える。
 本開示の一側面の情報処理方法またはプログラムは、第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整するステップを含む。
 本開示の一側面においては、第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、第1の動画像と第2の動画像とを合成する合成条件が調整される。
 本開示の一側面によれば、異なる地点で撮像された出演者どうしをバランスよく合成した動画像を容易に生成することができる。
本技術を適用した配信システムの一実施の形態の構成例を示すブロック図である。 出演者側情報処理装置の構成例を示すブロック図である。 合成位置調整処理について説明する図である。 レイヤ設定処理について説明する図である。 サイズ調整処理およびパーツ作成処理について説明する図である。 案内処理について説明する図である。 画質調整処理について説明する図である。 画像処理部による画像処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 図1は、本技術を適用した配信システムの一実施の形態の構成例を示すブロック図である。
 図1に示すように、配信システム11は、インターネットなどのネットワーク12を介して、出演者側情報処理装置13-1および13-2、配信サーバ14、並びに、N台の視聴者側情報処理装置15-1乃至15-Nが接続されて構成される。
 配信システム11では、例えば、出演者側情報処理装置13-1または13-2において撮像された動画像が、ネットワーク12を介して逐次的に配信サーバ14に送信され、配信サーバ14からネットワーク12を介して視聴者側情報処理装置15-1乃至15-Nに配信される。これにより、視聴者側情報処理装置15-1乃至15-Nの視聴者は、出演者側情報処理装置13-1または13-2のユーザが出演者として出演している動画像を視聴することができる。
 また、配信システム11では、出演者側情報処理装置13-1の出演者と出演者側情報処理装置13-2の出演者とが合成された合成動画像を配信することができる。例えば、出演者側情報処理装置13-2は、出演者を撮像した動画像を、配信サーバ14を介して出演者側情報処理装置13-1に送信する。そして、出演者側情報処理装置13-1は、例えば、出演者側情報処理装置13-2から送信されてくる動画像に写されている出演者の隣に並ぶように、出演者側情報処理装置13-1の出演者を合成した合成動画像を生成し、配信サーバ14に送信する。これにより、異なる地点で撮像された出演者どうしが合成された合成動画像が、配信サーバ14を介して、視聴者側情報処理装置15-1乃至15-Nに配信される。
 次に、図2は、出演者側情報処理装置13-1の構成例を示すブロック図である。
 図2に示すように、出演者側情報処理装置13-1は、撮像部21、通信部22、ディスプレイ23、スピーカ24、および画像処理部25を備えて構成される。
 撮像部21は、図示しない光学系や撮像素子を備えて構成され、出演者側情報処理装置13-1の出演者を被写体として撮像した動画像を画像処理部25に供給する。
 通信部22は、ネットワーク12を介して、出演者側情報処理装置13-2および配信サーバ14と通信を行う。例えば、通信部22は、出演者側情報処理装置13-2から送信されてくる動画像を受信して画像処理部25に供給したり、画像処理部25から出力される合成動画像を配信サーバ14に送信したりする。
 ディスプレイ23は、画像処理部25の合成処理部36から供給される合成動画像を表示したり、画像処理部25の案内部38から供給される案内画像を表示したりする。
 スピーカ24は、画像処理部25の案内部38から供給される案内音声を出力する。
 画像処理部25は、撮像部21により撮像された動画像(以下適宜、撮像動画像と称する)から出演者を切り抜き、通信部22から供給される動画像(以下適宜、合成先動画像と称する)に合成する画像処理を行う。そして、画像処理部25は、画像処理を行うことにより生成される合成動画像を、通信部22およびディスプレイ23に供給する。また、図示するように、画像処理部25は、切り抜き部31、合成位置調整部32、レイヤ設定部33、サイズ調整部34、画質調整部35、合成処理部36、パーツ作成部37、および案内部38を備えて構成される。
 切り抜き部31は、撮像部21から供給される撮像動画像に対して顔検出処理および人物検出処理を行い、撮像動画像に写されている出演者(以下適宜、撮像出演者と称する)を検出する。そして、切り抜き部31は、撮像動画像から撮像出演者が写されている領域を切り抜く画像処理を行い、撮像出演者の輪郭に沿って形成される撮像出演者の切り抜き動画像(撮像動画像に含まれる、撮像出演者が写された領域の動画像)を生成してサイズ調整部34に供給する。
 合成位置調整部32は、切り抜き部31により生成される撮像出演者の切り抜き動画像を合成先動画像に合成する際の合成位置(合成条件)が適切な配置となるように調整し、合成先動画像に合成位置を設定する。例えば、図3を参照して後述するように、合成位置調整部32は、通信部22から供給される合成先動画像に対する画像解析を行い、合成先動画像に写されている出演者(以下適宜、合成先出演者と称する)を認識する。これにより、合成位置調整部32は、合成先動画像に写されている合成先出演者の位置を解析結果として取得する。そして、合成位置調整部32は、解析結果に基づいて、撮像出演者および合成先出演者を並べたときの構図を考慮し、合成先出演者に対して撮像出演者がバランスよく配置されるように、合成位置を調整する。
 レイヤ設定部33は、通信部22から供給される合成先動画像に対して物体検出処理を行い、図4を参照して後述するように、合成先動画像から検出された物体の、撮像出演者に対する前方または後方の位置関係を示すレイヤを、合成先動画像に設定する。
 サイズ調整部34は、切り抜き部31から供給される撮像出演者の切り抜き動画像を合成先動画像の合成位置に合成する際における大きさ(合成条件)を調整する画像処理を行い、大きさを調整した撮像出演者の切り抜き動画像を、画質調整部35に供給する。例えば、図5を参照して後述するように、撮像出演者の顔の大きさと合成先出演者の顔の大きさとを考慮して、それらの大きさが略同一となるように、撮像出演者の切り抜き動画像のサイズを調整する。即ち、サイズ調整部34は、撮像出演者の切り抜き動画像と合成先動画像とに対する画像解析を行って、撮像出演者の切り抜き動画像における撮像出演者の顔の大きさ、および、合成先動画像に写されている合成先出演者の顔の大きさを解析結果として取得し、その解析結果に基づいて、撮像出演者の切り抜き動画像のサイズを調整する。
 画質調整部35は、合成先動画像の合成先出演者の画質に合わせて、合成先動画像に合成する際の撮像出演者の切り抜き動画像の画質(例えば、明度、彩度、および色相からなる色の性質や、解像度などの合成条件)を調整する画像処理を行って、合成処理部36に供給する。例えば、図7を参照して後述するように、撮像出演者が逆光で撮像されている場合、撮像出演者と合成先出演者との明るさのバランスを考慮して、画質調整部35は、撮像出演者の切り抜き動画像の明るさを増加させる画像処理を行う。即ち、画質調整部35は、撮像出演者の切り抜き動画像と合成先動画像とに対する画像解析を行って、それぞれの出演者の画質を解析結果として取得し、その解析結果に基づいて、撮像出演者の切り抜き動画像の画質を調整する。
 合成処理部36は、撮像出演者の切り抜き動画像を合成先動画像に重畳させて合成する合成処理を行い、合成動画像を生成する。このとき、合成処理部36は、サイズ調整部34により調整された大きさで、画質調整部35により調整された画質の撮像出演者の切り抜き動画像を、合成位置調整部32により合成先動画像に設定された合成位置に合成する。また、レイヤ設定部33により、合成先動画像から検出された物体について、撮像出演者に対する前方の位置関係を示すレイヤが設定されている場合、合成処理部36は、そのレイヤが設定されている物体を合成先動画像から切り抜いて、撮像出演者の切り抜き動画像を合成した後に、物体を切り抜いた動画像を重畳させる。
 パーツ作成部37は、図5を参照して後述するように、合成処理部36が合成動画像に対する構図解析を行った結果、合成先動画像に合成した撮像出演者の身体の一部分が不足している場合、その不足している一部分(不足パーツ)を補完するためのパーツ(補間画像)を生成して合成処理部36に供給する。これにより、合成処理部36は、パーツ作成部37により生成されたパーツを撮像出演者の不足パーツを隠すように合成する合成処理を行う。
 案内部38は、図6を参照して後述するように、合成処理部36により生成された合成動画像に対する画像解析を行い、その解析結果に基づいて、撮像出演者および合成先出演者が不自然とならないように、撮像出演者に対して各種の指示を行う案内を出力(指示を提示)する。例えば、案内部38は、撮像出演者の向きを指示したり、撮像部21を配置する位置を指示したり、撮像出演者を撮像している周辺環境の明るさを指示する案内画像をディスプレイ23に供給して表示させ、または、案内音声をスピーカ24に供給して出力させる。
 以上のように出演者側情報処理装置13-1は構成されており、画像処理部25において、撮像出演者および合成先出演者の位置や大きさなどの兼ね合いを考慮し、撮像出演者および合成先出演者をバランスよく合成した合成動画像を生成することができる。また、出演者側情報処理装置13-1は、撮像部21が撮像出演者を撮像した撮像動画像が画像処理部25に供給されるのに応じて逐次的に、画像処理部25における画像処理が行われ、撮像出演者の撮像とリアルタイム(処理による多少のタイムラグを含む)に、合成動画像を出力することができる。そして、画像処理部25から出力される合成動画像は、通信部22を介して配信サーバ14に送信され、ネットワーク12を介して、視聴者側情報処理装置15-1乃至15-Nに配信される。
 次に、図3を参照して、合成位置調整部32による合成位置調整処理について説明する。
 図3の左側には、撮像部21により撮像された撮像動画像A1と、出演者側情報処理装置13-2から送信されてくる合成先動画像B1とが示されており、図3の右側には、合成処理部36により合成処理が施された合成動画像C1が示されている。
 図示するように、撮像動画像A1における撮像出演者D1の位置と、合成先動画像B1における合成先出演者E1の位置とが、互いに重なるような位置関係となっている場合について説明する。この場合、撮像動画像A1から撮像出演者D1を切り出して、位置調整を行わずにそのまま合成すると、撮像出演者D1が合成先出演者E1に重なるように合成され、図示しないが、撮像出演者D1の背後に合成先出演者E1が隠れるような合成動画像が生成される。従って、従来、撮像出演者D1は、合成先出演者E1が隠れることがないように、合成先動画像B1をよく理解しながら撮像時の立ち位置を変える必要があり、適切な位置合わせを行うことが困難であった。
 これに対し、出演者側情報処理装置13-1では、合成位置調整部32が合成先動画像B1に対する画像解析(例えば、人物検出処理や、顔検出処理、構図認識など)を行って、合成先動画像B1に写されている合成先出演者E1の位置を特定することができる。そして、合成位置調整部32は、撮像出演者D1が合成先出演者E1に重なることを回避した適切な配置となるように、撮像出演者D1の合成位置を調整することができる。図3の例では、合成位置調整部32は、合成先動画像B1に破線で示されているように、合成先出演者E1の隣に並ぶような配置に初期の合成位置を設定する。
 このように、画像処理部25では、合成位置調整部32により自動的に、つまり、撮像出演者D1が自身の立ち位置を調整することなく、撮像出演者D1の合成位置が適切な配置となるように設定される。これにより、画像処理部25は、合成先出演者E1と撮像出演者D1とが重ならないように配置された合成動画像C1を容易に生成することができる。
 なお、例えば、合成位置調整部32は、合成先動画像B1に距離情報が付加されている場合には、その距離情報を用いることで合成先出演者E1の位置を正確に認識することができ、より適切に合成位置を設定することができる。また、合成位置調整部32は、例えば、二人以上の多数の出演者を合成する場合においても同様に、それぞれの出演者が重ならないような適切な配置で合成位置を調整することができる。
 次に、図4を参照して、レイヤ設定部33によるレイヤ設定処理について説明する。
 図4の左側には、撮像部21により撮像された撮像動画像A2と、出演者側情報処理装置13-2から送信されてくる合成先動画像B2とが示されており、図4の右側には、合成処理部36により合成処理が施された合成動画像C2が示されている。
 図示するように、撮像動画像A2における撮像出演者D2の位置と、合成先動画像B2に写されている物体F(図4の例ではマイクスタンド)の位置とが、互いに重なるような位置関係となっている場合について説明する。この場合、撮像動画像A2から撮像出演者D2を切り出して、そのまま合成すると、物体Fが合成先出演者E1に重なるように合成され、図示しないが、撮像出演者D1の背後に物体Fが隠れるような前後関係が反転された合成動画像が生成される。つまり、本来であれば、物体Fが撮像出演者D1の前方に配置される構図が望ましいが、そのような構図の合成動画像を生成することは困難であった。
 そこで、出演者側情報処理装置13-1では、レイヤ設定部33が、合成先動画像B2に対して物体検出処理を行い、物体Fの撮像出演者D2に対する前後関係を示すレイヤを合成先動画像B2に設定する。例えば、レイヤ設定部33は、合成先動画像B2から検出された物体Fを囲う領域(破線で図示される領域)を、レイヤを設定することができる領域としてディスプレイ23に表示する。そして、レイヤ設定部33は、その領域を撮像出演者D2に対して前方または後方のどちらに表示するかを指示するグラフィカルなユーザインタフェースをディスプレイ23に表示して、ユーザの操作に従ってレイヤを設定することができる。
 また、レイヤ設定部33は、合成先動画像B2に写されている被写体までの距離が測距技術を用いて求められ、その距離情報が合成先動画像B2に付加されている場合、距離情報を参照して、レイヤを設定することができる。例えば、レイヤ設定部33は、物体Fまでの距離が所定値未満であれば、撮像出演者D2に対して前方のレイヤを設定し、物体Fまでの距離が所定値以上であれば、撮像出演者D2に対して後方のレイヤを設定する。
 このように、画像処理部25では、レイヤ設定部33により撮像出演者D1の前方に表示すべき物体Fにレイヤが設定される。これにより、画像処理部25は、物体Fが撮像出演者D1の前方に配置される本来の望ましい構図の合成動画像C2を生成することができる。
 次に、図5を参照して、サイズ調整部34によるサイズ調整処理、および、パーツ作成部37によるパーツ作成処理について説明する。
 図5の左側には、撮像部21により撮像された撮像動画像A3と、出演者側情報処理装置13-2から送信されてくる合成先動画像B3とが示されている。また、図5の中央には、サイズ調整部34によるサイズ調整処理が施されて合成処理部36により合成処理が施された合成動画像C3が示されており、図5の右側には、合成動画像C3に対してパーツ作成部37において作成されたパーツが合成された合成動画像C3’が示されている。
 図示するように、撮像動画像A3における撮像出演者D3が、合成先動画像B3における撮像出演者D3よりも大きく写されている場合について説明する。この場合、撮像動画像A3から撮像出演者D3を切り出して、サイズ調整を行わずにそのまま合成すると、図示しないが、撮像出演者D3が合成先出演者E3に対して非常に大きくなりアンバランスな合成動画像が生成される。従って、従来、撮像出演者D3は、合成先出演者E3と同程度の大きさとなるように、撮像部21から離れた立ち位置に移動する必要があった。
 これに対し、出演者側情報処理装置13-1では、合成位置調整部32が合成位置を設定する際に、合成先動画像B3に写されている合成先出演者E3の顔の大きさを認識して、サイズ調整部34に通知することができる。そして、サイズ調整部34は、切り抜き部31から供給される撮像出演者D3の顔の大きさ(破線の円形)が、合成先出演者E3の顔の大きさ(破線の円形)と略同一となるように撮像出演者D3のサイズ調整(拡大演算または縮小演算)を行う画像処理を行う。
 なお、例えば、合成先動画像B3に写されている物体G(図4の例では花)の大きさと顔の大きさとの比率が予め合成先動画像B3に設定されている場合、サイズ調整部34は、撮像出演者D3の顔の大きさと物体Gの大きさとを比較し、その比較結果に基づいて、撮像出演者D3のサイズを調整してもよい。また、図示するような花以外に、椅子やテーブルとのサイズの比較を行ってもよい。
 これにより、合成処理部36において、サイズ調整部34によりサイズが調整された撮像出演者D3を合成先動画像B3に合成することで、撮像出演者D3と合成先出演者E3とがバランスよく合成された合成動画像C3を生成することができる。
 ところで、撮像動画像A3では、撮像出演者D3の胸部より上側の部分だけが撮像されているのに対し、合成先動画像B3では、合成先出演者E3の全身が撮像されている。このため、合成動画像C3に示すように、撮像出演者D3および合成先出演者E3の顔の高さを揃えた配置で合成した場合、撮像出演者D3の撮像されていない身体の一部分(胸部より下側の部分)が不足パーツとなってしまう。このため、合成動画像C3では、撮像出演者D3の胸部より上側の部分が宙に浮いているような不自然な状態となっている。
 そこで、出演者側情報処理装置13-1では、合成処理部36は、合成動画像C3に合成された撮像出演者D3に対する骨格推定を行い、撮像出演者D3の不足パーツ(図5の例では、胸部より下側の部分)を認識する。そして、合成処理部36は、認識した撮像出演者D3の不足パーツを補うようなパーツを生成するようにパーツ作成部37に対して要求する。例えば、合成処理部36は、合成動画像C3に対する画像認識を行って撮像出演者D3の下方の床を認識すると、その床の上に配置され、撮像出演者D3の不足パーツを隠すようなパーツをパーツ作成部37に対して要求する。
 これに応じて、パーツ作成部37は、合成処理部36からの要求に応じたパーツH(図5の例では、演説台)をコンピュータグラフィックにより作成して合成処理部36に供給する。そして、合成処理部36は、パーツ作成部37により作成されたパーツHが、合成動画像C3の床の上に配置され、撮像出演者D3の不足パーツを補うように合成した合成動画像C3’を生成する。
 このように、画像処理部25では、サイズ調整部34により撮像出演者D3のサイズ調整が行われ、パーツ作成部37により作成されたパーツHが撮像出演者D3の不足パーツを隠すように合成される。これにより、画像処理部25は、撮像出演者D3が不自然な状態となるようなことを回避した合成動画像C3’を生成することができる。
 次に、図6を参照して、案内部38による案内処理について説明する。
 図6には、ディスプレイ23に表示される表示画像Jが示されている。ディスプレイ23には、合成処理部36から出力される合成動画像C4に、案内部38から出力される案内画像Kが重畳された表示画像Jが表示される。
 例えば、図示するように、出演者側情報処理装置13-1の撮像出演者D4が、合成先出演者E4の方向を向いていない場合について説明する。この場合、上述したような位置調整処理やサイズ調整処理では不自然な状態を適切に回避することができないため、案内部38が、撮像出演者D4に対して各種の指示をするための案内を行う。
 例えば、案内部38は、合成処理部36から供給される合成動画像C4を解析することにより、撮像出演者D4および合成先出演者E4の顔を検出し、それぞれの顔の向きを認識する。そして、案内部38は、自然な会話を行っているような構図となるように、合成先出演者E4の方向を示す矢印、および、「こちらを見て話してください」というメッセージからなる案内画像Kをディスプレイ23に出力する。なお、案内画像Kは、ディスプレイ23においてに合成動画像C4に重ねて表示されるだけであり、通信部22を介して送信されることはない。
 このように、画像処理部25では、案内部38が、例えば、撮像出演者D4および合成先出演者E4が会話を行っているような構図となるように、案内画像Kにより撮像出演者D4に対する案内を行うことができる。これにより、画像処理部25は、撮像出演者D4および合成先出演者E4について、より違和感のない自然な構図の合成動画像C4を生成することができる。
 なお、案内部38は、図6に示したような撮像出演者D4および合成先出演者E4の顔の向きを指示する他、例えば、出演者側情報処理装置13-1の撮像出演者D4に対して、撮像部21の設置を指示するような案内を出力することができる。具体的には、案内部38は、「カメラの高さを高くしてください」や、「カメラをもう少し右に置いてください」、「カメラから少し離れてください」などのメッセージを、ディスプレイ23に表示させ、または、スピーカ24から出力させることができる。
 また、案内部38は、撮像出演者D4のホワイトバランスを解析し、極端に暗い場所で撮像されていることが検出された場合には、部屋の暗さを指摘して明るくするような案内、例えば、「部屋を明るくしてください」というメッセージを、ディスプレイ23に表示させ、または、スピーカ24から出力させることができる。
 次に、図7を参照して、画質調整部35による画質調整処理について説明する。
 図7では、撮像動画像から切り抜かれた撮像出演者D5、および、合成先動画像から切り抜かれた合成先出演者E5を、それらの背景となる背景静止画像Lに対して合成する処理について説明する。図7の左側には、撮像出演者D5および合成先出演者E5と、背景静止画像Lとが示されている。図7の右側には、背景静止画像Lを背景として合成処理部36により撮像出演者D5および合成先出演者E5が合成された合成動画像C5が示されている。
 例えば、撮像出演者D5および合成先出演者E5それぞれを撮像する環境(光源方向や明るさなど)が異なる場合、図示するように、撮像出演者D5および合成先出演者E5の明るさが異なることがある。例えば、撮像出演者D5は逆光の環境で撮像され、合成先出演者E5と比較して暗い画像となっており、撮像出演者D5および合成先出演者E5をそのまま合成すると、図示しないが、それぞれの明るさが異なる不自然な合成動画像が生成される。
 そこで、画像処理部25では、画質調整部35が、撮像出演者D5および合成先出演者E5が同等の明るさとなるように撮像出演者D5のホワイトバランスを調整する。これにより、画像処理部25は、撮像出演者D5および合成先出演者E5が同等の明るさで背景静止画像Lに合成され、不自然さが解消された合成動画像C5を生成することができる。また、画質調整部35は、撮像出演者D5および合成先出演者E5が同程度の明るさとなるように相対的に調整を行ってもよい。さらに、画質調整部35は、明るさ以外にも、彩度や色相などについて、撮像出演者D5および合成先出演者E5が同程度となるように調整することができる。
 次に、図8は、画像処理部25による画像処理を説明するフローチャートである。
 例えば、出演者側情報処理装置13-1の出演者を合成先動画像に対して合成するように、図示しない操作部に対する操作が行われると処理が開始される。ステップS11において、切り抜き部31は、撮像部21から供給される撮像動画像から撮像出演者が写されている領域を切り抜く画像処理を行い、撮像出演者の切り抜き動画像を生成してサイズ調整部34に供給する。
 ステップS12において、合成位置調整部32は、通信部22から供給される合成先動画像に対する画像解析を行い、撮像出演者の切り抜き動画像を合成先動画像に合成する際の合成位置が適切な位置となるように調整し、合成先動画像に合成位置を設定する。そして、合成位置調整部32は、合成位置を設定した合成先動画像を画質調整部35に供給する。また、合成位置調整部32は、合成先動画像に写されている合成先出演者の顔の大きさを認識して、合成先出演者の顔の大きさをサイズ調整部34に通知する。
 ステップS13において、サイズ調整部34は、ステップS11で切り抜き部31から供給される撮像出演者の切り抜き動画像のサイズを、撮像出演者の顔の大きさが合成先出演者の顔の大きさと略同一となるように調整して、画質調整部35に供給する。
 ステップS14において、画質調整部35は、ステップS12で合成位置調整部32から供給される合成先動画像の合成先出演者の画質に合わせて、ステップS13でサイズ調整部34から供給される撮像出演者の切り抜き動画像の画質を調整する画像処理を行って、合成処理部36に供給する。
 ステップS15において、レイヤ設定部33は、通信部22から供給される合成先動画像に対して物体検出処理を行い、合成先動画像から検出された物体の、撮像出演者に対する前方または後方の位置関係を示すレイヤを合成先動画像に設定して、合成処理部36に供給する。
 ステップS16において、合成処理部36は、ステップS13でサイズ調整部34により調整された大きさで、ステップS14で画質調整部35により調整された画質の撮像出演者の切り抜き動画像を、ステップS12で合成位置調整部32により合成先動画像に設定された合成位置に合成する合成処理を行う。このとき、合成処理部36は、ステップS15でレイヤ設定部33により撮像出演者に対する前方の位置関係を示すレイヤが設定されている場合、そのレイヤが設定されている物体を合成先動画像から切り抜いて、撮像出演者の切り抜き動画像を合成した後に、物体を切り抜いた画像を重畳させる合成処理を行う。そして、合成処理部36は、このような合成処理により生成した合成動画像に対する構図解析を行う。
 ステップS17において、合成処理部36は、ステップS16で合成動画像に対する構図解析を行った結果に基づいて、図5を参照して説明したように、合成先動画像に合成した撮像出演者に不足パーツがあるか否かを判定する。
 ステップS17において、合成処理部36が撮像出演者に不足パーツがあると判定した場合、処理はステップS18に進み、合成処理部36は、その不足パーツを補うようなパーツを作成するようにパーツ作成部37に対して要求する。パーツ作成部37は、合成処理部36からの要求に応じてコンピュータグラフィックによるパーツを作成して合成処理部36に供給し、合成処理部36は、撮像出演者の不足パーツを補うように、パーツ作成部37により生成されたパーツを合成先動画像に合成した合成動画像を生成する。
 ステップS18の処理後、または、ステップS17において合成処理部36が撮像出演者に不足パーツがないと判定した場合、処理はステップS19に進み、合成処理部36は、合成動画像をディスプレイ23に出力して表示させる。また、合成処理部36は、合成動画像を通信部22に供給し、ネットワーク12を介して配信サーバ14に送信させる。
 ステップS20において、案内部38は、合成処理部36において生成された合成動画像を解析し、案内を出力する必要があるか否かを判定する。
 ステップS20において、案内部38が案内を出力する必要があると判定した場合、処理はステップS21に進み、案内部38は、案内画像をディスプレイ23に表示させ、または、案内音声をスピーカ24から出力させる。
 ステップS21の処理後、または、ステップS20において案内部38が案内を出力する必要がないと判定した場合、処理はステップS11に戻り、以下、同様の処理が繰り返される。
 以上のように、画像処理部25は、撮像出演者と合成先出演者との位置、大きさ、画質などが適切となるように考慮して、撮像出演者の切り抜き動画像を合成先動画像に合成する際の条件を調整することで、異なる地点で撮像された出演者どうしをバランスよく合成した画像を容易に生成することができる。
 なお、例えば、配信システム11では、上述した全ての処理を出演者側情報処理装置13-1において行う必要はなく、例えば、出演者側情報処理装置13-2が、合成先動画像を撮像する際に画像解析を行って、合成位置を設定した合成先動画像を送信してもよい。同様に、出演者側情報処理装置13-2において、測距技術を用いて合成先動画像に写されている物体を検出し、レイヤ設定を行ってもよい。また、出演者側情報処理装置13-1は、撮像出演者の切り抜き動画像を配信サーバ14に送信し、配信サーバ14において合成先動画像との合成処理を行ってもよい。
 さらに、例えば、配信サーバ14において、画像処理部25による画像処理を施してもよい。即ち、出演者側情報処理装置13-1および13-2は、それぞれ出演者を撮像した動画像を配信サーバ14に送信する。そして、配信サーバ14は、出演者側情報処理装置13-1の動画像から出演者を切り抜き、出演者側情報処理装置13-2の動画像を合成先動画像として合成処理を行う。このとき、配信サーバ14において、上述したようなレイヤ設定処理、サイズ調整処理、画質調整処理、およびパーツ作成処理を行うことができる。
 また、例えば、パーツ作成部37により撮像出演者の不足パーツを補うようなパーツを生成する他、撮像出演者の不足パーツとなる領域をトリミングして、合成先動画像の一部を拡大して撮像出演者を合成するようにしてもよい。
 なお、本実施の形態において、異なる地点で撮像された出演者の撮像動画像としては、物理的に遠距離にある箇所で出演者の撮像が行われた撮像動画像の他、ある程度の近距離(例えば、同じ室内)で、それぞれの出演者を異なる撮像装置で撮像した撮像動画像も含まれる。また、同一の撮像装置を用いた場合であっても、撮像時間または撮像場所が異なって撮像が行われた撮像動画像も含まれる。例えば、同じ室内で同一の撮像装置を用いて、合成先動画像を先に撮像して記録(録画)しておき、リアルタイム配信時に、出演者を写した撮像動画像を、再生した合成先動画像に合成して配信することができる。このように、撮像動画像と合成先動画像とが異なるものであれば、異なる地点で撮像されたものに限定されることはない。
 また、例えば、画像のサイズまたは画質を調整する際に、撮像出演者の切り抜き動画像のサイズまたは画質を合成先動画像に合わせるように調整する他、撮像出演者の切り抜き動画像と合成先動画像とに対し相対的な調整を行ってもよい。
 なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
 また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
 図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
 バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
 以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
 そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる画像解析における解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する調整部と
 を備える情報処理装置。
(2)
 前記画像解析処理部は、前記第2の動画像に写されている第2の被写体の位置を前記解析結果とする画像解析を行い、
 前記調整部は、前記第2の動画像における前記第2の被写体の位置に基づいて、前記第1の被写体が前記第2の被写体に重なることを回避して、前記第1の動画像を前記第2の動画像に合成する合成位置を前記合成条件として調整する
 上記(1)に記載の情報処理装置。
(3)
 前記画像解析処理部は、前記第2の動画像に写されている第2の被写体の大きさを前記解析結果とする画像解析を行い、
 前記調整部は、前記第2の動画像における前記第2の被写体の大きさに基づいて、前記第2の動画像に対する前記第1の動画像の大きさを前記合成条件として調整する
 上記(1)または(2)に記載の情報処理装置。
(4)
 前記画像解析処理部は、前記第1の被写体として前記第1の動画像に写されている第1の人物の顔の大きさ、および、前記第2の被写体として前記第2の動画像に写されている第2の人物の顔の大きさを前記解析結果とする画像解析を行い、
 前記調整部は、前記第1の人物の顔の大きさが前記第2の人物の顔の大きさと略同一となるように前記合成条件を調整する
 上記(3)に記載の情報処理装置。
(5)
 前記画像解析処理部は、前記第1の被写体として前記第1の動画像に写されている第1の人物の顔の大きさ、および、前記第2の被写体として前記第2の動画像に写されている所定の物体の大きさを前記解析結果とする画像解析を行い、
 前記調整部は、前記第1の人物の顔の大きさと前記物体の大きさとの比較結果に基づいて前記合成条件を調整する
 上記(3)に記載の情報処理装置。
(6)
 前記画像解析処理部は、前記第1の被写体の画質、および、前記第2の動画像に写されている第2の被写体の画質を前記解析結果とする画像解析を行い、
 前記調整部は、前記第1の被写体の画質と前記第2の被写体の画質とを前記合成条件として調整する
 上記(1)から(5)までのいずれかに記載の情報処理装置。
(7)
 前記画像解析処理部は、前記第1の被写体における色の性質、および、前記第2の動画像に写されている第2の被写体における色の性質を前記解析結果とする画像解析を行い、
 前記調整部は、前記第1の被写体における色の性質と前記第2の被写体における色の性質とを前記合成条件として調整する
 上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
 前記色の性質は、明度であり、
 前記調整部は、前記第1の被写体の明度と前記第2の被写体の明度とを前記合成条件として調整する
 上記(7)に記載の情報処理装置。
(9)
 前記色の性質は、彩度であり、
 前記調整部は、前記第1の被写体の彩度と前記第2の被写体の彩度とを前記合成条件として調整する
 上記(7)または(8)に記載の情報処理装置。
(10)
 前記色の性質は、色相であり、
 前記調整部は、前記第1の被写体の色相と前記第2の被写体の色相とを前記合成条件として調整する
 上記(7)から(9)までのいずれかに記載の情報処理装置。
(11)
 前記第1の被写体が撮像された撮像動画像が供給されるのに応じて逐次的に、前記画像解析処理部による画像解析および前記調整部による合成条件の調整が行われ、前記第1の動画像と前記第2の動画像とが合成された合成動画像が生成される
 上記(1)から(10)までのいずれかに記載の情報処理装置。
(12)
 前記第1の被写体が撮像された撮像動画像から、前記第1の被写体が写された領域を切り抜く画像処理を行い、前記第1の動画像を生成する切り抜き処理部
 をさらに備える上記(1)から(11)までのいずれかに記載の情報処理装置。
(13)
 前記第1の動画像を前記第2の動画像に合成したときに、前記第1の被写体の身体の一部分が不足している場合、その一部分を補完する補完画像を作成する処理を行う補完画像作成処理部と、
 前記補完画像作成処理部により作成された前記補完画像を、前記第2の動画像における前記第1の被写体の身体の不足している部分を隠すように合成する合成処理を行う合成処理部と
 をさらに備える上記(1)から(12)までのいずれかに記載の情報処理装置。
(14)
 前記第2の動画像に写されている物体を検出し、その検出した物体の、前記第1の被写体に対する前方または後方の位置関係を示すレイヤを設定する処理を行うレイヤ設定処理部と、
 前記レイヤ設定処理部により前記第1の被写体に対して前方にレイヤが設定された前記物体が前記第1の被写体と重なる場合、前記第1の動画像を前記第2の動画像に合成した後に、前記第2の動画像から前記物体を切り抜いた動画像を合成する合成処理を行う合成処理部と
 をさらに備える上記(1)から(13)までのいずれかに記載の情報処理装置。
(15)
 前記第1の動画像と前記第2の動画像とが合成された合成動画像に対する画像解析を行った結果に基づいて、前記第1の被写体として前記第1の動画像に写されている人物に対する指示を提示する処理を行う指示処理部
 をさらに備える上記(1)から(14)までのいずれかに記載の情報処理装置。
(16)
 第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する
 ステップを含む情報処理方法。
(17)
 第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する
 ステップを含む情報処理をコンピュータに実行させるプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 11 配信システム, 12 ネットワーク, 13-1および13-2 出演者側情報処理装置, 14 配信サーバ, 15-1乃至15-N 視聴者側情報処理装置, 21 撮像部, 22 通信部, 23 ディスプレイ, 24 スピーカ, 25 画像処理部, 31 切り抜き部, 32 合成位置調整部, 33 レイヤ設定部, 34 サイズ調整部, 35 画質調整部, 36 合成処理部, 37 パーツ作成部, 38 案内部

Claims (17)

  1.  第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する調整部と
     を備える情報処理装置。
  2.  前記画像解析処理部は、前記第2の動画像に写されている第2の被写体の位置を前記解析結果とする画像解析を行い、
     前記調整部は、前記第2の動画像における前記第2の被写体の位置に基づいて、前記第1の被写体が前記第2の被写体に重なることを回避して、前記第1の動画像を前記第2の動画像に合成する合成位置を前記合成条件として調整する
     請求項1に記載の情報処理装置。
  3.  前記画像解析処理部は、前記第2の動画像に写されている第2の被写体の大きさを前記解析結果とする画像解析を行い、
     前記調整部は、前記第2の動画像における前記第2の被写体の大きさに基づいて、前記第2の動画像に対する前記第1の動画像の大きさを前記合成条件として調整する
     請求項1に記載の情報処理装置。
  4.  前記画像解析処理部は、前記第1の被写体として前記第1の動画像に写されている第1の人物の顔の大きさ、および、前記第2の被写体として前記第2の動画像に写されている第2の人物の顔の大きさを前記解析結果とする画像解析を行い、
     前記調整部は、前記第1の人物の顔の大きさが前記第2の人物の顔の大きさと略同一となるように前記合成条件を調整する
     請求項3に記載の情報処理装置。
  5.  前記画像解析処理部は、前記第1の被写体として前記第1の動画像に写されている第1の人物の顔の大きさ、および、前記第2の被写体として前記第2の動画像に写されている所定の物体の大きさを前記解析結果とする画像解析を行い、
     前記調整部は、前記第1の人物の顔の大きさと前記物体の大きさとの比較結果に基づいて前記合成条件を調整する
     請求項3に記載の情報処理装置。
  6.  前記画像解析処理部は、前記第1の被写体の画質、および、前記第2の動画像に写されている第2の被写体の画質を前記解析結果とする画像解析を行い、
     前記調整部は、前記第1の被写体の画質と前記第2の被写体の画質とを前記合成条件として調整する
     請求項1に記載の情報処理装置。
  7.  前記画像解析処理部は、前記第1の被写体における色の性質、および、前記第2の動画像に写されている第2の被写体における色の性質を前記解析結果とする画像解析を行い、
     前記調整部は、前記第1の被写体における色の性質と前記第2の被写体における色の性質とを前記合成条件として調整する
     請求項1に記載の情報処理装置。
  8.  前記色の性質は、明度であり、
     前記調整部は、前記第1の被写体の明度と前記第2の被写体の明度とを前記合成条件として調整する
     請求項7に記載の情報処理装置。
  9.  前記色の性質は、彩度であり、
     前記調整部は、前記第1の被写体の彩度と前記第2の被写体の彩度とを前記合成条件として調整する
     請求項7に記載の情報処理装置。
  10.  前記色の性質は、色相であり、
     前記調整部は、前記第1の被写体の色相と前記第2の被写体の色相とを前記合成条件として調整する
     請求項7に記載の情報処理装置。
  11.  前記第1の被写体が撮像された撮像動画像が供給されるのに応じて逐次的に、前記画像解析処理部による画像解析および前記調整部による合成条件の調整が行われ、前記第1の動画像と前記第2の動画像とが合成された合成動画像が生成される
     請求項1に記載の情報処理装置。
  12.  前記第1の被写体が撮像された撮像動画像から、前記第1の被写体が写された領域を切り抜く画像処理を行い、前記第1の動画像を生成する切り抜き処理部
     をさらに備える請求項1に記載の情報処理装置。
  13.  前記第1の動画像を前記第2の動画像に合成したときに、前記第1の被写体の身体の一部分が不足している場合、その一部分を補完する補完画像を作成する処理を行う補完画像作成処理部と、
     前記補完画像作成処理部により作成された前記補完画像を、前記第2の動画像における前記第1の被写体の身体の不足している部分を隠すように合成する合成処理を行う合成処理部と
     をさらに備える請求項1に記載の情報処理装置。
  14.  前記第2の動画像に写されている物体を検出し、その検出した物体の、前記第1の被写体に対する前方または後方の位置関係を示すレイヤを設定する処理を行うレイヤ設定処理部と、
     前記レイヤ設定処理部により前記第1の被写体に対して前方にレイヤが設定された前記物体が前記第1の被写体と重なる場合、前記第1の動画像を前記第2の動画像に合成した後に、前記第2の動画像から前記物体を切り抜いた動画像を合成する合成処理を行う合成処理部と
     をさらに備える請求項1に記載の情報処理装置。
  15.  前記第1の動画像と前記第2の動画像とが合成された合成動画像に対する画像解析を行った結果に基づいて、前記第1の被写体として前記第1の動画像に写されている人物に対する指示を提示する処理を行う指示処理部
     をさらに備える請求項1に記載の情報処理装置。
  16.  第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する
     ステップを含む情報処理方法。
  17.  第1の動画像に含まれる、第1の被写体が写された領域の画像解析、および、前記第1の動画像とは異なる第2の動画像に対する画像解析のうち、少なくとも一方の画像解析により得られる解析結果に基づいて、前記第1の動画像と前記第2の動画像とを合成する合成条件を調整する
     ステップを含む情報処理をコンピュータに実行させるプログラム。
PCT/JP2016/058066 2015-03-26 2016-03-15 情報処理装置および情報処理方法、並びにプログラム WO2016152634A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017508250A JP6610659B2 (ja) 2015-03-26 2016-03-15 情報処理装置および情報処理方法、並びにプログラム
EP16768537.9A EP3276943A4 (en) 2015-03-26 2016-03-15 Information processing apparatus, information processing method, and program
US15/559,162 US10264194B2 (en) 2015-03-26 2016-03-15 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015064805 2015-03-26
JP2015-064805 2015-03-26

Publications (1)

Publication Number Publication Date
WO2016152634A1 true WO2016152634A1 (ja) 2016-09-29

Family

ID=56978263

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/058066 WO2016152634A1 (ja) 2015-03-26 2016-03-15 情報処理装置および情報処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US10264194B2 (ja)
EP (1) EP3276943A4 (ja)
JP (1) JP6610659B2 (ja)
WO (1) WO2016152634A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021175174A (ja) * 2020-04-27 2021-11-01 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド ビデオ処理方法、装置および記憶媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6385543B1 (ja) * 2017-09-29 2018-09-05 株式会社ドワンゴ サーバ装置、配信システム、配信方法及びプログラム
US10609332B1 (en) * 2018-12-21 2020-03-31 Microsoft Technology Licensing, Llc Video conferencing supporting a composite video stream
TWI746148B (zh) * 2020-09-04 2021-11-11 宏碁股份有限公司 智能音箱、智能音箱運作系統與點陣圖案的動態調整方法
CN114205512B (zh) * 2020-09-17 2023-03-31 华为技术有限公司 拍摄方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172826A (ja) * 1998-12-02 2000-06-23 Minolta Co Ltd 画像合成装置
JP2005094741A (ja) * 2003-08-14 2005-04-07 Fuji Photo Film Co Ltd 撮像装置及び画像合成方法
JP2010130040A (ja) * 2008-11-25 2010-06-10 Seiko Epson Corp 画像処理装置並びに、この装置の制御用プログラムおよびこの制御用プログラムを記録したコンピュータ読取り可能な記録媒体
JP2011172103A (ja) * 2010-02-19 2011-09-01 Olympus Imaging Corp 画像生成装置
JP2013197980A (ja) * 2012-03-21 2013-09-30 Casio Comput Co Ltd 画像処理装置、画像処理方法、及び、プログラム
WO2014013689A1 (ja) * 2012-07-20 2014-01-23 パナソニック株式会社 コメント付き動画像生成装置およびコメント付き動画像生成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004328788A (ja) 2004-06-21 2004-11-18 Daiichikosho Co Ltd 記録済みの背景映像に別途撮影された人物映像を合成して表示出力する方法およびその方法を採用したカラオケ装置
TW201005583A (en) * 2008-07-01 2010-02-01 Yoostar Entertainment Group Inc Interactive systems and methods for video compositing
US20120002061A1 (en) * 2010-07-01 2012-01-05 Gay Michael F Systems and methods to overlay remote and local video feeds
CN102737383B (zh) * 2011-03-31 2014-12-17 富士通株式会社 视频中的摄像机运动分析方法及装置
US8970704B2 (en) * 2011-06-07 2015-03-03 Verizon Patent And Licensing Inc. Network synchronized camera settings
US8866943B2 (en) * 2012-03-09 2014-10-21 Apple Inc. Video camera providing a composite video sequence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172826A (ja) * 1998-12-02 2000-06-23 Minolta Co Ltd 画像合成装置
JP2005094741A (ja) * 2003-08-14 2005-04-07 Fuji Photo Film Co Ltd 撮像装置及び画像合成方法
JP2010130040A (ja) * 2008-11-25 2010-06-10 Seiko Epson Corp 画像処理装置並びに、この装置の制御用プログラムおよびこの制御用プログラムを記録したコンピュータ読取り可能な記録媒体
JP2011172103A (ja) * 2010-02-19 2011-09-01 Olympus Imaging Corp 画像生成装置
JP2013197980A (ja) * 2012-03-21 2013-09-30 Casio Comput Co Ltd 画像処理装置、画像処理方法、及び、プログラム
WO2014013689A1 (ja) * 2012-07-20 2014-01-23 パナソニック株式会社 コメント付き動画像生成装置およびコメント付き動画像生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3276943A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021175174A (ja) * 2020-04-27 2021-11-01 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド ビデオ処理方法、装置および記憶媒体
JP6990282B2 (ja) 2020-04-27 2022-01-12 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド ビデオ処理方法、装置および記憶媒体
US11368632B2 (en) 2020-04-27 2022-06-21 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and apparatus for processing video, and storage medium

Also Published As

Publication number Publication date
US20180070025A1 (en) 2018-03-08
JPWO2016152634A1 (ja) 2018-01-18
EP3276943A4 (en) 2018-11-21
JP6610659B2 (ja) 2019-11-27
US10264194B2 (en) 2019-04-16
EP3276943A1 (en) 2018-01-31

Similar Documents

Publication Publication Date Title
JP6610659B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
US10805575B2 (en) Controlling focus of audio signals on speaker during videoconference
US9679369B2 (en) Depth key compositing for video and holographic projection
US10686985B2 (en) Moving picture reproducing device, moving picture reproducing method, moving picture reproducing program, moving picture reproducing system, and moving picture transmission device
US20220279306A1 (en) Associated Spatial Audio Playback
US20170061686A1 (en) Stage view presentation method and system
EP2352290B1 (en) Method and apparatus for matching audio and video signals during a videoconference
US10998870B2 (en) Information processing apparatus, information processing method, and program
JP2007110582A (ja) 画像表示装置および方法、並びにプログラム
KR101392406B1 (ko) 영상합성기의 크로마키 피사체영상과 배경영상 합성장치 및 방법
JP7074056B2 (ja) 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
WO2020144937A1 (ja) サウンドバー、オーディオ信号処理方法及びプログラム
EP3379379A1 (en) Virtual reality system and method
WO2020031742A1 (ja) 画像処理装置および画像処理方法、並びにプログラム
JP4644555B2 (ja) 映像音声合成装置及び遠隔体験共有型映像視聴システム
KR101099369B1 (ko) 다자간 화상 회의 시스템 및 방법
KR101819984B1 (ko) 실시간 영상 합성 방법
US20220400244A1 (en) Multi-camera automatic framing
KR101834925B1 (ko) 객체 위치 변화를 벡터로 변환하여 영상 및 음향 신호를 동기화한 가상스튜디오 방송 편집 및 송출 기기와 이를 이용한 방법
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
KR20170059310A (ko) 텔레 프레젠스 영상 송신 장치, 텔레 프레젠스 영상 수신 장치 및 텔레 프레젠스 영상 제공 시스템
WO2017211447A1 (en) Method for reproducing sound signals at a first location for a first participant within a conference with at least two further participants at at least one further location
KR102374665B1 (ko) 개인방송을 위한 방송영상 생성방법 및 이를 위한 방송영상 생성시스템
JP2019003325A (ja) 画像処理装置、画像処理方法及びプログラム
JP2019012179A (ja) Hdr画像表示システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16768537

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017508250

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15559162

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2016768537

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE