WO2020145138A1 - 映像編集装置、その方法、およびプログラム - Google Patents

映像編集装置、その方法、およびプログラム Download PDF

Info

Publication number
WO2020145138A1
WO2020145138A1 PCT/JP2019/050734 JP2019050734W WO2020145138A1 WO 2020145138 A1 WO2020145138 A1 WO 2020145138A1 JP 2019050734 W JP2019050734 W JP 2019050734W WO 2020145138 A1 WO2020145138 A1 WO 2020145138A1
Authority
WO
WIPO (PCT)
Prior art keywords
size
subject
image
polynomial
video editing
Prior art date
Application number
PCT/JP2019/050734
Other languages
English (en)
French (fr)
Inventor
利明 武田
弾 三上
草地 良規
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/421,364 priority Critical patent/US11508412B2/en
Publication of WO2020145138A1 publication Critical patent/WO2020145138A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay

Definitions

  • the present invention relates to a video editing device, a method, and a program for editing a video shot by a plurality of shooting devices.
  • Non-Patent Document 1 Conventionally, by arranging a multi-view camera so as to surround a subject, and switching the captured images along the line of the camera, an image as if the camera wraps around a moving subject (hereinafter referred to as a wraparound image)
  • a wraparound image There is a known video editing method (see, for example, Non-Patent Document 1).
  • FIG. 1 is a diagram showing an example of arrangement of multi-view cameras.
  • N cameras 20-n whose time is synchronized are arranged so as to surround the subject 201.
  • Fig. 2 shows the multi-view camera input, and shows the screen showing the image I(n,c) of the video taken by the multi-view camera of Fig. 1 at the synchronized time c.
  • FIG. 3 is a diagram for explaining labels for images of each camera.
  • Camn is a label indicating the nth camera
  • Numc means an image at time c
  • the image at time c of camera n is I(n,c)
  • its label is CamnNumc.
  • FIG. 4 shows an example of an image in which the skeleton of the subject in the labeled image is estimated and the estimation result is superimposed.
  • Non-Patent Document 2 is known as a technique for estimating the skeleton of a person from an image.
  • a person number (1 in this example) indicating that the object is a wraparound candidate for the wraparound image and a frame 502 surrounding the candidate are displayed.
  • the skeletal information the face 503, the inferior neck 504, the middle abdomen 505, the right ankle 506, and the left ankle 507 are shown, and the positional information of each part can be obtained.
  • the wraparound image at a certain time is obtained by switching the images at a certain time of the images taken by N cameras arranged so as to surround the subject, along the arrangement of the cameras.
  • Kensuke Ikeya et al. “Video Expression Method Using Multi-view Robot Camera System”, NHK, Proceedings of 2012 Annual Conference of the Institute of Image Information and Television Engineers, Vol.2012,Page.21-1 ZheCao and Tomas Simon and Shih-En Wei and Yaser Sheikh, "Realtime Multi-Person 2D PoseEstimation using Part Affinity Fields", CVPR, 2017. Masahiro Tada, et al., "Analysis of Features of Similar Image Regions and Modeling of Visual Sensitivity", IEICE Transactions, D-II, Information/System, II-Pattern Processing, D-II 87(10), 1983- 1995, 2004-10-01
  • Non-Patent Document 2 for person recognition, or a subject is identified by using Non-Patent Document 3
  • the location information cannot be obtained, and misrecognition and information loss occur.
  • a rotated image is composed based on erroneous recognition or missing information, the position of the subject fluctuates vertically and horizontally, so continuity may not be felt and it may be difficult to see.
  • FIG. 5 shows an example of an image in which a frame and a number indicating the candidate are superimposed around the candidate of the subject at the time c of the image captured by the camera 20-n. It can be seen that the two candidate persons 1, 2 are shown.
  • image I(2,c) a person is recognized by being exchanged, and an erroneous recognition example of the skeleton recognition of the person is shown.
  • image I(4,c) a person is not recognized, and an unrecognized example is shown. As described above, in skeleton recognition of a person, erroneous recognition or information loss may occur.
  • the sizes of the subjects in the images of the images taken by the plurality of cameras at a certain time are not uniform, and the sizes of the subjects fluctuate. Therefore, the continuity may not be felt, and the rotated composite image may be difficult to see.
  • An object of the present invention is to provide a video editing apparatus, a method, and a program capable of editing a wraparound video generated using a plurality of videos shot by a multi-view camera so that the viewer can easily see the video.
  • N is any integer of 3 or more, was taken by N imaging devices arranged to surround the subject.
  • N imaging devices By switching the images along the arrangement of the photographing device, a wraparound image that is an image obtained when the photographing device wraps around the subject is obtained.
  • the video editing device with respect to the images obtained from the N shooting devices, a label assigning unit that assigns a label indicating the capturing device and a label indicating the time, and the position of the subject existing in the labeled image, A position/size extractor that extracts a combination with information about the size, and a polynomial about the position of the subject and a polynomial about the size of the subject are generated based on the information about the positions and the sizes of the N subjects, Correct or interpolate the position of N subjects by a polynomial approximation curve using a polynomial about the position, correct or interpolate the size of N subjects by the polynomial approximation curve using a polynomial about the size of the subject, Position size determination unit that enlarges or reduces the size of N subjects by the scaling parameter p, and the positions and sizes of N subjects that have been corrected or interpolated and enlarged or reduced from N labeled images.
  • An image cropping unit that cuts out a cropping range based on, an image size matching unit that converts the sizes of the cut N images to the same size, and a parameter that indicates the length of the wraparound image is Tp, which corresponds to the adjacent imaging device.
  • An image editing unit that generates an intermediate image from two images of the same size and generates a wraparound image is included.
  • the present invention it is possible to edit a wraparound image generated using a plurality of images shot by a multi-view camera so that the viewer can easily see the wraparound image.
  • FIG. 6A is a diagram showing an example of the relationship between the Cam number (horizontal axis) and the X value (vertical axis) for the candidate person 1, and FIG.
  • FIG. 6B is the Cam number (horizontal axis) and the X value (for the candidate person 2). The figure which shows the example of the relationship of (vertical axis).
  • FIG. 9A shows an image output from the image size matching unit for the candidate person 1, that is, a diagram in which the sizes of N clipped images are normalized and arranged
  • FIG. 9B shows an image size for the candidate person 2.
  • FIG. 3 is a functional block diagram of the video editing device according to the first embodiment.
  • FIG. The figure which shows the example of the process flow of the video editing apparatus which concerns on 1st embodiment.
  • an intermediate image is generated from two images of the same size corresponding to the adjacent image capturing devices, and a looping image having a length Tp is generated (a specific example is shown in the points of the third embodiment).
  • FIG. 6 is a diagram for explaining correction and interpolation of information using a polynomial approximation curve.
  • N is any integer of 3 or more in order to correct and interpolate information using a polynomial approximation curve.
  • FIGS. 6A and 6B show an example of the relationship between the Cam number (horizontal axis) and the X value (vertical axis) for candidate persons 1 and 2, respectively.
  • the Cam numbers correspond to the cameras. Therefore, the camera 20-n corresponding to Camn and the camera 20-n+1 corresponding to Camn+1 are adjacent to each other.
  • a polynomial (approximate expression) regarding the position (X value) of the person 1 is generated based on N pieces of information regarding the position of the person 1. If the information is missing, the polynomial may be generated using only the remaining information that is not missing, or (1) the remaining information that is not missing instead of the missing information. Average of information, (2) Of the information that is not missing, the information that corresponds to the camera that is physically closest to the camera that corresponds to the missing information (if there are multiple, the average For example, the polynomial may be generated by using (the average of the information when none of the information corresponding to the adjacent cameras is lost) or the like.
  • indicates data with a very small error (difference between observed value and true value)
  • indicates data with a large error
  • ⁇ in the broken line indicates corrected or interpolated data.
  • a value obtained as a result of skeleton recognition of a person is used as an observation value, and a value on a polynomial (approximate expression) is used as a true value. For example, if the error rate (error/true value) is smaller than the predetermined threshold value (or less than the threshold value), the data with extremely small error is set, and if the error rate is more than the predetermined threshold value (or greater than the threshold value), the error is Is judged to be large data.
  • the data having a large error is corrected by a polynomial approximation curve to mitigate the large error in the misrecognition example.
  • the data having a large error is corrected by replacing it with a value on the approximate expression. This shows that a large error in the misrecognition example can be alleviated.
  • FIG. 6B shows that the data of the unrecognized example can be interpolated.
  • the vertical axis is an example of X value, but Y value and size can be corrected or interpolated by the same method.
  • FIG. 7 shows an example of the magnification parameter p n for designating the cutout size of the image.
  • G (1+n)/2
  • p is a scaling parameter, which is a predetermined value. For example, it may be a value specified by the user or some initial value.
  • the magnification parameter pn is a scaling parameter.
  • scaling is controlled by creating a magnification parameter p n with a quadratic curve as shown in FIG. 7 using the above-mentioned parameters p, G, and G 2 .
  • pn is formed by a quadratic curve so that it becomes p at the maximum value or the minimum value.
  • the horizontal axis represents the camera number and the vertical axis represents the pn value.
  • FIG. 8 is a diagram for explaining the content of the image cutting process.
  • the corrected or interpolated center X coordinate value Xs(n) and the corrected or interpolated center Y coordinate value Ys(n) are used as the center of the subject.
  • the cut image I cut (n,c) is centered on the corrected or interpolated center X coordinate value Xs(n) and the corrected or interpolated center Y coordinate value Ys(n), and the upper right value (XsR(n), YsU(n)), upper left value (XsL(n), YsU(n)), lower right value (XsR(n), YsD(n)), lower left value (XsL(n), YsD(n)).
  • FIG. 9 is an image output from the image size matching unit described later, in which the sizes of N clipped images are normalized and arranged.
  • the size of the target subject becomes a good size, rattling at the time of rotation is suppressed, continuity is felt, and it becomes easy to see.
  • FIG. 9A is a clipped image of the candidate person 1 in FIG. 5, and FIG. 9B is a clipped image of the candidate person 2 in FIG.
  • the processing is done to make the size of the subject the same size and smooth as possible, and suppress vibration as much as possible.
  • the vibration of the size of the subject hereinafter, rattling vibration of the size. It may become difficult to see.
  • a scaling effect is added and the size of the subject is changed to make it difficult for the subject to perceive vibrations when making a rotation image of the subject (to prevent it from becoming difficult to see).
  • the processing for reducing the misrecognition correction processing
  • the processing for interpolating the missing information the size adjustment of the person, and the scaling processing are performed. Edit the rotated composite image so that it is easy to see by changing the scaling ratio of the cropped image.
  • Tp be a parameter that indicates the length (temporal length) of the wraparound image.
  • An intermediate image I(t) between the n+1-th image I(n+1,c') and the n-th image I(n,c') at the time t of the wraparound video is obtained by the following formula.
  • Tc Tp/(N-1)
  • B(n+1,t) 1/[1+Exp[Ng ⁇ Tc ⁇ (n-0.5)-t ⁇ /Tc]]
  • n 1, 2,..., N-1.
  • Ng 9.
  • the image I(n+1,c') and the image I(n,c') are standardized by cropping in a cropping range based on the position and size of the subject that has been corrected or interpolated and enlarged or reduced. (Converted to the same size).
  • a wrap-around image of Tp time is generated from N images I(n,c') at a time c'having N images.
  • t is an index that represents the time in the looping video.
  • Curves of blend ratios B(n+1,t) (broken line) and B(n,t) (solid line) with (n,c') are shown.
  • FIG. 12 shows a functional block diagram of the video editing apparatus according to the first embodiment, and FIG. 13 shows its processing flow.
  • the video editing device includes an IF unit 101, a label assigning unit 102, a position size extracting unit 103, an IF unit 104, a position size determining unit 105, an image clipping unit 106, an image size matching unit 107, an IF unit 108, and a video editing unit. 109 and IF section 110 are included.
  • the video editing device receives N videos (multi-view videos) as input, and outputs N videos in which a frame (see FIG. 4) surrounding the wraparound candidate for the wraparound video is superimposed.
  • N videos multi-view videos
  • a user who views N images with a frame superimposed specifies one of the candidates, the time of the N images that are the source of the wraparound image, and the parameter indicating the scaling parameter p and the length of the wraparound image.
  • Tp and input to the video editing device.
  • a display, a touch panel, or other output device displays N videos with a frame superimposed, and the user can select a candidate displayed in any of the N videos as an input device such as a mouse, touch panel, or keyboard. Specify using.
  • the specified timing is the time of N images that are the source of the looping video.
  • the user first specifies the time using the input device (the time of the N images that are the source of the wraparound image), and displays the N images with the frame corresponding to the time superimposed on the output device,
  • the displayed candidate may be designated by the user using the input device.
  • the user must be able to specify the time of the N images that are the source of the wraparound image, the candidate, and the scaling parameter p and the parameter Tp that indicates the length of the wraparound image. It suffices if the image can be displayed and the specified information can be acquired.
  • the video editing device receives the specified candidate, time, expansion/contraction parameter p, and parameter Tp as input, and generates a wraparound image of length Tp corresponding to the expansion/contraction parameter p of the specified candidate and time. ,Output.
  • the N videos are not limited to those directly input from a camera or other imaging device, but may be those stored in a storage medium, or may be stored in a storage unit in the video editing device. You may use what was done.
  • a video editing device is a special program configured by loading a special program into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a device.
  • the video editing device executes each process under the control of the central processing unit, for example.
  • the data input to the video editing device and the data obtained by each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out to the central processing unit as necessary and is Is used for processing.
  • At least a part of each processing unit of the video editing device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the video editing device can be configured by, for example, a main storage device such as a RAM (Random Access Memory) or middleware such as a relational database or a key-value store.
  • a main storage device such as a RAM (Random Access Memory) or middleware such as a relational database or a key-value store.
  • middleware such as a relational database or a key-value store.
  • each storage unit does not necessarily have to be provided inside the video editing device, but is configured by an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory (Flash Memory). May be provided outside the device.
  • the IF unit 101 inputs N videos (multi-view videos) and outputs synchronized N videos.
  • the label assigning unit 102 receives the synchronized N images as an input, and attaches a label indicating the photographing device and a label indicating the time to the images forming the synchronized N images (S102, FIG. 3). ), and outputs the labeled image I(n,c).
  • a label indicating the photographing device and a label indicating the time are added and N ⁇ Z images I(n,c) are output. It is assumed that the photographing devices that photographed N videos are arranged so as to surround the subject, and the arrangement of the photographing devices is known in advance.
  • the position/size extracting unit 103 receives an image I(n,c) with a label as an input, and an index m indicating a candidate of a subject existing in the labeled image and information on the position and size of the candidate of the subject.
  • a combination (I(n,c),m,info(m)) with info(m) is extracted (S103), and an image I'(n, c) is output to the IF unit 104, and the combination (n, c, m, info(m)) of the index indicating the candidate of the subject and the information regarding the position and the size of the candidate of the subject is determined by the position size determining unit 105.
  • any image recognition (person recognition) technique may be used as a technique for detecting a predetermined target (for example, a human) from an image and superimposing a frame on the detected target.
  • a predetermined target for example, a human
  • the frame When the frame is displayed, it indicates that the subject candidate is recognizable, and when the frame is not displayed, the subject candidate is not recognized.
  • Any acquisition method may be used as the method for acquiring the information regarding the position and size of the subject candidate.
  • the skeleton of the subject candidate existing in the image may be estimated by the method of Non-Patent Document 2, and the estimation result (skeleton estimation result) may be used as information regarding the position and size of the candidate.
  • Non-Patent Document 3 may be used to identify the subjects existing in N images.
  • the IF unit 104 receives an image I′(n,c) (see FIG. 4) obtained by superimposing a frame surrounding a subject candidate on the labeled image, and outputs the image I′(n,c) to an external output device.
  • the user can specify the time of the N images that are the source of the wraparound image, the candidate, and the scaling parameter p and the parameter Tp indicating the length of the wraparound image so that the user can specify any image. Or an image is displayed to the user via the output device.
  • the IF unit 108 receives the candidate designated by the user, the time, the scaling parameter p, and the parameter Tp as input, and sends the designated candidate, the time, and the scaling parameter p to the position/size determining unit 105. Output.
  • the IF unit 108 also outputs the designated time to the image clipping unit 106 and the parameter Tp to the video editing unit 109. If the candidate is not designated and the scaling parameter p and the parameter Tp are not input, the previously used value or initial value may be used as the designated candidate, the scaling parameter p, and the parameter Tp.
  • the position/size determining unit 105 receives a combination of an index indicating a subject candidate and information regarding the position and size of the subject candidate, the designated candidate, time, and the scaling parameter p.
  • the position/size determining unit 105 determines a candidate specified from a combination (n, c, m, info(m)) of an index indicating a subject candidate and information on the position and size of the subject candidate. And a combination (n,c',m',info(m')) corresponding to the time and the time is extracted. c'indicates the index of the specified time, and m'indicates the index of the specified candidate.
  • N ⁇ Z ⁇ M combinations (n, c ,m,info(m)), the positions and sizes of the N subjects specified by the specified candidate of the subject (hereinafter, the specified candidate of the subject is also simply referred to as the subject) and the time. Extract information (n,c',m',info(m')) about.
  • the position/size determining unit 105 corrects or interpolates and expands or reduces the positions of the N subjects based on the information (n, c', m', info(m')) about the positions and sizes of the N subjects. And the size ⁇ Xs(n),Ys(n),size(n) ⁇ are obtained (S105), and the clipping range based on the positions and sizes of the N objects that have been corrected or interpolated and enlarged or reduced ⁇ (XsR (n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n)) ⁇ are output. Specifically, it is calculated as follows.
  • the position size determination unit 105 generates a polynomial about the position of the subject and a polynomial about the size of the subject based on the information about the positions and sizes of the N subjects.
  • the position size determination unit 105 corrects or interpolates the positions of N subjects by a polynomial approximation curve using a polynomial relating to the positions of the subjects.
  • the position size determination unit 105 corrects or interpolates the size of N subjects by a polynomial approximation curve using a polynomial about the size of the subject, and enlarges or reduces the size of N subjects by the scaling parameter p.
  • the image cropping unit 106 designates the designated time c′, N ⁇ Z images I(n,c) with labels and N cropping ranges ⁇ (XsR(n),YsU(n)),( XsL(n), YsU(n)), (XsR(n), YsD(n)), (XsL(n), YsD(n)) ⁇ are input.
  • N images I(n,c′) corresponding to a designated time c′ are extracted from the labeled images I(n,c).
  • N clipping ranges ((XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD from N images I(n,c') respectively (n)),(XsL(n),YsD(n)) ⁇ is cut (S106), and the cut N images I cut (n,c') are output.
  • the image size matching unit 107 receives the cut N images I cut (n,c') as input, converts the sizes of the N images I cut (n,c') to the same size (S107), and the same. Output N cropped images I st (n,c') converted to size.
  • the video editing unit 109 inputs the parameter Tp and N clipped images I st (n,c′) converted to the same size, and inputs two images I st (n An intermediate image I(t) is generated from +1,c′) and I st (n,c′), and a wrap-around image having a length Tp is generated based on the intermediate image (t) (S109) and output.
  • Tc Tp/(N-1).
  • the IF unit 110 receives the wraparound image as an input and outputs the wraparound image to an external output device.
  • the position of the subject will fluctuate vertically and horizontally, and continuity will not be felt, making it difficult to see. It solves the problem of becoming.
  • the size of N subjects is corrected or interpolated by a polynomial approximation curve using a polynomial about the size of the subject, and the size of the N subjects is enlarged or reduced by the scaling parameter p. It solves the problem that the rotated composite image becomes difficult to see because the size changes and the continuity is not felt.
  • ⁇ Modification> there are one or more subject candidates in N videos, and one subject is specified from among them.However, one subject candidate in N videos. If there is only this, the candidate of the subject may be set as the subject, and the process and configuration for designating the subject may be omitted.
  • the skeleton estimation result is used as information regarding the position and size of the subject.
  • the position/size determination unit 105 determines the face 503, the middle abdomen 505, the right ankle 506, and the left ankle 507 from the skeleton estimation information of the subject in FIG. 4, which is information about the position and size of the subject. Coordinates (X face (n),Y face (n)),(X belly (n),Y belly (n)),(X Rankle (n),Y Rankle (n)),(X Lankle (n) ,Y Lankle (n)) is obtained. If the information is missing, NULL may be acquired.
  • the vertical size Ysize(n) is obtained by setting the coordinate values (X belly (n), Y belly (n)) of the abdomen 505 as the subject position, and this is acquired as the subject size (S901).
  • the position size determination unit 105 uses three or more positions of the subject to generate a polynomial for the position of the subject. Further, the positions of the N subjects are corrected or interpolated by the polynomial approximation curve using the polynomials regarding the positions of the subjects (S905).
  • the outlier is corrected by replacing it with the value obtained by the polynomial (see FIG. 6). Further, when the position of the n-th subject is missing, interpolation is performed by replacing the missing position with a value obtained by a polynomial (see FIG. 6B).
  • the position size determination unit 105 uses three or more subject sizes to generate a polynomial for the subject size. Further, the size of the N objects is corrected or interpolated by the polynomial approximation curve using the polynomial about the size of the object (S906).
  • the outlier size is corrected by replacing it with the value obtained by the polynomial.
  • interpolation is performed by replacing the missing size with a value obtained by a polynomial.
  • the corrected position and size of the subject is acquired. It should be noted that after the threshold value determination or loss determination described above, there is a case in which there is no outlier or loss and actual correction or interpolation is not performed, but these are also referred to as the corrected or interpolated position and size of the subject.
  • the position/size determining unit 105 executes the following S1004 (the process described in ⁇ Point 2 of the second embodiment>) to perform scaling. If the parameter p is not specified (No in S1002), the following S1005 is executed.
  • the cropping range is relative to Xs(n). ⁇ a ⁇ Ls(n) in the X-axis direction and ⁇ b ⁇ Ls(n) in the Y-axis direction with respect to Ys(n).
  • the cutting range is ((Xs(n)-a ⁇ Ls(n),Ys(n)-b ⁇ Ls(n)),(Xs(n)+a ⁇ Ls(n),Ys(n)- b ⁇ Ls(n)),(Xs(n)-a ⁇ Ls(n),Ys(n)+b ⁇ Ls(n)),(Xs(n)+a ⁇ Ls(n),Ys(n )+b ⁇ Ls(n)) ⁇ .
  • the size of N subjects corrected or interpolated by the scaling parameter p is scaled up or down.
  • the cutting range is ⁇ a ⁇ Ls(n) ⁇ p n in the X-axis direction for Xs(n) and ⁇ b ⁇ Ls(n) ⁇ p in the Y-axis direction for Ys(n).
  • the cutting range is ((Xs(n)-a ⁇ Ls(n) ⁇ p n , Ys(n)-b ⁇ Ls(n) ⁇ p n ), (Xs(n)+a ⁇ Ls(n) ⁇ p n ,Ys(n)-b ⁇ Ls(n) ⁇ p n ), (Xs(n)-a ⁇ Ls(n) ⁇ p n ,Ys(n)+b ⁇ Ls(n) ⁇ p n ),(Xs(n)+a ⁇ Ls(n) ⁇ pn , Ys(n)+b ⁇ Ls(n) ⁇ pn ) ⁇ .
  • the larger the pn the larger the cropping range and the smaller the proportion of subjects in the cropped image, and the smaller the pn , the smaller the cropping range and the proportion of subjects in the cropped image. Appears to grow and expand.
  • the cutting range is set to ((Xs(n)-a ⁇ Ls(n),Ys(n)-b ⁇ Ls(n)),(Xs (n)+a ⁇ Ls(n), Ys(n)-b ⁇ Ls(n)), (Xs(n)-a ⁇ Ls(n),Ys(n)+b ⁇ Ls(n)), (Xs(n)+a ⁇ Ls(n), Ys(n)+b ⁇ Ls(n)) ⁇ has been shown as an example, but as described in the first embodiment, as the scaling parameter p, You may use the used value and the initial value.
  • the coordinate value of the abdomen is used as the position of the subject and the vertical size is used as the size of the subject, but other values may be used as the position and size of the subject.
  • the center of gravity or the center of a plurality of coordinate values may be the position of the subject, or the lateral size or area may be the size of the subject.
  • the video editing unit 109 receives the parameter Tp and N clipped images converted to the same size as input, and generates an intermediate image from two images of the same size corresponding to the adjacent photographing devices. For example, from the n+1th image I(n+1,c′) and the nth image I(n,c′) (see FIG. 10), the n+1th image I(n+1,c′) An intermediate image I(t) between the') and the nth image I(n,c') is generated by the following equation.
  • B(n+1,t) 1/[1+Exp[Ng ⁇ Tc ⁇ (n-0.5)-t ⁇ /Tc]]
  • the blend ratios B(n+1,t) and B(n,t) change according to t as shown in FIG.
  • Tc Tp/(N-1)
  • t Tc ⁇ (n-1)+1, ..., Tc ⁇ n Is.
  • Ng 9.
  • a wraparound video of length Tp is generated.
  • the program describing this processing content can be recorded in a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, or the like.
  • Distribution of this program is carried out by selling, transferring, or lending a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, this program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, the program recorded in a portable recording medium or the program transferred from the server computer in its own storage unit. Then, when executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. Further, as another embodiment of this program, a computer may directly read the program from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to this computer, the processing according to the received program may be executed successively.
  • ASP Application Service Provider
  • the program includes information used for processing by an electronic computer and equivalent to the program (data that is not a direct command to a computer but has the property of defining the processing of the computer).
  • each device is configured by executing a predetermined program on a computer, at least a part of the processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Studio Circuits (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができる映像編集装置等を提供する。N個の被写体の位置と大きさに関する情報に基づき、被写体の位置に関する多項式と被写体の大きさに関する多項式とを生成し、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行い、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させる。回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する。

Description

映像編集装置、その方法、およびプログラム
 本発明は、複数の撮影装置によって撮影した映像の編集を行う映像編集装置、その方法、およびプログラムに関する。
 従来から、被写体を取り囲むように多視点カメラを配置し、撮影した映像をカメラの並びに沿って切り替えることで、動きのある被写体をあたかもカメラが回り込んだような映像(以下、回り込み映像という)を得る映像編集方法が知られている(例えば、非特許文献1参照)。
 図1は、多視点カメラの配置例を示す図である。この例では、被写体201を取り囲むように、時刻を同期したN台のカメラ20-nを配置している。なお、nは撮影装置(この例ではカメラ)を示すインデックスであり、n=1,2,…,Nである。なお、N台のカメラ20-nで撮影した映像は時刻同期できるものとする。
 図2は多視点カメラ入力であり、図1の多視点カメラで撮影した映像の、同期した時刻cにおける画像I(n,c)を映した画面を示している。
 図3は、各カメラの画像に対するラベルを説明するための図である。Camnはn番目のカメラを示すラベルであり、Numcは時刻cの画像を意味し、カメラnの時刻cの画像をI(n,c)とし、そのラベルをCamn Numcとする。
 図4は、ラベルを付与した画像における被写体の骨格を推定し、推定結果を重畳した画像の例を示す。例えば、画像から人物の骨格を推定する技術として非特許文献2が知られている。この例では、被写体に対して、回り込み映像の回り込む候補であることを示す人物番号(この例では1)と候補を囲む枠502が表示されている。ここで、骨格情報として、顔503、首下504、中腹部505、右足首506、左足首507を示す●が示されていて、各部位の位置情報を得ることができる。
 また、類似する画像領域の分析に関する研究も行われており(例えば、非特許文献3参照)、類似する画像領域に基づき、あるカメラ20-nで撮影した被写体が他のカメラ20-n’(n'=1,2,…,N、ただし、n'≠n)で撮影した画像のどの画像領域に対応するかを判定することができる。つまり、N個の画像に存在する被写体を同定することができる。
 従来技術では被写体を取り囲むよう配置されたN個のカメラによって撮影された映像のある時刻の画像をカメラの並びに沿って切り替えることで、ある時刻における回り込み映像を得る。
池谷健佑他、「多視点ロボットカメラシステムを用いた映像表現手法」、NHK、2012年映像情報メディア学会年次大会講演予稿集、Vol.2012, Page.21-1 Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", CVPR, 2017. 多田昌裕他、「類似する画像領域の特徴解析と視覚感性のモデル化」、電子情報通信学会論文誌、D-II、情報・システム、II-パターン処理、D-II 87(10)、1983-1995, 2004-10-01
 しかしながら、複数のカメラを設置し、非特許文献2により人物の骨格を推定して人物認識を行ったり、非特許文献3を利用して被写体を同定しても、様々な条件により被写体に関する完全な位置情報を得られる訳ではなく、誤認識や情報欠損が生じる。誤認識や欠損し情報に基づき、回転した映像を合成した場合、被写体の位置が上下左右に変動するため連続性が感じられなくなり、見づらくなってしまうことがある。以下、図5を参照してより詳しく説明する。図5は、カメラ20-nで撮影された映像の時刻cにおける、被写体の候補の周りに枠と候補を示す番号を重畳した画像の例を示す。二人の被写体の候補の人物1、2が映されていることが分かる。画像I(2,c)において、人物が入替わり認識されていて、人物の骨格認識の誤認識例が示されている。画像I(4,c)において、人物が認識されておらず、不認識例が示されている。このように、人物の骨格認識では、誤認識や情報欠損が起こる場合がある。
 また、複数のカメラを設置し、被写体の正しい位置情報を得られても、複数のカメラで撮影した映像の、ある時刻における画像の被写体の大きさが均一でなく、被写体の大きさが変動するため連続性が感じられなくなり、回転した合成映像が見づらくなってしまうことがある。
 本発明は、多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができる映像編集装置、その方法、およびプログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、映像編集装置は、Nを3以上の整数の何れかとし、被写体を取り囲むよう配置されたN個の撮影装置によって撮影された映像を撮影装置の並びに沿って切り替えることで、あたかも撮影装置が被写体を回り込んだときに得られる映像である回り込み映像を得る。映像編集装置は、N個の撮影装置から得られる画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与するラベル付与部と、ラベルを付与した画像に存在する被写体の位置と大きさに関する情報との組合せを抽出する位置大きさ抽出部と、N個の被写体の位置と大きさに関する情報に基づき、被写体の位置に関する多項式と被写体の大きさに関する多項式とを生成し、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行い、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させる位置大きさ決定部と、ラベルを付与したN個の画像から補正または補間および拡大または縮小されたN個の被写体の位置と大きさとに基づく切り取り範囲を切り取る画像切り取り部と、切り取ったN個の画像のサイズを同じサイズに変換する画像サイズ整合部と、回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する映像編集部とを含む。
 本発明によれば、多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができるという効果を奏する。
多視点カメラの配置例を示す図。 多視点カメラ入力の例を示す図。 各カメラの画像に対するラベルを説明するための図。 ラベルを付与した画像における被写体の骨格を推定し、推定結果を重畳した画像の例を示す図。 カメラで撮影された映像のある時刻における、被写体の候補の周りに枠と候補を示す番号を重畳した画像の例を示す図。 図6Aは候補の人物1についてのCam番号(横軸)とX値(縦軸)の関係の例を示す図、図6Bは候補の人物2についての、Cam番号(横軸)とX値(縦軸)の関係の例を示す図。 図7AはN=5における倍率パラメータpnの例を示す図、図7BはN=10における倍率パラメータpnの例を示す図。 画像切り取り処理の内容を説明するための図。 図9Aは候補の人物1についての画像サイズ整合部の出力の画像、すなわち、N個の切り取り画像の大きさを正規化して並べたものを示す図、図9Bは候補の人物2についての画像サイズ整合部の出力の画像、すなわち、N個の切り取り画像の大きさを正規化して並べたものを示す図。 隣接するカメラに対応する二つの画像の例を示す図。 ブレンド割合B(n+1,t)、B(n,t)とtとの関係を示す図。 第一実施形態に係る映像編集装置の機能ブロック図。 第一実施形態に係る映像編集装置の処理フローの例を示す図。 第一実施形態に係る位置大きさ決定部の処理フローの例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
 以下、各実施形態のポイントを説明する。
<第一実施形態のポイント>
 第一実施形態では、誤認識や情報欠損に対応するために、被写体の位置および大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の位置および大きさの補正または補間を行う(第二実施形態のポイント1で具体例を示す)。
 拡縮パラメータpによりN個の補正または補間された被写体の大きさを拡大または縮小させる(第二実施形態のポイント2で具体例を示す)。
 また、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、長さTpの回り込み映像を生成する(第三実施形態のポイントで具体例を示す)。
<第二実施形態のポイント1>
 図6は、多項式近似曲線による情報の補正と補間を説明するための図である。なお、第二実施形態では、多項式近似曲線による情報の補正と補間を行うため、Nは3以上の整数の何れかである。
 図6A、図6Bは、それぞれ候補の人物1、2についての、Cam番号(横軸)とX値(縦軸)の関係の例を示している。なお、Cam番号は、カメラの並びに対応するものとする。そのため、Camnに対応するカメラ20-nとCamn+1に対応するカメラ20-n+1とは隣接する。
 まず、人物1の位置に関するN個の情報に基づき、人物1の位置(X値)に関する多項式(近似式)を生成する。なお、情報が欠損している場合には、欠損していない残りの情報のみを用いて多項式を生成してもよいし、欠損している情報の代わりに、(1)欠損していない残りの情報の平均、(2)欠損していない情報のうち、欠損している情報に対応するカメラと物理的に最も近い位置に配置されたカメラに対応する情報(複数存在する場合には、その平均、例えば、隣接するカメラに対応する情報が何れも欠損していない場合には、それらの平均)等を用いて、多項式を生成してもよい。
 図中、●は誤差(観測値と真値との差分)が極めて小さいデータを表し、○は誤差が大きいデータを表し、破線の○は補正または補間されたデータを表す。観測値として人物の骨格認識の結果得られる値を利用し、真値として多項式(近似式)上の値を用いる。例えば、誤差率(誤差/真値)が所定の閾値より小さい場合(または閾値以下の場合)に誤差が極めて小さいデータとし、誤差率が所定の閾値以上の場合(または閾値より大きい場合)に誤差が大きいデータと判断する。
 第二実施形態では、誤差が大きいデータと判断した場合、誤差が大きいデータを多項式近似曲線によって補正し、誤認識例の大きな誤差を緩和する。例えば、誤差が大きいデータを近似式上の値に置換することで補正する。これにより、誤認識例の大きな誤差を緩和できることを示している。
 また、第二実施形態では、情報が欠損している場合、欠損している情報を近似式上の値に置換することで補間する。図6Bは、不認識例のデータを補間できることを示している。
 図6は、縦軸がX値の例であるが、Y値、大きさについても同様の方法により補正または補間することができる。
<第二実施形態のポイント2>
 図4の骨格推定結果を用いて人物の大きさを調整する処理を行い、大きすぎず小さすぎない大きさにすることで、回転した合成映像が見づらくなってしまうという課題を解決する。
 図7は、画像の切り取りサイズを指定するための、倍率のパラメータpnの1例である。ここで、
G=(1+n)/2
G2=N-G
pn=p-(p-1)×{(n-G)/G2 2}
である。pは拡縮パラメータであり、所定の値である。例えば、利用者によって指定される値であってもよいし、何らかの初期値であってもよい。
 倍率のパラメータpnは、拡大縮小の倍率パラメータである。第二実施形態では、上述のパラメータp,G,G2により図7のように倍率パラメータpnを2次曲線で作成することにより、拡縮を制御する。式から分かるように、pnは最大値、または、最小値においてpになるように2次曲線で作成する。
 図7A、図7Bは、それぞれN=5、N=10の例を示す。各図において、横軸はカメラ番号を、縦軸pn値を示している。p=1.15、p=1.1のpn値を示す。
 図8は、画像切り取り処理の内容を説明するための図である。
 ラベルCamn Numc(n=1,2,…,N)が付与されたN個の画像I(n,c)から、被写体を切り取り範囲で切り取り、NumcにおけるN個の切り取り画像Icut(n,c)を取得する。
 画像I(n,c)において、被写体の中心として、補正または補間された中心X座標値Xs(n)と補正または補間された中心Y座標値Ys(n)とを用いる。
 切り取り画像Icut(n,c)は、補正または補間された中心X座標値Xs(n)と補正または補間された中心Y座標値Ys(n)を中心とし、右上値(XsR(n),YsU(n))、左上値(XsL(n),YsU(n))、右下値(XsR(n),YsD(n))、左下値(XsL(n),YsD(n))により定まる。なお、補正または補間された大きさをLs(n)とすると、{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD)(n)}={(Xs(n)-a×Ls(n)×pn,Ys(n)-b×Ls(n)×pn),(Xs(n)+a×Ls(n)×pn,Ys(n)-b×Ls(n)×pn),(Xs(n)-a×Ls(n)×pn,Ys(n)+b×Ls(n)×pn),(Xs(n)+a×Ls(n)×pn,Ys(n)+b×Ls(n)×pn)}である。ここで、a,bはアスペクト比を特定するパラメータであり、例えばそれぞれ2, 1.5とすることでアスペクト比4:3の画像を得ることができる。
 図9は、後述する画像サイズ整合部の出力の画像であり、N個の切り取り画像の大きさを正規化して並べたものである。正規化することで、目的の被写体のサイズが調度良い大きさになり、回転時のガタガタが抑えられ、連続性を感じられ、見やすいものとなる。
 図9Aは図5の候補の人物1の切り取り画像であり、図9Bは図5の候補の人物2の切り取り画像である。
 図9Aと図9Bの切り取り画像Icut(2,c)では、誤認識での大きな誤差を補正している。
 図9Bの切り取り画像Icut(4,c)では、不認識でのデータを補間している。
 具体的には、
(1)各画像から骨格推定結果を求め、骨格推定結果から縦サイズを得る。
(2)多項式近似により各画像の被写体の縦サイズの補正または補間する。
(3)補正または補間した縦サイズに対して拡縮効果を入れる。
(4)拡縮効果を入れた画像の大きさを正規化する。
 なお、(3)の拡縮効果を入れることで以下の効果を得ることができる。
 前述のとおり、被写体の大きさを調度良い同じ大きさや滑らかにする処理を入れ、極力に振動を抑え込む。しかし一方で、被写体を同じ大きさに表示させる処理を行うがために、被写体を回転映像にしてみると、被写体の大きさの振動(以下、大きさのガタガタ振動)をかえって目で知覚させやすくなってしまう(見づらくなる)場合がある。そのような場合もあるため、拡縮効果を入れ、被写体の大きさを変えていくことで、被写体を回転映像にした時、ガタガタ振動を目で知覚しにくくする(見づらくならないようにする)。
 このように、骨格推定結果の誤差や情報欠損について、近似式をあてはめることにより、誤認識を小さくする処理(補正する処理)と欠損した情報の補間する処理と人物の大きさ調整と拡縮処理を行い、切り取り画像の拡縮率を変え、回転した合成映像を見やすく編集する。
<第三実施形態のポイント>
 あるカメラから得られる切り取り画像と、そのカメラに隣接するカメラから得られる切り取り画像とから中間画像を生成し、中間画像から映像を生成することで、視聴者の違和感をより低減する。
 Tpを回り込み映像の長さ(時間的な長さ)を示すパラメータとする。回り込み映像の時刻tにおけるn+1番目の画像I(n+1,c')とn番目の画像I(n,c')との間の中間画像I(t)は、次式により求める。
Tc=Tp/(N-1)
t=Tc×(n-1)+1,…,Tc×nのとき、
B(n+1,t)=1/[1+Exp[Ng×{Tc×(n-0.5)-t}/Tc]]
B(n,t)=1-B(n+1,t)
I(t)=I(n+1,c')×B(n+1,t)+I(n,c')×B(n,t)
である。ただし、n=1,2,…,N-1である。一例として、Ng=9である。
 なお、画像I(n+1,c')、画像I(n,c')は、補正または補間および拡大または縮小された被写体の位置と大きさとに基づく切り取り範囲で切り取ったものを、規格化(同じサイズに変換)したものである。時刻を表すインデックスc'は多視点カメラで撮影した映像の、同期した時刻の何れかを表し、c'=1,2,…,Zの何れかである。第三実施形態では、N個の映像のある時刻c'のN個の画像I(n,c')から、Tp時間の回り込み映像を生成する。tは、回り込み映像における時刻を表すインデックスである。
 図10は画像I(n+1,c')、画像I(n,c')の例を示し、図11はブレンド割合B(n+1,t)、B(n,t)とtとの関係を示す。横軸の右端において時刻t=Tc×(n-1)、左端において時刻t=Tc×n(つまり、t=Tc×(n-1),…,Tc×n)、中間において時刻t=Tc×(n-0.5)である。この例では、Ng=9、nの最大値がN-1であるとき(つまり、n=1,2,…,N-1のとき)の画像I(n+1,c')、画像I(n,c')とのブレンド割合B(n+1,t)(破線)、B(n,t)(実線)の曲線が示されている。
 このように、可変可能な時間パラメータTpに基づき、カメラ間の中間画像を合成することで、カメラ間の視点移動画像を合成することができる。
<第一実施形態>
 図12は第一実施形態に係る映像編集装置の機能ブロック図を、図13はその処理フローを示す。
 映像編集装置は、IF部101、ラベル付与部102、位置大きさ抽出部103、IF部104、位置大きさ決定部105、画像切り取り部106、画像サイズ整合部107、IF部108、映像編集部109、IF部110を含む。
 映像編集装置は、N個の映像(多視点映像)を入力とし、回り込み映像の回り込む候補を囲む枠(図4参照)を重畳したN個の映像を出力する。枠を重畳したN個の映像を視た利用者が何れかの候補を指定し、回り込み映像の元となるN個の画像の時刻と、さらに、拡縮パラメータpおよび回り込み映像の長さを示すパラメータTpとを指定し、映像編集装置に入力する。例えば、ディスプレイやタッチパネル等の出力装置に、枠を重畳したN個の映像を表示し、N個の映像のうちの何れかに表示された候補を利用者がマウスやタッチパネル、キーボード等の入力装置を用いて指定する。指定したタイミングを回り込み映像の元となるN個の画像の時刻とする。また、利用者が、まず入力装置を用いて時刻(回り込み映像の元となるN個の画像の時刻)を指定し、時刻に対応する枠を重畳したN個の画像を出力装置に表示し、表示された候補を利用者が入力装置を用いて指定してもよい。要は、利用者が、回り込み映像の元となるN個の画像の時刻と、候補と、拡縮パラメータpおよび回り込み映像の長さを示すパラメータTpとを指定することができるように、何らかの映像や画像を表示し、指定された情報を取得できればよい。
 映像編集装置は、指定された候補と、時刻と、拡縮パラメータpと、パラメータTpとを入力とし、指定された候補、時刻の、拡縮パラメータpに対応した、長さTpの回り込み映像を生成し、出力する。
 なお、N個の映像(多視点映像)はカメラなどの撮影装置から直接入力されるものに限らず、記憶媒体に記憶されたものを用いてもよいし、映像編集装置内の記憶部に記憶されたものを用いてもよい。
 映像編集装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。映像編集装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。映像編集装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。映像編集装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。映像編集装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも映像編集装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、映像編集装置の外部に備える構成としてもよい。
 以下、各部について説明する。
<IF部101>
 IF部101は、N個の映像(多視点映像)を入力とし、同期したN個の映像を出力する。
<ラベル付与部102>
 ラベル付与部102は、同期したN個の映像を入力とし、同期したN個の映像を構成する画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与し(S102、図3参照)、ラベルを付与した画像I(n,c)を出力する。各映像がZ個の画像からなる場合には、撮影装置を示すラベルと、時刻を示すラベルとを付与してN×Z個の画像I(n,c)を出力する。なお、N個の映像を撮影した撮影装置は、被写体を取り囲むよう配置されているものとし、撮影装置の並びは予め分かっているものとする。
<位置大きさ抽出部103>
 位置大きさ抽出部103は、ラベルを付与した画像I(n,c)を入力とし、ラベルを付与した画像に存在する被写体の候補を示すインデックスmとその被写体の候補の位置と大きさに関する情報info(m)との組合せ(I(n,c),m,info(m))を抽出し(S103)、ラベルを付与した画像に被写体の候補を囲む枠を重畳した画像I'(n,c)をIF部104に出力し、被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せ(n,c,m,info(m))を位置大きさ決定部105に出力する。N×Z個の画像に、それぞれM体の被写体の候補が存在する場合には、N×Z×M個の被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せ(n,c,m,info(m))を抽出する。なお、被写体が一時的に画像から存在しなくなる場合には、存在していないことを示す情報を位置と大きさに関する情報として利用すればよい。
 なお、画像から所定の対象(例えば人間)を検出し、検出した対象に枠を重畳技術としては、どのような画像認識(人物認識)技術を用いてもよい。枠が表示されると被写体の候補が認識できていることを示唆し、枠が表示されないと被写体の候補が認識できていないことを示唆している。
 被写体の候補の位置と大きさに関する情報を取得する方法としては、どのような取得方法を用いてもよい。例えば、非特許文献2の方法で画像に存在する被写体の候補の骨格を推定し、推定結果(骨格推定結果)を候補の位置と大きさに関する情報として利用してもよい。
 N個の画像に存在する1つ以上の被写体の候補をそれぞれ同定し、被写体の候補を示すインデックスを付与する際には、どのような同定方法を用いてもよい。例えば、非特許文献3を利用して、N個の画像に存在する被写体を同定してもよい。
<IF部104>
 IF部104は、ラベルを付与した画像に被写体の候補を囲む枠を重畳した画像I'(n,c)(図4参照)を入力とし、外部の出力装置に出力する。
 前述の通り、利用者が、回り込み映像の元となるN個の画像の時刻と、候補と、拡縮パラメータpおよび回り込み映像の長さを示すパラメータTpとを指定することができるように、何らかの映像や画像を出力装置を介して利用者に表示する。
<IF部108>
 IF部108は、利用者に指定された候補と、時刻と、拡縮パラメータpと、パラメータTpとを入力とし、指定された候補と、時刻と、拡縮パラメータpとを位置大きさ決定部105に出力する。また、IF部108は、指定された時刻を画像切り取り部106に出力し、パラメータTpを映像編集部109に出力する。なお、候補の指定、拡縮パラメータpと、パラメータTpの入力がない場合には、指定された候補と、拡縮パラメータp、パラメータTpとして、前回使用した値や初期値等を使用してもよい。
<位置大きさ決定部105>
 位置大きさ決定部105は、被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せと、指定された候補と、時刻と、拡縮パラメータpとを入力とする。
 まず、位置大きさ決定部105は、被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せ(n,c,m,info(m))の中から指定された候補と時刻とに対応する組合せ(n,c',m',info(m'))を抽出する。c'は指定された時刻のインデックスを示し、m'は指定された候補のインデックスを示す。例えば、N×Z×M個の被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せを入力とする場合には、N×Z×M個の組合せ(n,c,m,info(m))の中から、指定された被写体の候補(以降、指定された被写体の候補を単に被写体とも呼ぶ)と、時刻とで指定されるN個の被写体の位置と大きさに関する情報(n,c',m',info(m'))を抽出する。
 位置大きさ決定部105は、N個の被写体の位置と大きさに関する情報(n,c',m',info(m'))から補正または補間および拡大または縮小されたN個の被写体の位置と大きさ{Xs(n),Ys(n),size(n)}を求め(S105)、補正または補間および拡大または縮小されたN個の被写体の位置と大きさとに基づく切り取り範囲{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n))}を出力する。具体的には、以下のように求める。
 位置大きさ決定部105は、N個の被写体の位置と大きさに関する情報に基づき、被写体の位置に関する多項式と被写体の大きさに関する多項式とを生成する。
 さらに、位置大きさ決定部105は、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行う。
 位置大きさ決定部105は、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させる。
<画像切り取り部106>
 画像切り取り部106は、指定された時刻c'と、ラベルを付与したN×Z個の画像I(n,c)とN個の切り取り範囲{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n))}とを入力とする。
 まず、ラベルを付与した画像I(n,c)の中から指定された時刻c'に対応するN個の画像I(n,c')を抽出する。N個の画像I(n,c')からそれぞれN個の切り取り範囲{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n))}を切り取り(S106)、切り取ったN個の画像Icut(n,c')出力する。
<画像サイズ整合部107>
 画像サイズ整合部107は、切り取ったN個の画像Icut(n,c')を入力とし、N個の画像Icut(n,c')のサイズを同じサイズに変換し(S107)、同じサイズに変換したN個の切り取った画像Ist(n,c')を出力する。
<映像編集部109>
 映像編集部109は、パラメータTpと同じサイズに変換したN個の切り取った画像Ist(n,c')とを入力とし、隣接する撮影装置に対応する2つの同じサイズの画像Ist(n+1,c'),Ist(n,c')から中間画像I(t)を生成し、中間画像(t)に基づき、長さTpの回り込み映像を生成し(S109)、出力する。ただし、Tc=Tp/(N-1)とする。
<IF部110>
 IF部110は、回り込み映像を入力とし、回り込み映像を外部の出力装置に出力する。
<効果>
 以上の構成により、多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができる。
 より詳しく説明すると、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行うことで、被写体の位置が上下左右に変動し、連続性が感じられなくなり、見づらくなってしまうという課題を解決している。
 さらに、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させることで、被写体の大きさが変動するため連続性が感じられなくなり、回転した合成映像が見づらくなってしまうという課題を解決している。
 また、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、長さTpの回り込み映像を生成することで、隣接する撮影装置に対応する2つの同じサイズの画像を滑らかに繋げることができる。撮影手段の個数Nの値大きく、撮影手段が密に配置されることが望ましいが、本実施形態では、中間画像を生成することで、比較的Nの値が小さい場合(例えばN=5)であっても画像を滑らかに繋げることができる。
<変形例>
 本実施形態では、N個の映像の中に1体以上の被写体の候補が存在し、その中から1つの被写体を指定する構成としたが、N個の映像の中に1体の被写体の候補しか存在しない場合にはその被写体の候補を被写体とし、被写体を指定する処理、構成を省略してもよい。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
 本実施形態では、図14を参照して位置大きさ決定部105の具体的な処理の一例を説明する。
 本実施形態では、骨格推定結果を被写体の位置と大きさに関する情報とする。
 位置大きさ決定部105が、被写体の候補を示すインデックスとその被写体の位置と大きさに関する情報との組合せの中から指定された候補と時刻とに対応する組合せを抽出するまでの処理は第一実施形態と同じである。その後、第二実施形態では、位置大きさ決定部105は、被写体の位置と大きさに関する情報である図4の被写体の骨格推定情報から顔503、中腹部505、右足首506、左足首507の座標値(Xface(n),Yface(n)),(Xbelly(n),Ybelly(n)),(XRankle(n),YRankle(n)),(XLankle(n),YLankle(n))を得る。なお、情報が欠損している場合にはNULLを取得してもよい。
 位置大きさ決定部105は、次式により、N個の骨格推定結果からそれぞれN個の被写体の縦サイズYsize(n)を得る。
Y1(n)=Yface(n)-YRankle(n)
Y2(n)=Yface(n)-YLankle(n)
Ysize(n)=(Y1(n)+Y2(n))/2
なお、情報が欠損している場合にはNULLを取得してもよい。
 中腹部505の座標値(Xbelly(n),Ybelly(n))を被写体の位置とし、縦サイズYsize(n)を得、これを被写体の大きさとして取得する(S901)。
 N個の被写体の位置と大きさに関する情報から、情報の欠損が多くて、3つ以上の被写体の大きさと被写体の位置を得られない場合には(S902のNOの場合)、多項式近似曲線による補正または補間ができないものと判断し、回り込み映像の編集を行わず処理を終了する(S904)。
 3つ以上の被写体の大きさと被写体の位置を得られる場合(S902のYESの場合)、<第二実施形態のポイント1>で説明した処理を行う。
 位置大きさ決定部105は、3つ以上の被写体の位置を用いて、被写体の位置に関する多項式を生成する。さらに被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行う(S905)。
 例えば、被写体の位置に関する多項式に当てはめたときに、閾値よりも大きな外れ値を有する場合に、外れ値となった位置を多項式で求めた値に置換することで補正する(図6参照)。また、n番目の被写体の位置が欠損してる場合に、欠損している位置を多項式で求めた値に置換することで補間する(図6B参照)。
 位置大きさ決定部105は、3つ以上の被写体の大きさを用いて、被写体の大きさに関する多項式を生成する。さらに被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行う(S906)。
 例えば、被写体の大きさに関する多項式に当てはめたときに、閾値よりも大きな外れ値を有する場合に、外れ値となった大きさを多項式で求めた値に置換することで補正する。また、n番目の被写体の大きさが欠損してる場合に、欠損している大きさを多項式で求めた値に置換することで補間する。
 以上の処理により、補正または補間された被写体の位置と大きさを取得する。なお、上述の閾値判定や欠損判定の後に、外れ値や欠損がなく実際に補正または補間しない場合もあるが、それらも合わせて、補正または補間された被写体の位置と大きさと呼ぶ。
 次に、位置大きさ決定部105は、拡縮パラメータpの指定がある場合(S1002のYesの場合)、以下のS1004(<第二実施形態のポイント2>で説明した処理)を実行し、拡縮パラメータpの指定がない場合(S1002のNoの場合)、以下のS1005を実行する。
(S1005(拡縮パラメータpの指定がない場合))
 補正または補間された被写体の位置を(Xs(n),Ys(n))とし、補正または補間された被写体の大きさをLs(n)とすると、切り取り範囲を、Xs(n)に対してX軸方向に±a×Ls(n)、Ys(n)に対してY軸方向に±b×Ls(n)とする。つまり、切り取り範囲を{(Xs(n)-a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)-a×Ls(n),Ys(n)+b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)+b×Ls(n))}として求める。
(S1004(拡縮パラメータpの指定がある場合))
 拡縮パラメータpにより補正または補間されたN個の被写体の大きさを拡大または縮小させる。例えば、第二実施形態のポイント2で説明した処理を行い、拡縮パラメータpを用いて、N個の被写体の倍率パラメータpnを2次曲線で作成し、N個の被写体の大きさを拡大または縮小させる。より詳しくは以下の処理を行う。まず、
G=(1+n)/2
G2=N-G
pn=p-(p-1)×{(n-G)/G2 2}
を求める。切り取り範囲をパラメータpnに基づきXs(n)に対してX軸方向に±a×Ls(n)×pn、Ys(n)に対してY軸方向に±b×Ls(n)×pnとする。つまり、切り取り範囲を{(Xs(n)-a×Ls(n)×pn,Ys(n)-b×Ls(n)×pn),(Xs(n)+a×Ls(n)×pn,Ys(n)-b×Ls(n)×pn),(Xs(n)-a×Ls(n)×pn,Ys(n)+b×Ls(n)×pn),(Xs(n)+a×Ls(n)×pn,Ys(n)+b×Ls(n)×pn)}として求める。なお、視聴者には、pnが大きいほど切り取り範囲が大きくなり切り取り画像における被写体の割合は小さくなり縮小しているように見え、pnが小さいほど切り取り範囲が小さくなり切り取り画像における被写体の割合は大きくなり拡大しているように見える。
<変形例>
 本実施形態では、S1005(拡縮パラメータpの指定がない場合)に、切り取り範囲を{(Xs(n)-a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)-a×Ls(n),Ys(n)+b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)+b×Ls(n))}として求める例を示したが、第一実施形態で説明したように、拡縮パラメータpとして、前回使用した値や初期値等を使用してもよい。
 本実施形態では、中腹部の座標値を被写体の位置とし、縦サイズを被写体の大きさとして利用しているが、他の値を被写体の位置、大きさとして利用してもよい。例えば、複数の座標値の重心や中心等を被写体の位置としてもよいし、横サイズや面積等を被写体の大きさとしてもよい。
<第三実施形態>
 第一実施形態と異なる部分を中心に説明する。
 本実施形態では、映像編集部109の具体的な処理の一例を説明する。
 映像編集部109は、パラメータTpと同じサイズに変換したN個の切り取った画像とを入力とし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成する。例えば、n+1番目の画像I(n+1,c')とn番目の画像I(n,c')(図10参照)とから、n+1番目の画像I(n+1,c')とn番目の画像I(n,c')との間の中間画像I(t)を次式により生成する。
B(n+1,t)=1/[1+Exp[Ng×{Tc×(n-0.5)-t}/Tc]]
B(n,t)=1-B(n+1,t)
I(t)=I(n+1,c')×B(n+1,t)+I(n,c')×B(n,t)
なお、ブレンド割合B(n+1,t)、B(n,t)は図11で示すようにtに応じて変化する。Tc=Tp/(N-1)
t=Tc×(n-1)+1,…,Tc×n
である。
 一例として、Ng=9である。n=1,2,…N-1とすることで、中間画像I(t)を生成する。中間画像I(t)を順番に並べることで長さTpの回り込み映像を生成する。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1.  Nを3以上の整数の何れかとし、被写体を取り囲むよう配置されたN個の撮影装置によって撮影された映像を前記撮影装置の並びに沿って切り替えることで、あたかも前記撮影装置が前記被写体を回り込んだときに得られる映像である回り込み映像を得る映像編集装置であって、
     N個の撮影装置から得られる画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与するラベル付与部と、
     ラベルを付与した画像に存在する被写体の位置と大きさに関する情報との組合せを抽出する位置大きさ抽出部と、
     N個の前記被写体の位置と大きさに関する情報に基づき、前記被写体の位置に関する多項式と前記被写体の大きさに関する多項式とを生成し、前記被写体の位置に関する多項式を用いて多項式近似曲線によるN個の前記被写体の位置の補正または補間を行い、前記被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の前記被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の前記被写体の大きさを拡大または縮小させる位置大きさ決定部と、
     前記ラベルを付与したN個の画像から補正または補間および拡大または縮小されたN個の前記被写体の位置と大きさとに基づく切り取り範囲を切り取る画像切り取り部と、
     切り取ったN個の画像のサイズを同じサイズに変換する画像サイズ整合部と、
     回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する映像編集部とを含む、
     映像編集装置。
  2.  請求項1の映像編集装置であって、
     n=1,2,…Nとし、前記被写体は人間であり、前記被写体の大きさに関する情報は画像から人間の骨格を推定して得られる骨格推定結果であり、
     前記位置大きさ決定部は、N個の骨格推定結果からN個の被写体の縦サイズを被写体の大きさとして得、前記被写体の大きさに関する多項式に当てはめたときに、閾値よりも大きな外れ値を有する場合に、外れ値となった縦サイズを多項式で求めた値に置換することで補正し、n番目の前記被写体の縦サイズが欠損している場合に、欠損している縦サイズを多項式で求めた値に置換することで補間し、
     前記拡縮パラメータpを用いて、前記N個の被写体の倍率パラメータを2次曲線で作成し、N個の前記被写体の大きさを拡大または縮小させることで、前記被写体の拡縮を制御する、
     映像編集装置。
  3.  請求項1または請求項2の映像編集装置であって、
     前記位置大きさ決定部は、
    n=1,2,…Nとし、
    G=(1+n)/2
    G2=N-G
    pn=p-(p-1)×{(n-G)/G2 2}
    とし、a,bを所定のパラメータとし、n番目の撮影装置から得られる画像の、補正または補間された前記被写体の位置を(Xs(n),Ys(n))とし、補正または補間された前記被写体の大きさをLs(n)とし、補正または補間および拡大または縮小されたN個の前記被写体の位置と大きさとに基づく切り取り範囲{(Xs(n)-a×Ls(n)×pn,Ys(n)-b×Ls(n)×pn),(Xs(n)+a×Ls(n)×pn,Ys(n)-b×Ls(n)×pn),(Xs(n)-a×Ls(n)×pn,Ys(n)+b×Ls(n)×pn),(Xs(n)+a×Ls(n)×pn,Ys(n)+b×Ls(n)×pn)}を求める、
     映像編集装置。
  4.  請求項1から請求項3の何れかの映像編集装置であって、
     回り込み映像の時刻tにおける、n+1番目の画像I(n+1,c')とn番目の画像I(n,c')との間の中間画像I(t)は、
    Tc=Tp/(N-1)、n=1,2,…N-1、t=Tc×(n-1)+1,…,Tc×nのとき、
    B(n+1,t)=1/[1+Exp[Ng×{Tc×(n-0.5)-t}/Tc]]
    B(n,t)=1-B(n+1,t)
    I(t)=I(n+1,c')×B(n+1,t)+I(n,c')×B(n,t)
    である、
     映像編集装置。
  5.  Nを3以上の整数の何れかとし、映像編集装置を用いて、被写体を取り囲むよう配置されたN個の撮影装置によって撮影された映像を前記撮影装置の並びに沿って切り替えることで、あたかも前記撮影装置が前記被写体を回り込んだときに得られる映像である回り込み映像を得る映像編集方法であって、
     前記映像編集装置が、N個の撮影装置から得られる画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与するラベル付与ステップと、
     前記映像編集装置が、ラベルを付与した画像に存在する被写体の位置と大きさに関する情報との組合せを抽出する位置大きさ抽出ステップと、
     前記映像編集装置が、N個の前記被写体の位置と大きさに関する情報に基づき、前記被写体の位置に関する多項式と前記被写体の大きさに関する多項式とを生成し、前記被写体の位置に関する多項式を用いて多項式近似曲線によるN個の前記被写体の位置の補正または補間を行い、前記被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の前記被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の前記被写体の大きさを拡大または縮小させる位置大きさ決定ステップと、
     前記映像編集装置が、前記ラベルを付与したN個の画像から補正または補間および拡大または縮小されたN個の前記被写体の位置と大きさとに基づく切り取り範囲を切り取る画像切り取りステップと、
     前記映像編集装置が、切り取ったN個の画像のサイズを同じサイズに変換する画像サイズ整合ステップと、
     前記映像編集装置が、回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する映像編集ステップとを含む、
     映像編集方法。
  6.  請求項1から請求項4の何れかの映像編集装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/050734 2019-01-09 2019-12-25 映像編集装置、その方法、およびプログラム WO2020145138A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/421,364 US11508412B2 (en) 2019-01-09 2019-12-25 Video editing apparatus, method and program for the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-001915 2019-01-09
JP2019001915A JP7052737B2 (ja) 2019-01-09 2019-01-09 映像編集装置、その方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020145138A1 true WO2020145138A1 (ja) 2020-07-16

Family

ID=71520700

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050734 WO2020145138A1 (ja) 2019-01-09 2019-12-25 映像編集装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US11508412B2 (ja)
JP (1) JP7052737B2 (ja)
WO (1) WO2020145138A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115442539B (zh) * 2021-06-04 2023-11-07 北京字跳网络技术有限公司 一种视频编辑方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048305A (ja) * 2007-08-15 2009-03-05 Nara Institute Of Science & Technology 形状解析プログラム及び形状解析装置
JP2017103613A (ja) * 2015-12-01 2017-06-08 日本電信電話株式会社 情報取得装置、情報取得方法及び情報取得プログラム
WO2017119034A1 (ja) * 2016-01-06 2017-07-13 ソニー株式会社 撮影システム、撮影方法およびプログラム
JP2018046448A (ja) * 2016-09-15 2018-03-22 キヤノン株式会社 画像処理装置および画像処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6539253B2 (ja) * 2016-12-06 2019-07-03 キヤノン株式会社 情報処理装置、その制御方法、およびプログラム
WO2020004162A1 (ja) * 2018-06-27 2020-01-02 キヤノン株式会社 撮像システム、配置決定装置、配置決定方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048305A (ja) * 2007-08-15 2009-03-05 Nara Institute Of Science & Technology 形状解析プログラム及び形状解析装置
JP2017103613A (ja) * 2015-12-01 2017-06-08 日本電信電話株式会社 情報取得装置、情報取得方法及び情報取得プログラム
WO2017119034A1 (ja) * 2016-01-06 2017-07-13 ソニー株式会社 撮影システム、撮影方法およびプログラム
JP2018046448A (ja) * 2016-09-15 2018-03-22 キヤノン株式会社 画像処理装置および画像処理方法

Also Published As

Publication number Publication date
US11508412B2 (en) 2022-11-22
JP2020113842A (ja) 2020-07-27
US20220093131A1 (en) 2022-03-24
JP7052737B2 (ja) 2022-04-12

Similar Documents

Publication Publication Date Title
JP5746937B2 (ja) オブジェクト追跡装置
JP5822613B2 (ja) 画像処理装置および画像処理方法
JP5906028B2 (ja) 画像処理装置、画像処理方法
US20170180680A1 (en) Object following view presentation method and system
US20130089301A1 (en) Method and apparatus for processing video frames image with image registration information involved therein
KR101308946B1 (ko) 3차원 얼굴 형상 재구성 방법
US20040091171A1 (en) Mosaic construction from a video sequence
CN110881109A (zh) 用于增强现实应用的视频中的实时叠加放置
US10339414B2 (en) Method and device for detecting face, and non-transitory computer-readable recording medium for executing the method
WO2020145138A1 (ja) 映像編集装置、その方法、およびプログラム
KR20190078890A (ko) 그리드 기반의 평면 추정 방법 및 장치
KR101529820B1 (ko) 월드 좌표계 내의 피사체의 위치를 결정하는 방법 및 장치
Cho et al. Temporal incoherence-free video retargeting using foreground aware extrapolation
JP3197801B2 (ja) 二次元表示画像生成方法
JPH10126665A (ja) 画像合成装置
JP7459927B2 (ja) 画像処理方法
Lee et al. Fast-rolling shutter compensation based on piecewise quadratic approximation of a camera trajectory
JP4930304B2 (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
JPH10108003A (ja) 画像合成装置および画像合成方法
KR20130019485A (ko) 마커를 기반으로 하는 증강현실 시스템 및 그 객체 증강방법
JP2006215657A (ja) 動きベクトル検出方法、動きベクトル検出装置、動きベクトル検出プログラム及びプログラム記録媒体
JP6062483B2 (ja) デジタルカメラ
JPH1083442A (ja) 画像合成方法
CN114185429B (zh) 手势关键点定位或姿态估计的方法、电子装置和存储介质
Bastos et al. Automatic camera pose initialization, using scale, rotation and luminance invariant natural feature tracking

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19908204

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19908204

Country of ref document: EP

Kind code of ref document: A1