WO2014080861A1 - 動画編集方法及び装置 - Google Patents

動画編集方法及び装置 Download PDF

Info

Publication number
WO2014080861A1
WO2014080861A1 PCT/JP2013/081019 JP2013081019W WO2014080861A1 WO 2014080861 A1 WO2014080861 A1 WO 2014080861A1 JP 2013081019 W JP2013081019 W JP 2013081019W WO 2014080861 A1 WO2014080861 A1 WO 2014080861A1
Authority
WO
WIPO (PCT)
Prior art keywords
editing
image
matrix
information map
frame
Prior art date
Application number
PCT/JP2013/081019
Other languages
English (en)
French (fr)
Inventor
泰 山口
達也 谷田川
Original Assignee
国立大学法人東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京大学 filed Critical 国立大学法人東京大学
Priority to JP2014548550A priority Critical patent/JP5846663B2/ja
Publication of WO2014080861A1 publication Critical patent/WO2014080861A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Definitions

  • the present invention relates to a moving image editing method and apparatus for maintaining continuity between frames forming a moving image, and more specifically, for editing the color tone, texture, and the like of a moving image while maintaining continuity between frames in the moving image. Regarding the method.
  • Non-Patent Document 1 coloring of a monochrome image
  • Non-Patent Document 2 tone mapping
  • Non-Patent Document 3 color transfer
  • Non-Patent Document 4 color transfer
  • the technical idea consistent with the above method is to solve the optimization problem based on the input by the user, so that the intention hidden in the user input is applied to the whole still image. It is done.
  • a moving image is composed of many frames
  • many user inputs are required to apply an existing method for a still image to a moving image as it is. More specifically, when a partial editing process (for example, changing the color of a specific object) is performed on a moving image such as a video, an instruction is given for each frame, or at most 10 It is necessary to put instructions on one frame in 20 frames. Since a video contains 30 frames per second, even if it is a short length, considerable effort is required.
  • the method of transferring a user's intention one after another between frames can be considered.
  • the continuity between frames in the moving image processing is based on the correspondence between the positions of two consecutive frames called an optical flow.
  • an optical flow since the phenomenon that objects and backgrounds are obstructed by other objects and can not be seen or enters and exits from the frame frequently occurs, it is very difficult to keep the correspondence of positions, and automatic Correspondence was at most tens of frames.
  • Non-Patent Document 5 describes an approximate method based on an edge preserving smoothing filter.
  • An object of the present invention is to provide a moving image editing method and apparatus for maintaining continuity between frames using transfer of editing parameters between frames that are not based on such positional correspondence.
  • the present invention Means for storing a plurality of time-series images forming a moving image; As a linear combination of the pixel values of the first image by the optimization calculation using the pixel position information and the pixel value information of the two images adjacent in the time axis direction, that is, the first image and the second image, Inheritance matrix generation means for generating an inheritance matrix defining each pixel value of the two images; A first editing information map for editing the first image is stored, and second editing information corresponding to the second image from the first editing information map using the inheritance matrix is stored. Editing information map generating means for generating a map; Editing image generating means for generating an edited image of the second image by applying the second editing information map to the second image; A moving image editing apparatus.
  • an initial edit information map generating unit that generates an initial edit information map for editing at least one image (an “anchor frame” described later) selected from the plurality of time-series images. And The first image is the selected image, and the editing information map for editing the first image is the initial editing information map.
  • the initial edit information map generating means generates the initial edit information map based on a user input. Various methods are known to those skilled in the art as means for editing a still image by user input (for example, input using a pointing device), and edit information (edit information map) for editing a certain image is obtained. If possible, the specific configuration of the initial editing information map generating means is not limited.
  • the edit information map corresponding to each time-series image is sequentially generated (transferred) using the inheritance matrix generation means and the edit information map generation means.
  • the edited image generation unit generates a moving image including a plurality of time-series edited images by editing each time-series image using a corresponding editing information map.
  • the calculation of the inheritance matrix and the transfer of the edit information map using the inheritance matrix are performed as processing from an early time to a later time (t ⁇ t + 1).
  • the editing information map transfer using the inheritance matrix may be executed as a process from a later time to an earlier time (t ⁇ t ⁇ 1).
  • processing may be executed in both directions from an early time to a later time (t ⁇ t + 1) and a later time to an earlier time (t ⁇ t ⁇ 1) from one anchor frame t.
  • two anchor frames separated in the time axis direction are selected, the process is executed from an early time to a later time (t ⁇ t + 1) based on one anchor frame, and the other anchor frame is Processing is executed from a later time to an earlier time (t ⁇ t ⁇ 1) based on the reference.
  • the inheritance matrix (including the approximate inheritance matrix) calculated when the edit information map is generated may be stored in the storage unit or discarded after the corresponding edit information map is generated. .
  • the inheritance matrix between each pair of images adjacent in the time axis direction is acquired in advance and stored in the storage unit before the edit information map is generated.
  • the editing information map has the same number of pixels as the number of pixels of each image forming a moving image, and editing parameters are assigned to all or some of the pixels of the editing information map.
  • the type of editing process that can be used in the present invention may be any type of editing process as long as the function for editing each pixel includes a specific finite number of parameters. It is not limited. Examples of the types of editing processing include color tone conversion (including color transfer and gray scale coloring), stabilization of color change, and sharpening of texture.
  • the editing information or editing parameters are appropriately set by those skilled in the art according to the specific contents of the editing process.
  • the inheritance matrix generation means generates an inheritance matrix by optimization calculation of a function including a term that guarantees continuity in the time axis direction of the editing information map and a term that guarantees consistency of editing parameters within the same frame. Generate.
  • the energy function used for the optimization calculation will be described. Table 1 shows the energy functions used in the embodiments described later, and the one shown in the left column relates to the formula for deriving the inheritance in the positive direction, that is, the inheritance matrix from the t frame to the t + 1 frame. What is shown in the right column is an expression for deriving an inheritance matrix representing reverse inheritance, that is, inheritance from t + 1 frame to t frame. In the high speed version t ⁇ t + 1, In the high speed version t + 1 ⁇ t, It is.
  • e t is editing information (editing parameters, constants) at frame t
  • e t + 1 is the editing information (editing parameters, variables) at frame t + 1
  • c t i is the L * a * b * color information of the pixel present at position i in frame t
  • x t i is the position information (coordinates) of the pixel in frame t
  • ⁇ ct is a weighting constant related to the difference in color information in the time axis direction
  • ⁇ s is a weighting constant for location information
  • ⁇ c is a weight constant for color information
  • 2 is the L2 norm of the vector, It is.
  • Table 2 describes the high speed version in a more general form.
  • the term that guarantees continuity in the time axis direction of the editing information map is as follows: “If two pixels in the same position in two adjacent frames have similar colors, the two pixels are Based on the assumption that the editing parameters are similar, ”the term that guarantees the consistency of editing parameters within the same frame is“ If you focus on a single frame, Are similar, the editing parameters of the two pixels are also similar. " In an embodiment described later (from t frame to t + 1 frame), the function is And It is. For the description of each symbol, the above description can be used. In other embodiments described below, the inheritance matrix is defined as an energy minimization problem between frames using the following objective function: This objective function is based on the assumption that similar editing parameters are assigned to pixels with similar pixel characteristics.
  • the previous term represents the constraint from the previous frame, and the latter term represents the constraint within the current frame.
  • ⁇ kl ij is the similarity between pixel i of frame k and pixel j of frame l. It becomes.
  • f k i is a pixel feature of the pixel i of the frame k.
  • the L * a * b * color representation is a three-dimensional vector
  • the in-frame position (x, y) is two-dimensional
  • the time component t is one-dimensional, for a total of six-dimensional vectors.
  • e k i is an editing parameter for the pixel i of the frame k.
  • n is the number of pixels included in each frame of the moving image.
  • the editing information map generating means can generate the editing information map using the approximation means or the inheritance matrix generated by direct calculation.
  • the inheritance matrix generation means includes an approximation means for decomposing and approximating the dense matrix into products of smaller size matrices when a dense matrix is included,
  • the edit information map generating means generates an edit information map using the approximate inheritance matrix generated by the approximating means.
  • the approximation means is an approximation means using the Nystrom method.
  • the Nystrom method based on the k-means method is adopted. Note that several methods are known to those skilled in the art as a means for performing matrix calculation at high speed. For example, when a matrix is a sparse matrix, only elements having values are calculated at high speed. Also good.
  • the present invention can also be defined as a method invention, Each pixel of the second image is obtained as a linear combination of the pixel values of the first image by the optimization calculation using the pixel position information and the pixel value information of the first image and the second image adjacent in the time axis direction.
  • An inheritance matrix generation step for generating an inheritance matrix for defining values; A first editing information map for editing the first image is stored, and second editing information corresponding to the second image from the first editing information map using the inheritance matrix is stored.
  • An edit information map generation step for generating a map; An edited image generating step of generating an edited image of the second image by applying the second editing information map to the second image; And a video editing method.
  • each means constituting the moving image editing apparatus can be configured by one or a plurality of computers.
  • the computer typically includes a plurality of time-series images that form a moving image, various image editing programs, an editing information map, a storage unit that stores various data such as an edited image, an arithmetic processing unit that performs various calculations, A display unit that displays video (original moving image, edited moving image), an input unit for operating the computer, and an output unit that outputs data such as calculation results, and a general-purpose computer (input unit, output unit, A calculation unit, a storage unit, a display unit, and the like) can be used.
  • the moving image editing method according to the present invention can be executed by one or a plurality of computers.
  • the present invention is further defined as a computer program for causing a computer to execute the moving image editing method, or a recording medium on which the computer program is recorded.
  • the present invention expresses the correspondence between pixels in successive frames without relying on the optical flow, and executes the propagation of the editing operation, and solves the problems caused by the processing using the correspondence between positions. It is also possible to realize a stable transfer of editing parameters input by the user for some frames. Conventionally, optical flows that cannot avoid loss of correspondence due to mutual occlusion or frame-out by objects require smoothing processing, etc., but as a result, editing information is rapidly averaged and tens of frames There was a problem of disappearing at a certain degree. By using the inheritance matrix representation, this problem can be solved and the editing information can be propagated stably.
  • the present invention can cope with many editing processes by using an editing information map generated by an inheritance matrix obtained independently of editing information.
  • the expression of the editing operation is multidimensional information composed of parameters that define a function for editing a certain pixel. For example, when editing hue, saturation, and brightness in color tone correction, each pixel has a three-dimensional vector that represents the amount of change.
  • the expression of the editing operation is a general expression and can be applied to many applications. For example, various applications such as partial color change, color change stabilization, and texture sharpening can be considered.
  • the storage unit stores a time-series original image set (original moving image), and the original moving image is displayed on the display unit.
  • the edit processing unit includes initial edit information map generation means, inheritance matrix generation means, edit information map generation means, and edit image generation means.
  • an initial editing information map is generated by the initial editing information map generation unit, and is stored in the storage unit as editing information map data.
  • the inheritance matrix generation means generates an inheritance matrix using pixel information of images adjacent in the time axis direction.
  • the inheritance matrix may be stored in the storage unit as inheritance matrix data.
  • the edit information map generating means generates an edit information map of the image of interest using an inheritance matrix between images adjacent in the time axis direction and an edit information map of the inheritance source image adjacent in the time axis direction.
  • the edit information map is stored in the storage unit as edit information map data.
  • the edit image generation means generates an edit image of the image of interest using the edit information map of the image of interest.
  • the edited image is stored as a case sequence edited image (edited moving image) in the storage unit, and the edited moving image is displayed on the display unit. It is a figure which shows the color tone correction result of the moving image by an inheritance matrix. This result is created by performing user input only for the first frame.
  • the user input is shown in the upper left (four strokes: a stroke specifying wine in a wine glass, two linear strokes on the top and bottom of the frame, and a wavy stroke on the background of the wine glass. is there).
  • editing processing is performed to brighten the color of red wine.
  • this video only one wineglass in the first frame is entered, but the color (light red) is also edited appropriately for the wine that is poured from the wine bottle that appears later.
  • the video highlights the details of the flower parts while blurring the background and leaves. It is a figure which shows the result of the color tone conversion using two anchor frames (1st frame, 224th frame).
  • the yellow maple leaves were swayed by the wind, but editing was performed so that the color of the leaves gradually changed with user input giving different color changes to the first and last frames.
  • This result is created by linearly interpolating parameters obtained from two anchor frames, but the interpolation method is not limited to linear, and interpolation may be performed using a sigmoid kernel, for example.
  • editing increasing the saturation
  • FIG. 1 An embodiment of a moving image editing method that maintains continuity between frames will be described.
  • a conceptual diagram of this embodiment is shown in FIG.
  • the upper row is the time-series image (input image) of the original moving image
  • the middle row is the editing information (editing information map)
  • the lower row is the editing time-series image (output image).
  • the correspondence between the frames (still images) adjacent in the time axis direction is not used, and the correspondence between the frames is described by one square matrix. This is based on the assumption that the properties of each pixel of a certain frame can be expressed by a linear combination (convex combination) of the properties of the pixels of the previous frame.
  • the correspondence between frames is described by a square matrix composed of the coefficients of the linear combination.
  • this matrix is called an “inheritance matrix” or an edit-propagation matrix. Note that, when the number of pixels included in each frame is the same, a square matrix is formed. However, the method according to the present invention is not limited to the one using a square matrix.
  • each pixel of the t + 1 frame image is represented by a weight of the pixel of the t frame image.
  • the similarity between pixels is used for calculating the weight.
  • the similarity is measured by the similarity (closeness) of the spatial distance and the similarity (color is close) as the color.
  • every pixel of the image of the t + 1 frame is represented with a weight of similar pixels of the image of the previous frame t.
  • the pixels that are framed in the t + 1 frame image and the pixels that are hidden in the t frame image are the pixels of the previous t frame image and the t frame image. It cannot be expressed as a combination of.
  • the editing information map has the following requirements.
  • (I) It consists of the same number of pixels as the number of pixels of each image (frame) forming a moving image.
  • the requirement (i) shows a typical embodiment, and the number of pixels of the editing information map and the number of pixels of each image forming the moving image may not be the same.
  • An edit information map t exists corresponding to each image t.
  • Editing parameters are assigned to some or all pixels. When editing parameters are assigned to some pixels, the editing parameters are not assigned to pixels that do not require editing.
  • the degree of editing stored in the editing information map is 0 for pixels that do not require editing.
  • Iv For each pixel of the image t, an editing image t is obtained by applying editing processing according to the editing parameters of the corresponding pixel of the editing information map t.
  • editing information is given to the entire moving image.
  • the editing result itself applied to a specific frame of the moving image is not transferred, but an editing parameter assigned to each pixel of a certain frame is transferred to the next frame in the form of an editing information map.
  • the editing information map using the inheritance matrix editing in accordance with the user's intention is realized on the entire moving image with fewer user inputs.
  • the method according to the present embodiment is roughly divided into two processes.
  • the first process is a process on a frame (anchor frame) input by the user.
  • a frame anchor frame
  • Several methods for estimating the editing information map of the entire image from the user input on the still image have already been proposed.
  • an appearance editing method (Annon-Patent Document 3) using An and Pellacini is used.
  • the editing information map estimation method applied to the present invention is not limited to the method according to Non-Patent Document 3.
  • the second process is a process of transferring the edit information map created for the anchor frame to an adjacent frame. This process is performed using an inheritance matrix calculated from two adjacent images.
  • the inheritance matrix is a matrix obtained by optimization of the energy function, and has a feature that it does not depend on the type and value of the map to be transferred.
  • the method includes the following software modules or steps. 1. Initialization of edit information Based on the input (scribble) from the user to the anchor frame, an “edit information map e 0 ” having the same number of pixels as the moving image is generated.
  • Editing processing is applied to the frame in accordance with the editing information application editing information map.
  • the editing information map e t corresponding to the image of the current frame t update of editing information, to apply the inheritance matrix M t + 1 / t, to create an editing information map e t + 1 of the next frame t + 1.
  • the energy function ⁇ circumflex over (E) ⁇ for obtaining the edit parameter ⁇ circumflex over (e ) ⁇ i finally given to the pixel i can be defined as follows.
  • ⁇ zij represents the similarity between pixels i and j and is defined as follows:
  • ⁇ x i is the position information of the pixel i
  • the ⁇ c i is a vector representing the color information consisting of L * a * b * pixel i.
  • the constants ⁇ s and ⁇ c are parameters for controlling the position where the consistency of the editing information map should be maintained and the range near the color.
  • the constant ⁇ s is a weight for position information
  • the constant ⁇ c is a weight for color information.
  • equation (1) forms a narrowly convex function, the minimum value is taken at the point where all the partial derivatives at ⁇ e i become 0.
  • 2 is the L2 norm of the vector.
  • the energy function consists of two terms, the previous term guarantees the consistency between the editing parameters of the user input and the editing parameters of the final editing information map, and the latter term is a neighborhood of similar colors. Pixels are guaranteed to be assigned similar editing parameters.
  • the constant ⁇ circumflex over ( ⁇ ) ⁇ balances the above two terms and can be appropriately set by those skilled in the art.
  • Equation (2) includes a large-scale dense matrix ⁇ Z, it is difficult to calculate this by a general computer. Therefore, approximation is performed using the Nystrom method, which is an approximation method using the feature that ⁇ Z is a low-rank and semi-definite value (see Non-Patent Document 3).
  • the edit information map calculated in the anchor frame is sequentially propagated from adjacent frames by the inheritance matrix.
  • the inheritance matrix is a matrix calculated from the position information and pixel value information of the pixels of two adjacent frames, and a vector in which the colors of the pixels of the two frames are vertically arranged is I t , I t + 1. If you put it like It has a relationship like
  • equation (3) Is an inheritance matrix, and the subscript on the upper right indicates that the matrix represents the inheritance from frame t to frame t + 1.
  • Equation (4) is given as an optimal solution of a certain energy function, it is considered that the energy function has a quadratic form with respect to a certain matrix. In order to define such an energy function, the following assumptions are made.
  • c t i represents the L * a * b * color information of the pixel present at position i in frame t
  • x t i represents the position of the pixel in frame t.
  • the three types of parameters ⁇ ct , ⁇ s, and ⁇ c used in these equations are values indicating how much the difference between the components is allowed.
  • the constant ⁇ ct is a weight related to a difference in color information in the time axis direction
  • the constant ⁇ s is a weight related to position information
  • the constant ⁇ c is a weight related to color information, and is appropriately set by those skilled in the art.
  • the parameters used in the experiment are shown in Table 3.
  • the energy function consists of two terms.
  • the previous term guarantees continuity in the time axis direction of the editing information map, and the latter term guarantees consistency of editing parameters within the same frame.
  • Equation (6) the consistency of the editing parameters follows the spatial location and color similarity of the pixels.
  • is a constant that balances the above two terms, and is appropriately set by those skilled in the art. Since this energy function is a narrowly convex function as in equation (1), there is only one solution that minimizes this energy function.
  • D t + 1 / t is an n ⁇ n diagonal matrix whose i-th diagonal element is It has become.
  • W t + 1 / t is similarly diagonal matrix of n ⁇ n, the diagonal elements are w t + 1 / t i.
  • This relational expression has the same form as Expression (4), and the target inheritance matrix is obtained. In order to calculate this inheritance matrix as well, it is necessary to calculate the product of the large-scale dense matrix Z t + 1 , and an approximation using the Nystrom method is required as in Equation (2).
  • the propagation of the editing amount from frame t to t + 1 is generally considered.
  • the propagation from frame 1 to 2 will be described.
  • the editing amount is calculated in advance for frame 1.
  • the purpose is to find this e 1 to e 2 .
  • the objective function is derived on the assumption that two pixels close in color and position have similar editing amounts.
  • each component of f t i is the color component sigma c
  • position component is suitably scaled sigma s.
  • the similarity between pixels is f t i It is defined as Based on the above assumption, the objective function for obtaining e 2 is as follows.
  • the amount of editing e 2 that minimizes the objective function is the editing amount.
  • partial differentiation of the objective function with respect to each e 2 i yields: Rewrite the formula for each i in matrix form.
  • the Nystrom method can efficiently approximate a matrix using only a small number of eigenvalues and eigenvectors when the matrix has a low rank.
  • the Nystrom method samples the columns or rows of the original matrix (Non-Patent Document 6).
  • the input frames are clustered by the k-means method based on the L * a * b * color information and position information of the pixels. Originally, it is ideal to divide into k clusters using the rank of the matrix Z, but in order to actually find this k, a certain amount of calculation is necessary, and it can be ignored. The number of samples m is set to prevent k from becoming larger than necessary due to a small eigenvalue. If the input data is decomposed into m clusters, the cluster center for each cluster Is obtained. Using this, the following matrix Calculate
  • ⁇ ⁇ ⁇ * indicates the spectrum norm or Frobenius norm of the matrix.
  • the spectrum norm is a value corresponding to the maximum singular value of the matrix
  • the Frobenius norm is the square root of the sum of squares of each component of the matrix, and is expressed as follows.
  • the calculation amount of the k-means method is O (nks) with respect to the number of input data n, the number of output clusters k, and the number of iterations s, and is not so fast.
  • the Nystrom method of Zhang et al. Is applied as it is, the cluster center is calculated without reflecting the editing parameter information at all, so that an appropriate editing result is obtained when the editing parameter is assigned to a relatively small image area. It may not be possible. Therefore, it is considered to perform matrix approximation reflecting the editing parameters at a higher speed.
  • FIGS. 2, 3 and 4 show the results of moving image editing by the method according to this embodiment. From each result, the feature of the moving image editing method using the inheritance matrix will be described. Each figure is a grayscale image, but if you think it is desirable, you are ready to submit a color image on the property submission form at the time of appraisal.
  • Figure 3 shows the results of detailed emphasis. This detail emphasis enhances and suppresses the details of which scales after multi-scale decomposition (multi ⁇ scale decomposition) of each frame using an edge-preserving filter (non-patent document 8) by domain transformation (domain transform).
  • the parameter that determines whether or not is propagated by the inheritance matrix. As can be seen from this result, this method does not depend on the purpose of editing, and can be applied to any editing method when the editing is performed with several independent parameters. is there.
  • FIG. 4 shows the editing result when user input is performed on a plurality of anchor frames.
  • the purpose of user input to a plurality of frames is often to prevent inappropriate area division caused by errors accumulated with the progress of frames.
  • the propagation of editing parameters has been performed appropriately and stably for some of the videos we have experimented with. Conceivable.
  • the editing parameters can be stably propagated, the possibility of user input for a plurality of frames, which has been difficult to perform conventionally, can be shown.
  • the energy function for deriving the inheritance matrix representing the inheritance from the t + 1 frame to the t frame the expression in the right column of Table 1 was used.
  • the term for maintaining consistency in the frame of the second term works too strongly, resulting in an overall blurred coloring result. This is considered to be caused by the fact that in a grayscale image or moving image, all pixels have only one-dimensional information of luminance values, and the luminance values do not change so much as a whole. Therefore, when this method is used for the coloring process, the second term of Equation (7) is changed so as to maintain consistency with only the vicinity of the pixel.
  • N 4 (i) indicates the four neighborhoods of pixel i.
  • FIG. 5 shows the coloring result of the moving image obtained using this equation. This result is obtained by performing an anchor frame in a still image coloring process by graph search (Non-patent Document 9), and the result is propagated in an inheritance matrix.
  • the coloring process is summarized as follows corresponding to the four formulas shown in Tables 1 and 2.
  • color tone stabilization process of a moving image is a process of removing the chromaticity fluctuation that occurs when a moving image is shot with an inexpensive digital camera or mobile phone.
  • this process proposed by Farbman and Lischinski is realized by calculating how much the chromaticity shift of each pixel of other frames from the reference anchor frame (non-patent literature). 10).
  • Color transfer from an image to a moving image is a method of matching a target tone of a still image with a tone of a still image (Non-Patent Document 11).
  • the basic idea of color transfer is to change the color tone of the target image by making the image a probabilistic model such as a histogram or a Gaussian mixture model and bringing the probability model of the target image closer to the probability model of the reference image. .
  • Equation (10) The original color of the target image
  • Equation (10) is By leaving It can be expressed. Therefore, in this study, a k and b k were calculated for each component in the L * a * b * color space, and a total of 6-dimensional information was propagated by the inheritance matrix.
  • FIG. 7 shows the result of color transfer thus obtained.
  • the properties (i) and (ii) are properties that do not exist when considering the positional relationship such as optical flow.
  • the matrix has an inverse matrix only when a one-to-one correspondence between pixels is given between frames, that is, there is a frame t + 1
  • the matrix representation does not have an inverse matrix. This can often occur in the case of taking a correspondence relationship between positions, and in that respect, it can be said that the inheritance matrix is a matrix with excellent properties.
  • the property (iii) is useful, for example, when it is desired to suddenly obtain a result after 100 frames from a user input performed on a certain frame.
  • the matrix M t / t + k is a large matrix and cannot be calculated in advance. Therefore, the result is obtained according to the frame order.
  • FIG. 8 shows a comparison with a conventional method (Non-Patent Document 5) in which region labels are propagated by an approximate optical flow.
  • the conventional method cannot deal with fine textures, and the error accumulation with the progress of frames is large, but with this method, as shown in each result image, it is generally good even if it exceeds 150 frames, which is about 5 seconds for a general movie Propagation of edits can be made.
  • the method was implemented using MATLAB and C ++, and the experiment was performed on a 3.6 GHz CPU. Table 3 shows the parameters used in the experiment.
  • m is the number of samples in the approximation of the inheritance matrix
  • s is the number of iterations of the k-means method used for approximation in the inheritance matrix calculation.
  • the present invention relates to a moving image editing method that maintains continuity between frames, and does not rely on the correspondence between positions of frames that has been generally used in processing of a conventional moving image, and uses a frame using an inheritance matrix. This was realized by the linear connectivity between them.
  • Moving image editing using an inheritance matrix can stably propagate editing compared to the conventional method, and this method is expected to allow editing of moving images with less effort.
  • the range of adaptation of the inheritance matrix is not limited to simple editing such as color correction and detail enhancement. It can be used for various purposes such as coloring of gray scale moving images, stabilization of color tone, and color transfer from still images to moving images. The stability and wide range of application of this method are useful.

Abstract

【課題】 位置の対応関係に基づかないフレーム間の編集パラメータの移送を用いたフレーム間の連続性を保持する動画編集方法及び装置を提供する。 【解決手段】 動画を形成する複数枚の時系列画像を記憶する手段と、時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成手段と、を備える。

Description

動画編集方法及び装置
本発明は、動画を形成するフレーム間の連続性を保持する動画編集方法及び装置に係り、詳しくは、動画におけるフレーム間の連続性を保持しながら、動画の色調やテクスチャなどを編集するための手法に関する。
近年、携帯電話やデジタルカメラなどの比較的安価なデバイスを用いて動画が撮影できるようになったことで、これまで一部の映像制作においてしか用いられてこなかった動画の編集技術に対する一般利用者からの要望が高まりつつある。
静止画の外観、すなわち色調や露光、テクスチャなどを編集するための技術は多く研究がなされている。近年では、ユーザの入力を元にして静止画を編集する手法が数多く提案されており、例えば、ユーザ制御によるモノクロ画像の着色(非特許文献1)やトーン・マッピング(非特許文献2)、色調補正(非特許文献3)、色転写(非特許文献4)などが挙げられる。これらの手法は、少ないユーザの入力情報から静止画全体を編集するものであり、ユーザが画像の一部にストロークの形で入力した編集パラメータを元にして、静止画の全てのピクセルに編集パラメータを割り当てる。これらの手法の特徴は、割り当てられた編集パラメータが静止画中の物体領域をマスクするだけでなく、領域の境界における合成の程度も同時に計算できるという点にある。
上記手法に一貫する技術思想は、ユーザによる入力を基にした最適化問題を解くことにより、ユーザ入力に潜む意図を静止画全体に適応するというものであり、この考え方は動画においても有用と考えられる。しかしながら、動画は多くのフレームから構成されるが故に、静止画における既存手法を動画にそのまま適応しようとする場合には多くのユーザ入力が必要である。より具体的には、ビデオなどの動画像に対して、部分的な編集処理(例えば、特定の物体の色を変えるなど)を施そうとすると、1フレームごとに指示するか、多くても10~20フレームに1枚に指示を入れる必要がある。ビデオは1秒間に30フレームを含むため、ちょっとした長さであっても相当の手間が必要となる。
ここで、特定のフレームに施されたユーザ入力を元にして、ユーザの意図をフレーム間で次々に移送していく手法が考えられる。従来、動画処理におけるフレーム間の連続性は、オプティカルフローと呼ばれる連続する2枚のフレーム間での位置の対応関係を基本としていた。しかし、物体や背景が他の物体によって遮られて見えなくなったり、フレームから出入りしたりする現象が頻繁に発生するために、位置の対応関係を採り続けることは非常に困難であり、自動的な対応関係付けは数十フレームがせいぜいであった。
また、オプティカルフローを利用しようとすると、対応のつかない部分が生じるために、当該部分を埋めるべく平滑化などの処理によって不特定領域を解消する必要があった。この平滑化は、ぼかし操作に相当するもので、編集対象部分が過度に平均化されてしまうという不具合がある。
一般に、オプティカルフローを用いる手法では、(i)フレームの全てのピクセルに位置の対応関係を正確に与えるのに時間を要する、(ii)遮蔽などの影響で全てのピクセルに対応関係を与えることができない場合がある、という課題があり、対応のつかない場所に情報を与える目的でエッジ保持フィルタなどが用いられるが(例えば、非特許文献5には、エッジ保存型平滑化フィルタに基づく近似的なオプティカルフローを用いて、領域分割のラベルを移送する手法が開示されている)、対応付けの失敗や対応関係の不足により、移送に失敗することがある。
Levin, A., Lischinski, D. and Weiss, Y.: Colorization using optimization, ACM Trans. Graph., Vol. 23, No. 3, pp. 689-694 (2004). Lischinski, D., Farbman, Z., Uyttendaele, M. and Szeliski, R.: Interactive local adjustment of tonal values, ACM Trans. Graph., Vol. 25, No. 3, pp. 646-653(2006). An, X. and Pellacini, F.: AppProp: all-pairs appearancespace edit propagation, ACM Trans. Graph., Vol. 27, No. 3, pp. 40:1-40:9 (2008). An, X. and Pellacini, F.: User-Controllable Color Transfer, Computer Graphics Forum, Vol. 29, No. 2, pp. 263-271 (2010). Lang, M., Wang, O., Aydin, T., Smolic, A. and Gross, M.: Practical temporal consistency for image-based graphics applications, ACM Trans. Graph., Vol. 31, No. 4, pp. 34:1-34:8 (2012). Williams, C. and Seeger, M.: Using the Nystrom Method to Speed Up Kernel Machines, Advances in Neural Information Processing Systems 13, pp. 682-688 (2001). ZHANG K., TSANG I. W., KWOK J. T.: Improved nystrom low-rank approximation and error analysis. In Proc. of Int'l Conf. on Machine Learning (2008), pp. 1232-1239. Gastal, E. S. L. and Oliveira, M. M.: Domain transform for edge-aware image and video processing, ACM Trans. Graph., Vol. 30, No. 4, pp. 69:1-69:12 (2011). Yatziv, L. and Sapiro, G.: Fast image and video colorization using chrominance blending, IEEE Trans. On Image Processing, Vol. 15, No. 5, pp. 1120-1129 (2006). Farbman, Z. and Lischinski, D.: Tonal stabilization of video, ACM Trans. Graph., Vol. 30, No. 4, pp. 89:1-89:10 (2011). Reinhard, E., Adhikhmin, M., Gooch, B. and Shirley, P.: Color transfer between images, Computer Graphics and Applications, IEEE, Vol. 21, No. 5, pp. 34 -41 (2001).
本発明は、このような位置の対応関係に基づかないフレーム間の編集パラメータの移送を用いたフレーム間の連続性を保持する動画編集方法及び装置を提供することを目的とするものである。
 本発明は、
 動画を形成する複数枚の時系列画像を記憶する手段と、
 時間軸方向に隣接する2枚の画像、すなわち第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、
 前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、
 前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成手段と、
 を備えた動画編集装置、である。
 1つの態様では、前記複数枚の時系列画像から選択された少なくとも1枚の画像(後述する「アンカーフレーム」)を編集するための初期編集情報マップを生成する初期編集情報マップ生成手段を備えており、
 前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである。
 1つの態様では、前記初期編集情報マップ生成手段は、ユーザ入力に基づいて前記初期編集情報マップを生成する。
 ユーザ入力(例えば、ポインティングデバイスを用いた入力)によって静止画を編集する手段としては、様々な手法が当業者に知られており、ある画像を編集するための編集情報(編集情報マップ)が得られるものであれば、初期編集情報マップ生成手段の具体的な構成は限定されない。
 1つの態様では、前記初期編集情報マップから出発して、前記継承行列生成手段及び前記編集情報マップ生成手段を用いて、各時系列画像に対応する編集情報マップを時間軸方向に順次生成(移送)し、
 前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する。
 1つの態様では、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、早い時刻から遅い時刻(t→t+1)への処理として実行されるが、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、遅い時刻から早い時刻(t→t‐1)への処理として実行してもよい。
 1つの態様では、1枚のアンカーフレームtから早い時刻から遅い時刻(t→t+1)、遅い時刻から早い時刻(t→t‐1)の両方向に処理を実行してもよい。
 1つの態様では、時間軸方向に離隔した2枚のアンカーフレームが選択され、一方のアンカーフレームを基準に早い時刻から遅い時刻(t→t+1)へ処理が実行され、他方のアンカーフレームを基準に遅い時刻から早い時刻(t→t‐1)へ処理が実行される。
 1つの態様では、編集情報マップ生成時に計算された継承行列(近似継承行列を含む)は、記憶部に記憶しておいても、あるいは、対応する編集情報マップを生成した後に破棄してもよい。
 1つの態様では、時間軸方向に隣接する各画像対の間の継承行列は、編集情報マップを生成する前に予め取得され記憶部に記憶されている。
 1つの態様では、前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている。
 本発明に用いることができる編集処理の種類は、各ピクセルを編集するための関数が特定の有限個のパラメータからなっているものであればいかなる編集処理であってもよく、編集処理の種類は限定されない。
 編集処理の種類としては、色調変換(色転写、グレースケールの着色を含む)、色変化の安定化、テクスチャの鮮明化等が例示される。
 編集情報ないし編集パラメータは、編集処理の具体的な内容に応じて当業者において適宜設定される。
 前記継承行列生成手段は、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する。
 最適化計算に用いるエネルギー関数について説明する。
 表1は、後述する実施形態で用いたエネルギー関数であり、左の列に示しているものが、正方向の継承、すなわちtフレームからt+1フレームへの継承行列を導き出すための式に係るものであり、右の列に示しているものは逆方向の継承、すなわちt+1フレームからtフレームへの継承を表す継承行列を導き出すための式を示している。
Figure JPOXMLDOC01-appb-T000009
 上記高速版t→t+1において、
Figure JPOXMLDOC01-appb-I000010
 上記高速版t+1→tにおいて、
Figure JPOXMLDOC01-appb-I000011
である。
 etはフレームtにおける編集情報(編集パラメータ、定数)、
 et+1はフレームt+1における編集情報(編集パラメータ、変数)、
 ct iはフレームtの位置iに存在するピクセルのLab色情報、
 xt iはフレームtのピクセルの位置情報(座標)、
 σctは時間軸方向における色情報の差に関する重み定数、
 σsは位置情報に関する重み定数、
 σcは色情報に関する重み定数、
 ||・||はベクトルのL2ノルム、
である。
 表2は、上記の高速版をより一般的な形で記載したものである。
Figure JPOXMLDOC01-appb-T000012
 上記一般化版t→t+1において、
Figure JPOXMLDOC01-appb-I000013
 上記一般化版t+1→tにおいて、
Figure JPOXMLDOC01-appb-I000014
である。
 各記号の説明については、上述の記載を援用することができる。
 σstは、時間軸方向を含めた位置の差に対する重み定数、である。
 上記複数の式について、ある技術思想を表現する数式の形は当業者において適宜設定し得るものであり、当業者において等価な式は、本発明の技術的範囲に属するものである。
 1つの態様では、編集情報マップの時間軸方向の連続性を保証する項は、「隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。」という仮定に基づき、同じフレーム内での編集パラメータの一貫性を保証する項は、「ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。」という仮定に基づくものである。
 後述する実施形態(tフレームからt+1フレーム)では、前記関数は、
Figure JPOXMLDOC01-appb-I000015
であり、
Figure JPOXMLDOC01-appb-I000016
である。
 各記号の説明については、上述の記載を援用することができる。
 後述する他の実施形態では、継承行列は、以下の目的関数を用いたフレーム間でのエネルギー最小化問題として定義される。
Figure JPOXMLDOC01-appb-I000017
 この目的関数は、画素特徴が類似した画素同士には同じような編集パラメータが割り当てられるという仮定に基づく。前項は前フレームからの拘束、後項は現フレーム内での拘束を表す。
 ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であり、詳しくは、
Figure JPOXMLDOC01-appb-I000018
となる。
 fk iは、フレームkのピクセルiが持つ画素特徴。一般にはL*a*b*色表現が3次元、フレーム内位置(x, y)が2次元、時間成分tが1次元の計6次元ベクトルである。
 ek iは、フレームkのピクセルiに対する編集パラメータである。
 nは、動画の各フレームに含まれるピクセル数である。
 継承行列の計算において、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似し、疎行列のみの場合には、そのまま計算することも可能である。そして、編集情報マップの生成手段は、前記の近似手段ないし直接計算によって生成された継承行列を用いて、編集情報マップを生成することができる。
 後述する実施形態では、前記継承行列生成手段は、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似手段を備えており、
 編集情報マップ生成手段は、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する。
 1つの態様では、前記近似手段は、Nystrom法を用いた近似手段である。後述する実施形態では、k-means法に基づくNystrom法を採用している。
 なお、行列計算を高速に行なう手段としては、幾つかの手法が当業者に知られており、例えば、行列が疎行列の場合には値を持つ要素のみを計算することで高速に計算してもよい。
 本発明は、方法の発明としても規定することができ、
 時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成ステップと、
 前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成ステップと、
 前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成ステップと、
 を備えた動画編集方法、である。
 本発明に係る動画像編集装置を構成する各手段のハードウェア構成は、1つあるいは複数のコンピュータから構成することができる。コンピュータは、典型的には、動画像を形成する複数の時系列画像、各種画像編集プログラム、編集情報マップ、編集処理画像等の各種データを格納する記憶部、各種計算を行う演算処理部、各映像(元動画像、編集動画像)を表示する表示部、コンピュータを操作するための入力部、計算結果等のデータを出力する出力部、を備えており、汎用コンピュータ(入力部、出力部、演算部、記憶部、表示部等を備える)を用いることができる。
 本発明に係る動画像編集方法は、1つあるいは複数のコンピュータによって実行することができる。
 本発明は、さらに、動画編集方法をコンピュータに実行させるためのコンピュータプログラム、あるいは、当該コンピュータプログラムが記録された記録媒体としても定義される。
 本発明はオプティカルフローには依拠せずに、連続するフレームのピクセル間の対応関係を表現し、編集操作の伝播を実行するものであり、位置の対応関係を用いた処理に起因する課題を解決でき、また、ユーザが一部のフレームに対して入力した編集パラメータの安定な移送を実現する。従来、物体による相互遮蔽やフレームアウトなどに起因する対応関係の欠落を避けられないオプティカルフローでは、平滑化処理などを必要とするが、結果として、編集情報が急速に平均化され、数十フレーム程度で消失してしまうという問題があった。継承行列表現を用いることによって、この問題を解決し、安定的に編集情報を伝播することが可能となる。
 本発明は、編集情報と独立して得られる継承行列により生成される編集情報マップを用いることで、多くの編集処理に対応できる。編集操作の表現は、あるピクセルを編集するための関数を規定するパラメータから成る多次元情報である。たとえば、色調補正において、色相、彩度、明度を編集することを考えた場合には、各ピクセルはそれぞれの変化量を表す三次元ベクトルを有することになる。すなわち、編集操作の表現は、汎用的な表現となっており、多くの応用に適用できる。例えば、部分的な色の変更、色変化の安定化、テクスチャの鮮明化など、様々な応用が考えられる。
提案手法の概念図である。 提案手法を示すブロック図である。記憶部には、時系列元画像セット(元動画)が格納されており、元動画は表示部に表示される。編集処理部は、初期編集情報マップ生成手段、継承行列生成手段、編集情報マップ生成手段、編集画像生成手段を備えている。選択された画像に対して入力部が編集入力を行うことで、初期編集情報マップ生成手段によって初期編集情報マップが生成され、編集情報マップデータとして記憶部に記憶される。継承行列生成手段は、時間軸方向に隣接する画像のピクセル情報を用いて、継承行列を生成する。継承行列は継承行列データとして記憶部に記憶してもよい。編集情報マップ生成手段は、時間軸方向に隣接する画像間の継承行列と時間軸方向に隣接する継承元画像の編集情報マップを用いて、着目する画像の編集情報マップを生成する。編集情報マップは編集情報マップデータとして記憶部に記憶される。編集画像生成手段は、着目する画像の編集情報マップを用いて、当該着目する画像の編集画像を生成する。編集画像は事例列編集画像(編集動画)として記憶部に記憶され、編集動画は表示部に表示される。 継承行列による動画の色調補正結果を示す図である。この結果は最初のフレームにのみユーザ入力を行って作成したものである。行ったユーザ入力は上段の一番左に示した(ワイングラスの中のワインを指定するストローク、フレーム上下の略直線状の2本のストローク、ワイングラスの背景の波状のストロークの4つの入力がある)。実際の第1フレームの画像では、赤ワインの色を明るくする編集処理を行っている。この動画では最初のフレームに写っている片方のワイングラスにしか入力を入れていないが、のちに現れるワインボトルから注がれるワインについても適切に色(明るい赤色)が編集されている。 動画に対する詳細強調の結果を示す図である。この結果は継承行列により伝搬したパラメータに基づいて、定義域変換によるエッジ保存フィルタ(非特許文献8)を用いたマルチスケール分解で詳細強調を行っている。この動画では花の部分の詳細が強調されている一方で背景や葉の部分にはぼかしをかけている。 2つのアンカーフレーム(第1フレーム、第224フレーム)を用いた色調変換の結果を示す図である。元の動画では黄色のモミジの葉が風で揺られているが、最初と最後のフレームに異なる色調変化を与えるユーザ入力を行うことで徐々に葉の色が変化するよう編集を行った。この結果は、2つのアンカーフレームから得られるパラメータを線形補間することにより作成しているが、補間の仕方は線形に限らず、例えばシグモイドカーネルのようなものを用いて補間を行ってもよい。実際には、第1フレーム上では、元画像のモミジの黄色をより鮮やかな色へと変更する編集(彩度を上げている)が入力され、第224フレームでは、元画像のモミジの黄色を赤とする編集が入力されている。 グレースケール動画に対する着色処理を示す図である。この結果はアンカーフレームに対してグラフ探索によるグレースケール画像の着色処理(非特許文献9)を行い、その結果を継承行列により伝搬したものである。実際の編集画像において、熱帯魚がオレンジ、イソギンチャクがパープル、背景がブルーに着色されている。 動画の色調安定化結果を示す図である。この結果では入力動画において見られる色度の揺れが、出力動画において除去されていることがわかる。また従来手法(非特許文献10)と比べるとわずかな違いではあるがソファー周辺の色がより安定していることがわかる。 継承行列を用いた静止画から動画への色転写の結果を示す図である。入力動画の1フレーム目および参照画像にユーザ入力が行われている。入力画像の花の色はイエローであり、参照画像のチューリップのオレンジを入力画像の花の色に転写する。また、参照画像の背景のテクスチャを入力画像の背景に転写する。入力動画の方にのみ存在する赤の入力は蝶の部分の色調が変化しないようにするためのものである。 Langらによる近似的なオプティカルフローを用いた編集情報マップの伝搬法(非特許文献5)との比較を示す。 この画像は同じ編集情報マップをフレーム分伝搬した結果であり、従来法が部分的にしか適切な伝搬を行えていない一方で、提案手法は適切かつ安定に伝搬を行えている。
[1]概要
フレーム間連続性を保持する動画編集法の実施形態について説明する。本実施形態の概念図を図1に示す。上段が元動画の時系列画像(入力画像)、中段が編集情報(編集情報マップ)、下段が編集時系列画像(出力画像)である。本実施形態では、時間軸方向に隣接するフレーム(静止画)間の位置の対応関係を用いず、フレーム間の対応関係を1つの正方行列により記述する。これは、あるフレームの各ピクセルが持つ性質は、前のフレームのピクセルが持つ性質の線形結合(凸結合)により表現できるという仮定に基づいている。この線形結合の係数により構成される正方行列によってフレーム間の対応関係を記述する。本明細書ではこの行列を「継承行列(inheritance matrix)」ないし編集量伝搬行列(Edit-Propagation Matrix)と呼ぶ。なお、各フレームに含まれる画素数が同じ場合は正方行列となるが、本発明に係る手法は正方行列を用いるものに限定されない。
継承行列において、t+1フレームの画像の各ピクセルが、tフレームの画像のピクセルの重み付けで表される。重み付けの計算には、ピクセル間の類似性が用いられる。類似性は、空間的な距離の類似(近さ)、色としての類似(色が近い)で測る。継承行列によって、t+1フレームの画像の全てのピクセルが、前のフレームtの画像の類似したピクセルの重み付けで表現される。これに対して、オプティカルフローを用いた処理では、t+1フレームの画像でフレームインしたピクセル、tフレームの画像では隠されていたピクセルは、前のtフレームの画像のピクセルとtフレームの画像のピクセルの組み合わせとしては表現できない。
本明細書において、ユーザが入力を行うフレーム(静止画)をアンカーフレームと呼び、最初にアンカーフレーム上の編集情報を作成する。この編集情報を以下では編集情報マップと呼ぶ。編集情報マップは、以下のような要件を備えている。
 (i)動画像を形成する各画像(フレーム)のピクセル数と同数のピクセル数からなる。なお、要件(i)は、典型的な実施態様を示すものであり、編集情報マップのピクセル数と動画を形成する各画像のピクセル数は同数でなくてもよい。
 (ii)各画像tに対応して編集情報マップtが存在する。
 (iii)一部あるいは全てのピクセルに編集パラメータが割り当てられている。一部のピクセルに編集パラメータが割り当てられている場合には、編集を要しないピクセルには編集パラメータが割り当てられていない。全てのピクセルに編集パラメータが割り当てられている場合に、編集を要しないピクセルについては、編集情報マップに保存されている編集度合の大きさは0である。編集パラメータは、各ピクセルのピクセル値をどのように編集するかの関数を決定する。例えば、編集パラメータ=(元の色情報→編集後の色情報の変化量)として規定できる。また、ある画像のピクセルiがIiであり、変更後のピクセルを、編集パラメータeiを用いて、I'i=f(Ii, ei)のように決定する。たとえば、Iiがピクセルの色(c1,c2,c3)であり、変更後の色が(c'1,c'2,c'3)=(a1*c1,a2*c2,a3*c3)のように計算される場合に、(a1,a2,a3)が編集パラメータとなる。
 (iv)画像tの各ピクセルについて、編集情報マップtの対応するピクセルの編集パラメータによって編集処理を適用することで編集画像tが得られる。
編集情報マップを逐次、時間軸方向の隣接フレームに移送していくことで、動画全体に編集情報の付与を行う。本実施形態では動画の特定のフレームに対して施した編集結果それ自体を移送するのではなく、あるフレームのピクセルごとに割り当てられる編集パラメータを編集情報マップの形で、次のフレームに移送する。継承行列により編集情報マップを移送することで、ユーザの意図に沿った編集を、より少ないユーザ入力で動画全体に実現する。本実施形態に係る手法は大きく2つの処理に分けられる。
第1の処理は、ユーザが入力を行ったフレーム(アンカーフレーム)上での処理である。静止画上でユーザ入力から画像全体の編集情報マップを推定する手法はすでに幾つか提案されており、本実施形態ではAnとPellaciniによる外観編集法(非特許文献3)を用いる。なお、本発明に適用される編集情報マップの推定法は非特許文献3に係る手法に限定されるものではない。
第2の処理は、アンカーフレームに対して作成された編集情報マップを隣接するフレームに移送する処理である。この処理は隣接する2枚の画像から計算される継承行列を用いて行われる。継承行列はエネルギー関数の最適化により求められる行列であり、移送するマップの種類や値に依存しないという特徴を持つ。
本実施形態に係る手法をより詳細に説明すると、以下のようなソフトウェアモジュールないしステップから構成される。
1.編集情報の初期化
アンカーフレームに対するユーザからの入力(scribble)をもとに、動画像と同じ画素数からなる「編集情報マップe0」を生成する。
2.編集情報の適用
編集情報マップに応じて、当該フレームに編集処理を施す。
3.最適化による継承行列の計算
現在のフレームtの画像のピクセルの位置情報及びピクセル値情報(色情報)と、次のフレームt+1の画像のピクセルの位置情報及びピクセル値情報(色情報)と、を用いた最適化計算によって時間軸方向に隣接する2つのフレームの画像のピクセル同士の対応関係である「継承行列Mt+1/t」を求める。継承行列は、次のフレームt+1の各ピクセル値を、現在のフレームtのピクセル値の線形結合によって表現する。
4.編集情報の更新
現在のフレームtの画像に対応する編集情報マップetに、継承行列Mt+1/tを適用して、次のフレームt+1の編集情報マップet+1を作成する。
[2]アンカーフレームにおける編集情報マップの作成
動画の各フレームがnピクセルから成るとすると、各ピクセルに対してi=1,….,nという番号を与えることができる。ここで、ユーザによりピクセルiに与えられる編集パラメータを^giとおく。またユーザ入力が行われているかを表すラベルを^wiとおく。具体的には^wiはピクセルiに入力が行われているとき1、行われていないとき0をとる。
最終的にピクセルiに与えられる編集パラメータを^eiを求めるためのエネルギー関数^Eを次のように定義することができる。
Figure JPOXMLDOC01-appb-I000019
この式において^zijはピクセルiとjの間の類似度を表し、次のように定義される:
Figure JPOXMLDOC01-appb-I000020
ここで、^xiはピクセルiの位置情報、^ciはピクセルiのLabからなる色情報を表すベクトルである。また、定数σsおよびσcは編集情報マップの一貫性を保つべき位置および色近傍の範囲を制御するパラメータである。具体的には、定数σsは位置情報に関する重み付け、定数σcは色情報に関する重み付けである。式(1)は狭義凸関数をなすので、各^eiでの偏微分が全て0になる点で最小値を取る。||・||はベクトルのL2ノルムである。上記エネルギー関数は、2つの項からなり、前項は、ユーザ入力の編集パラメータと最終の編集情報マップの編集パラメータとの整合性を保証しており、後項は、類似の色を備えた近隣のピクセルには同様の編集パラメータが割り当てられることを保証している。定数^λは、上記2つの項をバランスさせるものであり、当業者により適宜設定できる。
よって、式(1)を最小化する^eiはベクトル形式で次のように得られる。
Figure JPOXMLDOC01-appb-I000021
ここで^Zは^zijを成分に持つ行列であり、^D、^Wはi番目の対角成分にそれぞれ
Figure JPOXMLDOC01-appb-I000022
を持つ対角行列である。また、gはピクセルiに入力された編集パラメータgiを成分に持つベクトルを表す。式(2)は大規模密行列^Zを含むため、一般の計算機によってこれを計算することは困難である。そこで^Zが低ランクかつ半正定値であるという特徴を用いた近似法であるNystrom 法を用いて近似を行う(非特許文献3参照)。
Figure JPOXMLDOC01-appb-I000023
[3]継承行列による編集情報マップの移送
アンカーフレームにおいて計算された編集情報マップは継承行列によって、隣接するフレームから順々に伝搬されていく。継承行列は、隣接する2枚のフレームのピクセルの位置情報及びピクセル値情報から計算される行列であり、2枚のフレームが持つピクセルの色を縦に並べたベクトルをIt, It+1のように置くと、
Figure JPOXMLDOC01-appb-I000024
のような関係を持つ。
式(3)において、
Figure JPOXMLDOC01-appb-I000025
が継承行列であり、右上の添え字は、フレームtからフレームt+1の継承を表す行列であることを示す。
本発明では、各フレームに与えられるべき編集情報マップが式(3)のような関係を持っていることを仮定している。すなわち、フレームtにおける編集情報マップをetのように表すことにすれば、次のような関係式が成り立っていることを仮定している。
Figure JPOXMLDOC01-appb-I000026
ここで解くべき問題は、このような線形の関係式を導くような継承行列Mt+1/tをどのように導くかということである。今、あるエネルギー関数の最適解として、式(4)が与えられると考えると、そのエネルギー関数はある行列に関する二次形式をしていると考えられる。そのようなエネルギー関数を定義するために、次のような仮定を置く。
(i)隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。
(ii)ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。
この仮定をもとに次のような二つの重みづけ関数を定義する。
Figure JPOXMLDOC01-appb-I000027
式(5)および(6)において、ct iはフレームtの位置iに存在するピクセルのLab色情報を表し、xt iはフレームtのピクセルの位置を表す。またこれらの式において用いられている三種類のパラメータσct、σsおよびσcは各成分の違いをどの程度許容するかという値になっている。具体的には、定数σctは時間軸方向における色情報の差に関する重み付け、定数σsは位置情報に関する重み付け、定数σcは色情報に関する重み付けであり、当業者により適宜設定される。
実験において用いられているパラメータは表3に示した。
これらの重み付け関数を用いて、次のようなエネルギー関数を定義する。
Figure JPOXMLDOC01-appb-I000028
エネルギー関数は2つの項からなる。前項は、編集情報マップの時間軸方向の連続性を保証するものであり、後項は、同じフレーム内での編集パラメータの一貫性を保証している。式(6)に規定するように、編集パラメータの一貫性は、ピクセルの空間位置及び色の類似性に従うものである。λは、上記2つの項をバランスさせる定数であり、当業者により適宜設定される。このエネルギー関数も式(1)同様に狭義凸関数をなすため、これを最小化するような解は一つに決まる。
式(7) を各et+1 i、i=1,….,nで偏微分することで得られるn本の方程式が0になるとすると、
Figure JPOXMLDOC01-appb-I000029
という関係式が得られる。これを改めてベクトルと行列を用いて書き直すと次のようになる。
Figure JPOXMLDOC01-appb-I000030
ただしDt+1/tはn×nの対角行列で、そのi番目の対角要素が
Figure JPOXMLDOC01-appb-I000031
となっている。
 Wt+1/tも同様にn×nの対角行列で、その対角要素はwt+1/t iである。この関係式は式(4)と同じ形をしており、目的の継承行列が求められている。この継承行列も計算のためには大規模密行列Zt+1の積を計算する必要があり、式(2)同様にNystrom法を用いた近似が必要である。
 次に、改良された編集量伝搬行列の導出について説明する。あるフレームに与えられた編集量を伝搬する問題では一般にフレームtからt+1への編集量の伝搬を考える。ここでは簡単のため、フレーム1から2 への伝搬を説明する。前処理として、フレーム1について予め編集量を計算しておく。各フレームに含まれる画素数をn として、フレーム1に対する編集量をe1=(e1 1,…,e1 n)Tのように表す。目的は、このe1からe2を求めることである。e2 を求めるため、色と位置が近い二つの画素は似た編集量を持つと仮定して目的関数を導く。
 画素特徴ベクトルf t i (t=1,2,i=1,…,n) を画素のL*a*b*色情報と位置(xt i, yt )から、
Figure JPOXMLDOC01-appb-I000032
と表す。この際、ft iの各成分は色成分がσcで、位置成分がσsで適当にスケーリングされている。画素間の類似度はft iから、
Figure JPOXMLDOC01-appb-I000033
と定義する。先ほどの仮定に基づくと、e2を求めるための目的関数は次のようになる。
Figure JPOXMLDOC01-appb-I000034
 この目的関数を最小化するe2が編集量である。
 目的関数を最小化するため、目的関数を各e2 iで偏微分すると、次式が得られる。
Figure JPOXMLDOC01-appb-I000035
 各iに対して求まる式を行列形式で書き直す。そのために、新たに二つのn次正方行列Zkl、Dklを次のように定める。
Figure JPOXMLDOC01-appb-I000036
 但し、diag{・・・}は{・・・}を対角成分に持つ対角行列を表す。すると、上記式は、

Figure JPOXMLDOC01-appb-I000037
と書き直せる。証明は省略するがD22+1/2D21-Z22は正定値行列なので逆行列が求まり、
Figure JPOXMLDOC01-appb-I000038
となる。M21が編集量伝搬行列である。
 編集量伝搬行列 は大規模行列の積によって書き表されるため、そのまま計算するのは現実的でない。そこで従来法(非特許文献3)と同様Nystrom 法を用いて行列を近似する。提案法と従来法 の相違点は以下の二点である。
1) 一般のNystrom 法を拡張し、非対称の類似度行列を近似する。
2) 行列自体の近似精度ではなく、行列とベクトルの積の近似精度に注目する。
 一般のNystrom 法は対称半正定値行列を対象としているため、Z21のような非対称の類似度行列を扱うことはできない。そこで、次のようなブロック行列を考える。
Figure JPOXMLDOC01-appb-I000039
 この行列は対称半正定値であり、Nystrom法により近似できる。
[4]継承行列の近似
継承行列を含め、式(2)なども計算には大規模密行列Zt+1/tあるいは^Zの計算を行う必要がある。ところが、これらの行列は画像のピクセル数nに対してn×nの大きさであり、一般的な計算機で計算を行うことは、行列を保持するための記憶部の容量と計算時間の両面から困難である。以下では、簡単のために、行列の添え字を省略する。
Nystrom法の適用方法
Nystrom法は行列が低ランクである場合、少ない数の固有値と固有ベクトルだけを用いて効率的に行列を近似することができる。この固有値および固有ベクトルを近似的に求めるためにNystrom 法では元の行列の列ないし行をサンプリングする(非特許文献6)。
本手法は2枚の隣接するフレームごとにNystrom法による近似が必要であるため、従来の列をサンプリングするNystrom法では精度が不十分であった。そのため、本実施形態ではZhangらが提案したk-means法に基づくNystrom法(非特許文献7)を用いる。
まず、入力されたフレームをピクセルのLab色情報と位置の情報に基づきk-means法でクラスタリングする。本来は、行列Zのランクを用いてk個のクラスタに分割するのが理想的であるが、実際にこのkを求めるには、ある程度の計算量が必要であること、無視しても差し支えない小さな固有値によりkが必要以上に大きくなってしまうことを防ぐためサンプル数mを設定する。入力データをm個のクラスタに分解したとすると、それぞれのクラスタについてクラスタ中心
Figure JPOXMLDOC01-appb-I000040
が得られる。これを用いて、次の行列
Figure JPOXMLDOC01-appb-I000041
を計算する。
Figure JPOXMLDOC01-appb-I000042
この行列UおよびAを用いると、Nystrom 法により
Figure JPOXMLDOC01-appb-I000043
という近似が得られる。
 継承行列の近似に必要な残りの計算は
Figure JPOXMLDOC01-appb-I000044
であるが、これはWoodburyの公式あるいは逆行列の補題と呼ばれる定理を用いることで次のように計算が可能である。
Figure JPOXMLDOC01-appb-I000045
この式は、小さな行列同士の積のみから成り立っており、実際に計算が可能である。以上の計算方法を用いることで、継承行列は以下のように近似される。
Figure JPOXMLDOC01-appb-I000046
この近似した継承行列をアンカーフレームにおいて計算された編集情報マップに順々に適用していくことで、最終的な動画編集の結果を得る。
 行列Zは、下記のように、より小さなサイズの行列U、Aの積で表現され、継承行列を再現するためには上述の式の行列U、行列A、行列Wを保存しておけばよい。
Figure JPOXMLDOC01-appb-I000047
 さらに、Nystrom法による近似の他の態様について説明する。
 通常のNystrom 法は半正定値対象行列Z とその低ランク近似Zの間で、
Figure JPOXMLDOC01-appb-I000048
ができる限り小さくなるように行列を近似をする。このとき∥・∥は行列のスペクトル・ノルムあるいはフロベニウス・ノルムを指す。スペクトル・ノルムとは行列の最大特異値に対応する値であり、フロベニウス・ノルムとは行列の各成分の二乗和の平方根をとったもので、それぞれ次のように表される。
Figure JPOXMLDOC01-appb-I000049
応用においては半正定値行列Z がデータ列{xi}N i=1からガウス・カーネルを用いて計算される行列として、
Figure JPOXMLDOC01-appb-I000050
のように計算されることが多い。ただし、Z = (zij)1≦I,j≦Nのように書くとき、Zの(i,j)成分がzijであることを表すものとする。この式に示す行列を、データ列から計算される類似度行列とよぶ。
Zhangらのk-means法を用いたNystrom法はこのデータ列をあらかじめK個のクラスタに分割する。これを{ck}K k=1とする。元の行列Zは次のように近似される。
Figure JPOXMLDOC01-appb-I000051
提案するNystrom 法におけるサンプリングについて説明する。本発明に係る動画編集法では第1フレームと第2フレームがそれぞれもつN個の画素、すなわち合計2N個の画素特徴から計算される巨大な行列を近似する必要がある。一般にk-means法の計算量は入力データ数n、出力クラスタ数k、反復回数sに対してO(nks)となり、それほど高速でない。
 また、ZhangらのNystrom法をそのまま適用すると編集パラメータの情報を全く反映することなくクラスタ中心が計算されるため、比較的小さな画像領域に編集パラメータが割り当てられている場合に適切な編集結果が得られないことがある。
 そこで、より高速に、かつ編集パラメータを反映した行列近似を行うことを考える。
 改良手法では、k-means 法により特徴ベクトルをクラスタリングする際、第1フレームと第2フレームでは画素特徴(色と位置と編集パラメータ)の分布が非常に近いと仮定し、第1フレームのみを以下の距離関数に従ってクラスタリングする。すなわち、画像情報(色情報、位置情報)に加えて編集パラメータもクラスタリングに利用する。
Figure JPOXMLDOC01-appb-I000052
ただし画素特徴fi はこれまでの色と位置のみによる定義fiから
Figure JPOXMLDOC01-appb-I000053
という定義に拡張したものである。この画素特徴ベクトルを拡張画素特徴ベクトルと呼ぶ。
 これにより得られたクラスタ中心を{ck } とする。各ck は拡張画素特徴ベクトルと同じ次元を持つ。このクラスタ中心から色と位置の成分だけを取り出した物をckとする。あとはこれをサンプル点として上述の近似式に従い、Zhang らのNystrom 法を実行する。
[5]動画編集の結果
本実施形態に係る手法による動画編集の結果を図2、3および4に示す。それぞれの結果から、継承行列を用いた動画編集法の特徴について説明を行う。なお、各図はグレースケール画像であるが、望ましいと考えた場合には、審査時に物件提出書でカラー画像を提出する用意がある。
図2に注目すると、入力を行ったフレームに写りこんでいなかった物体についても同系統の色調を有するものを自動的に編集できていることがわかる。これはエネルギー関数である式(7)の第二項においてフレーム内での編集の一貫性を考慮しているためで、新たな物体が入り込んでくるたびにユーザ入力を追加しなくても良いというのは動画編集において利点となるといってもよい。
図3には詳細強調の結果を示した。この詳細強調は定義域変換(domain transform)によるエッジ保存フィルタ(非特許文献8)を用いて各フレームをマルチスケール分解(multi scale decomposition)した後、どのスケールの詳細をどの程度、強調・抑制するかを決定するパラメータ(テクスチャの細かさの度合いを表すパラメータ)を継承行列により伝搬している。この結果からもわかる通り、本手法はどのような編集を行うかという目的に依存せず、その編集が独立したいくつかのパラメータにより行われている場合にはいかなる編集法にも適応が可能である。
図4には複数のアンカーフレームにユーザ入力を行った場合の編集結果を示した。通常、複数のフレームにユーザ入力を行う目的は、フレームの進行に伴い蓄積したエラーが原因で起こる不適切な領域分割を防ぐためであることが多い。本手法でもそのような目的でユーザ入力を追加することは可能であるが、実験を行ったいくつかの動画について、編集パラメータの伝搬は適切かつ安定に行われており、その必要性は低いと考えられる。その一方で複数のアンカーフレームに異なる編集を施すことで、より自由度の高い編集を行うことが可能であり、図4には元の動画において黄色であるモミジの葉を、時間経過とともに徐々に赤色に色づかせるという編集を行っている。このように、編集パラメータを安定的に伝搬できるようになったことで、従来は行うことの難しかった複数フレームに対するユーザ入力の可能性を示すことができた。t+1フレームからtフレームへの継承を表す継承行列を導き出すためのエネルギー関数は、表1の右列の式を用いた。
[6]提案手法の応用
本実施形態に係る継承行列を用いた動画編集法は処理の過程を少し変更するだけで、様々な応用が可能である。本節では、その応用例として、グレースケール動画に対する着色処理、動画の色調安定化、および静止画から動画への色転写の手法を紹介する。
[6-1]グレースケール動画の着色処理
グレースケールの静止画に色をつけるという処理は、従来から多くの研究が存在しており、大きく分けると、ユーザ入力をもとにした着色処理(非特許文献1、9)と参照画像を用いた処理に分けられる。ここでは、前者のユーザ入力をもとにした手法を継承行列を用いて動画に拡張する。
着色処理に対し、式(7)をそのまま用いようとすると、第二項のフレーム内の一貫性を保つ項が強く働きすぎてしまい、全体的にぼやけた着色結果となってしまう。これは、グレースケールの画像ないし動画において、全てのピクセルが輝度値の一次元情報のみを持っており、なおかつ全体でその輝度値がそれほど大きくは変わらないということに原因があると考えられる。そこで、本手法を着色処理に用いる場合には、式(7)の第二項をピクセルの近傍のみとの一貫性を保つように変更する。
具体的には以下のような式となる。
Figure JPOXMLDOC01-appb-I000054
ただし、この式においてN4(i)はピクセルiの四近傍を指す。この式を用いて得られた動画の着色結果を図5に示す。この結果はアンカーフレームをグラフ探索による静止画像の着色処理(非特許文献9)において行い、その結果を継承行列で伝搬している。
 ここで、着色処理について、表1、表2に示す4つの式に対応してまとめると、以下の通りとなる。
Figure JPOXMLDOC01-appb-I000055
[6-2]色調安定化処理
動画の色調安定化処理とは、安価なデジタルカメラや携帯電話で動画を撮影した際に起こる色度の揺れを除去する処理である。近年、FarbmanとLischinskiにより提案されたこの処理は、基準となるアンカーフレームから他のフレームの各画素がどの程度色度のずれを起こしているかというのを計算することで実現される(非特許文献10)。従来手法においては、各フレームごとに信頼度マップやアピアランスマップと呼ばれる複数のパラメータマップを計算する必要があったが、継承行列を用いることで、これらの処理を単純化することが可能である。
あるフレームtにおいて、各ピクセルがアンカーフレームからどの程度の色度のずれを持つかという情報(編集パラメータ)をet iと表すことにする。フレームの進行に伴い、色度のずれは蓄積されていくと考えられるので、その増加分をフレーム間の色度の差により
Figure JPOXMLDOC01-appb-I000056
のように表す。
すると、フレームt +1における色度のずれは次のようにして与えられる。
Figure JPOXMLDOC01-appb-I000057
ただしLtはフレームtにおける各ピクセルの色度Lt iを成分に持つベクトルで
Figure JPOXMLDOC01-appb-I000058
を表す。このようにして得られた動画の色調安定化の結果を図6に示す。
[6-3]画像から動画への色転写
色転写(color transfer)とは、目的とする静止画の色調を参照する静止画の色調に合わせるという手法である(非特許文献11)。色転写の基本的な考え方は、画像をヒストグラムやガウス混合モデルなどの確率モデルにし、その目的画像の確率モデルを参照画像の確率モデルに近づけることで、目的画像の色調を変化させるというものである。
本手法による静止画から動画への色転写は、まずユーザ入力により領域間の対応付けを行い、その領域間でReinhardのガウス分布に基づいた色転写のパラメータを計算する。Reinhardの手法はLabの各色成分が目的画像と参照画像の両方でガウス分布をしていると仮定する。今、目的画像のk番目の色成分の平均を
Figure JPOXMLDOC01-appb-I000059
標準偏差を
Figure JPOXMLDOC01-appb-I000060
参照画像のk 番目の色成分の平均を
Figure JPOXMLDOC01-appb-I000061
標準偏差を
Figure JPOXMLDOC01-appb-I000062
と表すことにする。
目的画像の元の色を
Figure JPOXMLDOC01-appb-I000063
とすると、色転写後の目的画像の色
Figure JPOXMLDOC01-appb-I000064
は次のように表される。
Figure JPOXMLDOC01-appb-I000065
式(10)は、
Figure JPOXMLDOC01-appb-I000066
とおくことで
Figure JPOXMLDOC01-appb-I000067
と表せる。そこで本研究ではLab色空間で各成分についてakおよびbkを計算し、計6次元の情報を継承行列により伝搬した。これにより得られた色転写の結果を図7に示す。
[7]付記
[7-1]継承行列の性質
継承行列Mt+1/tは添え字などを省略すると、対称半正定値行列
Figure JPOXMLDOC01-appb-I000068
と二つの対角行列
Figure JPOXMLDOC01-appb-I000069
および実数定数
Figure JPOXMLDOC01-appb-I000070
を用いて
Figure JPOXMLDOC01-appb-I000071
の形で表せる。この行列は次のような特性を持つ。
(i)行列(D-Z)が正則であり、かつWが0かつ非負の対角成分を持つためMt+1/tも正則であり、ゆえに逆行列(Mt+1/t)-1が存在する。
(ii)継承行列Mt+1/tに逆行列が存在すれば式(4)から、それはフレームt+1からフレームtへの逆方向のパラメータの継承を表す。すなわち(Mt+1/t)-1=Mt+1/tである。
(iii)フレームtからフレームt + kまでの間の継承行列Mt+1/t,…, Mt+k-1/t+kの積はフレームtからフレームt + kへのパラメータの継承を表す。すなわち
Figure JPOXMLDOC01-appb-I000072
である。
(i)および(ii)の性質はオプティカルフローなどの位置の対応関係を考えた場合には存在しない性質である。位置の対応関係を行列として表現する場合を考えると、フレーム間でピクセルとピクセル同士の一対一の対応関係が与えられている場合にのみその行列は逆行列を持つ、すなわちフレームt+1のあるピクセルiがフレームtの二つ以上のピクセルと対応関係を持つ場合には、その行列表現が逆行列を持たない。これは位置の対応関係を取る場合においてしばしば起こりうることであり、その点で継承行列は性質が優れた行列であるといってよい。
(iii)の性質は例えばあるフレームに対して行ったユーザ入力から100フレーム後の結果をいきなり求めたい場合などに役に立つ。実際には、Mt/t+kという行列は大規模な行列であり、あらかじめ計算しておくことはできない。そのため、フレームの順序にしたがって結果を求めていく。大容量記憶部を用意して、継承行列を記憶部に保存しておくことで、継承行列をより有用に扱うことができる。
[7-2]編集伝搬の精度とパラメータ
時間軸方向の伝搬の精度は従来法と比べて著しい改善が行えている。なお、フレーム内での編集伝搬の精度については、あまりに細かなユーザ入力を適切に伝搬することは簡単ではない。細かなユーザ入力を区別するためには一貫性を保つべきピクセルの近傍範囲を制御するパラメータσsを小さな値にすることが採用され得るが、σsが0に近づくと類似度行列Zの低ランクであるという性質が失われてしまい、Nystrom法による近似の精度が低下するおそれがある。
近似的なオプティカルフローにより領域ラベルの伝搬を行う従来法(非特許文献5)との比較を図8に示した。従来法は細かなテクスチャに対応できず、またフレームの進行に伴うエラー蓄積も大きいが、本手法では各結果画像に示した通り一般的な動画で5秒程度にあたる150フレームを超えてもおおむね良好に編集の伝搬が行えている。なお、本手法の実装はMATLABおよびC++を用いて行っており、実験は3.6GHzのCPU上で行った。実験で用いたパラメータを表3に示す。mは、継承行列の近似におけるサンプル数、sは、継承行列計算内の近似にあたって利用されるk-means法の繰り返し計算の回数である。
Figure JPOXMLDOC01-appb-T000073
本発明は、フレーム間の連続性を保持した動画編集法に係り、従来の動画を扱う処理において一般的であるとされてきたフレーム間の位置の対応関係に頼らず、継承行列を用いたフレーム間の線形結合性によってこれを実現した。継承行列による動画編集は従来法と比べ安定的に編集の伝搬を行うことが可能で、本手法により動画の編集がより少ない手間で行えるようになることが期待される。また継承行列の適応範囲は、色調補正や詳細強調といった単純な編集に限らない。グレースケール動画の着色や色調の安定化、静止画像から動画への色転写など、様々な用途への応用が可能である。本手法の安定性や適応範囲の広さは有用である。

Claims (21)

  1.  動画を形成する複数枚の時系列画像を記憶する手段と、
     時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、
     前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、
     前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成手段と、
     を備えた動画編集装置。
  2.  前記複数枚の時系列画像から選択された少なくとも1枚の画像を編集するための初期編集情報マップを生成する初期編集情報マップ生成手段を備えており、
     前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである、
     請求項1に記載の動画編集装置。
  3.  前記初期編集情報マップ生成手段は、ユーザ入力に基づいて前記初期編集情報マップを生成する、請求項2に記載の動画編集装置。
  4.  前記初期編集情報マップから出発して、前記継承行列生成手段及び前記編集情報マップ生成手段を用いて、各時系列画像に対応する編集情報マップを時間軸方向に順次生成し、
     前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する、
     請求項2、3いずれか1項に記載の動画編集装置。
  5.  前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている、請求項1~4いずれか1項に記載の動画編集装置。
  6.  前記継承行列生成手段は、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する、請求項1~5いずれか1項に記載の動画編集装置。
  7.  前記関数は、
    Figure JPOXMLDOC01-appb-I000001
    であり、
    Figure JPOXMLDOC01-appb-I000002
    であり、
     etはフレームtにおける編集情報(編集パラメータ)、
     et+1はフレームt+1における編集情報(編集パラメータ)、
     ct iはフレームtの位置iに存在するピクセルのLab色情報、
     xt iはフレームtのピクセルの位置情報(座標)、
     σctは時間軸方向における色情報の差に関する重み定数、
     σsは位置情報に関する重み定数、
     σcは色情報に関する重み定数、
     ||・||はベクトルのL2ノルム、
    である、請求項6に記載の動画編集装置。
  8.  前記関数は、
    Figure JPOXMLDOC01-appb-I000003
    であり、
     ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であって、
    Figure JPOXMLDOC01-appb-I000004
    であり、
     fk iは、フレームkのピクセルiが持つ画素特徴であり、
     ek iは、フレームkのピクセルiに対する編集パラメータであり、
     nは、動画の各フレームに含まれるピクセル数である、請求項6に記載の動画編集装置。
  9.  前記継承行列生成手段は、継承行列の計算において密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似手段を備えており、
     編集情報マップ生成手段は、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する、
     請求項1~8いずれか1項に記載の動画編集装置。
  10.  前記近似手段は、Nystrom法を用いた近似手段である、請求項9に記載の動画編集装置。
  11.  時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成ステップと、
     前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成ステップと、
     前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成ステップと、
     を備えた動画編集方法。
  12.  前記複数枚の時系列画像から選択された少なくとも1枚の画像を編集するための初期編集情報マップを生成する初期編集情報マップ生成ステップを備えており、
     前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである、
     請求項11に記載の動画編集方法。
  13.  前記初期編集情報マップ生成ステップは、ユーザ入力に基づいて前記初期編集情報マップを生成する、請求項12に記載の動画編集方法。
  14.  前記初期編集情報マップから出発して、各時系列画像に対応する編集情報マップを時間軸方向に順次生成し、
     各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する、
     請求項12、13いずれか1項に記載の動画編集方法。
  15.  前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている、請求項11~14いずれか1項に記載の動画編集方法。
  16.  前記継承行列生成ステップは、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する、請求項11~15いずれか1項に記載の動画編集方法。
  17.  前記関数は、
    Figure JPOXMLDOC01-appb-I000005
    であり、
    Figure JPOXMLDOC01-appb-I000006
    であり、
     etはフレームtにおける編集情報(編集パラメータ)、
     et+1はフレームt+1における編集情報(編集パラメータ)、
     ct iはフレームtの位置iに存在するピクセルのLab色情報、
     xt iはフレームtのピクセルの位置情報(座標)、
     σctは時間軸方向における色情報の差に関する重み定数、
     σsは位置情報に関する重み定数、
     σcは色情報に関する重み定数、
     ||・||はベクトルのL2ノルム、
    である、請求項16に記載の動画編集方法。
  18.  前記関数は、
    Figure JPOXMLDOC01-appb-I000007
    であり、
     ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であって、
    Figure JPOXMLDOC01-appb-I000008
    であり、
     fk iは、フレームkのピクセルiが持つ画素特徴であり、
     ek iは、フレームkのピクセルiに対する編集パラメータであり、
     nは、動画の各フレームに含まれるピクセル数である、請求項16に記載の動画編集方法。
  19.  前記継承行列生成ステップは、継承行列の計算において密行列が含まれる場合に、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似ステップを備えており、
     編集情報マップ生成ステップでは、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する、
     請求項11~18いずれか1項に記載の動画編集方法。
  20.  前記近似ステップは、Nystrom法を用いた近似である、請求項19に記載の動画編集方法。
  21.  請求項11~20いずれか1項に記載の動画編集方法をコンピュータに実行させるためのコンピュータプログラム。
     
     
PCT/JP2013/081019 2012-11-22 2013-11-18 動画編集方法及び装置 WO2014080861A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014548550A JP5846663B2 (ja) 2012-11-22 2013-11-18 動画編集方法及び装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012256274 2012-11-22
JP2012-256274 2012-11-22

Publications (1)

Publication Number Publication Date
WO2014080861A1 true WO2014080861A1 (ja) 2014-05-30

Family

ID=50776044

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/081019 WO2014080861A1 (ja) 2012-11-22 2013-11-18 動画編集方法及び装置

Country Status (2)

Country Link
JP (1) JP5846663B2 (ja)
WO (1) WO2014080861A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545052A (ja) * 2006-07-25 2009-12-17 ヒューマンアイズ テクノロジーズ リミテッド 単一スクリブルによる画像の対話型セグメンテーション

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545052A (ja) * 2006-07-25 2009-12-17 ヒューマンアイズ テクノロジーズ リミテッド 単一スクリブルによる画像の対話型セグメンテーション

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TATSUYA YATAGAWA: "Frame-kan no Renzokusei o Hoji suru Doga Henshuho", IPSJ SIG NOTES, 4 December 2012 (2012-12-04), pages 1 - 9 *
YUSUKE NARITA: "Semi-Automatic Depth Map Generation using Gray-Scale Information of an Image", PROCEEDINGS OF THE 2011 IEICE GENERAL CONFERENCE, JOHO SYSTEM 2, 28 February 2011 (2011-02-28), pages 47 *

Also Published As

Publication number Publication date
JP5846663B2 (ja) 2016-01-20
JPWO2014080861A1 (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
Kolkin et al. Style transfer by relaxed optimal transport and self-similarity
US9922432B1 (en) Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
CN111199531B (zh) 基于泊松图像融合及图像风格化的交互式数据扩展方法
Bonneel et al. Interactive intrinsic video editing
US20190139179A1 (en) Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
US9990734B2 (en) Locating and augmenting object features in images
AU2014277220B2 (en) Online modeling for real-time facial animation
Xu et al. A sparse control model for image and video editing
KR20190100320A (ko) 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체
JP5645842B2 (ja) スケールスペースを使用した画像処理装置及び方法
JP2023526566A (ja) 高速で深い顔面変形
US20220343525A1 (en) Joint depth prediction from dual-cameras and dual-pixels
Li et al. 2D amodal instance segmentation guided by 3D shape prior
RU2764144C1 (ru) Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку
CN113298821A (zh) 一种基于Nystrom谱聚类的超像素抠图方法
CN109242885B (zh) 一种基于时空非局部正则的相关滤波视频跟踪方法
JP5846663B2 (ja) 動画編集方法及び装置
Anderson et al. Using bounded diameter minimum spanning trees to build dense active appearance models
CN107330912B (zh) 一种基于多特征融合的稀疏表示的目标追踪方法
Zhao et al. Purifying naturalistic images through a real-time style transfer semantics network
Wang et al. INSPIRATION: A reinforcement learning-based human visual perception-driven image enhancement paradigm for underwater scenes
Yan et al. Re-texturing by intrinsic video
GB2585722A (en) Image manipulation
Doron et al. User directed multi-view-stereo
Yatagawa et al. Sparse pixel sampling for appearance edit propagation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13856649

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014548550

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13856649

Country of ref document: EP

Kind code of ref document: A1