WO2010073432A1 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
WO2010073432A1
WO2010073432A1 PCT/JP2009/004442 JP2009004442W WO2010073432A1 WO 2010073432 A1 WO2010073432 A1 WO 2010073432A1 JP 2009004442 W JP2009004442 W JP 2009004442W WO 2010073432 A1 WO2010073432 A1 WO 2010073432A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image frame
shape
unit
contour line
Prior art date
Application number
PCT/JP2009/004442
Other languages
English (en)
French (fr)
Inventor
池上渉一
Original Assignee
株式会社ソニー・コンピュータエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2008328741A external-priority patent/JP5595655B2/ja
Priority claimed from JP2008328742A external-priority patent/JP5468773B2/ja
Application filed by 株式会社ソニー・コンピュータエンタテインメント filed Critical 株式会社ソニー・コンピュータエンタテインメント
Priority to US13/132,365 priority Critical patent/US20110279475A1/en
Priority to EP09834250.4A priority patent/EP2372653B1/en
Publication of WO2010073432A1 publication Critical patent/WO2010073432A1/ja
Priority to US15/048,063 priority patent/US10216987B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/752Contour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Definitions

  • the present invention relates to information processing technology, and more particularly to an image processing apparatus that analyzes the position and shape of an object in an input image, and changes thereof, and an image processing method executed there.
  • Visual tracking has a wide range of applications such as computer vision, especially visual surveillance in the security field, analysis / classification, editing of recorded video in the AV field, man-machine interface, and human-to-human interface, that is, video conferencing and videophone. Expected. Therefore, many studies have been made for the purpose of improving tracking accuracy and processing efficiency. In particular, there is a lot of research on applying particle filters, which are attracting attention as a time-series analysis method for signals added with non-Gaussian noise that cannot be handled by Kalman filters, especially for the Condensation (Conditional Density Propagation) algorithm. Is famous (see, for example, Non-Patent Document 1 to Non-Patent Document 3).
  • the object to be tracked is defined by a contour line of an arbitrary shape composed of a B-spline curve or the like.
  • tracking can be performed by defining an ⁇ -shaped curve with a B-spline. This is because the shape of the head basically does not change in response to human movements such as turning and bending, so the head shape can be expressed only by translating, expanding and contracting, and rotating the ⁇ -shaped curve. (For example, refer to Patent Document 1).
  • JP 2007-328747 A Japanese Patent Laid-Open No. 9-138471 JP-A-8-329254 Japanese Patent No. 3930504 JP 2007-34733 A
  • the Condensation algorithm is a very effective method in terms of calculation load and accuracy when tracking an object such as a human head, a ball, or a car that hardly changes in shape.
  • an object such as a human head, a ball, or a car that hardly changes in shape.
  • the shape of the object changes and the object cannot be expressed simply by translating, expanding, contracting, and rotating a specific shape, it is difficult to track with high accuracy. For this reason, a technique capable of recognizing changes in the shape and position of an object with a small amount of calculation has been desired.
  • the outline of an object is basically cut out manually, but it is a difficult task to cut out each frame of a video. There is a cost.
  • the active contour model there is a problem that the initial setting of the contour model is required for each target object, or the final result is influenced by the initial setting. Further, since the amount of calculation is large, there is a problem that, when the contour of the object in the moving image is sequentially obtained, such as the above-described visual tracking technique, it is impossible to follow the change in the shape of the object.
  • the background difference when the background difference is used, the shooting environment is limited, such as the need to fix the background, and the application range is narrow.
  • the present invention has been made in view of such problems, and an object thereof is to provide an image processing technique capable of recognizing a change in the shape and position of an object without increasing a calculation load. It is another object of the present invention to provide an image processing technique that enables various visual effects on an object having a motion in a desired moving image without increasing the cost.
  • An aspect of the present invention relates to an image processing apparatus.
  • the image processing apparatus defines a reference shape storage unit that stores a plurality of parameters that define contour lines of a plurality of reference shapes, and sets of coefficients for each parameter in a linear sum of the plurality of parameters stored in the reference shape storage unit.
  • the apparatus includes a target shape determining unit that outputs the contour shape of the target object in the image as a linear sum.
  • the image processing apparatus further includes an image acquisition unit that acquires moving image stream data including a first image frame and a second image frame obtained by imaging an object, and the object shape determination unit is defined by a set of coefficients.
  • a shape prediction unit that generates and extinguishes particles used for the particle filter based on the estimated existence probability distribution of the target object in the first image frame in the coefficient set space, and makes a transition based on a predetermined transition model;
  • An observation unit for observing the likelihood of each particle by matching the contour line of the object in the second image frame with the candidate contour determined by the particle, and the second image frame based on the likelihood observed by the observation unit
  • the estimated existence probability distribution in the coefficient set space of the target object is calculated, and each parameter is calculated based on the estimated existence probability distribution.
  • first image frame and the “second image frame” may be adjacent image frames in the image stream or may be image frames positioned apart from each other.
  • first image frame is an image frame temporally prior to the “second image frame”.
  • a “candidate contour” is a contour line of a part or the whole of an object.
  • “Likelihood” is a degree representing how close the candidate contour is to the object. For example, when the tracking candidate is a two-dimensional figure, the degree of overlap with the object, the distance to the object, etc. Is a numerical value.
  • Particles are introduced in the particle filter, which is one of the methods for estimating the current state from past information and current observation information.
  • the sampling frequency of the parameter to be observed exists in the parameter space. It is expressed by the number of particles to be played.
  • Another aspect of the present invention relates to an image processing method.
  • This image processing method uses a step of reading a plurality of parameters defining outlines of a plurality of reference shapes from a storage device, determining a set of coefficients for each parameter in a linear sum of the parameters, and using the set of determined coefficients And expressing the contour line of the object in the image as a linear sum and outputting it.
  • the image processing apparatus includes a contour line acquisition unit that acquires a contour line of an object from an image frame constituting a moving image, and a predetermined part of the object based on the contour line of the object acquired by the contour line acquisition unit.
  • a target part specifying unit for specifying a position, and a processing unit for generating a processed image in which a predetermined processing process is performed on an area determined based on the position of the predetermined part specified by the target part specifying unit in the image frame
  • an output unit that outputs moving image data using the processed image generated by the processing unit as an image frame.
  • Still another aspect of the present invention relates to an image processing method.
  • an image frame constituting a moving image stored in a memory is read to obtain an outline of an object, and an object or a predetermined region of the object is specified based on the outline.
  • information related to changes in the position and shape of the object can be acquired with a small amount of calculation.
  • various visual effects can be easily performed on a moving object in the image.
  • FIG. 1 It is a figure which shows the structure of the image processing apparatus which performs an image processing process using the outline acquired by the tracking process in this Embodiment. It is a figure for demonstrating the example of the method at the time of the site
  • FIG. 1 is a diagram for explaining a visual tracking method when a person is a tracking target.
  • the person image 150 is one of image frames constituting an image stream of a moving image generated by a photographed video or computer graphics, and a person 152 to be tracked is shown.
  • an ⁇ -shaped curve 154 that approximates the shape of the head contour of the person 152 is described in a known expression.
  • the person image 150 including the person 152 is subjected to edge extraction processing to obtain an edge image.
  • the curve 154 is translated, expanded, contracted, and rotated, and an edge in the vicinity thereof is searched for. Identify the value.
  • the tracking of the person 152 progresses by repeating the above processing for each frame.
  • the edge generally refers to a portion having an abrupt change in image density or color.
  • a probability distribution prediction technique using a particle filter is introduced.
  • the number of samplings of the curve 154 is increased or decreased according to the probability distribution of the object in the parameter space in the immediately preceding frame, and the tracking candidates are narrowed down.
  • Non-Patent Document 3 (ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc 5th European Conf. Computer Vision, 1998).
  • the description will be focused on the points according to the present embodiment.
  • the ⁇ -shaped curve 154 is described as a B-spline curve.
  • a B-spline curve is defined by n control points (Q0,..., Qn) and n knots (s0,..., Sn). These parameters are set in advance so as to form a basic curve shape, in this case, an ⁇ -shaped curve.
  • the curve obtained by the setting at this time is hereinafter referred to as template Qt.
  • the template Qt is an ⁇ shape, but the shape is changed depending on the tracking target. That is, if the tracking target is a ball, the shape is circular, and if the tracking target is a palm, the shape is a hand.
  • a shape space vector x is prepared as a conversion parameter for changing the template state.
  • the shape space vector x is composed of the following six parameters.
  • (shift x , shift y ) is a translation amount in the (x, y) direction
  • (extend x , extend y ) is a magnification
  • is a rotation angle.
  • the template can be translated, expanded, contracted, and rotated by appropriately changing the six parameters constituting the shape space vector x, and the candidate curve Q can be changed variously depending on the combination.
  • the edges of the person 152 in the vicinity of each knot Explore are estimated by obtaining the likelihood of each candidate curve from the distance to the edge or the like.
  • FIG. 2 is a diagram for explaining a probability density distribution estimation method using a particle filter.
  • the change of a certain parameter x1 is shown on the horizontal axis, but actually the same processing is performed in the 6-dimensional space. Is called.
  • the image frame whose probability density distribution is to be estimated is the image frame at time t.
  • a particle is a materialization of the value of the parameter x1 to be sampled and the sampling density. For example, in the region of the parameter x1, where the probability density was high at time t-1, sampling is performed by increasing the particle density. In the range where the probability density is low, sampling is not performed by reducing the number of particles. Thereby, for example, many candidate curves are generated near the edge of the person 152, and matching is performed efficiently.
  • the predetermined motion model is, for example, a Gaussian motion model, an autoregressive prediction motion model, or the like.
  • the former is a model in which the probability density at time t is Gaussian distributed around each probability density at time t-1.
  • the latter is a method that assumes a second-order or higher-order autoregressive prediction model acquired from sample data. For example, it is estimated from a change in past parameters that a person 152 is moving at a certain speed. In the example of FIG. 2, the motion in the positive direction of the parameter x1 is estimated by the autoregressive prediction type motion model, and each particle is changed in that way.
  • the likelihood of each candidate curve is obtained by searching for the edge of the person 152 in the vicinity of the candidate curve determined by each particle using the edge image at time t, and the probability density distribution at time t is obtained.
  • Estimate (S16) As described above, the probability density distribution at this time is a discrete representation of the true probability density distribution 400 as shown in S16. Thereafter, by repeating this, the probability density distribution at each time is represented in the parameter space. For example, if the probability density distribution is unimodal, that is, if the tracked object is unique, the final parameter is the weighted sum of each parameter value using the obtained probability density. Thus, a curve estimated as the contour of the tracking target is obtained.
  • the probability density distribution p (x t i ) at time t estimated in S16 is calculated as follows.
  • i is a number uniquely given to a particle
  • x t i , u t ⁇ 1 ) is a predetermined motion model
  • x t i ) is a likelihood.
  • a parameter set that defines the shape of the tracking target is expressed by a linear sum of a plurality of parameter sets prepared in advance, and a change in the shape of the tracking target is also estimated by adjusting the coefficient. This enables tracking corresponding to the shape change of the object.
  • control point sequence Q 0 , Q 1 ,..., Q N are prepared.
  • Each control point sequence is composed of n control points as described above, and each defines a B-spline curve having a different shape.
  • the control point sequence Qsum that defines the B-spline curve representing the estimated shape of the object is a linear sum of the N control point sequences as follows.
  • the coefficients ⁇ 0 , ⁇ 1 ,..., ⁇ N are weights for the prepared control point sequence, and a set of the coefficients ⁇ 0 , ⁇ 1 ,..., ⁇ N (hereinafter also referred to as coefficient set ⁇ ). ) To express the shape of the object. Then, in addition to the shape space vector x, each particle is defined by a coefficient set ⁇ , and then the likelihood of each particle is observed, and the probability density distribution in the space of the coefficient set ⁇ is calculated in the same manner as Equation 3.
  • an intermediate shape of the prepared shape (hereinafter referred to as a reference shape) can be expressed. Therefore, the amount of calculation can be reduced compared to a method of preparing all image data of all shapes of the object and performing matching. Further, in the present embodiment, by using this simple expression method, the transition probability of the coefficient set ⁇ is set, thereby efficiently searching with a small amount of calculation and improving the accuracy.
  • sampling is performed by generating and annihilating each particle in the space of the coefficient set ⁇ according to the probability density distribution in the space, and making transition according to a predetermined model. Then, by further generating, annihilating, and transitioning the particles according to the probability density distribution in the space of the shape space vector x, candidate contour lines are determined, and the respective likelihoods are observed.
  • 3 and 4 are diagrams for explaining the value of the coefficient set ⁇ and the transition model.
  • This figure shows an example in which a hand that makes a janken is tracked, and three types of reference B-spline curves of “Guu”, “Choki”, and “Par” are prepared.
  • the coefficient set ⁇ ( ⁇ 0 , ⁇ 1 , ⁇ 2 ) (1.0, 0.0, 0.0).
  • (0.0, 1.0, 0.0) when “Choki”
  • (0.0, 0.0, 1.0) when “Pa”.
  • a range of the coefficient set ⁇ that can be considered as the reference shape is set in advance. .
  • all the shapes defined by ⁇ within a predetermined Euclidean distance from (1.0, 0.0, 0.0) are set to be regarded as “goo”.
  • the current time is a black circle 102 and the coefficient set ⁇ is (0.9, 0.1, 0.0). If this state is set to be “goo”, the probability P of transitioning from that state to “chokki” and “pa” is set to 0.5, respectively.
  • the transition probability to ⁇ Choki '' is higher than the transition probability to ⁇ Pa '' based on the Euclidean distance of (1.0, 0.0, 0.0) and (0.9, 0.1, 0.0). Weighting is performed to increase the value. Then, after distributing the particles according to the transition probability, the Gaussian distribution 104 centering on the coefficient set ⁇ of the black circle 102 which is the current state, and a predetermined coefficient which is within the range of “Gu” and which goes to “Pa” Particles are distributed with a Gaussian distribution 106 centered on the set ⁇ .
  • the state at the current time is a black circle 108 and the coefficient set ⁇ is outside the range that can be regarded as “goo” and the range that can be regarded as “chokki” (0.4, 0.6, 0.0).
  • the transition is made to either “goo” or “choki”, and the particles are distributed in the Gaussian distribution 110 centering on the coefficient set ⁇ of the black circle 108 in the current state.
  • the Gaussian distributions 104, 106, and 110 in FIGS. 3 and 4 are actually distributions in a three-dimensional space defined by the coefficient set ⁇ ( ⁇ 0 , ⁇ 1 , ⁇ 2 ).
  • the standard deviation of the distribution in the direction of the line segment connecting the coefficient sets ⁇ representing the reference shapes (“Gu” and “Choki” in the example of FIG. 4) regarded as the arrival point of the transition may be increased. .
  • many particles can be arranged in a shape having a high transition probability, and the sampling efficiency and tracking accuracy are improved.
  • the particle distribution is not limited to that described above, and may be a Gaussian distribution having the same standard deviation in all directions, or a model other than the Gaussian distribution may be introduced.
  • the regression prediction model may be introduced by acquiring the motion of the coefficient set ⁇ in a plurality of frames up to the current time. In this case, for example, when it can be determined from the past frame that the transition from “Gu” to “Choki” is proceeding at a constant speed, many particles are further distributed in the direction of proceeding to the “Choki” shape.
  • Equation 4 a linear sum of control point sequences is used as a parameter of a B-spline curve representing a shape to be tracked, but a knot linear sum that is a parameter that defines the same B-spline curve may be used.
  • a linear sum of control point sequences is used as a parameter of a B-spline curve representing a shape to be tracked, but a knot linear sum that is a parameter that defines the same B-spline curve may be used.
  • a knot linear sum that is a parameter that defines the same B-spline curve
  • FIG. 5 shows a configuration example of the visual tracking system in the present embodiment.
  • the visual tracking system 10 includes an imaging device 12 that images the tracking target 18, a tracking device 14 that performs tracking processing, and a display device 16 that outputs image data captured by the imaging device 12 and tracking result data.
  • the tracked object 18 may vary depending on the intended use of the visual tracking system 10, such as a person, an object, or a portion thereof.
  • connection between the tracking device 14 and the imaging device 12 or the display device 16 may be wired or wireless, and may be via various networks. Alternatively, any two or all of the imaging device 12, the tracking device 14, and the display device 16 may be combined and integrally provided. Depending on the usage environment, the imaging device 12 and the display device 16 may not be connected to the tracking device 14 at the same time.
  • the imaging device 12 acquires data of an image including the tracking target 18 or an image of a certain place regardless of the presence or absence of the tracking target 18 at a predetermined frame rate.
  • the acquired image data is input to the tracking device 14 and a tracking process of the tracking target 18 is performed.
  • the processing result is output as output data to the display device 16 under the control of the tracking device 14.
  • the tracking device 14 may also serve as a computer that performs another function, and may implement various functions by using data obtained as a result of the tracking process, that is, position information and shape information of the tracking target 18. .
  • FIG. 6 shows the configuration of the tracking device 14 in the present embodiment in detail.
  • the tracking device 14 includes an image acquisition unit 20 that acquires input image data input from the imaging device 12, an image storage unit 24 that stores data necessary for tracking processing such as the input image data, and an edge image and the like from the input image data.
  • An image processing unit 22 to generate, a tracking target region detection unit 26 that detects a tracking target region, a tracking start / end determination unit 28 that determines the start and end of tracking, a tracking processing unit 30 that performs tracking processing using a particle filter,
  • a result storage unit 36 that stores final tracking result data and an output control unit 40 that controls output of the tracking result to the display device 16 are included.
  • each element described as a functional block for performing various processes can be configured by a CPU, a memory, and other LSIs in terms of hardware, and a program for performing image processing in terms of software. It is realized by. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
  • the image processing unit 22 extracts the contour to be tracked. Specifically, edge extraction processing is performed for each image frame of the input image data stored in the image storage unit 24 to generate an edge image.
  • a general edge extraction algorithm such as a canny edge filter or a Sobel filter can be used.
  • the image processing unit 22 may be mounted with a foreground extractor (not shown) that uses a background difference, and the tracking is performed by extracting the foreground including the tracking target from the input image as preprocessing of the edge extraction processing.
  • the target edge may be extracted efficiently.
  • the tracking target area detection unit 26 performs image analysis for each image frame of the input image data stored in the image storage unit 22 to detect a tracking target area. For example, a foreground extractor (not shown) using a background difference is mounted, and the presence or absence of a tracking target is determined from the foreground shape extracted from the image frame, and the region is detected. At this time, if the tracking target is a human head, face detection technology may be further applied. Alternatively, an area having a color different from the background color or a specific color may be detected as a tracking target by the color detector. Alternatively, the region to be tracked may be detected by pattern matching with a preset object shape.
  • the visual tracking system 10 is provided with a temperature sensor that measures the heat distribution of the space to be imaged and a piezoelectric sensor that acquires the contact area of the tracking object two-dimensionally. An area to be tracked may be detected.
  • Existing technology can be applied to the detection of an object by a temperature sensor or a piezoelectric sensor.
  • the tracking start / end determining unit 28 determines whether to start or end tracking based on the detection result of the tracking target region by the tracking target region detecting unit 26.
  • end may include a temporary stop of tracking by occlusion or the like. Tracking starts when the tracking target appears within the viewing angle of the imaging device or when it appears from behind the object, etc.When the tracking target leaves the viewing angle of the imaging device or enters the shadow, etc. To finish. By notifying the tracking processing unit 30 of the determination result, the tracking processing of the tracking processing unit 30 is started and ended.
  • the tracking processing unit 30 includes a sampling unit 42, an observation unit 48, and a result acquisition unit 50.
  • the sampling unit 42 includes a shape prediction unit 44 that performs sampling in the space of the coefficient set ⁇ and a shape space vector prediction unit 46 that performs sampling in the space of the shape space vector x.
  • the shape prediction unit 44 performs particle generation and extinction processing based on the probability density distribution in the space of the coefficient set ⁇ estimated for the previous image frame at time t ⁇ 1. Then, as in the example of the above-mentioned Janken, the particles are distributed according to a predetermined rule corresponding to the shape represented by each particle.
  • the shape space vector prediction unit 46 performs particle generation and disappearance processing based on the probability density distribution in the space of the shape space vector x estimated for the previous image frame at time t-1. Then, a predetermined motion model is applied to all particles to cause the particles to transition in the space. By the processing of the shape prediction unit 44 and the shape space vector prediction unit 46, a plurality of candidate curves in the image frame at time t can be determined in consideration of shape change and translation, expansion / contraction, and rotation.
  • the sampling unit 42 starts the process when receiving a signal indicating the start of tracking from the tracking start / end determining unit 28 and ends the process when receiving a signal indicating the end of tracking.
  • the observation unit 48 observes the likelihood of the candidate curve determined by each particle generated, disappeared, and transitioned by the sampling unit. As described above, the likelihood is determined by searching for an edge in the vicinity of each candidate curve on the edge image generated by the image processing unit 22 and estimating the distance to the edge for each candidate curve.
  • the result acquisition unit 50 calculates the probability density distribution as shown in Expression 3 based on the likelihood observed by the observation unit 48 in each of the space of the coefficient set ⁇ and the space of the shape space vector x, and the weighted average parameter thereby
  • a tracking result such as curve data obtained by the above is derived and stored in the result storage unit 36.
  • the data is returned to the sampling unit 42 for use in the tracking process at the next time t + 1.
  • the data stored in the result storage unit 36 may be the value of each parameter that has been weighted and averaged, and may be any of an image composed only of a curve determined by that, or image data formed by combining a curve and an input image. But you can.
  • the result acquisition unit 50 may further track each tracking target using a template prepared for each and combine the tracking results into a single tracking result. Further, a case where a plurality of tracking targets overlap is detected based on the tracking result, and the tracking target hidden behind is taken out of the tracking processing target at a predetermined timing. As a result, even if the observation likelihood is temporarily lowered due to the tracking target moving behind another tracking target, it is possible to avoid outputting an inappropriate tracking result.
  • the result storage unit 36 stores, for example, moving image data including the tracking result.
  • the result storage unit 36 stores, for example, moving image data including the tracking result.
  • the display device 16 By outputting the moving image data to the display device 16 under the control of the output control unit 40, it can be displayed that the contour line moves in the same manner as the movement of the tracking target.
  • processing such as output to another arithmetic module may be appropriately performed according to the purpose of tracking.
  • the imaging device 12 captures an imaging target at a predetermined frame rate in response to a user instruction input or the like.
  • the captured image is input as input image data to the image acquisition unit 20 of the tracking device 14 and stored in the image storage unit 24.
  • the image storage unit 24 stores three types of control point sequences that define a plurality of reference shapes, in the above example, “gu”, “choki”, and “par”. In such a state, the following tracking process is performed.
  • FIG. 7 is a flowchart showing the procedure of the tracking process in the present embodiment.
  • the tracking target area detection unit 26 reads the input image data stored in the image storage unit 24 for each frame, and detects an area where an object that can be a tracking target exists.
  • the tracking start / end determination unit 28 determines whether to start tracking based on the result (S20, S22). For example, when an object having a predetermined size and shape that can be estimated as a palm appears as a foreground extracted from an image frame, it is determined to start tracking.
  • the size and shape of the foreground that is the criterion for determination is determined in advance logically or experimentally.
  • N is repeated in S20 and S22 until it is determined that the tracking is started.
  • the tracking processing unit 30 starts the tracking process.
  • the sampling unit 42 requests the image processing unit 22 to perform edge image generation processing
  • the sampling unit 42 may also request an edge image generation process for the subsequent frame, and the image processing unit 22 may sequentially perform the process.
  • the shape prediction unit 44 of the sampling unit 42 first performs sampling by arranging particles evenly in a predetermined region of the space of the coefficient set ⁇ (S26).
  • the tracking target area detection unit 26 detects that the tracking target is in one of the reference shapes by template matching or the like, the particles are locally distributed within a predetermined range of a coefficient set that defines the reference shape. You may make it make it.
  • the shape space vector prediction unit 46 performs sampling by arranging particles evenly in a predetermined region of the parameter space (S28).
  • the observation unit 48 observes the likelihood by matching the candidate curve determined by each particle and the edge image, and the result acquisition unit 50 applies the expression 3 to both the space of the coefficient set ⁇ and the shape space vector x.
  • the number of particles to be generated is controlled in consideration of the processing load based on the amount of computation resources of the tracking device 14 and the required result output speed.
  • the rules and motion models to be distributed are determined in advance according to the type of tracking target so that tracking accuracy can be obtained from a Gaussian motion model, an autoregressive prediction motion model, or the like.
  • the above process is performed for all the tracking targets.
  • the tracking start / end determination unit 28 determines whether to continue or end the tracking process (S34). For example, the tracking end is determined when a target having a predetermined size and shape that can be estimated as a palm does not appear as a foreground for a predetermined time. Alternatively, the end of tracking is determined when the occlusion state continues for a predetermined time, such as when a tracking target turns behind another tracking target in real space. Further, a situation in which the tracking target deviates from the angle of view of the imaging device 12 continues for a predetermined time is also detected by a method similar to occlusion and the tracking end is determined.
  • the method for expressing the reference shape of the palm with a B-spline curve has been mainly described.
  • the tracking target is not limited to the palm, but the same thing should be done for the entire human body, animals, objects, etc. Can do.
  • the curve representing the shape of the tracking target, the method of expressing the straight line, and the parameters defining the shape are not limited to the B-spline curve or the control point.
  • the present embodiment visual tracking capable of responding to a change in the shape of the tracking target is possible. Being able to cope with the shape change means that the shape of the object can be recognized.
  • the distribution of the coefficient set ⁇ that defines the shape of the next image frame is predicted by the transition model from the coefficient set ⁇ that defines the shape of the previous image frame. That is, not only the shape recognition of the object in the image frame at the current time but also the shape of the object in the subsequent image frame is predicted.
  • the output control unit 40 generates a moving image in which the contour moves in the same manner as the movement of the tracking target by combining the contour of the tracking target obtained as a result of the tracking process with the input image.
  • An example was given.
  • the contour line to be tracked can be accurately traced regardless of the presence or absence of the shape change.
  • various visual effects can be given not only to the display of the contour line but also to the region of the object in the image or the region other than the object. An example will be described below.
  • the position of the finger from the thumb to the little finger and the position of the nail of each finger can be specified.
  • the “position” may be the position of a point such as a feature point or the position of a surface having a finite area.
  • a nail image in which nail art is applied to the position of the nail is synthesized or a ring image is synthesized on the root of a desired finger. You can virtually try out art and try on a ring.
  • the tracking device 14 can derive a contour line in response to a change in hand movement or shape, the hand need not be in a predetermined position and in a predetermined state. Even if the orientation, size, etc. of the nails change depending on the orientation, size, depth direction, etc. of the hand, the nail art and rings fit the actual hand by deforming the prepared image accordingly. Can be synthesized, increasing the reality. Furthermore, since the inclination of the hand can be estimated by the movement of the contour line, if the image to be synthesized is changed depending on the inclination of the camera, such as the front and the side, it is possible to confirm the shadow and the light reflection.
  • FIG. 8 shows a configuration of an image processing apparatus that performs an image processing process using the contour line acquired by the tracking process.
  • the image processing device 70 includes a tracking device 14 that acquires the contour line of an object, an input unit 72 that receives an instruction input from a user, a part specifying unit 74 that specifies a position of a predetermined part of the object, and a position of the predetermined part
  • a processing unit 76 that performs predetermined image processing based on the information
  • an output unit 78 that outputs the result of the image processing
  • a processing data storage unit 80 that stores data used for image processing are included.
  • the tracking device 14 can have the same configuration as the tracking device 14 shown in FIG. Note that, depending on the region of interest such as the head, the shape may not change, and in this case, the processing of the shape prediction unit 44 may be omitted as appropriate. On the other hand, when various shape changes can be predicted, such as a hand, tracking processing corresponding to those shapes is performed. Even in this case, by defining the shape of the object with the linear sum of the parameters that define the reference shape as described above, any shape can be expressed with only a small number of reference shape preparations. In the case of a hand, for example, as a reference shape, by preparing five shapes in which any one of five fingers is raised and the remaining four are gripped, the number of standing fingers can be from 1 to 5 Can express the hand.
  • the image to be processed is the one stored in the image storage unit 24 of the tracking device 14, but the image data input to the image processing device 70 from a separate imaging device is tracked in real time. In this case, image processing may be performed.
  • the input unit 72 is an interface for the user to instruct the image processing apparatus 70 to start and end the process and to select the content of the processing process.
  • the input unit 72 may be a general input device such as a keyboard, a mouse, a trackball, a button, or a touch panel, or may be a combination with a display device that displays options for input.
  • the part specifying unit 74 acquires data of a curve representing the contour line of the target object as the tracking result from the tracking device 14, and specifies the position of the target part such as a nail or a finger.
  • the target part may be determined by the user selecting and inputting to the input unit 72, or may be set in advance. In any case, information related to the positional relationship between the contour line obtained from the tracking device 14 and the target part is stored in the processed data storage unit 80.
  • the position of the nail is specified by setting in advance a rule for deriving the nail region from the point indicating the fingertip and the thickness of the fingertip in the outline of the hand. Further, the part specifying unit 74 specifies the inclination of the object or the inclination of the target part from the contour line.
  • FIG. 9 is a diagram for explaining an example of a technique in which the part specifying unit 74 specifies the inclination of the object.
  • the state 82 is when the object 86 is viewed from the front
  • the state 84 is when the object is rotated from the state 82 about the rotation axis 88 by the angle ⁇ .
  • the width of the object perpendicular to the rotation axis 88 is W
  • the apparent width is also W in the state 82 as shown in the figure.
  • state 84 the width of the object appears to be Wcos ⁇ . Therefore, for example, if the front image of the object is first taken as a calibration image, the rotation angle can be obtained from the apparent width using the relationship shown in FIG.
  • Which direction is tilted appropriately uses information that can be acquired from an outline such as the position of the thumb.
  • the rotation axis can be easily obtained by acquiring the movement of the object for a predetermined frame. Further, the time change of the rotation angle may be obtained from the movement of the object, and the inclination of the immediately following frame may be estimated.
  • the processing unit 76 performs a predetermined processing on the target site specified by the site specifying unit 74.
  • the content of the processing may be determined by the user selecting and inputting to the input unit 72, or may be set in advance. Or the combination may be sufficient. For example, choices such as nail art colors and patterns are displayed on the display device, and a user's selection input is accepted. Then, the selected nail art image is read out from the processed data storage unit 80, and displayed on the nail portion of the input image obtained by capturing the user's hand. For this reason, the processing data storage unit 80 stores image data necessary for processing, such as texture data of an image to be synthesized such as a nail or 3D graphics data such as shape data.
  • the processing unit 76 changes the image to be synthesized in accordance with the inclination. At this time, not only the inclination of the image to be synthesized is changed, but also a change in shadow and reflection of light according to the motion is expressed. Also, if the images to be combined overlap, such as when the target part overlaps, the rear part is specified based on the temporal change of the part and the contour line, and the hidden part of the composite image corresponding to the rear part is deleted. . For these processes, generally used techniques such as shading and hidden surface removal in the field of 3D graphics can be appropriately used.
  • the contour line obtained in the present embodiment can correspond to an arbitrary shape of the target object, no image processing is particularly performed when the target part is not visible on the screen. For example, if the hand is in the shape of “choki” and the upper is in front, the nail image is superimposed only on the index finger and the middle fingernail.
  • the output unit 78 displays an image obtained as a result of the processing performed by the processing unit 76 or stores it as moving image data. Therefore, the output unit 78 is composed of a storage device such as a display device or a hard disk drive. In the case of a display device, the display device of the input unit 72 may be the same.
  • FIG. 10 is a flowchart showing a processing procedure of image processing performed by the image processing apparatus 70.
  • the user inputs to the input unit 72 an instruction to start processing and selection of processing contents (S40).
  • a multi-stage input mode may be employed, such as selecting a favorite item from the nail displayed on the display device after inputting a processing start instruction.
  • a change in processing content such as reselecting another nail may be accepted at any time during the subsequent processing.
  • the tracking device 14 acquires an image of the object at time t (S42), and acquires a contour line of the object by performing a tracking process (S44).
  • the image of the object may be acquired in real time by the user placing the object such as his / her hand on a predetermined place and capturing it in real time, or the moving image previously captured
  • the image frame may be read from the image storage unit 24.
  • the part specifying unit 74 specifies the position and inclination of the part according to the content of the processing from the outline data acquired from the tracking device 14 as described above (S46). Then, the specified information is transmitted to the processing unit 76 together with the image of the object.
  • the processing unit 76 generates a processed image by performing the processing of the content selected by the user in S40 based on the information on the target part (S48).
  • the output unit 78 performs output processing such as displaying the generated processed image (S50). While the user does not input a process end instruction to the input unit 72 (N in S52), the time t is incremented (S54), and the processes from S42 to S50 are performed on each image frame. When the user inputs an instruction to end the process, the process ends (Y in S52).
  • FIG. 11 shows an example of a screen displayed on the display device of the output unit 78 when the image processing device 70 realizes a mode of trying on clothes in a virtual space.
  • Virtual try-on screen 90 includes a try-on image display area 92 and a clothes image display area 94.
  • the user first stands in front of the imaging apparatus so that the whole body falls within the viewing angle.
  • the image including the whole body of the user acquired by the imaging device is displayed in a try-on image display area 92 of the virtual try-on screen 90 displayed on the display device. If the imaging device is arranged in the same direction as the display device, the user can see an image obtained by capturing his / her whole body from the front.
  • the clothes image display area 94 displays a list of images of clothes that can be selected as try-on objects. For example, a clothing store or an auction exhibitor who receives an order for clothes via a network prepares their products as images.
  • the image processing apparatus 70 acquires the image via the network in accordance with an instruction input from the user, and displays it in the clothes image display area 94. If the input unit 72 is a controller that can operate the pointer 96 displayed in the virtual try-on screen 90 at the user's hand, the user operates the controller to select a clothes to be tried on from the clothes image display area 94 with the pointer 96. can do.
  • an image in which the clothes selected from the clothes image display area 94 are combined with the user's body displayed in the try-on image display area 92 can be generated.
  • the tracking device 14 tracks the contour of the user's head using an ⁇ -type template. In the case of the head, as described above, it can be traced by translation, expansion / contraction, and rotation of the ⁇ -type template, so the processing of the shape prediction unit 44 may be omitted.
  • the part specifying unit 74 specifies the position and size of the shoulder line in the ⁇ -type head contour output by the tracking device 14.
  • the processing unit 76 then superimposes the clothes image on the user's image so that the shoulder line of the selected clothes image overlaps the identified shoulder line of the user.
  • the part specifying unit 74 detects the orientation of the user's body according to the principle shown in FIG.
  • the clothes image is rotated accordingly.
  • images obtained by photographing clothes from a plurality of predetermined angles are stored in the processed data storage unit 80.
  • the other angles are interpolated by a known method of 3D graphics. Whether the user's body is facing right or left may be estimated by the movement from the previous image frame as described above, or existing face detection technology is introduced to determine from the face orientation. May be.
  • the processing unit 76 may detect a state in which the user is facing backward, and the processed image generated at that time may be controlled to delay display for a predetermined time in units of several seconds, for example.
  • the state in which the user is facing backward is detected based on a temporal change in the width of the shoulder line of the user's contour line or the fact that no face is detected in the face detection process. By doing so, the user can confirm the back of the user who tried on the clothes.
  • the processing unit 76 may express that the clothes being tried on change in shape according to the rotation speed. . For example, widen the skirt of a skirt while trying it on, or inflate a blouse. If a table that associates the rotation speed with the degree of shape change is prepared according to the hardness of the clothing, the shape of the clothes, etc., the shape change according to the rotation speed can be applied with general 3D graphics technology. Can do. By doing in this way, the state of clothes can be confirmed at intervals closer to reality.
  • mosaic processing As another application example that can be realized by the image processing apparatus 70.
  • a mosaic process can be applied only to the head of a person on a video image of the person photographed in advance.
  • the tracking device 14 performs tracking processing of a person's head using an ⁇ -type template and acquires a contour line.
  • the part specifying unit 74 specifies, for example, an area surrounded by an ⁇ -shaped outline and a line segment connecting the end points as a head area.
  • the processing unit 76 performs mosaic processing on the identified area. By repeating this for image frames at each time, it is possible to generate a moving image that has been subjected to mosaic processing following the movement of a person.
  • the tracking device 14 always acquires the outline of the head regardless of the orientation of the person's face. Therefore, it is difficult to specify by face detection or the like, and the head region can be specified even when a person turns sideways or scolds or faces backward. Then, in a situation where a person is specified even in the back of the head, etc., the face is not detected and the mosaic is removed, or the mosaic is regularly placed in an extra area including the area around the person so that the mosaic is not removed. It is possible to avoid the situation of giving. Thereby, it is possible to safely conceal information relating to the figure of a person while holding necessary information included in the image such as a situation around the person.
  • FIG. 12 shows a screen that displays information about players in a soccer game.
  • the player information display screen 120 shown in the figure is, for example, a game relay video, and three players 122, 126, and 130 are within the viewing angle of the imaging apparatus.
  • processing which adds the image of the information tags 124 and 128 which consist of the area
  • the tracking device 14 performs tracking processing of the player's head in the video during the match using the ⁇ -type template, and acquires the contour line.
  • the part specifying unit 74 specifies the apex of the ⁇ -type outline as the top of the head, and acquires the size of the outline.
  • the processing unit 76 determines the size of the information tag based on the correspondence relationship between the size of the contour line and the size of the information tag that is set in advance. Then, information on each player prepared in advance is read from the processed data storage unit 80 to generate an information tag image, which is displayed superimposed on the video during the game with the arrow pointing to the top of each player.
  • the part specifying unit 74 specifies an area where no other player exists based on the information on the contour of the head of the player within the viewing angle, and the processing unit 76 displays an information tag in the area. Also good. By repeating this process for the image frames at each time, it is possible to generate a video of a game in which an information tag that follows the movement of the player is displayed.
  • the processing unit 76 displays the information tags so that the information tags of the players behind are also partially hidden by the information tag of the player in front. Also good.
  • the size of the information tag may be set to either an upper limit or a lower limit to be displayed or both.
  • the information tag is not displayed for the player 130 farthest away because the size of the information tag is less than the lower limit.
  • the information tag may be switched between display and non-display by an instruction input to the input unit 72 by the user.
  • the information tag can be used not only for sports videos but also for displaying information about drama characters and actors, displaying information about products in moving images, and the like. Furthermore, not only live-action images but also information on people and objects in a virtual space drawn by computer graphics may be displayed.
  • the shape to be tracked is expressed by a linear sum of control point sequences that define B-spline curves representing a plurality of reference shapes prepared in advance. Then, a coefficient set composed of coefficients related to each control point sequence is included in the parameters defining the particles.
  • the Condensation algorithm that can only handle translation, expansion, contraction, and rotation of one template shape can be applied in an environment where the shape of the tracking target itself changes.
  • the memory area to be used can be greatly reduced compared to preparing all the shapes that the object can take, and it is also useful for calculation.
  • the number of parameters used can be reduced.
  • the coefficient set can be handled in the same way as the shape space vector, the conventional algorithm can be used as it is, and the advantage of the tracking process using the particle filter can be maintained without increasing the calculation amount. it can.
  • the shape immediately after is predicted, and particles are distributed in the vicinity of the coefficient set that defines the shape.
  • the tracking process can be performed efficiently and accurately without increasing the number of particles.
  • shape recognition and tracking processing are separate processes, but they can be connected by the concept of particles, and simultaneous processing is possible with a simple algorithm.
  • setting a shape transition model and distributing particles based on it is equivalent to predicting the shape of the object. This makes it possible to pre-read the user's hand in the janken, and to realize an interface that is responsive to the user's movements. It can also be applied to operating robots and medical instruments.
  • the contour line of an object that performs at least one of shape change, translation, expansion / contraction, and rotation, and performing image processing using the information. It can. Specifically, trial application of nail art, try-on of rings and clothes, mosaic processing, addition of information tags, and the like can be performed. Conventionally, when cutting out the outline of an object in an image, it is necessary for the person to check and cut out the image frames one by one, especially in the case of moving images, the work cost was significant. .
  • the contour line can be acquired accurately and easily even for a moving image.
  • special conditions are not required for the input image, such as chroma key composition using blue screen or green screen, face detection technology, and the like.
  • the contour line of the target object is expressed by a linear sum of parameters that define a reference shape prepared in advance.
  • this expression method is not limited to the estimation of the contour line of the tracking target, but can be widely applied as an expression method for drawing an object.
  • it may be used for generating polygon data used on three-dimensional computer graphics. Even in such a case, the amount of memory to be used can be remarkably reduced as compared with a case where parameter sets of all shapes that can be expressed are prepared.
  • the present invention can be used for information processing apparatuses such as computers, game machines, and image display apparatuses.

Abstract

 まず撮像した動画像データをフレームごとに読み出し、追跡対象の有無により追跡開始の判定を行う(S20、S22)。追跡開始が判定されたら当該画像フレームのエッジ画像を生成する(S24)。一方、追跡対象の形状を表すBスプライン曲線の制御点列を、あらかじめ準備した複数の基準形状を表すBスプライン曲線の制御点列の線形和で表現する際に各制御点列にかかる係数のセットの空間にパーティクルを分布させる(S26)。さらに形状空間ベクトルの空間においてもパーティクルを分布させ(S28)、各パーティクルの尤度観測、確率密度分布を取得する(S30)。確率密度分布によって各パラメータに重み付け平均して得られる曲線を追跡結果として生成する(S32)。

Description

画像処理装置および画像処理方法
 本発明は情報処理技術に関し、特に入力画像中の対象物の位置や形状、およびそれらの変化を解析する画像処理装置およびそこで実行される画像処理方法に関する。
 視覚追跡はコンピュータビジョン、特にセキュリティ分野における視覚監視やAV分野における記録映像の解析・分類、編集、またはマンマシンインターフェース、さらには人間同士のインターフェース、すなわちテレビ会議やテレビ電話など、多岐に渡る応用が見込まれる。そのため、追跡精度および処理効率の向上等を目的に、多くの研究がなされている。中でも、カルマンフィルタで扱うことのできない非ガウス性雑音が加算された信号の時系列解析手法として注目されているパーティクルフィルタを視覚追跡に応用する研究が多くなされており、特にCondensation(Conditional Density Propagation)アルゴリズムが有名である(例えば非特許文献1から非特許文献3参照)。
 このCondensationアルゴリズムにおいて、追跡対象物はBスプライン曲線等で構成される任意形状の輪郭線で定義される。例えば人の頭部であればBスプラインでΩ形の曲線を定義することで追跡を行うことができる。これは、振り向いたり屈んだりといった人の動作に対してその頭部の形状は基本的に変化しないため、Ω形の曲線を並進、伸縮、回転させることのみで頭部形状の表現が可能であることによる(例えば特許文献1参照)。
 一方、画像処理技術の著しい進歩により、撮影した画像などに様々な視覚的演出を加える加工処理を施した画像は、日常生活においても様々な場面で見られるようになってきた。例えば画像中の背景を別の画像に置き換えたり、別の画像を合成したり、といった加工処理において、画像中の対象物の輪郭は非常に大きな意味をもつ。輪郭線を抽出する技術として、対象物の輪郭線のモデルを閉曲線で表現し、あらかじめ定義したエネルギー関数が最小となるように当該閉曲線を変形していくことにより対象物の輪郭を推定する動的輪郭モデル(スネークス)も提案されている(特許文献2または3参照)。あるいは、背景差分を利用した対象物領域の取得手法も提案されている(特許文献4または5参照)。
Contour tracking by stochastic propagation of conditional density, Michael Isard and Andrew Blake, Proc. European Conf. on Computer Vision, vol. 1, pp.343-356, Cambridge UK (1996) CONDENSATION - conditional density propagation for visual tracking, Michael Isard and Andrew Blake, Int. J. Computer Vision, 29, 1, 5-28 (1998) ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc 5th European Conf. Computer Vision, 1998
特開2007-328747号公報 特開平9-138471号公報 特開平8-329254号公報 特許3930504号公報 特開2007-34733号公報
 上述のように、人の頭部、ボール、自動車など、形状変化がほとんどない対象を追跡する場合、Condensationアルゴリズムは計算負荷、精度などの面で非常に有効な手法である。一方で、対象物の形状が変化し、特定の形状を並進、伸縮、回転させたのみで対象物を表現できない場合には精度のよい追跡が困難となる。このため少ない計算量で、対象物の形状、位置の変化を認識することのできる技術が望まれていた。
 また画像に視覚的演出を加える加工処理技術では、基本的に人手による作業によって、対象物の輪郭切り出しが行われていたが、動画のフレームの一枚一枚を切り出していくには大変な作業コストが生じる。一方、動的輪郭モデルでは、対象物ごとに輪郭モデルの初期設定が必要であったり、最終結果が初期設定に影響される、といった問題がある。さらに計算量が多いため、上述の視覚追跡技術など、動画における対象物の輪郭を逐次求める場合に、対象物の形状の変化に追従できないなどの問題もある。また背景差分を利用した場合、背景を固定にする必要があるなど撮影環境が限定的であり適用範囲が狭い。
 本発明はこのような課題に鑑みてなされたものであり、その目的は、計算負荷を増大させることなく対象物の形状、位置の変化を認識することができる画像処理技術を提供することにある。さらに、所望の動画中で動きを有する対象物に対しても、コストを増大させることなく、様々な視覚的演出を可能とする画像処理技術を提供することにある。
 本発明のある態様は画像処理装置に関する。この画像処理装置は、複数の基準形状の輪郭線を定義する複数のパラメータを記憶する基準形状記憶部と、基準形状記憶部が記憶した複数のパラメータの線形和における各パラメータの係数のセットを定めることにより、画像内の対象物の輪郭線形状を線形和で表現して出力する対象物形状決定部と、を備えたことを特徴とする。
 この画像処理装置は、対象物を撮像した第1の画像フレームおよび第2の画像フレームを含む動画像ストリームデータを取得する画像取得部をさらに備え、対象物形状決定部は、係数のセットで定義される係数セット空間に、第1の画像フレームにおける対象物の当該空間における推定存在確率分布に基づき、パーティクルフィルタに用いるパーティクルを生成および消滅させ、所定の遷移モデルに基づき遷移させる形状予測部と、第2の画像フレームにおける対象物の輪郭線と、パーティクルが定める候補輪郭とをマッチングして、各パーティクルの尤度を観測する観測部と、観測部が観測した尤度に基づき第2の画像フレームにおける対象物の、係数セット空間における推定存在確率分布を算出し、当該推定存在確率分布に基づき各パーティクルの係数のセットに重み付けを行うことにより、第2の画像フレームにおける対象物の輪郭線形状を推定する輪郭線取得部と、を備えてもよい。
 ここで「第1の画像フレーム」と「第2の画像フレーム」は、画像ストリームにおいて隣接する画像フレームでもよいし、離れて位置する画像フレームでもよい。時間軸の順方向へ追跡していく一般的な対象物追跡においては、「第1の画像フレーム」は「第2の画像フレーム」より時間的に前の画像フレームであるが、本実施の形態はこれに限らない。「候補輪郭」は対象物の一部または全体の輪郭線である。「尤度」は候補輪郭がどの程度対象物と近い態様となっているかを表す度合いであり、例えば追跡候補を2次元図形とした場合は、対象物との重なり具合、対象物との距離などを数値で示したものなどである。
 「パーティクル」とは、過去の情報と現在の観測情報とから現在の状態を推定する手法のひとつであるパーティクルフィルタにおいて導入されるものであり、観測を行うパラメータのサンプリング頻度を、パラメータ空間に存在するパーティクルの数で表現する。
 本発明の別の態様は画像処理方法に関する。この画像処理方法は、複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定めるステップと、定められた係数のセットを用いて、画像内の対象物の輪郭線を線形和で表現して出力するステップと、を含むことを特徴とする。
 本発明のさらに別の態様は画像処理装置に関する。この画像処理装置は、動画像を構成する画像フレームから対象物の輪郭線を取得する輪郭線取得部と、輪郭線取得部が取得した対象物の輪郭線に基づき、対象物の所定の部位の位置を特定する対象部位特定部と、画像フレームのうち、対象部位特定部が特定した所定の部位の位置に基づき決定される領域に、所定の加工処理を施した加工画像を生成する加工処理部と、加工処理部が生成した加工画像を画像フレームとする動画像のデータを出力する出力部と、を備えたことを特徴とする。
 本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は、メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得するステップと、輪郭線に基づき、対象物または対象物の所定の部位の領域を特定するステップと、画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納するステップと、を含むことを特徴とする。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、対象物の位置や形状の変化に係る情報を少ない計算量で取得することができる。また、画像中、動きを有する対象物に対しても、容易に様々な視覚的演出を行うことができる。
人物を追跡対象とした場合の視覚追跡手法を説明するための図である。 パーティクルフィルタを用いた確率密度推定の手法を説明する図である。 本実施の形態における係数セットの値と遷移モデルについて説明するための図である。 本実施の形態における係数セットの値と遷移モデルについて説明するための図である。 本実施の形態における視覚追跡システムの構成例を示す図である。 本実施の形態における追跡装置の構成を詳細に示す図である。 本実施の形態における追跡処理の手順を示すフローチャートである。 本実施の形態における追跡処理によって取得した輪郭線を利用して画像加工処理を行う画像処理装置の構成を示す図である。 本実施の形態の部位特定部が対象物の傾きを特定する際の手法の例を説明するための図である。 本実施の形態の画像処理装置が行う画像加工の処理手順を示すフローチャートである。 本実施の形態の画像処理装置によって洋服の試着を仮想空間で行う態様を実現したとき、表示装置に表示される画面例を示す図である。 本実施の形態の画像処理装置によってサッカーの試合中の選手の情報を表示する画面例を示す図である。
 初めに、本実施の形態の特徴および効果を明らかにするために、パーティクルフィルタによる視覚追跡について概説する。図1は人物を追跡対象とした場合の視覚追跡手法を説明するための図である。人物画像150は実写した映像やコンピュータグラフィックスなどにより生成された動画像の画像ストリームを構成する画像フレームのひとつであり、追跡対象である人物152が写っている。
 この人物152の動きを追跡するために、人物152の頭部輪郭の形状を近似するΩ形の曲線154を既知の表現で記述する。一方、人物152を含む人物画像150にはエッジ抽出処理を施し、エッジ画像を取得しておく。そして曲線154を規定するパラメータを変化させることにより当該曲線154を並進、伸縮、回転させて、その近傍にあるエッジを探索することにより、人物152の頭部輪郭と最もマッチすると推定されるパラメータの値を特定する。以上の処理をフレームごとに繰り返すことにより人物152の追跡が進捗する。ここでエッジとは一般的には画像の濃度や色に急な変化を有する箇所のことである。
 規定するパラメータの値を様々にした曲線154と人物152の頭部輪郭とのマッチングを行うために、パーティクルフィルタによる確率分布予測技術を導入する。すなわち、ひとつ前のフレームにおけるパラメータ空間上の対象物の確率分布に応じて曲線154のサンプリング数を増減させ、追跡候補の絞り込みを行う。これにより存在確率の高い部分に対しては重点的に探索を行うことができ、精度のよいマッチングが効率的に行える。
 対象物の輪郭に着目した追跡に対するパーティクルフィルタの適用手法は、例えば非特許文献3(ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc 5th European Conf. Computer Vision, 1998)に詳述されている。ここでは本実施の形態に係る点に着目して説明する。
 まずΩ形の曲線154を、Bスプライン曲線で記述する。Bスプライン曲線はn個の制御点(Q0,・・・,Qn)とn個のノット(s0,・・・,sn)とから定義される。そして基本となる曲線形状、この場合はΩ形の曲線となるように、それらのパラメータをあらかじめ設定しておく。このときの設定によって得られる曲線を以後、テンプレートQtと呼ぶ。なお、図1で示した人物画像150における人物152の追跡を行う場合は、テンプレートQtはΩ形であるが、その形状は追跡対象によって変化させる。すなわち追跡対象がボールであれば円形、手のひらであれば手の形状などとなる。
 次にテンプレートの状態を変化させるための変換パラメータとして、形状空間ベクトルxを準備する。形状空間ベクトルxは以下のような6つのパラメータで構成される。
Figure JPOXMLDOC01-appb-M000001
 ここで(shift,shift)は(x,y)方向への並進量、(extend,extend)は倍率、θは回転角である。そして形状空間ベクトルxをテンプレートQtに作用させるための作用行列Wを用いると、変形後の曲線、すなわち候補曲線Qは以下のように記述できる。
 式2を用いれば、形状空間ベクトルxを構成する6つのパラメータを適宜変化させることにより、テンプレートを並進、伸縮、回転させることができ、組み合わせによって候補曲線Qを種々変化させることができる。
 そして、制御点、およびノットの間隔といったテンプレートQtのパラメータや、形状空間ベクトルxを構成する6つのパラメータを変化させることによって表現される複数の候補曲線について、各ノットの近傍にある人物152のエッジを探索する。その後、エッジとの距離などから各候補曲線の尤度を求めることにより、形状空間ベクトルxを構成する6つのパラメータで定義される6次元空間における確率密度分布を推定する。
 図2はパーティクルフィルタを用いた確率密度分布推定の手法を説明する図である。同図では理解を簡単にするために、形状空間ベクトルxを構成する6つのパラメータのうち、あるパラメータx1の変化を横軸に表しているが、実際には6次元空間において同様の処理が行われる。ここで確率密度分布を推定したい画像フレームが時刻tの画像フレームであるとする。
 まず、時刻tの画像フレームのひとつ前のフレームである時刻t-1の画像フレームにおいて推定された、パラメータx1軸上の確率密度分布を用いて(S10)、時刻tにおけるパーティクルを生成する(S12)。それまでにフィルタリングを行い、すでにパーティクルが存在する場合は、その分裂、および消滅を決定する。S10において表した確率密度分布は、パラメータ空間上の座標に対応して離散的に求められたものであり、円が大きいほど確率密度が高いことを表している。
 パーティクルはサンプリングするパラメータx1の値とサンプリング密度とを実体化したものであり、例えば時刻t-1において確率密度が高かったパラメータx1の領域は、パーティクル密度を高くすることで重点的にサンプリングを行い、確率密度の低かった範囲はパーティクルを少なくすることでサンプリングをあまり行わない。これにより、例えば人物152のエッジ近傍において候補曲線を多く発生させて、効率よくマッチングを行う。
 次に所定の運動モデルを用いて、パーティクルをパラメータ空間上で遷移させる(S14)。所定の運動モデルとは例えば、ガウシアン型運動モデル、自己回帰予測型運動モデルなどである。前者は、時刻tにおける確率密度は時刻t-1における各確率密度の周囲にガウス分布している、とするモデルである。後者は、サンプルデータから取得した2次以上の自己回帰予測モデルを仮定する手法で、例えば人物152がある速度で等速運動をしているといったことを過去のパラメータの変化から推定する。図2の例では、自己回帰予測型運動モデルによりパラメータx1の正方向への動きが推定され、各パーティクルをそのように遷移させている。
 次に、各パーティクルで決定される候補曲線の近傍にある人物152のエッジを、時刻tのエッジ画像を用いて探索することにより、各候補曲線の尤度を求め、時刻tにおける確率密度分布を推定する(S16)。前述のとおり、このときの確率密度分布はS16に示すように、真の確率密度分布400を離散的に表したものになる。以降、これを繰り返すことにより、各時刻における確率密度分布がパラメータ空間において表される。例えば確率密度分布が単峰性であった場合、すなわち追跡対象が唯一であった場合は、得られた確率密度を用いて各パラメータの値に対し重み付けした和を最終的なパラメータとすることにより、追跡対象の輪郭と推定される曲線が得られることになる。
 S16において推定される時刻tにおける確率密度分布p(xt i)は以下のように計算される。
Figure JPOXMLDOC01-appb-M000003
 ここでiはパーティクルに一意に与えられた番号、p(xt i|xt i, ut-1)は所定の運動モデル、p(yt|xt i)は尤度である。
 これまで述べた手法は、最初に設定したテンプレートの形状がある程度維持されるという前提のもとで追跡を行うため、人間の頭部のようにそれ自体の形状変化が少ない場合には、少ない計算量で精度の良い追跡が行えるという点において大変有効である。一方で、並進、伸縮、回転のみでは表現できない対象物の形状変化に対応しきれないという問題がある。そこで本実施の形態では、追跡対象の形状を規定するパラメータセットを、あらかじめ用意した複数のパラメータセットの線形和で表現し、その係数を調整することにより追跡対象の形状変化をも推定する。これにより対象物の形状変化に対応した追跡を可能にする。
 以下、線形和で表現するパラメータセットとして、Bスプライン曲線を規定する制御点列を採用した場合について説明する。まずN個の制御点列Q,Q,・・・,Qを準備する。各制御点列は上述のとおりn個の制御点で構成され、それぞれが、異なる形状のBスプライン曲線を定義する。そして対象物の推定形状を表すBスプライン曲線を定義する制御点列Qsumを、次のように当該N個の制御点列の線形和とする。
Figure JPOXMLDOC01-appb-M000004
 ここで係数α,α,・・・,αは準備した制御点列に対する重み付けであり、当該係数α,α,・・・,αのセット(以後、係数セットαとも呼ぶ)を変化させることにより対象物の形状を表現する。そして形状空間ベクトルxに加え、係数セットαによって各パーティクルを定義し、そのうえで各パーティクルの尤度を観測して係数セットαの空間における確率密度分布を式3と同様に算出する。
 ある対象物の形状を、あらかじめ準備した複数の形状を規定するパラメータの線形和で表すことにより、当該準備した形状(以後、基準形状と呼ぶ)の中間的な形状を表現することができる。そのため、対象物のあらゆる形状の画像データを全て準備してマッチングを行うなどの手法に比べ計算量が少なくてすむ。本実施の形態ではさらに、このシンプルな表現手法を利用して、係数セットαの遷移確率を設定することにより、少ない計算量で効率的に探索を行い精度を向上させる。基本的には形状空間ベクトルxと同様に、係数セットαの空間で各パーティクルを当該空間における確率密度分布に応じて生成、消滅させ、所定のモデルに従い遷移させることによりサンプリングを行う。そして、当該パーティクルを、形状空間ベクトルxの空間における確率密度分布に応じてさらに生成、消滅させて遷移させることにより、候補の輪郭線を定め、それぞれの尤度を観測する。
 図3、4は係数セットαの値と遷移モデルについて説明するための図である。同図はじゃんけんをする手を追跡対象とした例を示しており、「ぐー」、「ちょき」、「ぱー」の3種類の基準形状のBスプライン曲線を準備している。これらの基準形状を定義する制御点列を、それぞれ式4のQ、Q、Qとすると、追跡対象の形状が「ぐー」であるときは係数セットα(α,α,α)=(1.0, 0.0, 0.0)である。同様に「ちょき」であるときはα=(0.0, 1.0, 0.0)、「ぱー」であるときはα=(0.0, 0.0, 1.0)である。このように、現在時刻において「ぐー」、「ちょき」、「ぱー」の基準形状のいずれかにある場合、次の時刻でその他の2つの基準形状、すなわち「ぐー」であれば「ちょき」または「ぱー」に向かう確率Pをそれぞれ0.5とする。
 ここで、係数セットαが上述の基準形状を表す数列からわずかにずれていても、実際には基準形状とみなせる場合が考えられるため、あらかじめ基準形状とみなせる係数セットαの範囲を設定しておく。例えば係数セットαが定義する空間において、(1.0, 0.0, 0.0)から所定のユークリッド距離内にあるαが定める形状は全て「ぐー」であると見なすように設定する。図3において現在時刻の形状が黒丸102であり、係数セットαが(0.9, 0.1, 0.0)であったとする。この状態を「ぐー」である、とみなす設定がなされている場合は、その状態から「ちょき」、「ぱー」に遷移する確率Pをそれぞれ0.5とする。
 または「ちょき」への遷移がやや多いとみなし、(1.0, 0.0, 0.0)と(0.9, 0.1, 0.0)のユークリッド距離に基づいて「ちょき」への遷移確率を「ぱー」への遷移確率より大きくするように重み付けを行う。そして当該遷移確率に則りパーティクルを分配したうえ、現在の状態である黒丸102の係数セットαを中心としたガウス分布104と、「ぐー」の範囲内にあり、かつ「ぱー」へ向かう所定の係数セットαを中心としたガウス分布106でパーティクルを分布させる。
 図4において現在時刻における状態が黒丸108であり、係数セットαが、上述の「ぐー」と見なせる範囲および「ちょき」と見なせる範囲の外である(0.4, 0.6, 0.0)であったとする。この場合は「ぐー」と「ちょき」のいずれかへ遷移する途中であると判断し、現在の状態である黒丸108の係数セットαを中心としたガウス分布110にパーティクルを分布させる。なお図3、図4のガウス分布104、106、110は、実際には係数セットα(α,α,α)によって定義される3次元空間における分布となる。このとき、例えば遷移の到達点とみなされる基準形状(図4の例では「ぐー」と「ちょき」)を表す係数セットαを結ぶ線分方向の分布の標準偏差を大きくとるようにしてもよい。このようにすると、遷移確率の高い形状に多くのパーティクルを配置できることになり、サンプリングの効率および追跡精度が向上する。
 なおパーティクルの分布は上述したものに限らず、全ての方向に同じ標準偏差を有するガウス分布でもよいし、ガウス分布以外のモデルを導入してもよい。例えば現時刻までの複数フレームにおける係数セットαの動きを取得して回帰予測モデルを導入してもよい。この場合、例えば「ぐー」から「ちょき」への遷移が等速に進んでいることが過去のフレームから判断できる場合は、さらに「ちょき」の形状へ進む方向に多くのパーティクルを分布させる。
 なおある基準形状から別の基準形状へ遷移する確率Pは、上述のとおり基準形状が「ぐー」、「ちょき」、「ぱー」の3種類であればP=0.5であったが、その値は基準形状の数などにより変化する。ここである基準形状から遷移することの出来る基準形状の数をNとすると、各基準形状への遷移確率Pはそれぞれ1/Nとなる。対象物によっては遷移確率を等しくせず、偏りをもたせてもよいし、それまでの事象により動的に決定してもよい。
 また式4では、追跡対象の形状を表すBスプライン曲線のパラメータとして制御点列の線形和を利用したが、同じBスプライン曲線を定義するパラメータであるノットの線形和を利用してもよい。ただし処理上、制御点からノットへの展開が一回で済むため、制御点を利用する方がより効率がよい。
 図5は本実施の形態における視覚追跡システムの構成例を示している。視覚追跡システム10は、追跡対象18を撮像する撮像装置12、追跡処理を行う追跡装置14、撮像装置12が撮像した画像のデータや追跡結果のデータを出力する表示装置16を含む。追跡対象18は人、物、それらの一部など、視覚追跡システム10の使用目的によって異なっていてよい。
 追跡装置14と、撮像装置12あるいは表示装置16との接続は、有線、無線を問わず、また種々のネットワークを介していてもよい。あるいは撮像装置12、追跡装置14、表示装置16のうちいずれか2つ、または全てが組み合わされて一体的に装備されていてもよい。また使用環境によっては、撮像装置12と表示装置16は同時に追跡装置14に接続されていなくてもよい。
 撮像装置12は追跡対象18を含む画像、または追跡対象18の有無に関わらずある場所の画像のデータを、所定のフレームレートで取得する。取得された画像データは追跡装置14に入力され、追跡対象18の追跡処理がなされる。処理結果は出力データとして追跡装置14の制御のもと、表示装置16へ出力される。追跡装置14は別の機能を実行するコンピュータを兼ねていてもよく、追跡処理の結果得られたデータ、すなわち追跡対象18の位置情報や形状情報などを利用して様々な機能を実現してよい。
 図6は本実施の形態における追跡装置14の構成を詳細に示している。追跡装置14は、撮像装置12から入力される入力画像データを取得する画像取得部20、当該入力画像データなど追跡処理に必要なデータを記憶する画像記憶部24、入力画像データからエッジ画像などを生成する画像処理部22、追跡対象の領域を検出する追跡対象領域検出部26、追跡の開始および終了を判定する追跡開始終了判定部28、パーティクルフィルタを用いて追跡処理を行う追跡処理部30、最終的な追跡結果のデータを記憶する結果記憶部36、追跡結果の表示装置16への出力を制御する出力制御部40を含む。
 図6において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、画像処理を行うプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 画像処理部22は追跡対象の輪郭を抽出する。具体的には、画像記憶部24が記憶した入力画像データの画像フレームごとにエッジ抽出処理を施し、エッジ画像を生成する。ここではキャニーエッジフィルタや、ソーベルフィルタなど一般的なエッジ抽出アルゴリズムを用いることができる。また画像処理部22は、背景差分を利用した前景抽出器(図示せず)を実装していてもよく、エッジ抽出処理の前処理として入力画像から追跡対象を含む前景を抽出することにより、追跡対象のエッジを効率的に抽出するようにしてもよい。
 追跡対象領域検出部26は、画像記憶部22が記憶した入力画像データの画像フレームごとに画像分析を行って追跡対象の領域を検出する。例えば背景差分を利用した前景抽出器(図示せず)を実装し、画像フレームから抽出した前景の形状から追跡対象の有無を判断したうえその領域を検出する。その際、追跡対象が人間の頭部であれば、顔検出技術をさらに適用してもよい。あるいは色検出器により背景色と異なる色や特定の色を有する領域を追跡対象として検出してもよい。または、あらかじめ設定した対象物の形状とのパターンマッチングによって追跡対象の領域を検出してもよい。
 そのほか視覚追跡システム10に、撮像装置12の他に撮影対象の空間の熱分布を測定する温度センサや、追跡対象の接触領域を2次元的に取得する圧電センサを設け、熱分布や圧力分布によって追跡対象の領域を検出してもよい。温度センサや圧電センサによる対象物の検知は既存の技術を適用できる。
 追跡開始終了判定部28は、追跡対象領域検出部26による追跡対象領域の検出結果に基づき、追跡を開始するか終了するかを判定する。なおここでの「終了」はオクルージョンなどによる追跡の一時停止を含んでもよい。追跡は、追跡対象が撮像装置の視野角内に現れた場合や、物陰などから現れた場合などに開始し、追跡対象が撮像装置の視野角内から去った場合や物陰などに入った場合などに終了する。判定結果は追跡処理部30に通知することにより追跡処理部30の追跡処理を開始、終了させる。
 追跡処理部30は、サンプリング部42、観測部48、および結果取得部50を含む。サンプリング部42は、係数セットαの空間でサンプリングを行う形状予測部44と、形状空間ベクトルxの空間でサンプリングを行う形状空間ベクトル予測部46を含む。形状予測部44は、一つ前の時刻t-1における画像フレームに対して推定された、係数セットαの空間での確率密度分布に基づきパーティクルの生成および消滅の処理を行う。そして上述のじゃんけんの例のように、各パーティクルが表す形状に応じた所定の規則でパーティクルを分布させる。
 形状空間ベクトル予測部46は、一つ前の時刻t-1における画像フレームに対して推定された、形状空間ベクトルxの空間での確率密度分布に基づきパーティクルの生成および消滅の処理を行う。そして全パーティクルに対し所定の運動モデルを適用して、パーティクルを当該空間上で遷移させる。形状予測部44および形状空間ベクトル予測部46の処理により、時刻tの画像フレームにおける複数の候補曲線が、形状の変化および並進、伸縮、回転を考慮したうえで決定できる。サンプリング部42は、追跡開始終了判定部28から追跡開始を示す信号を受けたら処理を開始し、追跡終了を示す信号を受けたら処理を終了する。
 観測部48はサンプリング部が生成・消滅、遷移させた各パーティクルが定める候補曲線の尤度を観測する。尤度は上述のように、画像処理部22が生成したエッジ画像上で各候補曲線の近傍にあるエッジを探索し、当該エッジまでの距離を候補曲線ごとに見積もることによって決定する。結果取得部50は、観測部48が観測した尤度に基づき式3で示すような確率密度分布を係数セットαの空間および形状空間ベクトルxの空間のそれぞれにおいて算出し、それにより重み付け平均したパラメータによって得られる曲線のデータなどの追跡結果を導出し、結果記憶部36に格納する。また次の時刻t+1における追跡処理に使用するため、サンプリング部42にそのデータを返す。結果記憶部36に格納するデータは、重み付け平均した各パラメータの値でもよいし、それにより定まる曲線のみで構成される画像や、曲線と入力画像とを合成してできた画像のデータなどのいずれでもよい。
 追跡対象が複数存在する場合、結果取得部50はさらに、それぞれに用意したテンプレートを用いて、追跡対象ごとに追跡を行い、それらの追跡結果を合成することによりひとつの追跡結果としてもよい。また複数の追跡対象が重なるような場合を追跡結果によって検出し、後ろに隠れる追跡対象については所定のタイミングで追跡処理対象からはずすなどの措置を講じる。これにより追跡対象が別の追跡対象の背後に回ったことによって観測尤度が一時的に低下しても、不適当な追跡結果を出力するのを避けることができる。
 画像処理部22、追跡処理部30における上述の処理を、各フレームに対して行うことにより、結果記憶部36には例えば追跡結果を含む動画像のデータが記憶される。この場合、出力制御部40の制御のもと、当該動画像のデータを表示装置16に出力することにより、輪郭線が追跡対象の動きと同様に動く様を表示することができる。なお上述のとおり、追跡結果は動画として表示する以外に、追跡の目的に応じて別の演算モジュールに出力するなどの処理を適宜行ってよい。
 次にこれまで述べた構成による追跡装置14の動作について説明する。まず撮像装置12は、ユーザの指示入力などに応じ撮影対象を所定のフレームレートで撮影する。撮影された画像は入力画像データとして追跡装置14の画像取得部20へ入力され、画像記憶部24に格納される。また、画像記憶部24には、複数の基準形状、上述の例では「ぐー」、「ちょき」、「ぱー」を定義する3種類の制御点列が格納されている。このような状態において以下に述べる追跡処理が行われる。
 図7は本実施の形態における追跡処理の手順を示すフローチャートである。まず追跡対象領域検出部26は、画像記憶部24に格納された入力画像データをフレームごとに読み出し、追跡対象となり得る物が存在する領域を検出する。追跡開始終了判定部28はその結果に基づき追跡を開始するかどうかの判定を行う(S20、S22)。例えば、画像フレームから抽出した前景として、手のひらと推定できる所定のサイズ、形を有する対象が出現した場合には、追跡を開始する判定を行う。判定基準となる前景のサイズや形はあらかじめ論理的または実験的に定めておく。
 追跡開始と判定されるまでS20とS22のNを繰り返し、追跡開始と判定されたら(S22のY)、追跡処理部30が追跡処理を開始する。ここで、追跡開始を判定された画像フレームに対応する時刻をt=0とし、以後の画像フレームは時刻t=1,2,3,・・・にそれぞれ対応するとする。まず、サンプリング部42が画像処理部22に対し、エッジ画像生成処理を要求することにより、画像処理部22はt=0画像フレームのエッジ画像を生成する(S24)。このときサンプリング部42は、後続フレームのエッジ画像生成処理要求も行い、画像処理部22は順次処理を行ってよい。
 そしてサンプリング部42の形状予測部44は、まず係数セットαの空間の所定領域に均等にパーティクルを配置してサンプリングを行う(S26)。追跡対象領域検出部26がテンプレートマッチングなどによって、追跡対象が基準形状のいずれかにあることを検出している場合は、当該基準形状を定義する係数セットの所定範囲内にパーティクルを局所的に分布させるようにしてもよい。次に形状空間ベクトル予測部46は、パラメータ空間の所定領域に均等にパーティクルを配置してサンプリングを行う(S28)。すると観測部48は、各パーティクルが定める候補曲線とエッジ画像とをマッチングすることにより尤度を観測し、結果取得部50が式3を係数セットαおよび形状空間ベクトルxの両空間に適用し確率密度分布の初期値p(t=0)を算出する(S30)。
 結果取得部34はさらに、時刻t=0における追跡対象の形状および位置として、確率密度分布p(t=0)によって各パラメータを重み付け平均して得られる曲線を最終的に決定し、元の入力画像フレームと合成するなど、所望の追跡結果データを生成して結果記憶部に保存する(S32)。
 一方、画像処理部22は、画像記憶部24より時刻t=1の画像フレームを読み出しエッジ画像を生成する(S34のN、S24)。サンプリング部42は、生成した確率密度分布の初期値p(t=0)に対応した数のパーティクルを係数セットαの空間上に発生させ、係数セットαの値に応じて分布させる(S26)。さらに形状空間ベクトルxの空間上にも発生させ、所定の運動モデルに基づきパーティクルをそれぞれ遷移させる(S28)。発生させるパーティクルの数は、追跡装置14が有する演算リソースの量や、求められる結果出力速度などに基づき、処理の負荷を考慮して制御する。分布させる規則や運動モデルは、追跡対象の種類に応じてガウシアン型運動モデル、自己回帰予測型運動モデルなどから追跡精度が高く得られるものをあらかじめ決定しておく。
 すると観測部30は、遷移後のパーティクルが定める各候補曲線の尤度を観測し、その結果に基づき時刻t=1の確率密度分布p(t=1)を求める。(S30)。尤度の観測は、画像処理部22がS24において生成した時刻t=1のエッジ画像を用いて、各候補曲線近傍にある輪郭線を探索することにより行われる。複数の追跡対象が存在する場合は、上記の処理を全ての追跡対象について行う。そして結果取得部34は、時刻t=1における追跡対象の形状および位置として、確率密度分布p(t=1)によって各パラメータを重み付け平均して得られる曲線を最終的に決定し、元の入力画像フレームと合成するなど、所望の追跡結果データを生成して結果記憶部に保存する(S32)。
 追跡開始終了判定部28は、追跡処理を続行するか終了するかの判定を行う(S34)。例えば手のひらと推定できる所定のサイズ、形を有する対象が前景として現れない状態が所定時間継続した場合に追跡終了の判定を行う。あるいは、実空間上において、ある追跡対象が別の追跡対象の背後に回った場合など、オクルージョンの状態が所定時間継続した場合に追跡終了の判定を行う。さらに、追跡対象が撮像装置12の画角から外れた状態が所定時間継続した状況も、オクルージョンと同様の手法で検出し、追跡終了の判定を行う。
 S34において追跡処理を終了しないと判定した場合は(S34のN)、時刻t=2の画像フレームからエッジ画像を生成するとともに、S32で得られた時刻t=1のときの確率密度分布p(t=1)を用いてパーティクルの操作を行い、時刻t=2のフレームに対する尤度観測、確率密度分布算出、追跡結果データ生成を行う(S24~S32)。以降、S34で追跡開始終了判定部28が追跡終了の判定(S34のY)を行うまでS24からS32までの処理を、各フレームに対して繰り返す。これにより、例えばじゃんけんをする手のひらと同じ形状および動きで、追跡結果たる輪郭線が時間に対して変化していくような動画のデータが結果記憶部36に格納される。出力制御部40が当該データを、表示装置16や別の機能を提供するモジュールなどに出力することにより、ユーザは所望の形態で追跡結果を利用することができる。
 なおこれまでの説明では主に、手のひらの基準形状をBスプライン曲線で表す手法について述べたが、追跡対象は手のひらに限らず、人体全体、動物、物など形状が変化する物で同様に行うことができる。また、追跡対象の形状を表す曲線、直線の表現手法、および形状を定義するパラメータは、Bスプライン曲線や制御点などに限定されない。
 以上述べたように、本実施の形態では、追跡対象の形状変化に対応できる視覚追跡が可能となる。形状変化に対応できるということはすなわち、物の形状認識が可能である、ということを意味する。計算の過程において、一つ前の画像フレームの形状を定義する係数セットαから、遷移モデルによって次の画像フレームの形状を定義する係数セットαの分布を予測する。つまり、現在時刻の画像フレームにおける対象物の形状認識のみならず、その後の画像フレームにおける対象物の形状を予測していることになる。
 この特徴を利用すれば、カメラの前のユーザの動きを、各種処理による遅延時間を最小限にリアルタイムで検知することが可能になり、応答性に優れたユーザインターフェースを提供することができる。例えば自分の体の動きに合わせて画面上に描画された仮想の人間を動かしたり、遠隔操作型のロボットハンドを操作したりする場合に、情報入力から結果出力までの時間を削減することができる。
 上述の説明では、出力制御部40が、追跡処理の結果得られた追跡対象の輪郭線を入力画像と合成することにより、輪郭線が追跡対象の動きと同様に動く動画像を生成する、という例を述べた。本実施の形態では上述のように、形状変化の有無に関わらず追跡対象の輪郭線を精度よくトレースすることができる。この特徴を利用すると、輪郭線の表示のみならず、画像内の対象物の領域、もしくは対象物以外の領域に、様々な視覚的効果を与えることができる。以下にその例を説明する。
 例えば手の輪郭線を追跡処理により取得した場合、親指から小指までの指の位置や各指の爪の位置がおよそ特定できる。ここで「位置」とは特徴点のような点の位置でもよいし、有限領域を有する面の位置でもよい。そしてユーザの手の画像を撮像して表示装置に表示する構成において、爪の位置にネイルアートを施した爪の画像を合成したり、所望の指の根本に指輪の画像を合成すれば、ネイルアートの試し塗りや指輪の試着を仮想的に行うことができる。
 追跡装置14は、手の動きや形状の変化に対応して輪郭線を導出することができるため、手が所定の位置、所定の状態にある必要はない。手の向き、大きさ、奥行き方向の位置などに応じて爪の向き、大きさなどが変化しても、用意した画像をそれに応じて変形させることにより、実際の手にフィットしたネイルアートや指輪を合成させることができ、リアリティが増す。さらに輪郭線の動きによって手の傾きが推定できるため、正面、側面などカメラに対する傾きによっても合成する画像を変化させれば、陰影や光の反射具合なども確認することができる。
 図8は、追跡処理によって取得した輪郭線を利用して画像加工処理を行う画像処理装置の構成を示している。画像処理装置70は、対象物の輪郭線を取得する追跡装置14、ユーザからの指示入力を受け付ける入力部72、対象物の所定の部位の位置を特定する部位特定部74、所定の部位の位置情報に基づき所定の画像処理を施す加工処理部76、画像処理を施した結果を出力する出力部78、画像処理に用いるデータを記憶する加工データ記憶部80を含む。
 追跡装置14は図6に示した追跡装置14と同様の構成とすることができる。なお頭部など着目する部位によっては形状変化を伴わない場合もあるため、その場合は形状予測部44の処理などを適宜省略してよい。逆に、手のように、多様な形状変化が予測できる場合は、それらの形状に対応した追跡処理が行えるようにしておく。この場合でも、上述のように基準形状を定義するパラメータの線形和で対象物の形状を定義することにより、少数の基準形状の準備のみであらゆる形状を表現することができる。手の場合、例えば基準形状として、五指のいずれか1本を立てて残りの4本は握っている状態の5つの形状を準備することにより、立っている指の本数が1本から5本までの手を表現することができる。
 また、処理対象の画像は追跡装置14の画像記憶部24に格納されているものを使用するものとするが、別に設けた撮像装置から画像処理装置70へ入力した画像データをリアルタイムで追跡したうえで画像処理を施す態様でもよい。入力部72は、ユーザが画像処理装置70に対し、処理の開始、終了の指示、加工処理の内容の選択を行うためのインターフェースである。入力部72は、キーボード、マウス、トラックボール、ボタン、タッチパネルなど一般的な入力装置でよく、入力する際の選択肢などを表示する表示装置との組み合わせでもよい。
 部位特定部74は、追跡装置14から追跡結果である対象物の輪郭線を表す曲線のデータを取得し、爪や指など対象部位の位置を特定する。対象部位は、ユーザが選択し、入力部72に入力することにより決定してもよいし、あらかじめ設定しておいてもよい。いずれにしても、追跡装置14から得られる輪郭線と、当該対象部位との位置関係に係る情報を加工データ記憶部80に記憶させておく。前述のネイルアートの例では、手の輪郭のうち指先を示す点および指先の太さなどから爪の領域を導出する規則をあらかじめ設定しておくことにより爪の位置を特定する。さらに部位特定部74は、輪郭線から対象物の傾き、あるいは対象部位の傾きを特定する。
 図9は部位特定部74が対象物の傾きを特定する手法の例を説明するための図である。同図において、状態82は対象物86を正面から見たとき、状態84は、状態82から回転軸88を中心に角度θだけ回転したときである。回転軸88と垂直方向の対象物の幅をWとすると、図に示すように、状態82では見かけ上の幅もWとなる。一方、状態84では対象物の幅はWcosθに見える。従って、例えば対象物の正面画像をキャリブレーション用画像として最初に撮影しておけば、図9の関係を利用して、見かけ上の幅から回転角を求めることができる。対象部位の傾きも同様である。どちらの方向に傾いているかは、親指の位置など輪郭線から取得できる情報などを適宜利用する。本実施の形態では輪郭線の動きを逐次トレースしているため、所定フレーム分の対象物の動きを取得すれば、回転軸は容易に求めることができる。また、そのような対象物の動きから回転角の時間変化を求め、直後のフレームの傾きを推定するようにしてもよい。
 図8に戻り加工処理部76は、部位特定部74が特定した対象部位に対し所定の加工処理を施す。加工処理の内容は、ユーザが選択し、入力部72に入力することにより決定してもよいし、あらかじめ設定しておいてもよい。あるいはその組み合わせでもよい。例えば表示装置にネイルアートの色や模様などの選択肢を表示し、ユーザの選択入力を受け付ける。そして選択されたネイルアートの画像を加工データ記憶部80から読み出し、ユーザの手を撮像した入力画像の爪の部分に重ねて表示する。このため加工データ記憶部80には、ネイルなど合成する画像のテクスチャデータや形状データなどの3Dグラフィックスデータなど、加工に必要な画像データを格納しておく。
 また部位特定部74は対象部位の傾きも特定するため、加工処理部76は当該傾きに応じて、合成する画像も変化させる。このとき、合成する画像の傾きを変化させるのみならず、動きに応じた陰影や光の反射の変化を表現する。また、対象部位が重なるなどして合成する画像同士が重なる場合は、部位および輪郭線の時間変化に基づき後ろ側の部位を特定し、後ろ側に対応する合成画像の隠れている部分を消去する。これらの処理は、3Dグラフィックスの分野におけるシェーディング、隠面消去など、一般的に用いられている手法を適宜利用することができる。さらに本実施の形態で得られる輪郭線は、対象物の任意の形状に対応することができるため、画面上対象部位が見えないときは、特に画像処理を施さない。例えば、手が「チョキ」の形をして甲が正面にある状態であれば、人差し指および中指の爪にのみネイルの画像を重ねる。
 出力部78は、加工処理部76が行った加工処理の結果、得られる画像を表示したり動画データとして記憶したりする。したがって出力部78は、表示装置、ハードディスクドライブなどの記憶装置で構成する。表示装置とする場合は、入力部72の表示装置と同一でよい。
 次に、上記の構成による画像処理装置70の動作を説明する。図10は画像処理装置70が行う画像加工の処理手順を示すフローチャートである。まずユーザは、入力部72に対し加工処理の開始指示や処理内容の選択に係る入力を行う(S40)。処理開始の指示入力の後、表示装置に表示したネイルから好みの物を選択するなど、多段階の入力態様としてもよい。また、別のネイルを選択し直すなど処理内容の変更は、後の処理の間でも随時受け付けてよい。
 すると追跡装置14は、時刻tにおける対象物の画像を取得し(S42)、追跡処理を行うことにより対象物の輪郭線を取得する(S44)。対象物の画像は上述のように、ユーザが自らの手などの対象物を所定の場所に乗せ、それを撮像したものをリアルタイムで取得してもよいし、あらかじめ撮像しておいた動画像の画像フレームを画像記憶部24から読み出してもよい。
 次に部位特定部74は、追跡装置14から取得した輪郭線のデータから、加工処理の内容に応じた部位の位置と傾きを上述のとおり特定する(S46)。そして対象物の画像とともに特定した情報を加工処理部76に送信する。加工処理部76は、S40においてユーザが選択した内容の加工処理を、対象部位の情報に基づき施すことにより加工画像を生成する(S48)。出力部78は生成された加工画像を表示するなどの出力処理を行う(S50)。ユーザから処理終了の指示入力が入力部72に対してなされない間は(S52のN)、時刻tをインクリメントして(S54)、S42からS50までの処理を各画像フレームに対して行う。そしてユーザから終了を指示する入力がなされたら、処理を終了する(S52のY)。
 このような動作により、陰影や反射光の変化、オクルージョンなども考慮し、対象物の動きに追随した画像の加工が可能となる。これまでの説明では対象物を手とし、ネイルアートの試し塗りを仮想空間で行う態様を主たる例としてきたが、本実施の形態はその他、多くの応用例を実現することが可能である。以下、画像処理装置70によって実現できる応用例を説明する。
 図11は画像処理装置70によって洋服の試着を仮想空間で行う態様を実現したとき、出力部78の表示装置に表示される画面例を示している。仮想試着画面90は、試着画像表示領域92および洋服画像表示領域94を含む。この態様においてまずユーザは、全身が視野角に入るように撮像装置の前に立つ。撮像装置が取得したユーザの全身を含む画像は、表示装置に表示した仮想試着画面90の試着画像表示領域92に表示する。撮像装置を表示装置と同じ向きに配置しておけば、ユーザは自分の全身を正面から捉えた画像を見ることができる。
 洋服画像表示領域94には、試着対象として選択できる洋服の画像を一覧表示する。例えば、ネットワークを介して洋服の受注を行う服飾店やオークションの出品者が自らの商品を画像として準備する。画像処理装置70は、ユーザからの指示入力に従い当該画像をネットワークを介して取得して洋服画像表示領域94に表示する。そして入力部72を、ユーザの手元で仮想試着画面90内に表示したポインタ96を操作できるコントローラとすると、ユーザは当該コントローラを操作して、洋服画像表示領域94から試着したい洋服をポインタ96で選択することができる。
 すると図10に示した処理手順により、試着画像表示領域92に表示されたユーザの体に、洋服画像表示領域94から選択された洋服を合成した画像を生成することができる。当該画像を試着画像表示領域92に表示すると、ユーザは、選択した洋服を試着した自分の姿を見ることができる。この態様において追跡装置14は、Ω型のテンプレートを用いてユーザの頭部の輪郭を追跡する。頭部の場合は上述のとおりΩ型のテンプレートの並進、伸縮、回転で追跡可能であるため、形状予測部44の処理は省略してよい。
 すると部位特定部74は、追跡装置14が出力したΩ型の頭部輪郭のうち、肩のラインの位置や大きさを特定する。そして加工処理部76は、選択された洋服の画像の肩のラインが、特定したユーザの肩のラインに重なるように、洋服の画像をユーザの画像に重ねる。この処理を各時刻の画像フレームに対して繰り返すことにより、ユーザの動きに追随して合成した洋服の画像を動かすことができ、まさにユーザ自身が洋服を試着して動いているように見せることができる。
 ユーザは撮像装置に対して正面を向いていなくてもよく、横を向いたり回転したりしても、図9に示したような原理で部位特定部74がユーザの体の向きを検出し、それに合わせて洋服の画像も回転させる。そのためには、洋服を所定の複数の角度から撮影した画像を加工データ記憶部80に格納しておく。それ以外の角度については3Dグラフィックスの既知の手法で補間する。ユーザの体が右、左のどちら側に向いたかは、上述のとおり前の画像フレームからの動きによって推定してもよいし、既存の顔検出技術を導入し、顔の向きから判断するようにしてもよい。
 なお図11の例は、ユーザが撮像装置に対してほぼ後ろを向いた状態を示している。撮像装置と表示装置を同じ方向に設置した場合、この瞬間において当該ユーザは表示装置の仮想試着画面90を見ることができない。そこで加工処理部76は、ユーザが後ろを向いた状態を検出し、そのときに生成した加工画像は、例えば数秒単位の所定時間、表示を遅延させるように制御してもよい。ユーザが後ろを向いた状態は、ユーザの輪郭線の肩のラインの幅の時間変化や、顔検出処理において顔が検出されなかったことなどに基づき検出する。こうすることによりユーザは、洋服を試着した自分の後ろ姿を確認することができる。
 加工処理部76はさらに、ユーザが回転していることを肩のラインの幅の時間変化などから検出したら、当該回転の速度に応じて試着中の服が形状変化する様を表現してもよい。例えば試着中のスカートの裾を広がらせたり、ブラウスをふくらませたりする。回転速度と形状変化の度合いを対応づけたテーブルを、服地の硬さや洋服の形状などに応じて用意しておけば、一般的な3Dグラフィックスの技術で回転速度に応じた形状変化をつけることができる。このようにすることで、より現実に近い間隔で服の様子を確認することができる。
 画像処理装置70によって実現できる別の応用例としてモザイク処理がある。例えばあらかじめ撮影された人物のビデオ画像に対し、人物の頭部のみにモザイク処理を施すことができる。この場合も追跡装置14は、Ω型のテンプレートを用いて人物の頭部の追跡処理を行い、輪郭線を取得する。部位特定部74は例えば、Ω型の輪郭線および端点を結んだ線分で囲まれた領域を頭部の領域として特定する。加工処理部76は、特定した領域に対しモザイク処理を施す。これを各時刻の画像フレームに対して繰り返すことにより、人物の動きに追随してモザイク処理を施した動画像を生成することができる。
 追跡装置14は、人物の顔の向きに関わらず頭部の輪郭を常に取得する。そのため、顔検出などでは特定しにくい、人物が横を向いたり俯いたりしたときや後ろを向いたときなどでも頭部の領域が特定できる。すると、後頭部などでも人物が特定されてしまうような状況において顔検出ができなかったばかりにモザイクが取れてしまったり、モザイクが取れないように人物周辺の領域も含めた余計な場所に定常的にモザイクを施したりする状況を回避することができる。これにより、人物の周囲の状況など画像が有する必要な情報は保持したまま、人物の姿に係る情報を安全に隠蔽することができる。
 画像処理装置70によって実現できるさらに別の応用例として、画像上の対象物の情報表示がある。図12はその一例として、サッカーの試合中の選手の情報を表示する画面を示している。同図の選手情報表示画面120は例えば試合の中継映像であり、選手122、126、130の3人が撮像装置の視野角内にいる。そして、選手122、126の頭上には、選手を指す矢印と、名前、背番号、今日のシュート回数など各選手の情報を表示した領域とからなる情報タグ124、128の画像を付加する加工が施されている。同図に示すように、情報タグ124、128の大きさは、選手の撮像装置からの距離に応じて変化させる。
 この場合、追跡装置14はΩ型のテンプレートを用いて試合中の映像における選手の頭部の追跡処理を行い、輪郭線を取得する。部位特定部74はΩ型の輪郭線の頂点を頭頂部として特定するとともに、輪郭線の大きさを取得する。加工処理部76は、あらかじめ設定しておいた、輪郭線の大きさと情報タグの大きさとの対応関係に基づき、情報タグの大きさを決定する。そして、あらかじめ準備した各選手の情報を加工データ記憶部80から読み出して情報タグの画像を生成し、各選手の頭頂部に矢印の先が向くようにして試合中の映像に重ねて表示する。
 ここで情報タグは、他の選手の姿に被せないように表示することが望ましい。そのため部位特定部74は、視野角内の選手の頭部の輪郭線の情報に基づき、他の選手が存在しない領域も特定し、加工処理部76は当該領域に情報タグを表示するようにしてもよい。この処理を、各時刻の画像フレームに対して繰り返すことにより、選手の動きに追随する情報タグを表示させた試合の映像を生成することができる。
 情報タグの大きさを撮像装置から選手までの距離に応じて変化させることにより、情報タグにも距離感を演出することができるうえ、多人数が視野角内に存在しても情報タグが煩雑にならず、どの選手の情報タグかを把握し易くなる。追跡装置14が複数の選手の重なり合いを検出したら、加工処理部76は情報タグも同様に重ね合わせ、背後の選手の情報タグは手前の選手の情報タグにより一部隠蔽されるように表示してもよい。
 また情報タグの大きさには、表示させる上限、下限のいずれかまたは両方を設定してもよい。図12の例では、最も遠くにいる選手130については、情報タグの大きさが下限未満になるとして情報タグを表示していない。情報タグの大きさに下限、上限を設定することにより、文字が判別できないような小さな情報タグや、画像中、大きな領域を覆ってしまうような大きな情報タグを表示することがなくなり、常に見やすい画像となる。
 このように情報タグを表示することにより、サッカーやマラソンのように広い領域で多くの人数によって行われるスポーツなどでは、選手の特定がし易くなり、さらに各選手の情報を、試合の状況や選手の動きなどを見ながら容易に把握することができる。情報タグは、ユーザの入力部72に対する指示入力により、表示/非表示を切り替えられるようにしてもよい。また情報タグは、スポーツ映像のみならず、ドラマの登場人物や俳優の情報表示、動画像内の商品の情報表示などに利用することもできる。さらに実写のみならず、コンピュータグラフィックスで描画した仮想空間内の人や物の情報表示を行ってもよい。
 以上述べた本実施の形態によれば、追跡対象の形状を、あらかじめ用意した複数の基準形状を表すBスプライン曲線を定義する制御点列の線形和で表現する。そして各制御点列にかかる係数で構成される係数セットを、パーティクルを定義するパラメータに含める。これにより、一のテンプレート形状の並進、伸縮、回転にのみ対応可能であったCondensationアルゴリズムを、追跡対象の形状そのものが変化する環境において適用することができる。
 また、基準形状の中間的な形状は全て係数セットの調整により表現することができるため、対象物のとり得る形状を全て準備するのに比べ、使用するメモリ領域を大幅に削減できるとともに、計算に用いるパラメータの数を少なくすることができる。また係数セットは形状空間ベクトルと同様に扱うことができるため、従来のアルゴリズムをそのまま利用することができ、計算量を増大させることがなく、パーティクルフィルタを用いた追跡処理の利点を維持することができる。
 さらに係数セットの空間における遷移モデルを導入することにより、直後の形状を予測し、当該形状を定義する係数セットの近傍にパーティクルを分布させる。これにより、パーティクルの数を増大させずに、効率的かつ精度よく追跡処理を遂行することができる。一般的には、形状認識と追跡処理は別個の処理とされるが、パーティクルという概念でそれらを結びつけることができ、簡素なアルゴリズムで同時処理が可能となる。
 また形状の遷移モデルを設定しパーティクルをそれに基づき分布させるということは、対象物の形状予測を行っていることに等しい。これにより、じゃんけんでユーザが出す手の先読みなども可能となるほか、ユーザの動きに対して応答性のよいインターフェースを実現することができ、通常の情報処理装置のユーザインターフェースのほか、遠隔操作により動作するロボットや医療器具などにも応用することができる。
 さらに、形状変化、並進、伸縮、回転の少なくともいずれかを行う対象物の輪郭線を精度よく取得し、その情報を利用して画像の加工処理を施すことにより、様々な機能を提供することができる。具体的には、ネイルアートの試し塗り、指輪や洋服の試着、モザイク処理、情報タグの付加などを行うことができる。従来、画像中の対象物の輪郭を切り出す際は、人が画像フレームを一枚一枚確認して切り出していくという作業が必要であり、特に動画の場合は、その作業コストが甚大であった。本実施の形態では動画であっても輪郭線を正確かつ容易に取得できる。また、ブルースクリーンやグリーンスクリーンなどを用いたクロマキー合成や顔検出技術などのように、入力画像に特殊な条件を必要としない。
 これにより、従来の手法に比べて少ない計算量で、輪郭線取得に加え、対象物の動きに応じた加工処理を手軽に施すことができる。対象物の傾きや重なり具合も検出できるため、加工する領域や合成する画像の形状を変化させたり、シェーディング、隠面消去などのグラフィックス処理をさらに施すことができ、仮想空間をよりリアルに表現できる。また、対象物が存在する領域、存在しない領域を、対象物の動きに応じて特定できるため、対象物のみに加工処理を施したり、対象物のない領域を選んで加工処理を施したり、といったことが可能になり、デザイン性や情報開示の観点から、ユーザのニーズに対応した加工画像を臨機応変に生成できる。
 以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 例えば本実施の形態では、主に追跡対象の輪郭線を推定するために、あらかじめ準備した基準形状を定義するパラメータの線形和で対象物の輪郭線を表現した。一方、この表現手法は、追跡対象の輪郭線の推定に限らず、対象物を描画する際の表現手法として広く適用することができる。例えば、三次元コンピュータグラフィックス上で使用されるポリゴンデータの生成などに用いてもよい。このような場合でも、表現可能な全ての形状のパラメータセットを準備しておく場合と比べて、格段に使用するメモリ量を少なくすることができる。
 10 視覚追跡システム、 12 撮像装置、 14 追跡装置、 16 表示装置、 20 画像取得部、 22 画像処理部、 24 画像記憶部、 26 追跡対象領域検出部、 28 追跡開始終了判定部、 30 追跡処理部、 30 観測部、 36 結果記憶部、 40 出力制御部、 42 サンプリング部、 44 形状予測部、 46 形状空間ベクトル予測部、 48 観測部、 50 結果取得部、 70 画像処理装置、 72 入力部、 74 部位特定部、 76 加工処理部、 78 出力部、 80 加工データ記憶部、 90 仮想試着画面、 92 試着画像表示領域、 94 洋服画像表示領域、 120 選手情報表示画面。
 以上のように本発明はコンピュータ、ゲーム機、画像表示装置などの情報処理装置に利用可能である。

Claims (28)

  1.  複数の基準形状の輪郭線を定義する複数のパラメータを記憶する基準形状記憶部と、
     前記基準形状記憶部が記憶した複数のパラメータの線形和における各パラメータの係数のセットを定めることにより、画像内の対象物の輪郭線形状を前記線形和で表現して出力する対象物形状決定部と、
     を備えたことを特徴とする画像処理装置。
  2.  対象物を撮像した第1の画像フレームおよび第2の画像フレームを含む動画像ストリームデータを取得する画像取得部をさらに備え、
     前記対象物形状決定部は、
     前記係数のセットで定義される係数セット空間に、前記第1の画像フレームにおける対象物の当該空間における推定存在確率分布に基づき、パーティクルフィルタに用いるパーティクルを生成および消滅させ、所定の遷移モデルに基づき遷移させる形状予測部と、
     前記第2の画像フレームにおける対象物の輪郭線と、前記パーティクルが定める候補輪郭とをマッチングして、各パーティクルの尤度を観測する観測部と、
     前記観測部が観測した尤度に基づき前記第2の画像フレームにおける対象物の、前記係数セット空間における推定存在確率分布を算出し、当該推定存在確率分布に基づき各パーティクルの前記係数のセットに重み付けを行うことにより、前記第2の画像フレームにおける対象物の輪郭線形状を推定する輪郭線取得部と、
     を備えたことを特徴とする請求項1に記載の画像処理装置。
  3.  前記輪郭線を定義するパラメータは、輪郭線をBスプライン曲線で表した際の制御点列であることを特徴とする請求項1または2に記載の画像処理装置。
  4.  前記輪郭線を定義するパラメータは、輪郭線をBスプライン曲線で表した際のノット列であることを特徴とする請求項1または2に記載の画像処理装置。
  5.  前記形状予測部が遷移させたパーティクルを、各パーティクルによって定まる輪郭線の並進量、倍率、回転角を定める形状空間ベクトルで定義される形状空間ベクトル空間に、前記第1の画像フレームにおける対象物の当該空間における推定存在確率分布に基づき生成および消滅させ、所定の遷移モデルに基づき遷移させる形状空間ベクトル予測部をさらに備え、
     前記観測部は、前記形状空間ベクトル予測部が遷移させたパーティクルの尤度を観測し、
     前記輪郭線取得部は、前記観測部が観測した尤度に基づき前記第2の画像フレームにおける対象物の、前記形状空間ベクトルの空間における推定存在確率分布をさらに算出し、当該推定存在確率分布に基づき各パーティクルの前記形状空間ベクトルに重み付けを行うことにより、前記第2の画像フレームにおける対象物の輪郭線の並進量、倍率、回転角をさらに推定することを特徴とする請求項2に記載の画像処理装置。
  6.  前記形状予測部は、前記第1の画像フレームにおける対象物の推定存在確率分布に基づき生成および消滅させたパーティクルを、前記係数セット空間における遷移前の座標を中心としたガウス分布をなすように遷移させることを特徴とする請求項2に記載の画像処理装置。
  7.  前記形状予測部は、前記係数セット空間におけるパーティクルの遷移前の座標に基づき、当該パーティクルで定義される形状が第一の基準形状と第二の基準形状の間の形状であることを検出した際、前記係数セット空間において前記第一の基準形状を表す座標と前記第二の基準形状を表す座標とを結ぶ線の方向の標準偏差が、他の方向の標準偏差より大きいガウス分布をなすように、パーティクルを遷移させることを特徴とする請求項6に記載の画像処理装置。
  8.  前記形状予測部は、前記係数セット空間におけるパーティクルの遷移前の座標に基づき、当該パーティクルで定義される形状が基準形状と見なされる状態にあることを検出した際、当該基準形状から遷移することのできる各基準形状へ遷移する確率が等しいとして、パーティクルを分配することを特徴とする請求項2に記載の画像処理装置。
  9.  複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定めるステップと、
     定められた前記係数のセットを用いて、画像内の対象物の輪郭線を前記線形和で表現して出力するステップと、
     を含むことを特徴とする画像処理方法。
  10.  対象物を撮像した第1の画像フレームおよび第2の画像フレームを含む動画像ストリームデータを取得しメモリに保存するステップをさらに含み、
     前記出力するステップは
     前記係数のセットで定義される係数セット空間における、前記第1の画像フレームにおける対象物の推定存在確率分布に基づき、前記第2の画像フレームにおける対象物の輪郭線を予測し、メモリから読み出した前記第2の画像フレームにおける対象物の輪郭線と比較することにより、前記第2の画像フレームにおける対象物の推定存在確率分布を取得するステップと、
     前記推定存在確率分布に基づき前記第2の画像フレームにおける対象物の輪郭線を推定しメモリに保存するステップと、
     を含むことを特徴とする請求項9に記載の画像処理方法。
  11.  複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定める機能と、
     定められた前記係数のセットを用いて、画像内の対象物の輪郭線を前記線形和で表現して出力する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラム。
  12.  対象物を撮像した第1の画像フレームおよび第2の画像フレームを含む動画像ストリームデータを取得しメモリに保存する機能をさらにコンピュータに実現させ、
     前記係数のセットで定義される係数セット空間における、前記第1の画像フレームにおける対象物の推定存在確率分布に基づき、前記第2の画像フレームにおける対象物の輪郭線を予測し、メモリから読み出した前記第2の画像フレームにおける対象物の輪郭線と比較することにより、前記第2の画像フレームにおける対象物の推定存在確率分布を取得する機能と、
     前記推定存在確率分布に基づき前記第2の画像フレームにおける対象物の輪郭線を推定しメモリに保存する機能と、
     をコンピュータに実現させることを特徴とする請求項11に記載のコンピュータプログラム。
  13.  複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定める機能と、
     定められた前記係数のセットを用いて、画像内の対象物の輪郭線を前記線形和で表現して出力する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した記録媒体。
  14.   対象物を撮像した第1の画像フレームおよび第2の画像フレームを含む動画像ストリームデータを取得しメモリに保存する機能をさらにコンピュータに実現させ、
     前記係数のセットで定義される係数セット空間における、前記第1の画像フレームにおける対象物の推定存在確率分布に基づき、前記第2の画像フレームにおける対象物の輪郭線を予測し、メモリから読み出した前記第2の画像フレームにおける対象物の輪郭線と比較することにより、前記第2の画像フレームにおける対象物の推定存在確率分布を取得する機能と、
     前記推定存在確率分布に基づき前記第2の画像フレームにおける対象物の輪郭線を推定しメモリに保存する機能と、
     をコンピュータに実現させることを特徴とする請求項13に記載のコンピュータプログラムを記録した記録媒体。
  15.  動画像を構成する画像フレームから対象物の輪郭線を取得する輪郭線取得部と、
     前記輪郭線取得部が取得した対象物の輪郭線に基づき、対象物の所定の部位の位置を特定する対象部位特定部と、
     前記画像フレームのうち、前記対象部位特定部が特定した所定の部位の位置に基づき決定される領域に、所定の加工処理を施した加工画像を生成する加工処理部と、
     前記加工処理部が生成した加工画像を画像フレームとする動画像のデータを出力する出力部と、
     を備えたことを特徴とする画像処理装置。
  16.  前記対象部位特定部は、前記所定の部位の傾きの時間変化を、前記輪郭線の時間変化から取得し、
     前記加工処理部は、前記所定の部位の傾きの時間変化に応じて加工処理の結果も時間変化するように加工画像を生成することを特徴とする請求項15に記載の画像処理装置。
  17.  洋服の3Dグラフィックス画像のデータを記憶する記憶部をさらに備え、
     前記輪郭線取得部は、対象物である人間の頭部の輪郭線をΩ型のテンプレートで表し、画像フレームのエッジ画像とマッチングすることによって当該人間の頭部の輪郭線をΩ型で取得し、
     前記対象部位特定部は、前記輪郭線の肩の線を特定し、
     前記加工処理部は、前記肩の線に、ユーザが選択した洋服の肩の線を合致させるように、当該人間の身体に前記洋服の画像を合成することを特徴とする請求項15に記載の画像処理装置。
  18.  ネイルアートを施した爪の3Dグラフィックス画像のデータを記憶する記憶部をさらに備え、
     前記輪郭線取得部は、対象物である人の手の輪郭線を取得し、
     前記対象部位特定部は、前記輪郭線の指の先端の位置から爪の領域を特定し、
     前記加工処理部は、前記爪の領域に、ユーザが選択したネイルアートを施した爪の画像が合致するように、当該爪の画像を合成することを特徴とする請求項15に記載の画像処理装置。
  19.  前記輪郭線取得部は、前記手の輪郭線を定義するBスプライン曲線のパラメータを、あらかじめ定めた複数の基準形状の輪郭線を定義するパラメータの線形和で表現したときの係数のセットをマッチングにより調整することにより、前記輪郭線を表すBスプライン曲線を取得することを特徴とする請求項18に記載の画像処理装置。
  20.  前記輪郭線取得部は、前記Bスプライン曲線のパラメータを、五指のいずれか一本が立った状態の5つの基準形状のBスプライン曲線のパラメータの線形和で表現することを特徴とする請求項19に記載の画像処理装置。
  21.  前記輪郭線取得部は、対象物である人間の頭部の輪郭線をΩ型のテンプレートで表し、画像フレームのエッジ画像とマッチングすることによって当該人間の頭部の輪郭線をΩ型で取得し、
     前記対象部位特定部は、前記Ω型およびその端点を結ぶ線分で囲まれた領域を頭部領域として特定し、
     前記加工処理部は、前記頭部領域にモザイク処理を施すことを特徴とする請求項15に記載の画像処理装置。
  22.  前記加工処理部は、前記対象部位特定部が特定した所定の部位の位置に基づき決定された、対象物の輪郭より外側の領域に、当該対象物に係る情報を表示した画像を合成することを特徴とする請求項15に記載の画像処理装置。
  23.  前記輪郭線取得部は、対象物である人間の頭部の輪郭線をΩ型のテンプレートで表し、画像フレームのエッジ画像とマッチングすることによって当該人間の頭部の輪郭線をΩ型で取得し、
     前記対象部位特定部は、前記頭部の輪郭線上の所定のポイントの位置をおよび頭部の見かけ上の大きさを特定し、
     前記加工処理部は、前記所定のポイントを指す線と内部に前記情報を表示した図形とからなる情報タグの画像を、頭部の見かけ上の大きさに応じたサイズで合成することを特徴とする請求項22に記載の画像処理装置。
  24.  前記加工処理部は、前記情報タグのサイズに対してあらかじめ設定された下限および上限を超えたサイズの情報タグを合成しないことを特徴とする請求項23に記載の画像処理装置。
  25.  前記対象部位特定部は、第1の部位の少なくとも一部が第2の部位の背後に隠れたことを対象物の輪郭線の時間変化より検出し、
     前記加工処理部は、加工処理として前記第1の部位と前記第2の部位のそれぞれに対応した画像を合成する際、前記第1の部位に対応した画像の少なくとも一部が第2の部位によって隠れるように隠面消去処理を行うことを特徴とする請求項15に記載の画像処理装置。
  26.  メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得するステップと、
     前記輪郭線に基づき、対象物または対象物の所定の部位の領域を特定するステップと、
     前記画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納するステップと、
     を含むことを特徴とする画像処理方法。
  27.  メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得する機能と、
     前記輪郭線に基づき、対象物または対象物の所定の部位の領域を特定する機能と、
     前記画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラム。
  28.  メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得する機能と、
     前記輪郭線に基づき、対象物または対象物の所定の部位の領域を特定する機能と、
     前記画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した記録媒体。
PCT/JP2009/004442 2008-12-24 2009-09-08 画像処理装置および画像処理方法 WO2010073432A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/132,365 US20110279475A1 (en) 2008-12-24 2009-09-08 Image processing device and image processing method
EP09834250.4A EP2372653B1 (en) 2008-12-24 2009-09-08 Image processing device and image processing method
US15/048,063 US10216987B2 (en) 2008-12-24 2016-02-19 Image processing device and image processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008-328742 2008-12-24
JP2008328741A JP5595655B2 (ja) 2008-12-24 2008-12-24 画像処理装置および画像処理方法
JP2008-328741 2008-12-24
JP2008328742A JP5468773B2 (ja) 2008-12-24 2008-12-24 画像処理装置および画像処理方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/132,365 A-371-Of-International US20110279475A1 (en) 2008-12-24 2009-09-08 Image processing device and image processing method
US15/048,063 Division US10216987B2 (en) 2008-12-24 2016-02-19 Image processing device and image processing method

Publications (1)

Publication Number Publication Date
WO2010073432A1 true WO2010073432A1 (ja) 2010-07-01

Family

ID=42287097

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/004442 WO2010073432A1 (ja) 2008-12-24 2009-09-08 画像処理装置および画像処理方法

Country Status (3)

Country Link
US (2) US20110279475A1 (ja)
EP (1) EP2372653B1 (ja)
WO (1) WO2010073432A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130113830A1 (en) * 2011-11-09 2013-05-09 Sony Corporation Information processing apparatus, display control method, and program
CN111308993A (zh) * 2020-02-13 2020-06-19 青岛联合创智科技有限公司 一种基于单目视觉的人体目标跟随方法
US20220051044A1 (en) * 2020-08-14 2022-02-17 Fujitsu Limited Image processing apparatus and computer-readable storage medium for storing screen processing program

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896327B1 (en) * 2013-03-15 2021-01-19 Spatial Cam Llc Device with a camera for locating hidden object
US20130042261A1 (en) * 2011-08-10 2013-02-14 Bank Of America Electronic video media e-wallet application
EP2754131B1 (en) * 2011-09-08 2022-10-26 Nautilus, Inc. System and method for visualizing synthetic objects withinreal-world video clip
JP5613741B2 (ja) 2012-09-27 2014-10-29 株式会社東芝 画像処理装置、方法、及びプログラム
KR101707707B1 (ko) * 2012-12-14 2017-02-16 한국전자통신연구원 인체 모델을 이용한 가상 아이템 피팅 방법 및 가상 아이템의 피팅 서비스 제공 시스템
CN103871106A (zh) * 2012-12-14 2014-06-18 韩国电子通信研究院 利用人体模型的虚拟物拟合方法及虚拟物拟合服务系统
BE1021557B1 (nl) * 2013-01-23 2015-12-11 Osmana Besloten Vennootschap Met Beperkte Aansprakelijkheid Toestel en werkwijze voor het presenteren van een juweel en computerprogramma daarbij toepasbaar
USD745876S1 (en) * 2013-03-14 2015-12-22 Microsoft Corporation Display screen with graphical user interface
US9733715B2 (en) * 2013-03-15 2017-08-15 Leap Motion, Inc. Resource-responsive motion capture
CN104240228B (zh) 2013-06-24 2017-10-24 阿里巴巴集团控股有限公司 一种应用于网站的特定图片的检测方法及装置
US20150006545A1 (en) * 2013-06-27 2015-01-01 Kodak Alaris Inc. System for ranking and selecting events in media collections
JP6253311B2 (ja) * 2013-08-28 2017-12-27 キヤノン株式会社 画像処理装置、画像処理方法
CN103592665B (zh) * 2013-11-15 2017-09-22 厦门雅迅网络股份有限公司 基于b样条曲线的车载终端定位轨迹拟合方法
NO336680B1 (no) * 2013-12-04 2015-10-19 Global Maritime As Fremgangsmåte for estimering av risiko for minst én utilsiktet sluppet last fra minst én kran på en plattform eller et fartøy på undersjøiske rørledninger og annet undersjøisk utstyr, samt anvendelser av fremgangsmåten
JP6264008B2 (ja) * 2013-12-12 2018-01-24 オムロン株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP6366999B2 (ja) * 2014-05-22 2018-08-01 株式会社メガチップス 状態推定装置、プログラムおよび集積回路
WO2015186401A1 (ja) * 2014-06-06 2015-12-10 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、画像処理方法及び画像処理プログラム
EP2983132A1 (en) * 2014-08-08 2016-02-10 Thomson Licensing Method and apparatus for determining a sequence of transitions
WO2016025507A1 (en) * 2014-08-12 2016-02-18 Joseph Cole Harper System and method for accurately analyzing sensed data
JP2016054450A (ja) * 2014-09-04 2016-04-14 株式会社東芝 画像処理装置、画像処理システム、画像処理方法及びプログラム
KR102240302B1 (ko) * 2014-10-21 2021-04-14 삼성전자주식회사 가상 피팅 장치 및 이의 가상 피팅 방법
WO2016089550A1 (en) * 2014-11-06 2016-06-09 Grace Tang System and method for image processing and virtual fitting
US9704298B2 (en) 2015-06-23 2017-07-11 Paofit Holdings Pte Ltd. Systems and methods for generating 360 degree mixed reality environments
WO2017053822A1 (en) * 2015-09-23 2017-03-30 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
US20170083790A1 (en) 2015-09-23 2017-03-23 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
US10629166B2 (en) * 2016-04-01 2020-04-21 Intel Corporation Video with selectable tag overlay auxiliary pictures
TWI625687B (zh) * 2016-11-01 2018-06-01 緯創資通股份有限公司 互動式服飾試穿方法及其顯示系統與電腦可讀取記錄媒體
WO2018129063A1 (en) * 2017-01-03 2018-07-12 Ring Inc. Streaming video from audio/video recording and communication devices
WO2018179253A1 (ja) * 2017-03-30 2018-10-04 株式会社ソニー・インタラクティブエンタテインメント ポリゴンモデル生成装置、ポリゴンモデル生成方法及びプログラム
US10782552B2 (en) 2017-08-01 2020-09-22 Shenzhen China Star Optoelectronics Technology Co., Ltd. Display panel and display device
CN107808387B (zh) * 2017-11-13 2021-04-06 湖北工业大学 一种医学图像序列中的目标跟踪方法
CN108549928B (zh) * 2018-03-19 2020-09-25 清华大学 深度强化学习指导下基于连续移动的视觉跟踪方法及装置
CN109493365A (zh) * 2018-10-11 2019-03-19 中国科学院上海技术物理研究所 一种弱小目标的跟踪方法
GB2588422A (en) * 2019-10-23 2021-04-28 Univ Loughborough Shape analysis device
US10769807B1 (en) * 2019-11-25 2020-09-08 Pet3D Corp System, method, and apparatus for clothing a pet
CN110956118B (zh) * 2019-11-26 2023-04-18 浙江大华技术股份有限公司 目标对象检测方法和装置、存储介质及电子装置
CN112330634A (zh) * 2020-11-05 2021-02-05 恒信东方文化股份有限公司 一种针对服装的边缘精细抠图方法及系统
CN113223009B (zh) * 2021-04-16 2023-10-17 北京戴纳实验科技有限公司 一种衣着检测系统
WO2023064440A1 (en) * 2021-10-14 2023-04-20 Roblox Corporation Hidden surface removal for layered clothing for an avatar body

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08315162A (ja) * 1995-05-19 1996-11-29 Matsushita Electric Ind Co Ltd 形状処理装置
JPH09147127A (ja) * 1995-11-24 1997-06-06 Ricoh Co Ltd 自由曲線生成方法
JP2000149046A (ja) * 1998-09-04 2000-05-30 Sony Corp 曲線生成装置及び方法、プログラムを格納した記録媒体、並びに対応点設定方法
JP2000322588A (ja) * 1999-05-06 2000-11-24 Toshiba Corp 画像処理装置及びその方法
JP2002271693A (ja) * 2001-03-13 2002-09-20 Canon Inc 画像処理装置、画像処理方法、及び制御プログラム
JP2002366837A (ja) * 2001-06-06 2002-12-20 Sony Corp 商品提案システム、商品提案装置、顧客側画像送信端末商品提案者側端末、顧客側閲覧用端末、これらのためのプログラム並びにプログラム記録媒体
JP2003055826A (ja) * 2001-08-17 2003-02-26 Minolta Co Ltd サーバおよび仮想試着用データ管理方法
JP2005242566A (ja) * 2004-02-25 2005-09-08 Canon Inc 画像合成装置及び方法
JP2006217379A (ja) * 2005-02-04 2006-08-17 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007328746A (ja) * 2006-06-09 2007-12-20 Sony Computer Entertainment Inc 対象物追跡装置および対象物追跡方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329254A (ja) 1995-03-24 1996-12-13 Matsushita Electric Ind Co Ltd 輪郭抽出装置
JPH09138471A (ja) 1995-09-13 1997-05-27 Fuji Photo Film Co Ltd 特定形状領域の抽出方法、特定領域の抽出方法及び複写条件決定方法
JP3930504B2 (ja) 1998-01-07 2007-06-13 株式会社東芝 物体抽出装置
JP2000306092A (ja) 1999-04-16 2000-11-02 Nadeisu:Kk デジタル画像処理により実現される鏡及びその処理をコンピュータに行わせるためのプログラムを内蔵した媒体
AU2001249496A1 (en) * 2000-03-31 2001-10-15 Imx Labs, Inc. Nail polish color selection system and method
US8072470B2 (en) * 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
JP4085959B2 (ja) * 2003-11-14 2008-05-14 コニカミノルタホールディングス株式会社 物体検出装置、物体検出方法、および記録媒体
DE602005013752D1 (de) * 2005-05-03 2009-05-20 Seac02 S R L Augmented-Reality-System mit Identifizierung der realen Markierung des Objekts
US7376246B2 (en) * 2005-06-27 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Subspace projection based non-rigid object tracking with particle filters
JP2007034733A (ja) 2005-07-27 2007-02-08 Toshiba Corp 対象物領域検出装置、方法およびプログラム
JP4692969B2 (ja) 2006-06-09 2011-06-01 株式会社ソニー・コンピュータエンタテインメント 特徴点探索装置、画像解析装置、および最近傍特徴点検出方法
FR2911211B1 (fr) * 2007-01-05 2009-06-12 Total Immersion Sa Procede et dispositifs pour inserer en temps reel des objets virtuels dans un flux d'images a partir de donnees issues de la scene reelle representee par ces images
EP2153377A4 (en) * 2007-05-04 2017-05-31 Qualcomm Incorporated Camera-based user input for compact devices

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08315162A (ja) * 1995-05-19 1996-11-29 Matsushita Electric Ind Co Ltd 形状処理装置
JPH09147127A (ja) * 1995-11-24 1997-06-06 Ricoh Co Ltd 自由曲線生成方法
JP2000149046A (ja) * 1998-09-04 2000-05-30 Sony Corp 曲線生成装置及び方法、プログラムを格納した記録媒体、並びに対応点設定方法
JP2000322588A (ja) * 1999-05-06 2000-11-24 Toshiba Corp 画像処理装置及びその方法
JP2002271693A (ja) * 2001-03-13 2002-09-20 Canon Inc 画像処理装置、画像処理方法、及び制御プログラム
JP2002366837A (ja) * 2001-06-06 2002-12-20 Sony Corp 商品提案システム、商品提案装置、顧客側画像送信端末商品提案者側端末、顧客側閲覧用端末、これらのためのプログラム並びにプログラム記録媒体
JP2003055826A (ja) * 2001-08-17 2003-02-26 Minolta Co Ltd サーバおよび仮想試着用データ管理方法
JP2005242566A (ja) * 2004-02-25 2005-09-08 Canon Inc 画像合成装置及び方法
JP2006217379A (ja) * 2005-02-04 2006-08-17 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007328746A (ja) * 2006-06-09 2007-12-20 Sony Computer Entertainment Inc 対象物追跡装置および対象物追跡方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAKOTO NISHIKAWA ET AL.: "Color Gazo Shori o Mochiita Yubisaki ni yoru Mojiretsu - Zuhyo Ryoiki no Shijiho", IEICE TECHNICAL REPORT PRMU, vol. 98, no. 528, 22 January 1999 (1999-01-22), pages 25 - 32, XP008167379 *
See also references of EP2372653A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130113830A1 (en) * 2011-11-09 2013-05-09 Sony Corporation Information processing apparatus, display control method, and program
CN111308993A (zh) * 2020-02-13 2020-06-19 青岛联合创智科技有限公司 一种基于单目视觉的人体目标跟随方法
CN111308993B (zh) * 2020-02-13 2022-04-01 青岛联合创智科技有限公司 一种基于单目视觉的人体目标跟随方法
US20220051044A1 (en) * 2020-08-14 2022-02-17 Fujitsu Limited Image processing apparatus and computer-readable storage medium for storing screen processing program
US11682188B2 (en) * 2020-08-14 2023-06-20 Fujitsu Limited Image processing apparatus and computer-readable storage medium for storing screen processing program

Also Published As

Publication number Publication date
US20160171296A1 (en) 2016-06-16
EP2372653A1 (en) 2011-10-05
EP2372653A4 (en) 2013-06-26
EP2372653B1 (en) 2015-07-22
US20110279475A1 (en) 2011-11-17
US10216987B2 (en) 2019-02-26

Similar Documents

Publication Publication Date Title
WO2010073432A1 (ja) 画像処理装置および画像処理方法
JP5595655B2 (ja) 画像処理装置および画像処理方法
JP5635736B2 (ja) 情報処理装置および情報処理方法
JP5483899B2 (ja) 情報処理装置および情報処理方法
CN111316291B (zh) 用生成式对抗神经网络分割和去噪深度图像用于识别应用
JP5213486B2 (ja) 対象物追跡装置および対象物追跡方法
Ganapathi et al. Real time motion capture using a single time-of-flight camera
US8824802B2 (en) Method and system for gesture recognition
JP4766495B2 (ja) 対象物追跡装置および対象物追跡方法
Reale et al. A multi-gesture interaction system using a 3-D iris disk model for gaze estimation and an active appearance model for 3-D hand pointing
EP2993893B1 (en) Method for image segmentation
JP5468773B2 (ja) 画像処理装置および画像処理方法
JP2986455B1 (ja) 手振り認識装置
JP2000331170A (ja) 手振り認識装置
López-Méndez et al. Real-time upper body tracking with online initialization using a range sensor
JP2006244272A (ja) 手位置追跡方法、装置、およびプログラム
JP4559375B2 (ja) 対象物位置追跡方法、装置、およびプログラム
JP6810442B2 (ja) カメラアセンブリ、そのカメラアセンブリを用いる手指形状検出システム、そのカメラアセンブリを用いる手指形状検出方法、その検出方法を実施するプログラム、及び、そのプログラムの記憶媒体
Tian et al. Deep Detector and Optical Flow-based Tracking Approach of Facial Markers for Animation Capture
CN117648035A (zh) 一种虚拟手势的控制方法及装置
Wang et al. A REAL-TIME 3D MOTION TRACKING AND INTERACTION SYSTEM FOR VIRTUAL REALITY
JP2004334266A (ja) 画像表示装置
Kakadiaris et al. Model-based human motion capture
Chaudhuri et al. View-Dependent Animation from Multimodal Inputs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09834250

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009834250

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13132365

Country of ref document: US