KR102569572B1 - A system for providing virtual wearing image - Google Patents

A system for providing virtual wearing image Download PDF

Info

Publication number
KR102569572B1
KR102569572B1 KR1020220100070A KR20220100070A KR102569572B1 KR 102569572 B1 KR102569572 B1 KR 102569572B1 KR 1020220100070 A KR1020220100070 A KR 1020220100070A KR 20220100070 A KR20220100070 A KR 20220100070A KR 102569572 B1 KR102569572 B1 KR 102569572B1
Authority
KR
South Korea
Prior art keywords
image
captured
subject
captured image
angle
Prior art date
Application number
KR1020220100070A
Other languages
Korean (ko)
Inventor
박수진
Original Assignee
주식회사 오젤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 오젤 filed Critical 주식회사 오젤
Priority to KR1020220100070A priority Critical patent/KR102569572B1/en
Application granted granted Critical
Publication of KR102569572B1 publication Critical patent/KR102569572B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Architecture (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에서는 가상의 착용이미지 제공시스템이 개시된다. 상기 가상의 착용이미지 제공시스템은, 서로 다른 다양한 촬상 각도로 피사체를 포착한 카메라 모듈로부터 생성된 일군의 제1 촬상 이미지의 세트가 저장된 데이터 베이스와, 제1 촬상 이미지 상에 포착된 피사체와 배경을 서로 다른 영역으로 분할하기 위한 영상 분할부와, 제1 촬상 이미지와 다른 제2 촬상 이미지로부터 객체를 추출하기 위한 객체 검출부와, 객체 검출부로부터 추출된 객체의 촬상 각도의 정보를 검출하기 위한 자세 검출부와, 자세 검출부로부터 출력된 객체의 촬상 각도를 참조하여 데이터 베이스를 조회하고 제2 촬상 이미지의 촬상 각도와 가장 유사한 최근접의 촬상 각도로 포착된 제1 촬상 이미지를 취하여 제1 촬상 이미지의 피사체 영상을 제2 촬상 이미지의 객체 상에 합성하는 영상 정합부;를 포함할 수 있다.
본 발명에 의하면, 각기 서로 다른 자세 및 스케일로 포착된 피사체와 객체 사이에서 자세 및 스케일 매칭을 통하여 피사체와 객체 사이의 자연스러운 가상의 착용 영상을 제공할 수 있는 가상의 착용이미지 제공 시스템이 제공될 수 있다.
In the present invention, a system for providing a virtual wearing image is disclosed. The system for providing a virtual worn image includes a database storing a set of first captured images generated from a camera module capturing a subject at various different imaging angles, and a subject and a background captured on the first captured image. An image segmentation unit for dividing into different regions, an object detection unit for extracting an object from a second captured image different from the first captured image, and a posture detection unit for detecting information on a capturing angle of the object extracted from the object detecting unit , The subject image of the first captured image is obtained by querying the database with reference to the imaging angle of the object output from the posture detection unit and taking the first captured image captured at the closest imaging angle most similar to the imaging angle of the second captured image. It may include; an image matching unit that synthesizes the object of the second captured image.
According to the present invention, a virtual wearing image providing system capable of providing a natural virtual wearing image between a subject and an object through posture and scale matching between a subject and an object captured in different postures and scales can be provided. there is.

Figure R1020220100070
Figure R1020220100070

Description

가상의 착용이미지 제공시스템{A system for providing virtual wearing image}Virtual wearing image providing system {A system for providing virtual wearing image}

본 발명은 가상의 착용이미지 제공시스템에 관한 것이다.The present invention relates to a system for providing a virtual wearing image.

액서서리류 내지는 장신구와 같이, 소형 패션 아이템은, 귀금속의 광택이나 높은 반사 특성으로 인하여, 외관에 미치는 장식적인 가치가 높지만, 상대적으로 작은 체적이나 의류와 같은 평면적인 디자인이 아닌 입체적인 디자인으로 인하여, 제품 설명에 제시되어 있는 제품 자체의 이미지만으로 구매 결정을 하기 쉽지 않은 측면이 있으며, 제품 자체의 이미지와 더불어, 제품의 착용 이미지를 함께 고려하여 구매 결정을 하는 경향이 있으며, 액서서리류 내지는 장신구의 판매자의 입장에서도 제품 설명에 제품 자체의 이미지와 제품의 착용 이미지를 함께 제시함으로써, 제품의 크기나 형상 등에 관한 소비자의 착오로 인한 제품의 반품이나 교환과 같은 추후 A/S를 줄일 수 있다는 측면에서 제품의 착용 이미지를 함께 제시하는 것이 선호되고 있다.Small fashion items, such as accessories or ornaments, have high decorative value on their appearance due to the luster of precious metals or high reflectivity, but due to their relatively small volume or three-dimensional design rather than a flat design like clothing, There is an aspect that it is not easy to make a purchase decision only with the image of the product itself presented in the description, and there is a tendency to make a purchase decision considering the image of the product itself and the wearing image of the product together, and the seller of accessories or accessories From the standpoint of the product, by presenting the image of the product itself and the wearing image of the product together in the product description, it is possible to reduce future A/S such as return or exchange of the product due to consumer's error regarding the size or shape of the product. It is preferred to present a wearing image together.

본 발명의 일 실시형태는, 각기 서로 다른 자세 및 스케일로 포착된 피사체와 객체 사이에서 자세 및 스케일 매칭을 통하여 피사체와 객체 사이의 자연스러운 가상의 착용 영상을 제공할 수 있는 가상의 착용이미지 제공 시스템을 포함한다.One embodiment of the present invention provides a virtual wearing image providing system capable of providing a natural virtual wearing image between a subject and an object through posture and scale matching between a subject and an object captured in different postures and scales. include

상기와 같은 과제 및 그 밖의 과제를 해결하기 위하여, 본 발명의 가상의 착용이미지 제공시스템은,In order to solve the above and other problems, the system for providing a virtual wearing image of the present invention,

서로 다른 다양한 촬상 각도로 피사체를 포착한 카메라 모듈로부터 생성된 일군의 제1 촬상 이미지의 세트가 저장된 데이터 베이스;a database storing a set of a group of first captured images generated from a camera module that captures a subject at various different imaging angles;

상기 제1 촬상 이미지 상에 포착된 피사체와 배경을 서로 다른 영역으로 분할하기 위한 영상 분할부;an image divider for dividing a subject and a background captured on the first captured image into different regions;

상기 제1 촬상 이미지와 다른 제2 촬상 이미지로부터 객체를 추출하기 위한 객체 검출부;an object detection unit for extracting an object from a second captured image different from the first captured image;

상기 객체 검출부로부터 추출된 객체의 촬상 각도의 정보를 검출하기 위한 자세 검출부; 및a posture detection unit for detecting information on an imaging angle of the object extracted from the object detection unit; and

상기 자세 검출부로부터 출력된 객체의 촬상 각도를 참조하여 상기 데이터 베이스를 조회하고 제2 촬상 이미지의 촬상 각도와 가장 유사한 최근접의 촬상 각도로 포착된 제1 촬상 이미지를 취하여 제1 촬상 이미지의 피사체 영상을 제2 촬상 이미지의 객체 상에 합성하는 영상 정합부;를 포함할 수 있다. The database is queried with reference to the imaging angle of the object output from the posture detection unit, and the first captured image captured at the closest imaging angle most similar to the imaging angle of the second captured image is taken, and the subject image of the first captured image is obtained. It may include; an image matching unit that synthesizes the object of the second captured image.

예를 들어, 상기 피사체의 촬상 각도는, For example, the imaging angle of the subject is,

피사체가 놓인 지지면과 나란하게 피사체 주변을 일주하는 카메라 모듈의 궤적을 따라 서로 다른 각도 위치를 나타내는 회전 각도; 및Rotation angles indicating different angular positions along the trajectory of the camera module traveling around the subject in parallel with the support surface on which the subject is placed; and

카메라 모듈의 궤적이 상기 지지면으로부터 경사진 각도 위치를 나타내는 틸팅 각도를 포함할 수 있다. The trajectory of the camera module may include a tilting angle indicating an angular position inclined from the support surface.

예를 들어, 상기 피사체 놓인 공간은 상기 지지면을 형성하는 X축-Z축의 평면 상에서 Y축을 높이로 하며, 상기 X축은 카메라 모듈이 피사체를 지향하는 방향에 해당되고,For example, the space where the subject is placed has a Y-axis height on a plane of the X-axis-Z-axis forming the support surface, and the X-axis corresponds to a direction in which the camera module directs the subject,

상기 회전 각도 및 틸팅 각도는 각각 Y축 및 X축을 중심으로 하는 회전 방향에 해당되며,The rotation angle and the tilt angle correspond to rotation directions centered on the Y-axis and the X-axis, respectively,

상기 촬상 각도는, 카메라 모듈의 심도를 변화시키는 상기 Z축을 중심으로 하는 회전 방향에 관한 요잉(yawing) 각도를 포함하지 않을 수 있다. The imaging angle may not include a yawing angle with respect to a rotational direction about the Z-axis that changes the depth of field of the camera module.

예를 들어, 상기 데이터 베이스에는 상기 제1 촬상 이미지 각각의 촬상 각도의 정보로서, 서로 다른 회전 각도 및 틸팅 각도의 정보가 연계되어 저장되어 있을 수 있다. For example, information on different rotation angles and tilting angles may be linked and stored in the database as information on the imaging angle of each of the first captured images.

예를 들어, 상기 영상 분할부는, 상기 제1 촬상 이미지 상에 포착된 피사체, 형광 채색된 발광지시부 및 배경을 각각 서로 다른 영역으로 분할할 수 있다. For example, the image divider may divide the subject captured on the first captured image, the fluorescently colored light emitting indicator, and the background into different regions.

예를 들어, 상기 제1 촬상 이미지 상에 포착된 피사체의 영상 정보는, 피사체와 함께 제1 촬상 이미지 상에 포착된 발광지시부와 상기 제2 촬상 이미지 상에서 착용 위치에 관하여 설정된 목표 위치가 서로 위치 정렬되도록, 상기 제2 촬상 이미지 상의 목표 위치로 복사될 수 있다. For example, in the image information of the subject captured on the first captured image, a light emitting indicator captured on the first captured image together with the subject and a target position set in relation to the wearing position on the second captured image are aligned with each other. If possible, it can be copied to a target position on the second captured image.

예를 들어, 상기 제1 촬상 이미지는 R,G,B 3채널의 이미지를 포함하고, For example, the first captured image includes images of three channels of R, G, and B;

상기 영상 분할부는 R,G,B 3채널의 이미지 중에서 적어도 어느 하나의 채널의 이미지의 화소 값의 분포로부터 산출된 서로 다른 제1, 제2 임계값을 기준으로, 상기 피사체, 발광지시부 및 배경을 서로 다른 3영역으로 분할할 수 있다. The image segmentation unit selects the subject, the light emitting indicator, and the background based on different first and second threshold values calculated from the distribution of pixel values of at least one channel among the three R, G, and B images. It can be divided into 3 different areas.

예를 들어, 상기 제1 촬상 이미지는 피사체로서 액서서리류를 포착한 이미지이며, For example, the first captured image is an image capturing accessories as a subject,

상기 제2 촬상 이미지는 객체로서 인물의 얼굴을 포착한 이미지일 수 있다. The second captured image may be an image capturing a person's face as an object.

예를 들어, 상기 객체 검출부는, For example, the object detection unit,

상기 제2 촬상 이미지로부터 특징을 추출하기 위한 특징 추출부; 및a feature extraction unit for extracting features from the second captured image; and

상기 특징 추출부로부터 검출된 특징을 입력으로 하여 객체로서의 얼굴 여부에 관한 이진 분류를 위한 분류기;를 포함할 수 있다. A classifier for binary classification on whether or not a face is an object by taking the feature detected from the feature extraction unit as an input.

예를 들어, 상기 객체 검출부는,For example, the object detection unit,

상기 제2 촬상 이미지를 입력으로 하여 제2 촬상 이미지와 학습된 커널 사이의 합성곱으로부터 제2 촬상 이미지의 특징을 추출한 특성 맵을 산출하고, 산출된 특성 맵과 학습된 가중치 사이의 선형 조합으로부터 객체로서의 얼굴 여부에 관한 예측된 확률을 출력하기 위한 컨볼루션 신경망(Convolution Neural Network, CNN 신경망)을 포함할 수 있다. A feature map obtained by extracting features of the second captured image from the convolution between the second captured image and the learned kernel is calculated by taking the second captured image as an input, and an object is obtained from a linear combination between the calculated feature map and the learned weight. It may include a convolution neural network (CNN neural network) for outputting a predicted probability regarding whether or not a face as .

예를 들어, 상기 자세 검출부는, 상기 객체 검출부로부터 추출된 얼굴 영상을 입력으로 하여, 얼굴 영상으로부터 눈과 입술 영역을 추출하여 양편의 눈과 입술 영역을 서로 연결해주는 부품 모델(part based model)을 생성할 수 있다. For example, the posture detection unit takes the face image extracted from the object detection unit as an input, extracts eye and lip regions from the face image, and connects both eyes and lip regions to each other. A part based model can create

예를 들어, 상기 부품 모델은, 양편의 눈 영역을 서로 연결해주는 제1 선분 성분과, 일편의 눈 영역과 입술 영역을 서로 연결해주는 제2 선분 성분과, 타편의 눈 영역과 입술 영역을 서로 연결해주는 제3 선분 성분을 포함하고, For example, the part model includes a first line component connecting both eye regions, a second line component connecting one eye region and a lip region, and connecting the other eye region and lip region to each other. It includes a third line segment component that

상기 자세 검출부는, 상기 제1 내지 제3 선분 성분의 각각의 각도와 길이를 입력으로 하여, 객체의 촬상 각도에 관한 예측 값을 출력하기 위한 선형 회귀 신경망을 포함할 수 있다. The posture detection unit may include a linear regression neural network for outputting a predicted value about an imaging angle of an object by receiving angles and lengths of each of the first to third line segment components as inputs.

예를 들어, 상기 객체의 촬상 각도는, 객체로서 얼굴의 회전 각도 및 틸딩 각도를 포함할 수 있다. For example, the imaging angle of the object may include a rotation angle and a tilt angle of a face as an object.

예를 들어, 상기 선형 회귀 신경망은, 상기 제1 내지 제3 선분 성분의 각각의 각도와 길이를 입력으로 하여, 객체의 촬상 각도와 함께, 객체의 스케일에 관한 예측 값을 출력할 수 있다. For example, the linear regression neural network may take the angle and length of each of the first to third line segment components as inputs, and output a predicted value related to the scale of the object together with the imaging angle of the object.

예를 들어, 상기 부품 모델로부터 직접 스케일 정보를 산출하거나, 또는For example, scale information is calculated directly from the part model, or

상기 자세 검출부는, 선형 회귀 신경망으로부터 스케일 정보를 출력하되, 상기 자세 검출부로부터 출력되는 스케일 정보는 상기 객체로서 얼굴 영역의 장축 길이에 해당될 수 있다. The posture detector outputs scale information from the linear regression neural network, and the scale information output from the posture detector may correspond to a length of a major axis of the face region as the object.

예를 들어, 상기 영상 정합부는 상기 제2 촬상 이미지로부터 검출된 촬상 각도로서, 회전 각도 및 틸팅 각도와, 상기 데이터 베이스에 저장된 제1 촬상 이미지의 촬상 각도로서 회전 각도 및 틸팅 각도 사이의 제곱 오차합(sum of squared errors, SSE)이 최소가 되는 제1 촬상 이미지의 촬상 각도를, 제2 촬상 이미지로부터 검출된 촬상 각도와 최근접한 것으로 인식할 수 있다. For example, the image matching unit may obtain a square error sum between a rotation angle and a tilt angle as the imaging angle detected from the second captured image and a rotation angle and tilt angle as the imaging angle of the first captured image stored in the database. An imaging angle of the first captured image at which (sum of squared errors, SSE) is minimized may be recognized as closest to an imaging angle detected from the second captured image.

예를 들어, 상기 영상 정합부는, 제1 촬상 이미지 상에서 배경으로부터 분할된 피사체 영상 정보를 제2 촬상 이미지 상으로부터 추출된 객체 영상의 목표 위치로 복사할 수 있다. For example, the image matching unit may copy subject image information divided from the background of the first captured image to a target location of an object image extracted from the second captured image.

예를 들어, 상기 영상 정합부는, 상기 자세 검출부로부터 출력된 스케일 정보와 제1 촬상 이미지 상에서 배경으로부터 분할된 피사체 영상의 크기를 참조하여, 사전에 설정된 피사체와 객체 사이의 크기 비율에 대응되도록, 상기 피사체 영상을 확대 또는 축소한 기하 변환된 피사체 영상을, 제2 촬상 이미지 상으로부터 추출된 객체 영상의 목표 위치로 복사할 수 있다. For example, the image matching unit refers to the size of the subject image divided from the background in the first captured image and the scale information output from the posture detection unit to correspond to a preset size ratio between the subject and the object. The geometrically transformed subject image obtained by enlarging or reducing the subject image may be copied to a target location of an object image extracted from the second captured image.

예를 들어, 상기 피사체와 객체 사이의 크기 비율은, 서로 다른 촬상 각도로 피사체를 포착한 일군의 제1 촬상 이미지의 세트 전체에 연계되어 저장되어 있을 수 있다. For example, the size ratio between the subject and the object may be stored in association with an entire set of a group of first captured images in which the subject is captured at different imaging angles.

예를 들어, 상기 영상 정합부는, 제1 촬상 이미지 상에서 포착된 발광지시부와 제2 촬상 이미지 상에서 착용 위치에 관하여 설정된 목표 위치가 서로 위치 정렬되도록, 상기 제1 촬상 이미지 상에 포착된 피사체의 영상 정보를 상기 제2 촬상 이미지 상의 목표 위치로 복사할 수 있다.For example, the image matching unit may use image information of a subject captured on the first captured image such that a light emitting indicator captured on the first captured image and a target position set in relation to the wearing position on the second captured image are aligned with each other. may be copied to a target location on the second captured image.

본 발명의 일 실시형태에 따른 가상의 착용이미지 제공 시스템은, 피사체와 객체 사이의 자세 및 스케일 매칭을 통하여 서로에 대한 정합된 가상의 착용이미지를 제공할 수 있으며, 각기 서로 다른 자세 및 스케일로 포착된 피사체와 객체 사이에서 자세 및 스케일 매칭을 통하여 피사체와 객체 사이의 자연스러운 가상의 착용 영상을 제공할 수 있다.The system for providing a virtual wearing image according to an embodiment of the present invention can provide matched virtual wearing images for each other through posture and scale matching between a subject and an object, each captured in different postures and scales. A natural virtual wearing image between the subject and the object may be provided through posture and scale matching between the subject and the object.

도 1에는 본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템의 전체적인 구성을 보여주는 도면이 도시되어 있다.
도 2에는 피사체를 포착한 제1 촬상 이미지를 생성하기 위한 카메라 모듈의 촬상 각도를 설명하기 위한 도면이 도시되어 있다.
도 3a 내지 도 3e에는 카메라 모듈로부터 생성된 제1 촬상 이미지를 예시적으로 보여주는 서로 다른 도면들이 도시되어 있다.
도 4a 내지 도 4e에는 다양한 객체가 포착된 서로 다른 제2 촬상 이미지를 예시적으로 보여주는 도면들이 도시되어 있다.
도 5에는 본 발명의 실시형태에서 적용되는 서로 다른 제1, 제2 유형의 객체 검출부를 설명하기 위한 도면이 도시되어 있다.
도 6에는 도 5에 도시된 특징 추출부에서 유사 하르 연산자(Harr like feature, operator)를 적용하여 얼굴 영상의 특징을 검출하는 연산을 설명하기 위한 도면이 도시되어 있다.
도 7에는 도 5에 도시된 분류기를 설명하기 위한 도면으로, 이해의 편의를 위하여, 다수의 단위 뉴런이 연결된 다층의 신경망을 단순화시킨 모델을 보여주는 도면이 도시되어 있다.
도 8에는 도 5에 도시된 CNN 신경망을 설명하기 위한 것으로, 이해의 편의를 위하여 CNN 신경망을 단순화시킨 모델을 보여주는 도면이 도시되어 있다.
도 9 및 도 10은 도 1에 도시된 자세 검출부로부터 생성되는 부품 모델(part based model)을 설명하기 위한 도면들이 도시되어 있다.
도 11에는 도 1에 도시된 선형 회귀 신경망을 설명하기 위한 도면으로, 이해의 편의를 위하여, 다수의 단위 뉴런이 연결된 다층의 신경망을 단순화시킨 모델을 보여주는 도면이 도시되어 있다.
도 12a 내지 도 12e에는, 각각 도 3a 내지 도 3e에 포착된 피사체의 영상과, 도 4a 내지 도 4e에 포착된 객체의 영상이 자세 및 스케일 매칭을 통하여 서로에 대해 정합되도록 합성된 합성 이미지를 예시적으로 보여주는 도면들이 도시되어 있다.
1 is a diagram showing the overall configuration of a system for providing a virtual wearing image according to an embodiment of the present invention.
FIG. 2 is a diagram for explaining an imaging angle of a camera module for generating a first captured image capturing a subject.
3A to 3E exemplarily illustrate different views of a first captured image generated from a camera module.
4A to 4E are diagrams showing different second captured images in which various objects are captured by way of example.
FIG. 5 is a diagram for explaining different first and second types of object detectors applied in an embodiment of the present invention.
FIG. 6 is a diagram for explaining an operation for detecting features of a facial image by applying a Harr like feature (operator) in the feature extraction unit shown in FIG. 5 .
FIG. 7 is a diagram for explaining the classifier shown in FIG. 5, and for convenience of understanding, a diagram showing a simplified model of a multilayer neural network in which a plurality of unit neurons are connected is shown.
FIG. 8 is for explaining the CNN neural network shown in FIG. 5, and is a diagram showing a simplified model of the CNN neural network for convenience of understanding.
9 and 10 are drawings for explaining a part based model generated from the posture detection unit shown in FIG. 1 .
FIG. 11 is a diagram for explaining the linear regression neural network shown in FIG. 1, and for convenience of understanding, a diagram showing a simplified model of a multilayer neural network connected to a plurality of unit neurons is shown.
12A to 12E illustrate composite images synthesized so that the image of the subject captured in FIGS. 3A to 3E and the image of the object captured in FIGS. 4A to 4E are matched to each other through posture and scale matching. Drawings showing the enemy are shown.

이하, 첨부된 도면을 참조하여, 본 발명의 바람직한 실시형태에 관한 가상의 착용이미지 제공시스템에 대해 설명하기로 한다.Hereinafter, a system for providing a virtual wearing image according to a preferred embodiment of the present invention will be described with reference to the accompanying drawings.

도 1에는 본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템의 전체적인 구성을 보여주는 도면이 도시되어 있다. 1 is a diagram showing the overall configuration of a system for providing a virtual wearing image according to an embodiment of the present invention.

본 발명의 일 실시형태에 따른 가상의 착용이미지 제공 시스템은, 피사체(O)와 객체(F) 사이의 자세 및 스케일 매칭을 통하여 서로에 대한 정합된 가상의 착용이미지를 제공하기 위한 시스템으로, 본 발명의 일 실시형태에서는 각기 서로 다른 자세 및 스케일로 포착된 피사체(O)와 객체(F) 사이에서 자세 및 스케일 매칭을 통하여 피사체(O)와 객체(F) 사이의 자연스러운 가상의 착용 영상을 제공할 수 있다. 보다 구체적으로, 본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템은, 각각 서로 다른 촬상 방향을 따라 포착된 동일한 피사체(O)를 포함하는 일군의 제1 촬상 이미지를 포함하고, 각각의 제1 촬상 이미지 마다 서로 다른 촬상 방향이 부여된 일군의 제1 촬상 이미지를 포함하는 제1 촬상 이미지의 세트를 생성하는 카메라 모듈(C)과, 상기 제1 촬상 이미지 상에 포착된 피사체(O)와 배경(B)을 서로 다른 영역으로 분할하기 위한 영상 분할부와, 제1 촬상 이미지와 다른 제2 촬상 이미지로부터 객체(F)를 추출하기 위한 객체 검출부와, 상기 객체 검출부로부터 추출된 객체(F)의 촬상 각도의 정보를 검출하기 위한 자세 검출부와, 상기 자세 검출부로부터 출력된 객체(F)의 촬상 각도를 참조하여 일군의 제1 촬상 이미지의 세트가 저장된 데이터 베이스를 조회하고 제2 촬상 이미지의 촬상 각도와 가장 유사한 최근접의 촬상 각도로 포착된 제1 촬상 이미지를 취하여 제1 촬상 이미지의 피사체(O) 영상을 제2 촬상 이미지의 객체(F) 상에 합성하는 영상 정합부를 포함할 수 있다. A virtual wearing image providing system according to an embodiment of the present invention is a system for providing matched virtual wearing images for each other through posture and scale matching between a subject O and an object F. In one embodiment of the invention, a natural virtual wearing image between the subject O and the object F is provided through posture and scale matching between the subject O and the object F captured in different postures and scales. can do. More specifically, a system for providing a virtual wearing image according to an embodiment of the present invention includes a group of first captured images including the same subject O captured along different imaging directions, and each A camera module (C) generating a set of first captured images including a group of first captured images to which a different capturing direction is assigned to each captured image, and a subject (O) captured on the first captured image; An image division unit for dividing a background (B) into different regions, an object detection unit for extracting an object (F) from a second captured image different from a first captured image, and an object (F) extracted from the object detection unit A posture detecting unit for detecting information on the capturing angle of the image, and a database storing a set of first captured images are queried by referring to the capturing angle of the object F outputted from the posture detecting unit, and a second captured image is captured. An image matching unit may be configured to take a first captured image captured at a closest imaging angle most similar to the angle and synthesize the image of the subject O of the first captured image onto the object F of the second captured image.

도 2에는 피사체(O)를 포착한 제1 촬상 이미지를 생성하기 위한 카메라 모듈(C)의 촬상 각도를 설명하기 위한 도면이 도시되어 있다. FIG. 2 is a diagram for explaining an imaging angle of the camera module C for generating a first captured image capturing a subject O. Referring to FIG.

본 발명의 일 실시형태에서, 상기 카메라 모듈(C)은 중앙의 피사체(O)를 지향하면서 피사체(O) 주변을 따라 360 각도로 일주하면서 360 각도를 따라 균등하게 분할된 각도 위치에서 중앙의 피사체(O)를 포착함으로써, 서로 다른 촬상 각도로 동일한 피사체(O)를 포착한 일군의 제1 촬상 이미지를 포함하는 제1 촬상 이미지의 세트를 생성할 수 있다. In one embodiment of the present invention, the camera module (C) is the central subject at an angular position equally divided along the 360 angle while aiming at the central subject (O) and going around the subject (O) at 360 degrees. By capturing (O), it is possible to create a set of first captured images including a group of first captured images capturing the same subject O at different imaging angles.

본 명세서를 통하여 촬상 각도란, 제1 촬상 이미지를 생성하는 카메라 모듈(C)의 광축 방향을 의미할 수 있으며, 카메라 모듈(C)에 구비된 일군의 광학 렌즈 및 촬상 소자의 서로 정렬된 광축 방향이 피사체(O)를 지향하는 각도를 의미할 수 있으며, 본 발명의 일 실시형태에서, 상기 촬상 각도란, 피사체(O) 주변을 360도의 각도로 일주하는 카메라 모듈(C)의 일주 궤적을 따라, 360도의 각도 중에서 기준 각도(0도)로부터 측정된 각도 위치를 나타내는 회전 각도(θ)와, 상기 카메라 모듈(C)의 궤적 자체가 피사체(O)가 놓여진 지지면으로부터의 경사진 각도 위치를 나타내는 틸팅 각도(α)를 포함할 수 있다. 후술하는 바와 같이, 본 발명의 일 실시형태에서, 동일한 피사체(O)를 포착한 제1 촬상 이미지 각각에는 일정한 촬상 각도가 부여될 수 있으며, 여기서 촬상 각도란 상기한 바와 같은 회전 각도(θ) 및 틸팅 각도(α)를 포함할 수 있으며, 예를 들어, 본 발명의 일 실시형태에서, 상기 촬상 각도에 관한 정보는 회전 각도(θ)와 틸팅 각도(α)의 쌍에 관한 정보를 포함할 수 있다. 본 발명의 일 실시형태에서, 상기 촬상 각도에 관한 정보에 근거하여 피사체(O)의 자세와 객체(F)의 자세가 서로 매칭될 수 있으며, 피사체(O)의 자세와 객체(F)의 자세는 서로에 대해 동일하거나 또는 최근접한 촬상 각도(회전 각도 θ 및 틸팅 각도 α) 하에서 서로에 대해 매칭된 것으로 인식될 수 있다. Through this specification, the imaging angle may refer to the optical axis direction of the camera module C generating the first captured image, and the optical axis direction of a group of optical lenses and imaging devices provided in the camera module C are aligned with each other This may mean an angle directed toward the subject O, and in one embodiment of the present invention, the imaging angle is along a circumferential trajectory of the camera module C that travels around the subject O at an angle of 360 degrees. , the rotation angle (θ) representing the angular position measured from the reference angle (0 degree) among the angles of 360 degrees, and the angular position of the trajectory of the camera module (C) itself inclined from the support surface on which the subject (O) is placed It may include a tilting angle (α). As will be described later, in one embodiment of the present invention, each of the first captured images capturing the same subject O may be given a predetermined imaging angle, wherein the imaging angle is the rotation angle θ as described above and It may include a tilt angle α, and for example, in one embodiment of the present invention, the information about the imaging angle may include information about a pair of a rotation angle θ and a tilt angle α. there is. In one embodiment of the present invention, the posture of the subject O and the posture of the object F may be matched with each other based on the information about the imaging angle, and the posture of the subject O and the posture of the object F can be recognized as being matched with respect to each other under the same or closest imaging angles (rotation angle θ and tilt angle α) with respect to each other.

본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템에서, 상기 피사체(O)란 제1 촬상 이미지 상에 포착된 액서서리류의 영상을 의미할 수 있고, 상기 객체(F)란 제1 촬상 이미지와는 다른 제2 촬상 이미지 상에 포착된 인물의 얼굴 영상을 의미할 수 있으며, 본 발명의 일 실시형태에서는 제1 촬상 이미지 상에 포착된 액서서리류의 영상과 제2 촬상 이미지 상에 포착된 인물 영상을 자세 및 스케일 매칭을 통하여 서로에 대해 정합되도록 합성된 가상의 착용이미지를 제공할 수 있다. In the system for providing a virtual wearing image according to an embodiment of the present invention, the subject (O) may mean an image of an accessory captured on a first captured image, and the object (F) is the first captured image may refer to a face image of a person captured on a second captured image different from the image of a person's face captured on a second captured image, and in an embodiment of the present invention, an accessory type image captured on the first captured image and a person captured on the second captured image It is possible to provide virtual wearing images synthesized so that the images are matched to each other through posture and scale matching.

본 발명의 일 실시형태에서, 상기 카메라 모듈(C)은 동일한 피사체(O)에 대해 다양한 촬상 각도로 포착한 일군의 촬상 이미지를 생성할 수 있으며, 상기 일군의 촬상 이미지는 서로 다른 다양한 회전 각도(θ) 및 틸팅 각도(α)를 따라 피사체(O)를 포착한 일군의 촬상 이미지를 포함할 수 있다. 본 발명의 일 실시형태에서는, 일군의 촬상 이미지의 생성을 위하여, 도 2에 도시된 바와 같은 카메라 모듈(C)의 일주 궤적을 따라 카메라 모듈(C) 주변을 따르는 360 각도를 일정한 회전 각도(θ) 단위로 분주한 각각의 회전 각도(θ)에 대해, 예를 들어, 어느 하나의 회전 각도(θ)의 위치 마다, 카메라 모듈(C)의 일주 궤적을 피사체(O)의 지지면으로부터 일정한 경사 각도 단위로 틸팅시키는 방식으로 하나의 회전 각도(θ) 마다 다양한 틸팅 각도(α) 위치에 대한 촬상 이미지를 획득할 수 있으며, 서로 다른 회전 각도(θ) 마다 다양한 틸팅 각도(α)로 피사체(O)를 포착한 촬상 이미지를 생성할 수 있다. In one embodiment of the present invention, the camera module (C) can generate a group of captured images captured at various imaging angles for the same subject (O), and the group of captured images are rotated at different rotational angles ( θ) and a group of captured images capturing the subject O along the tilting angle α. In one embodiment of the present invention, in order to generate a group of captured images, a 360 degree angle along the circumference of the camera module C along the circumferential trajectory of the camera module C as shown in FIG. 2 is set at a constant rotation angle θ For each rotation angle θ divided by ) unit, for example, for each position of any one rotation angle θ, the circumferential trajectory of the camera module C is a constant inclination from the support surface of the subject O By tilting in units of angles, it is possible to obtain captured images for positions of various tilting angles α for each rotational angle θ. ) can be created.

본 발명의 일 실시형태에서, 상기 회전 각도(θ) 및 틸팅 각도(α)는 피사체(O)가 배치된 3차원 공간 상에 설정된 서로 다른 3개의 좌표 축을 회전 중심으로 하는 회전으로 정의될 수 있다. 상기 피사체(O)가 배치된 3차원 공간 상에 설정된 X-Y-Z 좌표 축은 피사체(O)의 위치를 원점으로 하고, 회전 각도(θ)와 함께 회전하는 좌표계를 형성할 수 있다. 예를 들어, 상기 피사체(O)가 배치된 공간은, 피사체(O)가 배치된 X-Z축의 평면 상에서 Y축을 높이로 하는 3차원 공간으로 정의될 수 있으며, Y축을 중심으로 하는 회전 각도(θ)와 Y축과 함께 회전하는 X-Z축의 평면 상에서 X축을 중심으로 하는 틸팅 각도(α)가 정의될 수 있다. 본 발명의 일 실시형태에서, 피사체(O)를 포착하기 위한 카메라 모듈(C)은 다양한 회전 각도(θ) 및 틸팅 각도(α)를 따라 피사체(O)를 지향하면서 피사체(O)를 포착할 수 있으며, 이때, 상기 틸팅 각도(α)를 정의하는 X축은 피사체(O)로부터 카메라 모듈(C)을 정면으로 마주하는 방향 내지는 카메라 모듈(C)의 지향 방향에 해당될 수 있으며, Z축을 중심으로 하는 요잉(yawing) 각도는 피사체(O)에 대한 카메라 모듈(C)의 심도를 형성할 수 있다. In one embodiment of the present invention, the rotation angle θ and the tilt angle α may be defined as rotations centered on three different coordinate axes set in a 3D space where the subject O is disposed. . X-Y-Z coordinate axes set in the 3D space where the object O is disposed may form a coordinate system that has the location of the object O as an origin and rotates with a rotation angle θ. For example, the space in which the object O is disposed may be defined as a three-dimensional space having a Y-axis as a height on a plane of X-Z axes in which the object O is disposed, and a rotation angle θ around the Y-axis A tilting angle α centered on the X-axis may be defined on the plane of the X-Z axes rotating together with the Y-axis. In one embodiment of the present invention, the camera module (C) for capturing the subject (O) can capture the subject (O) while directing the subject (O) along various rotation angles (θ) and tilting angles (α). In this case, the X axis defining the tilting angle α may correspond to a direction facing the camera module C from the subject O or a direction of the camera module C, and the Z axis is the center A yawing angle to be may form a depth of field of the camera module (C) for the subject (O).

본 발명의 일 실시형태에서, 상기 피사체(O)와 객체(F)는 촬상 각도의 정보를 매개로 하여, 서로에 대한 자세를 정렬시킬 수 있으며, 피사체(O)와 객체(F)를 서로 대응되는 자세로 매칭시킴으로써, 자연스러운 가상의 착용 영상을 제공할 수 있다. 이때, 본 발명의 일 실시형태에서는 피사체(O) 내지는 객체(F)가 놓여진 3차원 공간 상에 설정된 X-Y-Z 축의 좌표 축(예를 들어, 피사체(O) 내지는 객체(F)의 위치를 원점으로 하고 Y축을 중심으로 하는 회전 각도(θ)와 함께 회전하는 X-Z 좌표 축) 중에서 Y축을 중심으로 하는 회전 각도(θ)의 위치와, X축을 중심으로 하는 틸팅 각도(α)의 위치만을 고려하여, 피사체(O)와 객체(F)의 자세를 정렬시키고, Z축을 중심으로 하는 요잉 각도의 위치에 대해서는 고려하지 않을 수 있으며, 예를 들어, 피사체(O)와 객체(F) 사이에서 회전 각도(θ)의 위치와 틸팅 각도(α)의 위치를 서로 매칭시킴으로써, 피사체(O)와 객체(F)의 자세가 서로에 대해 위치 정렬된 것으로 인식할 수 있으며, 피사체(O)와 객체(F)가 서로에 대해 매칭된 자세로 표현된 가상의 착용이미지를 제공할 수 있다.In one embodiment of the present invention, the subject (O) and the object (F) can align their postures with respect to each other through the information of the imaging angle, and the subject (O) and the object (F) correspond to each other By matching in the desired posture, it is possible to provide a natural virtual wearing image. At this time, in one embodiment of the present invention, the coordinate axis of the X-Y-Z axis set in the three-dimensional space in which the subject O or object F is placed (for example, the position of the subject O or object F is set as the origin, Considering only the position of the rotation angle (θ) around the Y-axis and the position of the tilt angle (α) around the X-axis among the X-Z coordinate axes that rotate with the rotation angle (θ) around the Y-axis), the subject Align the pose of (O) and the object F, and may not consider the position of the yaw angle centered on the Z axis. For example, the rotation angle (θ) between the subject O and the object F ) and the position of the tilting angle α, it is possible to recognize that the postures of the subject O and the object F are aligned relative to each other, and the subject O and the object F It is possible to provide virtual wearing images expressed in postures matched with each other.

본 발명의 일 실시형태에서, 피사체(O) 내지는 객체(F)가 놓여진 3차원 공간 상에 설정된 서로 다른 3축의 좌표 축 중에서 어느 두 개의 좌표 축만으로 정의되는 회전 각도(θ)의 위치 및 틸팅 각도(α)의 위치를 이용하여 피사체(O)와 객체(F)의 자세를 정렬시키는 것은, 피사체(O) 내지는 객체(F)의 회전 각도(θ) 및 틸팅 각도(α)의 변화에 따른 시각적인 시인성 보다, 피사체(O) 내지는 객체(F)의 요잉 각도의 변화에 따른 시각적인 시인성이 상대적으로 낮고, 예를 들어, 피사체(O) 내지는 객체(F)를 포착한 이미지 상에 설정된 2차원 평면 상에서 상대적으로 촬영 심도에 해당되는 정보(Z축을 중심으로 하는 요잉 각도에 따른 심도의 차이)는 상대적으로 시각적인 시인성이 낮다고 볼 수 있고, 피사체(O) 내지는 객체(F)가 놓여진 3차원 공간 상에 설정된 X-Y-Z 축을 중심으로 하는 회전 각도(θ)의 위치, 틸팅 각도(α)의 위치 및 요잉 각도의 위치 별로 서로 다른 촬상 각도에 따른 피사체(O)를 포착한 제1 촬상 이미지를 생성하는 것은, 제1 촬상 이미지의 생성을 위한 상당한 정도의 작업(각각의 서로 다른 촬상 각도 마다의 촬상 작업)이 요구되기 때문에, 상대적으로 시각적인 시인성이 떨어지는 요잉 각도에 대해서는 고려하지 않고 상대적으로 시각적인 시인성이 높은 회전 각도(θ) 및 틸팅 각도(α)만을 이용하여 피사체(O) 내지는 객체(F)의 자세 정보를 매칭시킬 수 있다. In one embodiment of the present invention, the position and tilt angle of the rotation angle (θ) defined only by any two coordinate axes among three different coordinate axes set in a three-dimensional space in which the subject (O) or object (F) is placed Aligning the poses of the subject O and the object F using the position of (α) is a visual and The visual visibility according to the change in the yaw angle of the subject O or object F is relatively lower than the visual visibility, for example, the two-dimensional image set on the captured image of the subject O or object F Information corresponding to the depth of shooting relatively on a plane (difference in depth according to the yawing angle centered on the Z axis) can be considered to have relatively low visual visibility, and the three-dimensional space in which the subject (O) or object (F) is placed Generating a first captured image capturing the subject O according to different imaging angles for each position of the rotation angle θ centered on the X-Y-Z axis set on the image, the position of the tilt angle α, and the position of the yaw angle , Since a considerable degree of work (imaging work for each different imaging angle) is required for generating the first captured image, relatively visual visibility is relatively low without considering the yaw angle Posture information of the subject O or F may be matched using only the high rotation angle θ and tilt angle α.

본 발명의 일 실시형태에서, 동일한 피사체(O)에 대해 서로 다른 다양한 촬상 각도로 포착된 일군의 제1 촬상 이미지는 촬상 각도의 정보와 함께 연계되어 저장 장치에 저장될 수 있으며, 촬상 각도의 정보가 부여된 일군의 제1 촬상 이미지는 제1 촬상 이미지에 관한 데이터 베이스를 형성할 수 있고, 일군의 제1 촬상 이미지 각각에는 촬상 각도의 정보로서, 회전 각도(θ) 및 틸팅 각도(α)의 쌍에 관한 정보가 저장될 수 있다. 본 발명의 일 실시형태에서, 피사체(O)가 포착된 제1 촬상 이미지에 관한 데이터 베이스는, 객체(F)가 포착된 제2 촬상 이미지를 구현하는 컴퓨팅 장치로 전송되어, 제1 촬상 이미지 상에 포착된 피사체(O)와 제2 촬상 이미지 상에 포착된 객체(F) 사이에서 자세 및 스케일 매칭을 거쳐서 가상의 착용이미지가 제공될 수 있다. In one embodiment of the present invention, a group of first captured images captured at various different imaging angles for the same subject O may be stored in a storage device in association with information on the imaging angles, and the information on the imaging angles A group of first captured images to which is assigned may form a database related to the first captured images, and each of the group of first captured images includes, as information on a capturing angle, information of a rotation angle θ and a tilt angle α. Information about the pair may be stored. In one embodiment of the present invention, a database related to the first captured image in which the subject O is captured is transmitted to a computing device that implements the second captured image in which the object F is captured, and the first captured image image A virtual wearing image may be provided through posture and scale matching between the subject O captured in the image and the object F captured on the second captured image.

도 3a 내지 도 3e에는 카메라 모듈(C)로부터 생성된 제1 촬상 이미지를 예시적으로 보여주는 서로 다른 도면들이 도시되어 있다. 3A to 3E are different views showing the first captured image generated from the camera module C by way of example.

본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템은, 제1 촬상 이미지 상에 포착된 피사체(O)와 배경(B)의 서로 다른 두 부류의 영역을 분할하기 위한 영상 분할부를 포함할 수 있으며, 상기 영상 분할부는 제1 촬상 이미지 상에 포착된 피사체(O)와 배경(B)을 분할(object/background segmentation)하는 방식으로, 제1 촬상 이미지로부터 피사체(O)의 영상 정보만을 추출하는 이미지 매팅(matting)을 수행할 수 있다. 본 발명의 일 실시형태에서, 상기 제1 촬상 이미지는 피사체(O)의 주변을 조명하기 위한 광원 하에서 피사체(O)의 영상을 포착할 수 있으며, 피사체(O)를 둘러싸는 주변으로는 광원으로부터 조명 광을 흡수하도록 흑색 배경(B)이 형성됨으로써, 제1 촬상 이미지 상에서 피사체(O)와 배경(B) 사이에 뚜렷한 명암 대비를 형성할 수 있고, 이에 따라, 본 발명의 일 실시형태에 따른 영상 분할부는 제1 촬상 이미지의 전체 화소에 대해, 0~255 사이의 각각의 화소 값의 발생 빈도수를 히스토그램으로 산출할 수 있고, 히스토그램을 분석하여 두 피크 사이의 밸리 지점에서 임계값을 취하고 임계값을 기준으로 임계값 이상의 영역과 임계값 미만의 영역을 분할할 수 있다. 예를 들어, 본 발명의 일 실시형태에서, 상기 영상 분할부는 하나의 임계값을 기준으로 제1 촬상 이미지를 2개의 명암 영역으로 분할할 수 있으며, 보다 구체적으로 임계값 이상의 화소 값을 갖는 상대적으로 밝은 피사체(O)와 임계값 미만의 화소 값을 갖는 상대적으로 어두운 배경(B)으로 분할할 수 있다. A system for providing a virtual wearing image according to an embodiment of the present invention may include an image dividing unit for dividing two different types of areas of a subject O and a background B captured on a first captured image. The image segmentation unit extracts only image information of the subject O from the first captured image in a method of segmenting the subject O and the background B captured on the first captured image (object/background segmentation). image matting can be performed. In one embodiment of the present invention, the first captured image may capture an image of the subject O under a light source for illuminating a periphery of the subject O, and a light source surrounding the subject O may be captured. By forming the black background (B) to absorb the illumination light, it is possible to form a sharp contrast between the subject (O) and the background (B) in the first captured image, and thus, according to an embodiment of the present invention The image division unit may calculate the frequency of occurrence of each pixel value between 0 and 255 with a histogram for all pixels of the first captured image, and analyze the histogram to obtain a threshold value at a valley point between the two peaks Based on , it is possible to divide an area above a threshold value and an area below a threshold value. For example, in one embodiment of the present invention, the image segmentation unit may divide the first captured image into two light and dark regions based on one threshold value, and more specifically, relatively having a pixel value equal to or greater than the threshold value. It can be divided into a bright subject (O) and a relatively dark background (B) having a pixel value less than a threshold value.

본 발명의 다양한 실시형태에서, 상기 영상 분할부는 제1 촬상 이미지의 히스토그램을 분석하고 히스토그램 상에서 나타난 두 피크, 예를 들어, 배경(B)을 이루는 화소 집합(상대적으로 낮은 화소 값)에서 나타나는 높은 빈도수의 피크와, 피사체(O)를 이루는 화소 집합(상대적으로 높은 화소 값)에서 나타나는 높은 빈도수의 피크 사이에서 상대적으로 낮은 빈도수를 갖는 밸리를 취하여 임계값으로 설정하고, 임계값을 기준으로 배경(B)과 피사체(O)를 분할할 수 있으며, 예를 들어, 서로 유사한 낮은 화소 값을 갖고 서로 연결되어 있는 일군의 화소 집합을 배경(B)을 이루는 하나의 부류로 분할하고, 또 다른 부류로서 서로 유사한 높은 화소 값을 갖고 서로 연결되어 있는 또 다른 일군의 화소 집합을 피사체(O)를 이루는 또 다른 부류로 분할할 수 있다. In various embodiments of the present invention, the image division unit analyzes the histogram of the first captured image, and two peaks appearing on the histogram, for example, a high frequency appearing in a set of pixels (relatively low pixel values) constituting the background (B) A valley having a relatively low frequency between the peak of and a peak of a high frequency appearing in a set of pixels (relatively high pixel value) constituting the subject O is taken and set as a threshold value, and the background (B ) and the subject O. For example, a group of pixels having similar low pixel values and connected to each other is divided into one class constituting the background B, and each other as another class. Another group of pixel sets having similar high pixel values and connected to each other may be divided into another class constituting the subject O.

본 발명의 다양한 실시형태에서, 상기 영상 분할부는, 각각의 피사체(O) 및 배경(B)과 같이 같은 부류에 속하는 화소 집합은 서로 유사한 특징, 예를 들어, 서로 유사한 화소 값을 갖고 같은 부류에 속하는 화소 집합 내에서 화소 값의 분포는 균일한 것이 분할의 성능이 우수한 것으로 판단하고, 임계값을 변화시키면서 같은 부류에 속하는 화소 집합 내에서 분산을 최소화시키는 임계값을 선택하거나 또는 같은 부류에 속하는 화소 집합 내에서 분산이 작아지도록 목적 함수(objective function) 또는 비용 함수(cost function)를 최소화시키는 임계값을 선택하여, 선택된 임계값을 기준으로 제1 촬상 이미지를 두 부류(배경 B과 피사체 O)로 분할할 수 있다. 또한, 본 발명의 다양한 실시형태에서, 서로 다른 배경(B)과 피사체(O)와 같이, 서로 다른 부류의 화소 집합 사이에서 화소 값의 분산이 큰 것이 분할의 성능이 우수한 것으로 판단하고, 임계값을 변화시키면서 서로 다른 부류에 속하는 화소 집합 사이의 분산을 최대화시키는 임계값을 선택하여, 선택된 임계값을 기준으로 제1 촬상 이미지를 두 부류(배경 B과 피사체 O)로 분할할 수 있다. 본 발명의 일 실시형태에서, 상기 영상 분할부는 하나의 임계값을 기준으로 제1 촬상 이미지를 서로 다른 2개의 명암 영역으로 분할할 수 있으며, 또한, 상기 영상 분할부는 서로 다른 제1, 제2 임계값을 기준으로 제1 촬상 이미지를 서로 다른 3개의 명암 영역으로 분할할 수도 있다. In various embodiments of the present invention, in the image segmentation unit, a set of pixels belonging to the same class, such as each of the subject O and the background B, have similar characteristics, for example, similar pixel values, and are classified into the same class. It is determined that the distribution of pixel values within a set of pixels to which they belong is uniform is excellent in segmentation performance, and while changing the threshold value, a threshold value that minimizes variance within a set of pixels belonging to the same class is selected, or pixels belonging to the same class A threshold value that minimizes an objective function or a cost function is selected so that the variance within the set is small, and the first captured image is divided into two classes (background B and subject O) based on the selected threshold value can be divided In addition, in various embodiments of the present invention, it is determined that segmentation performance is excellent when the variance of pixel values is large among pixel sets of different classes, such as different backgrounds (B) and subjects (O), and the threshold value The first captured image may be divided into two classes (background B and subject O) based on the selected threshold value by selecting a threshold value maximizing variance between pixel sets belonging to different classes while changing . In one embodiment of the present invention, the image segmentation unit divides the first captured image into two different light and dark regions based on one threshold, and the image segmentation unit divides the first and second thresholds into different regions. Based on the value, the first captured image may be divided into three different light and dark areas.

본 발명의 일 실시형태에서, 상기 제1 촬상 이미지 상에는 피사체(O)와 함께, 피사체(O)의 착용 위치를 지시하기 위한 발광지시부(I)가 포착될 수 있으며, 예를 들어, 상기 발광지시부(I)는 피사체(O)를 조명하는 광원 하에서 높은 화소 값으로 나타나도록 형광 채색을 포함할 수 있다. 예를 들어, 본 발명의 일 실시형태에서, 상기 제1 촬상 이미지는 R,G,B 3채널의 이미지를 포함할 수 있고, 상기 발광지시부(I)는 형광 채색의 색감에 따라 특정한 채널(예를 들어, R채널)의 이미지 상에서 또는 특정한 채널들의 이미지 상에서 상대적으로 높은 화소 값을 가질 수 있으며, 예를 들어, 상기 영상 분할부는, R,G,B 3채널의 이미지 중에서 적어도 어느 하나의 채널의 이미지 상으로부터 제1, 제2 임계값을 기준으로 서로 다른 3개의 명암 영역을 분할할 수 있고, 예를 들어, 제1 임계값 이상의 화소 집합으로 이루어지는 발광지시부(I)의 영역과, 제1 임계값 미만이면서 제2 임계값 이상의 화소 집합으로 이루어지는 피사체(O)의 영역과, 제2 임계값 미만의 화소 집합으로 이루어지는 배경(B) 영역으로, 제1 촬상 이미지를 서로 다른 3개의 명암 영역으로 분할할 수도 있다. In one embodiment of the present invention, on the first captured image, together with the subject O, a light emitting directing unit I for indicating a wearing position of the subject O may be captured. For example, the light emitting directing unit (I) may include fluorescent coloring to appear as a high pixel value under a light source that illuminates the subject O. For example, in one embodiment of the present invention, the first captured image may include R, G, and B 3-channel images, and the light emitting directing unit (I) displays a specific channel (e.g., For example, it may have a relatively high pixel value on an image of R channel) or on images of specific channels. It is possible to divide three different light and dark regions from the image based on the first and second threshold values. Dividing the first captured image into three different light and dark areas, a subject (O) area consisting of a set of pixels less than the second threshold and greater than or equal to the second threshold, and a background (B) area consisting of a set of pixels less than the second threshold. You may.

본 발명의 일 실시형태에서, 상기 영상 분할부는, 제1 촬상 이미지 상의 화소 값의 분포에 근거하여 산출된 임계값을 기준으로, 임계값 이상의 영역과 임계값 미만의 영역으로, 상기 제1 촬상 이미지를 분할할 수 있으며, 이때, 상기 제1 촬상 이미지는, R,G,B 3채널의 이미지를 포함할 수 있으며, 이때, 상기 영상 분할부는 서로 다른 R,G,B 채널의 이미지 각각에 대해 독립적으로 영상 분할을 수행할 수 있으며, 이들 각각의 R,G,B 채널의 이미지 상의 영상 분할을 종합하는 방식으로, 제1 촬상 이미지 상에서 배경(B)과 피사체(O)를 분할할 수 있다. 예를 들어, 제1 촬상 이미지 상에는 피사체(O)와 함께, 피사체(O)의 착용 위치를 지시하기 위한 발광지시부(I)가 함께, 포착될 수 있으며, 상기 발광지시부(I)는 형광 채색의 색감에 따라 특정한 채널(예를 들어, R채널)의 이미지 상에서 또는 특정한 채널들의 이미지 상에서 상대적으로 높은 화소 값을 가질 수 있으며, 예를 들어, 상기 영상 분할부는, R,G,B 3채널의 이미지 중에서 적어도 어느 하나의 채널의 이미지 상으로부터 제1, 제2 임계값을 기준으로 서로 다른 3개의 명암 영역을 분할할 수 있고, 예를 들어, 제1 임계값 이상의 화소 집합으로 이루어지는 발광지시부(I)의 영역과, 제1 임계값 미만이면서 제2 임계값 이상의 화소 집합으로 이루어지는 피사체(O)의 영역과, 제2 임계값 미만의 화소 집합으로 이루어지는 배경(B) 영역으로, 제1 촬상 이미지를 서로 다른 3개의 명암 영역으로 분할할 수도 있다. 이때, 상기 영상 분할부는 제1 촬상 이미지를 구성하는 R,G,B 3채널의 이미지 각각으로부터 독립적으로 영상 분할을 수행하고, 이들 각각의 R,G,B 채널의 이미지 상의 영상 분할을 종합하는 방식으로, 제1 촬상 이미지 상에서 배경(B)과 피사체(O)와 발광지시부(I)를 분할할 수 있다.In one embodiment of the present invention, the image segmentation unit divides the first captured image into an area equal to or greater than a threshold value and an area less than the threshold value based on a threshold value calculated based on a distribution of pixel values on the first captured image. In this case, the first captured image may include images of 3 channels R, G, and B, and at this time, the image division unit independently performs image division for each of the images of different R, G, and B channels. Image division can be performed, and the background (B) and the subject (O) can be divided on the first captured image in a way of integrating the image division on the images of each of the R, G, and B channels. For example, on the first captured image, together with the subject O, a light emitting directing unit I for indicating a wearing position of the subject O may be captured, and the light emitting directing unit I is a fluorescent color Depending on the color, it may have a relatively high pixel value on an image of a specific channel (eg, R channel) or on an image of specific channels. It is possible to divide three different light and dark regions based on the first and second threshold values from the image of at least one of the channels, and, for example, a light emitting indicator (I) composed of a set of pixels equal to or higher than the first threshold value A region of the subject (O) consisting of a set of pixels less than the first threshold and greater than or equal to the second threshold, and a region of the background (B) consisting of a set of pixels less than the second threshold, the first captured image is divided into each other. It can also be divided into three other light and dark regions. At this time, the image segmentation unit independently performs image segmentation on each of the three R, G, and B channel images constituting the first captured image, and synthesizes the image segmentation on the R, G, and B channel images. Thus, the background (B), the subject (O), and the light emitting directing unit (I) can be divided on the first captured image.

본 발명의 다양한 실시형태에서, 상기 영상 분할부는 제1 촬상 이미지의 화소 값의 분포로부터 산출된 임계값을 기준으로, 배경(B)과 피사체(O)를 분할하는 임계화를 이용한 영역 분할을 수행할 수도 있고, 상기 영상 분할부는 군집화를 이용한 영역 분할을 수행할 수도 있다(예를 들어, k-평균 군집화). 또한 본 발명의 다양한 실시형태에서, 배경(B) 및 피사체(O)와 같은 영역은 서로 연속적으로 연결되어 있는 화소 집합이라는 점에서, 제1 촬상 이미지 상에서 화소 값의 분포와 함께, 제1 촬상 이미지의 행열에 해당되는 y축 및 x축을 따라서는 화소 위치의 인접성을 함께 고려하여, 서로 다른 부류로 분할할 수 있다. In various embodiments of the present invention, the image segmentation unit performs region segmentation using thresholding to divide the background (B) and the subject (O) based on a threshold value calculated from the distribution of pixel values of the first captured image. Alternatively, the image segmentation unit may perform region segmentation using clustering (eg, k-means clustering). In addition, in various embodiments of the present invention, in that areas such as the background (B) and the subject (O) are a set of pixels continuously connected to each other, together with the distribution of pixel values on the first captured image, the first captured image It can be divided into different classes by considering the adjacency of pixel positions along the y-axis and the x-axis corresponding to the matrix of .

본 발명과 대비되는 비교예에서는, 제1 촬상 이미지 상에서 이웃한 화소 사이의 화소 값의 변화량(예를 들어, 1차 미분치, 2차 미분치)을 산출하고, 산출된 화소 값의 변화량에 따라, 예를 들어, 1차 미분치가 지역 최대(local maximum)를 형성하고, 2차 미분치가 제로-크로싱(zero crossing)에 해당되는 경우에, 해당되는 화소가 배경(B)과 피사체(O) 사이의 경계를 형성하는 에지 화소에 해당되는 것으로 판단하고, 에지 화소를 서로 연결하여 배경(B)과 피사체(O)를 구획하는 선분을 검출할 수 있으며, 예를 들어, 에지 내지는 에지를 서로 연결한 선분(line segment)을 중심으로 배경(B)과 피사체(O)를 서로 다른 부류의 영역으로 분할할 수 있다. In the comparative example contrasted with the present invention, the amount of change in pixel values (eg, first order differential value, second order differential value) between adjacent pixels on the first captured image is calculated, and according to the calculated amount of change in pixel values , For example, when the first derivative forms a local maximum and the second derivative corresponds to a zero crossing, the corresponding pixel is between the background (B) and the subject (O). It is determined that it corresponds to an edge pixel forming the boundary of , and a line segment dividing the background (B) and the subject (O) can be detected by connecting the edge pixels. For example, an edge or an edge connected to each other The background (B) and the subject (O) may be divided into different types of regions based on line segments.

이러한 본 발명과 대비되는 비교예에서, 배경(B)과 피사체(O) 사이를 구획하는 경계선은 명암의 변화가 발생하는 지점에 해당되므로, 개념적으로 경계선은 에지와 일치해야 한다. 다만, 배경(B) 및 피사체(O)와 같은 영역을 형성하기 위해서 상기 에지 또는 에지를 연결한 선분은 서로 다른 부류에 속하는 영역을 서로 닫힌 형태로 둘러싸는 폐루프를 형성해야 하지만, 제1 촬상 이미지로부터 검출된 에지 또는 에지를 연결한 선분(line segment)은 폐루프를 형성하지 못하는 경우가 대부분이기 때문에, 본 발명의 일 실시형태에서, 상기 영상 분할부는 제1 촬상 이미지 상에서 에지 성분을 검출하는 방식으로 제1 촬상 이미지 상에서 배경(B)과 피사체(O)를 분할하지 않고, 앞서 설명된 바와 같이, 영역 분할에 의해 배경(B)과 피사체(O)를 분할할 수 있다. In this comparative example contrasted with the present invention, since the boundary line dividing the background (B) and the subject (O) corresponds to a point where a change in contrast occurs, the boundary line should conceptually coincide with the edge. However, in order to form the same area as the background (B) and the subject (O), the edge or line segments connecting the edges should form a closed loop that surrounds the areas belonging to different classes in a closed form. Since an edge detected from an image or a line segment connecting the edge does not form a closed loop in most cases, in one embodiment of the present invention, the image segmentation unit detects an edge component on the first captured image. Instead of dividing the background B and the subject O on the first captured image in this manner, as described above, the background B and the subject O may be divided by region division.

본 발명의 일 실시형태에서, 상기 제1 촬상 이미지 상에서 배경(B)으로부터 분할된 피사체(O)의 영상 정보는, 해당되는 제1 촬상 이미지와 연계된 촬상 각도에 관한 정보와 함께 저장될 수 있으며, 예를 들어, 상기 피사체(O)를 제외한 배경(B)의 화소 값을 0~255의 화소 값 중에서 0으로 치환시키는 방식으로 피사체(O)의 영상 정보를 저장할 수 있으며, 피사체(O)의 영상 정보와 함께, 촬상 각도, 예를 들어, 피사체(O)를 포착한 회전 각도(θ) 및 틸팅 각도(α)에 관한 정보와 함께, 저장 장치에 저장될 수 있다. 본 발명의 일 실시형태에서, 상기 영상 분할부는, 제1 촬상 이미지 상에서 피사체(O)와 배경(B)을 서로 다른 영역으로 분할할 수 있으며, 배경(B)으로부터 분할된 피사체(O)에 관한 영상 정보는 카메라 모듈(C)로부터 생성된 제1 촬상 이미지 상에서 배경(B)의 화소 값을 0으로 치환시키는 방식으로 제1 촬상 이미지에 대한 영상 처리를 통하여 저장될 수 있으며, 피사체(O)에 관한 영상 정보는 카메라 모듈(C)로부터 생성된 제1 촬상 이미지 상에서 피사체(O)와 배경(B)을 뚜렷하게 구분되도록 영상 처리된 제1 촬상 이미지에 해당될 수 있으며, 이런 의미에서 본 발명에서 제1 촬상 이미지란, 카메라 모듈(C)로부터 생성된 제1 촬상 이미지와 영상 분할부에 의해 분할된 피사체(O)와 배경(B)이 뚜렷하게 구분되도록 영상 처리된 제1 촬상 이미지를 포함할 수 있다. 이와 같이, 피사체(O)와 배경(B)이 분할된 제1 촬상 이미지는 촬상 각도의 정보와 함께, 저장 장치에 저장되어 제1 촬상 이미지에 관한 데이터 베이스를 형성할 수 있다. In one embodiment of the present invention, image information of the subject O divided from the background B on the first captured image may be stored together with information about a capturing angle associated with the corresponding first captured image, , For example, the image information of the subject O may be stored in a manner in which pixel values of the background B excluding the subject O are replaced with 0 among pixel values of 0 to 255, and the image information of the subject O may be stored. Along with the image information, information about an imaging angle, eg, a rotation angle θ and a tilt angle α at which the subject O is captured may be stored in a storage device. In one embodiment of the present invention, the image segmentation unit may divide the subject O and the background B into different areas on the first captured image, and may divide the subject O from the background B The image information may be stored through image processing on the first captured image by replacing the pixel value of the background (B) with 0 in the first captured image generated by the camera module (C). The related image information may correspond to a first captured image processed to clearly distinguish the subject O and the background B on the first captured image generated by the camera module C, and in this sense, the present invention 1 captured image may include the first captured image generated by the camera module C and the first captured image image-processed so that the subject O and the background B divided by the image segmentation unit are clearly distinguished. . In this way, the first captured image in which the subject O and the background B are divided may be stored in a storage device together with information on the capturing angle to form a database related to the first captured image.

도 4a 내지 도 4e에는 다양한 객체(F)가 포착된 서로 다른 제2 촬상 이미지를 예시적으로 보여주는 도면들이 도시되어 있다. 4A to 4E are diagrams showing different second captured images in which various objects F are captured by way of example.

본 발명의 일 실시형태에서는, 제1 촬상 이미지 상에 포착된 피사체(O)와 제2 촬상 이미지 상에 포착된 객체(F) 간의 자세 및 스케일 매칭을 통하여 피사체(O)와 객체(F)의 영상이 합성된 가상의 착용이미지를 제공할 수 있다. 본 발명의 일 실시형태에서, 제1 촬상 이미지 상에 포착된 피사체(O)의 자세는 제1 촬상 이미지와 연계되어 저장된 촬상 각도의 정보로부터 파악될 수 있으며, 제2 촬상 이미지 상에 포착된 객체(F)의 자세는 후술하는 기계학습모듈을 통하여 산출될 수 있다. 본 발명의 일 실시형태에서, 제1 촬상 이미지 상에 포착된 피사체(O)와 제2 촬상 이미지 상에 포착된 객체(F)의 자세는, 상기 제1, 제2 촬상 이미지 상에서 각각의 피사체(O) 및 객체(F)가 포착된 촬상 각도의 정보로부터 파악될 수 있으며, 이런 의미에서 상기 피사체(O) 및 객체(F)의 자세란 상기 촬상 각도의 정보를 의미할 수 있으며, 본 발명의 일 실시형태에서, 상기 피사체(O)와 객체(F) 사이에서 자세의 매칭은 피사체(O)와 객체(F)의 촬상 각도를 서로 매칭시키는 것을 의미할 수 있다. In one embodiment of the present invention, the subject O and the object F are imaged through posture and scale matching between the subject O captured on the first captured image and the object F captured on the second captured image. It is possible to provide a virtual wearing image synthesized with images. In one embodiment of the present invention, the pose of the subject O captured on the first captured image can be grasped from information on the captured angle stored in association with the first captured image, and the object captured on the second captured image The posture of (F) may be calculated through a machine learning module described later. In one embodiment of the present invention, the poses of the subject O captured on the first captured image and the object F captured on the second captured image are different from each other on the first and second captured images. O) and the object F can be identified from the information of the captured imaging angle, and in this sense, the posture of the subject O and the object F may mean the information of the imaging angle, and the present invention In one embodiment, the matching of postures between the subject O and the object F may mean matching imaging angles of the subject O and the object F to each other.

본 발명의 일 실시형태에서, 제1 촬상 이미지 상에서 포착된 피사체(O)의 촬상 각도는 서로 다른 다양한 회전 각도(θ) 및 틸팅 각도(α)로 피사체(O)를 포착한 카메라 모듈(C)로부터 제1 촬상 이미지가 생성될 때, 카메라 모듈(C)로부터 생성된 제1 촬상 이미지와 회전 각도(θ) 및 틸팅 각도(α)를 서로 연계하여 저장해둔 제1 촬상 이미지의 데이터 베이스를 통하여 조회될 수 있으므로, 제1 촬상 이미지 상에 포착된 피사체(O)의 촬상 각도를 산출하기 위한 별도의 연산은 요구되지 않는다. 그러나, 제2 촬상 이미지 상에 포착된 객체(F)의 자세 내지는 객체(F)의 회전 각도(θ`) 및 틸팅 각도(α`)는 별도의 연산을 통하여 제2 촬상 이미지로부터 산출될 수 있으며, 본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템은, 제2 촬상 이미지로부터 객체(F)의 자세에 관한 정보를 산출하기 위한 기계학습모듈을 포함할 수 있다.In one embodiment of the present invention, the imaging angle of the subject O captured on the first captured image is a camera module C capturing the subject O at various rotation angles θ and tilting angles α that are different from each other. When the first captured image is generated from, the first captured image generated from the camera module (C) and the rotation angle (θ) and the tilting angle (α) are linked and stored through the database of the first captured image. Therefore, a separate calculation for calculating the imaging angle of the subject O captured on the first captured image is not required. However, the posture of the object F captured on the second captured image or the rotation angle θ′ and the tilt angle α′ of the object F may be calculated from the second captured image through a separate operation. , The system for providing a virtual wearing image according to an embodiment of the present invention may include a machine learning module for calculating information about the posture of the object F from the second captured image.

본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템에서, 상기 객체(F)란 제2 촬상 이미지 상에 포착된 인물의 얼굴 영상을 의미할 수 있으며, 상기 피사체(O)란 제1 촬상 이미지 상에 포착된 액서서리류의 영상을 의미할 수 있고, 본 발명의 일 실시형태에서는 제1 촬상 이미지 상에 포착된 액서서리류의 영상과 제2 촬상 이미지 상에 포착된 인물 영상을 자세 및 스케일 매칭을 통하여 서로에 대해 정합되도록 합성된 가상의 착용이미지를 제공할 수 있다. 이런 의미에서, 제2 활상 이미지 상에 포착된 객체(F)란 인물 영상을 의미할 수 있다. 본 발명의 일 실시형태에서는, 제2 촬상 이미지 중에서 객체(F)로서의 인물 영상을 검출하되, 특히 인물 영상 중에서 액서서리류의 착용 개소로서 얼굴 영상을 추출하고, 추출된 얼굴 영상으로부터 자세 및 스케일 정보를 검출하여, 배경(B)으로부터 분할된 피사체(O)로서의 액서서리류가 포착된 제1 촬상 이미지와의 매칭(자세 및 스케일 매칭)을 통하여 제1 촬상 이미지 상에서 포착된 액서서리류와 제2 촬상 이미지 상으로부터 검출된 얼굴 영상의 자세 및 스케일 매칭을 통하여 서로에 대해 정합된 형태로, 제2 촬상 이미지 상으로부터 추출된 얼굴 영상과 제1 촬상 이미지 상에 포착된 액서서리류의 영상을 합성하는 방식으로, 가상의 착용이미지를 제공할 수 있다.In the system for providing a virtual wearing image according to an embodiment of the present invention, the object F may mean a face image of a person captured on a second captured image, and the subject O may refer to a first captured image In one embodiment of the present invention, posture and scale matching are performed between the image of accessories captured on the first captured image and the image of a person captured on the second captured image. Through this, it is possible to provide virtual wearing images synthesized to match each other. In this sense, the object F captured on the second moving image may mean a person image. In one embodiment of the present invention, a person image as an object F is detected from the second captured image, but in particular, a face image is extracted as a wearing part of an accessory type from the person image, and posture and scale information are extracted from the extracted face image Detect and match (posture and scale matching) with the first captured image in which the accessories as the subject O divided from the background B are captured, and the accessories captured on the first captured image and the second captured image image In a method of synthesizing the face image extracted from the second captured image and the image of accessories captured on the first captured image in a form matched to each other through posture and scale matching of the face image detected from can provide a wearing image of

본 발명의 일 실시형태에 따른 기계학습모듈은 객체(F)로서의 얼굴 영상을 검출하기 위한 객체 검출부와, 검출된 얼굴 영상으로부터 자세 및 스케일 정보를 검출하기 위한 자세 검출부를 포함할 수 있다. The machine learning module according to an embodiment of the present invention may include an object detection unit for detecting a face image as an object F and a posture detection unit for detecting posture and scale information from the detected face image.

도 5에는 본 발명의 실시형태에서 적용되는 서로 다른 제1, 제2 유형의 객체 검출부를 설명하기 위한 도면이 도시되어 있다. 도 6에는 도 5에 도시된 특징 추출부에서 유사 하르 연산자(Harr like feature, operator)를 적용하여 얼굴 영상의 특징을 검출하는 연산을 설명하기 위한 도면이 도시되어 있다. 도 7에는 도 5에 도시된 분류기를 설명하기 위한 도면으로, 이해의 편의를 위하여, 다수의 단위 뉴런이 연결된 다층의 신경망을 단순화시킨 모델을 보여주는 도면이 도시되어 있다. 도 8에는 도 5에 도시된 CNN 신경망을 설명하기 위한 것으로, 이해의 편의를 위하여 CNN 신경망을 단순화시킨 모델을 보여주는 도면이 도시되어 있다. FIG. 5 is a diagram for explaining different first and second types of object detectors applied in an embodiment of the present invention. FIG. 6 is a diagram for explaining an operation for detecting features of a facial image by applying a Harr like feature (operator) in the feature extraction unit shown in FIG. 5 . FIG. 7 is a diagram for explaining the classifier shown in FIG. 5, and for convenience of understanding, a diagram showing a simplified model of a multilayer neural network in which a plurality of unit neurons are connected is shown. FIG. 8 is for explaining the CNN neural network shown in FIG. 5, and is a diagram showing a simplified model of the CNN neural network for convenience of understanding.

본 발명의 일 실시형태에 따른 기계학습모듈은 특징 추출부와 분류기를 포함하는 제1 유형의 객체 검출부를 포함하거나 또는 CNN 신경망을 포함하는 제2 유형의 객체 검출부를 포함할 수 있다. 상기 제1 유형의 객체 검출부는 제2 촬상 이미지로부터 특징을 추출하는 특징 추출부와 특징 추출부로부터 검출된 특징을 입력으로 하여 얼굴 여부에 관한 이진 분류를 수행할 수 있다. A machine learning module according to an embodiment of the present invention may include a first type of object detector including a feature extractor and a classifier or a second type of object detector including a CNN neural network. The first type of object detection unit may perform binary classification on whether or not a face is present using a feature extraction unit extracting features from the second captured image and a feature detected by the feature extraction unit as inputs.

본 발명의 일 실시형태에서, 상기 특징 추출부는 입력된 제2 촬상 이미지로부터 다양한 스케일(또는 다중 해상도)을 포함하는 다중 스케일의 영상을 포함하는 다수의 피라미드 영상으로 변환하고, 상기 다중 스케일의 영상들 상에서 윈도우 또는 연산자를 이동시키면서 특징을 추출할 수 있다. 본 발명의 일 실시형태에서는 상기 다중 스케일의 영상 위로 유사 하르 연산자(Harr like feature, operator)를 이동시키면서 얼굴 영상과 얼굴이 아닌 영상을 구분할 수 있는 특징을 검출할 수 있으며, 예를 들어, 도 6에 도시된 바와 같이, 유사 하르 연산자(f1,f2)는 검은 영역의 명암의 합에 대해 -1의 가중치를 적용하고, 흰 영역의 명암의 합에 +1의 가중치를 적용하는 연산자(f1,f2)를 포함할 수 있으며, 예를 들어, 얼굴의 눈과 눈 사이의 미간에 적용된 제1 연산자(f1)로부터, 그러니까, 상대적으로 어두운 눈과 상대적으로 밝은 미간에 대해 적용된 제1 연산자(f1)로부터 산출된 특징은 일정한 경향을 가질 수 있다. 또한, 이마와 머리카락의 경계에 위치한 제2 연산자(f2)로부터, 그러니까, 상대적으로 어두운 머리카락과 상대적으로 밝은 이마에 대해 적용된 제2 연산자(f2)로부터 산출된 특징도 일정한 경향을 가질 수 있다. 이와 같이, 특징 추출부로부터 검출된 특징은 분류기로 입력될 수 있으며, 도 7에 도시된 바와 같이, 상기 분류기에서는 검출된 특징을 구성하는 각각의 원소와 학습된 가중치(W)와의 선형 조합으로부터 제2 촬상 이미지 상에서 얼굴 영상과 얼굴이 아닌 영상을 분류하며, 얼굴 여부에 관한 이진 분류를 수행할 수 있다. 본 발명의 일 실시형태에서, 상기 분류기는 특징 추출부로부터 추출된 특징으로서 다수의 원소가 어레이 형태로 배열된 입력 벡터와 학습된 가중치(W) 벡터의 선형 결합에 활성화 함수, 예를 들어, 이진 분류에 적합한 시그모이드 함수(sigmoid)를 적용하여, 얼굴 여부에 관한 예측된 확률을 산출할 수 있으며, 상기 가중치(W) 벡터는 사전에 준비된 학습 데이터 세트로서, 얼굴 여부에 관한 클레스 레이블이 타겟으로 주어진 특징(예를 들어, 특징 추출부로부터 추출된 특징)을 입력 벡터로 하고 분류기의 추정 클레스 레이블(얼굴 여부에 관한 추정)과 주어진 타겟 레이블 사이의 오차가 감소되도록 최소화시키려는 비용 함수(또는 손실 함수)가 최소값을 향하여 수렴하도록 가중치 벡터를 갱신하는 방식으로 학습될 수 있다. In one embodiment of the present invention, the feature extraction unit converts an input second captured image into a plurality of pyramid images including multi-scale images including various scales (or multi-resolution), and the multi-scale images Features can be extracted while moving a window or an operator on the image. In an embodiment of the present invention, a feature capable of distinguishing a face image from a non-face image can be detected while moving a Harr like feature (operator) over the multi-scale image. For example, FIG. 6 As shown in , the quasi-Haar operators (f1, f2) apply a weight of -1 to the sum of intensities in the black area and apply a weight of +1 to the sum of intensities in the white area (f1, f2). ), for example, from the first operator (f1) applied to the eyes of the face and the glabella between the eyes, that is, from the first operator (f1) applied to the relatively dark eyes and the relatively bright glabella. The computed features may have a certain tendency. In addition, the feature calculated from the second operator f2 located at the boundary between the forehead and the hair, that is, the second operator f2 applied to relatively dark hair and relatively light forehead, may also have a certain tendency. In this way, the feature detected from the feature extractor may be input to a classifier, and as shown in FIG. 7, the classifier derives a value from a linear combination of each element constituting the detected feature and the learned weight (W). 2 Classify a face image and a non-face image on a captured image, and perform binary classification on whether or not a face exists. In one embodiment of the present invention, the classifier is an activation function, for example, a binary combination of an input vector in which a plurality of elements are arranged in an array form as a feature extracted from the feature extraction unit and a learned weight (W) vector. By applying a sigmoid function suitable for classification, it is possible to calculate a predicted probability of whether a face exists, and the weight (W) vector is a training data set prepared in advance, and a class label related to whether a face is a target A cost function (or loss) to minimize the error between the estimated class label of the classifier (estimation of whether or not a face) and the given target label, with the given feature (for example, the feature extracted from the feature extractor) as an input vector. function) can be learned in such a way as to update the weight vector so that it converges toward the minimum value.

본 발명의 또 다른 제2 유형에 따른 기계학습모듈은 CNN 신경망(Convolution Neural Network)을 포함하는 제2 유형의 객체 검출부를 포함할 수 있다. 도 8을 참조하면, 상기 제2 유형의 객체 검출부는 제2 촬상 이미지 자체를 입력으로 하여, 제2 촬상 이미지로부터 특징을 추출한 특성 맵을 산출하기 위하여, 학습된 가중치 행렬(커널 또는 필터)와의 합성곱(컨볼루션, convolution)을 수행하여 산출된 특성 맵을 1차원의 특성 벡터로 플래티닝(flattening)하고, 특성 벡터를 형성하는 각각의 원소들에 대해 학습된 가중치가 적용된 선형 조합 내지는 선형 조합에 활성화 함수를 적용함으로써, 얼굴 여부에 관한 예측된 확률을 산출할 수 있다. 예를 들어, 본 발명의 일 실시형태에서, 상기 객체 검출부에 구현된 CNN 신경망은 다수의 합성곱층을 포함하여, 저수준의 특징으로부터 고수준의 특징을 추출할 수 있으며, 추출된 특징(특성 맵)으로부터 얼굴 여부에 관한 분류를 담당하는 밀집층을 포함할 수 있다. 그리고, 상기 합성곱층은 다수의 커널(또는 필터, 가중치 행열)을 포함할 수 있으며, 제2 촬상 이미지(제2 촬상 이미지를 형성하는 각 화소의 화소 값) 상에 다수의 커널(커널의 각 요소로서 가중치 W)가 합성곱되어, 행열의 2차원 크기는 줄어들면서 깊이 차원이 증가한 형태의 특성 맵이 생성될 수 있다. A machine learning module according to another second type of the present invention may include a second type of object detection unit including a convolution neural network (CNN). Referring to FIG. 8 , the second type of object detection unit takes the second captured image itself as an input and performs synthesis with a learned weight matrix (kernel or filter) in order to calculate a feature map obtained by extracting features from the second captured image. The feature map calculated by performing multiplication (convolution) is flattened into a one-dimensional feature vector, and a linear combination or linear combination with learned weights applied to each element forming the feature vector is performed. By applying an activation function, it is possible to calculate a predicted probability of whether a face exists. For example, in one embodiment of the present invention, the CNN neural network implemented in the object detection unit includes a plurality of convolutional layers to extract high-level features from low-level features, and from the extracted features (feature maps). It may include a dense layer responsible for classifying whether or not a face exists. In addition, the convolution layer may include a plurality of kernels (or filters, weight matrices), and a plurality of kernels (each element of the kernel) on the second captured image (pixel values of each pixel forming the second captured image). As , the weight W) may be multiplied to generate a feature map in which the depth dimension increases while the 2D size of the matrix decreases.

상기 CNN 신경망은 합성곱층으로부터 생성된 특성 맵의 크기를 줄이기 위하여(다운 샘플링, down sampling), 최대 풀링(max pooling)이나 평균 풀링(average pooling)이 적용될 수 있으며, 상기 밀집층은 행열의 2차원과 깊이 차원을 갖는 3차원의 특성 맵을 1차원 특성의 특성 벡터로 플래트닝(flattening)하고, 1차원 특성 벡터를 형성하는 다수의 원소들에 대해 가중치가 적용된 선형 조합 내지는 선형 조합에 활성화 함수를 적용함으로써, 얼굴 여부에 관한 이진 분류로서, 추정된 클레스 레이블(제2 촬상 이미지에 얼굴 영상이 존재하는지 여부에 관한 확률)을 출력할 수 있다. The CNN neural network may be applied with max pooling or average pooling in order to reduce the size of the feature map generated from the convolutional layer (down sampling), and the dense layer is a two-dimensional array of matrices. A three-dimensional feature map having depth and depth dimensions is flattened into a feature vector of one-dimensional features, and an activation function is applied to a weighted linear combination or linear combination of a plurality of elements forming the one-dimensional feature vector. By applying, as a binary classification of whether or not a face is present, an estimated class label (a probability of whether a face image exists in the second captured image) may be output.

상기 객체 검출부에 구현된 CNN 신경망의 가중치 행렬(커널 또는 필터)는, 다수의 학습 데이터를 포함하는 학습 데이터 세트와 각각의 학습 데이터 마다 주어지는 타겟 클레스 레이블(입력된 학습 데이터에 얼굴 영상이 존재하는지 여부에 관하여 사전에 판별된 클레스 레이블)을 이용하여 학습될 수 있으며, CNN 신경망으로부터 예측된 클레이 레이블과 주어진 타겟 클레스 레이블 사이의 오차가 감소되도록 최소화시키려는 비용 함수의 그래디언트(gradient)를 계산해주는 역전파 알고리즘을 적용하여 가중치 벡터(커널 또는 필터)를 갱신할 수 있다. The weight matrix (kernel or filter) of the CNN neural network implemented in the object detector is a training data set including a plurality of training data and a target class label given for each training data (whether or not a face image exists in the input training data). Backpropagation algorithm that calculates the gradient of the cost function to be minimized so that the error between the clay label predicted from the CNN neural network and the given target class label is reduced. can be applied to update the weight vector (kernel or filter).

본 발명의 일 실시형태에서는, 제2 촬상 이미지에 대해 다중화된 해상도 내지는 다중화된 스케일의 다수의 영상을 포함하는 영상 피라미드(image pyramid)를 생성하고, 다중화된 스케일의 다수의 영상 위로 연산자 또는 커널(또는 필터)를 이동시키면서 특징 내지는 특징 맵을 추출하고, 특징 내지는 특징 맵으로부터 얼굴 여부, 즉 주어진 영상에 얼굴이 검출되는지 여부에 관한 이진 분류를 수행하며, 학습된 분류기 내지는 학습된 CNN 신경망의 출력으로서, 이진 분류에 관한 예측된 확률을 산출할 수 있다.In one embodiment of the present invention, an image pyramid including a plurality of images of multiplexed resolution or multiplexed scale is generated for the second captured image, and an operator or kernel ( or filter), extracts features or feature maps, and performs binary classification on whether a face is detected from the feature or feature map, that is, whether a face is detected in a given image, and as an output of a learned classifier or a learned CNN neural network. , we can calculate the predicted probability for binary classification.

도 9 및 도 10은 도 1에 도시된 자세 검출부로부터 생성되는 부품 모델(part based model)을 설명하기 위한 도면들이 도시되어 있다. 9 and 10 are drawings for explaining a part based model generated from the posture detection unit shown in FIG. 1 .

본 발명의 일 실시형태에서, 상기 자세 검출부는 객체 검출부로부터 추출된 얼굴 영상을 입력으로 하여, 객체(F)의 자세 및 스케일 정보를 검출할 수 있다. 예를 들어, 상기 자세 검출부는 얼굴 영상으로부터 눈과 입술 영역을 검출하고 양편의 눈과 입술 영역을 이어주는 삼각형 형태의 부품 모델(part based model)을 생성할 수 있으며, 예를 들어, 본 발명의 일 실시형태에서, 상기 자세 검출부는 이하와 같은 알고리즘을 적용하여 얼굴 영상으로부터 양편의 눈과 입술 영역을 검출할 수 있다. 예를 들어, 상기 자세 검출부는 모든 방향으로 명암의 변화가 두드러지는 영역을 산출하여 눈 영역으로 검출할 수 있으며, 명암의 변화로부터 에지를 검출하는 에지 검출 알고리즘을 적용하여 눈 영역을 검출할 수 있다. 보다 구체적으로, 상기 자세 검출부는 얼굴 영상으로부터 관심 화소 주변의 화소 집합에 대해 화소 값의 변화량과 방향을 산출하고, 8단계로 이진화된 방향에 대해 각각의 화소 값을 변화량을 산출하여 모든 방향(8 방향)으로 화소 값의 변화량이 지역 최대가 되는 영역을 검출하여 눈 영역으로 판단할 수 있다. In one embodiment of the present invention, the posture detection unit may detect the posture and scale information of the object F by using the face image extracted from the object detection unit as an input. For example, the posture detector may detect eye and lip regions from a face image and generate a triangular part-based model that connects both eye and lip regions. In an embodiment, the posture detection unit may detect both eye and lip regions from a face image by applying the following algorithm. For example, the posture detection unit may calculate an area in which a change in contrast is prominent in all directions and detect it as an eye area, and may detect an eye area by applying an edge detection algorithm that detects an edge from a change in contrast. . More specifically, the posture detection unit calculates the amount of change and direction of pixel values for a set of pixels around the pixel of interest from the face image, and calculates the amount of change of each pixel value for the direction binarized in 8 steps in all directions (8). direction), an area in which a change in pixel value is maximum in the area may be detected and determined as an eye area.

예를 들어, 상기 자세 검출부는 얼굴 영상 위에서 서로 이웃하게 배열된 화소 집합에 대해 일정한 크기의 윈도우(필터 또는 마스크) 내지는 연산자(1차 미분 연산자, 예를 들어, 소벨 연산자)를 적용하는 영역 연산(area operation)을 통하여 윈도우 내의 관심 화소에 대한 화소 값의 변화량을 산출할 수 있으며, 본 발명의 다양한 실시형태에서, 상기 자세 검출부는 얼굴 영상 위에서 서로 이웃하게 배열된 화소 집합에 대해 라플라시안 연산자와 같은 2차 미분 연산자를 적용하고, 1차 미분 연산자를 적용하여 산출된 눈 영역의 후보 군에 대해, 2차 미분 연산자를 적용하여 제로 크로싱(zero crossing)을 검출하는 방식으로, 얼굴 영상으로부터 눈 영역을 검출해낼 수 있다. 예를 들어, 본 발명의 일 실시형태에 따른 자세 검출부는 서로 이웃하게 배열된 화소 집합에 대해 1차 미분치, 2차 미분치를 산출하고, 산출된 화소 값의 변화량에 따라, 예를 들어, 모든 방향(8 방향)을 따라 1차 미분치가 지역 최대(local maximum)를 형성하고, 2차 미분치가 제로-크로싱(zero-crossing)에 해당되는 영역을 눈 영역으로 판단할 수 있다. For example, the posture detection unit applies a window (filter or mask) of a certain size or an operator (a first-order differential operator, for example, a Sobel operator) to a set of pixels arranged adjacent to each other on a face image (region operation) area operation) to calculate the amount of change in the pixel value of the pixel of interest in the window, and in various embodiments of the present invention, the posture detection unit calculates 2 values such as the Laplacian operator for a set of pixels arranged next to each other on the face image. An eye region is detected from a face image by applying a differential differential operator and detecting zero crossing by applying a secondary differential operator to a candidate group of eye regions calculated by applying the primary differential operator. You can do it. For example, the posture detection unit according to an embodiment of the present invention calculates a first derivative and a second derivative for a set of pixels arranged adjacent to each other, and according to the amount of change in the calculated pixel values, for example, all An area in which a first derivative value along a direction (eight directions) forms a local maximum and a second derivative value is zero-crossing may be determined as an eye area.

상기 자세 검출부는 R,G,B 3채널의 얼굴 영상으로부터 R채널의 얼굴 영상에서 상대적으로 높은 화소 값을 갖는 영역을 입술 영역으로 판단할 수 있으며, 예를 들어, 상기 자세 검출부는 상기 R채널의 얼굴 영상의 화소 값의 분포로부터 산출된 임계값을 기준으로, 입술 영역과 입술이 아닌 다른 영역을 분할하는 임계화를 이용하여 영역 분할을 수행할 수 있으며, k-평균 군집화와 같은 군집화를 이용한 영역 분할을 통하여, 입술 영역을 검출할 수도 있다. 예를 들어, 본 발명의 일 실시형태에서 상기 자세 검출부는, 상기 R채널의 얼굴 영상의 히스토그램을 분석하고 히스토그램 상에 나타난 두 피크, 예를 들어, 입술 영역을 형성하는 화소 집합(상대적으로 높은 화소 값)에서 나타나는 높은 빈도수의 피크와 입술 외의 다른 영역을 형성하는 화소 집합(상대적으로 낮은 화소 값)에서 나타나는 높은 빈도수의 피크 사이에서 상대적으로 낮은 빈도수를 갖는 밸리를 취하여 임계값으로 설정하고, 임계값을 기준으로, 얼굴 영상으로부터 입술 영역과 입술 이외의 다른 영역을 분할하는 방식으로, 얼굴 영상으로부터 입술 영역을 검출할 수 있다. The posture detector may determine a region having a relatively high pixel value in the face image of the R channel from the face images of the three channels R, G, and B as the lip region. Based on the threshold value calculated from the distribution of pixel values of the face image, region segmentation can be performed using thresholding that divides the lip region and other regions other than the lips, and region using clustering such as k-means clustering. Through segmentation, the lip region may be detected. For example, in one embodiment of the present invention, the posture detection unit analyzes the histogram of the face image of the R channel and two peaks appearing on the histogram, for example, a set of pixels (relatively high pixels) forming a lip region. value) and a valley with a relatively low frequency between the peaks with a relatively low frequency appearing in a set of pixels (relatively low pixel values) forming an area other than the lips, and setting it as a threshold value. Based on , the lip area may be detected from the face image by dividing the lip area and other areas other than the lips from the face image.

도 9 및 도 10을 참조하면, 상기 자세 검출부는, 상기 얼굴 영상으로부터 검출된 양편의 눈 및 입술 영역을 삼각형 형태로 연결하는 부품 모델을 생성할 수 있으며, 부품 모델의 특성을 입력으로 하여 자세 정보를 검출하는 선형 회귀 신경망을 포함할 수 있다. 예를 들어, 상기 삼각형 부품 모델은 양편의 눈 영역을 서로 연결해주는 제1 선분 성분(L1)과, 일편의 눈 영역과 입술 영역을 서로 연결해주는 제2 선분 성분(L2)과, 타편의 눈 영역과 입술 영역을 서로 연결해주는 제3 선분 성분(L3)을 포함할 수 있으며, 상기 자세 검출부는 제1 내지 제3 선분 성분(L1~L3)의 각도와, 제1 내지 제3 선분 성분(L1~L3)의 길이를 산출하며, 상기 선형 회귀 신경망은 산출된 특징을 입력으로 하여 각각의 얼굴 영상으로부터 자세에 대한 예측 값을 산출할 수 있다. Referring to FIGS. 9 and 10 , the posture detection unit may generate a part model that connects both eye and lip regions detected from the face image in a triangular shape, and uses characteristics of the part model as input to obtain posture information. It may include a linear regression neural network that detects. For example, the triangular component model includes a first line segment component (L1) connecting both eye regions, a second line component (L2) connecting one eye region and a lip region, and the other eye region. and a third line segment component (L3) connecting the lip area to each other, and the posture detector may include an angle of the first to third line segment components (L1 to L3), and the first to third line segment components (L1 to L3). The length of L3) is calculated, and the linear regression neural network can calculate a predicted value for a posture from each face image by using the calculated feature as an input.

도 11에는 도 1에 도시된 선형 회귀 신경망을 설명하기 위한 도면으로, 이해의 편의를 위하여, 다수의 단위 뉴런이 연결된 다층의 신경망을 단순화시킨 모델을 보여주는 도면이 도시되어 있다.FIG. 11 is a diagram for explaining the linear regression neural network shown in FIG. 1, and for convenience of understanding, a diagram showing a simplified model of a multilayer neural network connected to a plurality of unit neurons is shown.

상기 선형 회귀 신경망은 생성된 부품 모델의 특징으로서, 삼각형 부품 모델의 제1 내지 제3 선분 성분(L1~L3)의 각도와, 제1 내지 제3 선분 성분(L1~L3)의 길이(특징)로부터 각각의 얼굴 영상의 자세 정보를 검출할 수 있으며, 상기 선형 회귀 신경망은 부품 모델의 특징을 구성하는 각각의 원소와 학습된 가중치와의 선형 조합 또는 선행 조합에 활성화 함수를 적용하여, 각각의 얼굴 영상에 대한 자세에 관한 예측된 값을 산출할 수 있다. 본 발명의 일 실시형태에서, 상기 선형 회귀 신경망은 부품 모델로부터 추출된 특징으로서 다수의 원소가 어레이 형태로 배열된 입력 벡터와 학습된 가중치(W) 벡터의 선형 결합에 활성화 함수를 적용하여 자세에 관한 예측된 값을 산출할 수 있으며, 상기 가중치(W) 벡터는 사전에 준비된 학습 데이터 세트로서, 자세에 관한 타겟 값(객체 F의 회전 각도 θ`, 틸팅 각도 α` 및 스케일의 타겟 값)이 주어진 특징(부품 모델의 특징)을 입력 벡터로 하고 선형 회귀 신경망의 예측된 자세의 추정 값(객체 F의 회전 각도 θ`, 틸팅 각도 α` 및 스케일의 추정 값)과 주어진 타겟 값 사이의 오차가 감소되도록 최소화시키려는 비용 함수가 최소값을 향하여 수렴하도록 가중치(W) 벡터를 갱신하는 방식으로 학습될 수 있다. The linear regression neural network is a feature of the generated part model, the angle of the first to third line segment components (L1 to L3) of the triangular part model, and the length (feature) of the first to third line segment components (L1 to L3). It is possible to detect the posture information of each face image from , and the linear regression neural network applies an activation function to a linear combination or a prior combination of each element constituting the feature of the part model and the learned weight, so that each face A predicted value of a posture for an image may be calculated. In one embodiment of the present invention, the linear regression neural network applies an activation function to a linear combination of an input vector in which a plurality of elements are arranged in an array form as a feature extracted from a part model and a learned weight (W) vector to determine the posture. The weight (W) vector is a pre-prepared learning data set, and the target values for the posture (rotation angle θ` of the object F, tilting angle α`, and target value of the scale) are Given the features (features of the part model) as input vectors, the error between the estimated values of the predicted posture of the linear regression neural network (estimated values of rotation angle θ`, tilt angle α`, and scale of object F) and the given target value is It can be learned in such a way as to update the weight (W) vector so that the cost function to be minimized to be reduced converges toward the minimum value.

도 10을 참조하면, 상기 선형 회귀 신경망은, 상기와 같은 학습을 통하여 얼굴 영상에서 양편의 눈 영역을 서로 연결하는 제1 선분 성분(L1)의 각도와 객체(F)의 자세로서 틸팅 각도(α`) 사이의 상관관계를 분석할 수 있으며, 제1 내지 제3 선분 성분(L1~L3)의 상대적인 길이와 회전 각도(θ`) 사이의 상관관계를 분석할 수 있고, 제1 내지 제3 선분 성분(L1~L3)의 길이와 스케일 사이의 상관관계를 분석할 수 있다. 예를 들어, 본 발명의 일 실시형태에서, 상기 선형 회귀 신경망은, 눈 영역을 서로 연결하는 제1 선분 성분(L1)의 각도 내지는 기울기에 따라 객체(F)의 틸팅 각도(α`)가 변화한다는 상관관계에 따라, 제1 선분 성분(L1)의 각도 내지는 기울기로부터 객체(F)의 틸팅 각도(α`)를 예측하거나 또는 제1 내지 제3 선분 성분(L1~L3)의 각각의 각도 내지는 기울기로부터 객체(F)의 틸팅 각도(α`)를 예측할 수 있다. 또한, 상기 선형 회귀 신경망은 제1 내지 제3 선분 성분(L1~L3)의 상대적인 길이에 따라, 예를 들어, 객체(F)의 회전 각도(θ`)에 따라 양편의 눈 영역을 서로 연결하는 제1 선분 성분(L1)의 길이 변화가 제2, 제3 선분 성분(L3)의 길이의 변화 보다 크게 나타난다는 상관관계에 따라, 제1 내지 제3 선분 성분(L1~L3)의 상대적인 길이로부터 객체(F)의 회전 각도(θ`)를 예측할 수 있다. 또한, 상기 제1 내지 제3 선분 성분(L1~L3)의 길이에 따라 얼굴 영역의 크기가 변화된다는 상관관계에 따라 제1 내지 제3 선분 성분(L1~L3)의 길이로부터 얼굴 영역의 크기가 예측될 수 있다. 본 발명의 일 실시형태에서, 상기 얼굴 영역의 크기란 얼굴 영역의 제1 내지 제3 선분 성분(L1~L3)의 길이로부터 바로 산출되도록, 예를 들어, 양편의 눈 영역 사이에 위치하는 미간으로부터 입술 영역까지의 거리(S)로 정의될 수 있고, 이 경우, 선형 회귀 신경망에 의한 예측이 필요하지 않으며, 얼굴 영역을 대체로 타원 형상으로 볼 때, 타원 형상의 장축 길이를 얼굴 영역의 크기로 볼 경우, 상기 선형 회귀 신경망은, 얼굴 영역의 장축 길이에 관한 타겟 값이 주어진 학습 데이터(제1 내지 제3 선분 성분 L1~L3의 길이)로부터 얼굴 영역의 장축 길이에 관한 예측 값을 출력할 수 있고, 학습된 가중치를 포함하는 선형 회귀 신경망은, 얼굴 영역에 관한 특성(부품 모델의 특성)으로서 제1 내지 제3 선분 성분(L1~L3)의 길이가 입력되면, 얼굴 영역의 장축 길이에 관한 예측 값을 출력할 수 있다. Referring to FIG. 10, the linear regression neural network calculates the tilt angle (α) as the angle of the first line segment component (L1) connecting the eye regions on both sides of the face image and the pose of the object (F) through learning as described above. `) can be analyzed, and the correlation between the relative lengths of the first to third line segment components (L1 to L3) and the rotation angle (θ`) can be analyzed, and the first to third line segments can be analyzed. The correlation between the length and scale of the components (L1 to L3) can be analyzed. For example, in one embodiment of the present invention, the linear regression neural network changes the tilt angle α′ of the object F according to the angle or inclination of the first line segment component L1 connecting the eye regions to each other. Depending on the correlation, predicting the tilting angle α` of the object F from the angle or inclination of the first line segment component L1, or each angle or angle of the first to third line segment components L1 to L3 The tilting angle α′ of the object F may be predicted from the tilt. In addition, the linear regression neural network connects both eye regions to each other according to the relative lengths of the first to third line segment components L1 to L3, for example, according to the rotation angle θ′ of the object F. From the relative lengths of the first to third line segment components L1 to L3, according to the correlation that the change in the length of the first line segment component L1 is greater than the change in the lengths of the second and third line segment components L3. The rotation angle θ` of the object F may be predicted. In addition, according to the correlation that the size of the face area changes according to the lengths of the first to third line segment components L1 to L3, the size of the face area is determined from the lengths of the first to third line segment components L1 to L3. can be predicted In one embodiment of the present invention, the size of the face region is calculated directly from the lengths of the first to third line segment components (L1 to L3) of the face region, for example, from the glabella located between the eye regions on both sides. It can be defined as the distance (S) to the lip area, and in this case, prediction by a linear regression neural network is not required, and when the face area is viewed as a generally elliptical shape, the length of the major axis of the elliptical shape can be regarded as the size of the face area. In this case, the linear regression neural network may output a prediction value for the long axis length of the face region from learning data (lengths of first to third line segment components L1 to L3) given a target value for the long axis length of the face region, , The linear regression neural network including the learned weight predicts the long axis length of the face region when the lengths of the first to third line segment components (L1 to L3) are input as characteristics (characteristics of the part model) of the face region. value can be printed.

본 발명의 일 실시형태에서, 상기 영상 정합부는, 상기 자세 검출부로부터 출력된 스케일 정보와 제1 촬상 이미지 상에서 배경으로부터 분할된 피사체 영상의 크기를 참조하여, 사전에 설정된 피사체(O)와 객체(F) 사이의 크기 비율에 대응되도록, 상기 피사체 영상을 확대 또는 축소한 기하 변환된 피사체(O) 영상을, 제2 촬상 이미지 상으로부터 추출된 객체(F) 영상의 목표 위치로 복사할 수 있다. 이때, 상기 피사체(O)와 객체(F) 사이의 크기 비율은, 서로 다른 촬상 각도로 피사체(O)를 포착한 일군의 제1 촬상 이미지의 세트 전체에 연계되어 지정되어 있을 수 있으며, 본 발명의 일 실시형태에서, 동일한 피사체(O)를 서로 다른 촬상 각도로 포착한 일군의 제1 촬상 이미지의 세트는 서로 다른 회전 각도(θ) 및 틸팅 각도(α)로 동일한 피사체를 포착한 것이며, 동일한 피사체(O)에 대해 피사체(O)와 객체(F) 사이의 크기 비율은 서로 동일하게 지정될 수 있으므로, 동일한 피사체(O)를 서로 다른 촬상 각도로 포착한 일군의 제1 촬상 이미지의 세트가 저장되어 있는 데이터 베이스에는 상기 일군의 제1 촬상 이미지의 세트에 대해 동일한 피사체(O)와 객체(F) 사이의 크기 비율이 연계되어 저장되어 있을 수 있다. In one embodiment of the present invention, the image matching unit refers to the scale information output from the posture detection unit and the size of the subject image divided from the background in the first captured image, and sets the subject (O) and the object (F) in advance. ), the geometrically transformed subject O image obtained by enlarging or reducing the subject image may be copied to a target position of the object image F extracted from the second captured image. At this time, the size ratio between the subject O and the object F may be designated in association with the entire set of first captured images of the subject O captured at different imaging angles, and the present invention In an embodiment of the above, the set of first captured images of the same subject O captured at different imaging angles is the same subject captured at different rotational angles θ and tilting angles α, and the same Since the size ratio between the subject O and the object F may be designated as the same for the subject O, a set of first captured images of the same subject O captured at different imaging angles is obtained. A size ratio between the same subject O and object F with respect to the set of first captured images of the group may be linked and stored in the stored database.

본 발명의 일 실시형태에 따른 가상의 착용이미지 제공시스템은, 제2 촬상 이미지로부터 검출된 자세 정보를 참조하여 제1 촬상 이미지에 관한 일군의 데이터 베이스를 조회하고, 제2 촬상 이미지에 관하여 검출된 자세 정보와 가장 유사한 최근접의 자세로 촬상된 제1 촬상 이미지를 취하여 해당되는 제1 촬상 이미지로부터 배경(B)으로부터 분할된 피사체(O) 영상을, 제2 촬상 이미지 상의 객체(F) 상에 합성하는 영상 정합부를 포함할 수 있다.A system for providing a virtual wearing image according to an embodiment of the present invention queries a group of databases related to a first captured image with reference to posture information detected from a second captured image, and detects information about a second captured image. A first captured image captured in the closest posture most similar to the posture information is taken, and an image of the subject O divided from the background B from the corresponding first captured image is displayed on the object F of the second captured image. An image matching unit for synthesizing may be included.

도 12a 내지 도 12e에는, 각각 도 3a 내지 도 3e에 포착된 피사체의 영상과, 도 4a 내지 도 4e에 포착된 객체의 영상이 자세 및 스케일 매칭을 통하여 서로에 대해 정합되도록 합성된 합성 이미지를 예시적으로 보여주는 도면들이 도시되어 있다. 12A to 12E illustrate composite images synthesized so that the image of the subject captured in FIGS. 3A to 3E and the image of the object captured in FIGS. 4A to 4E are matched to each other through posture and scale matching. Drawings showing the enemy are shown.

상기 영상 정합부는 제2 촬상 이미지로부터 검출된 자세 정보로서 회전 각도(θ`) 및 틸팅 각도(α`)를 참조하고, 제1 촬상 이미지에 관한 데이터 베이스를 조회하여, 다수의 제1 촬상 이미지와 연계되어 저장된 자세 정보로서, 회전 각도(θ) 및 틸팅 각도(α) 중에서 제2 촬상 이미지로부터 검출된 자세와 가장 유사한 최근접의 자세로 촬상된 제1 촬상 이미지를 취하여 제1 촬상 이미지 상에서 배경(B)으로부터 영역 분할된 피사체(O)의 영상을 제2 촬상 이미지 상으로부터 검출된 얼굴 영역 상에 합성할 수 있다.The image matching unit refers to a rotation angle (θ′) and a tilt angle (α′) as attitude information detected from the second captured image, searches a database for the first captured images, and obtains a plurality of first captured images and As the attitude information stored in association, a first captured image captured in a posture most similar to the posture detected from the second captured image among the rotation angle θ and the tilt angle α is taken, and the background ( The image of the subject O, which is region-divided from B), may be synthesized on the face region detected from the second captured image.

본 발명의 일 실시형태에서, 상기 영상 정합부는 상기 제2 촬상 이미지로부터 검출된 촬상 각도로서, 회전 각도(θ`) 및 틸팅 각도(α`)와, 상기 데이터 베이스에 저장된 제1 촬상 이미지의 촬상 각도로서 회전 각도(θ) 및 틸팅 각도(α) 사이의 제곱 오차합(sum of squared errors, SSE)이 최소가 되는 제1 촬상 이미지의 촬상 각도를, 제2 촬상 이미지로부터 검출된 촬상 각도와 최근접한 것으로 인식할 수 있다. 예를 들어, 본 발명의 일 실시형태에서, 상기 영상 정합부는 제2 촬상 이미지로부터 검출된 회전 각도(θ`)와 데이터 베이스에 저장된 각각의 제1 촬상 이미지의 회전 각도(θ) 사이의 차분의 제곱과, 제2 촬상 이미지로부터 검출된 틸팅 각도(α`)와 데이터 베이스에 저장된 각각의 제1 촬상 이미지의 틸팅 각도(α)의 차분의 제곱을 합산한 제곱 오차합을 최소로 하는 회전 각도(θ) 및 틸팅 각도(α)를 갖는 제1 촬상 이미지를 취하여, 제2 촬상 이미지와 자세 매칭이 되는 쌍으로 인식할 수 있다. In one embodiment of the present invention, the image matching unit determines a rotation angle (θ′) and a tilting angle (α′) as the imaging angle detected from the second captured image, and the imaging of the first captured image stored in the database. The imaging angle of the first captured image at which the sum of squared errors (SSE) between the rotation angle θ and the tilting angle α as an angle is minimized is determined by the latest It can be recognized as having been touched. For example, in one embodiment of the present invention, the image matching unit determines the difference between the rotation angle θ′ detected from the second captured image and the rotation angle θ of each first captured image stored in the database. Rotation angle that minimizes the sum of the square errors obtained by adding the square and the square of the difference between the tilt angle α` detected from the second captured image and the tilt angle α of each first captured image stored in the database ( θ) and a tilting angle α, the first captured image may be taken and recognized as a pair matching the posture with the second captured image.

상기 영상 정합부는 제1 촬상 이미지 상에서 배경(B)으로부터 분할된 피사체(O) 영역을 형성하는 각 화소의 화소 값을 제2 촬상 이미지 상의 목표 위치(착용 위치, 합성 위치)로 복사할 수 있으며, 예를 들어, 제2 촬상 이미지 상의 목표 위치(착용 위치, 합성 위치)는 사용자의 입력에 따라 지시될 수 있고, 예를 들어, 사용자의 입력으로서 마우스의 드랙 앤 드랍(drag and drop)을 통하여 지시될 수 있으며, 상기 사용자의 입력에 따라 지시된 목표 위치(착용 위치)와 제1 촬상 이미지 상에서 분할된 발광지시부(I)의 위치(제1 촬상 이미지 상에서 영역 분할된 발광지시부 I의 위치)가 서로 위치 정렬되도록, 발광지시부(I)의 영상이 조합된 피사체(O)의 영상이 제2 촬상 이미지 상의 얼굴 영역으로 합성될 수 있으며, 예를 들어, 상기 영상 정합부는, 상기 피사체(O)의 영상 정보(피사체 O를 형성하는 각 화소의 화소 값)을 사용자의 입력에 따라 지시된 목표 위치로 복사하되, 상기 피사체(O)의 영상 정보에 포함된 발광지시부(I)의 위치를 기준 위치로 하여, 상기 발광지시부(I)의 위치가 목표 위치와 정렬되도록 피사체(O)의 영상 정보를 제2 촬상 이미지의 얼굴 영상으로 복사할 수 있다. The image matching unit may copy a pixel value of each pixel forming an area of the subject (O) divided from the background (B) on the first captured image to a target position (wearing position, composite position) on the second captured image, For example, the target position (wearing position, composite position) on the second captured image may be indicated according to a user's input, for example, through drag and drop of a mouse as a user's input. The target position (wearing position) indicated according to the user's input and the position of the light emitting directing unit I divided on the first captured image (the position of the light emitting directing unit I divided into areas on the first captured image) are mutually related. The image of the subject O, in which the image of the light emitting directing unit I is combined, may be synthesized into a face area on the second captured image so that the position is aligned. Information (pixel value of each pixel forming the subject O) is copied to the target position indicated according to the user's input, with the position of the light emitting indicator (I) included in the image information of the subject O as the reference position. , The image information of the subject O may be copied to the face image of the second captured image so that the position of the light emission directing unit I is aligned with the target position.

본 발명은 첨부된 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 수 있을 것이다.Although the present invention has been described with reference to the embodiments shown in the accompanying drawings, this is merely exemplary, and those skilled in the art can make various modifications and equivalent other embodiments therefrom. you will understand the point.

O: 피사체 F: 객체
θ, θ `: 회전 각도 α, α`: 틸팅 각도
C: 카메라 모듈 B: 배경
I: 발광지시부 f1,f2: 제1, 제2 연산자
L1~L3: 제1 내지 제3 선분 성분
O: subject F: object
θ, θ`: rotation angle α, α`: tilting angle
C: Camera module B: Background
I: light emitting indicator f1, f2: first and second operators
L1 to L3: first to third line segment components

Claims (20)

서로 다른 다양한 촬상 각도로 피사체를 포착한 카메라 모듈로부터 생성된 일군의 제1 촬상 이미지의 세트가 저장된 데이터 베이스;
상기 제1 촬상 이미지 상에 포착된 피사체와 배경을 서로 다른 영역으로 분할하기 위한 영상 분할부;
상기 제1 촬상 이미지와 다른 제2 촬상 이미지로부터 객체를 추출하기 위한 객체 검출부;
상기 객체 검출부로부터 추출된 객체의 촬상 각도의 정보를 검출하기 위한 자세 검출부; 및
상기 자세 검출부로부터 출력된 객체의 촬상 각도를 참조하여 상기 데이터 베이스를 조회하고 제2 촬상 이미지의 촬상 각도와 가장 유사한 최근접의 촬상 각도로 포착된 제1 촬상 이미지를 취하여 제1 촬상 이미지의 피사체 영상을 제2 촬상 이미지의 객체 상에 합성하는 영상 정합부;를 포함하고,
상기 피사체의 촬상 각도는,
피사체가 놓인 지지면과 나란하게 피사체 주변을 일주하는 카메라 모듈의 궤적을 따라 서로 다른 각도 위치를 나타내는 회전 각도; 및
카메라 모듈의 궤적이 상기 지지면으로부터 경사진 각도 위치를 나타내는 틸팅 각도를 포함하고,
상기 피사체가 놓인 공간은 상기 지지면을 형성하는 X축-Z축의 평면 상에서 Y축을 높이로 하며, 상기 X축은 카메라 모듈이 피사체를 지향하는 방향에 해당되고,
상기 회전 각도 및 틸팅 각도는 각각 Y축 및 X축을 중심으로 하는 회전 방향에 해당되며,
상기 촬상 각도는, 카메라 모듈의 심도를 변화시키는 상기 Z축을 중심으로 하는 회전 방향에 관한 요잉(yawing) 각도를 포함하지 않고,
상기 자세 검출부는,
상기 객체 검출부로부터 추출된 얼굴 영상을 입력으로 하여, 양편의 눈 영역을 서로 연결해주는 제1 선분 성분과, 일편의 눈 영역과 입술 영역을 서로 연결해주는 제2 선분 성분과, 타편의 눈 영역과 입술 영역을 서로 연결해주는 제3 선분 성분을 포함하는 부품 모델(part based model)을 생성하고,
상기 제1 내지 제3 선분 성분의 각각의 각도와 길이를 입력으로 하여, 객체의 촬상 각도에 관한 예측 값을 출력하기 위한 선형 회귀 신경망을 포함하고,
상기 객체의 촬상 각도는, 객체로서 얼굴의 회전 각도 및 틸팅 각도를 포함하며, 요잉 각도는 포함하지 않는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
a database storing a set of a group of first captured images generated from a camera module that captures a subject at various different imaging angles;
an image divider for dividing a subject and a background captured on the first captured image into different regions;
an object detection unit for extracting an object from a second captured image different from the first captured image;
a posture detection unit for detecting information on an imaging angle of the object extracted from the object detection unit; and
The database is queried with reference to the imaging angle of the object output from the posture detection unit, and the first captured image captured at the closest imaging angle most similar to the imaging angle of the second captured image is taken, and the subject image of the first captured image is obtained. An image matching unit for synthesizing a second captured image onto an object;
The imaging angle of the subject is,
Rotation angles indicating different angular positions along the trajectory of the camera module traveling around the subject in parallel with the support surface on which the subject is placed; and
The trajectory of the camera module includes a tilting angle indicating an angular position inclined from the support surface,
The space where the subject is placed has a Y-axis height on a plane of the X-axis-Z-axis forming the support surface, and the X-axis corresponds to a direction in which the camera module directs the subject,
The rotation angle and the tilt angle correspond to rotation directions centered on the Y-axis and the X-axis, respectively,
The imaging angle does not include a yawing angle with respect to a rotational direction around the Z axis that changes the depth of field of the camera module,
The posture detection unit,
With the face image extracted from the object detection unit as an input, a first line segment component connecting both eye regions to each other, a second line segment component connecting one eye region and lip region to each other, and the other eye region and lip Creating a part based model including a third line segment component connecting the regions to each other;
A linear regression neural network for outputting a predicted value for an imaging angle of an object by taking angles and lengths of each of the first to third line segment components as inputs,
The imaging angle of the object includes a rotation angle and a tilt angle of the face as an object, and does not include a yaw angle.
삭제delete 삭제delete 제1항에 있어서,
상기 데이터 베이스에는 상기 제1 촬상 이미지 각각의 촬상 각도의 정보로서, 서로 다른 회전 각도 및 틸팅 각도의 정보가 연계되어 저장되어 있는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The virtual wearing image providing system according to claim 1 , wherein information on different rotation angles and tilting angles is linked and stored in the database as information on the imaging angle of each of the first captured images.
제1항에 있어서,
상기 영상 분할부는, 상기 제1 촬상 이미지 상에 포착된 피사체, 형광 채색된 발광지시부 및 배경을 각각 서로 다른 영역으로 분할하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The image dividing unit divides the subject captured on the first captured image, the fluorescently colored light emitting indicator, and the background into different regions, respectively.
제5항에 있어서,
상기 제1 촬상 이미지 상에 포착된 피사체의 영상 정보는, 피사체와 함께 제1 촬상 이미지 상에 포착된 발광지시부와 상기 제2 촬상 이미지 상에서 착용 위치에 관하여 설정된 목표 위치가 서로 위치 정렬되도록, 상기 제2 촬상 이미지 상의 목표 위치로 복사되는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 5,
The image information of the subject captured on the first captured image is such that the light emission indicator captured on the first captured image together with the subject and the target position set in relation to the wearing position on the second captured image are aligned with each other. 2 A virtual wearing image providing system characterized in that it is copied to a target position on the captured image.
제5항에 있어서,
상기 제1 촬상 이미지는 R,G,B 3채널의 이미지를 포함하고,
상기 영상 분할부는 R,G,B 3채널의 이미지 중에서 적어도 어느 하나의 채널의 이미지의 화소 값의 분포로부터 산출된 서로 다른 제1, 제2 임계값을 기준으로, 상기 피사체, 발광지시부 및 배경을 서로 다른 3영역으로 분할하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 5,
The first captured image includes images of three channels of R, G, and B;
The image segmentation unit selects the subject, the light emitting indicator, and the background based on different first and second threshold values calculated from the distribution of pixel values of at least one channel among the three R, G, and B images. Virtual wearing image providing system, characterized in that divided into three different areas.
제1항에 있어서,
상기 제1 촬상 이미지는 피사체로서 액서서리류를 포착한 이미지이며,
상기 제2 촬상 이미지는 객체로서 인물의 얼굴을 포착한 이미지인 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The first captured image is an image capturing accessories as a subject,
The second captured image is a virtual wearing image providing system, characterized in that the image captured a person's face as an object.
제1항에 있어서,
상기 객체 검출부는,
상기 제2 촬상 이미지로부터 특징을 추출하기 위한 특징 추출부; 및
상기 특징 추출부로부터 검출된 특징을 입력으로 하여 객체로서의 얼굴 여부에 관한 이진 분류를 위한 분류기;를 포함하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The object detection unit,
a feature extraction unit for extracting features from the second captured image; and
A classifier for binary classification on whether or not a face is an object by taking the feature detected from the feature extraction unit as an input.
제1항에 있어서,
상기 객체 검출부는,
상기 제2 촬상 이미지를 입력으로 하여 제2 촬상 이미지와 학습된 커널 사이의 합성곱으로부터 제2 촬상 이미지의 특징을 추출한 특성 맵을 산출하고, 산출된 특성 맵과 학습된 가중치 사이의 선형 조합으로부터 객체로서의 얼굴 여부에 관한 예측된 확률을 출력하기 위한 컨볼루션 신경망(Convolution Neural Network, CNN 신경망)을 포함하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The object detection unit,
A feature map obtained by extracting features of the second captured image from the convolution between the second captured image and the learned kernel is calculated by taking the second captured image as an input, and an object is obtained from a linear combination between the calculated feature map and the learned weight. A virtual worn image providing system comprising a convolution neural network (CNN neural network) for outputting a predicted probability of whether or not a face is a face.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 선형 회귀 신경망은, 상기 제1 내지 제3 선분 성분의 각각의 각도와 길이를 입력으로 하여, 객체의 촬상 각도와 함께, 객체의 스케일에 관한 예측 값을 출력하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The linear regression neural network takes the angles and lengths of each of the first to third line segment components as inputs, and outputs a prediction value related to the scale of the object together with the imaging angle of the object Virtual wearing image, characterized in that provision system.
제1항에 있어서,
상기 부품 모델로부터 직접 스케일 정보를 산출하거나, 또는
상기 자세 검출부는, 선형 회귀 신경망으로부터 스케일 정보를 출력하되, 상기 자세 검출부로부터 출력되는 스케일 정보는 상기 객체로서 얼굴 영역의 장축 길이에 해당되는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
Calculate scale information directly from the part model, or
The posture detection unit outputs scale information from the linear regression neural network, and the scale information output from the posture detection unit corresponds to the length of a major axis of the face region as the object.
제1항에 있어서,
상기 영상 정합부는 상기 제2 촬상 이미지로부터 검출된 촬상 각도로서, 회전 각도 및 틸팅 각도와, 상기 데이터 베이스에 저장된 제1 촬상 이미지의 촬상 각도로서 회전 각도 및 틸팅 각도 사이의 제곱 오차합(sum of squared errors, SSE)이 최소가 되는 제1 촬상 이미지의 촬상 각도를, 제2 촬상 이미지로부터 검출된 촬상 각도와 최근접한 것으로 인식하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The image matching unit calculates a sum of squared error between a rotation angle and a tilt angle as the imaging angle detected from the second captured image and a rotation angle and a tilt angle as the imaging angle of the first captured image stored in the database. A system for providing a virtual wearing image, characterized in that recognizing a capturing angle of a first captured image at which errors (SSE) are minimized is closest to a capturing angle detected from a second captured image.
제1항에 있어서,
상기 영상 정합부는, 제1 촬상 이미지 상에서 배경으로부터 분할된 피사체 영상 정보를 제2 촬상 이미지 상으로부터 추출된 객체 영상의 목표 위치로 복사하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The image matching unit copies the subject image information divided from the background on the first captured image to a target position of the object image extracted from the second captured image.
제1항에 있어서,
상기 영상 정합부는, 상기 자세 검출부로부터 출력된 스케일 정보와 제1 촬상 이미지 상에서 배경으로부터 분할된 피사체 영상의 크기를 참조하여, 사전에 설정된 피사체와 객체 사이의 크기 비율에 대응되도록, 상기 피사체 영상을 확대 또는 축소한 기하 변환된 피사체 영상을, 제2 촬상 이미지 상으로부터 추출된 객체 영상의 목표 위치로 복사하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The image matching unit enlarges the subject image to correspond to a preset size ratio between the subject and the object by referring to the scale information output from the posture detection unit and the size of the subject image divided from the background in the first captured image. Alternatively, the virtual wearing image providing system characterized in that copying the reduced geometrically transformed subject image to a target location of the object image extracted from the second captured image.
제18항에 있어서,
상기 피사체와 객체 사이의 크기 비율은, 서로 다른 촬상 각도로 피사체를 포착한 일군의 제1 촬상 이미지의 세트 전체에 연계되어 저장되어 있는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 18,
The system for providing a virtual wearing image, characterized in that the size ratio between the subject and the object is stored in association with the entire set of first captured images of the subject captured at different imaging angles.
제1항에 있어서,
상기 영상 정합부는, 제1 촬상 이미지 상에서 포착된 발광지시부와 제2 촬상 이미지 상에서 착용 위치에 관하여 설정된 목표 위치가 서로 위치 정렬되도록, 상기 제1 촬상 이미지 상에 포착된 피사체의 영상 정보를 상기 제2 촬상 이미지 상의 목표 위치로 복사하는 것을 특징으로 하는 가상의 착용이미지 제공시스템.
According to claim 1,
The image matching unit may set the image information of the subject captured on the first captured image to the second captured image so that the light emitting indicator captured on the first captured image and a target position set in relation to the wearing position on the second captured image are aligned with each other. A system for providing a virtual wearing image, characterized in that for copying to a target position on a captured image.
KR1020220100070A 2022-08-10 2022-08-10 A system for providing virtual wearing image KR102569572B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220100070A KR102569572B1 (en) 2022-08-10 2022-08-10 A system for providing virtual wearing image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220100070A KR102569572B1 (en) 2022-08-10 2022-08-10 A system for providing virtual wearing image

Publications (1)

Publication Number Publication Date
KR102569572B1 true KR102569572B1 (en) 2023-08-24

Family

ID=87841354

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220100070A KR102569572B1 (en) 2022-08-10 2022-08-10 A system for providing virtual wearing image

Country Status (1)

Country Link
KR (1) KR102569572B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080035711A (en) * 2006-10-20 2008-04-24 연세대학교 산학협력단 Global feature extraction method for 3d face recognition
KR20170011261A (en) * 2015-07-22 2017-02-02 이서진 Apparatus for hair style 3D simulation and method for simulating the same
KR101908851B1 (en) * 2017-04-14 2018-10-17 한국 한의학 연구원 Apparatus and method for correcting facial posture
KR20190123143A (en) * 2018-04-23 2019-10-31 주식회사 로로젬 System for selling accessories and method for selling accessories using thereof
KR20210093536A (en) * 2020-01-20 2021-07-28 김규민 Hair style composition system and method the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080035711A (en) * 2006-10-20 2008-04-24 연세대학교 산학협력단 Global feature extraction method for 3d face recognition
KR20170011261A (en) * 2015-07-22 2017-02-02 이서진 Apparatus for hair style 3D simulation and method for simulating the same
KR101908851B1 (en) * 2017-04-14 2018-10-17 한국 한의학 연구원 Apparatus and method for correcting facial posture
KR20190123143A (en) * 2018-04-23 2019-10-31 주식회사 로로젬 System for selling accessories and method for selling accessories using thereof
KR20210093536A (en) * 2020-01-20 2021-07-28 김규민 Hair style composition system and method the same

Similar Documents

Publication Publication Date Title
JP7482181B2 (en) Image processing device and image processing method
Pala et al. Multimodal person reidentification using RGB-D cameras
Gourier et al. Estimating face orientation from robust detection of salient facial structures
US9330307B2 (en) Learning based estimation of hand and finger pose
Gheissari et al. Person reidentification using spatiotemporal appearance
US7853085B2 (en) Viewpoint-invariant detection and identification of a three-dimensional object from two-dimensional imagery
US20180189611A1 (en) Systems and methods for shape-based object retrieval
US20230306222A1 (en) Optical articles and systems interacting with the same
US9639748B2 (en) Method for detecting persons using 1D depths and 2D texture
CA2784554C (en) Head recognition method
Ahmed et al. A robust algorithm for detecting people in overhead views
WO1999006940A9 (en) A method and apparatus for personnel detection and tracking
Gourier et al. Facial features detection robust to pose, illumination and identity
Steitz et al. Multi-view x-ray r-cnn
Ecins et al. Shadow free segmentation in still images using local density measure
WO2011099072A1 (en) Pattern discrimination device
KR102569572B1 (en) A system for providing virtual wearing image
Corke et al. Image Feature Extraction
Monteleone et al. Pedestrian tracking in 360 video by virtual PTZ cameras
CN109690555A (en) Face detector based on curvature
Ye et al. Reading labels of cylinder objects for blind persons
Badi et al. Feature extraction technique for static hand gesture recognition
Naseer et al. Efficient Multi-Object Recognition Using GMM Segmentation Feature Fusion Approach
Snorrason et al. Automatic target recognition in laser radar imagery
Han et al. RGB-D human identification and tracking in a smart environment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant