KR20210049648A

KR20210049648A - 객체와 배경 이미지를 합성하여 실감형 포토 영상을 제공하는 영상 처리 시스템 및 방법

Info

Publication number: KR20210049648A
Application number: KR1020200002385A
Authority: KR
Inventors: 김혜경; 이태경
Original assignee: 주식회사 아이오로라
Priority date: 2019-10-25
Filing date: 2020-01-08
Publication date: 2021-05-06
Also published as: KR102334350B1

Abstract

객체와 배경 이미지를 합성하여 실감형 포토 영상을 제공하는 영상 처리 시스템 및 방법이 개시된다. 상기 영상 처리 시스템은 입력 영상으로부터 관심 영역(ROI) 정보를 획득하고, 상기 획득된 ROI 정보를 이용하여 상세 분리된 mask 영상을 획득하며, 상기 상세 분리된 mask 영상을 이용하여 상기 입력 영상으로부터 객체를 분리시키는 분리부, 상기 입력 영상의 광원의 색도 정보를 추정하고 상기 추정된 색도 정보를 배경 이미지에 적용하여 상기 배경 이미지를 보정하는 보정부 및 상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성하는 합성부를 포함한다. 여기서, 상기 배경 이미지는 상기 입력 영상의 배경과 다른 이미지이며, 상기 분리부는 사용자의 입력 없이 상기 ROI 정보를 이용함에 의해 획득된 상기 mask 영상에 기초하여 상기 객체를 자동으로 분리시킨다.

Description

객체와 배경 이미지를 합성하여 실감형 포토 영상을 제공하는 영상 처리 시스템 및 방법{IMAGE PROCESSING SYSTEM AND METHOD OF PROVIDING REALISTIC PHOTO IMAGE BY SYNTHESIZING OBJECT AND BACKGROUND IMAGE}

본 발명은 객체와 배경 이미지를 합성하여 실감형 포토 영상을 제공하는 영상 처리 시스템 및 방법에 관한 것이다.

종래의 영상 처리 시스템은 영상 합성시 가상의 배경과 촬영 환경(조명)이 달라서 합성 영상이 실제와 같지 않았다. 즉, 상기 영상 처리 시스템은 실감형 포토 영상을 제공할 수 없다.

KR

10-2019-0130380

A

본 발명은 객체와 배경 이미지를 합성하여 실감형 포토 영상을 제공하는 영상 처리 시스템 및 방법을 제공하는 것이다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 영상 처리 시스템은 입력 영상으로부터 관심 영역(ROI) 정보를 획득하고, 상기 획득된 ROI 정보를 이용하여 상세 분리된 mask 영상을 획득하며, 상기 상세 분리된 mask 영상을 이용하여 상기 입력 영상으로부터 객체를 분리시키는 분리부; 상기 입력 영상의 광원의 색도 정보를 추정하고 상기 추정된 색도 정보를 배경 이미지에 적용하여 상기 배경 이미지를 보정하는 보정부; 및 상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성하는 합성부를 포함한다. 여기서, 상기 배경 이미지는 상기 입력 영상의 배경과 다른 이미지이며, 상기 분리부는 사용자의 입력 없이 상기 ROI 정보를 이용함에 의해 획득된 상기 mask 영상에 기초하여 상기 객체를 자동으로 분리시킬 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법은 matting/segmentation 기술을 입력 영상에 적용하여 객체를 분리시키는 단계; 상기 입력 영상의 광원의 색도 정보를 추정하는 단계; 상기 추정된 색도 정보를 배경 이미지에 적용하여 상기 배경 이미지를 보정하는 단계; 및 상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성하는 단계를 포함한다. 여기서, 사용자 입력 없이 상기 입력 영상의 ROI 정보를 이용함에 의해 상기 객체를 상기 입력 영상으로부터 자동으로 분리시킨다.

본 발명에 따른 영상 처리 시스템 및 방법은 matting/segmentation 기술을 사용하여 입력 영상으로부터 자동으로 객체를 분리시키고 상기 분리된 객체와 상기 입력 영상의 광원의 색도 정보를 적용함에 의해 보정된 배경 이미지를 합성하여 포토 영상을 생성하므로, 품질이 향상된 실감형 포토 영상을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 영상 처리 방법을 도시한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 영상 처리 방법의 상세 과정을 도시한 순서도이다.
도 3은 Mask R-CNN의 프레임워크를 도시한 도면이다.
도 4는 Mask R-CNN의 결과 영상을 도시한 도면이다.
도 5는 Mask R-CNN을 이용한 입력 영상의 객체 분류 결과를 도시한 도면이다.
도 6은 Mask R-CNN의 이미지 세분화시의 문제점을 도시한 도면이다.
도 7은 ROI 내 mask의 전경 및 배경 분리 과정을 도시한 도면이다.
도 8은 이미지 Matting을 도시한 도면이다.
도 9는 이미지 Matting 결과를 도시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 영상 처리 시스템을 개략적으로 도시한 블록도이다.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 발명은 영상 처리 시스템 및 방법에 관한 것으로서, 객체(예를 들어, 인물)를 자동으로 분리하고 분리된 객체를 새로운 배경 이미지에 합성하여 포토 영상을 생성하되, 상기 객체가 상기 배경 이미지에서 실제로 촬영한 느낌이 나도록 포토 영상을 생성할 수 있다. 즉, 상기 영상 처리 시스템은 객체와 배경을 합성한 실감형 포토 카드를 제공할 수 있다.

이러한 포토 영상은 예를 들어, 키오스크, 모바일 기기(스마트폰 등임) 등에서 포토 카드로서 제공될 수 있다.

이러한 실감형 포토 카드를 생성하기 위해서는, 객체를 입력 영상으로부터 정확하게 분리시킬 수 있어야 하며 합성된 배경 이미지를 상기 객체 촬영시의 광원의 색도로 보정하여야 한다. 따라서, 본 발명의 영상 처리 시스템은 이러한 객체 분리 및 배경 이미지 보정을 효율적으로 수행할 수 있는 기술을 제안한다.

이하, 본 발명의 다양한 실시예들을 첨부된 도면을 참조하여 상술하겠다.

도 1은 본 발명의 일 실시예에 따른 영상 처리 방법을 도시한 순서도이다.

도 1을 참조하면, 본 실시예의 영상 처리 시스템은 예를 들어 키오스크 또는 스마트폰에 의해 촬영된 입력 영상으로부터 객체, 특히 인물을 배경으로부터 분리시킬 수 있다(S100).

일 실시예에 따르면, 상기 영상 처리 시스템은 딥러닝 기반의 MASK R-CNN 기술을 이용하여 상기 입력 영상으로부터 객체를 분리시킬 수 있고, 관심영역(Region of interest, ROI) 정보 및 mask 정보를 획득할 수 있다. 이 경우, 상기 객체 검출 및 1차적인 세그멘테이션(segmentation)은 가능하나, 배경 이미지 합성을 위한 상세 세그멘테이션을 획득하기가 어렵다.

이어서, 상기 영상 처리 시스템은 상기 획득된 ROI 정보 및 mask 정보를 이용하여 상세 분리를 수행하여 상세 분리된 mask 영상을 획득할 수 있다(S102).

계속하여, 상기 영상 처리 시스템은 실감 효과를 위하여 입력 영상의 광원에 해당하는 색도 정보를 획득하고, 상기 획득된 색도 정보로 합성에 사용될 새로운 배경 이미지를 보정하여 보정된 배경 이미지를 획득할 수 있다(S104).

이어서, 상기 영상 처리 시스템은 상기 상세 분리된 mask 영상을 이용하여 상기 입력 영상으로부터 객체(예를 들어, 인물)를 분리시키고, 상기 분리된 객체를 상기 보정된 배경 이미지와 합성하여 포토 영상을 생성할 수 있다(S106).

정리하면, 본 실시예의 영상 처리 시스템은 객체를 정확하게 분리시키고 입력 영상의 광원의 색도 정보로 배경 이미지를 보정한 후 상기 분리된 객체와 상기 보정된 배경 이미지를 합성하므로, 품질 좋은 실감형 포토 영상을 제작할 수 있다. 따라서, 상기 영상 처리 시스템은 가상의 배경과 촬영 환경, 특히 조명의 종류와 관계없이 실감형 포토 영상을 획득할 수 있다. 물론, 배경 이미지를 다르게 하여 많은 다른 포토 영상을 제작할 수도 있다. 이러한 포토 영상들 모두 배경 이미지가 색도 정보로 보정되므로 실제로 객체가 해당 배경에서 촬영된 느낌을 가질 수 있다.

한편, 위에서는 객체 분리를 위하여 MASK R-CNN 기술이 사용되었으나, ROI 정보를 획득할 수 있는 한 다른 기술이 사용될 수도 있다.

이하, 각 과정을 상세히 살펴보겠다.

도 2는 본 발명의 일 실시예에 따른 영상 처리 방법의 상세 과정을 도시한 순서도이고, 도 3은 Mask R-CNN의 프레임워크를 도시한 도면이며, 도 4는 Mask R-CNN의 결과 영상을 도시한 도면이다. 도 5는 Mask R-CNN을 이용한 입력 영상의 객체 분류 결과를 도시한 도면이고, 도 6은 Mask R-CNN의 이미지 세분화시의 문제점을 도시한 도면이며, 도 7은 ROI 내 mask의 전경 및 배경 분리 과정을 도시한 도면이다. 도 8은 이미지 Matting을 도시한 도면이며, 도 9는 이미지 Matting 결과를 도시한 도면이다.

도 2를 참조하면, 영상 처리 시스템은 키오스크 등에 의해 촬영된 입력 영상에 Mask R-CNN을 적용하여 객체(예를 들어, 인물)의 ROI 정보 및 mask 정보를 획득할 수 있다(S200 및 S202). 여기서, 상기 Mask R-CNN은 객체 분류에 대한 프레임워크이며, 실시간 처리가 가능하고 높은 성능의 세그멘테이션 정확도를 보여줄 수 있다. 이러한 Mask R-CNN은 하기에서 보여지는 바와 같이 80개의 클래스가 학습되어 있다.

- 학습한 클래스 : 학습한 클래스 : background, person, bicycle, car, motorcycle, airplane, bus, train, truck, boat, traffic light, fire hydrant, stop sign, parking meter, bench, bird, cat, dog, horse, sheep, cow, elephant, bear, zebra, giraffe, backpack, umbrella, handbag, tie, suitcase, frisbee, skis, snowboard, sports ball, kite, baseball bat, baseball glove, skateboard, surfboard, tennis racket, bottle, wine glass, cup, fork, knife, spoon, bowl, banana, apple, sandwich, orange, broccoli, carrot, bot dog, pizza, donut, cake, chair, couch, potted plant, bed, dining table, toilet, tv, laptop, mouse, remote, keyboard, cell phone, microwave, oven, toaster, sink, refrigerator, book, clock, vase, scissors, teddy bear, hair drier, toothbrush

상기 Mask R-CNN을 구체적으로 살펴보면, 도 3에 도시된 바와 같이 입력 영상에 대하여 관심영역(ROI)이 설정되고, 각 관심영역을 정규화한 후 class box와 컨벌루션(convolution)하여 가장 높은 값을 가지는 class를 마스킹할 수 있다.

예를 들어, 도 4에 도시된 바와 같은 결과 영상을 획득할 수 있다.

다른 예로, 상기 Mask R-CNN에서 제공하는 학습 데이터를 이용하여 실제 포토카드 키오스크에서 수집된 데이터를 입력한 결과는 도 5에서 보여진다.

도 4 및 도 5에 도시된 바와 같이, 상기 Mask R-CNN을 상기 입력 영상에 적용함에 의해 학습된 주변의 사물 또는 인물이 검출되는 것을 확인할 수 있다. 인물의 앞 모습뿐만 아니라 뒷 모습도 검출된다.

이러한 Mask R-CNN은 ROI를 먼저 추정한 후 상세 영역을 분할하는데, 도 6에 도시된 바와 같이 ROI가 실제보다 작게 추정될 수 있다. 이 경우, 객체가 정확하게 분리되지 않음을 확인할 수 있다.

따라서, 본 발명의 영상 처리 시스템은 객체를 정확하게 분리시키기 위하여 상기 Mask R-CNN에서 획득된 ROI 정보 및 mask 정보를 이용하여 상세 분리를 수행한다.

일 실시예에 따르면, 상기 영상 처리 시스템은 상세 분리된 mask 영상을 획득하고 이러한 상세 분리된 mask 영상을 이용하여 객체를 정확하게 분리시킬 수 있다.

구체적으로는, 상기 영상 처리 시스템은 전경(foreground)과 배경(background)에 해당하는 각각의 컨투어(contour) 영역에 모폴로지 침식(morphology erosion)을 적용하여 객체의 경계보다 작은 컨투어 정보를 획득할 수 있다(S204). 여기서, ROI 내 존재하는 mask 정보를 전경에 대한 사용자 입력으로 사용하고, mask 이외의 영역을 배경 정보로 활용할 수 있다. 이러한 모폴로지 침식은 객체와 배경 사이의 잡음 등 작은 물체를 제거하기 위하여 사용될 수 있다.

예를 들어, 도 7에 도시된 바와 같이 ROI 내 mask를 기준으로 전경 컨투어를 생성하고 이를 모폴리지 중 침식을 적용하여 실제 객체보다 작게 나타내고, 원본 ROI 영상을 반전시킨 후 다시 침식을 적용하여 배경을 원본 경계보다 작게 나타내도록 할 수 있다.

E를 Euclidean space이나 정수 격자라고 하고, A를 E에 있는 이진 이미지라고 하면, 구조적 요소 B에 대한 이진 이미지 A의 침식은 하기 수학식 1로 표현될 수 있다.

여기서, B_Z는 B를 z에 대해서 평행 이동한 것으로 하기 수학식 2와 같다.

구조적 요소　B가 중심을 가지고(예: 원판이나 정사각형) 중심이　E의 원점에 위치하면,　B에 대한　A의 침식은 B가　A의 내부에서 움직일 때의　B의 중심의 자취로 생각할 수 있다. 예를 들어, 원점을 중심으로 하고 한 변의 길이가 10인 정사각형을 원점을 중심으로 하고 반지름이 2인 원판으로 하는 침식은 원점을 중심으로 하고 한 변이 6인 정사각형이다. B에 대한 A의 침식은 하기 수학식 3으로 표현될 수도 있다.

여기서, A_-b는 A를 -b에 대해서 평행이동시킨 것을 나타낸다.

이어서, 상기 영상 처리 시스템은 도 8에 도시된 바와 같이 획득된 전경 정보 및 배경 정보를 기초로 simple matting(이미지 매팅)을 수행하여 상세 분리된 mask 영상을 획득할 수 있다(S206).

이러한 이미지 matting은 하기 수학식 4로 표현되어질 수 있다.

여기서, 입력 이미지 I는 배경 B 와 전경 F 로 분리될 수 있고, 각 픽셀에 대한 Matting 계수 α는 [0,1] 사이의 값으로 구성된다. 이러한 기본 개념을 바탕으로 Mask R-CNN에서 도출된 검출 결과를 기반으로 한 Matting 기법을 사용하며, matting 기법이 적용된 검출 결과(상세 분리된 mask 영상)는 도 9와 같이 보여질 수 있다. 즉, 본 발명에서는 사용자 입력으로 Mask R-CNN에서 도출된 검출 결과를 사용할 수 있다. 결과적으로, 사용자 입력을 제공하지 않고도 자동으로 이미지 matting이 수행될 수 있다.

계속하여, 상기 영상 처리 시스템은 입력 영상으로부터 촬영 현장의 광원에 대한 색도 정보를 획득하고, 상기 색도 정보를 새로 입혀질 배경 이미지에 적용하여 보정된 배경 이미지를 획득할 수 있다(S208).

일 실시예에 따르면, 상기 색도 정보는 하기 수학식 5를 통하여 추정될 수 있다.

영상 I는 촬영장면의 geometry E, 물체의 반사율 R 및 광원 L로 표현되어질 수 있다.

회색계 가정은 입력 영상의 광원색 추정을 위한 계산적 이미지 모델로서, '인간 시각 시스템에서 일반적으로 획득된 영상의 색도 평균은 항상 회색이다' 라는 가정을 기반으로 한다. 먼저 영상의 색도 추정을 위해 입력 영상의 각 채널(RGB)별 평균 값을 구하며, 하기 수학식 6과 같다.

여기서,

는 각 RGB 채널의 평균값을 나타낸다.

그런 후, 색도 보정을 위한 보정 값은 계산된 평균값에 대해 R 채널과 B 채널에 평균값에 대한 비율을 곱해주며, 하기 수학식 7과 같다.

여기서, IB는 새로운 배경 이미지를 나타내며, IB'는 광원이 보정된 배경 이미지를 나타낸다. 이와 같이 G채널을 기준으로 한 R 채널과 B 채널의 보정을 통해 영상 전반에 걸친 광원의 색도를 보정할 수 있다.

이어서, 상기 영상 처리 시스템은 상기 상세 분리된 mask 영상을 이용하여 상기 입력 영상으로부터 객체를 분리시키고, 상기 분리된 객체를 상기 보정된 배경 이미지와 합성하여 포토 영상을 생성할 수 있다(S210).

정리하면, 본 발명의 영상 처리 시스템은 MASK R-CNN을 입력 영상에 적용하되, ROI 정보 및 mask 정보를 이용하여 상세 분리된 mask 영상을 획득하고, 상기 획득된 mask 영상을 이용하여 입력 영상으로부터 객체를 분리시키며, 입력 영상의 광원의 색도 정보를 추정하고, 상기 추정된 색도 정보를 새로 입혀질 배경 이미지에 반영하여 상기 배경 이미지를 보정하며, 상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성할 수 있다. 결과적으로, 객체가 정확하게 분리되고 입력 영상이 촬영된 환경에서의 광원이 새로운 배경 이미지에 반영되므로, 품질이 향상된 실감형 포토 영상을 생성할 수 있다.

도 10은 본 발명의 일 실시예에 따른 영상 처리 시스템을 개략적으로 도시한 블록도이다. 도 10의 영상 처리 시스템은 하나의 장치(예를 들어, 키오스크, 스마트폰 등)로서 구현될 수도 있고, 구성요소들이 분리된 별개의 장치들일 수도 있다.

도 10을 참조하면, 본 실시예의 영상 처리 시스템은 제어부(1000), 영상 수신부(1002), 분리부(1004), 보정부(1006), 합성부(1008) 및 저장부(1010)를 포함할 수 있다.

영상 수신부(1002)는 외부 장치 또는 내부 소자로부터 입력 영상을 수신한다.

분리부(1004)는 상기 입력 영상으로부터 객체를 정확하게 분리시킬 수 있다. 예를 들어, 분리부(1004)는 입력 영상에 MASK R-CNN을 적용하여 ROI 정보를 획득하고, ROI 정보 내의 mask의 전경 컨투어 및 배경 컨투어에 모폴로지 침식을 적용한 후 이미지 matting을 수행하여 상세 분리된 mask 영상을 획득하며, 상기 mask 영상을 이용하여 상기 입력 영상으로부터 객체를 분리시킬 수 있다.

보정부(1006)는 상기 입력 영상의 광원의 색도 정보를 추정하고 상기 추정된 색도 정보를 새로 입혀질 배경 이미지에 적용하여 상기 배경 이미지를 보정할 수 있다.

합성부(1008)는 상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성할 수 있다.

저장부(1010)는 상기 포토 영상, 프로그램 등을 저장한다.

제어부(1000)는 상기 영상 처리 시스템의 구성요소들의 동작을 전반적으로 제어할 수 있다.

한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

1004 : 분리부 1006 : 보정부
1008 : 합성부

Claims

입력 영상으로부터 관심 영역(ROI) 정보를 획득하고, 상기 획득된 ROI 정보를 이용하여 상세 분리된 mask 영상을 획득하며, 상기 상세 분리된 mask 영상을 이용하여 상기 입력 영상으로부터 객체를 분리시키는 분리부;
상기 입력 영상의 광원의 색도 정보를 추정하고 상기 추정된 색도 정보를 배경 이미지에 적용하여 상기 배경 이미지를 보정하는 보정부; 및
상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성하는 합성부를 포함하되,
상기 배경 이미지는 상기 입력 영상의 배경과 다른 이미지이며, 상기 분리부는 사용자의 입력 없이 상기 ROI 정보를 이용함에 의해 획득된 상기 mask 영상에 기초하여 상기 객체를 자동으로 분리시키는 것을 특징으로 하는 영상 처리 시스템.
제1항에 있어서, 상기 분리부는 상기 입력 영상에 MASK R-CNN을 적용하여 상기 ROI 정보를 획득하고, 상기 획득된 ROI 정보 내의 mask의 전경 컨투어와 배경 컨투어에 모폴로지 침식(morphology erosion)을 적용하여 새로운 컨투어 정보를 획득하며, 상기 획득된 컨투어 정보에 이미지 matting을 적용하여 상기 상세 분리된 mask 영상을 생성하는 것을 특징으로 하는 영상 처리 시스템.
제1항에 있어서, 상기 보정부는 상기 입력 영상의 RGB 채널의 평균값을 계산하고, 상기 평균값을 상기 배경 이미지의 R 채널 및 B 채널에 적용하여 상기 배경 이미지를 보정하는 것을 특징으로 하는 영상 처리 시스템.
matting/segmentation 기술을 입력 영상에 적용하여 객체를 분리시키는 단계;
상기 입력 영상의 광원의 색도 정보를 추정하는 단계;
상기 추정된 색도 정보를 배경 이미지에 적용하여 상기 배경 이미지를 보정하는 단계; 및
상기 분리된 객체와 상기 보정된 배경 이미지를 합성하여 포토 영상을 생성하는 단계를 포함하되,
사용자 입력 없이 상기 입력 영상의 ROI 정보를 이용함에 의해 상기 객체를 상기 입력 영상으로부터 자동으로 분리시키는 것을 특징으로 하는 영상 처리 방법.
제4항에 잇어서, 상기 객체를 분리시키는 단계는,
상기 입력 영상에 MASK R-CNN을 적용하여 상기 ROI 정보를 획득하는 단계;
상기 획득된 ROI 정보 내의 mask의 전경 컨투어와 배경 컨투어에 모폴로지 침식(morphology erosion)을 적용하여 새로운 컨투어 정보를 획득하는 단계;
상기 획득된 컨투어 정보에 이미지 matting을 적용하여 상세 분리된 mask 영상을 생성하는 단계; 및
상기 상세 분리된 mask 영상을 이용하여 상기 입력 영상으로부터 상기 객체를 분리시키는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.