WO2024071813A1

WO2024071813A1 - 객체 영역과 배경 영역을 분류하기 위한 전자 장치 및 전자 장치의 동작 방법

Info

Publication number: WO2024071813A1
Application number: PCT/KR2023/014266
Authority: WO
Inventors: 정순묵
Original assignee: 삼성전자 주식회사
Priority date: 2022-09-27
Filing date: 2023-09-20
Publication date: 2024-04-04
Also published as: KR20240043594A; US20240257498A1

Abstract

본 개시는 적어도 하나의 명령어(instruction)를 저장하는 메모리 및 메모리에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는 카메라를 통하여, 객체 및 객체의 배경을 캡쳐한 입력 영상을 획득하고, 획득한 입력 영상의 제1 부분을 객체에 대응되는 객체 영역으로 분류하고, 입력 영상의 제2 부분을 객체의 배경에 대응되는 배경 영으로 분류하여 제1 분류 맵을 획득하고, 제1 분류 맵을 전처리하여 제1 분류 맵에 포함된 노이즈(Noise) 영역을 제거한 제2 분류 맵을 획득하고, 카메라로부터 객체까지의 거리 정보 및 노이즈 영역을 이용하여, 제1 분류 맵 및 제2 분류 맵에 기초하여 객체에 대응되는 객체 영상을 획득하는 전자 장치 및 전자 장치의 동작 방법을 포함한다.

Description

객체 영역과 배경 영역을 분류하기 위한 전자 장치 및 전자 장치의 동작 방법

본 개시는 영상에 포함된 객체 영역과 배경 영역을 분류하기 위한 전자 장치 및 전자 장치의 동작 방법에 관한 것이다.

컴퓨터 비전 기술의 발전에 따라, 영상 내의 객체 영역과 배경 영역을 분류한 후, 영상 내의 배경 영역을 가상의 그래픽 또는 불투명 처리가 된 화면으로 대체하는 배경 필터 기술이 개발되고 있다.

이러한 배경 필터 기술은 영상 통화, 카메라 촬영 모드 또는 메타버스 환경 등의 가상 환경에서 활용될 수 있다.

일 예로, 배경 필터 기술을 영상 통화 시에 활용하여, 통화 시에 통화 장소인 배경 영역을 다른 배경 영상으로 대체하여 개인의 프라이버시(Privacy) 침해를 방지하거나, 원하는 장소를 배경 영역으로 설정할 수 있다.

그러나, 현재의 배경 필터 기술은 객체와 배경을 충분히 정확하게 구분하지 못한다. 또한, 노이즈를 적절히 제거하지 않으면, 객체와 배경을 구분하기 어렵다.

본 개시의 일 실시예에 따른 전자 장치는 적어도 하나의 명령어(instruction)를 저장하는 메모리 및 상기 메모리에 저장된 상기 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 본 개시의 일 실시예에서, 적어도 하나의 프로세서는 적어도 하나의 명령어를 실행함으로써 카메라를 통하여, 객체 및 객체의 배경을 촬영한 입력 영상을 획득할 수 있다. 적어도 하나의 프로세서는 적어도 하나의 명령어를 실행함으로써 획득한 입력 영상을 객체에 대응되는 객체 영역과 객체의 배경에 대응되는 배경 영역으로 분류하여 제1 분류 맵을 획득할 수 있다. 적어도 하나의 프로세서는 적어도 하나의 명령어를 실행함으로써 제1 분류 맵을 전처리하여, 제1 분류 맵에 포함된 노이즈(Noise) 영역을 제거한 제2 분류 맵을 획득할 수 있다. 적어도 하나의 프로세서는 적어도 하나의 명령어를 실행함으로써 카메라(300)로부터 객체까지의 거리 정보 및 노이즈 영역을 이용하여, 제1 분류 맵 및 제2 분류 맵에 기초하여 객체에 대응되는 객체 영상을 획득할 수 있다.

본 개시의 일 실시예는, 전자 장치의 동작 방법을 제공한다. 본 개시의 일 실시예에서, 전자 장치의 동작 방법은 카메라를 통하여, 객체 및 객체의 배경을 촬영한 입력 영상을 획득하는 단계를 포함할 수 있다. 전자 장치의 동작 방법은 획득한 입력 영상을 객체에 대응되는 객체 영역과 객체의 배경에 대응되는 배경 영역으로 분류하여 제1 분류 맵을 획득하는 단계를 포함할 수 있다. 전자 장치의 동작 방법은 제1 분류 맵을 전처리하여, 제1 분류 맵에 포함된 노이즈(Noise) 영역을 제거한 제2 분류 맵을 획득하는 단계를 포함할 수 있다. 전자 장치의 동작 방법은 카메라로부터 객체까지의 거리 정보 및 노이즈 영역을 이용하여, 제1 분류 맵 및 제2 분류 맵에 기초하여 객체에 대응되는 객체 영상을 획득하는 단계를 포함할 수 있다.

본 개시의 일 실시예로, 개시된 동작 방법의 실시예 중 적어도 하나의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 제공할 수 있다.

본 개시는, 다음의 자세한 설명과 그에 수반되는 도면들의 결합으로 이해될 수 있으며, 참조 번호(reference numerals)들은 구조적 구성요소(structural elements)를 의미한다.

도 1은 본 개시의 일 실시예에 따른 전자 장치를 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시예에 따른 전자 장치를 설명하기 위한 블록도이다.

도 3은 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 순서도이다.

도 4는 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 도면이다.

도 5a는 본 개시의 일 실시예에 따른 제1 분류 맵을 획득하는 동작을 설명하기 위한 도면이다.

도 5b는 본 개시의 일 실시예에 따른 획득된 제1 분류 맵을 설명하기 위한 도면이다.

도 6a는 본 개시의 일 실시예에 따른 제2 분류 맵을 획득하는 동작을 설명하기 위한 도면이다.

도 6b는 본 개시의 일 실시예에 따른 제2 분류 맵을 설명하기 위한 도면이다.

도 7a는 본 개시의 일 실시예에 따른 제1 보정 계수를 획득하는 동작을 설명하기 위한 도면이다.

도 7b는 본 개시의 일 실시예에 따른 제1 보정 계수를 설명하기 위한 도면이다.

도 8a는 본 개시의 일 실시예에 따른 제2 보정 계수 및 제3 보정 계수를 획득하는 동작을 설명하기 위한 도면이다.

도 8b는 본 개시의 일 실시예에 따른 제2 보정 계수 및 제3 보정 계수를 설명하기 위한 도면이다.

도 9는 본 개시의 일 실시예에 따른 최종 분류 맵을 획득하는 동작을 설명하기 위한 도면이다.

도 10은 본 개시의 일 실시예에 따른 전자 장치 및 전자 장치의 동작 방법의 효과를 설명하기 위한 도면이다.

본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.

본 개시에서 사용되는 용어에 대해 간략히 설명하고, 본 개시의 일 실시예에 대해 구체적으로 설명하기로 한다.

본 개시에서 사용되는 용어는 본 개시의 일 실시예에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 본 개시의 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.

본 개시 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 개시에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 시스템"이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

또한, 본 개시에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시의 일 실시예는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시의 일 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 본 개시 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하에서는 도면을 참조하여 본 개시의 실시예들을 상세하게 설명한다.

도 1을 참조하면, 본 개시의 일 실시예로, 전자 장치(100)는 표시 패널(200) 및 카메라(300)를 포함할 수 있다. 일 실시예에서, 카메라(300)는 전자 장치(100) 앞에 위치한 사용자(110) 및 사용자(110)의 배경을 촬영(photograph) 하거나 캡쳐(capture) 할 수 있다. 이하, 설명의 편의를 위하여, 카메라(300)가 촬영하는 사용자(110)를 객체(Object)라고 정의하고, 사용자(110)의 배경을 객체의 배경이라고 정의한다. 전자 장치(100)는 카메라(300)를 통하여 촬영된 객체(110) 및 객체(110)의 배경을 포함하는 입력 영상(1000)을 획득할 수 있다. 일 실시예에서, 도 1에는 객체(110)가 공을 던지고 있는 사람으로 도시되었으나, 본 개시는 이에 제한되지 않는다. 객체(110)는 전자 장치(100)를 사용하고 있는 사용자일 수도 있다. 전자 장치(100)를 사용하는 적어도 하나의 사용자가 존재할 경우, 카메라(300)는 적어도 하나의 사용자 및 적어도 하나의 사용자의 배경을 촬영하거나 캡쳐하여 입력 영상(1000)을 획득할 수도 있다. 또한, 카메라(300)는 전자 장치(100)를 전자 장치(100) 앞에 위치한 물체 및 물체의 배경을 촬영할 수도 있다. 이 경우, 객체는 전자 장치(100) 앞에 배치된 물체일 수 있다. 카메라(300)는 물체의 정지 이미지를 촬영하거나, 비디오를 구성하는 이미지의 시퀀스를 캡처할 수 있다.

다만, 본 개시는 이에 제한되지 않고, 카메라(300)는 전자 장치(100)에 포함되지 않을 수도 있다. 전자 장치(100)는 별도의 전자 장치에 포함된 카메라를 통하여 촬영된, 객체와 객체의 배경을 포함하는 입력 영상(1000)을 제공받을 수도 있다. 이 경우, 전자 장치(100)는 제공 받은 입력 영상(1000)에 기초하여 객체 영상(5000)을 획득할 수도 있다. 일 실시예에서, 전자 장치(100)를 사용하는 사용자(110)와, 카메라(300)를 통하여 획득된 입력 영상(1000)에 포함된 객체는 상이할 수 있다.

이하, 설명의 편의를 위하여, 입력 영상(1000)은 전자 장치(100)에 포함된 카메라(300)를 통하여 촬영되어 획득된 영상으로 설명한다. 다만, 당업자가 이해할 수 있는 바와 같이, 카메라(300)는 전자 장치(100)와 분리될 수도 있다.

일 실시예에서, 전자 장치(100)는 획득한 입력 영상(1000)에 기초하여, 입력 영상(1000)을 객체에 대응되는 객체 영역(2100) 및 객체의 배경에 대응되는 배경 영역(2200)로 분류한 제1 분류 맵(2000)을 획득할 수 있다.

일 실시예에서, 전자 장치(100)는 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈(Noise) 영역(2300)을 제거한 제2 분류 맵(3000)을 획득할 수 있다. 제2 분류 맵(3000)은 제1 분류 맵(2000)과 비교하여 객체 영역(2100) 내에 포함된 노이즈 영역(2300)을 제거하고, 객체 영역(2100)과 배경 영역(2200) 사이의 경계를 평활화(Smoothing) 하여 획득될 수 있다.

일 실시예에서, 전자 장치(100)는 카메라(300)로부터 객체(110)까지의 거리 정보 및 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000)과 제2 분류 맵(3000)에 기초하여 객체(110)에 대응되는 객체 영상(5000)을 획득할 수 있다. 전자 장치(100)는 카메라(300)로부터 객체(110)까지의 거리 정보 및 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000)과 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하고, 획득한 최종 분류 맵(4000)을 입력 영상(1000)에 적용하여 객체 영상(5000)을 획득할 수 있다. 최종 분류 맵(4000)은 제1 분류 맵(2000) 및 제2 분류 맵(3000)과 비교하여, 객체(110)에 대응되는 객체 영역과 객체의 배경에 대응되는 배경 영역을 분류하는 동작의 정확도가 높을 수 있다. 카메라(300)와 객체(110)까지의 거리 정보는 카메라(300) 또는 전자 장치(100)에 의하여 추정될 수 있다. 거리는 객체(110)의 이미지를 캡쳐할 때의 카메라의 렌즈의 줌 세기와 이미지 내에서의 객체(110)의 크기에 기초하여 추정될 수 있다.

일 실시예로, 전자 장치(100)는 카메라(300)를 통하여 기 획득된 객체와 객체의 배경을 포함하는 입력 영상(1000)에 기초하여 최종 분류 맵(4000)을 획득하고, 획득된 최종 분류 맵(4000)을 입력 영상(1000)에 적용하여 획득한 객체 영상(5000)을 표시 패널(200)에 표시하여 전자 장치(100)의 사용자에게 제공할 수 있다. 또한, 일 실시예로, 전자 장치(100)는 획득한 객체 영상(5000)을 객체의 배경 영상이 아닌, 다른 배경 영상(6000, 도 10 참조)와 합성한 합성 영상(7000)을 전자 장치(100)의 사용자에게 제공할 수도 있다.

일 실시예로, 전자 장치(100)는 획득한 최종 분류 맵(4000), 객체 영상(5000) 또는 합성 영상(7000) 중 적어도 하나의 영상을 별개의 전자 장치에 제공할 수도 있다.

이하, 하기의 도면들에서는, 전자 장치(100)가 입력 영상(1000)으로부터 객체 영상(5000)을 획득하기 위하여, 제1 분류 맵(2000), 제2 분류 맵(3000) 및 최종 분류 맵(4000)을 획득하는 것을 설명하도록 한다.

도 2에 도시된 바와 같이, 일 실시예에서, 전자 장치(100)는 표시 패널(200), 카메라(300), 메모리(400), 프로세서(500) 및 통신 인터페이스(600)를 포함할 수 있다. 그러나, 도 2에 도시된 구성 요소가 모두 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(100)가 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 전자 장치(100)는 구현될 수 있다. 표시 패널(200), 카메라(300), 메모리(400), 프로세서(500) 및 통신 인터페이스(600)는 각각 전기적 및/또는 물리적으로 서로 연결될 수 있다. 이하, 도 1에서 설명한 구성과 동일한 구성에 대하여는 동일한 도면 부호를 부여하고, 설명은 생략하도록 한다.

일 실시예에서, 표시 패널(200)은 액정 표시(liquid crystal) 디스플레이, 플라즈마(plasma) 디스플레이, 유기 발광 다이오드(organic light emitting diodes) 디스플레이, 무기 발광 다이오드(inorganic light emitting diodes) 디스플레이 중 어느 하나의 디스플레이를 포함할 수 있다. 다만, 본 개시는 이에 제한되지 않고, 표시 패널(200)은 사용자(110)에게 객체 영상(5000, 도 1 참조)을 제공할 수 있는 다른 종류의 디스플레이를 포함할 수 있다.

일 실시예에서, 카메라(300)는 RGB 카메라, IR(Infrared Ray) 카메라 및 RGB-Depth 카메라를 포함할 수 있다. 다만, 본 개시는 이에 한정되지 않고, 카메라(300)는 사용자(110) 및 사용자(110)의 배경을 촬영할 수 있는 다른 종류의 카메라, 센서 등을 포함할 수 있다. 일 실시예에서, 카메라(300)는 전자 장치(100)와 분리될 수 있으며, 카메라(300)는 동작하지 않을 때에는 전자 장치(100)와 분리되어 있다가, 동작 시에 전자 장치(100)와 연결될 수 있다. 일 실시예로, 카메라(300)는 입력 영상(1000)을 획득하기 위하여 객체(110) 및 객체의 배경을 촬영할 때 전자 장치(100)와 전기적 및/또는 물리적으로 서로 연결될 수 있다. 또한, 일 실시예로, 전자 장치(100)는 카메라(300)를 포함하지 않을 수도 있다. 전자 장치(100)는 카메라(300)를 포함하지 않고, 별도의 전자 장치에 포함된 카메라로부터 촬영된 입력 영상(1000)을 획득할 수도 있다. 일 실시예에서, 전자 장치(100)는 전자 장치(100)로부터 원격에 위치하는 카메라에 의하여 캡쳐된 입력 영상(1000)을 수신할 수도 있다.

일 실시예에서, 메모리(400)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), Mask ROM, Flash ROM 등), 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나를 포함할 수 있다. 메모리(400)에는 전자 장치(100)의 기능 또는 동작들을 수행하기 위한 명령어들 또는 프로그램 코드가 저장될 수 있다. 메모리(400)에 저장되는 명령어들, 알고리즘, 데이터 구조, 프로그램 코드 및 애플리케이션 프로그램은 예를 들어, C,　C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다.

일 실시예에서, 메모리(400)에는 전자 장치(100)를 통하여 획득한 입력 영상(1000, 도 1 참조)에 기초하여 최종 분류 맵(4000, 도 1 참조)를 획득하는데 이용될 수 있는 다양한 종류의 모듈들이 저장될 수 있다. 메모리(400)에는 영상 획득 모듈(410), 확률 계산 모듈(420), 제1 분류 맵 획득 모듈(430), 제2 분류 맵 획득 모듈(440) 및 최종 분류 맵 획득 모듈(450)이 저장될 수 있다. 그러나, 도 2에 도시된 모듈 모두가 필수 모듈인 것은 아니다. 메모리(400)에는 도 2에 도시된 모듈보다 더 많은 모듈들이 저장될 수도 있고, 그보다 적은 모듈들이 저장될 수도 있다. 일 실시예에서, 메모리(400)에는 입력 영상(1000)에 최종 분류 맵(4000)을 적용하여 객체 영상(5000, 도 1 참조)을 획득하는 동작을 수행하기 위한 모듈이 더 저장될 수도 있다. 일 실시예에서, 메모리(400)에는 도 4에서 후술할 경계 검출 모듈(435), 영역 분할 모듈(445), 제1 보정 계수 계산 모듈(470), 제2 보정 계수 계산 모듈(491), 제3 보정 계수 계산 모듈(492)이 더 저장될 수도 있다.

메모리(400)에 포함되는 '모듈'은 적어도 하나의 프로세서(500)에 의해 수행되는 기능이나 동작을 처리하는 단위를 의미할 수 있다. 메모리(400)에 포함되는 '모듈'은 명령어들(instructions), 알고리즘, 데이터 구조, 또는 프로그램 코드와 같은 소프트웨어로 구현될 수 있다.

일 실시예에서, 영상 획득 모듈(410)은 카메라(300)를 통하여 객체 및 객체의 배경을 촬영하여 입력 영상(1000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 다만, 본 개시는 이에 제한되지 않고, 영상 획득 모듈(410)은 별도의 전자 장치로부터 객체 및 객체의 배경을 촬영한 입력 영상을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수도 있다.

일 실시예에서, 획득한 입력 영상(1000)은 복수의 화소 영상들을 포함할 수 있다. 복수의 화소 영상들 각각은 입력 영상(1000)을 구성하는 픽셀(Pixel)에 대응될 수 있다. 픽셀은 입력 영상(1000)을 구성하는 단위 영상일 수 있다. 일 실시예에서, 확률 계산 모듈(420)은 획득한 입력 영상(1000)에 기초하여, 복수의 화소 영상들 각각이 객체 또는 객체의 배경에 대응될 확률을 계산하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 일 실시예에서, 확률 계산 모듈(420)은, 입력 영상(1000)에 포함된 복수의 화소 영상들 각각이 객체에 대응되는 화소 영상일 확률 및 객체의 배경에 대응되는 화소 영상일 확률을 계산하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다.

일 실시예에서, 확률 계산 모듈(420)은 인공 지능(Artificial Intelligence) 모델을 포함할 수 있다. 일 실시예에서, 확률 계산 모듈(340)에 포함된 인공 지능 모델은 입력 영상(1000)에 기초하여, 입력 영상(1000)에 포함된 복수의 화소 영상들 각각이 객체 또는 객체의 배경에 대응되는 화소 영상일 확률을 계산하도록 훈련된(trained) 인공 지능 모델일 수 있다.

일 실시예에서, 확률 계산 모듈(420)에 포함된 인공 지능 모델은 머신 러닝(Machine Learning) 또는 딥 러닝(Deep Learning) 모델을 포함할 수 있다. 일 실시예에서, 확률 계산 모듈(420)에 포함된 인공 지능 모델은 복수의 신경망 레이어들을 포함할 수 있다. 각각의 신경망 레이어는 복수의 가중치(Weight Values)을 가지고 있으며, 이전(previous) 신경망 레이어의 연산 결과와 복수의 가중치의 연산을 통해 현재(present) 신경망 레이어의 연산을 수행할 수 있다. 인공 지능 모델의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), 심층 Q-네트워크 (Deep Q-Networks), GAN(Generative Adversarial Networks), VAE(Variational Auto Encoder) 등이 있으며, 본 개시에서의 확률 계산 모듈(420)에 포함된 인공 지능 모델은 전술한 예에 한정되지 않는다.

일 실시예에서, 확률 계산 모듈(420)에 포함된 인공 지능 모델은, 객체 및 객체 배경으로 레이블링(Labeling)된 훈련 데이터셋(Training Dataset)에 기초하여, 입력 영상(1000)에 포함된 복수의 화소 영상들 각각이 객체 또는 객체의 배경에 대응되는 화소 영상일 확률을 계산하도록 훈련된 인공 지능 모델일 수 있다. 일 실시예에서, 확률 계산 모듈(420)의 가중치는 훈련 데이터셋에 기초하여 업데이트 될 수 있다.

일 실시예에서, 전자 장치(100)는 확률 계산 모듈(420)에 포함된 인공 지능 모델을 훈련시킬 수 있다. 전자 장치(100)는 확률 계산 모듈(420)에 포함된 인공 지능 모델을 훈련시키기 위하여 사전 학습 모델을 이용한 전이 학습(transfer learning)을 할 수도 있다. 다만, 본 개시는 이에 한정되지 않고, 확률 계산 모듈(420)은 통신 인터페이스(600)를 통하여 기 훈련된 인공지능 모델을 외부의 서버 또는 주변의 전자 장치들로부터 수신할 수도 있다.

이하, 설명의 편의를 위하여, 확률 계산 모듈(420)은 입력 영상(1000)에 포함된 복수의 화소 영상들 각각이 객체에 대응되는 화소 영상일 확률을 계산하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성되는 것으로 설명한다. 또한, 계산된 복수의 화소 영상들 각각이 객체에 대응되는 화소 영상일 확률을 객체 화소 확률 값이라고 지칭한다.

일 실시예에서, 확률 계산 모듈(420)은 복수의 화소 영상들의 배치 및 복수의 화소 영상들의 객체 화소 확률 값에 기초하여, 복수의 화소 영상들을 객체에 대응되는 객체 영상(5000)과 객체의 배경에 대응되는 객체 배경 영상으로 분류하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드를 포함할 수 있다.

일 실시예에서, 제1 분류 맵 획득 모듈(430)은 기 설정된 제1 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 인접하여 배치된 영역을 객체에 대응되는 객체 영역(2100)으로 분류하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드를 포함할 수 있다. 제1 분류 맵 획득 모듈(430)은 기 설정된 제1 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 인접하여 배치된 영역을 객체 배경 영상에 대응되는 배경 영역(2200)으로 분류하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드를 포함할 수 있다. 일 실시예에서, 제1 기준 확률 값은 입력 영상(1000)을 객체 영상(5000)과 객체 배경 영상으로 분류하기 위한 기준이 되는 값일 수 있다.

일 실시예로, 제1 분류 맵 획득 모듈(430)을 통하여 객체 영역(2100)으로 분류된 영역 내에는 기 설정된 제2 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 포함된 노이즈(Noise) 영역(2300, 도 1 참조)이 포함될 수 있다. 일 실시예로, 제2 기준 확률 값은 제1 기준 확률 값과 상이한 확률 값일 수 있다. 제2 기준 확률 값은 제1 기준 확률 값보다 큰 값일 수 있다. 노이즈 영역(2300)은 도 5b 및 도 7b에서 후술하도록 한다.

일 실시예에서, 제1 분류 맵 획득 모듈(430)은 제1 분류 맵 획득 모듈(430)을 통하여 계산된, 객체 화소 확률 값을 계조(Gray) 스케일로 변환하여 제1 분류 맵(2000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다.

일 실시예에서, 제1 분류 맵(2000)은 입력 영상(1000)에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값에 255를 곱하여 획득된, 0 내지 255의 사이의 계조를 갖는 영상일 수 있다. 이때, 객체 화소 확률 값이 큰 화소 영상일수록 높은 계조를 갖고, 객체 화소 확률 값이 작은 화소 영상일수록 낮은 계조를 가질 수 있다. 따라서, 제1 분류 맵(2000)에 포함된 객체 영역(2100)은 높은 계조를 갖는 영역이고, 배경 영역(2200)은 낮은 계조를 갖는 영역일 수 있다. 다만, 본 개시는 이에 제한되지 않는다. 제1 분류 맵(2000)은 입력 영상(1000)에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값에 곱해지는 기준 계조에 따라, 0 내지 기준 계조 사이의 계조를 갖는 영상일 수도 있다.

일 실시예에서, 제2 분류 맵 획득 모듈(440)은, 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈(Noise) 영역(2300)을 제거한 제2 분류 맵(3000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 일 실시예에서, 제2 분류 맵 획득 모듈(440)은 모폴로지(Morphology) 연산을 통하여 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거한 제2 분류 맵(3000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 일 실시예에서, 제2 분류 맵 획득 모듈(440)은 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거하기 위하여 침식(Erosion), 팽창(Dilatation), 침식 및 팽창을 통한 열림(Opening), 닫힘(Closing) 및 그레디언트(Gradient) 연산 등을 수행하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 이하, 노이즈 영역(2300)은 도 5a 내지 7b에서 후술하도록 한다.

일 실시예에서, 최종 분류 맵 획득 모듈(450)은 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 일 실시예에서, 최종 분류 맵 획득 모듈(450)은 카메라로부터 객체까지의 거리 정보에 기초하여 계산되는 제1 보정 계수, 노이즈 영역(2300)에 기초하여 계산되는 제2 보정 계수, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 일 실시예에서, 최종 분류 맵 획득 모듈(450)은 제1 보정 계수, 제2 보정 계수, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상이 객체에 대응될 확률 값에 기초하여 계산되는 제3 보정 계수, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 이하, 제1 내지 제3 보정 계수는 도 7a 내지 도 8b에 대한 설명에서 후술하도록 한다.

프로세서(500)는 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), 애플리케이션 프로세서(Application Processor, AP), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays) 및 뉴럴 프로세서(Neural Processing Unit) 또는 인공지능 모델(Artificial Intelligence, AI)의 학습 및 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서 중 적어도 하나로 구성될 수 있으나, 이에 제한되는 것은 아니다.

일 실시예에서, 프로세서(500)는 메모리(400)에 저장된 다양한 종류의 모듈들을 실행할 수 있다. 일 실시예에서, 프로세서(500)는 메모리(400)에 저장된 영상 획득 모듈(410), 확률 계산 모듈(420), 제1 분류 맵 획득 모듈(430), 제2 분류 맵 획득 모듈(440) 및 최종 분류 맵 획득 모듈(450)을 실행할 수 있다. 일 실시예에서, 프로세서(500)는 메모리(400)에 저장된 다양한 종류의 모듈들을 구성하는 적어도 하나의 명령어를 실행할 수 있다.

일 실시예에서, 통신 인터페이스(600)는 프로세서(500)의 제어에 의해 외부의 서버(미도시)와 데이터 통신을 수행할 수 있다. 또한, 통신 인터페이스(600)는 외부의 서버뿐 아니라, 다른 주변 전자 장치들(미도시)과도 데이터 통신을 수행할 수 있다. 통신 인터페이스(600)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(zigbee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Allicance, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여 서버 또는 다른 주변 전자 장치들과 데이터 통신을 수행할 수 있다.

일 실시예에서, 통신 인터페이스(600)는 입력 영상(1000)에 포함된 복수의 화소 영상들 각각이 객체에 대응되는 화소 영상일 확률을 계산하기 위하여 기 학습된 확률 계산 모듈(420)을 외부의 서버 또는 주변의 전자 장치들로부터 수신할 수도 있다.

도 3은 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 순서도이다. 도 4는 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 도면이다.

도 1, 도 3 및 도 4를 참조하면, 일 실시예에서, 전자 장치(100)의 동작 방법은 카메라(300)로부터 기준 거리만큼 이격된 객체 및 객체의 배경을 촬영한 입력 영상(1000, 도 1 참조)을 획득하는 단계(S100)를 포함한다. 일 실시예에서, 기준 거리는 카메라(300)와 객체 사이의 거리를 의미한다. 적어도 하나의 프로세서(500, 도 2 참조)는 영상 획득 모듈(410)을 실행하여 카메라(300)를 통하여 입력 영상(1000)을 획득할 수 있다.

일 실시예에서, 전자 장치(100)의 동작 방법은 획득한 입력 영상(1000)에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값을 계산하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 확률 계산 모듈(420)을 실행하여 획득한 입력 영상(1000)에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값을 계산할 수 있다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 입력 영상(1000)의 제1 부분을 객체에 대응되는 객체 영역(2100)으로 분류하고, 입력 영상(1000)의 제2 부분을 객체의 배경에 대응되는 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득하는 단계(S200)를 포함할 수 있다.

일 실시예에서, 제1 분류 맵(2000)을 획득하는 단계(S200)는 복수의 화소 영상들의 배치 및 복수의 화소 영상들 각각의 객체 화소 확률 값을 기 설정된 제1 기준 확률 값과 비교하여 복수의 화소 영상들을 객체 영역(2100)과 배경 영역(2200)으로 분류하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 제1 분류 맵 획득 모듈(430)을 실행하여, 기 설정된 제1 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 인접하여 배치된 영역을 객체 영역(2100)으로 분류할 수 있다. 적어도 하나의 프로세서(500)는 확률 계산 모듈(420)을 실행하여, 기 설정된 제1 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 인접하여 배치된 영역을 배경 영역(2200)에 대응된다고 분류할 수 있다.

일 실시예에서, 제1 분류 맵(2000)을 획득하는 단계(S200)는 복수의 화소 영상들의 객체 화소 확률 값을 계조 스케일로 변환하여 제1 분류 맵(2000)을 획득하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 제1 분류 맵 획득 모듈(430)을 실행하여, 복수의 화소 영상들의 객체 화소 확률 값에 255를 곱하여, 0 내지 255 사이의 계조를 갖는 제1 분류 맵(2000)을 획득할 수 있다. 이하, 입력 영상(1000)에 기초하여 제1 분류 맵(2000)을 획득하는 동작은, 도 5a 및 도 5b에서 후술하도록 한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 획득한 제1 분류 맵(2000)에 포함된 객체 영역(2100)과 배경 영역(2200) 사이의 경계를 검출하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 경계 검출 모듈(435)을 실행하여, 제1 분류 맵(2000)에 포함된 계조를 이진화(Binarization)하여, 객체 영역(2100)과 배경 영역(2200) 간의 경계를 검출할 수 있다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거한 제2 분류 맵(3000)을 획득하는 단계(S300)를 포함할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 제2 분류 맵 획득 모듈(440)을 실행하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 모폴로지(Morphology) 연산을 통하여 제거한 제2 분류 맵(3000)을 획득할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 제2 분류 맵 획득 모듈(440)을 실행하여 침식(Erosion), 팽창(Dilatation), 침식 및 팽창을 통한 열림(Opening), 닫힘(Closing) 및 그레디언트(Gradient) 연산 등을 통하여 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거할 수 있다. 또한, 적어도 하나의 프로세서(500)는 제2 분류 맵 획득 모듈(440)을 실행하여 제1 분류 맵(2000)에 포함된 객체 영역(2100)과 배경 영역(2200) 간의 경계를 평활화 할 수 있다. 이하, 제1 분류 맵(2000)을 전처리하여 제2 분류 맵(3000)을 획득하는 동작은, 도 6a 및 도 6b에서 후술하도록 한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 카메라(300)와 객체 사이의 거리 정보에 기초하여 계산되는 제1 보정 계수를 획득하는 단계를 포함할 수 있다. 일 실시예에서, 제1 보정 계수를 획득하는 단계에서는, 제2 분류 맵(3000)에 기초하여 카메라(300)와 객체 사이의 기준 거리를 검출하고, 검출된 기준 거리에 기초하여 제1 보정 계수를 계산할 수 있다. 적어도 하나의 프로세서(500)는 1 보정 계수 계산 모듈(470)을 실행하여, 제2 분류 맵(3000)에 기초하여 카메라(300)와 객체 사이의 기준 거리를 검출하고, 검출된 기준 거리의 정보에 기초하여 계산된 제1 보정 계수를 획득할 수 있다.

일 실시예에서, 제1 보정 계수를 획득하는 단계는, 제2 분류 맵(3000)에 기초하여 카메라(300)와 객체 사이의 거리를 검출하는 단계 및 검출된 기준 거리에 기초하여 제1 보정 계수를 계산하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 거리 검출 모듈(460)을 실행하여, 제2 분류 맵(3000)에 기초하여 카메라(300)와 객체 사이의 기준 거리를 검출할 수 있다. 적어도 하나의 프로세서(500)는 제1 보정 계수 계산 모듈(470)을 실행하여, 검출된 기준 거리 정보에 기초하여 계산된 제1 보정 계수를 획득할 수 있다. 이하, 제1 보정 계수를 획득하는 동작에 대하여는 도 7a 및 도 7b에서 후술하도록 한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 검출된 경계에 기초하여, 분류된 객체 영역(2100)과 배경 영역(2200)을 분할하고, 분할된 객체 영역(2100)과 배경 영역(2200)의 위치 및 크기를 계산하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 영역 분할 모듈(445)을 실행하여, 검출된 경계에 기초하여 입력 영상(1000)에 포함된 객체 영역(2100)과 배경 영역(2200)을 분할하고, 분할된 객체 영역(2100)과 배경 영역(2200)의 위치 및 크기를 계산할 수 있다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 검출하는 단계를 포함할 수 있다. 적어도 하나의 프로세서(500)는 노이즈 영역 검출 모듈(480)을 실행하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 검출할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 분할된 객체 영역(2100)에 포함된 적어도 하나의 화소 영상 중 제2 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 화소 영상이 포함된 영역을 노이즈 영역(2300)으로 검출할 수 있다. 일 실시예에서, 제2 기준 확률 값은 제1 기준 확률 값보다 큰 확률 값일 수 있다. 일 실시예로, 노이즈 영역(2300)은 제1 기준 확률 값에 기초하여 객체에 대응되는 영역이라고 판단된 객체 영역(2100) 내에 포함된다고 분류되었지만, 객체에 대응되는 화소 영상인지, 객체의 배경에 대응되는 화소 영상인지 불분명한 적어도 하나의 화소 영상이 포함된 영역일 수 있다.

다만, 본 개시는 이에 제한되지 않고, 노이즈 영역(2300)은 제1 기준 확률 값에 기초하여 객체의 배경에 대응되는 영역이라고 판단된 배경 영역(2200) 내에 포함될 수도 있다. 노이즈 영역(2300)은 제1 기준 확률 값보다 작지만, 제3 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖는 화소 영상이 포함된 영역일 수 있다. 일 실시예에서, 제3 기준 확률 값은 제1 기준 확률 값보다 작은 확률 값일 수 있다. 일 실시예로, 노이즈 영역(2300)은 제1 기준 확률 값에 기초하여 객체의 배경에 대응되는 영역이라고 판단된 배경 영역(2200) 내에 포함된다고 분류되었지만, 객체에 대응되는 화소 영상인지, 객체의 배경에 대응되는 화소 영상인지 불분명한 적어도 하나의 화소 영상이 포함된 영역일 수 있다.

이하, 설명의 편의를 위하여, 노이즈 영역(2300)은 객체 영역(2100) 내에 포함된 영역으로 설명한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)에 기초하여 계산되는 제2 보정 계수를 획득하는 단계를 포함할 수 있다. 일 실시예에서, 제2 보정 계수를 획득하는 단계에서는, 검출된 노이즈 영역(2300)에 기초하여 계산된 제2 보정 계수를 획득할 수 있다. 적어도 하나의 프로세서(500)는 제2 보정 계수 계산 모듈(491)을 실행하여, 검출된 노이즈 영역(2300)에 기초하여 제2 보정 계수를 계산하여 획득할 수 있다. 이하, 제2 보정 계수를 획득하는 동작에 대하여는 도 8a 및 도 8b에서 후술하도록 한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)에 기초하여 계산되는 제3 보정 계수를 획득하는 단계를 포함할 수 있다. 일 실시예에서, 제3 보정 계수를 획득하는 단계에서는, 검출된 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률에 기초하여 계산된 제3 보정 계수를 획득할 수 있다. 적어도 하나의 프로세서(500)는 제3 보정 계수 계산 모듈(492)을 실행하여, 검출된 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률에 기초하여 제3 보정 계수를 계산하여 획득할 수 있다. 이하, 제2 보정 계수를 획득하는 동작에 대하여는 도 8a 및 도 8b에서 후술하도록 한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 제1 보정 계수, 제2 보정 계수, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하는 단계(S400)를 포함할 수 있다. 일 실시예에서, 최종 분류 맵(4000)을 획득하는 단계(S400)에서, 최종 분류 맵(4000)은 제1 보정 계수, 제2 보정 계수, 제3 보정 계수, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 획득될 수 있다. 이하, 최종 분류 맵(4000)을 획득하는 동작에 대해서는 도 9에서 후술하도록 한다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 입력 영상(1000)에 최종 분류 맵(4000)을 적용하여, 객체(110)에 대응되는 객체 영상(5000)을 획득하는 단계(S500)를 포함할 수 있다. 일 실시예에서, 객체 영상(5000)을 획득하는 단계(S500)에서는, 카메라(300)로부터 객체까지의 거리 정보 및 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 객체에 대응되는 객체 영상(5000)을 획득할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 입력 영상(1000)에 최종 분류 맵(4000)을 적용하여 객체에 대응되는 객체 영상(5000)을 획득할 수 있다.

도 5a는 본 개시의 일 실시예에 따른 제1 분류 맵을 획득하는 동작을 설명하기 위한 도면이다. 도 5b는 본 개시의 일 실시예에 따른 획득된 제1 분류 맵을 설명하기 위한 도면이다.

도 4 및 도 5a를 참조하면, 입력 영상(1000)은 공을 던지는 사람 및 공을 던지는 사람의 배경을 촬영하여 획득된 영상일 수 있다. 적어도 하나의 프로세서(500)는 영상 획득 모듈(410)을 실행하여 공을 던지는 사람을 객체로서 포함하고, 공을 던지는 사람의 배경을 객체의 배경으로서 포함하는 입력 영상(1000)을 획득할 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 확률 계산 모듈(420)을 실행하여, 공을 던지는 사람에 대응되는 영상에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값과, 공을 던지는 사람의 배경에 대응되는 영상에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값을 계산할 수 있다. 따라서, 각 화소 영상들은 계산된 객체 화소 확률 값에 따라 객체 또는 배경 중 하나로 분류될 수 있다. 일 실시예로, 확률 계산 모듈(420)은 사람 및 사람의 배경으로 레이블링된 훈련 데이터셋에 기초하여 기 훈련된 인공 지능 모델을 포함할 수 있다. 일 실시예에서, 공을 던지는 사람에 대응되는 영상에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값은 공을 던지는 사람의 배경에 대응되는 영상에 포함된 복수의 화소 영상들 각각의 객체 화소 확률 값보다 클 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제1 분류 맵 획득 모듈(430)을 실행하여, 입력 영상(1000)을 기 설정된 제1 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상 및 제1 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상으로 분류할 수 있다. 일 실시예로, 제1 기준 확률 값은 사람 및 사람의 배경을 분류하도록 기 훈련된 확률 계산 모듈(420)의 가중치에 따라, 사람과 사람의 배경을 분류하는 기준이 될 수 있다고 판단되는 확률 값으로 설정될 수 있다.

적어도 하나의 프로세서(500)는 제1 분류 맵 획득 모듈(430)을 실행하여, 입력 영상(1000) 중 제1 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 인접하여 배치된 영역을 객체 영역(2100)으로 분류할 수 있다. 일 실시예에서, 공을 던지는 사람에 대응되는 복수의 화소 영상들이 제1 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖고, 서로 인접하여 배치되어 있기 때문에, 적어도 하나의 프로세서(500)는 공을 던지는 사람에 대응되는 영역을 객체 영역(2100)으로 분류할 수 있다.

적어도 하나의 프로세서(500)는 제1 분류 맵 획득 모듈(430)을 실행하여, 입력 영상(1000) 중 제1 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상이 인접하여 배치된 영역을 배경 영역(2200)으로 분류할 수 있다. 일 실시예에서, 공을 던지는 사람의 배경에 대응되는 복수의 화소 영상들이 제1 기준 확률 값보다 작은 객체 화소 확률 값을 갖고, 서로 인접하여 배치되어 있기 때문에, 적어도 하나의 프로세서(500)는 공을 던지는 사람의 배경에 대응되는 영역을 배경 영역(2200)으로 분류할 수 있다.

일 실시예에서, 객체 영역(2100)으로 분류된 영역 내에, 기 설정된 제2 기준 확률 값보다 작은 객체 확률 값을 갖는 적어도 하나의 화소 영상이 포함될 수 있다. 일 실시예에서, 제2 기준 확률 값과 같거나 큰 객체 확률 값을 갖는 적어도 하나의 화소 영상은 제1 분류 맵 획득 모듈(430)을 실행하여 입력 영상(1000)을 객체 영역(2100)과 배경 영역(2200)으로 분류하는 적어도 하나의 프로세서(500)에서 발생할 수 있는 오차 범위를 넘어, 공을 던지는 사람에 대응되는 화소 영상임을 확실히 할 수 있는 영상일 수 있다. 제2 기준 확률 값보다 작은 객체 확률 값을 갖는 적어도 하나의 화소 영상은, 객체 영역(2100)으로 분류되었으나, 공을 던지는 사람의 배경에 대응되는 화소 영상일 수 있는 가능성이 있는 영상일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제1 분류 맵 획득 모듈(430)을 실행하여, 입력 영상(1000)에 포함된 복수의 화소 영상들의 객체 화소 확률 값에 255를 곱하여 0 내지 255 사이의 계조를 갖는 제1 분류 맵(2000)을 획득할 수 있다. 제1 분류 맵(2000)은 255가 곱해진 객체 영역(2100) 및 255가 곱해진 배경 영역(2200)을 포함할 수 있다.

도 5b를 참조하면, 일 실시예로, 객체 영역(2100)에 포함된 복수의 화소 영상들의 객체 화소 확률 값이 배경 영역(2200)에 포함된 복수의 화소 영상들의 객체 화소 확률 값보다 크기 때문에, 제1 분류 맵(2000)에 포함된 객체 영역(2100)은 배경 영역(2200)보다 높은 계조를 가질 수 있다. 따라서, 제1 분류 맵(2000)에 포함된 객체 영역(2100)은 배경 영역(2200)보다 밝은 영역으로 표시될 수 있다.

일 실시예에서, 제1 분류 맵(2000)은 객체 영역(2100)에 포함된 노이즈 영역(2300)을 포함할 수 있다. 객체 영역(2100) 중 노이즈 영역(2300)을 제외한 나머지 영역에 포함된 적어도 하나의 화소 영상은 제2 기준 확률 값보다 큰 객체 화소 값을 갖는 것으로 설명한다.

일 실시예에서, 노이즈 영역(2300)은 객체 영역(2100) 내에 위치한 제1 노이즈 영역(2310) 및 객체 영역(2100)과 배경 영역(2200)의 경계에 위치한 제2 노이즈 영역(2320)을 포함할 수 있다. 일 실시예에서, 제1 노이즈 영역(2310)은 객체 영역(2100) 내에 위치하지만, 제2 기준 확률 값보다 작은 객체 확률 값을 갖는 적어도 하나의 화소 영상을 포함하여, 인접한 객체 영역(2100)보다 낮은 계조를 가질 수 있다. 일 실시예에서, 제2 노이즈 영역(2320)은 제2 기준 확률 값보다 작은 객체 확률 값을 갖는 적어도 하나의 화소 영상을 포함하여, 인접한 객체 영역(2100)보다는 낮은 계조를 갖고, 인접한 배경 영역(2200)보다는 높은 계조를 가질 수 있다.

도 6a는 본 개시의 일 실시예에 따른 제2 분류 맵을 획득하는 동작을 설명하기 위한 도면이다. 도 6b는 본 개시의 일 실시예에 따른 제2 분류 맵을 설명하기 위한 도면이다.

도 1, 도 4 및 도 6a를 참조하면, 일 실시예에서, 적어도 하나의 프로세서(500)는 경계 검출 모듈(435)을 실행하여, 제1 분류 맵(2000)에 포함된 공을 던지는 사람에 대응되는 객체 영역(2100)과 공을 던지는 사람의 배경에 대응되는 배경 영역(2200) 간의 경계를 검출할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 제1 분류 맵(2000)의 계조를 이진화하여, 객체 영역(2100)과 배경 영역(2200)이 명확히 구분될 수 있도록 경계를 검출할 수 있다. 이진화 프로세스에는 화소를 "1" 또는 "0"으로 분류하는 것을 포함할 수 있다. 여기서, "1"은 객체를 나타내고 "0"은 배경을 나타낼 수 있다. 값이 "0"인 화소가 값이 "1"인 화소에 인접할 경우 경계가 검출될 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제2 분류 맵 획득 모듈(440)을 실행하여 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거한 제2 분류 맵(3000)을 획득할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 제2 분류 맵 획득 모듈(440)을 실행하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300, 도 5b 참조)을 모폴로지 연산을 통하여 제거한 제2 분류 맵(3000)을 획득할 수 있다. 또한, 적어도 하나의 프로세서(500)는 제2 분류 맵 획득 모듈(440)을 실행하여, 제1 분류 맵(2000)에 포함된 객체 영역(2100)과 배경 영역(2200) 간의 경계를 평활화하여, 제2 분류 맵(3000)을 획득할 수 있다.

도 5b 및 도 6b를 참조하면, 제2 분류 맵(3000)은 전처리된 객체 영역(3100) 및 전처리된 배경 영역(3200)을 포함할 수 있다. 일 실시예에서, 전처리된 객체 영역(3100)은 제1 분류 맵(2000)의 객체 영역(2100)을 침식(Erosion), 팽창(Dilatation), 침식 및 팽창을 통한 열림(Opening) 및 닫힘(Closing) 등을 하는 연산을 통하여 획득될 수 있다. 상기한 연산을 통하여, 제1 분류 맵(2000)의 객체 영역(2100) 내에 포함된 노이즈 영역(2300, 도 5b 참조) 제거할 수 있다.

도 5b 및 도 6b를 참조하면, 전처리된 객체 영역(3100) 중 제1 분류 맵(2000)의 노이즈 영역(2300)에 대응되는 전처리된 영역(3300)의 계조는 인접한 전처리된 객체 영역(3100)의 계조와 동일할 수 있다. 일 실시예에서, 제1 노이즈 영역(2310)에 대응되는 전처리된 영역(3310)은 인접한 전처리된 객체 영역(3100)의 계조와 동일할 수 있다. 제2 노이즈 영역(2320)에 대응되는 전처리된 영역(3320)은 인접한 전처리된 객체 영역(3100)의 계조와 동일하고, 인접한 전처리된 배경 영역(3200)보다 높은 계조를 가질 수 있다.

일 실시예에서, 제1 분류 맵(2000)의 객체 영역(2100)과 달리 전처리된 객체 영역(3100)의 내부에 노이즈 영역(2300)이 포함되지 않으므로, 제2 분류 맵(3000)에 포함된 전처리된 객체 영역(3100)에 포함된 적어도 하나의 화소 영상은 모두 공을 던지는 사람인 객체에 대응되는 화소 영상으로 인식될 수 있다.

도 5b 및 도 6b를 참조하면, 제2 분류 맵(3000)은 제1 분류 맵(2000)에 포함된 경계에 포함된 노이즈를 제거하여 획득될 수 있다. 일 실시예로, 제2 분류 맵(3000)은 제1 분류 맵(2000)에 포함된 제2 노이즈 영역(2320)을 제거하여 획득될 수 있다. 따라서, 제2 분류 맵(3000)에 포함된 공을 던지는 사람에 대응되는 전처리된 객체 영역(3100)과 공을 던지는 사람의 배경에 대응되는 전처리된 배경 영역(3200) 간의 경계는, 제1 분류 맵(2000)에 포함된 공을 던지는 사람에 대응되는 객체 영역(2100)과 공을 던지는 사람의 배경에 대응되는 배경 영역(2200) 간의 경계보다 부드럽게 표현될 수 있다.

도 7a는 본 개시의 일 실시예에 따른 제1 보정 계수를 획득하는 동작을 설명하기 위한 도면이다. 도 7b는 본 개시의 일 실시예에 따른 제1 보정 계수를 설명하기 위한 도면이다.

도 4, 도 6b 및 도 7a를 참조하면, 일 실시예에서, 적어도 하나의 프로세서(500)는 거리 검출 모듈(460)을 실행함으로써, 제2 분류 맵(3000)에 기초하여 입력 영상(1000, 도 5a)을 촬영한 카메라(300, 도 1 참조)와 객체인 공을 던지는 사람 간의 거리인 기준 거리를 검출할 수 있다.

일 실시예에서, 메모리(400, 도 2 참조)는 크기 기반 모듈(461), 관절 기반 모듈(462) 및 깊이 기반 모듈(463)이 더 저장될 수 있다. 적어도 하나의 프로세서(500)는 크기 기반 모듈(461), 관절 기반 모듈(462) 및 깊이 기반 모듈(463) 중 적어도 어느 하나의 모듈을 실행함으로써, 제2 분류 맵(3000)에 기초하여 카메라(300)와 객체 간의 기준 거리를 검출할 수 있다. 그러나, 도 7a에 도시된 모듈 모두가 필수 모듈인 것은 아니다. 메모리(400)에는 도 7a에 도시된 모듈보다 더 많은 모듈들이 저장될 수도 있고, 그보다 적은 모듈들이 저장될 수도 있다. 일 실시예에서, 메모리(400)에는 제2 분류 맵(3000)에 기초하여 카메라(300)와 객체 간의 기준 거리를 검출할 수 있는 또 다른 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성된 모듈을 더 포함할 수도 있다.

도 7a 및 도 7b를 참조하면, 카메라(300)와 객체(110)간의 거리에 따라, 제2 분류 맵(3000_1, 3000_2)에 포함된 객체 영역(3100_1, 3100_2)의 크기가 달라질 수 있다. 일 실시예에서, 카메라(300)를 통하여 획득하는 입력 영상(1000, 도 5a)에 포함된 객체 영역의 크기는 카메라(300)와 객체(110) 간의 거리에 반비례 할 수 있다.

일 실시예로, 카메라(300)와 객체(110) 간의 거리가 제1 기준 거리(501)일 때의 제2 분류 맵(3000_1)을 제1 서브 분류 맵(3000_1)이라 정의하고, 카메라(300)와 객체(110) 간의 거리가 제2 기준 거리(502)일 때의 제2 분류 맵(3000_2)을 제2 서브 분류 맵(3000_2)이라 정의할 수 있다. 이때, 제1 기준 거리(501)는 제2 기준 거리(502)보다 짧은 거리일 수 있다.

일 실시예에서, 제1 서브 분류 맵(3000_1)에 포함된 객체 영역(3100_1)을 제1 서브 객체 영역(3100_1)이라 정의하고, 제1 서브 분류 맵(3000_1)에 포함된 배경 영역(3200_1)을 제1 서브 배경 영역(3200_1)이라 정의할 수 있다. 일 실시예에서, 제2 서브 분류 맵(3000_2)에 포함된 객체 영역(3100_2)을 제2 서브 객체 영역(3100_2)이라 정의하고, 제2 서브 분류 맵(3000_2)에 포함된 배경 영역(3200_2)을 제2 서브 배경 영역(3200_2)이라 정의할 수 있다.

일 실시예에서, 제1 서브 객체 영역(3100_1)의 크기는 제2 서브 객체 영역(3100_2)의 크기보다 클 수 있다. 제1 서브 객체 영역(3100_1) 중 공을 던지는 사람의 특정 영역(예를 들어, 사람의 머리 또는 사람의 손 등)의 크기는, 제2 서브 객체 영역(3100_2) 중 제1 서브 객체 영역(3100_1)에 포함된 공을 던지는 사람의 특정 영역에 대응되는 영역의 크기보다 클 수 있다.

일 실시예에서, 크기 기반 모듈(461)은 제1 기준 거리(501)와 제2 기준 거리(502)의 차이에 따른, 제1 서브 분류 맵(3000_1)에 포함된 제1 서브 객체 영역(3100_1)의 크기와 제2 서브 분류 맵(3000_2)에 포함된 제2 서브 객체 영역(3100_2)의 크기의 차이에 기초하여, 카메라(300)와 객체 간의 기준 거리를 검출할 수 있는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다.

일 실시예에서, 관절 기반 모듈(462)은 사람 형상의 이미지에서, 키네틱 체인(Kinetic Chain) 분석을 통하여 사람의 관절(Joint)에 대응되는 포인트를 획득하고, 획득한 포인트에 기초하여 카메라(300)와 객체 간의 기준 거리를 검출할 수 있는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다. 일 실시예이서, 관절 기반 모듈(462)은 제1 기준 거리(501)와 제2 기준 거리(502)의 차이에 따른, 제1 서브 객체 영역(3100_1)에 포함된 적어도 하나의 포인트의 개수 또는 위치와 제2 서브 객체 영역(3100_2)에 포함된 적어도 하나의 포인트의 개수 또는 위치 차이에 기초하여, 카메라(300)와 객체 간의 기준 거리를 검출할 수 있는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다.

일 실시예에서, 카메라(300)가 RGB-Depth 카메라를 포함할 때, 적어도 하나의 프로세서(500, 도 2 참조)는 입력 영상(1000) 및 입력 영상(1000)에 대응되는 깊이 맵(Depth Map)을 획득할 수 있다. 일 실시예에서, 깊이 맵은 기준이 되는 시점에서 물체의 표면까지의 깊이 값의 정보를 포함하는 영상을 의미한다. 일 실시예에서, 기준이 되는 시점을 카메라(300)의 위치라고 할 때, 깊이 맵은 카메라(300)로부터 촬영된 객체 및 객체의 배경의 깊이 정보를 포함할 수 있다. 일 실시예에서, 깊이 기반 모듈(463)은 획득한 깊이 맵에 기초하여 카메라(300)와 객체 간의 기준 거리를 검출할 수 있는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제1 보정 계수 계산 모듈(470)을 실행하여, 검출된 기준 거리에 기초하여 계산된 제1 보정 계수(

)를 획득할 수 있다. 일 실시예에서, 검출된 기준 거리의 길이가 길어질수록, 제1 보정 계수(

)의 크기는 커질 수 있다.

일 실시예에서, 검출된 기준 거리에 기초하여 계산된 제1 보정 계수(

)는 제1 서브 보정 계수 및 제2 서브 보정 계수를 포함한다. 적어도 하나의 프로세서(500)는 제1 보정 계수(

)에 기초하여 제1 서브 보정 계수(

) 및 제2 서브 보정 계수(

)를 계산할 수 있다. 일 실시예에서, 제2 서브 보정 계수(

)는 제1 보정 계수(

)와 동일할 수 있다. 일 실시예에서, 기준 거리의 길이가 길어질수록, 제1 서브 보정 계수(

)의 크기는 작아질 수 있다. 기준 거리의 길이가 길어질수록, 제2 서브 보정 계수(

)의 크기는 커질 수 있다. 일 실시예에서, 제1 서브 보정 계수(

)와 제2 서브 보정 계수(

)의 합은 1일 수 있다.

도 8a는 본 개시의 일 실시예에 따른 제2 보정 계수 및 제3 보정 계수를 획득하는 동작을 설명하기 위한 도면이다. 도 8b는 본 개시의 일 실시예에 따른 제2 보정 계수 및 제3 보정 계수를 설명하기 위한 도면이다.

도 4, 도 8a 및 도 8b를 참조하면, 일 실시예에서, 적어도 하나의 프로세서(500)는 노이즈 영역 검출 모듈(480)을 실행함으로써, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 검출할 수 있다. 일 실시예에서, 제1 분류 맵(2000)은 공을 던지는 사람에 대응되는 객체 영역(2100) 및 공을 던지는 사람의 배경에 대응되는 배경 영역(2200)을 포함한다. 이때, 객체 영역(2100)은 기 설정된 제1 기준 확률 값과 같거나 큰 객체 화소 확률 값을 갖는 복수의 화소 영상들이 포함된 영역으로 분류된 영역이다.

적어도 하나의 프로세서(500)는 노이즈 영역 검출 모듈(480)을 실행하여, 객체 영역(2100) 중 기 설정된 제2 기준 확률 값보다 작은 객체 화소 확률 값을 갖는 적어도 하나의 화소 영상을 검출하고, 검출된 적어도 하나의 화소 영상이 포함된 영역을 노이즈 영역(2300)으로 검출한다.

일 실시예에서, 노이즈 영역(2300)은 공을 던지는 사람에 대응되는 객체 영역(2100)에 포함된다고 분류되었지만, 노이즈 영역 검출 모듈(480)을 실행하여 객체 영역(2100)과 배경 영역(2200)을 분류하는 적어도 하나의 프로세서(500)의 검출 성능의 한계로 인하여 객체에 대응되는 화소 영상인지, 객체의 배경에 대응되는 화소 영상인지 불분명한 화소 영상이 포함된 영역일 수 있다.

또한, 일 실시예에서, 노이즈 영역(2300)은 적어도 하나의 프로세서(500)에 의하여 공을 던지는 사람에 대응되는 객체 영역(2100)에 포함된다고 분류되었지만, 카메라(300)와 객체 간의 거리가 제1 기준 거리보다 멀어, 카메라(300)를 통하여 획득하는 입력 영상(1000)의 해상도(Resolution)가 낮아 객체에 대응되는 화소 영상인지, 객체의 배경에 대응되는 화소 영상인지 불분명한 화소 영상이 포함된 영역일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 노이즈 영역 검출 모듈(480)을 실행하여, 객체 영역(2100)에 포함된 노이즈 영역(2300)을 검출할 수 있다. 도 8b에는 공을 던지는 사람에 대응되는 객체 영역(2100) 중 사람의 손에 대응되는 영역, 사람의 발에 대응되는 영역, 사람의 팔과 허리 사이에 대응되는 영역, 사람의 무릎에 대응되는 영역이 노이즈 영역(2300)으로 검출된 것이 도시되어 있다. 일 실시예에서, 노이즈 영역(2300)은 객체 중 움직임이 큰 부분에 대응되는 영역일 수 있다. 다만, 본 개시는 이에 제한되지 않고, 객체의 종류, 객체의 움직임 등에 따라서 노이즈 영역(2300)의 개수, 위치, 크기 등은 변경될 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제2 보정 계수 계산 모듈(491)을 실행하여, 검출된 노이즈 영역(2300)에 기초하여 계산된 제2 보정 계수(

)를 획득할 수 있다. 일 실시예에서, 제1 보정 맵(2000)에 포함된 객체 영역(2100) 대비 노이즈 영역(2300)의 비율이 커질수록 제2 보정 계수(

)의 크기는 커질 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제1 분류 맵(2000)에 포함된 객체 영역(2100) 대비 노이즈 영역(2300)의 비율, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)의 개수 및 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)의 면적 중 적어도 하나에 기초하여 제2 보정 계수(

)를 계산할 수 있다. 일 실시예에서, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)의 개수가 많아질수록 제2 보정 계수(

)의 크기는 커질 수 있다. 일 실시예에서, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)의 면적이 넓어질수록 제2 보정 계수(

)의 크기는 커질 수 있다.

일 실시예에서, 제1 보정 맵(2000)에 포함된 객체 영역(2100)의 면적 대비, 노이즈 영역(2300)의 면적은 상대적으로 작을 수 있다. 적어도 하나의 프로세서(500)에 의하여 검출되는 노이즈 영역(2300)이 증가하더라도, 제1 보정 맵(2000)에 포함된 객체 영역(2100) 대비 노이즈 영역(2300)의 비율의 변화는 크지 않을 수 있다. 이 경우, 검출되는 노이즈 영역(2300)이 증가하더라도, 제2 보정 계수(

)의 크기 변화는 작을 수 있다.

이때, 검출되는 노이즈 영역(2300)의 개수 및 노이즈 영역(2300)의 면적에 기초하여 제2 보정 계수(

)의 크기를 계산할 경우, 적어도 하나의 프로세서(500)에 의하여 검출되는 노이즈 영역(2300)이 증가되는 것에 대응하여 제2 보정 계수(

)의 크기가 변화하도록 할 수 있다. 따라서, 객체 영역(2100)에 포함된 노이즈 영역(2300)의 변화에 대응하여 제2 보정 계수(

)의 크기가 변화할 수 있도록 할 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제3 보정 계수 계산 모듈(492)을 실행하여, 검출된 노이즈 영역(2300)에 기초하여 계산된 제3 보정 계수(

)를 획득할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값에 기초하여 제3 보정 계수(

)를 계산할 수 있다. 일 실시예에서, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값이 커질수록, 제3 보정 계수(

)의 크기는 작아질 수 있다. 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값이 클수록, 해당 화소 영상은 객체 영상(5000, 도 1 참조)인 공을 던지는 사람에 대응되는 영상일 가능성이 높은 영상일 수 있다. 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값이 작을수록, 해당 화소 영상은 객체 영역(2100)에 포함되었지만, 객체 배경 영상인 공을 던지는 사람의 배경에 대응되는 영상일 가능성이 높은 영상일 수 있다.

도 4 및 도 9를 참조하면, 적어도 하나의 프로세서(500)는 최종 분류 맵 획득 모듈(450)을 실행하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 최종 분류 맵 획득 모듈(450)을 실행하여, 제1 보정 계수(

), 제2 보정 계수(

), 제3 보정 계수(

), 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다.

일 실시예에서, 최종 분류 맵 획득 모듈(450)은 아래의 수학식을 이용하여, 최종 분류 맵(4000)을 획득하는 동작이나 기능에 관한 명령어들 또는 프로그램 코드로 구성될 수 있다.

수학식:

이때,

은 제1 분류 맵(2000)에 포함된 복수의 화소 영상들 중

의 좌표에 해당하는 화소 영상을 의미하고,

은 제2 분류 맵(3000)에 포함된 복수의 화소 영상들 중

의 좌표에 해당하는 화소 영상을 의미하고, (

)은 제1 서브 보정 계수를 의미하고,

는 제2 서브 보정 계수를 의미하고,

는 제2 보정 계수를 의미하고,

는 제3 보정 계수를 의미한다. 이때,

및

는 제1 분류 맵(2000) 및 제2 분류 맵(3000)의 해상도에 의해 결정될 수 있는 1 이상의 자연수이다.

일 실시예에서, 적어도 하나의 프로세서(500)는 최종 분류 맵 획득 모듈(450)을 실행하여, 입력 영상(1000)에 기초하여 획득한 제1 분류 맵(2000) 및 제1 분류 맵(2000)을 전처리하여 획득한 제2 분류 맵(3000)을 더하여 최종 분류 맵(4000)을 획득하고, 획득한 최종 분류 맵(4000)에 기초하여 입력 영상(1000)에 포함된 객체 영상(5000, 도 1 참조) 및 객체 배경 영상을 분류할 수 있다. 적어도 하나의 프로세서(500)는 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득함에 따라, 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높일 수 있다. 이하, 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높이기 위하여, 최종 분류 맵(4000)에 포함되는 제1 분류 맵(2000) 및 제2 분류 맵(3000)의 비율을 결정하는 것에 대하여 설명한다.

일 실시예에서, 적어도 하나의 프로세서(500)는 최종 분류 맵 획득 모듈(450)을 실행하여, 제1 서브 보정 계수(

)가 곱해진 제1 분류 맵(2000)과 제2 서브 보정 계수(

)가 곱해진 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다. 일 실시예에서, 카메라(300, 도 1 참조)와 객체(110) 간의 기준 거리의 길이가 짧아질수록, 제1 서브 보정 계수(

)의 크기가 커지게 하여, 최종 분류 맵(4000)을 획득함에 있어 제1 분류 맵(2000)의 비율을 높일 수 있다. 카메라(300, 도 1 참조)와 객체(110) 간의 기준 거리의 길이가 길어질수록, 제2 서브 보정 계수(

)의 크기가 작아지게 하여, 최종 분류 맵(4000)을 획득함에 있어 제2 분류 맵(3000)의 비율을 낮출 수 있다.

일 실시예에서, 도 5a 및 도 5b를 참조하면, 제1 분류 맵(2000)은 입력 영상(1000)에 기초하여 객체 영역(2100)과 배경 영역(2200)을 분류하여 획득된 맵이다. 이때, 카메라(300)와 객체(110) 간의 기준 거리의 길이가 짧아질수록, 카메라(300)를 통하여 획득하는 입력 영상(1000)의 해상도가 높아져, 제1 분류 맵(2000)을 획득하기 위하여 입력 영상(1000)에 기초하여 객체 영역(2100)과 배경 영역(2200)을 분류하는 동작의 정확도가 높을 수 있다. 또한, 제1 분류 맵(2000)에 포함되는 노이즈 영역(2300)이 감소할 수 있다. 따라서, 카메라(300)와 객체(110) 간의 기준 거리의 길이가 짧아질수록, 최종 분류 맵(4000)에 포함되는 제1 분류 맵(2000)의 비율을 높이고, 제2 분류 맵(3000)의 비율을 낮춰 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높일 수 있다.

일 실시예에서, 제2 분류 맵(3000)은 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거하여 획득된 맵이다. 일 실시예에서, 카메라(300)와 객체(110) 간의 기준 거리의 길이가 길어질수록 카메라(300)를 통하여 획득하는 입력 영상(1000)의 해상도가 낮아져, 제1 분류 맵(2000)을 획득하기 위하여 입력 영상(1000)에 기초하여 객체 영역(2100)과 배경 영역(2200)을 분류하는 동작의 정확도가 낮아질 수 있다. 또한, 제1 분류 맵(2000)에 포함되는 노이즈 영역(2300)이 증가할 수 있다. 따라서, 카메라(300)와 객체(110) 간의 기준 거리의 길이가 길어질수록, 최종 분류 맵(4000)에 포함되는 제1 분류 맵(2000)의 비율을 낮추고, 제2 분류 맵(3000)의 비율을 높여 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 최종 분류 맵 획득 모듈(450)을 실행하여, 제2 보정 계수(

)가 곱해진 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다. 일 실시예에서, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)이 증가할수록, 최종 분류 맵(4000)을 획득함에 있어 제2 분류 맵(3000)의 비율을 높일 수 있다.

일 실시예에서, 도 6a 및 도 6b를 참조하면, 제2 분류 맵(3000)은 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 제거하여 획득된 맵이다. 일 실시예에서, 입력 영상(1000)에 포함된 객체 영역(2100)과 배경 영역(2200)을 분류하는 적어도 하나의 프로세서(500)의 검출 성능의 한계 또는 객체의 빠른 움직임 등에 의하여 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)이 증가할 경우, 입력 영상(1000)에 기초하여 객체 영역(2100)과 배경 영역(2200)을 분류하는 동작의 정확도가 낮을 수 있다. 이 경우, 최종 분류 맵(4000)에 포함되는 제1 분류 맵(2000)의 비율을 낮추고, 제2 분류 맵(3000)의 비율을 높여 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높일 수 있다.

일 실시예에서, 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)이 감소할 경우, 입력 영상(1000)에 기초하여 객체 영역(2100)과 배경 영역(2200)을 분류하는 동작의 정확도가 높을 수 있다. 이 경우, 최종 분류 맵(4000)에 포함되는 제1 분류 맵(2000)의 비율을 높이고, 제2 분류 맵(3000)의 비율을 낮추어 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 최종 분류 맵 획득 모듈(450)을 실행하여, 제3 보정 계수(

)가 곱해진 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다. 일 실시예에서, 적어도 하나의 프로세서(500)는 제2 보정 계수(

) 및 제3 보정 계수(

)가 곱해진 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다. 일 실시예에서, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값이 커질수록, 제3 보정 계수(

일 실시예에서, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값이 클수록, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상은 객체 영상에 대응되는 영상일 가능성이 크다. 따라서, 제1 분류 맵(2000)에 노이즈 영역(2300)이 포함되었더라도, 제1 분류 맵(2000)을 획득하기 위하여 입력 영상(1000)에 기초하여 객체 영역(2100)과 배경 영역(2200)을 분류하는 동작의 정확도가 높을 수 있다. 이 경우, 제1 분류 맵(2000)이 노이즈 영역(2300)을 포함하더라도, 제1 분류 맵(2000)에 기초하여 획득된 최종 분류 맵(4000)에 기초하여 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도가 높을 수 있다.

또한, 최종 분류 맵(4000)에 포함된 제2 분류 맵(3000)의 비율을 높일 경우, 객체의 움직임 등에 의하여 발생하는 노이즈 영역(2300)을 과하게 보상하여, 오히려 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 낮출 수도 있다. 따라서, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상의 객체 화소 확률 값이 클수록, 최종 분류 맵(4000)에 포함되는 제1 분류 맵(2000)의 비율을 높이고, 제2 분류 맵(3000)의 비율을 낮추어 입력 영상(1000)에 포함된 객체 영상(5000) 및 객체 배경 영상을 분류하는 동작의 정확도를 높일 수 있다.

도 1 및 도 10을 참조하면, 일 실시예에 따른 전자 장치(100) 및 전자 장치(100)의 동작 방법은, 객체 및 객체의 배경을 촬영하여 획득한 입력 영상(1000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다.

일 실시예에서, 최종 분류 맵(4000)은 카메라(300)와 객체 간의 거리, 객체의 움직임 또는 전자 장치(100)의 성능에 따라 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)에 기초하여 제1 분류 맵(2000) 및 제2 분류 맵(3000)의 비율을 조절하여 획득될 수 있다.

일 실시예에서, 전자 장치(100)는 최종 분류 맵(4000)에 기초하여 입력 영상(1000)에 포함된 객체 영상(5000)을 분류할 수 있다. 일 실시예에서, 분류된 객체 영상(5000)은 최종 분류 맵(4000)에 포함된 객체 영역에 대응되는 영상일 수 있다. 다만, 본 개시는 이에 제한되지 않고, 최종 분류 맵(4000)에 기초하여 입력 영상(1000)에 포함된 객체 영상(5000)을 분류하는 전자 장치와 최종 분류 맵(4000)을 획득하는 전자 장치는 별개의 전자 장치일 수도 있다. 일 실시예에서, 본 개시에 따른 전자 장치(100)는 입력 영상(1000)에 기초하여 최종 분류 맵(4000)을 획득하고, 획득한 최종 분류 맵(4000)을 입력 영상(1000)에 최종 분류 맵(4000)을 적용하여 객체 영상(5000)을 분류하는 별도의 전자 장치로 제공할 수도 있다.

일 실시예에서, 전자 장치(100)는 배경 영상(6000)을 획득할 수 있다. 배경 영상(6000)은 입력 영상(1000)에 포함된 객체 배경 영상과 상이한 배경을 포함하는 영상일 수 있다. 일 실시예에서, 전자 장치(100)는 입력 영상(1000)에 최종 분류 맵(4000)을 적용하여 분류한 객체 영상(5000)과 배경 영상(6000)을 합성하여 합성 영상(7000)을 생성할 수 있다. 이에 따라, 전자 장치(100)는 카메라(300)를 통하여 촬영한 객체 배경 영상이 아닌, 원하는 다른 배경을 객체(110)와 합성할 수 있다.

상술한 기술적 과제를 해결하기 위하여, 일 실시예에서, 적어도 하나의 명령어(instruction)를 저장하는 메모리(400) 및 상기 메모리(400)에 저장된 상기 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서(500)를 포함하는 전자 장치(100)를 제공한다. 일 실시예에서, 적어도 하나의 프로세서(500)는 카메라(300)를 통하여, 객체 및 객체의 배경을 촬영한 입력 영상(1000)을 획득할 수 있다. 적어도 하나의 프로세서(500)는 획득한 입력 영상(1000)을 객체에 대응되는 객체 영역(2100)과 객체의 배경에 대응되는 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득할 수 있다. 적어도 하나의 프로세서(500)는 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈(Noise) 영역(2300)을 제거한 제2 분류 맵(3000)을 획득할 수 있다. 적어도 하나의 프로세서(500)는 카메라(300)로부터 객체까지의 거리 정보 및 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 객체에 대응되는 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는, 카메라(300)로부터 객체까지의 거리 정보 및 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득할 수 있다. 적어도 하나의 프로세서(500)는 최종 분류 맵(4000)을 입력 영상(1000)에 적용하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 제2 분류 맵(3000)은 제1 분류 맵(2000)을 모폴로지(Morphology) 연산하여 획득한 분류 맵일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 카메라(300)로부터 객체까지의 거리 정보에 기초하여 제1 보정 계수를 계산할 수 있다. 제1 보정 계수는 최종 분류 맵(4000)을 획득함에 있어, 제1 분류 맵(2000)에 곱해지는 제1 서브 보정 계수 및 제2 분류 맵(3000)에 곱해지는 제2 서브 보정 계수를 포함할 수 있다. 카메라로부터 객체까지의 길이가 길어질수록 제1 서브 보정 계수의 크기는 작아지고, 카메라로부터 객체까지의 길이가 길어질수록 제2 서브 보정 계수는 커질 수 있다. 적어도 하나의 프로세서(500)는 제1 서브 보정 계수와 곱해진 제1 분류 맵(2000)과 제2 서브 보정 계수와 곱해진 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 제1 서브 보정 계수와 제2 서브 보정 계수의 합은 1일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 노이즈 영역(2300)에 기초하여 제2 보정 계수를 계산할 수 있다. 제1 분류 맵(2000)에 포함된 객체 영역(2100) 대비 노이즈 영역(2300)의 비율이 커질수록 제2 보정 계수의 크기는 커질 수 있다. 적어도 하나의 프로세서(500)는 제2 보정 계수가 곱해진 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 제2 보정 계수는 객체 영역(2100) 대비 노이즈 영역(2300)의 비율, 노이즈 영역(2300)의 개수 및 노이즈 영역(2300)의 면적 중 적어도 하나에 기초하여 계산될 수 있다.

일 실시예에서, 입력 영상(1000)은 복수의 화소 영상들을 포함할 수 있다. 적어도 하나의 프로세서(500)는 입력 영상(1000)에 기초하여 복수의 화소 영상들 각각이 객체에 대응될 확률 값을 계산할 수 있다. 적어도 하나의 프로세서(500)는 복수의 화소 영상들의 배치 및 기 설정된 제1 기준 확률 값과 계산된 확률 값을 비교한 결과에 기초하여 복수의 화소 영상들을 객체 영역(2100)과 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득할 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제1 분류 맵(2000)을 획득한 후, 기 설정된 제2 기준 확률 값과 복수의 화소 영상들 중 분류된 객체 영역(2100)에 포함된 적어도 하나의 화소 영상이 객체에 대응될 확률 값을 비교한 결과에 기초하여 객체 영역(2100)에 포함된 노이즈 영역(2300)을 분류할 수 있다. 일 실시예로, 제1 기준 확률 값과 제2 기준 확률 값은 상이한 확률 값일 수 있다.

일 실시예에서, 적어도 하나의 프로세서(500)는 제1 보정 계수, 제2 보정 계수 및 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상이 객체에 대응될 확률 값에 기초하여 계산되는 제3 보정 계수를 이용하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 제3 보정 계수는 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상이 객체에 대응될 확률 값과 반비례할 수 있다. 적어도 하나의 프로세서(500)는 제3 보정 계수가 곱해진 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

상술한 기술적 과제를 해결하기 위하여 본 개시의 일 실시예는 전자 장치(100)의 동작 방법을 제공한다. 일 실시예에서, 전자 장치(100)의 동작 방법은 카메라(300)를 통하여, 객체 및 객체의 배경을 촬영한 입력 영상(1000)을 획득하는 단계(S100)를 포함할 수 있다. 전자 장치(100)의 동작 방법은 획득한 입력 영상(1000)을 객체에 대응되는 객체 영역(2100)과 객체의 배경에 대응되는 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득하는 단계(S200)를 포함할 수 있다. 전자 장치(100)의 동작 방법은 제1 분류 맵(2000)을 전처리하여, 제1 분류 맵(2000)에 포함된 노이즈(Noise) 영역(2300)을 제거한 제2 분류 맵(3000)을 획득하는 단계(S300)를 포함할 수 있다. 전자 장치(100)의 동작 방법은 카메라(300)로부터 객체까지의 거리 정보 및 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 객체에 대응되는 객체 영상(5000)을 획득하는 단계를 포함할 수 있다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 카메라(300)로부터 객체까지의 거리 정보 및 노이즈 영역(2300)을 이용하여, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하는 단계를 더 포함할 수 있다. 일 실시예에서, 객체 영상(5000)을 획득하는 단계(S500)에서는 최종 분류 맵(4000)을 입력 영상(1000)에 적용하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 카메라(300)로부터 객체까지의 거리 정보에 기초하여 계산된 제1 보정 계수는, 객체 영상(5000)을 획득함에 있어, 제1 분류 맵(2000)에 곱해지는 제1 서브 보정 계수 및 제2 분류 맵(3000)에 곱해지는 제2 서브 보정 계수를 포함할 수 있다. 카메라로부터 객체까지의 길이가 길어질수록 제1 서브 보정 계수는 작아지고, 카메라로부터 객체까지의 길이가 길어질수록 제2 서브 보정 계수는 커질 수 있다. 객체 영상(5000)을 획득하는 단계(S500)에서는, 제1 서브 보정 계수가 곱해진 제1 분류 맵(2000)과 제2 서브 보정 계수가 곱해진 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 제1 분류 맵(2000)에 포함된 객체 영역(2100) 대비 노이즈 영역(2300)의 비율이 커질수록, 노이즈 영역(2300)에 기초하여 계산되는 제2 보정 계수의 크기는 커질 수 있다. 객체 영상(5000)을 획득하는 단계(S500)에서는, 제2 보정 계수가 곱해진 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 입력 영상(1000)은, 복수의 화소 영상들을 포함할 수 있다. 전자 장치(100)의 동작 방법은, 입력 영상(1000)에 기초하여 복수의 화소 영상들 각각이 객체에 대응될 확률 값을 계산하는 단계를 더 포함할 수 있다. 제1 분류 맵을 획득하는 단계(S200)에서는, 복수의 화소 영상들의 배치 및 기 설정된 제1 기준 확률 값과 계산된 확률 값을 비교한 결과에 기초하여 복수의 화소 영상들을 객체 영역(2100)과 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득할 수 있다.

일 실시예에서, 전자 장치(100)의 동작 방법은, 제1 분류 맵(2000)을 획득하는 단계 이후에, 기 설정된 제2 기준 확률 값과 복수의 화소 영상들 중 분류된 객체 영역(2100)에 포함된 적어도 하나의 화소 영상이 객체에 대응될 확률 값을 비교한 결과에 기초하여 객체 영역(2100)에 포함된 노이즈 영역(2300)을 분류하는 단계를 더 포함할 수 있다. 일 실시예에서, 제1 기준 확률 값과 제2 기준 확률 값은 상이한 확률 값일 수 있다.

일 실시예에서, 객체 영상(5000)을 획득하는 단계(S500)에서는, 제1 보정 계수, 상기 제2 보정 계수, 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상이 객체에 대응될 확률 값에 기초하여 계산되는 제3 보정 계수, 제1 분류 맵(2000) 및 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 제3 보정 계수는, 노이즈 영역(2300)에 포함된 적어도 하나의 복수 영상이 객체에 대응될 확률 값과 반비례할 수 있다. 객체 영상(5000)을 획득하는 단계(S500)에서는, 제3 보정 계수가 곱해진 제2 분류 맵(3000)에 기초하여 객체 영상(5000)을 획득할 수 있다.

일 실시예에서, 개시된 전자 장치(100)의 동작 방법의 실시예 중 적어도 하나의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 제공할 수 있다.

본 개시에서 설명된 전자 장치(100)에 의해 수행되는 동작 방법은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 프로그램은 컴퓨터로 읽을 수 있는 명령어들을 수행할 수 있는 모든 시스템에 의해 수행될 수 있다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령어(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.

소프트웨어는, 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 컴퓨터 프로그램으로 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체로는, 예를 들어 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 기록 매체는 컴퓨터에 의해 판독 가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

컴퓨터로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

또한, 본 명세서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 소프트웨어 프로그램, 소프트웨어 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치(100)의 제조사 또는 전자 마켓(예를 들어, 삼성 갤럭시 스토어)을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션(downloadable application))을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 전자 장치(100)의 제조사의 서버, 전자 마켓의 서버, 또는 소프트웨어 프로그램을 임시적으로 저장하는 중계 서버의 저장 매체가 될 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 컴퓨터 시스템 또는 모듈 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

적어도 하나의 명령어(instruction)를 저장하는 메모리(400); 및

상기 메모리(400)에 저장된 상기 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서(500)를 포함하고,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

카메라(300)를 통하여 객체 및 상기 객체의 배경을 캡쳐한 입력 영상(1000)을 획득하고,

상기 획득한 입력 영상(1000)의 제1 부분을 상기 객체에 대응되는 객체 영역(2100)으로 분류하고, 상기 획득한 입력 영상(1000)의 제2 부분을 객체의 배경에 대응되는 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득하고,

상기 제1 분류 맵(2000)을 전처리하여, 상기 제1 분류 맵(2000)에 포함된 노이즈(Noise) 영역(2300)을 제거한 제2 분류 맵(3000)을 획득하고,

상기 카메라로부터 상기 객체까지의 거리 정보 및 상기 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 이용하여, 상기 제1 분류 맵(2000) 및 상기 제2 분류 맵(3000)에 기초하여 상기 객체에 대응되는 객체 영상(5000)을 획득하는 전자 장치(100).
제1 항에 있어서,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 카메라로부터 상기 객체까지의 거리 정보 및 상기 노이즈 영역(2300)을 이용하여, 상기 제1 분류 맵(2000) 및 상기 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하고,

상기 최종 분류 맵(4000)을 상기 입력 영상(1000)에 적용하여 상기 객체 영상(5000)을 획득하는 전자 장치(100).
제1 또는 제2 항 중 어느 하나의 항에 있어서,

상기 제2 분류 맵(3000)은, 상기 제1 분류 맵(2000)을 모폴로지(Morphology) 연산하여 획득한 분류 맵인 전자 장치(100).
제1 내지 제3 항 중 어느 하나의 항에 있어서,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 카메라로부터 상기 객체까지의 거리 정보에 기초하여 제1 보정 계수를 계산하고,

상기 제1 보정 계수는, 상기 객체 영상을 획득함에 있어, 제1 서브 보정 계수 및 제2 서브 보정 계수를 포함하고,

상기 카메라로부터 상기 객체까지의 길이가 길어질수록 상기 제1 서브 보정 계수의 크기는 작아지고, 상기 카메라로부터 상기 객체까지의 길이가 길어질수록 상기 제2 서브 보정 계수의 크기는 커지며,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 제1 서브 보정 계수와 곱해진 제1 분류 맵(2000)과 상기 제2 서브 보정 계수와 곱해진 제2 분류 맵(3000)에 기초하여 상기 객체 영상(5000)을 획득하는 전자 장치(100).
제1 내지 제4 항 중 어느 하나의 항에 있어서,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 노이즈 영역(2300)에 기초하여 제2 보정 계수를 계산하고,

상기 제1 분류 맵(2000)에 포함된 상기 객체 영역(2100) 대비 상기 노이즈 영역(2300)의 비율이 커질수록 상기 제2 보정 계수의 크기는 커지며,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 제2 보정 계수가 곱해진 상기 제2 분류 맵(3000)에 기초하여 상기 객체 영상(5000)을 획득하는 전자 장치(100).
제5 항에 있어서,

상기 제2 보정 계수는,

상기 객체 영역(2100) 대비 상기 노이즈 영역(2300)의 비율, 상기 노이즈 영역(2300)의 개수 또는 상기 노이즈 영역(2300)의 면적 중 적어도 하나에 기초하여 계산되는 전자 장치(100).
제1 내지 6 항 중 어느 하나의 항에 있어서,

상기 입력 영상(1000)은, 복수의 화소 영상들을 포함하고,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 입력 영상(1000)에 기초하여, 상기 복수의 화소 영상들 각각이 상기 객체에 대응될 확률 값을 계산하고,

상기 복수의 화소 영상들의 배치 및 기 설정된 제1 기준 확률 값과 상기 계산된 확률 값을 비교한 결과에 기초하여 상기 복수의 화소 영상들을 상기 객체 영역(2100)과 상기 배경 영역(2200)으로 분류하여 상기 제1 분류 맵(2000)을 획득하는 전자 장치.
제7 항에 있어서,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 제1 분류 맵(2000)을 획득한 후, 기 설정된 제2 기준 확률 값과 상기 복수의 화소 영상들 중 상기 분류된 객체 영역(2100)에 포함된 적어도 하나의 화소 영상이 상기 객체에 대응될 확률 값을 비교한 결과에 기초하여 상기 객체 영역(2100)에 포함된 상기 노이즈 영역(2300)을 분류하고,

상기 제2 기준 확률 값은, 상기 제1 기준 확률 값과 상이한 확률 값인 전자 장치(100).
제8 항에 있어서,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 제1 보정 계수, 상기 제2 보정 계수 및 상기 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상이 상기 객체에 대응될 확률 값에 기초하여 계산되는 제3 보정 계수를 이용하여, 상기 제1 분류 맵(2000) 및 상기 제2 분류 맵(3000)에 기초하여 상기 객체 영상(5000)을 획득하는 전자 장치(100).
제9 항에 있어서,

상기 제3 보정 계수는,

상기 노이즈 영역(2300)에 포함된 적어도 하나의 화소 영상이 상기 객체에 대응될 확률 값과 반비례하며,

상기 적어도 하나의 프로세서(500)는 상기 적어도 하나의 명령어를 실행함으로써,

상기 제3 보정 계수가 곱해진 상기 제2 분류 맵(3000)에 기초하여 상기 객체 영상(5000)을 획득하는 전자 장치(100).
전자 장치(100)의 동작 방법에 있어서,

카메라(300)를 통하여, 객체 및 상기 객체의 배경을 캡쳐한 입력 영상(1000)을 획득하는 단계(S100);

상기 획득한 입력 영상(1000)의 제1 부분을 상기 객체에 대응되는 객체 영역(2100)으로 분류하고, 상기 획득한 입력 영상(1000)의 제2 부분을 상기 객체의 배경에 대응되는 배경 영역(2200)으로 분류하여 제1 분류 맵(2000)을 획득하는 단계(S200);

상기 제1 분류 맵(2000)을 전처리하여, 상기 제1 분류 맵(2000)에 포함된 노이즈(Noise) 영역(2300)을 제거한 제2 분류 맵(3000)을 획득하는 단계(S300);

상기 카메라(300)로부터 상기 객체까지의 거리 정보 및 상기 제1 분류 맵(2000)에 포함된 노이즈 영역(2300)을 이용하여, 상기 제1 분류 맵(2000) 및 상기 제2 분류 맵(3000)에 기초하여 상기 객체에 대응되는 객체 영상(5000)을 획득하는 단계(S500)를 포함하는 전자 장치(100)의 동작 방법.
제11 항에 있어서,

상기 전자 장치(100)의 동작 방법은,

상기 카메라로부터 상기 객체까지의 거리 정보 및 상기 노이즈 영역(2300)을 이용하여, 상기 제1 분류 맵(2000) 및 상기 제2 분류 맵(3000)에 기초하여 최종 분류 맵(4000)을 획득하는 단계를 더 포함하고,

상기 객체 영상(5000)을 획득하는 단계(S500)에서는, 상기 최종 분류 맵(4000)을 상기 입력 영상(1000)에 적용하여 상기 객체 영상(5000)을 획득하는 전자 장치(100)의 동작 방법.
제11 또는 제12 항 중 어느 하나의 항에 있어서,

상기 카메라로부터 상기 객체까지의 거리 정보에 기초하여 계산된 제1 보정 계수는, 상기 객체 영상(5000)을 획득함에 있어, 제1 서브 보정 계수 및 제2 서브 보정 계수를 포함하고,

상기 카메라로부터 상기 객체까지의 길이가 길어질수록 상기 제1 서브 보정 계수의 크기는 작아지고, 상기 카메라로부터 상기 객체까지의 길이가 길어질수록 상기 제2 서브 보정 계수의 크기는 커지며,

상기 객체 영상(5000)을 획득하는 단계(S500)에서,

상기 제1 서브 보정 계수가 곱해진 제1 분류 맵(2000)과 상기 제2 서브 보정 계수가 곱해진 제2 분류 맵(3000)에 기초하여 상기 객체 영상(5000)을 획득하는 전자 장치(100)의 동작 방법.
제11 내지 제13 항 중 어느 하나의 항에 있어서,

상기 제1 분류 맵(2000)에 포함된 상기 객체 영역(2100) 대비 상기 노이즈 영역(2300)의 비율이 커질수록, 상기 노이즈 영역(2300)에 기초하여 계산되는 제2 보정 계수의 크기는 커지며,

상기 객체 영상(5000)을 획득하는 단계(S500)에서,

상기 제2 보정 계수가 곱해진 상기 제2 분류 맵(3000)에 기초하여 상기 객체 영상(5000)을 획득하는 전자 장치(100)의 동작 방법.
제11 항 내지 제14항 중 어느 하나의 항에 기재된 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.