KR101888674B1

KR101888674B1 - 객체 판단 장치 및 방법

Info

Publication number: KR101888674B1
Application number: KR1020160166982A
Authority: KR
Inventors: 윤영석; 배승환; 정영식; 조영주; 진준호; 황중원
Original assignee: 한국전자통신연구원
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2018-08-14
Also published as: KR20180065749A

Abstract

객체 판단 장치 및 방법이 개시된다. 객체 판단 장치는 영상에서 객체의 전체에 해당하는 영역을 이용하여, 객체의 종류, 그리고 객체의 위치를 포함하는 전체 맥락 정보를 생성하는 객체 전체 검출부, 영상에서 객체의 일부분(part)에 해당하는 영역을 이용하여, 객체의 종류, 그리고 객체의 일부분 위치를 포함하는 부분 맥락 정보를 생성하는 객체 부분 검출부, 그리고 전체 맥락 정보 및 부분 맥락 정보를 이용하여, 객체를 최종적으로 판단하는 객체 판단부를 포함할 수 있다.

Description

객체 판단 장치 및 방법{APPARATUS AND METHOD FOR DETEMINING OBJECT}

본 발명은 객체 판단 장치 및 방법에 관한 것이다.

영상 획득 장치의 발달로 인해, 하루에도 엄청난 양의 영상 데이터가 쏟아져 나오고 있다. 영상 데이터는 사람의 시각으로는 유의미한 데이터이지만, 영상 데이터를 저장하는 화소(pixel) 혹은 저장 단위인 비트(bit) 스트림에서는 무의미한 데이터이다. 컴퓨터 비전이나 인공 지능 분야에서는 영상에서 사람의 시각처럼 유의미한 데이터를 추출하기 위해 연구해 오고 있다. 기계 학습 기법으로 영상을 분석하는 방법이 발달하면서, 다양한 응용 시스템에서는 유의미한 데이터를 향상된 성능으로 추출할 수 있게 되었다. 이러한 유의미한 데이터를 이용하여, 영상에서 객체의 종류를 찾아 분류(classify)하거나, 객체가 어느 영역에 위치하고 객체의 종류를 찾아 검출(detect)하거나, 장면을 분류하는 등의 연구가 진행되고 있다. 그리고 영상에서 테스트 데이터를 추출하는 이미지 묘사(Image Description)나 질문에 답변하기 등의 연구도 활발히 진행되고 있다.

객체를 분류 및 검출하는 방법으로서 특징점 기반의 기계 학습 기법이 기존에 사용되었다. 그리고 2012년 이후로는 기계 학습 기법의 일종인 깊은 신경망(Deep Neural Network, DNN) 알고리즘이 많이 사용되고 있다. 그러나 이러한 기존 방법들은 객체의 세밀한 분류 또는 검출이 쉽지 않다. 즉, 기존의 깊은 신경망 알고리즘을 포함하는 기계 학습 기법은 동그랗게 말고 누워있는 강아지와 베이글, 개의 얼굴과 쿠키 등 외형이 비슷한 경우에 대해서 잘 분류하지 못하는 문제점이 있다.

본 발명이 해결하고자 하는 과제는 객체의 세밀한 분류 또는 검출이 가능한 객체 판단 장치 및 방법을 제공하는 것이다.

본 발명의 실시예에 따르면, 영상에서 객체를 판단하는 객체 판단 장치가 제공된다. 상기 객체 판단 장치는, 상기 영상에서 상기 객체의 전체에 해당하는 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 위치를 포함하는 전체 맥락 정보를 생성하는 객체 전체 검출부, 상기 영상에서 상기 객체의 일부분(part)에 해당하는 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 일부분 위치를 포함하는 부분 맥락 정보를 생성하는 객체 부분 검출부, 그리고 상기 전체 맥락 정보 및 상기 부분 맥락 정보를 이용하여, 상기 객체를 판단하는 객체 판단부를 포함할 수 있다.

상기 객체 전체 검출부는, 상기 영상에서 상기 객체의 전체를 포함하는 경계 영역을 분리하는 객체 분리부, 그리고 상기 경계 영역의 위치, 상기 경계 영역에 포함되는 상기 객체의 종류를 분류하는 객체 분류부를 포함할 수 있다.

상기 객체 분류부는 복수의 객체 분류부를 포함하며, 상기 복수의 객체 분류부는 각각 상기 경계 영역의 위치에 대한 정보, 상기 객체의 종류에 대한 정보를 생성하며, 상기 객체 전체 검출부는 상기 복수의 객체 분류부의 출력을 조합하는 객체 검출 융합부를 더 포함할 수 있다.

상기 객체 부분 검출부는, 상기 영상에서 상기 객체의 일부분을 포함하는 경계 영역을 분리하는 부분 분리부, 그리고 상기 경계 영역의 위치, 상기 경계 영역에 포함되는 상기 객체의 일부분에 대한 종류를 분류하는 부분 분류부를 포함할 수 있다.

상기 부분 분류부는 복수의 부분 분류부를 포함하며, 상기 복수의 부분 분류부는 각각 상기 경계 영역의 위치에 대한 정보, 상기 객체의 일부분에 대한 종류에 대응하는 정보를 생성하며, 상기 객체 부분 검출부는 상기 복수의 부분 분류부의 출력을 조합하는 부분 검출 융합부를 더 포함할 수 있다.

상기 영상을 생성하는 영상 생성부를 더 포함하며, 상기 영상은 다차원 영상일 수 있다.

상기 영상 생성부는, 입력되는 신호에서 가시광선에 해당하는 부분을 획득하는 가시광선 획득부, 상기 입력되는 신호에서 상기 가시 광선을 제외한 비가시광선에 해당하는 부분을 획득하는 비가시광선 획득부, 그리고 상기 가시광선과 상기 비가시광선을 이용하여 상기 입력되는 신호에서 배경 신호를 제거하는 객체 및 배경 분리부를 포함할 수 있다.

상기 객체 판단부는 상기 객체의 위치 및 상기 객체의 부분 위치를 이용하여, 상기 전체 맥락 정보와 상기 부분 맥락 정보를 서로 그룹으로 묶을 수 있다.

상기 전체 맥락 정보는 상기 객체 전체 검출부가 생성한 상기 객체의 종류에 대한 신뢰도 벡터를 더 포함하며, 상기 부분 맥락 정보는 상기 객체 부분 검출부가 생성한 상기 객체의 종류에 대한 신뢰도 벡터를 더 포함할 수 있다.

상기 객체 전체 검출부와 상기 객체 부분 검출부는 각각 기계 학습 방법을 통해 상기 객체의 종류를 분류할 수 있다.

상기 객체의 일부분은 상기 객체에서 고유의 정보를 지닌 부분일 수 있다.

본 발명의 다른 실시예에 따르면, 영상에서 객체를 판단하는 방법이 제공될 수 있다. 상기 방법은, 상기 영상에서 상기 객체의 전체에 해당하는 제1 영역을 분리하는 단계, 상기 제1 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 위치를 포함하는 전체 맥락 정보를 생성하는 단계, 상기 영상에서 상기 객체의 일부분(part)에 해당하는 제2 영역을 분리하는 단계, 상기 제2 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 일부분 위치를 포함하는 부분 맥락 정보를 생성하는 단계, 그리고 상기 전체 맥락 정보 및 상기 부분 맥락 정보를 이용하여, 상기 객체를 판단하는 단계를 포함할 수 있다.

상기 방법은 상기 영상을 생성하는 단계를 더 포함하며, 상기 영상은 다차원 영상일 수 있다.

상기 영상을 생성하는 단계는, 입력되는 신호에서 가시 광선을 획득하는 단계, 상기 입력되는 신호에서 상기 가시 광선을 제외한 비가시광선에 해당하는 부분을 획득하는 단계, 그리고 상기 가시광선과 상기 비가시광선을 이용하여, 상기 입력되는 신호에서 배경 신호를 제거하는 단계를 포함할 수 있다.

상기 전체 맥락 정보는 상기 전체 맥락 정보를 생성하는 단계에서 생성된 상기 객체의 종류에 대한 신뢰도 벡터를 더 포함하며, 상기 부분 맥락 정보는 상기 부분 맥락 정보를 생성하는 단계에서 생성된 상기 객체의 종류에 대한 신뢰로 벡터를 더 포함할 수 있다.

상기 방법은, 상기 객체의 위치 및 상기 객체의 부분 위치를 이용하여, 상기 전체 맥락 정보와 상기 부분 맥락 정보를 서로 그룹으로 묶는 단계를 더 포함할 수 있다.

본 발명의 다른 실시예에 따르면, 영상에서 객체를 판단하는 방법이 제공된다. 상기 방법은, 상기 영상에서 상기 객체의 전체에 해당하는 제1 경계 영역을 분리하는 단계, 상기 제1 경계 영역에 포함된 객체의 종류인 제1 종류를 분류하고 상기 제1 경계 영역의 위치를 검출하는 단계, 상기 영상에서 상기 객체의 일부분에 해당하는 제2 경계 영역을 분리하는 단계, 상기 제2 경계 영역에 포함된 객체의 종류인 제2 종류를 분류하고 상기 제2 경계 영역의 위치를 검출하는 단계, 그리고 상기 제1 종류, 상기 제1 경계 영역의 위치, 상기 제2 종류, 상기 제2 경계 영역의 위치를 이용하여, 상기 객체를 판단하는 단계를 포함할 수 있다.

상기 제1 종류를 분류하는 단계는 기계 학습 방법을 통해 상기 제1 종류를 분류하는 단계를 포함하며, 상기 제2 종류를 분류하는 단계는 상기 기계 학습 방법을 통해 상기 제2 종류를 분류하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면 객체 전체에 대한 맥락 정보와 객체 부분에 대한 맥락 정보를 이용하므로, 세밀하게 객체를 분류하고 검출할 수 있다.

도 1은 본 발명의 실시예에 따른 객체 판단 장치를 나타내는 블록도이다.
도 2는 본 발명의 실시예에 따른 영상 생성부를 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 객체 전체 검출부를 나타내는 블록도이다.
도 4는 본 발명의 실시예에 따른 경계 영역 정보에 대한 필터링 방법을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 객체 부분 검출부를 나타내는 블록도이다.
도 6은 본 발명의 실시예에 따른 부분 경계 영역 정보에 대한 필터링 방법을 나타내는 도면이다.
도 7은 본 발명의 실시예에 따른 객체 판별 방법을 나타내는 플로우차트이다.
도 8은 3차원 영상을 3차원 공간에서 투영한 영상을 나타내는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서 객체는 사람, 동물, 자동차, 나무 등 다양한 객체를 지칭할 수 있다. 다만, 아래의 설명에서는 설명의 편의상 객체가 동물 또는 나무인 경우를 가정하여 설명하지만, 본 발명의 권리범위는 이에 한정되지 않는다.

그리고 명세서 명세서 전체에서 '객체를 분류(classify)한다'는 것은 객체의 종류를 찾아 분류하는 것을 의미하고, '객체를 검출(detect)한다'는 것은 객체가 어느 영역에 위치하는 지와 그 영역 안의 객체를 분류하는 것을 의미한다.

이제, 본 발명의 실시예에 따른 객체 판단 장치 및 방법에 대해서 설명한다.

영상을 분석하고 이해하기 위해서는 객체의 종류를 분류하고 어느 영역에 위치하는지를 찾는 검출에서 시작한다. 어떤 객체를 다른 객체와 분류하기 위해서는 그들을 구분할 수 있는 특징이 있어야 한다. 사람, 기차, 말을 분류하는 것을 비교적 쉬운 분류에 속한다. 그러나, 식물의 종류를 분류하거나 개나 돼지의 품종을 분류하는 것은 사람도 쉽게 분류할 수 없다. 본 발명의 실시예에 따른 객체 판단 장치 및 방법은 전체 맥락(full context) 정보와 부분 맥락(part context) 정보를 조합하여 객체들의 세밀한 분류 및 검출을 수행한다.

도 1은 본 발명의 실시예에 따른 객체 판단 장치(1000)를 나타내는 블록도이다.

도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 객체 판단 장치(1000)는 영상 생성부(100), 객체 전체 검출부(200), 객체 부분 검출부(300), 그리고 객체 판단부(400)를 포함한다.

영상 생성부(100)는 입력되는 영상을 다차원 영상으로 변환하거나 생성한다. 즉, 영상 생성부(100)는 다양한 영상 획득 모듈을 이용하여, 입력 영상을 다차원 영상으로 변환하거나 생성한다. 여기서, 다차원 영상은 2차원 영상, 다시점 이차 영상, 비디오 영상 또는 3차원 영상 등일 수 있다. 아래에서는 설명의 편의상 2차원 영상을 예로 설명하나 다른 다차원 영상에도 본 발명이 적용될 수 있다.

객체 전체 검출부(200)는 영상 생성부(100)로부터 입력되는 다차원 영상에서 객체의 종류를 분류하고 해당 객체의 위치를 검출한다. 즉, 객체 전체 검출부(200)는 객체의 전체에 대한 맥락(full context) 정보를 검출한다.

객체 부분 검출부(300)는 객체에서 고유의 정보를 지닌 부분(part)에 대해서 종류를 분류하고 해당 부분의 위치를 검출한다. 즉, 객체 부분 검출부(300)는 객체의 부분 맥락(part context) 정보를 검출한다. 객체에서 고유의 정보를 지니는 부분은 여러 개가 있으므로, 아래에서 설명하는 바와 같이 객체 부분 검출부(300)는 복수의 객체 부분 검출부를 포함할 수 있다. 분류하고자 하는 대상이 식물의 하위종인 경우, 잎, 줄기, 뿌리, 꽃, 그리고 열매 등이 각 객체의 부분이다.

한편, 객체 부분 검출부(300)로 입력되는 정보는 영상 생성부(100)가 생성한 다차원 영상이거나 객체 전체 검출부(200)가 생성한 분리된 객체 영상이다. 도 1에 나타낸 바와 같이, 객체 판단부(400)는 영상 생성부(100)의 다차원 영상 또는 객체 전체 검출부(200)의 분리된 객체 영상을 스위칭을 통해 선택할 수 있다.

객체 판단부(400)는 객체 전체 검출부(200)가 검출한 전체 맥락 정보와 객체 부분 검출부(300)가 검출한 부분 맥락 정보를 이용하여, 객체를 최종적으로 판단한다. 즉, 객체 판단부(400)는 전체 맥락 정보와 부분 맥락 정보를 조합하여, 객체를 최종적으로 분류 및 검출한다.

도 2는 본 발명의 실시예에 따른 영상 생성부(100)를 나타내는 블록도이다.

도 2에 나타낸 바와 같이, 본 발명의 실시예에 따른 영상 생성부(100)는 가시광선 획득부(110), 비가시광선 획득부(120), 객체 및 배경 분리부(130), 2차원 영상 생성부(140), 그리고 3차원 영상 생성부(150)를 포함한다.

가시광선 획득부(110)는 입력되는 영상에서 가시광선에 해당하는 부분을 획득한다. 가시광선은 사람의 눈에 구별할 수 있는 380 ~ 750 nm의 파장을 가지는 전자기파를 의미한다.

비가시광선 획득부(120)는 입력되는 영상에서 가시광선을 제외한 광선에 해당하는 부분을 획득한다. 비가시광선은 깊이 정보, 감마선, x선, 자외선, 적외선, 초단파, 라디오파 등 인간의 눈으로 볼 수 없는 전자기파를 의미한다.

객체 및 배경 분리부(130)는 가시광선과 비가시광선을 이용하여, 전체 영상에서 객체와 배경 신호를 분리한다. 객체 및 배경 분리부(130)는 비가시광선인 깊이 정보를 이용하여 가시광선 부분에서 배경 신호를 제거할 수 있으며, 비가시광선인 x선을 이용하여 가시광선 부분에서 배경 신호를 제거할 수 있다. 즉, 객체 및 배경 분리부(130)는 영상처리기법을 적용하지 않고 신호 특성을 이용한 신호 처리를 통해 객체와 배경을 분리한다. 한편, 가시광선 획득부(110), 비가시광선 획득부(120), 그리고 객체 및 배경 분리부(130)는 선택적으로 생략될 수 있다.

2차원 영상 생성부(140)는 배경 신호가 분리된 영상에서 2차원 영상, 다시점 2차원 영상, 또는 비디오 영상을 생성한다. 그리고 3차원 영상 생성부(140)는 배경 신호가 분리된 영상에서 3차원 영상을 생성한다. 2차원 영상, 다시점 2차원 영상, 비디오 영상, 그리고 3차원 영상의 생성은 소정의 센서를 통해 생성되는데, 이는 본 발명이 속하는 기술 분양의 통상의 지식을 가진 자라면 알 수 있는바 구체적인 설명은 생략한다.

도 3은 본 발명의 실시예에 따른 객체 전체 검출부(200)를 나타내는 블록도이다.

도 3에 나타낸 바와 같이, 본 발명의 실시예에 따른 객체 전체 검출부(200)는 객체 분리부(210), 객체 분류부(220), 그리고 객체 검출 융합부(230)를 포함한다.

객체 전체 검출부(200)가 N개 객체에 대한 종류를 분류 및 검출하는 경우, 영상 생성부(100)로부터 입력되는 영상에서 객체가 포함된 경계 영역(Bounding Region, BR)에 대한 위치를 검출하고, 경계 영역(BR)에 포함되어 있는 객체의 종류를 분류하며, N 차원의 신뢰도(confidence) 벡터를 생성한다. 객체 전체 검출부(200)는 경계 영역의 위치(경계 영역의 정보), 객체의 종류, 그리고 신뢰도 백터를 출력하며, 이러한 정보들을 본 발명의 실시예에서는 '전체 맥락(full context)'이라 한다. 여기서 경계 영역(BR)은 객체가 포함되며 동일한 의미를 가지는 화소들의 집합인 블랍(Blob) 또는 객체를 최대로 포함하는 최소 크기의 박스(Bounding Box, BB)를 의미한다.

객체 분리부(210)는 영상 생성부(100)에서 입력되는 영상에서 객체에 해당하는 부분을 분리한다. 객체 분리부(210)가 영상에서 객체를 분리하는 방법은 세그멘테이션(segmentation) 알고리즘이나 다양한 기계 학습 방법들이 사용될 수 있다. 그리고 기계 학습 방법 중에 하나인 깊은 신경망(Deep Neutral Network, DNN) 방법을 통해서도 객체가 분리될 수 있다. 여기서, 학습할 수 있는 정보는 객체 분류 정보, 객체의 경계 영역 정보, 객체가 아닌 배경의 분류 정보, 배경 영역 정보들 일 수 있다. 이러한 방법들은 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 알 수 있는 바 구체적인 설명은 생략한다.

객체 분리부(210)는 입력되는 영상에서 객체를 분리하기 전에 전처리를 수행할 수 있다. 입력 영상 전체가 윈도우(객체 분리부(210)에 설정된 입력 크기)에 맞게 리사이징되거나, 입력 영상이 윈도우에 맞게 중첩 타일링되어 다중 크롭될 수 있다. 영상이 객체 분리부(210)를 통과하면 객체를 포함하는 경계 영역(경계 영역 정보)만 남는다. 그리고 객체 분리부(210)는 객체 분리 성능을 높이기 위해서 입력되는 다차원 영상을 다양한 크기로 전처리한 후 객체를 분리하는 경우에도, 객체 분리부(210)는 입력된 영상의 크기로 최종적으로 보정하여 경계 영역 정보를 출력한다.

객체 분리부(210)에서 출력되는 객체를 포함하는 경계 영역은, 객체 분류부(220)로 입력되고, 상기에서 설명한 바와 같이 객체 판단부(400)의 스위칭 제어에 의해 객체 부분 검출부(300)로 입력될 수 있다.

객체 분류부(220)는 경계 영역에 존재하는 객체의 종류를 분류한다. 도 3에 나타낸 바와 같이 객체 분류부(220)는 l개의 객체 분류부(제1 ~ 제l 객체 분류부)를 통해 객체를 분류할 수 있다.

객체 분류부(220)는 평균 정확도의 평균값(mean Average Precision, mAP)이 높은 객체 분류기를 사용하거나, 평균 정확도의 평균값(mAP)이 다소 높으며 평균 정확도(Average Precision, AP)가 상호 보완적(complementary)인 관계를 가지는 복수의 객체 분류부를 조합하여 사용할 수 있다. 즉, 객체 분류부(220)는 분류 성능을 나타내는 평균 정확도(AP)가 객체의 종류에 따라 상이한 결과를 갖는 것(즉, 상호 연관성(correlation)이 적고 상호 보완성이 높은 것)들을 사용하는 경우 균일하면서 좋은 성능을 가질 수 있다. 예를 들어, 2개의 객체 종류를 분류할 수 있는 3개의 객체 분류부가 있다고 가정하자. 이때, 제1 객체 분류부는 (80, 50)의 AP 성능을 가지고, 제2 객체 분류부는 (70, 50)의 AP 성능을 가지며, 제3 객체 분류부는 (60, 80)의 AP 성능을 갖는 경우, 제1 객체 분류부와 제2 객체 분류부는 상호 연관성이 높고 제1 객체 분류부와 제3 객체 분류부는 상호 보완성이 높다. 따라서, 객체 분류부(220)는 제1 객체 분류부와 제3 객체 분류부를 사용하는 경우 더욱 향상된 성능을 달성할 수 있다.

한편, 객체 분류부(220)에 포함된 l개의 객체 분류부는 각각 신경망 기반의 기계 학습 방법을 포함한 다양한 기계 학습 방법을 사용하여 객체를 분류할 수 있다. 그리고, 객체 분류부(220)의 l개의 객체 분류부는 각각 경계 영역(BR) 정보, 경계 영역에 포함된 객체에 대한 분류 정보, 그리고 분류 정보에 대한 N 차원의 신뢰도 벡터를 생성하여 출력한다. 여기서, l개의 객체 분류부에서 출력되는 경계 영역 정보에 대한 크기는 각각 다를 수 있다. 객체 분리부(210)가 m개의 경계 영역을 출력하고 이 경계 영역들이 각각 l개의 객체 분류부를 통과하는 경우, 객체의 분류 정보와 N 차원의 신뢰도 벡터 간의 쌍은 m*l개가 된다.

객체 검출 융합부(230)는 객체 분류부(220)의 l개 객체 분류부에서 각각 생성한 경계 영역 정보, 경계 영역에 포함된 객체에 대한 분류 정보, 그리고 분류 정보에 대한 N 차원의 신뢰도 벡터를 조합하여, 입력되는 영상에 대한 객체의 종류를 분류하고 해당 객체의 위치를 검출한다.

객체 분류부(220)가 복수의 객체 분류기로 구성되는 경우, 복수의 경계 영역 정보가 객체 검출 융합부(230)로 입력된다. 이때, 객체 검출 융합부(230)는 필터링하여 하나의 경계 영역 정보를 생성한다. 도 4는 본 발명의 실시예에 따른 경계 영역 정보에 대한 필터링 방법을 나타내는 도면이다. 도 4의 (a)는 객체 검출 융합부(230)로 입력되는 복수의 경계 영역 정보(해당 도면에서는 사각형으로 표시)를 나타내며, 도 4의 (b)는 객체 검출 융합부(230)에서 출력되는 하나의 경계 영역 정보를 나타낸다. 도 4에서는 객체의 관점에서 경계 영역을 사각형으로 표현한 경우를 나타냈다. 도 4의 (a)에 나타낸 바와 같이, 객체 검출 융합부(230)의 입력은 얼룩 고양이(tabby cat)의 관점에서는 다양한 크기와 조금씩 다른 영역을 포함하는 복수의 사각형 경계 영역 정보이다. 도 4의 (b)에 나타낸 바와 같이, 객체 검출 융합부(230)는 이러한 복수의 경계 영역 정보를 한 경계 영역 정보로 걸러준다. 여기서 필터링 방법은 조정(Refinement), 회귀(Regression), NMS(Non-Maximum Suppression)일 수 있으며, 이 방법들이 조합될 수 있다.

도 5는 본 발명의 실시예에 따른 객체 부분 검출부(300)를 나타내는 블록도이다.

도 5에 나타낸 바와 같이, 본 발명의 실시예에 따른 객체 부분 검출부(300)는 부분 분리부(310), 부분 분류부(320), 그리고 부분 검출 융합부(330)를 포함한다.

본 발명의 실시예에 따른 객체 부분 검출부(300)는 객체 분리부(210) 또는 영상 생성부(100)로부터 영상을 입력 받으며 객체에 속하는 부분들에 대한 경계 영역의 위치와 경계 영역에 포함되는 객체의 종류(class)를 분류하여 출력한다.

본 발명의 실시예에 따른 객체 전체 분류부(200)가 N개 객체의 종류를 분류하는 경우, 객체 부분 검출부(300)도 N개 객체의 종류를 분류하고 검출한다. 이때, 도 5에 나타낸 객체 부분 검출부(300)는 q개의 부분 분류부를 포함하고 있으나, 아래에서는 설명의 편의상 하나의 객체 부분 검출부(300)에 대해서만 설명한다. 객체 부분 검출부(300)가 객체 분리부(210)로부터 영상(객체를 포함하는 경계 영역에 대한 영상)을 입력받는 경우, 객체 부분 검출부(300)는 객체의 부분 경계 영역 위치를 찾고 객체의 부분 경계 영역 위치에 포함된 객체의 종류를 분류하고, N 차원의 신뢰도 벡터 생성한다. 객체 부분 검출부(300)는 객체의 부분 경계 영역 위치, 객체의 종류, 그리고 신뢰도 벡터를 출력하며, 이 출력 정보들을 본 발명의 실시예에서는 '부분 맥락(part context) 정보'이라 한다. 객체의 부분 경계 영역 위치는 입력된 영상에서의 위치이므로 객체를 포함하는 경계 영역만을 입력했다면, 해당 경계 영역 위치 정보를 반영하여 보상해야 한다. 한편, 객체 부분 검출부(300)가 영상 생성부(100)로부터 영상(다차원 영상)을 입력 받는 경우에도 상기와 같은 부분 맥락을 출력할 수 있다.

예를 들어, 본 발명의 실시예에 따른 객체 판단 장치(1000)가 소나무, 주목, 상수리나무, 느티나무, 사철나무, 귤나무를 분류하는 시스템이라고 가정하자. 객체 전체 검출부(200)는 각 나무에 따라, 경계 영역, 경계 영역에 포함된 나무에 대한 분류 정보, 6차원의 신뢰도 벡터를 포함하는 전체 맥락을 추출한다. 그러나, 계절, 날씨, 나무들의 나이, 병충해 등 다양한 요인에 의해 전체 맥락만으로는 나무를 분류하고 검출하기 쉽지 않다.

따라서, 본 발명의 실시예에서는 객체 부분 검출부(300)를 이용하여 나무들의 부분들을 정의한다. 먼저, 식물의 기관은 크게 번식을 담당하는 생식 기관, 그리고 영양을 생성하는 영양 기관으로 나뉜다. 생식 기관은 꽃, 열매(종자, 씨)로 나뉘고, 영양 기관은 뿌리, 줄기, 그리고 잎 등으로 나뉜다. 한편, 본 발명의 실시예에 따른 객체 부분 검출부(300)는 나무들의 잎으로만, 줄기로만, 뿌리로만, 꽃으로만, 또는 열매로만 6 종류의 나무를 각각 분류할 수도 있다. 예를 들어, 객체 부분 검출부(300)가 열매를 통해 부분 검출을 수행하는 경우, 객체 부분 검출부(300)는 입력되는 영상에서 열매를 분석하여 열매의 경계 영역 위치를 찾고, 열매가 상수리나무의 것임을 분류하고, 6차원의 신뢰도 벡터 정보를 부분 맥락정보로 획득한다. 객체 판단부(400)는 이 부분 맥락 정보을 이용하여 상수리나무 열매를 포함하는 객체는 상수리나무라고 최종적으로 판단한다.

부분 분리부(310)는 객체 분리부(210) 또는 영상 생성부(100)로부터 입력되는 영상에서 객체의 부분을 분리한다. 부분 분리부(310)가 영상에서 부분을 분리하는 방법은 세그멘테이션(segmentation) 알고리즘이나 다양한 기계 학습 방법들이 사용될 수 있다. 그리고 기계 학습 방법 중에 하나인 깊은 신경망(Deep Neutral Network, DNN) 방법을 통해서도 부분이 분리될 수 있다. 여기서, 학습할 수 있는 정보는 객체 분류 정보, 객체의 부분 경계 영역 정보, 객체가 아닌 배경의 분류 정보, 배경 영역 정보들일 수 있다.

부분 분리부(310)는 입력되는 영상에서 객체의 부분을 분리하기 전에 전처리를 수행할 수 있다. 입력 영상 전체가 윈도우(부분 분리부(310))에 설정된 입력 크기)에 맞게 리사이징되거나, 입력 영상이 윈도우에 맞게 중첩 타일링되어 다중 크롭될 수 있다. 영상이 부분 분리부(310)를 통과하면 객체의 부분을 포함하는 부분 경계 영역만 남는다. 그리고 부분 분리부(310)는 부분의 분리 성능을 높이기 위해서 입력되는 다차원 영상을 다양한 크기로 전처리한 후 객체의 부분을 분리하는 경우에도, 부분 분리부(310)는 입력된 영상의 크기로 보정하여 부분 경계 영역 정보를 최종적으로 출력한다.

부분 분류부(320)는 부분 경계 영역에 존재하는 객체의 종류를 분류한다. 도 5에 나타낸 바와 같이 부분 분류부(320)는 q개의 부분 분류부를 통해 객체를 분류할 수 있다.

부분 분류부(320)는 평균 정확도의 평균값(mean Average Precision)이 높은 부분 분류기를 사용하거나, 평균 정확도의 평균값이 다소 높으며 평균 정확도(Average Precision, AP)가 상호 보완적(complementary)인 관계를 가지는 복수의 부분 분류부를 조합하여 사용할 수 있다. 그리고, 부분 분류부(320)에 포함된 q개의 부분 분류부는 각각 신경망 기반의 기계 학습 방법을 포함한 다양한 기계 학습 방법을 사용하여 객체를 분류할 수 있다. 그리고, 부분 분류부(320)의 q개의 객체 분류부는 각각 부분 경계 영역 정보, 부분 경계 영역에 포함된 객체에 대한 분류 정보, 그리고 분류 정보에 대한 N 차원의 신뢰도 벡터를 생성하여 출력한다. 여기서, q개의 부분 분류부에서 출력되는 부분 경계 영역 정보에 대한 크기는 각각 다를 수 있다. 부분 분리부(310)가 r개의 부분 경계 영역을 출력하고 이 부분 경계 영역들이 q개의 부분 분류부를 통과하는 경우, 객체의 분류 정보와 N 차원의 신뢰도 벡터 간의 쌍은 r*q개가 된다.

부분 검출 융합부(330)는 부분 분류부(320)의 q개 객체 분류부에서 각각 생성한 부분 경계 영역 정보, 부분 경계 영역에 포함된 객체에 대한 분류 정보, 그리고 분류 정보에 대한 N 차원의 신뢰도 벡터를 조합하여, 입력되는 영상에 대한 객체의 종류를 분류하고 해당 객체의 위치를 검출한다.

부분 분류부(320)가 q개의 부분 분류기로 구성되는 경우, 복수 개의 부분 경계 영역 정보가 부분 검출 융합부(330)로 입력된다. 이때, 부분 검출 융합부(330)는 입력된 정보를 취합하여 한 부분당 하나의 부분 경계 영역 정보를 생성한다. 도 6은 본 발명의 실시예에 따른 부분 경계 영역 정보에 대한 필터링 방법을 나타내는 도면이다. 도 6의 (a)는 부분 검출 융합부(330)로 입력되는 복수의 부분 경계 영역 정보(해당 도면에서는 사각형으로 표시)를 나타내며, 도 6의 (b)는 부분 검출 융합부(330)에서 출력되는 하나의 부분 경계 영역 정보를 나타낸다. 도 6에서는 객체의 부분 관점에서 경계 영역을 사각형으로 표현한 경우를 나타내었다. 도 6의 (a)에 나타낸 바와 같이, 부분 검출 융합부(330)의 입력은 얼룩 고양이(tabby cat) 귀의 관점에서는 다양한 크기와 조금씩 다른 영역을 포함하는 복수의 사각형 경계 영역 정보이다. 도 6의 (b)에 나타낸 바와 같이, 부분 검출 융합부(330)는 이러한 복수의 사각형 경계 영역 정보를 필터링 방법을 통해 하나의 사각형 경계 영역 정보를 생성한다. 여기서 필터링 방법은 조정(Refinement), 회귀(Regression), NMS(Non-Maximum Suppression)일 수 있으며, 이 방법들이 조합될 수 있다.

객체 전체 검출부(200)는 객체의 전체 맥락 정보를 객체 판단부(400)로 출력하고, 객체 부분 검출부(300)는 객체의 부분 맥락 정보를 객체 판단부(400)로 출력한다. 여기서, 객체의 전체 맥락 정보는 객체의 경계 영역 정보, 객체의 분류 정보, 그리고 N 차원의 신뢰도 정보를 포함하며, 객체의 부분 맥락 정보는 객체 부분의 경계 영역 정보, 객체 부분을 통해 판단된 객체의 분류 정보, 그리고 N 차원의 신뢰도 정보를 포함한다. 객체 판단부(400)는 이러한 전체 맥락 정보와 부분 맥락 정보를 이용하여, 객체 분류 및 검출을 최종적으로 판단한다.

먼저, 객체 판단부(400)는 전체 맥락 정보와 부분 맥락 정보에서 서로 관련이 있는 정보들끼리 서로 하나의 그룹으로 묶어준다. 즉, 객체 판단부(400)는 객체 경계 영역 정보와 객체 부분 경계 영역 정보간에 일부 혹은 전체 포함 관계가 있는 정보들에 대해서 하나씩 그룹화(Grouping) 작업을 한다. 이때, 그룹으로 묶인 결과들은 객체들간의 중첩 등으로 다른 객체 부분들이 묶일 수 있다. 이를 방지하기 위해서 객체 판단부(400)의 그룹화 작업은 객체의 경계 영역 정보의 관계를 전체와 부분, 부분과 부분의 상대적인 위치와 관계를 판단하여, 서로 연관성이 높은 정보들끼리 묶는다. 여기서, 객체 판단부(400)는 제외된 부분은 다음 작업으로 그룹화 작업을 넘긴다. 예를 들어 개로 분류된 전체 맥락 정보에 위에서부터 머리, 몸, 다리 순으로 부분 맥락 정보가 나와야 하는데 머리, 다리, 몸, 다리로 부분 맥락 정보가 그룹화되어 있다면 다리 부분은 제외를 한다. 객체 판단부(400)는 전체 맥락 정보와 부분 맥락 정보가 모두 그룹화될 때까지 해당 작업을 반복한다. 객체 판단부(400)에서 그룹화된 정보들은 경계 영역 정보들의 공간적 분포 특징을 이용하였다. 객체 판단부(400)는 전체와 부분의 추론된 분류 결과와 N 차원의 신뢰도 벡터들을 이용하여 각 그룹의 최종 객체의 분류 및 검출을 수행한다. 객체 판단부(400)는 전체와 부분의 비율에 맞게 신뢰도 벡터들의 가중치 합을 구할 수도 있고, 기계 학습 방법을 이용하여 정답인 GT(ground truth) 신뢰도 벡터들로 미리 학습된 판단기를 가지고도 최종 객체의 분류 결과를 알아내어 객체를 검출할 수도 있다.

이와 같이 본 발명의 실시예에 따른 객체 판별 장치는 객체에 대한 전체 맥락 정보뿐만 아니라 객체의 부분 맥락 정보를 이용하여 객체를 최종 분류 및 검출함으로써, 객체의 세밀한 분류 또는 검출이 가능하다.

도 7은 본 발명의 실시예에 따른 객체 판별 방법을 나타내는 플로우차트이다.

먼저, 객체 판단 장치(1000)은 다차원 영상을 생성한다(S710). 즉, 객체 판단 장치(1000)의 영상 생성부(100)은 다양한 영상 획득 모듈을 이용하여, 입력 영상을 다차원 영상으로 변환하거나 생성한다. 여기서, 다차원 영상은 2차원 영상, 다시점 이차 영상, 비디오 영상 또는 3차원 영상 등일 수 있다.

객체 판단 장치(1000)는 S710에서 생성된 다차원 영상에서 객체의 전체 맥락정보를 생성한다(S720). 즉, 객체 판단 장치(1000)의 객체 전체 검출부(200)는 다차원 영상에서 객체의 다차원 영상에서 객체의 종류를 분류하고 해당 객체의 위치를 검출한다. 여기서, 객체의 전체 맥락 정보는 객체의 경계 영역 정보(위치), 객체의 분류 정보, 그리고 N 차원의 신뢰도 정보를 포함한다. 객체 전체 검출부(200)의 객체 분리부(210)는 경계 영역 정보(위치)를 생성한다. 그리고 객체 전체 검출부(200)의 객체 분류부(220)는 경계 영역에 존재하는 객체의 종류인 객체의 분류 정보와 함께 N 차원의 신뢰도 정보를 생성한다.

객체 판단 장치(1000)는 S710에서 생성된 다차원 영상에서 객체의 부분 맥락 정보를 생성한다(S730). 즉, 객체 판단 장치(1000)의 객체 부분 검출부(300)는 다차원 영상에서 객체의 부분에 대한 종류를 분류하고 해당 부분의 위치를 검출한다. 여기서, 객체의 부분 맥락 정보는 객체 부분의 경계 영역 정보, 객체 부분을 통해 판단된 객체의 분류 정보, 그리고 N 차원의 신뢰도 정보를 포함한다. 객체 부분 검출부(300)의 부분 분리부(310)는 부분 경계 영역 정보(위치)를 생성한다. 그리고 객체 부분 분류부(320)는 부분 경계 영역에 존재하는 객체의 종류인 객체 분류 정보와 함께 N 차원의 신뢰도 정보를 생성한다.

그리고 객체 판단 장치(1000)는 S720에서 생성된 전체 맥락 정보와 S730에서 생성된 부분 맥락 정보를 이용하여, 최종적으로 객체를 분류하고 검출한다. 즉, 객체 판단 장치(1000)의 객체 판단부(400)는 객체의 전체 맥락 정보와 객체의 부분 맥락 정보를 조합하여, 객체의 종류와 객체의 위치를 최종적으로 판단한다.

이상의 설명에서는 2차원 영상을 예로 하여 객체를 판별하는 방법에 대해서 주로 설명하였지만, 상기에서 설명한 본 발명의 실시예에 따른 객체 판단 방법이 다시점 영상 및 3차원 영상에도 동일하게 적용될 수 있다.

다시점 영상은 여러 시점의 2차원 영상이므로 2차원 영상을 여러 개 입력하는 것과 동일하므로, 인접 시점의 2차원 영상들의 결과를 서로 참조하여 동일한 객체를 나타내는 정보를 취합하는 과정이 추가된다. 다시점 영상을 이용하여 객체를 판단하는 경우에는 여러 시점의 영상을 이용하므로, 중첩된 객체 혹은 가려진 객체들을 더욱 잘 검출할 수 있다.

도 8은 3차원 영상을 3차원 공간에서 투영한 영상을 나타내는 도면이다. 도 8의 (a)는 3차원 영상을 나타내고, 도 8의 (b), (c), (d) 각각은 3차원 영상을 3차원 공간(즉, x, y, z축)으로 투영한 영상을 나타낸다. 도 8의 (b), (c), (d)에 나타낸 바와 같이, 투영한 영상은 각각 2차원 영상이다. 따라서, 상기에서 설명한 객체 판단 방법은 3차원 영상에 대해서 투영하여 획득한 2차원 영상들을 이용하여 객체를 분류하고 검출할 수 있다. 한편, 3차원 영상을 인접 시점을 갖는 다시점 2차원 영상으로 변환한 후 객체를 검출할 수 있다. 그리고, 3차원에 적용되는 기계 학습 알고리즘도 이용될 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

영상에서 객체를 판단하는 객체 판단 장치로서,
상기 영상에서 상기 객체의 전체에 해당하는 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 위치를 포함하는 전체 맥락 정보를 생성하는 객체 전체 검출부,
상기 영상에서 상기 객체의 일부분(part)에 해당하는 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 일부분 위치를 포함하는 부분 맥락 정보를 생성하는 객체 부분 검출부, 그리고
상기 전체 맥락 정보 및 상기 부분 맥락 정보를 이용하여, 상기 객체를 판단하는 객체 판단부를 포함하는 객체 판단 장치.
제1항에 있어서,
상기 객체 전체 검출부는,
상기 영상에서 상기 객체의 전체를 포함하는 경계 영역을 분리하는 객체 분리부, 그리고
상기 경계 영역의 위치, 상기 경계 영역에 포함되는 상기 객체의 종류를 분류하는 객체 분류부를 포함하는 객체 판단 장치.
제2항에 있어서,
상기 객체 분류부는 복수의 객체 분류부를 포함하며,
상기 복수의 객체 분류부는 각각 상기 경계 영역의 위치에 대한 정보, 상기 객체의 종류에 대한 정보를 생성하며,
상기 객체 전체 검출부는 상기 복수의 객체 분류부의 출력을 조합하는 객체 검출 융합부를 더 포함하는 객체 판단 장치.
제1항에 있어서,
상기 객체 부분 검출부는,
상기 영상에서 상기 객체의 일부분을 포함하는 경계 영역을 분리하는 부분 분리부, 그리고
상기 경계 영역의 위치, 상기 경계 영역에 포함되는 상기 객체의 일부분에 대한 종류를 분류하는 부분 분류부를 포함하는 객체 판단 장치.
제4항에 있어서,
상기 부분 분류부는 복수의 부분 분류부를 포함하며,
상기 복수의 부분 분류부는 각각 상기 경계 영역의 위치에 대한 정보, 상기 객체의 일부분에 대한 종류에 대응하는 정보를 생성하며,
상기 객체 부분 검출부는 상기 복수의 부분 분류부의 출력을 조합하는 부분 검출 융합부를 더 포함하는 객체 판단 장치.
제1항에 있어서,
상기 영상을 생성하는 영상 생성부를 더 포함하며,
상기 영상은 다차원 영상인 객체 판단 장치.
제6항에 있어서,
상기 영상 생성부는,
입력되는 신호에서 가시광선에 해당하는 부분을 획득하는 가시광선 획득부,
상기 입력되는 신호에서 상기 가시 광선을 제외한 비가시광선에 해당하는 부분을 획득하는 비가시광선 획득부, 그리고
상기 가시광선과 상기 비가시광선을 이용하여 상기 입력되는 신호에서 배경 신호를 제거하는 객체 및 배경 분리부를 포함하는 객체 판단 장치.
제1항에 있어서,
상기 객체 판단부는 상기 객체의 위치 및 상기 객체의 부분 위치를 이용하여, 상기 전체 맥락 정보와 상기 부분 맥락 정보를 서로 그룹으로 묶는 객체 판단 장치.
제1항에 있어서,
상기 전체 맥락 정보는 상기 객체 전체 검출부가 생성한 상기 객체의 종류에 대한 신뢰도 벡터를 더 포함하며,
상기 부분 맥락 정보는 상기 객체 부분 검출부가 생성한 상기 객체의 종류에 대한 신뢰도 벡터를 더 포함하는 객체 판단 장치.
제1항에 있어서,
상기 객체 전체 검출부와 상기 객체 부분 검출부는 각각 기계 학습 방법을 통해 상기 객체의 종류를 분류하는 객체 판단 장치.
제1항에 있어서,
상기 객체의 일부분은 상기 객체에서 고유의 정보를 지닌 부분인 객체 판단 장치.
영상에서 객체를 판단하는 방법으로서,
상기 영상에서 상기 객체의 전체에 해당하는 제1 영역을 분리하는 단계,
상기 제1 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 위치를 포함하는 전체 맥락 정보를 생성하는 단계,
상기 영상에서 상기 객체의 일부분(part)에 해당하는 제2 영역을 분리하는 단계,
상기 제2 영역을 이용하여, 상기 객체의 종류, 그리고 상기 객체의 일부분 위치를 포함하는 부분 맥락 정보를 생성하는 단계, 그리고
상기 전체 맥락 정보 및 상기 부분 맥락 정보를 이용하여, 상기 객체를 판단하는 단계를 포함하는 방법.
제12항에 있어서,
상기 영상을 생성하는 단계를 더 포함하며,
상기 영상은 다차원 영상인 방법.
제13항에 있어서,
상기 전체 맥락 정보를 생성하는 단계는,
복수의 객체 분류부를 통해, 각각 상기 객체의 종류에 대한 정보, 상기 제1 영역의 위치에 대한 정보를 생성하는 단계, 그리고
상기 각각의 객체 종류에 대한 정보 및 상기 각각의 제1 영역의 위치에 대한 정보를 조합하여 상기 전체 맥락 정보를 생성하는 단계를 포함하는 방법.
제12항에 있어서,
상기 전체 맥락 정보는 상기 전체 맥락 정보를 생성하는 단계에서 생성된 상기 객체의 종류에 대한 신뢰도 벡터를 더 포함하며,
상기 부분 맥락 정보는 상기 부분 맥락 정보를 생성하는 단계에서 생성된 상기 객체의 종류에 대한 신뢰로 벡터를 더 포함하는 방법.
제12항에 있어서,
상기 객체의 위치 및 상기 객체의 부분 위치를 이용하여, 상기 전체 맥락 정보와 상기 부분 맥락 정보를 서로 그룹으로 묶는 단계를 더 포함하는 방 법.
영상에서 객체를 판단하는 방법으로서,
상기 영상에서 상기 객체의 전체에 해당하는 제1 경계 영역을 분리하는 단계,
상기 제1 경계 영역에 포함된 객체의 종류인 제1 종류를 분류하고 상기 제1 경계 영역의 위치를 검출하는 단계,
상기 영상에서 상기 객체의 일부분에 해당하는 제2 경계 영역을 분리하는 단계,
상기 제2 경계 영역에 포함된 객체의 종류인 제2 종류를 분류하고 상기 제2 경계 영역의 위치를 검출하는 단계, 그리고
상기 제1 종류, 상기 제1 경계 영역의 위치, 상기 제2 종류, 상기 제2 경계 영역의 위치를 이용하여, 상기 객체를 판단하는 단계를 포함하는 방법.
제17항에 있어서,
상기 객체의 일부분은 상기 객체에서 고유의 정보를 지닌 부분인 방법.
제17항에 있어서,
상기 제2 종류를 분류하고 상기 제2 경계 영역의 위치를 검출하는 단계는,
복수의 부분 분류부를 통해, 각각 상기 제2 종류에 대한 정보, 상기 제2 경계 영역의 위치에 대한 정보를 생성하는 단계, 그리고
상기 각각의 제2 종류에 대한 정보 및 상기 각각의 제2 경계 영역의 위치에 대한 정보를 조합하는 단계를 포함하는 방법.