KR20200137129A

KR20200137129A - 관계형 질의를 이용한 객체 검출방법 및 그 장치

Info

Publication number: KR20200137129A
Application number: KR1020190062948A
Authority: KR
Inventors: 김진화; 박재선; 전재현
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-09
Also published as: KR102251704B1

Abstract

본 실시예는 트리플렛 구조의 관계형 질의를 기반으로 한 학습을 통해, 이미지 상에서 검출되는 다양한 객체들 중 특정한 관계를 가지는 객체들을 보다 정확하게 검출 가능토록 하는 객체 검출방법 및 그 장치에 관한 것이다.

Description

관계형 질의를 이용한 객체 검출방법 및 그 장치{Method and Apparatus for Detecting Object Using Relational Query}

본 실시예는 관계형 질의를 이용한 객체 검출방법 및 그 장치에 관한 것이다. 더욱 상세하게는, 트리플렛 구조의 관계형 질의를 기반으로 한 학습 절차를 통해 이미지 상에서 특정한 관계를 갖는 객체들을 검출하기 위한 객체 검출방법 및 그 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

지능형 영상 분석 시스템은 CCTV(closed circuit television) 등의 영상 촬영 장치로부터 수집된 영상 정보를 실시간으로 분석하여 타깃 객체(target object)의 검출, 추적, 인식 등을 수행하고, 다양한 분석 정보를 제공하는 시스템을 의미한다. CCTV 보급의 확대 및 영상 분석 기술의 고도화에 따라, 현재 다양한 분야에 지능형 영상 분석 시스템이 구축되어 활용되고 있다.

지능형 영상 분석 시스템이 수행하는 일련의 영상 분석 작업 중에서 타깃 객체 검출은 영상 분석의 가장 기본적인 과정이자 분석 정보의 신뢰성을 담보하는 가장 중요한 작업이라고 할 수 있다. 지금까지 타깃 객체 검출을 위해 다양한 알고리즘이 제안된 바 있으나, 높은 정확도로 인해 기계 학습(machine learning) 기반의 객체 검출 방법이 각광받고 있다.

이러한, 기계 학습 기반의 객체 검출 모델에 의하는 경우 사용자로부터 객체 검출을 위한 질의가 입력되면, 이미지 상에서 대응되는 객체들을 순차적으로 검출하여 제공하는 것이 일반적이다. 한편, 이와 같은 경우, 사용자로부터의 질의가 이미지 상에 특정 관계를 갖는 객체들을 검출하고자 하는 경우 자칫 타깃 객체들의 오검출이 발생할 수 있다는 문제점이 존재한다. 예컨대, 이미지 상에 공을 가지고 있는 남자를 검출하고자 하는 경우 공이라는 타깃 객체가 남자가 가지고 있는 공이 아닌 길바닥에 놓여져있는 공이 오검출되는 경우가 발생할 수 있다.

특히, 지능형 영상 분석 시스템에서 객체 검출은 지능형 영상 분석의 첫 단계이기 때문에, 타깃 객체의 오검출은 전체 시스템의 성능을 저하시키는 주요한 원인이 될 수 있다. 따라서, 이미지 상에서 객체들의 관계 추론을 통해 특정한 관계를 가지는 타깃 객체들을 정확하게 검출할 수 있는 객체 검출 방법의 필요성이 제기된다.

본 실시예는 트리플렛 구조의 관계형 질의를 기반으로 한 학습을 통해, 이미지 상에서 검출되는 다양한 객체들 중 특정한 관계를 가지는 객체들을 보다 정확하게 검출 가능토록 하는 데 그 목적이 있다.

본 실시예는, 학습 이미지 및 상기 학습 이미지 내 포함된 임의의 객체 간의 관계를 정의한 트리플렛(Triplet) 구조의 입력 데이터를 입력받는 과정; 상기 학습 이미지 내 탐지된 후보 객체 각각에 대하여 특징(Feature) 정보를 검출하고, 상기 특징 정보를 활용하여 상기 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성하는 과정; 및 상기 입력 데이터 및 상기 관계 데이터를 활용하여, 상기 후보 객체들 중 상기 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들이 도출되도록 학습 모델을 트레이닝하는 과정을 포함하는 것을 특징으로 하는 객체 검출방법을 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 대상 이미지를 입력받고, 상기 대상 이미지를 학습 모델에 적용하여 상기 대상 이미지 내 탐지된 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성하는 과정; 및 상기 대상 이미지 내 검출 대상이 되는 임의의 객체 간의 관계를 정의한 트리플렛 구조의 입력 데이터를 입력받고, 상기 관계 데이터를 기반으로 상기 후보 객체들 중 상기 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 검출하는 과정을 포함하는 것을 특징으로 하는 객체 검출방법을 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 대상 이미지 및 상기 대상 이미지 내 검출 대상이 되는 임의의 객체 간의 관계를 정의한 트리플렛 구조의 입력 데이터를 입력받는 입력부; 및 상기 대상 이미지를 학습 모델에 적용하여 상기 대상 이미지 내 탐지된 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성하고, 상기 관계 데이터를 기반으로 상기 후보 객체들 중 상기 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 검출하는 학습부를 포함하는 것을 특징으로 하는 객체 검출장치를 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 제 1항 내지 제 9항 중 어느 한 항에 의한 객체 검출방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 제 10항 내지 제 14항 중 어느 한 항에 의한 객체 검출방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

본 실시예에 의하면, 트리플렛 구조의 관계형 질의를 기반으로 한 학습을 통해, 이미지 상에서 검출되는 다양한 객체들 중 특정한 관계를 가지는 객체들을 보다 정확하게 검출 가능한 효과가 있다.

도 1은 본 실시예에 따른 객체 검출장치를 개략적으로 나타낸 블록 구성도이다.
도 2는 본 실시예에 따른 객체 검출을 위한 트레이닝 방법을 설명하기 위한 순서도이다.
도 3은 본 실시예에 따른 객체 검출방법을 설명하기 위한 순서도이다.
도 4는 본 실시예에 따른 관계형 질의를 이용한 객체 검출방법을 설명하기 위한 개념도이다.
도 5는 본 실시예에 따른 관계형 질의를 이용한 객체 검출방법의 각 과정을 설명하기 위한 예시도이다.
도 6 내지 도 7은 본 실시예에 따른 트리플렛 구조의 입력 데이터를 설명하기 위한 예시도이다.
도 8은 본 실시예에 따른 객체 검출결과를 설명하기 위한 예시도이다.

이하, 본 발명의 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

딥러닝(Deep Learning) 기술의 핵심 계산 모형인 인공 신경망(Neural Network)은 각각의 뉴런이 인간의 시각 신경계에서 중복 영역의 응답 특성과 유사한 특성을 갖도록 다중 계층으로 배치된 인공신경망의 한 종류이다.

본 실시예는 이러한, 뉴럴 네트워크 기반의 학습 모델을 활용하여 이미지 상에 특정한 관계를 갖는 객체들을 검출하는 방법에 대한 내용을 개시한다. 보다 자세하게는, 트리플렛 구조의 관계형 질의를 기반으로 한 학습을 통해, 이미지 상에서 검출되는 다양한 객체들 중 특정한 관계를 가지는 객체들을 검출할 수 있도록 하는 방법을 제안한다.

도 1은 본 실시예에 따른 객체 검출장치를 개략적으로 나타낸 블록 구성도이다.

본 실시예에 따른 객체 검출장치는 입력부(100), 학습부(110) 및 출력부(120)를 포함한다. 이때, 본 실시예에 따른 객체 검출장치에 포함되는 구성요소는 반드시 이에 한정되는 것은 아니다. 예컨대, 객체 검출장치 상에는 학습 모델의 트레이닝을 위한 트레이닝부를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.

입력부(100)는 객체 검출을 수행하는 과정에서 필요한 정보들을 송수신하는 기능을 수행한다.

본 실시예에 따른 입력부(100)는 대상 이미지 및 대상 이미지 내 검출 대상이 되는 객체와 관련한 입력 데이터를 입력받는다.

한편, 일반적으로 이미지 상에 존재하는 객체의 경우 다른 객체와의 사이에 특정 관계를 이루고 있는 경우가 대부분이다. 예를 들어, 이미지 상에 존재하는 사람이 머리에 모자를 쓰고 있는 경우, "사람"이라는 객체와 "모자"라는 객체 사이에는 "쓰다"라는 관계를 갖게된다. 마찬가지로, 이미지 상에 존재하는 사람의 뒤에 또 다른 사람이 있는 경우 "사람"이라는 객체와 "사람"이라는 객체 사이에는 "뒤"라는 관계를 갖게된다.

본 실시예에 따른, 객체 검출장치는 이러한, 객체들 간의 관계 추론을 통해 특정한 관계를 가지는 객체들을 이미지 상에서 정확하게 검출하고자 하는 데 그 목적이 있다.

이를 위해, 본 실시예에 따른 입력부(100)는 대상 이미지 내 추출 대상이 되는 임의의 객체 간의 관계를 정의한 트리플렛 구조의 입력 데이터를 입력받는다. 예컨대, 입력부(100)는 주체(Subject)-관계(Predicate)-객체(Object)의 트리플렛 구조로 구성되는 복수의 서로 다른 자연어 정보를 입력 데이터로서 수신할 수 있다.

입력부(100)는 사용자로부터 사전에 트리플렛 구조로 변경된 질의를 수신할 수도 있지만, 질의를 입력받고, 이를 분석 알고리즘 등을 통해 트리플렛 구조로 직접 변경할 수도 있다.

학습부(110)는 입력부(100)로부터 제공된 대상 이미지 및 입력 데이터를 기반으로 학습절차를 수행하고, 학습 결과에 따라 대상 이미지 내 탐지된 후보 객체들 중 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 검출하는 기능을 수행한다.

본 실시예에 따른 학습부(110)는 학습 모델을 구비하고, 구비된 학습 모델을 활용하여 대상 이미지 및 입력 데이터에 대한 학습절차를 수행할 수 있다. 이러한, 학습 모델은 학습 이미지 및 입력 데이터를 기반으로 한 객체들 간의 관계 추론을 통해 이미지 상에서 상기의 매칭 후보 객체들을 정확하게 검출 가능토록 사전에 트레이닝된 모델일 수 있다.

이하, 도 2를 함께 참조하여, 본 실시예에 따른 학습 모델의 트레이닝 과정에 대해 설명하도록 한다.

트레이닝부(미도시)는 학습 이미지 및 학습 이미지 내 포함된 임의의 객체 간의 관계를 정의한 트리플렛 구조의 입력 데이터를 입력받는다(S202).

트레이닝부는 학습 이미지 내 탐지된 후보 객체 각각에 대하여 특징(Feature) 정보를 검출하고(S204), 검출된 특징 정보를 활용하여 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성한다(S206). 여기서, 트레이닝부는 학습 이미지 내 후보 객체들을 직접 검출할 수 있으며, 다른 실시예에서는 사전에 검출된 후보 객체들에 대한 정보를 제공받을 수도 있다.

트레이닝부는 후보 객체 각각에 대하여 시각적(Visual) 특징정보 및 공간적(Spatial) 특징정보를 추출할 수 있으며, 이를 기반으로 임의의 두 후보 객체들에 대해서 상기의 관계 데이터를 생성할 수 있다. 여기서, 임의의 두 후보 객체들은 후보 객체 간의 조합으로 생성 가능한 적어도 하나의 후보 객체 쌍일 수 있다.

본 실시예에 있어서, 트레이닝부는 후보 객체들의 특징 정보에 대한 차이 값을 3차원 공간 상에 투영한 대조 텐서(Contrastive Tensor) 데이터를 관계 데이터로서 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. 한편, 이러한, 대조 텐서 데이터를 두 후보 객체 간의 관계를 나타내는 지표로서 활용하는 경우 두 후보 객체 간의 관계적인 차이를 학습하는 데 있어서 보다 유리하다는 장점이 존재한다.

트레이닝부는 관계 데이터 및 입력 데이터를 활용하여 후보 객체들 중 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들이 도출되도록 학습 모델을 트레이닝한다(S208). 한편, 트레이닝부는 학습 모델의 트레이닝에 앞서, 입력 데이터에 대한 전처리 과정을 수행할 수 있다.

본 실시예에 있어서, 트레이닝부는 입력 데이터를 구성하는 복수의 자연어 정보(ex: 단어)들을 워드 임베딩 기법에 따라 인덱스화하여 각각의 자연어 정보에 매칭되는 벡터 정보를 생성하고, 생성된 벡터 정보들을 풀링(Pooling) 과정을 통해 단일 벡터 정보로 변경하여 제공할 수 있다. 한편, 본 실시예에 따른 트레이닝부는 입력 데이터를 Low-Rank Trilinear Pooling 기법을 통해 단일 벡터 정보로 변경하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

본 실시예에 있어서, 트레이닝부는 후보 객체들 중 입력 데이터의 임의의 객체(Subject 및 Object) 각각에 해당하는 매칭 후보 객체들이 동시에 출력되도록 학습 모델을 트레이닝시킬 수 있다.

이를 위해, 트레이닝부는 후보 객체들 각각에 대하여 입력 데이터 상의 임의의 객체들과의 대응 여부와 관련한 확률분포 정보를 산출하는 관계 추론 과정을 수행할 수 있다. 한편, 본 실시예에 있어서, 트레이닝부는 벡터의 내적(Dot Product) 기법을 통해 후보 객체들 각각에 대한 확률분포 정보를 산출할 수 있다. 예컨대, 트레이닝부는 관계 데이터와 입력 데이터를 곱한 값을 기반으로 하여 후보 객체들 각각에 대한 확률분포 정보를 산출하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

본 실시예에 있어서, 트레이닝부는 관계 데이터와 입력 데이터를 곱한 값이 최대가 되는 후보 객체들을 입력 데이터 상의 임의의 객체들과의 사이에 매칭 확률이 최대인 매칭 후보 객체들로서 추론할 수 있다. 한편, 트레이닝부는 후보 객체들에 상응하는 확률분포를 주변화(Marginalization)시킴으로써 입력 데이터 상의 임의의 객체 각각에 상응하는 매칭 후보 객체들을 추출할 수 있다.

이후, 트레이닝부는 도출된 매칭 후보 객체들을 입력 데이터 상의 임의의 객체들에 상응하는 정답 이미지와 비교하고, 비교결과에 따라 학습 모델에 대한 하나 이상의 파라미터를 변경시킬 수 있다.

본 실시예에 있어서, 트레이닝부는 비선형 공간 상에서 입력 데이터에 상응하는 벡터 정보와 매칭 후보 객체들에 상응하는 벡터 정보 간 서로 최대한 근접하도록 상기의 파라미터를 반복적으로 업데이트할 수 있다. 예컨대, 트레이닝부는 입력 데이터에 상응하는 벡터 정보와 이미지 내 객체에 상응하는 벡터 정보를 다른 벡터 정보로 사영시키는 프로젝션 매트릭스(Matrix)와 관련한 파라미터 값을 변경시킬 수 있다.

도 2에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 2에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 2는 시계열적인 순서로 한정되는 것은 아니다.

전술한 바와 같이 도 2에 기재된 학습 모델의 트레이닝 방법은 프로그램으로 구현되고 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 기록될 수 있다.

학습부(110)는 상기와 같이 트레이닝된 학습 모델을 활용하여 대상 이미지 및 입력 데이터에 대한 학습절차를 수행할 수 있다.

본 실시예에 있어서, 학습부(110)는 데이터 생성부(112) 및 추출부(114)를 포함하여 구현될 수 있다. 이러한, 학습부(110)에 포함되는 구성요소는 학습 모델에 의해 활성화되며, 활성화 시 기 설정된 학습 절차들이 자동으로 실행될 수 있도록 한다.

이하, 도 4 및 도 5를 함께 참조하여, 본 실시예에 따른 학습부(110)의 각 구성요소의 동작에 대해 설명하도록 한다.

도 4 및 도 5를 참조하면, 데이터 생성부(112)는 대상 이미지 내 탐지된 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성한다.

데이터 생성부(112)는 대상 이미지 내 탐지된 후보 객체 각각에 대하여 특징 정보를 검출하고, 검출된 특징 정보를 활용하여 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성한다.

데이터 생성부(112)는 후보 객체 간의 조합으로 생성 가능한 적어도 하나의 후보 객체 쌍 각각에 대하여 관계 데이터를 생성한다. 한편, 본 실시예에 있어서, 데이터 생성부(112)는 후보 객체들의 특징 정보에 대한 차이 값을 3차원 공간 상에 투영한 대조 텐서(Contrastive Tensor) 데이터를 관계 데이터로서 생성할 수 있다.

한편, 데이터 생성부(112)는 입력 데이터를 구성하는 복수의 자연어 정보들을 워드 임베딩 기법에 따라 인덱스화하여 각각의 자연어 정보에 매칭되는 벡터 정보를 생성하고, 생성된 벡터 정보들을 풀링 과정을 통해 단일 벡터 정보로 변경하여 제공할 수 있다.

추출부(114)는 관계 데이터 및 입력 데이터를 활용하여 후보 객체들 중 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 도출한다.

추출부(114)는 후보 객체들 각각에 대하여 입력 데이터 상의 임의의 객체들과의 대응 여부와 관련한 확률분포 정보를 산출한다. 이때, 추출부(114)는 관계 데이터와 입력 데이터를 곱한 값을 기반으로 하여 후보 객체들 각각에 대한 확률분포 정보를 산출할 수 있다.

추출부(114)는 후보 객체들 각각에 대한 확률분포 정보를 기반으로 후보 객체들 중 입력 데이터 상의 임의의 객체들과의 사이에 매칭 확률이 최대인 매칭 후보 객체들을 산출한다. 한편, 본 실시예에 있어서, 학습 모델이 입력 데이터에 상응하는 벡터 정보와 매칭 후보 객체들에 상응하는 벡터 정보 간 서로 최대한 근접하도록 그 파라미터 값이 사전에 트레이닝됨에 따라 매칭 후보 객체들에 대해서 다른 후보 객체들 대비 확률분포 정보가 큰 값이 도출될 수 있다. 이에, 추출부(114)는 확률분포 정보가 최대 값을 갖는 후보 객체들을 매칭 후보 객체들로서 산출할 수 있다.

한편, 추출부(114)가 관계 데이터 및 입력 데이터를 활용하여 매칭 후보 객체들을 도출하는 수식은 수학식 1과 같다.

수학식 1에서 U_o ^Tb_o- U_s ^Tb_s는 이미지 내 임의의 두 후보 객체 간의 관계 데이터를, r은 트리플렛 구조의 입력 데이터에 대한 단일 벡터 정보를 나타낸다.

본 실시예에 있어서, 추출부(114)는 후보 객체들에 상응하는 확률분포를 주변화시킴으로써 입력 데이터 상의 임의의 객체 각각에 상응하는 매칭 후보 객체들이 동시에 출력될 수 있도록 한다.

출력부(120)는 추출한 매칭 후보 객체들을 사용자에게 시각화하여 제공한다.

한편, 도 6은 본 실시예에 따른 관계정보를 설명하기 위한 예시도이며, 도 7은 본 실시예에 따른 따른 트리플렛 구조에 기반한 두 객체 사이의 관계를 설명하기 위한 예시도이다.

도 8을 참조하면, 출력부(120)가 도 6 내지 도 7에 도시된 바와 같이, 대상 이미지 상에 입력 데이터의 임의의 객체(Subject 및 Object) 각각에 해당하는 매칭 후보 객체들을 동시에 출력시키며, 이를 통해, 두 객체 사이의 관계를 시각화하여 제공하는 것을 확인할 수 있다.

도 3은 본 실시예에 따른 객체 검출방법을 설명하기 위한 순서도이다.

객체 검출장치는 대상 이미지를 입력받는다(S302).

객체 검출장치는 단계 S302의 대상 이미지를 학습 모델에 적용하여, 대상 이미지 내 탐지된 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성한다(S304). 단계 S304에서 객체 검출장치는 대상 이미지 내 탐지된 후보 객체 각각에 대하여 특징 정보를 검출하고, 검출된 특징 정보를 활용하여 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성한다.

객체 검출장치는 후보 객체들의 특징 정보에 대한 차이 값을 3차원 공간 상에 투영한 대조 텐서 데이터를 관계 데이터로서 생성할 수 있다.

객체 검출장치는 트리플렛 구조의 입력 데이터가 입력되면(S306), 단계 S304의 관계 데이터를 활용하여 후보 객체들 중 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 도출한다(S308). 단계 S306에서 객체 검출장치는 주체(Subject)-관계(Predicate)-객체(Object)의 트리플렛 구조로 구성되는 복수의 서로 다른 자연어 정보를 입력 데이터로서 수신할 수 있다.

객체 검출장치는 입력 데이터를 구성하는 복수의 자연어 정보들을 워드 임베딩 기법에 따라 인덱스화하여 각각의 자연어 정보에 매칭되는 벡터 정보를 생성하고, 생성된 벡터 정보들을 풀링 과정을 통해 단일 벡터 정보로 변경하여 제공할 수 있다.

객체 검출장치는 관계 데이터와 입력 데이터를 곱한 값을 기반으로 하여 후보 객체들 각각에 대한 확률분포 정보를 산출한다.

객체 검출장치는 후보 객체들 각각에 대한 확률분포 정보를 기반으로 후보 객체들 중 입력 데이터 상의 임의의 객체들과의 사이에 매칭 확률이 최대인 매칭 후보 객체들을 산출한다.

여기서, 단계 S302 내지 S308은 앞서 설명된 데이터 객체 검출장치의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.

도 3에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 3에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.

전술한 바와 같이 도 3에 기재된 객체 검출방법은 프로그램으로 구현되고 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 기록될 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 입력부 110: 학습부
112: 데이터 생성부 114: 추출부
120: 출력부

Claims

학습 이미지 및 상기 학습 이미지 내 포함된 임의의 객체 간의 관계를 정의한 트리플렛(Triplet) 구조의 입력 데이터를 입력받는 과정;
상기 학습 이미지 내 탐지된 후보 객체 각각에 대하여 특징(Feature) 정보를 검출하고, 상기 특징 정보를 활용하여 상기 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성하는 과정; 및
상기 입력 데이터 및 상기 관계 데이터를 활용하여, 상기 후보 객체들 중 상기 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들이 도출되도록 학습 모델을 트레이닝하는 과정
을 포함하는 것을 특징으로 하는 객체 검출방법.
제 1항에 있어서,
상기 입력받는 과정은,
주체(Subject)-관계(Predicate)-객체(Object)의 상기 트리플렛 구조로 구성되는 복수의 서로 다른 자연어 정보를 상기 입력 데이터로서 수신하는 것을 특징으로 하는 객체 검출방법.
제 1항에 있어서,
상기 입력 데이터를 구성하는 복수의 자연어 정보들을 워드 임베딩 기법에 따라 인덱스화하여 각각의 자연어 정보에 매칭되는 벡터 정보를 생성하고, 생성한 벡터 정보들을 풀링(Pooling) 과정을 통해 단일 벡터 정보로 변경하여 제공하는 과정을 더 포함하는 것을 특징으로 하는 객체 검출방법.
제 1항에 있어서,
상기 생성하는 과정은,
상기 후보 객체 간의 조합으로 생성 가능한 적어도 하나의 후보 객체 쌍 각각에 대하여 상기 관계 데이터를 생성하는 것을 특징으로 하는 객체 검출방법.
제 1항에 있어서,
상기 생성하는 과정은,
상기 후보 객체들의 특징 정보에 대한 차이 값을 3차원 공간 상에 투영한 대조 텐서(Contrastive Tensor) 데이터를 상기 관계 데이터로서 생성하는 것을 특징으로 하는 객체 검출방법.
제 1항에 있어서,
상기 트레이닝하는 과정은,
상기 후보 객체들 중 상기 입력 데이터의 상기 임의의 객체 각각에 해당되는 매칭 후보 객체들이 동시에 출력되도록 상기 학습 모델을 트레이닝시키는 것을 특징으로 하는 객체 검출방법.
제 1항에 있어서,
상기 트레이닝하는 과정은,
상기 후보 객체들 각각에 대하여 상기 임의의 객체들과의 대응 여부와 관련한 확률분포 정보를 산출하여 상기 매칭 후보 객체들을 추론하고, 추론된 매칭 후보 객체 및 상기 입력 데이터에 상응하는 정답 이미지를 기반으로 상기 학습 모델의 하나 이상의 파라미터를 변경시키는 것을 특징으로 하는 객체 검출방법.
제 7항에 있어서,
상기 트레이닝하는 과정은,
비선형 공간 상에서 상기 입력 데이터에 상응하는 벡터 정보와 상기 매칭 후보 객체들에 상응하는 벡터 정보 간 서로 근접하도록 상기 파라미터를 변경시키는 것을 특징으로 하는 객체 검출방법.
제 8항에 있어서,
상기 트레이닝하는 과정은,
상기 입력받는 과정 내지 상기 트레이닝하는 과정에서 활용되는 프로젝션 매트릭스와 관련한 파라미터 값을 변경시키는 것을 특징으로 하는 객체 검출방법.
대상 이미지를 입력받고, 상기 대상 이미지를 학습 모델에 적용하여 상기 대상 이미지 내 탐지된 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성하는 과정; 및
상기 대상 이미지 내 검출 대상이 되는 임의의 객체 간의 관계를 정의한 트리플렛 구조의 입력 데이터를 입력받고, 상기 관계 데이터를 기반으로 상기 후보 객체들 중 상기 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 검출하는 과정
을 포함하는 것을 특징으로 하는 객체 검출방법.
제 10항에 있어서,
상기 학습 모델은,
상기 입력 데이터 및 상기 관계 데이터에 근거하여, 상기 후보 객체들 중 상기 매칭 후보 객체들이 도출되도록 파라미터가 사전에 트레이닝된 것을 특징으로 하는 객체 검출방법.
제 10항에 있어서,
상기 입력 데이터를 구성하는 복수의 자연어 정보들을 워드 임베딩 기법에 따라 인덱스화하여 각각의 자연어 정보에 매칭되는 벡터 정보를 생성하고, 생성한 벡터 정보들을 풀링 과정을 통해 단일 벡터 정보로 변경하여 제공하는 과정을 더 포함하는 것을 특징으로 하는 객체 검출방법.
제 10항에 있어서,
상기 검출하는 과정은,
상기 후보 객체들의 특징 정보에 대한 차이 값을 3차원 공간 상에 투영한 대조 텐서 데이터를 상기 관계 데이터로서 생성하는 것을 특징으로 하는 객체 검출방법.
제 10항에 있어서,
상기 검출하는 과정은,
상기 후보 객체들 중 상기 입력 데이터의 상기 임의의 객체 각각에 해당되는 매칭 후보 객체들을 동시에 출력하는 것을 특징으로 하는 객체 검출방법.
대상 이미지 및 상기 대상 이미지 내 검출 대상이 되는 임의의 객체 간의 관계를 정의한 트리플렛 구조의 입력 데이터를 입력받는 입력부; 및
상기 대상 이미지를 학습 모델에 적용하여 상기 대상 이미지 내 탐지된 후보 객체들 사이에 상대적 관계를 나타내는 관계 데이터를 생성하고, 상기 관계 데이터를 기반으로 상기 후보 객체들 중 상기 입력 데이터에 해당하는 관계를 갖는 매칭 후보 객체들을 검출하는 학습부
를 포함하는 것을 특징으로 하는 객체 검출장치.
제 1항 내지 제 9항 중 어느 한 항에 의한 객체 검출방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
제 10항 내지 제 14항 중 어느 한 항에 의한 객체 검출방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.