KR20190121549A - 영상 내 객체의 의미론적 분석 및 인식 방법과 장치 - Google Patents
영상 내 객체의 의미론적 분석 및 인식 방법과 장치 Download PDFInfo
- Publication number
- KR20190121549A KR20190121549A KR1020180044988A KR20180044988A KR20190121549A KR 20190121549 A KR20190121549 A KR 20190121549A KR 1020180044988 A KR1020180044988 A KR 1020180044988A KR 20180044988 A KR20180044988 A KR 20180044988A KR 20190121549 A KR20190121549 A KR 20190121549A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- semantic
- objects
- group
- information
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012795 verification Methods 0.000 claims abstract description 15
- 230000003993 interaction Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012937 correction Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G06K9/20—
-
- G06K9/627—
-
- G06K9/6282—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 영상(동영상 포함) 내 장면을 구성하고 있는 배경 그룹객체들의 의미론적 상관관계를 정의 및 학습시키고 각 그룹객체 내의 세부객체들끼리 갖는 의미론적 계층관계를 정의 및 학습시켜, 입력된 영상 내의 배경 그룹객체 및 세부객체를 정확하게 검출 및 인식하고 영상 내 장면의 의미론적 해석을 가능하게 하는 방법 및 장치를 제안한다. 본 발명은 크게, 1) 영상 내 객체 간 의미론적 상관관계 및 계층관계의 학습 및 학습파라미터를 이용한 영상 내 객체의 의미론적 분석 및 인식, 그리고 2) 인터넷검색엔진의 이미지 검색 및 텍스트 검색의 상호교차검색 검증을 통한 상기 분석 및 인식 결과의 오류정정 그리고 학습DB 자동 확장 기술을 제안한다.
Description
본 발명은 사진 등의 영상(동영상 포함) 내의 객체들을 의미론적으로 분석하여 배경부터 세밀한 객체까지 정확하게 인식하는 기술에 관한 것이다. 더 구체적으로, 본 발명은 하늘, 건물, 사람, 땅, 바다 등의 그룹객체에 대한 장면중심의 의미론적 관계 해석과 각 그룹 내에서 세부객체들의 의미론적 계층구조를 분석하여 하늘, 땅, 바다 등의 배경부터 사람의 안경, 목걸이, 시계, 신발 등의 세부객체까지 검출하고 인식하는 방법에 관한 것이다.
종래 기술에 따르면, 영상에서 객체를 검출, 분할, 및 인식하기 위해서 객체와 대응하는 레이블 데이터를 수집, 제작, DB화하여 Supervised Learning(지도학습) 방식으로 기계학습을 수행한다. 이와 같은 방법은 객체와 레이블 데이터를 수집하고 제작하는 과정에 많은 시간과 비용이 소요되며, 잘못된 레이블을 할당하거나 상위레벨의 레이블링을 통해 사용자가 원하지 않는 레이블 결과를 얻을 수 있다. 최근, US2017/0039720A1에서는 객체의 모양, 포즈, 키조인트 등의 구조 트리를 구축하고 학습하여 입력된 뎁스영상에서 객체를 볼륨 복원한 후, 학습된 구조 트리를 이용하여 보이지 않는 부분을 예측하고 인식하는 시스템이 공개되었다.
위와 같이 종래기술은 객체이미지와 레이블의 페어(pair) 데이터를 학습하거나 객체의 형상, 포즈 등의 특징을 학습하여 입력된 객체를 검출하거나 인식하는 방법이지만, 학습 데이터 구축에 큰 비용과 시간이 소요되며, 구축된 학습 데이터의 수정 및 확장에도 또한 큰 비용이 소요된다. 아울러, 구축된 학습 데이터에 오류가 있는 상태로 학습된 알고리즘(network)을 이용한 객체 검출은 오류가 높아지는 단점이 존재한다. 따라서 객체이미지와 레이블 데이터의 오류를 검출 및 정정하는 방법과 기구축한 학습DB의 업데이트 및 확장 기술이 매우 절실하다.
본 발명은 영상(동영상 포함) 내 장면을 구성하고 있는 배경 그룹객체들의 의미론적 상관관계를 정의 및 학습시키고 각 그룹객체 내의 세부객체들끼리 갖는 의미론적 계층관계를 정의 및 학습시켜, 입력된 영상 내의 배경 그룹객체 및 세부객체를 정확하게 검출 및 인식하고 영상 내 장면의 의미론적 해석을 가능하게 하는 방법 및 장치를 제안한다.
또한, 본 발명은 기구축된 학습DB 기반 학습 알고리즘의 오류를 검출하여 학습DB를 정정하거나 신규 데이터를 확장하는 방법 및 장치를 제안한다.
상기 과제를 해결하기 위한 수단으로, 본 발명은 크게, 1) 영상 내 객체 간 의미론적 상관관계 및 계층관계의 학습 및 학습파라미터를 이용한 영상 내 객체의 의미론적 분석 및 인식, 그리고 2) 인터넷검색엔진의 이미지 검색 및 텍스트 검색의 상호교차검색 검증을 통한 상기 분석 및 인식 결과의 오류정정 그리고 학습DB 자동 확장 기술을 제안한다.
본 발명에 따른 영상 내 객체의 의미론적 분석 및 인식 방법/장치는
입력된 영상세트에서 장면을 구성하는 각 그룹객체를 의미론적 그룹객체 간 상관관계에 기반하여 검출하고 분할하고, 분할된 그룹객체를 구성하는 다양한 세부객체를 의미론적 세부객체 계층관계에 기반하여 검출하고 분할하는, 영상 내 그룹객체와 세부객체의 검출 및 분할 단계/실행부;
상기 검출 및 분할된 객체들 간의 의미론적 상관관계 및 계층관계에 기반하여 객체 내 혹은 객체 간의 상호동작을 분석하여 인식하는, 영상을 구성하는 그룹객체 및 세부객체들 간의 의미론적 장면 분석 단계/실행부를 포함한다.
다른 실시형태에서, 상기 영상 내 객체의 의미론적 분석 및 인식 방법은, 상기 인식된 객체정보를 다양한 인터넷검색엔진을 사용하여 영상검색과 텍스트검색의 교차검색을 수행하여 최종 객체정보로 결정하는 객체정보 검증 단계/실행부를 추가로 포함할 수 있다.
상기 영상 내 그룹객체와 세부객체의 검출 및 분할 단계에서는, 영상의 배경 그룹객체 이미지와 레이블(label)의 페어(pair) 정보, 그룹객체 간 상관관계 정보, 세부객체 이미지와 레이블의 Pair 정보, 세부객체 내 계층관계 정보로 학습되어 있는 학습DB로부터 학습파라미터가 제공된다.
상기 의미론적 그룹객체 간 상관관계는, 장면 내에 각 객체들의 객체들 간의 위치관계, 접합관계, 및 상호작용 중 적어도 하나를 포함할 수 있다.
상기 의미론적 세부객체 계층관계는, 세부객체 간 상호위치, 상호작용, 및 상호역할 중 적어도 하나를 포함할 수 있다.
상기 객체정보 검증 단계/실행부는 상기 객체인식 결과를 다양한 인터넷검색엔진을 이용하여 객체이미지검색과 장면분석으로 얻은 레이블 결과의 텍스트검색의 교차검색을 행하여 톱10 결과를 출력하고, 이 톱10 결과물 중에서 밀도분포(density distribution) 기반, 98% 이상의 결과물을 최종 객체인식 정보로 결정할 수 있다.
상기 객체정보 검증 단계/실행부는, 인식된 객체정보의 인식도를 평가하고 오류를 정정하는 단계/실행부를 포함할 수 있다, 또한 상기 객체정보 검증 단계/실행부는, 존재하지 않는 객체정보에 대해서는 새로운 정보를 추가하는 단계/실행부를 포함할 수 있다. 이렇게 정정되거나 추가된 정보는 기구축된 학습DB로 보내져 DB 및 계층구조가 업데이트되거나 학습DB가 확장될 수 있다.
이상에서 소개한 본 발명 사상의 구성과 효과는 이하에서 도면과 함께 설명하는 발명의 상세한 설명에 의해 보다 더 명확해질 것이다.
본 발명은 기존 기계학습에서의 학습DB 구축을 위한 시간과 비용의 비효율적인 프로세스를 전환해주는 기술이며, 기구축된 학습DB를 자동으로 확장해주는 방법과, 머리띠, 목걸이, 장갑 등의 세부객체까지도 비교적 정확하게 검출, 분할, 및 인식할 수 있는 기술로서, 종래의 기술적, 비용적 문제점들을 극복하는 이점이 있다.
즉, 본 발명에 따르면, 영상 내 장면을 구성하는 각 객체들의 의미론적 상관관계와 계층관계를 학습하여 매우 세부적인 객체까지 정확하게 검출, 분할, 및 인식할 수 있는 학습알고리즘을 통해서 다양한 검증된 인터넷검색엔진의 학습데이터와 알고리즘으로 학습알고리즘의 결과를 검증 및 보완하고 자동으로 학습DB를 확장할 수 있어서, 고효율적인 포렌직, 영상보안, 자율주행, 영상분석, 및 매우 세부적인 Image Captioning 등에 사용할 수 있는 이점이 있다.
도 1은 본 발명에 따른 영상 내 객체의 의미론적 분석 및 인식 방법 및 장치의 전체적인 개략 구성도
도 2는 도 1의 개략적 구성의 구체적인 처리 절차를 설명하는 흐름도
도 3은 의미론적 객체인식 및 장면분석 네트워크의 작용 설명도
도 4는 도 3에서 소개한 각 영상예(111, 121, 211)의 실사
도 5는 도 1의 제2파트(20)에서 처리되는 의미론적 그룹객체 간 상관관계(relation)를 설명하기 위한 예시 영상
도 6은 도 1의 제2파트(20)에서 처리되는 의미론적 세부객체 계층관계(hierarchy)를 설명하기 위한 예시 영상
도 2는 도 1의 개략적 구성의 구체적인 처리 절차를 설명하는 흐름도
도 3은 의미론적 객체인식 및 장면분석 네트워크의 작용 설명도
도 4는 도 3에서 소개한 각 영상예(111, 121, 211)의 실사
도 5는 도 1의 제2파트(20)에서 처리되는 의미론적 그룹객체 간 상관관계(relation)를 설명하기 위한 예시 영상
도 6은 도 1의 제2파트(20)에서 처리되는 의미론적 세부객체 계층관계(hierarchy)를 설명하기 위한 예시 영상
이하, 본 발명의 구체적인 실시형태를 설명한다. 실시형태의 설명에서는 다양한 사진 혹은 동영상의 장면 중에 하늘, 건물, 사람, 땅을 예로 들어 설명하겠지만, 그 외의 배경과 객체들 또한 같은 메커니즘으로 해석될 수 있음은 당연하다. 또한, 본 발명은 몇 가지 배경과 사람 관점에서 발명을 설명하겠지만, 그 대상이 사람에 한정되지 않음은 명백하다.
도 1은 본 발명에 따른 영상 내 객체의 의미론적 분석 및 인식 방법 및 장치의 전체적인 개략 구성도이다.
제1파트(10)와 제2파트(20)는 영상 내 객체의 의미론적 분석 및 인식을 위한 기계학습에 관련된 구성요소들이다. 제3파트(30)와 제4파트(40)는 제1, 2파트에 의한 영상 내 객체의 의미론적 분석 및 인식을 위한 기계학습 DB의 검증 및 확장에 관련된 구성요소이다.
제1파트(10)는 영상(Image set) 내 객체들(그룹객체와 세부객체)의 검출 및 분할 단계(또는 실행부)이다(Object detection & segmentation). 입력된 영상세트(1)에서 장면을 구성하는 각 그룹객체(하늘, 건물, 사람, 도로, 차, 땅, 바다, 나무 등)를 의미론적 그룹객체 간 상관관계 학습알고리즘을 이용하여 검출하고 분할한다. 또한, 분할된 그룹객체를 구성하는 다양한 세부객체(모자, 가방, 목걸이, 상의, 하의, 신발, 자동차 문, 바퀴, 의자, 문, 창문 등)를 그룹객체 내의 의미론적 계층관계 학습알고리즘을 이용하여 검출하고 분할한다.
제2파트(20)는 영상을 구성하는 그룹객체 및 세부객체들 간의 의미론적 장면 분석 단계(또는 실행부)이다(Scene analysis). 영상 내 객체들 간의 의미론적 상관관계 및 계층관계에 기반하여 객체 내 혹은 객체 간의 상호동작을 분석/해석하여 제1파트(10)에서 검출 및 분할된 객체를 객체정보로서 인식한다.
제3파트(30)는 검증을 위한 단계(또는 실행부)로, 제2파트(20)에서 인식된 객체정보를 다양한 인터넷검색엔진을 사용하여 영상검색과 텍스트검색의 교차검색을 수행하여(Object retrieval), 인식된 객체정보의 인식도를 평가하고 오류를 정정하거나 정보가 없는 객체에 대한 새로운 정보를 추가한다(Annotation).
제4파트(40)는 제3파트(30)에서 검출된 오류 정보나 정보 부재 객체에 대하여 정정된 정보와 새로운 정보를 기존 학습DB에 업데이트 및 추가하여 학습DB를 확장한다 - 새로운 객체 레이블을 학습DB에 추가하여 계층관계 재구성(Add new object label to DB & Recompose hierarchy).
도 2는 도 1의 개략적 구성의 구체적인 처리 절차를 설명하기 위한 것으로, 객체와 배경이 포함된 영상 데이터(Object/background image data)(1)에 대해 작동하는 학습알고리즘 기반의 의미론적 장면 분석 및 세부객체 인식, 그리고 학습DB 자동 업데이트 및 확장의 처리흐름도이다.
하늘, 거리, 도로, 바다, 건물, 사람, 동물, 자동차, 비행기, 나무 등 다양한 배경 그룹객체 이미지와 레이블(label)의 페어(pair) 정보, 그룹객체 간 상관관계 정보(하늘 아래에 건물, 도로, 바다, 땅, 나무, 자동차가 존재; 나무, 자동차, 건물 등은 땅 위에 존재; 배, 서핑보드, 물고기는 바다에 존재, 등), 모자, 목걸이, 상의, 하의, 가방, 신발, 의자, 책상, 스탠드, 책, 모니터 등 세부객체 이미지와 레이블의 Pair 정보, 객체 내 계층관계 정보(모자-머리, 목걸이-목, 상의-상체, 하의-하체, 신발-발, 가방-어깨, 장갑-손 등)로 지도학습(supervised learning)되어 있는 학습DB(2)로부터 학습파라미터가 SA 네트워크(의미론적 객체인식 및 장면분석 네트워크)(도 1의 실시형태에서는 제2파트(20)에 해당됨)에 전달된다.
SA 네트워크의 의미론적 그룹객체 검출 및 분할 단계(또는 실행부)(11)와 의미론적 세부객체 검출 및 분할 단계(또는 실행부)(12)는, 다양한 배경과 객체로 구성된 입력 영상(동영상 포함) 데이터(1)로부터 그룹객체 및 세부객체를 검출 및 분할한다. 검출 및 분할된 각 객체정보는 의미론적 객체 간 상관관계와 의미론적 객체 내 계층관계를 분석하는 의미론적 장면분석 단계(또는 실행부)(21)에서 객체정보로서 인식된다.
세부객체 검색 단계(또는 실행부)(31)는 상기 SA 네트워크에서 출력된 객체정보 인식 결과를 다양한 인터넷검색엔진을 이용하여 객체이미지검색과 장면분석으로 얻은 레이블 결과의 텍스트검색의 교차검색을 행하여 톱10 결과를 출력한다. 톱10 결과물 중에서 밀도분포(density distribution) 기반, 98% 이상의 결과물을 최종 객체인식 정보로 결정한다. 이는 기구축된 제한된 학습DB로 지도학습된 본 발명의 시스템 네트워크의 데이터 부족의 한계를, 전세계에서 사용되고 있는 검증되고 다양한 데이터로 계속 업데이트되고 있는 검색엔진을 사용함으로써 극복할 수 있는 대안이 된다.
이렇게 검증된 결과, 인식도 평가 단계(또는 실행부)(32)는 SA 네트워크로부터 나온 세부객체 검출 및 분할, 레이블 결과가 검색엔진을 통해 나온 결과와 상이하면 레이블 오류로 인식하여(Label evaluation) 오류를 정정한다. 만일 SA 네트워크가 세부객체를 검출 및 분할하였지만 학습DB(2)의 데이터 부족으로 적당한 레이블링을 하지 못하였으면 새로운 정보를 추가한다(33)(New annotation). 이렇게 정정되거나 추가된 정보는 기구축된 학습DB(2)로 보내져 DB 및 계층구조가 업데이트되거나 학습DB(2)가 확장(41)된다. 이렇게 검증단계를 거쳐 정정된 오류와 새롭게 추가된 레이블이 기구축된 학습DB에 업데이트되고 추가되는 과정을 거치며 이것은 학습DB의 데이터를 자동으로 확장하는 방안이 된다.
도 3은 의미론적 객체인식 및 장면분석 네트워크(SA network)의 작용을, 하늘, 거리, 사람으로 구성된 영상 예를 참조하여 나타낸다. 의미론적 그룹객체 검출 및 분할 단계(또는 실행부)(11)는 영상예 111과 같이 그룹단위로 영상을 분할하고, 의미론적 세부객체 검출 및 분할 단계(또는 실행부)(12)는 영상예 121과 같이 객체 내 세부객체 단위로 분할한다. 이렇게 검출 및 분할된 객체에 대한 의미론적 상관관계 및 계층관계 정보를 기반으로 세부객체 단위로 객체 인식이 수행된다(21). 211은 그 결과 영상이다. 도 4는 도 3에서 소개한 각 영상예(111, 121, 211)의 실사를 보여준다.
도 5는 도 1의 제2파트(20), 즉, 의미론적 장면 분석 단계(또는 실행부)에서 처리되는 의미론적 그룹객체 간 상관관계(relation)를 설명하기 위한 도면이다. 장면 내에 각 객체들의 상관관계(상호위치, 상호접합, 상호작용 등)에 따라 객체들의 의미론적 배치가 결정되어 객체 간 경계를 보다 명확하게 할 수 있고, 모호한 객체가 주위 다른 객체와의 상관관계에 따라 더 큰 확률로 예측될 수 있다.
의미론적 그룹객체 간 상관관계는 앞에서 언급한 의미론적 그룹객체 간 상관관계 학습알고리즘에 의해 처리된다. 장면 내에 각 객체들의 객체들 간의 위치관계(도 5의 장면(221)에서, 책상 앞에 있는 의자, 책상 위에 있는 램프, 책상 위에 있는 모니터, 책상 옆에 있는 책장, 벽 램프 등 …; 다른 예로, 도로 위에 있는 차, 도로 옆에 있는 나무, 나무 위의 하늘, 도로 위에 있는 사람, 자전거 등 …), 접합관계(도로 혹은 잔디 위에 사람이 걸어감, 혹은 앉아있음 등…), 상호작용(도 5에서 벽 스위치를 올리면 벽램프가 켜짐 등 ...; 다른 예로, 하늘이 어둡고 비가 오면, 사람이 우산을 씀, 하늘에서 눈이 내리면, 도로나 길에 눈이 쌓임 등 ..) 등의 상관관계에 따라 그룹단위 객체들의 배치와 경계를 의미론적으로 해석 및 분석할 수 있다.
의미론적 상관관계 학습알고리즘은 이와 같은 의미론적 상관관계를 이용하여 다양한 장면과 다양한 객체들 그리고 다양한 객체들 간의 상관관계를 갖는 학습데이터들을 수집하고, 의미론적 상관관계를 Annotation하여 CNN(convolutional neural network, 컨벌루션 신경망)과 같이 구성된 학습네트워크를 지도학습(supervised learning)시켜서 최적의 의미론적 상관관계 계수를 추출한다. 그룹객체 상관관계 학습알고리즘은, 다양한 그룹객체들이 각각 구성된 세부객체들 간의 위치, 접합, 상호작용 등의 단순히 눈에 보이는 관계 외에 의미론적으로 해석될 수 있는 관계들을 정의하고 다양한 훈련데이터를 수집하여 Annotation하고 이를 학습네트워크에서 Supervised learning시키는 학습알고리즘이다.
도 6은 도 1의 제2파트(20), 즉, 의미론적 장면 분석 단계(또는 실행부)에서 처리되는 의미론적 세부객체 계층관계(hierarchy)를 설명하기 위한 도면이다. 그룹객체 내에 존재하는 많은 세부객체들의 정확한 검출과 분할을 위해서, 각 그룹객체가 갖는 의미론적 계층관계(세부객체 간 상호위치, 상호작용, 상호역할 등)에 기반하여 세부객체를 인지하고 검출하여 보다 정확한 경계를 찾을 수 있다. 도 6에서 231은 사람 그룹객체의 예시 영상이고, 232는 사람 그룹객체에 포함된 다양한 세부객체의 계층관계를 나타낸다.
도 6에서는 영상 내 많은 그룹객체 중 사람 그룹객체 내의 세부객체의 계층관계를 설명한다. 검출된 그룹객체인 사람이 모자, 머리띠, 안경, 마스크, 목걸이, 목플러, 가방, 장갑, 상의, 하의, 양말, 신발 등을 착용하고 있을 경우의 예이다. 모자와 머리띠는 머리에 상호접합되고, 안경과 마스크는 얼굴에 상호접합되며, 목걸이와 목플러는 목에 상호접합되고, 상의는 상체에, 하의는 하체에, 장갑은 손에, 양말은 발에, 신발은 발에, 가방은 어깨에 상호접합되는 계층관계를 갖는다. 이러한 의미론적 세부객체 계층관계에 따라 학습된 파라미터에 기반한 의미론적 세부객체 검출 및 분할 네트워크(예컨대 도 2의 SA 네트워크 내의 '12')는 검출된 사람 그룹객체 내에서 다양한 세부객체의 정확한 경계를 찾을 수 있다.
세부객체의 의미론적 계층관계는 세부객체의 의미론적 계층관계 학습알고리즘을 이용하여 세부객체들의 접합관계(도 5에서의 침대+시트, 램프+전구, 책장+책, 의자+바퀴, 도 6에서의 안경+마스크+얼굴 등…)에 따라 객체들의 배치와 경계를 의미론적으로 해석 및 분석할 수 있다.
이상에서, 본 발명을 구체적인 실시예와 실시 형태로 예로 들어 설명하였다. 그러나 본 발명의 기술적 범위는 이러한 실시예에 의해 제한되는 것이 아니라, 이하의 특허청구범위의 합리적 해석에 의해 정해지는 것이다.
도면에 설명이 없는 도면부호:
111: 그룹단위로 분할된 영상, 121: 객체 내 세부객체 단위로 분할된 영상, 211: 객체 인식이 수행된 결과, 221: 다양한 객체들이 포함된 예시 영상, 231: 사람 그룹객체의 예시 영상, 232: 사람 그룹객체에 포함된 다양한 세부객체의 계층관계
111: 그룹단위로 분할된 영상, 121: 객체 내 세부객체 단위로 분할된 영상, 211: 객체 인식이 수행된 결과, 221: 다양한 객체들이 포함된 예시 영상, 231: 사람 그룹객체의 예시 영상, 232: 사람 그룹객체에 포함된 다양한 세부객체의 계층관계
Claims (16)
- 입력된 영상세트에서 장면을 구성하는 각 그룹객체를 의미론적 그룹객체 간 상관관계에 기반하여 검출하고 분할하고, 분할된 그룹객체를 구성하는 다양한 세부객체를 의미론적 세부객체 계층관계에 기반하여 검출하고 분할하는, 영상 내 그룹객체와 세부객체의 검출 및 분할 단계;
상기 검출 및 분할된 객체들 간의 의미론적 상관관계 및 계층관계에 기반하여 객체 내 혹은 객체 간의 상호동작을 분석하여 최종적으로 인식하는, 영상을 구성하는 그룹객체 및 세부객체들 간의 의미론적 장면 분석 단계를 포함하는, 영상 내 객체의 의미론적 분석 및 인식 방법. - 입력된 영상세트에서 장면을 구성하는 각 그룹객체를 의미론적 그룹객체 간 상관관계에 기반하여 검출하고 분할하고, 분할된 그룹객체를 구성하는 다양한 세부객체를 의미론적 세부객체 계층관계에 기반하여 검출하고 분할하는, 영상 내 그룹객체와 세부객체의 검출 및 분할 단계;
상기 검출 및 분할된 객체들 간의 의미론적 상관관계 및 계층관계에 기반하여 객체 내 혹은 객체 간의 상호동작을 분석하여 인식하는, 영상을 구성하는 그룹객체 및 세부객체들 간의 의미론적 장면 분석 단계;
상기 인식된 객체정보를 검증하여 최종 객체인식 정보로 결정하는 객체정보 검증 단계를 포함하는, 영상 내 객체의 의미론적 분석 및 인식 방법. - 제1항 또는 제2항에서, 상기 영상 내 그룹객체와 세부객체의 검출 및 분할 단계에서는,
영상의 배경 그룹객체 이미지와 레이블(label)의 페어(pair) 정보, 그룹객체 간 상관관계 정보, 세부객체 이미지와 레이블의 Pair 정보, 세부객체 내 계층관계 정보가 학습DB로부터 제공되는 영상 내 객체의 의미론적 분석 및 인식 방법. - 제1항 또는 제2항에서, 상기 의미론적 그룹객체 간 상관관계는,
영상 내의 각 그룹객체들 간의 위치관계, 접합관계, 및 상호작용 중 적어도 하나를 포함하는 영상 내 객체의 의미론적 분석 및 인식 방법. - 제1항 또는 제2항에서, 상기 의미론적 세부객체 계층관계는,
영상 내 그룹객체에 포함된 세부객체 간의 상호위치, 상호작용, 및 상호역할 중 적어도 하나를 포함하는 영상 내 객체의 의미론적 분석 및 인식 방법. - 제2항에서, 상기 객체정보 검증 단계는
상기 객체인식 결과를 인터넷검색엔진을 이용하여 객체이미지검색과 장면분석으로 얻은 레이블 결과의 텍스트검색의 교차검색을 행하여 최종 객체인식 정보의 결정여부를 판단하는 영상 내 객체의 의미론적 분석 및 인식 방법. - 제2항에서, 상기 객체정보 검증 단계는,
인식된 객체정보의 인식도를 평가하고 오류를 정정하는 단계를 포함하는 영상 내 객체의 의미론적 분석 및 인식 방법. - 제2항에서, 상기 객체정보 검증 단계는,
검증 결과, 존재하지 않는 객체정보에 대해서 새로운 정보를 추가하는 단계를 포함하는 영상 내 객체의 의미론적 분석 및 인식 방법. - 입력된 영상세트에서 장면을 구성하는 각 그룹객체를 의미론적 그룹객체 간 상관관계에 기반하여 검출하고 분할하는 수단,
분할된 그룹객체를 구성하는 다양한 세부객체를 의미론적 세부객체 계층관계에 기반하여 검출하고 분할하는 수단,
상기 검출 및 분할된 객체들 간의 의미론적 상관관계 및 계층관계에 기반하여 영상을 구성하는 그룹객체 및 세부객체들 간의 의미론적 장면을 분석하는 수단을 포함하는, 영상 내 객체의 의미론적 분석 및 인식 장치. - 입력된 영상세트에서 장면을 구성하는 각 그룹객체를 의미론적 그룹객체 간 상관관계에 기반하여 검출하고 분할하는 수단,
분할된 그룹객체를 구성하는 다양한 세부객체를 의미론적 세부객체 계층관계에 기반하여 검출하고 분할하는 수단,
상기 검출 및 분할된 객체들 간의 의미론적 상관관계 및 계층관계에 기반하여 영상을 구성하는 그룹객체 및 세부객체들 간의 의미론적 장면을 분석하여 객체정보를 인식하는 수단,
상기 인식된 객체정보를 검증하여 최종 객체인식 정보를 결정하는 객체정보 검증 수단을 포함하는, 영상 내 객체의 의미론적 분석 및 인식 장치. - 제9항 또는 제10항에서, 상기 그룹객체 검출 및 분할 수단, 상기 세부객체 검출 및 분할 수단에, 영상의 배경 그룹객체 이미지와 레이블(label)의 페어(pair) 정보, 그룹객체 간 상관관계 정보, 세부객체 이미지와 레이블의 Pair 정보, 세부객체 내 계층관계 정보가 학습된 학습파라미터를 제공하는 학습DB를 추가로 포함하는 영상 내 객체의 의미론적 분석 및 인식 장치.
- 제9항 또는 제10항에서, 상기 의미론적 그룹객체 간 상관관계는,
영상 내의 각 그룹객체들 간의 위치관계, 접합관계, 및 상호작용 중 적어도 하나를 포함하는 영상 내 객체의 의미론적 분석 및 인식 장치. - 제9항 또는 제10항에서, 상기 의미론적 세부객체 계층관계는,
영상 내 그룹객체에 포함된 세부객체 간의 상호위치, 상호작용, 및 상호역할 중 적어도 하나를 포함하는 영상 내 객체의 의미론적 분석 및 인식 장치. - 제10항에서, 상기 객체정보 검증 수단은
상기 객체인식 결과를 인터넷검색엔진을 이용하여 객체이미지검색과 장면분석으로 얻은 레이블 결과의 텍스트검색의 교차검색을 행하여 최종 객체인식 정보의 결정 여부를 판단하는 수단을 포함하는 영상 내 객체의 의미론적 분석 및 인식 장치. - 제10항에서, 상기 객체정보 검증 수단은,
인식된 객체정보의 인식도를 평가하고 오류를 정정하는 수단을 포함하는 영상 내 객체의 의미론적 분석 및 인식 장치. - 제10항에서, 상기 객체정보 검증 수단은,
검증 결과, 존재하지 않는 객체정보에 대해서 새로운 정보를 추가하는 수단을 포함하는 영상 내 객체의 의미론적 분석 및 인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180044988A KR20190121549A (ko) | 2018-04-18 | 2018-04-18 | 영상 내 객체의 의미론적 분석 및 인식 방법과 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180044988A KR20190121549A (ko) | 2018-04-18 | 2018-04-18 | 영상 내 객체의 의미론적 분석 및 인식 방법과 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190121549A true KR20190121549A (ko) | 2019-10-28 |
Family
ID=68421944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180044988A KR20190121549A (ko) | 2018-04-18 | 2018-04-18 | 영상 내 객체의 의미론적 분석 및 인식 방법과 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190121549A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144510A (zh) * | 2019-12-31 | 2020-05-12 | 上海云从汇临人工智能科技有限公司 | 基于多模型的图像语义识别方法、系统、设备及介质 |
KR20210077308A (ko) * | 2019-12-17 | 2021-06-25 | 주식회사 포스코 | 미세 조직의 상 분할 장치 및 방법 |
KR102294741B1 (ko) * | 2020-03-09 | 2021-08-27 | (주)제이앤리 | 딥러닝을 통한 그림기반 심리검사 방법 및 서버 |
KR20230042894A (ko) * | 2021-09-23 | 2023-03-30 | 광주과학기술원 | 비디오 내의 객체 간 동적 관계 추론 방법 및 장치 |
US11620335B2 (en) | 2019-09-17 | 2023-04-04 | Korea Institute Of Science And Technology | Method for generating video synopsis through scene understanding and system therefor |
KR20230044834A (ko) * | 2021-09-27 | 2023-04-04 | 고려대학교 산학협력단 | 일반 상식 추론 기반의 언어 생성 장치 및 방법 |
-
2018
- 2018-04-18 KR KR1020180044988A patent/KR20190121549A/ko unknown
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11620335B2 (en) | 2019-09-17 | 2023-04-04 | Korea Institute Of Science And Technology | Method for generating video synopsis through scene understanding and system therefor |
KR20210077308A (ko) * | 2019-12-17 | 2021-06-25 | 주식회사 포스코 | 미세 조직의 상 분할 장치 및 방법 |
CN111144510A (zh) * | 2019-12-31 | 2020-05-12 | 上海云从汇临人工智能科技有限公司 | 基于多模型的图像语义识别方法、系统、设备及介质 |
KR102294741B1 (ko) * | 2020-03-09 | 2021-08-27 | (주)제이앤리 | 딥러닝을 통한 그림기반 심리검사 방법 및 서버 |
KR20230042894A (ko) * | 2021-09-23 | 2023-03-30 | 광주과학기술원 | 비디오 내의 객체 간 동적 관계 추론 방법 및 장치 |
KR20230044834A (ko) * | 2021-09-27 | 2023-04-04 | 고려대학교 산학협력단 | 일반 상식 추론 기반의 언어 생성 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190121549A (ko) | 영상 내 객체의 의미론적 분석 및 인식 방법과 장치 | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
WO2020224424A1 (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111666843B (zh) | 一种基于全局特征和局部特征拼接的行人重识别方法 | |
Mur-Artal et al. | ORB-SLAM: a versatile and accurate monocular SLAM system | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
CN110853026B (zh) | 一种融合深度学习与区域分割的遥感影像变化检测方法 | |
CN110555412B (zh) | 基于rgb和点云相结合的端到端人体姿态识别方法 | |
CN110956094A (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN111832400B (zh) | 一种基于概率神经网络的口罩佩戴情况的监测系统及方法 | |
CN110008913A (zh) | 基于姿态估计与视点机制融合的行人再识别方法 | |
CN111274921A (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
Kashika et al. | Deep learning technique for object detection from panoramic video frames | |
CN109447082A (zh) | 一种场景运动目标分割方法、系统、存储介质及设备 | |
CN112509009B (zh) | 一种基于自然语言信息辅助的目标追踪方法 | |
CN109657634A (zh) | 一种基于深度卷积神经网络的3d手势识别方法及系统 | |
CN114373225A (zh) | 一种基于人体骨架的行为识别方法及系统 | |
CN111582154A (zh) | 基于多任务骨架姿态划分部件的行人重识别方法 | |
CN103413323A (zh) | 基于部件级表观模型的物体跟踪方法 | |
CN114495170A (zh) | 一种基于局部抑制自注意力的行人重识别方法及系统 | |
CN117727066A (zh) | 一种基于特征协同注意力的跨模态行人重识别方法 | |
KR102475004B1 (ko) | 그림 상 객체 분석을 기반으로 한 심리 분석 방법 및 이러한 방법을 수행하는 장치 | |
Ayazi et al. | Comparison of traditional and machine learning base methods for ground point cloud labeling | |
CN115830635A (zh) | 一种基于关键点检测和目标识别的pvc手套识别方法 |