KR20230102273A

KR20230102273A - 학습 영상 처리 시스템, 이를 이용한 학습 영상 자동 샘플링 방법 및 레이블링 방법

Info

Publication number: KR20230102273A
Application number: KR1020210192258A
Authority: KR
Inventors: 박서희; 김경화; 김종성; 원인수
Original assignee: 주식회사 케이티
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-07

Abstract

적어도 하나의 프로세서로 구현된 학습 영상 처리 시스템의 동작 방법으로서, 복수의 카메라들로부터, 적어도 하나의 객체가 포함된 복수의 영상들을 수신하면, 복수의 영상들을 복수의 객체 검출 모델들로 입력하고, 복수의 객체 검출 모델들에서 예측된 영상 내 객체의 클래스가 상이한 영상들을 학습용 영상으로 추출한다. 각 학습용 영상에 대해 복수의 객체 검출 모델들에서 예측된 객체의 클래스를 종합하여 해당 객체의 클래스를 결정하고, 결정한 클래스를 해당 객체에 레이블링한다.

Description

학습 영상 처리 시스템, 이를 이용한 학습 영상 자동 샘플링 방법 및 레이블링 방법{System for learning image processing, method for automatic sampling and labeling using the same}

본 발명은 수 많은 CCTV 영상들을 학습 데이터로 활용하기 위하여, 딥러닝 학습에 용이한 영상을 자동으로 샘플링하고 반자동으로 레이블링하는 학습 영상 처리 시스템, 이를 이용한 학습 영상 자동 샘플링 방법 및 레이블링 방법에 관한 것이다.

현재까지 딥러닝 연구의 대부분은 모형 중심(Model-Centric) 접근법에 기반하고 있다. 그러나, 최근 지능적으로 데이터 처리를 수행한 후 추가적인 성능 개선이 이루어지는 연구들이 다수 발표되면서, 학습용 데이터에 대한 품질이 딥러닝 성능에 중대한 영향을 끼치는 데이터 중심(Data-Centric)과 관련된 연구가 활성화되고 있다.

관련 연구 중 하나인 액티브 러닝을 위한 학습용 데이터를 선정하고 영상을 분석하는 기술은, CCTV로부터 수신된 복수개의 영상들로부터 무작위로 일부 영상을 선별하고, 영상에 포함된 객체를 분류한 뒤 각 영상에 대한 엔트로피를 계산하여 학습용 데이터를 선정하는 방법을 제시하였다. 이 기술은 CCTV 영상들을 무작위로 랜덤 샘플링 하기 때문에, CCTV가 설치된 장소가 무수히 많을 경우 랜덤 샘플링을 수행한다면 유의미한 정보들을 담고 있는 희귀한 영상들이 학습에 반영되지 않을 수 있다.

또 다른 기술로, 복수의 이미지 프레임들로부터 객체 인식 알고리즘을 적용하여 객체를 인식하고, 프레임들 중 적어도 하나의 제1 이미지 프레임에서의 객체 인식 결과와 제2 이미지 프레임의 객체 인식 결과를 이용하여, 객체 인식의 대상이 된 객체에 대한 데이터 셋을 자동으로 생성하는 기술이 있다. 이 기술은 한 이미지 프레임을 기준이 되는 에러 조건으로 설정하고, 다음 이미지 프레임에서 기준이 되는 이미지 프레임에서 검출되었던 객체가 다른 객체로 판별되는 경우 에러조건에 해당하는 것으로 판단하여 이를 레이블링 하는 방법이다.

예를 들면, 기준이 되는 프레임에서 '의자'가 인식되고, 그 다음 프레임에서 '의자'가 인식되었는데, 이 프레임의 다음 프레임에서 '테이블'로 인식되었을 경우 에러 조건이라고 판단하는 것이다. 만약 해당 객체가 실제로 '테이블'이나 '다른 객체' 였다면, 잘못된 레이블링 결과를 도출할 수도 있다는 문제점이 있다.

또한, 딥러닝 기술이 발전하기 이전에는 수 많은 CCTV 영상들로부터 2D 이미지를 랜덤 샘플링 하거나, 일정 시간 마다 CCTV 영상들을 샘플링할 때, 학습에 반영되지 않은 객체가 나타나거나, 객체 검출 정확도가 아주 낮게 나오거나, 검출이 되지 않는 객체가 등장한 영상들을 수작업으로 추출했다. 따라서, 영상 추출에 시간이 많이 소요되고, 정확하게 영상을 추출하지 못하는 문제점이 있었다.

따라서, 본 발명은 수 많은 CCTV 영상들을 객체 검출 모델 학습에 효율적으로 적용하기 위해 학습에 유의미한 영상들을 자동으로 샘플링하고, 샘플링 된 영상들을 자동으로 레이블링할 수 있는 학습 영상 처리 시스템, 이를 이용한 학습 영상 자동 샘플링 방법 및 레이블링 방법을 제공한다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 하나의 특징인 적어도 하나의 프로세서로 구현된 학습 영상 처리 시스템의 동작 방법으로서,

복수의 카메라들로부터, 적어도 하나의 객체가 포함된 복수의 영상들을 수신하는 단계, 상기 복수의 영상들을 복수의 객체 검출 모델들로 입력하고, 상기 복수의 객체 검출 모델들에서 예측된 영상 내 객체의 클래스가 상이한 영상들을 학습용 영상으로 추출하는 단계, 그리고 각 학습용 영상에 대해 상기 복수의 객체 검출 모델들에서 예측된 객체의 클래스를 종합하여 해당 객체의 클래스를 결정하고, 결정한 클래스를 해당 객체에 레이블링하는 단계를 포함한다.

상기 학습용 영상으로 추출하는 단계는, 상기 복수의 객체 검출 모델들로부터, 상기 객체를 예측한 복수의 클래스들 별 확률 값들을 수신하는 단계, 상기 수신한 클래스 별 확률 값들 중 가장 큰 확률 값을 가지는 클래스를 각 객체 검출 모델별로 산출하는 단계, 그리고 상기 각 객체 검출 모델별로 산출한 클래스들이 동일한 클래스인지 확인하는 단계를 포함할 수 있다.

상기 동일한 클래스인지 확인하는 단계는, 상기 각 객체 검출 모델들이 상기 객체를 상이하게 예측한 클래스 수가 미리 설정한 임계값 이상이면, 상기 객체가 포함된 영상을 후보 학습용 영상으로 추출하는 단계를 포함할 수 있다.

상기 후보 학습용 영상으로 추출하는 단계는, 상기 객체를 포함하는 영상이 기 검출된 영상이 아니면, 상기 후보 학습용 영상을 상기 학습용 영상으로 추출하는 단계를 포함할 수 있다.

상기 객체에 클래스를 레이블링하는 단계는, 상기 각 객체 검출 모델이 상기 객체에 클래스를 레이블링한 레이블링 정보를 확인하는 단계, 그리고 상기 레이블링 정보에 포함된 상기 객체 클래스의 확률을 기초로, 상기 객체의 클래스 정확도를 계산하는 단계를 더 포함할 수 있다.

상기 클래스 정확도를 계산하는 단계는, 상기 클래스 정확도가 미리 설정한 임계 값 이상이면, 상기 클래스를 상기 객체에 레이블링하는 단계를 포함할 수 있다.

상기 클래스 정확도를 계산하는 단계는, 상기 각 객체 검출 모델로부터 상기 객체를 포함하도록 설정한 경계 상자의 영역 좌표를 수신하는 단계를 더 포함할 수 있다.

상기 객체에 클래스를 레이블링하는 단계 이후에, 상기 학습용 영상과, 상기 경계 상자의 영역 좌표와 상기 객체에 레이블링된 클래스를 포함하는 레이블링 정보로, 상기 각 객체 검출 모델을 학습시키는 단계를 더 포함할 수 있다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 영상 처리 시스템으로서,

복수의 카메라들로부터 적어도 하나의 객체가 포함된 영상들을 수신하는 인터페이스, 그리고 프로세서

를 포함하고, 상기 프로세서는, 상기 복수의 영상들 중, 복수의 객체 검출 모델들이 상기 적어도 하나의 객체 중 동일한 객체를 서로 상이한 클래스로 예측한 학습용 영상을 추출하고, 상기 복수의 객체 검출 모델들이 상기 학습용 영상에 포함된 객체에 각각 설정한 객체 클래스의 확률을 기초로 상기 객체에 클래스를 레이블링한다.

상기 프로세서는, 각 객체 검출 모델들이 상기 객체를 상이하게 예측한 클래스 수가 미리 설정한 임계값 이상이면, 상기 객체가 포함된 영상을 후보 학습용 영상으로 추출할 수 있다.

상기 프로세서는, 상기 객체를 포함하는 영상이 기 검출된 영상이 아니면, 상기 후보 학습용 영상을 상기 학습용 영상으로 추출할 수 있다.

상기 프로세서는, 상기 각 객체 검출 모델이 상기 객체에 클래스를 레이블링한 레이블링 정보에 포함된 상기 객체 클래스의 확률을 기초로, 상기 객체의 클래스 정확도를 계산할 수 있다.

본 발명에 따르면, 영상들을 자동으로 샘플링하여 수 많은 CCTV 영상들을 효율적으로 객체 검출 모델 학습에 적용할 수 있다.

또한, 샘플링 된 영상들을 반자동으로 레이블링함으로써, 수많은 데이터들을 자동으로 레이블링하여 시간과 비용이 다소 소모되었던 기존의 작업들을 효율적으로 대체하여 고효율 데이터세트 수집 및 정제 파이프라인 구축의 근간이 될 수 있다.

또한, 딥러닝 기반의 객체 검출 모델의 성능을 지속적으로 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 학습 영상 처리 시스템이 적용된 환경의 예시도이다.
도 2는 본 발명의 실시예에 따른 학습 영상 처리 시스템의 구조도이다.
도 3은 본 발명의 실시예에 따른 영상 샘플링부의 구조도이다.
도 4는 본 발명의 실시예에 따른 영상 레이블링부의 구조도이다.
도 5는 본 발명의 실시예에 따른 CCTV 영상 처리 방법에 대한 흐름도이다.
도 6은 본 발명의 실시예에 따른 학습 영상 샘플링 방법에 대한 흐름도이다.
도 7은 본 발명의 실시예에 따른 샘플링한 학습 영상을 레이블링하는 방법에 대한 흐름도이다.
도 8은 본 발명의 실시예에 따른 객체 검출 모델의 클래스 확률 지도의 예시도이다.
도 9는 본 발명의 실시예에 따른 컴퓨팅 장치의 구조도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 학습 영상 처리 시스템, 이를 이용한 학습 영상 자동 샘플링 방법 및 레이블링 방법에 대해 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 학습 영상 처리 시스템이 적용된 환경의 예시도이다.

도 1에 도시된 바와 같이, 복수의 CCTV(100)들이 영상을 수집하면, 학습 영상 처리 시스템(200)은 복수의 CCTV(100)들로부터 수신한 복수의 영상들 중, 객체 검출 모델을 학습시키기 용이한 적어도 하나의 영상을 학습용 영상으로 샘플링한다. 본 발명의 실시예에서는 설명의 편의를 위하여 하나의 CCTV(100)만 도시하였으나, 복수의 CCTV(100)들이 설치되어 학습 영상 처리 시스템(200)과 연동한다. 또한, 본 발명의 실시예에서는 설명의 편의를 위하여 CCTV(100)로 표현하여 설명하나, 영상을 수집할 수 있는 다양한 형태의 카메라들을 이용할 수 있다.

학습 영상 처리 시스템(200)은 샘플링한 학습용 영상에서 적어도 하나의 객체를 검출한다. 그리고 학습 영상 처리 시스템(200)은 검출한 적어도 하나의 객체를 자동으로 레이블링하고, 학습용 영상과 함께 레이블링한 레이블링 정보를 저장한다.

그리고, 학습 영상 처리 시스템(200)은 학습용 영상과 레이블링 정보를 이용하여 객체 검출 모델을 학습시킨다. 이때의 객체 검출 모델은 학습 영상 처리 시스템(200) 내에 복수 개 구비되어 있다.

이와 같은 환경에서, 복수의 CCTV(100)들이 수집한 영상을 처리하여, 객체 검출 모델을 학습시키기 위한 학습용 영상을 추출하고, 학습용 영상으로 객체 검출 모델을 학습시키거나 검출한 객체를 자동 레이블링하는 학습 영상 처리 시스템(200)의 구조에 대해 도 2를 참조로 설명한다.

도 2는 본 발명의 실시예에 따른 학습 영상 처리 시스템의 구조도이다.

도 2에 도시된 바와 같이, 학습 영상 처리 시스템(200)은 CCTV 영상 수신부(210), 영상 자동 샘플링부(220), 영상 레이블링부(230), 영상 데이터 저장부(240), 그리고 객체 검출부(250)를 포함한다.

CCTV 영상 수신부(210)는 복수의 CCTV(100)들로부터, 각 CCTV(100)가 수집한 영상을 수신한다. CCTV 영상 수신부(210)는 실시간으로 CCTV(100)로부터 영상을 수신할 수도 있고, CCTV(100) 내부 또는 다른 저장 장치(도면 미도시)에 임시 저장된 영상을 수신할 수도 있다. 본 발명의 실시예에서는, 설명의 편의를 위하여 실시간으로 CCTV(100)로부터 영상을 수신하는 것을 예로 하여 설명한다.

또한, 본 발명의 실시예에서는 CCTV 영상 수신부(210)가 실시간으로 CCTV(100)로부터 수신하는 영상이 초당 30프레임으로 구성되는 것을 예로 하여 설명한다. 그러나, CCTV 영상 수신부(210)가 임시 저장된 영상을 수신하는 경우, 저장된 시간에 따라 수신한 영상은 초당 30 프레임보다 적은 복수 개의 프레임(F)으로 구성될 수 있다. 즉, 본 발명의 실시예에서는 실시간으로 수신하는 영상이 초당 30 프레임으로 구성되는 것을 예로 하여 설명하고 있고, 영상이 저장될 경우 영상 손실 문제가 발생할 수 있으므로, CCTV 영상 수신부(210)는 초당 29 프레임 또는 28 프레임 등 적은 수의 프레임들로 구성된 임시 저장된 영상을 수신할 수도 있다.

영상 자동 샘플링부(220)는 CCTV 영상 수신부(210)가 수신한 복수의 영상들 중에서, 객체 검출부(250)를 구성하는 복수의 객체 검출 모델들을 학습시키기에 용이한 학습용 영상들을 추출한다. 즉, 영상 자동 샘플링부(220)는 객체 검출부(250)에서 CCTV 영상을 기초로 예측한 경계 상자 정보들을 수신하고, 수신한 CCTV 영상들과 각 경계 상자에 객체 검출 모델들을 학습시킬 수 있는 객체가 존재할 것으로 예측되는 학습용 영상들을 추출한다. 여기서, 경계 상자 정보에는 CCTV 경계 상자의 영역 정보와 경계 상자 영역 내에 포함된 객체를 레이블링한 확률 값을 포함한다.

영상 자동 샘플링부(220)는 객체 검출부(250)에서 우선 처리된 CCTV 영상들을 샘플링하여 학습용 영상들을 추출한다. 즉, 객체 검출부(250)는 동일한 작업 즉, 영상에서 객체를 검출하는 복수 개의 딥러닝 기반 객체 검출 모델(이하, 설명의 편의를 위하여 '객체 검출 모델'이라 지칭함)들을 포함한다. 복수의 객체 검출 모델들은 입력된 CCTV 영상들에서 프레임별로 각각 객체를 포함하여 경계 상자를 설정하고, 설정한 경계 상자에 대한 경계 상자 영역 정보를 추출한다.

또한, 각 객체 검출 모델은 경계 상자 내의 객체에 이용하여 CCTV 영상들을 샘플링하여 후보 영상들을 추출하고, 추출한 후보 영상들 중에서 객체 검출 모델을 학습시킬 학습용 영상들을 추출한다. 본 발명의 실시예에서는 딥러닝 기반 객체 검출 모델의 수(M)를 2≤M≤5인 것을 예로 하여 설명하나, 반드시 이와 같이 모델의 수가 한정되는 것은 아니다.

영상 레이블링부(230)는 영상 자동 샘플링부(220)에서 추출한 각 학습용 영상의 복수의 영상 프레임들 중, 객체 검출부(250)의 객체 검출 모델을 학습시킬 영상 프레임(

)을 선택한다. 그리고, 영상 레이블링부(230)는 선택한 영상 프레임의 레이블 정보를 생성한다.

영상 프레임의 레이블 정보는 객체가 포함되도록 형성된 경계 상자의 영역 좌표, 경계 상자의 영역 내에 있는 객체의 클래스 확률, 그리고 클래스 예측 값 등의 정보를 포함한다. 레이블 정보에 대해서는 이후 상세히 설명한다.

여기서, 학습 영상 처리 시스템(200)이 초기 구동하면, 영상 레이블링부(230)는 관리자가 직접 개입하여 복수의 영상 프레임들을 직접 추출한 수동 레이블링 데이터를 저장, 관리한다. 수동 레이블링 데이터는 초기에 복수의 객체 검출 모델들을 학습시키는데 사용된다.

영상 데이터 저장부(240)는 영상 레이블링부(230)에서 레이블링 된 영상 데이터들을 저장한다.

객체 검출부(250)는 복수의 객체 검출 모델들과, 객체 검출 모델을 평가하는 객체 검출 모델 평가 모듈로 구성된다. 객체 검출부(250)는 학습용 영상들 또는 영상들에서 검출한 객체를 포함하여 경계 상자를 설정하여 경계 상자 영역 정보를 생성한다. 그리고, 객체 검출부(250)는 검출한 객체에 클래스를 레이블링한다.

또한, 객체 검출부(250)는 객체 검출 모델이 각각 검출한 객체에 레이블링한 클래스가 얼마나 일치하는지 평가값으로 계산하고, 계산한 평가값이 미리 설정한 임계값 이상일 경우 검출한 객체에 클래스를 레이블링한다.

상술한 학습 영상 처리 시스템(200)의 구조에서 영상 자동 샘플링부(220)의 구조에 대해 도 3을 참조로 설명한다.

도 3은 본 발명의 실시예에 따른 영상 자동 샘플링부의 구조도이다.

도 3에 도시된 바와 같이, 영상 자동 샘플링부(220)는 후보 영상 추출기(221), 데이터 영향력 점수 계산기(222), 그리고 학습용 영상 추출기(223)를 포함한다.

후보 영상 추출기(221)는 CCTV 영상 수신부(210)로부터 CCTV 영상을 전달받고, 객체 검출부(250)로부터 경계 상자가 표시된 CCTV 영상들에서 후보 영상들을 추출한다.

즉, 후보 영상 추출기(221)는 객체에 경계 상자가 표시된 CCTV 영상을 수신하면, 경계 상자 내의 객체를 어려운 객체(Hard Object)와 쉬운 객체(Easy Object)로 구분한다. 여기서, 어려운 객체는 비교적 많은 정보를 포함하고 있는 객체이고, 쉬운 객체는 많은 정보를 포함하고 있지 않은 객체를 의미한다.

즉, 객체 검출부(250)의 복수 개의 객체 검출 모델들이 경계 상자 내 객체를 추론한 결과가 서로 다를 경우, 객체 검출부(250)는 해당 영상 속 객체를 객체 검출 모델이 추론하기 어려운 객체로 확인한다. 예를 들어, 임의의 객체를 제1 객체 검출 모델에서는 강아지로 검출하고, 제2 객체 검출 모델에서는 여우로 검출하였다면, 해당 임의의 객체는 어려운 객체로 확인한다. 그리고, 객체 검출부(250)는 어려운 객체를 포함하는 영상을 학습에 용이한 영상인 학습용 영상으로 결정한다.

본 발명의 실시예에서는 이와 같이 영상 샘플링 시 객체 검출 성능에 영향을 미칠 수 있는 영상을 학습에 효과적인 샘플(Learning for Effective Sample) 즉, 후보 학습용 영상이라고 정의한다. 영상 자동 샘플링부(220)는 복수의 후보 학습용 영상들에서 다음 두 가지 조건들을 만족하는 영상을 학습용 영상으로 추출한다.

하나는 후보 학습용 영상들 중 데이터 영향력 점수(DES: Data Effect Score)가 샘플 임계 값(Sample Threshold) 이상인 조건을 가지는 영상들을 추출한다. 그리고 또 하나는, 추출한 영상들 중 이미 샘플링 되어 객체 검출 모델을 학습시키는데 사용되지 않은 영상들을 선택하여 최종 학습용 영상으로 추출한다.

즉, 상술한 두 가지 조건을 만족시키는 학습용 영상을 추출하기 위해, 데이터 영향력 점수 계산기(222)는 후보 학습용 영상들에 대한 데이터 영향력 점수를 계산한다. 데이터 영향력 점수는 객체를 포함하는 영상으로 객체 검출 모델을 학습시킬 때 얼마나 유의미한 영향을 미치는가에 대한 정도를 나타내는 점수이다.

즉, 복수의 객체 검출 모델들이 후보 학습용 영상에 포함된 동일한 객체에 대한 클래스를 서로 다른 레이블로 예측하였다고 가정한다. 그러면, 데이터 영향력 점수 계산기(222)가 동일한 객체에 대한 클래스를 다르게 예측하였을 때 계산한 데이터 영향력 점수는, 동일한 객체에 대한 클래스를 모두 동일하게 예측하였을 때의 데이터 영향력 점수보다 높게 계산된다.

본 발명의 실시예에서는 동일한 객체를 복수의 객체 검출 모델이 각각 동일한 클래스로 예측한 경우를 제외한 나머지 즉, 적어도 하나의 객체 검출 모델이 다른 클래스로 객체를 예측한 경우, 해당 객체가 포함된 영상을 후보 학습용 영상으로 추출하는 것을 예로 하여 설명한다. 그러나, 객체 검출 모델의 수에 따라 반드시 이와 같이 한정되는 것은 아니며, 미리 설정한 임계 수 이상으로 객체가 다른 클래스로 예측될 때, 해당 영상을 후보 학습용 영상으로 추출할 수도 있다.

복수의 객체 검출 모델들에서 각각 추론한 결과가 각자 다를 경우, 이는 각 객체 검출 모델이 데이터를 헷갈려 하는 것으로 간주할 수 있다. 따라서, 학습용 영상 추출기(223)는 각 객체 검출 모델이 추론한 결과가 다른 객체를 어려운 객체로 정의하고, 어려운 객체를 포함하는 영상을 후보 학습용 영상으로 정의할 수 있다.

예를 들면, 고양이를 검출하는 정확도를 나타내는 검출 성능이 90%인 객체 검출 모델이 있다고 가정한다. 이때, 쉬운 모양을 가진 고양이들은 객체 검출 모델에서 100%의 정확도로 검출해 낼 수 있다.

하지만 어려운 모양을 가진 고양이들(예를 들어, 고양이의 몸체가 50%만 등장하거나, 어두운 영상에서 나타나 고양이인지 강아지인지 구별하기 어려운 고양이 등)이 포함된 CCTV 영상이 입력되었다고 가정한다. 그러면, 어떤 객체 검출 모델은 낮은 정확도로 고양이를 검출하고, 어떤 객체 검출 모델은 아예 고양이를 객체로 검출하지 못할 수 있다.

또는 어떤 객체 검출 모델은 해당 객체를 강아지라고 검출하는 등의 결과가 발생할 수 있다. 이러한 CCTV 영상을 학습에 효과적인 샘플 즉, 후보 학습용 영상으로 설정하며, 이러한 CCTV 영상에 대한 데이터 영향력 점수를 계산하면 모든 객체 검출 모델이 해당 객체를 고양이라고 검출하는 경우보다 높은 점수로 데이터 영향력 점수가 계산된다.

데이터 영향력 점수는 각 객체 검출 모델을 이용하여 계산되며, 각 객체 검출 모델은 CCTV 영상에 포함된 하나의 객체에 대해 각각 0에서 1 사이의 레이블 예측 값을 계산한다. 데이터 영향력 점수 계산기(222)는 임의의 객체에 대해 복수 개의 객체 검출 모델들이 각각 계산한 예측 값을 취합하고, 취합한 값이 가장 큰 경우, 즉, 각 객체 검출 모델이 예측한 결과가 서로 다른 경우를 데이터의 불확실성이 높다고 간주한다.

데이터 영향력 점수 계산기(222)가 하나의 객체에 대한 데이터 영향력 점수를 계산하는 방법은 수학식 1과 같다.

여기서, Votes(y_i)는 복수의 객체 검출 모델들로부터 특정 객체에 레이블링을 위해 투표된 레이블 별 투표 개수를 의미한다. Votes(y_i)를 객체 검출 모델들의 개수(M)로 나누면 확률의 형태로 계산된다. 그리고 y_i는 모든 가능한 레이블 즉, 전체 레이블 중 해당 객체에 레이블링 될 수 있는 레이블들을 나타낸다. 이와 같은 입력 값을 설정하기 위해, 각 객체 검출 모델로부터 산출된 클래스 확률 지도를 이용한다.

클래스 확률 지도는 원 영상에서 어떠한 객체가 어떤 레이블에 해당하는가에 대한 정확도 확률 값 들을 그리드 셀 마다 나타내 놓은 지도이다. 데이터 영향력 점수 계산기(222)는 데이터 영향력 점수의 입력 값을 계산하기 위해 각 객체 검출 모델마다 그리드 셀에서 계산된 확률 값을 취합한다.

그리고, 데이터 영향력 점수 계산기(222)는 그리드 셀에서 취합한 클래스 레이블의 확률을 그리드 셀에 해당하는 레이블 마다 데이터 영향력 점수를 계산한다. 그리고, 그리드 셀 마다 계산된 레이블 별 데이터 영향력 점수를 합산하여, 해당 객체에 레이블링된 레이블이 불확실성을 가지고 있는지 판단한다.

학습용 영상 추출기(223)는 데이터 영향력 점수 계산기(222)에서 계산한 데이터 영향력 점수를 기초로, 객체 검출 성능에 영향을 미칠 수 있는 후보 학습용 영상들을 확인한다. 그리고, 후보 학습용 영상들 중 기 검출되어 저장된 영상들이 있는지 확인한다. 이때, 학습용 영상 추출기(223)는 후보 학습용 영상들과 기 저장된 영상들의 파일명을 비교하여 기 검출된 영상들이 있는지 구분할 수도 있다. 또는 이미지 프로세싱 기법 중 하나인 영상 매칭을 통해 기 검출된 영상인지 아닌지 확인할 수도 있으므로, 어느 하나의 방법으로 한정하지 않는다.

학습용 영상 추출기(223)는 기 검출된 영상들은 삭제하고, 검출되지 않은 후보 학습용 영상들을 학습용 영상으로 샘플링한다.

다음은 영상 레이블링부(230)에 대해 도 4를 참조로 상세히 설명한다.

도 4는 본 발명의 실시예에 따른 영상 레이블링부의 구조도이다.

도 4에 도시된 바와 같이, 영상 레이블링부(230)는 수동 레이블링 데이터 저장기(231), 자동 레이블링기(232) 그리고 레이블 저장 여부 판단기(233)를 포함한다.

수동 레이블링 데이터 저장기(231)는 학습 영상 처리 시스템(200)이 초기 동작할 때, 학습 영상 처리 시스템(200)을 사용하는 관리자들이 직접 개입하여 복수의 영상 프레임들에서 객체들을 직접 추출하고, 추출한 객체들에 레이블링 한 수동 레이블링 정보를 저장한다. 레이블링 정보에는 경계 상자 영역 좌표 값과, 클래스 명이 포함된다. 사용자들이 영상 프레임에서 객체를 추출하고 레이블링하는 방법은 이미 알려진 기술로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

자동 레이블링기(232)는 학습용 영상 추출기(223)에서 추출된 학습용 영상에 대해 객체 검출부(250)에서 설정한 레이블링 정보를 확인한다. 즉, 자동 레이블링기(232)는 레이블링 정보에 포함된 경계 상자 영역 좌표 정보와 객체의 클래스 예측 값을 학인한다. 그리고 자동 레이블링기(232)는 복수의 객체 검출 모델들 각각에서 생성된 객체의 레이블 예측 값을 이용하여 객체의 클래스 정확도를 계산한다.

자동 레이블링기(232)는 객체의 클래스 정확도가 미리 설정한 임계값 이상이면, 해당 객체에 대한 레이블을 설정한다.

레이블 저장 여부 판단기(233)는 자동 레이블링기(232)에서 레이블링한 학습용 영상과 관련하여 유사한 영상 샘플이 레이블링되어 저장되어 있는지 판단한다. 레이블 저장 여부 판단기(233)가 기 저장된 레이블링 데이터로 학습용 영상 샘플과 유사하게 레이블링 된 영상 샘플이 저장되어 있는지 판단하는 방법은, 예를 들어 기 저장된 영상 샘플의 파일명과 일치하는지 비교하거나, 기 저장된 영상과 같은지 영상의 유사도를 판단하여 비교하는 등 다양하므로, 본 발명의 실시예에서는 어느 하나의 방법으로 한정하지 않는다.

상술한 바와 같은 학습 영상 처리 시스템(200)이 CCTV 영상을 처리하는 방법에 대해 도 5를 참조로 설명한다.

도 5는 본 발명의 실시예에 따른 CCTV 영상 처리 방법에 대한 흐름도이다.

도 5에 도시된 바와 같이, 학습 영상 처리 시스템(200)은 복수의 CCTV(100)들로부터 CCTV 영상을 수신한다(S100). 학습 영상 처리 시스템(200)은 수신한 복수의 CCTV 영상들을 샘플링하여, 객체 검출 모델을 학습시키기 위한 학습용 영상을 추출한다(S200).

그리고, 학습 영상 처리 시스템(200)은 학습용 영상의 클래스 예측 값을 기초로 학습용 영상에 포함된 객체에 레이블을 레이블링한다(S300). 학습 영상 처리 시스템(200)은 레이블링이 완료된 학습용 영상의 영상 데이터를 저장한다(S400).

다음은 상술한 CCTV 영상 처리 절차 중 S200 단계에서 학습 영상 처리 시스템(200)이 학습용 영상을 샘플링하는 방법에 대해 도 6을 참조로 설명한다. 그리고, 학습 영상 처리 시스템(200)이 S300 단계에서 샘플링한 학습용 영상의 객체에 레이블을 레이블링하는 방법에 대해서는 도 7을 참조로 설명한다.

도 6은 본 발명의 실시예에 따른 학습 영상 샘플링 방법에 대한 흐름도이다.

도 6에 도시된 바와 같이, 영상 자동 샘플링부(220)는 객체 검출부(250)에서 CCTV 영상에 경계 상자가 설정된 영상을 수신한다(S201). 이때, 경계 상자가 설정된 영상과 함께, 영상 자동 샘플링부(220)는 각 객체 검출 모델들이 CCTV 영상 속 객체를 예측한 확률 값을 함께 수신한다.

본 발명의 실시예에서는 복수의 객체 검출 모델들이 객체 검출부(250)에 포함되어 있는 것을 예로 하여 설명하므로, 영상 자동 샘플링부(220)는 객체 검출부(250)에 포함된 복수의 객체 검출 모델들이 각각 CCTV 영상 속 객체를 예측한 확률 값을 수신하여 취합한다(S202). 여기서, 예측한 확률 값은 각 객체 검출 모델들이 CCTV 영상 속에 등장하는 객체가 어떤 레이블인지 각각 예측한 값으로 확률 값으로 계산된다.

영상 자동 샘플링부(220)는 취합한 확률 값을 기초로, CCTV 영상에 대한 데이터 영향력 점수를 계산한다(S203). 그리고, 계산한 데이터 영향력 점수가 미리 설정한 샘플 임계 값 보다 큰지 확인하고(S204), 샘플 임계 값 보다 크게 데이터 영향력 점수가 계산되었다면 해당 CCTV 영상을 학습용 영상으로 결정한다(S205). 그러나, S204 단계에서 계산한 데이터 영향력 점수가 샘플 임계 값 보다 작으면, 영상 자동 샘플링부(220)는 S201 단계의 절차부터 반복 수행한다.

즉, 본 발명의 실시예에서는 영상 자동 샘플링부(220)가 복수의 객체 검출 모델들이 동일한 객체를 만장일치로 동일한 레이블로 예측하지 않았다면, 해당 객체가 포함된 영상은 학습용 영상으로 결정하는 것을 예로 하여 설명한다. 그러나, 반드시 이와 같이 한정되는 것은 아니다.

도 7은 본 발명의 실시예에 따른 샘플링한 학습 영상을 레이블링하는 방법에 대한 흐름도이다.

도 7에 도시된 바와 같이, 영상 레이블링부(230)는, 객체 검출부(250)로부터 학습용 영상을 수신한다(S301). 여기서, 학습용 영상은 객체를 포함하여 경계 상자가 설정되어 있고, 객체 검출부(250)에 포함된 복수의 객체 검출 모델에서 해당 객체에 레이블링 한 레이블링 정보가 포함되어 있다.

객체 검출부(250)는 영상에서 객체가 어디에 위치하고 있는지에 대한 히트맵을 산출하고, 산출한 히트맵을 이용하여 객체의 경계 상자 영역을 계산한다.

영상 레이블링부(230)는 각 객체 검출 모델의 객체 레이블링 정보를 확인한다(S302). 여기서, 객체 레이블링 정보에는 학습용 영상의 경계 상자 영역의 좌표 (b_l, b_t, b_r, b_b)와, 객체 클래스 정보가 포함되어 있다. 여기서, b_l은 경계 상자 영역의 왼쪽(left) 좌표, b_t는 위쪽(top) 좌표, b_r은 오른쪽(right) 좌표, b_b는 아래쪽(bottom) 좌표를 의미한다.

영상 레이블링부(230)는 경계 상자 영역에 포함되어 있는 객체에 대해 객체 검출 모델에서 각각 예측한 객체의 레이블링 정보를 확인한 후, 확인한 레이블링 정보를 기초로 객체 클래스의 정확도를 계산한다(S303). 여기서, 객체 클래스의 정확도는 0 이상 1 이하의 값으로 계산되며, 다음 수학식 2를 통해 계산된다.

영상 레이블링부(230)는 복수 개의 객체 검출 모델들에서 자동으로 설정된 레이블들의 객체 클래스의 정확도를 수학식 2를 이용하여 계산하므로, 영상 레이블링부(230)는 객체 클래스의 정확도를 객체 검출 모델들의 수만큼 획득한다.

영상 레이블링부(230)는 S303 단계에서 계산한 복수의 객체 클래스 정확도가 임계값(Objectness Threshold) 이상인지 확인한다(S304). 그리고 복수의 객체 클래스 정확도가 임계값 이상이면, 객체 검출 모델들이 각각 예측한 클래스를 해당 객체의 레이블로 결정한다(S305).

그러나, 객체 클래스의 정확도가 임계값 이하이면, 영상 레이블링부(230)는 S301 단계부터 반복으로 수행한다.

다음은 상술한 절차에서 객체 검출 모델의 클래스 확률 지도에 대해 도 8을 참조로 설명한다.

도 8은 본 발명의 실시예에 따른 객체 검출 모델의 클래스 확률 지도의 예시도이다.

도 8에 도시된 바와 같이, 본 발명의 실시예에서는 불확실성을 추정하기 위해 데이터 영향력 점수 계산기(222)가 데이터 영향력 점수를 계산하는데, 이때, 데이터 영향력 점수 계산기(222)의 입력으로 투표 수인 Votes(y_i)가 입력된다.

투표 개수는 복수의 객체 검출 모델들로부터 특정 레이블이 투표된 개수로서, 객체 검출부(250)에서 산출된 클래스 확률 지도를 이용한다. 클래스 확률 지도는 원 영상에서 어떠한 객체가 어떤 레이블에 해당하는가에 대한 정확도 확률 값 들을 그리드 셀 마다 나타내 놓은 지도이다.

도 8에 도시된 클래스 확률 지도의 그리드 셀에서 나온 각 클래스 레이블의 확률을, 그리드 셀에 해당하는 레이블 마다 데이터 영향력 점수를 계산한다. 본 발명의 실시예에서는 그리드 셀 마다 객체 검출 모델들이 투표하여 계산된 레이블 별 데이터 영향력 점수를 합산하여, 해당하는 레이블이 불확실성을 가지고 있는지 판단한다.

즉, 도 8에 도시된 클래스 확률 지도에서 각 칸 1개를 그리드 셀 1개라 정의한다. 그리드 셀이 의미하는 것은 해당 그리드 영역 내에 존재하는 객체가 몇 프로의 확률로 어떤 클래스에 해당하는지를 나타낸다.

데이터 영향력 점수 계산기(222)는 각 그리드 셀 마다 데이터 영향력 점수를 계산한다. 만약 전체 클래스가 1번 클래스는 강아지, 2번 클래스는 자전거, 3번 클래스는 자동차로 하여 총 3개의 클래스가 있다고 가정한다.

복수의 객체 검출 모델 중 첫 번째 객체 검출 모델은 임의의 파란색 영역 셀 한 개에 대해 각 클래스 마다 확률 값을 산출한다. 이때, 1번 클래스는 0.90, 2번 클래스는 0.07, 3번 클래스는 0.03으로 계산되었다고 가정한다. 그러면 첫 번째 객체 검출 모델은 파란색 영역의 셀에 0.9의 확률로 강아지가 있는 것으로 예측한다.

마찬가지로, 두 번째 객체 검출 모델이 첫 번째 객체 검출 모델에서 확률 값을 산출하는데 사용한 동일한 파란색 영역 셀의 확률 값을 1번 클래스는 0.70, 2번 클래스는 0.20, 그리고 3번 클래스는 0.10으로 계산하였다고 가정한다. 그러면, 두 번째 객체 검출 모델은 파란색 영역의 셀에 있는 객체가 0.7의 확률로 강아지라고 예측한다.

이때, 세번째 객체 검출 모델이 파란색 영역 셀의 확률 값으로, 1번 클래스는 0.40, 2번 클래스는 0.50, 3번 클래스는 0.10으로 계산하여, 0.50의 확률로 자전거라고 예측하였다고 가정한다.

그러면, 각 객체 검출 모델에서 강아지 레이블이라고 예측한 개수 즉, 투표 수는 2개이며, 데이터 영향력 점수 계산기(222)는 데이터 영향력 점수 계산 식에 따라 계산한 결과는 '0.66 * log 0.66 = 0.12'에 해당한다. 만약 예측한 개수가 1개 일 때 데이터 영향력 점수는 '0.33 * log 0.33 = 0.16'이고, 예측한 개수가 3개로 일치할 때의 값은 '1 * log 1 = 0'이다.

따라서, 만장일치의 예측을 얻은 결과는 데이터 영향력 점수가 0점으로 낮으므로, 객체 검출 모델을 학습시키는데 유의미하지 않은 영상 샘플이라고 판단한다. 반면, 세 개의 객체 검출 모델 중 한 개의 객체 검출 모델만이 객체를 맞춘 경우에는 데이터 영향력 점수가 만장일치일 때 보다 높게 나오므로, 학습에 유의미한 영상 샘플이라고 결론 지을 수 있다.

도 9는 본 발명의 실시예에 따른 컴퓨팅 장치의 구조도이다.

도 9에 도시된 바와 같이, 영상 자동 샘플링부(220)와 영상 레이블링부(230)를 포함하는 학습 영상 처리 시스템(200)은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치(300)에서, 본 발명의 동작을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행한다.

컴퓨팅 장치(300)의 하드웨어는 적어도 하나의 프로세서(310), 메모리(320), 스토리지(330), 통신 인터페이스(340)를 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 컴퓨팅 장치(300)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.

프로세서(310)는 컴퓨팅 장치(300)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서(310)일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다.

메모리(320)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(310)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(320)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(330)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(340)는 유/무선 통신 모듈일 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

적어도 하나의 프로세서로 구현된 학습 영상 처리 시스템의 동작 방법으로서,
복수의 카메라들로부터, 적어도 하나의 객체가 포함된 복수의 영상들을 수신하는 단계,
상기 복수의 영상들을 복수의 객체 검출 모델들로 입력하고, 상기 복수의 객체 검출 모델들에서 예측된 영상 내 객체의 클래스가 상이한 영상들을 학습용 영상으로 추출하는 단계, 그리고
각 학습용 영상에 대해 상기 복수의 객체 검출 모델들에서 예측된 객체의 클래스를 종합하여 해당 객체의 클래스를 결정하고, 결정한 클래스를 해당 객체에 레이블링하는 단계
를 포함하는, 동작 방법.
제1항에 있어서,
상기 학습용 영상으로 추출하는 단계는,
상기 복수의 객체 검출 모델들로부터, 상기 객체를 예측한 복수의 클래스들 별 확률 값들을 수신하는 단계,
상기 수신한 클래스 별 확률 값들 중 가장 큰 확률 값을 가지는 클래스를 각 객체 검출 모델별로 산출하는 단계, 그리고
상기 각 객체 검출 모델별로 산출한 클래스들이 동일한 클래스인지 확인하는 단계
를 포함하는, 동작 방법.
제2항에 있어서,
상기 동일한 클래스인지 확인하는 단계는,
상기 각 객체 검출 모델들이 상기 객체를 상이하게 예측한 클래스 수가 미리 설정한 임계값 이상이면, 상기 객체가 포함된 영상을 후보 학습용 영상으로 추출하는 단계
를 포함하는, 동작 방법.
제3항에 있어서,
상기 후보 학습용 영상으로 추출하는 단계는,
상기 객체를 포함하는 영상이 기 검출된 영상이 아니면, 상기 후보 학습용 영상을 상기 학습용 영상으로 추출하는 단계
를 포함하는, 동작 방법.
제4항에 있어서,
상기 객체에 클래스를 레이블링하는 단계는,
상기 각 객체 검출 모델이 상기 객체에 클래스를 레이블링한 레이블링 정보를 확인하는 단계,
상기 레이블링 정보에 포함된 상기 객체 클래스의 확률을 기초로, 상기 객체의 클래스 정확도를 계산하는 단계
를 더 포함하는, 동작 방법.
제5항에 있어서,
상기 클래스 정확도를 계산하는 단계는,
상기 클래스 정확도가 미리 설정한 임계 값 이상이면, 상기 클래스를 상기 객체에 레이블링하는 단계
를 포함하는, 동작 방법.
제6항에 있어서,
상기 클래스 정확도를 계산하는 단계는,
상기 각 객체 검출 모델로부터 상기 객체를 포함하도록 설정한 경계 상자의 영역 좌표를 수신하는 단계
를 더 포함하는, 동작 방법.
제7항에 있어서,
상기 객체에 클래스를 레이블링하는 단계 이후에,
상기 학습용 영상과, 상기 경계 상자의 영역 좌표와 상기 객체에 레이블링된 클래스를 포함하는 레이블링 정보로, 상기 각 객체 검출 모델을 학습시키는 단계
를 더 포함하는, 동작 방법.
영상 처리 시스템으로서,
복수의 카메라들로부터 적어도 하나의 객체가 포함된 영상들을 수신하는 인터페이스, 그리고
프로세서
를 포함하고,
상기 프로세서는,
상기 복수의 영상들 중, 복수의 객체 검출 모델들이 상기 적어도 하나의 객체 중 동일한 객체를 서로 상이한 클래스로 예측한 학습용 영상을 추출하고, 상기 복수의 객체 검출 모델들이 상기 학습용 영상에 포함된 객체에 각각 설정한 객체 클래스의 확률을 기초로 상기 객체에 클래스를 레이블링하는, 영상 처리 시스템.
제9항에 있어서,
상기 프로세서는,
각 객체 검출 모델들이 상기 객체를 상이하게 예측한 클래스 수가 미리 설정한 임계값 이상이면, 상기 객체가 포함된 영상을 후보 학습용 영상으로 추출하는, 영상 처리 시스템.
제10항에 있어서,
상기 프로세서는,
상기 객체를 포함하는 영상이 기 검출된 영상이 아니면, 상기 후보 학습용 영상을 상기 학습용 영상으로 추출하는, 영상 처리 시스템.
제11항에 있어서,
상기 프로세서는,
상기 각 객체 검출 모델이 상기 객체에 클래스를 레이블링한 레이블링 정보에 포함된 상기 객체 클래스의 확률을 기초로, 상기 객체의 클래스 정확도를 계산하는, 영상 처리 시스템.