KR102272921B1

KR102272921B1 - 확장형 카테고리를 위한 계층적 객체 검출 방법

Info

Publication number: KR102272921B1
Application number: KR1020190161489A
Authority: KR
Inventors: 이필규
Original assignee: 인하대학교 산학협력단
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2021-07-05
Also published as: KR20210071378A

Abstract

다양한 실시예들은 컴퓨터에서 실행되는 확장형 카테고리를 위한 계층적 객체 검출 방법에 관한 것으로, 데이터 샘플들을 기반으로, 수퍼 클래스 레벨과 증강 클래스 레벨로 구성되는 동적 계층적 특징 모델을 구성하고, 데이터 샘플들로부터 증강 클래스 레벨로 분류되지 않은 아웃라이어(outlier)를 검출하고, 아웃라이어를 기반으로, 개방형 학습을 통해, 동적 계층적 특징 모델을 업데이트하도록 구성될 수 있다.

Description

확장형 카테고리를 위한 계층적 객체 검출 방법{HIERARCHICAL OBJECT DETECTION METHOD FOR EXTENDED CATEGORIES}

다양한 실시예들은 확장형 카테고리를 위한 계층적 객체 검출 방법에 관한 것이다.

2012년 Krizhevsky에 의해 달성된 심층 학습 돌파구 이후 객체 검출 기술에는 많은 발전이 있었다. 그러나 훈련 샘플의 수집과 라벨링은 필요하며 철저한 작업이다. 더욱이 검출해야 할 모든 객체 클래스는 사전에 결정되어야 하지만, 이것은 많은 실제 애플리케이션에서 달성될 수 없다. 그러한 애플리케이션에서, 제한된 객체 클래스로 훈련된 객체 검출 시스템은 보이지 않는(unseen) 데이터 분포의 새로운 객체 클래스를 적절하게 처리할 수 없고 잘못된 예측을 초래할 수 있기 때문에 비실용적인 경향이 있다. 많은 애플리케이션 분야에서 강력한 요구사항이 있음에도 불구하고 보이지 않는 데이터 분포에서 개방형 집합 객체 검출에 초점을 맞춘 연구자는 거의 없다. 새로운 객체의 보이지 않는 데이터 분포는 실제 객체의 검출 시스템에 어려운 문제를 제기한다. 확장된 클래스와 더 복잡한 신경망을 가진 더 큰 데이터 집합을 채택할 수 있지만, 이것은 복잡한 네트워크 재설계 또는 리모델링 작업을 필요로 한다. 그러나 보이지 않는 객체

클래스 검출의 필요성은 많은 실제 애플리케이션에서 매우 흔하다. OverFeat, Faster RCNN, Spatial Pyramid Pooling, the YOLOLO 시리즈, RetinaNet과 같은 최첨단 검출 방법은 여전히 실제 요건을 충족할 수 없다. 고차원 심층 형상 공간을 채용하고 있지만, 특히 훈련 샘플의 불완전한 품질과 실제 이미지 캡처 품질의 다양성 때문에 객체 검출에서는 성능 저하가 불가피하다. 실제로, 완전히 신뢰할 수 있는 휴먼 라벨링 요구사항은 고품질 라벨링 방법의 비용이 매우 비싸기 때문에 받아들여질 수 없다. 트리 구조 접근법은 평평한 구조에서 문제를 해결하고 개방형 집합 분류를 지원하는 데 매우 효과적이다. 분류에서 계층 구조의 장단점은 지난 수십 년 동안 광범위하게 조사되었다. 계층 구조에서 상위 레벨 트리 노드의 라벨 정보는 일반적으로 더 차별적이고 관련성이 있는 라벨 개념을 포착하며, 구분하기 더 어려운 하위 레벨 노드에 의해 계승될 수 있다. 대부분의 이전 접근방식은 계층 분류자 훈련을 위해 수작업으로 조작된 형상과 주석에 의존해 왔지만, 그것들은 많은 노력과 시간을 필요로 했고, 다양한 애플리케이션 환경의 현재 분류에는 오류가 발생하기 쉬운 주석 프로세스가 사용된다.

개방형 집합 객체 검출 오류와 관련된 두 가지 문제에는 잘못 분류된 데이터 포인트와 분포되지 않은 데이터 포인트가 포함된다. 대부분의 객체 검출기는 어수선한 배경, 포즈 분산, 조명 변화 등과 같은 노이즈 있는 환경 때문에 고장나는 경향이 있다. 또한 일부 입력 데이터 샘플은 폐쇄형 집합(즉, 훈련 데이터 집합의 분포 내 클래스)에 속하지 않고 개방형 집합(예: 아웃라이어(outlier) 데이터)에 속한다. 오분류와 이상 데이터 샘플 모두 심층 형상 공간에서 훈련된 데이터 샘플과 일치하지 않으며, 최대 가능성에 기초한 검출 결과는 신뢰할 수 없고 부정확하다. 많은 개방형 집합 알고리즘은 분류 체계 임계값에 따라 분포 내 데이터 클래스와 아웃라이어 데이터 클래스를 구별한다. 그들은 정기적인 대표 계층에서 보이지 않는 계층에 대한 차별이 효과적으로 개방형 공간 위험을 최소화한다는 것을 보여준다. 그러나 시험 샘플이 어떤 형상 공간과 객체 클래스를 가지는지 등, 보이지 않는 클래스에 대한 정보는 사전에 이용할 수 없다. 분류기의 훈련과 시험은 의미적 객체 라벨 공간이 아닌 심층 형상 공간에서 처리된다.

다양한 실시예들은, 의미론적 정규 객체 클래스 계층 구조에 의존하지 않고 트리 구조의 물리적 특징에 기초한 증강 객체 클래스의 개념을 채택함으로써 정규 객체 분류 내의 혼합물로부터의 모호성을 감소시키며, 심층 형상 공간의 증강 객체 클래스 계층은 클래스 간 심층 형상 상관 관계와 클래스 내 변동 기준을 고려하여 구성되는 계층적 객체 검출 방법을 제공한다.

다양한 실시예들은, 새로운 객체 클래스에 대해 보이지 않는 데이터 분포 학습 기능을 갖춘 계층적 개방형 집합 객체 검출 프레임워크를 제안하고자, 확장형 카테고리를 위한 계층적 객체 검출 방법을 제공한다.

다양한 실시예들에 따른 컴퓨터에서 실행되는 확장형 카테고리를 위한 계층적 객체 검출 방법은, 데이터 샘플들을 기반으로, 수퍼 클래스(superclass) 레벨과 증강 클래스(augmented class) 레벨로 구성되는 동적 계층적 특징 모델을 구성하는 단계, 상기 데이터 샘플들로부터 상기 증강 클래스 레벨로 분류되지 않은 아웃라이어(outlier)를 검출하는 단계, 및 상기 아웃라이어를 기반으로, 개방형 학습을 통해, 상기 동적 계층적 특징 모델을 업데이트하는 단계를 포함할 수 있다.

다양한 실시예들에 따른 비-일시적(non-transitory) 컴퓨터-판독 가능 기록 매체는, 데이터 샘플들을 기반으로, 수퍼 클래스 레벨과 증강 클래스 레벨로 구성되는 동적 계층적 특징 모델을 구성하는 단계, 상기 데이터 샘플들로부터 상기 증강 클래스 레벨로 분류되지 않은 아웃라이어를 검출하는 단계, 및 상기 아웃라이어를 기반으로, 개방형 학습을 통해, 상기 동적 계층적 특징 모델을 업데이트하는 단계를 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.

다양한 실시예들은 유익하고 중복되지 않은 샘플 선택과 개방 인식 ASSL 알고리즘을 제공하는 유연한 계층 구조를 이용한 효율적인 개방형 집합 객체 검출을 제안한다.

도 1은 다양한 실시예들에 따른 개방형 집합 객체 프레임워크를 도시하는 도면이다.
도 2 및 도 3은 다양한 실시예들에 따른 동적 계층적 특징 모델을 설명하기 위한 도면들이다.
도 4는 다양한 실시예들에 따른 계층적 객체 검출 방법을 도시하는 도면이다.

다양한 실시예들은 동적 계층 구조를 채택하고, 각 노드는 관련 데이터, 형상 및 심층 모델을 추적하며, 변화하는 데이터 분포에 따라 스스로 진화한다. 개방형 집합 능동 반감독 학습에 특출한 검출을 채택한다. 동적(dynamic) 계층적 특징 모델(hierarchical feature model; HFM)유연성을 계층 구조가 결합한 객체 클래스의 새로운 개념에 근거해의 시각적 분류학을 높일 수 있다. 증강(augmented) 객체 클래스는 일반 클래스의 일부분이며, 혼합 복잡성은 일반 객체 클래스의 그것보다 덜 복잡하거나 동일하다. 제안된 프레임워크는 성능 향상을 위한 폐쇄형 집합 클래스와 라벨이 부착되지 않은 데이터 샘플을 사용하여 개방형 집합 객체 클래스를 모두 적응적으로 학습할 수 있다. 다양한 실시예들은, 보이지 않는 객체를 효과적으로 그룹화하기 위한 증분(incremental) 개방형 집합 인식(open-set aware) 능동 반감독 학습(active semi-supervised learning; ASSL)과 동적 계층적 특징 모델(HFM) 업데이트 알고리즘을 결합한다. 실제 시나리오에서 객체 검출 시스템은 노이즈 및 개방형 집합 데이터를 처리해야 한다. 대부분의 검출 방법에 의해 채택된 정적 세계 가정은 더 이상 실무에서 유효하지 않다. 우리는 아웃라이어(outlier) 검출 알고리즘과 협력 샘플 선택 기반 개방형 집합 ASSL에 포함된 동적 HFM의 차별적 기능을 활용하여 이 문제를 해결했다. 다양한 실시예들은 유익하고 중복되지 않은 샘플 선택과 개방 인식 ASSL 알고리즘을 제공하는 유연한 계층 구조를 이용한 효율적인 개방형 집합 객체 검출을 제안한다.

다양한 실시예들과 관련하여, 후술되는 관련 작업이 있다.

<다중 객체 검출>

고급 객체 검출 기법은 주로 장시간의 훈련을 위한 적절한 라벨이 부착된 대규모 데이터 집합의 가용성에 따라 달라진다. 연구자들은 다양하고 변화하는 실제 환경에 비해 훈련 샘플의 불완전한 품질과 보이지 않는 데이터 분포로 인해 객체를 검출하는 데 있어 성능 저하를 줄이기 위해 고차원의 심층 형상 공간을 채택했다. 대부분의 객체 검출 방식은 독립적이고 동일하게 분포된(independent and identically distributed; IID) 라벨링 훈련 데이터 샘플이 정적 환경에서 사용 가능하다고 가정한다. 그러한 정적 IID 가정은 보행자 검출, 시각 감시, 활동 인식 및 포즈 추정과 같이 많은 실제의 객체 검출 애플리케이션에서는 유효하지 않다. 벤치마크 데이터 집합을 사용하여 다양한 첨단 객체 검출 연구의 최근 진행 상황이 분석되고 비교되었다. 또한 신뢰할 수 있는 인간 라벨링(human labeling)이 유효하지 않다는 가정을 가진 2단계 공동 분할 알고리즘이 제안되었다. 이는 고품질 라벨링 프로세스의 비용이 너무 비싸지고 방해 배경을 줄이기 위해 균일한 배경이 필요한 실시간 애플리케이션에서는 허용되지 않기 때문이다. 보이지 않는 분포에서 새로운 데이터 포인트의 품질은 객체 검출에서 어려운 문제를 일으킨다.

<개방형 집합 인식>

개방형 집합 인식 문제는 시험 샘플이 훈련 중 보이지 않는 클래스와 관련이 있다는 것이다. 대부분의 분류 알고리즘은 폐쇄형 세계 가정에 기초하며, 이에 따라 시험 샘플은 훈련 중에 사용되는 K 클래스 중 하나에 속하게 된다. 그러나 많은 실제 애플리케이션에서 시험 샘플은 보이지 않는 분포에서 나올 수 있다. 개방형 집합 인식은 훈련 시간에 세계에 대하여 불완전한 지식을 가지고 있지만, 시험 중에 알려지지 않은 클래스를 알고리즘에 제출할 수 있다. 개방형 집합 인식 문제는 강력한 일반화 요건 때문에 지금까지 거의 제시되지 않았다. 초기 작업의 대부분은 증분 학습에 적합하지 않은 수공학적 특징을 바탕으로 했다. 다양한 실시예들의 접근법과 밀접한 관련이 있는 작업 중 하나는 하이브리드 접근에서 반감수 학습과 통합된 특징을 선택하기 위해 심층 신경망을 적용하는 방법이다. 한편, 로컬 변환의 불변성을 형성하여 로컬 변환을 더 잘 유도하는 잠재 정보를 채택하기 위하여 변형 가능한 부분 모델이 제안되었다. 한편, 유사성 기반 지식 전달 모델을 제시하고 객체 분류기를 객체 검출기에 적응시키기 위해 객체 유사성에 대한 지식이 어떻게 전달될 수 있는지가 조사되었다.

공통 심층 학습 연구 작업은 폐쇄형 집합에 기초한다. 신경망은 훈련과 시험의 데이터 분포가 동일하기 때문에 매우 강력한 일반화 능력을 보여준다.

실제 세계에서는 보이지 않는 새로운 객체 클래스를 제대로 다룰 수 없기 때문에 보통 객체 검출 성능이 떨어진다. 이러한 맥락에서, 다양한 실시예들은 보이지 않는 객체 클래스에 대한 점진적인 학습 기능을 가진 동적 계층 구조에 기초하여 개방형 집합 객체 프레임워크를 제안한다.

신경망은 완전히 인식할 수 없는 또는 관련 없는 입력에도 높은 신뢰도 예측을 수행하는 경향이 있지만, 종종 실제 애플리케이션에서 데이터 분포를 시험하는 데 거의 통제하지 못한다. 물체 검출/분류 작업에 있어 분포 외 샘플의 정확한 검출이 중요하다. 분포 내 및 분포 외 샘플 또는 그 경계에 있는 데이터의 관점에서 새로운 유형의 입력 데이터의 불확실성을 인지하는 것이 중요하다. 개방형 집합 인식의 일반적인 약점은 협력적 샘플링 전략을 통해 적합한 후보를 선택하는 것인데, 불확실성, 다이버시티, 신뢰 기준이 중요한 역할을 하는 곳에서는 쉽지 않다. 훈련 데이터 크기에 따라 라벨링 시간도 달라지는데, 이는 매우 지루한 작업이다. 또한 다수의 반복적인 증분 학습 후에 최종 모델은 포화에 도달하고, 그 다음 분류 성과는 더 많은 훈련에 따라 달라지지 않는다. 긍정적인 측면에서는, 다양한 실시예들에 따른 방법이 최첨단 객체 검출기 접근에 비해 훨씬 더 잘 수행된다. ASSL 결합 접근법은 훈련 시간과 라벨링 노력을 줄이는 데이터 집합을 효과적으로 선택할 수 있다.

<능동적 학습과 반감독 학습 조합>

능동적 학습(AL)과 반감독 학습(SSL)은 서로 다른 문제를 기반으로 동일한 문제를 해결하려고 하며, 최소의 인간 라벨링으로 높은 분류 정확도를 달성한다는 공통 목표를 가지고 있다. AL은 오라클 결정에 따라 시험 데이터에서 알려진 정보를 활용하여 분류 훈련 과정에 이로운 가장 유익한 샘플을 선택한다. 불확실성에 대한 샘플 추출 접근법을 채택하여 의사결정 경계에 가장 가까운 샘플을 선택한다. 유명한 AL 샘플링 전략인 위원회별 쿼리(QBC)는 위원회의 서로 다른 가설에 의존하는 앙상블 학습 방법인 반면, 가장 유익한 샘플은 분류자 간의 최대 불일치 사례로 간주된다. AL은 인간의 개입을 어느 정도 허용하지만, SSL은 인간 라벨링 없이 훈련 과정에서 라벨링되지 않은 데이터를 직접 사용한다. AL 기법과 SSL 기법을 혼합하여 분류 관행을 위해 라벨을 부착하고 잠정적으로 라벨을 부착한 샘플을 처리할 수 있으며, 혼합 기법은 최소한의 노력으로 수동으로 라벨을 부착한 새 샘플을 조사할 수 있다. AL과 SSL의 앙상블 방법은 순차적 조합으로 분류되며, SSL은 AL에 내장되어 있으며, 협력적 샘플링이다. 순차적 조합은 SSL이 객관적인 성능을 발휘하는 데 있어 초기 훈련 세트가 중요하다는 사실을 강조한다. Muslea는 AL과 SSL 모두에 대해 다중 뷰를 채택함으로써 이 전략을 채택했다. AL과 SSL 앙상블 방법은 여러 가지 다른 아키텍처에 기초한다. Wan은 SSL로 라벨을 부착한 저신뢰 슈도(pseudo) 라벨 샘플을 위한 AL 기반 검증을 보여주었다. 증강 알고리즘의 신뢰 점수를 이용한 AL과 SSL의 협력적 조합은 음성 언어 분류 문제에 적용되었다. 여러 가지 AL 및 SSL 협력 방법이 연구되었다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

도 1은 다양한 실시예들에 따른 개방형 집합 객체 프레임워크를 도시하는 도면이다.

도 1을 참조하면, 다양한 실시예들은 새로운 객체 클래스를 학습하고 보이지 않는 데이터 분포에서 정규 객체 클래스를 재훈련하는 개방형 집합 객체 검출기 프레임워크를 제시한다. 프레임워크는 매우 적은 수의 라벨링된 데이터 샘플로 시작하여 라벨링되지 않은 데이터 샘플을 개방형(open-set) 집합으로 사용하여 점진적으로 학습한다. 제안된 프레임워크의 주요 구성요소는 동적 HFM, 아웃라이어 검출 알고리즘, 협력 샘플링(collaborative sampling; CS) 알고리즘 및 증분(incremental) ASSL(active semi-supervised learning)이다. 라벨이 부착된 데이터 샘플, 즉 PASCAL VOC 2007 및 2012년 trainval 데이터 집합을 사용하여 사전 훈련을 받은 초기 CNN 모델을 사용했다. 이 때 증분 ASSL 적용 전의 데이터 분포(도 1의 좌측 아래, 큰 갈색 원과 작은 빨간색 원)와 증분 ASSL 적용 후의 데이터 분포(도 1의 우측 아래)가 표현된다. 빨간색 원이 갈색 원 내에 포함되었기 때문에, 검출기는 두 객체 클래스들을 구별할 수 없었다. 데이터 분포의 변경은 갈색 원과 빨간색 원이 분리된 우측 아래에 표현된다. 동적 HFM이 증분 ASSL에 의해 학습된 후, 새로운 기능 보강으로 업데이트된다.

동적 HFM은 초기CNN 모델을 구축하여 모델 성능을 개선하고 신뢰받는 슈도 라벨 샘플을 단계별로 증가시킴으로써 검출 정확도를 향상시킨다. 라벨링된 샘플의 계층 구조는 집적 클러스터링 알고리즘을 사용하여 수퍼 클래스와 증강 클래스의 관점에서 모델링되었다. 각 수퍼 클래스 노드의 데이터 샘플은 복수의 증강 클래스 노드와 관련이 있었다. 증강 객체 클래스는 일반 객체의 일부로서, 일반 객체 클래스의 다른 부분으로부터 독특한 데이터 분포를 가진다. 즉, 일반 객체 클래스는 하나 이상의 증강 클래스 노드로 구성된다. 차별 정보는 새로운 증강 객체 클래스가 추가되었을 때 보이지 않는 객체 클래스의 개방형 집합 학습을 위해 동적 HFM에서 사용된다. 다양한 실시예들에서는, 보이지 않는 데이터 분포에서 생성된 객체 제안을 고려했다. 객체 제안 시퀀스는 다른 많은 접근방식과 마찬가지로 한 번에 하나의 이미지 샘플 대신 동시에 처리되는 빈으로 분할되었다. 이것은 동적 HFM에 대한 학습/업데이트가 새로운 어수선한 환경에서도 노이즈 이미지에 민감하지 않음을 의미한다. 개방형 집합 ASSL은 협력적인 샘플링을 수행하고, 아웃라이어 검출 알고리즘을 사용하여 객체 제안 분포를 분석한다. ASSL은 아웃라이어 검출 결과를 기반으로 동적 HFM에서 보이지 않는 정규 클래스를 위해 증강 클래스를 재훈련하거나 생성한다. 동적 HFM에서 객체 제안은 AL에 대한 불확실성 및 다이버시티의 기준과 SSL에 대한 신뢰성의 기준을 결합하여 CS 알고리즘에 의해 필터링된다. SSL과 AL의 협력을 통해 이미지 파티션의 라벨이 없는 객체 제안으로부터 더 자신 있고 유용한 슈도 라벨 훈련 샘플을 얻을 수 있다. 아웃라이어 검출 알고리즘은 현재 심층 공간에서의 분포 내외 객체 제안을 구별하기 위해 사용된다.

<동적 계층적 특징 모델>

도 2 및 도 3은 다양한 실시예들에 따른 동적 계층적 특징 모델을 설명하기 위한 도면들이다. 이 때 도 2의 (a)는 일반적인 객체 검출 플랫 모델을 나타낸다. 일반적인 객체 검출 플랫 모델은 훈련된 클래스 이미지에서 우수한 성능을 가지나, 훈련되지 않은 클래스 데이터에 대해서는, 많은 오류가 있다. 도 2의 (b)는 다양한 실시예들에 따른 동적 HFM 트리 프레임워크를 나타내고, 동적 HFM 트리 프레임워크는 수퍼 클래스와 증강 클래스 레벨 구성된다. 이 때 데이터가 증강 클래스 노드에 도달하면, 증강 클래스 노드가 시맨틱(semantic) 클래스에 매칭된다. 도 3은 수퍼 클래스와 증강 클래스 개념을 나타낸다.

다양한 실시예들은 HFM을 확장하는 개방형 집합 객체 검출을 위하여 계층적 심층 형상 구조를 제시하며, 일반 객체에 대한 증분 학습 및 보이지 않는 객체에 대한 개방형 집합 학습 기능을 제공한다. 동적 HFM은 도 2의 (b)에 도시된 바와 같이 두 가지 다른 레벨인 수퍼 클래스와 증강 클래스 레벨로 구성된다. 이 때 데이터 분포에서 정규 클래스의 독특한 부분으로 정의되는 증강 클래스의 개념이 채택되었다. 증강 클래스는 도 3에 도시된 바와 같이 클래스 간의 공통적인 특성을 수퍼 클래스 레벨과 공유하며, 관련 일반 객체 클래스보다 클래스 내 특성에 더 가깝다.

<아웃라이어 검출>

보이지 않는 객체 클래스는 현재 증강 클래스로 올바르게 분류할 수 없으며 정기적인 객체 출력을 생성할 수 없다. 그러나 동적 HFM에는 새로운 증강 클래스 예측 기능이 존재하지 않더라도 높은 확률로 클래스 간 공통의 속성을 공유하는 수퍼 클래스 객체가 존재한다. 아웃라이어 검출을 위해 아웃라이어 검출 방법이 채택되었다. 객체 제안은 t시간에 동적 HFM에 입력되었다. 라벨이 지정되지 않은 데이터 집합에서 추출된 객체 제안

의 경우 객체 검출 오류의 원인은 분류하기 어렵고 동적 HFM에서 아직 정의되지 않은 특정 데이터 포인트, 즉 보이지 않는 데이터 포인트(새로운 클래스에 속하는 특정 데이터 포인트)로 구분된다. 위 유형의 오류는 검출기의 의미 목표와 깊은 관련이 있기 때문에 구별하기가 어렵다. 객체 제안의 분포를 조사하고, 현재의 예측 모델을 사용하여 동적 HFM을 업데이트했다. 스퀘어의 클러스터내 합(within-cluster sum of squares; WCSS)을 최적화하기 위해,

와 클러스터 멤버쉽 가중치를 선택했다.

이 클러스터 j의 딥 형상 벡터(deep-feature vector)

의 클러스터 멤버십 가중치를 나타낸다 하자. 즉, M-차원 0 벡터(

가 인라이어(inlier)일 경우 0) 또는 0이 아닌 벡터(

가 아웃라이어인 경우)인 아웃라이어 보상 벡터

를 정의하자. 각 요소가 클러스터 멤버쉽 가중치

인

,

및 멤버십 가중치 매트릭스

를 정의하자. 소프트 K-평균 알고리즘(soft K-means algorithm)은

의 희소를 활용하고

와

를 대체하는 아웃라이어 보상 버젼(

-

)을 정의한다. 아웃라이어 인식의 소프트 K-평균 클러스터링은 하기 [수학식 1]과 같이 정의된다.

여기서 τ는 튜닝 파라미터를 나타내고, τ>1이다. 소프트 k-평균 알고리즘은 한 번에 하나의 변수에 초점을 맞추고 다른 변수는 고정된 상태에서 비용 함수를 반복적으로 최적화하는 블록 좌표 강하(block coordinate descent; BCD) 알고리즘을 기반으로 해결한다.

가 임계값 ρ보다 크면,

가 아웃라이어로 정의된다.

주어진 객체 제안 빈의 경우 동적 HFM 알고리즘은 현재 노드 속성을 업데이트한다. 동적 HFM은 각 증강 클래스 노드에서 개방형 학습의 작업을 실행한다. 동적 HFM은 노드 데이터 세트, 노드 형상 벡터 및 노드 예측 모델에 의해 구성된 노드 속성을 지속적으로 업데이트한다. 그것들은 후술되는 개방형 ASSL 알고리즘을 사용하여 업데이트된다.

<개방형 집합 인식 증분 ASSL>

제안된 증분 개방형 집합 인식 ASSL은 AL 패러다임의 불확실성과 다이버시티 특성을 증분 SSL 패러다임의 신뢰 속성과 결합한다. AL의 불확실성 기준을 고려했을 때, 대부분의 불확실한 샘플은 현재 검출 모델에 의해 높은 확률로 잘못 분류될 것으로 예상되기 때문에 추가될 가장 유용한 훈련 샘플로 간주된다. 그러나 불확실성 기준은 노이즈 또는 중복 샘플을 선택할 수 있다. 보다 유익하고 낮은 중복성 훈련 샘플을 선택할 것으로 예상되는 불확실성, 다이버시티 및 신뢰 기준 측면에서 AL과 SSL의 협력 샘플링 방법에 기초한 증분 SSL 철학과 결합된 풀 기반(배치 또는 빈) AL 구조를 조정했다.

AL 배치 주기를 사용하고 증분 SSL에 대한 빈 기반 주기를 추가했다. AL 배치 주기에서 훈련 데이터 집합은 잘 정의된 라벨링 훈련 샘플

과 약하게 라벨링되지 않은 훈련 샘플

로 구분되었다. 개방형 집합 인식 증분 ASSL은

보다

의 볼륨을 늘리고 동적 HFM을 업데이트하기 위해 이들을 다루었다. 첫째, 원래 모델은 CNN을 만드는 데 사용되는 사전 라벨링된 데이터 집합에서 배운다. 그런 다음 훈련된 모델의 분포와 범주 균형을 고려하여 샘플 배치를 선택한다. 현재 검출기는 슈도 라벨이 있는 샘플에 신뢰 점수를 할당한다. 현재 검출기가 측정하고 순위를 매기는 신뢰도 점수에 따라 약한 샘플에서 신뢰 있고 잘 정의된 샘플을 선택한다. 슈도 라벨 샘플의 하위 집합은 협력 샘플링 접근법을 사용하여 선택되며, 현재 검출기는 새로운 라벨을 재할당하거나 높은 정격을 라벨에 할당한다. 이전에 식별된 일부 모호한 샘플은 불확실성과 다이버시티의 기준에 의해 필터링한 후 오라클에 의해 제거되거나 다시 라벨링된다.

개방형 집합 인식 증분 ASSL은 불확실성, 다이버시티 및 신뢰도 기준에 따라

의 풀을 구성하여 훈련 시간을 단축한다.

순위

내에서 더 많은 노출 샘플을 포함하는 후보 샘플 집합

는 하기 [수학식 2]와 같이 정의된다.

여기서

는

의 감소 순위를 나타낸다. 다음으로, 샘플

,

를 신뢰도 기준 파라미터

를 사용하여

를 초기화했다.

의 샘플은

에 추가된다.

에서 신뢰도 점수, 즉,

가 가장 유사한 샘플이 된다.

이 식에서는 두 형상 사이의 Euclidian 거리를 사용하여

를 계산했다.

의 카디널리티가

이 되면 샘플 선택 프로세스가 중지되고, 최종 샘플 집합은

이다. 샘플 풀을 이용해 CNN을 재훈련했고, 융합 기준이 충족될 때까지 그 과정을 반복했다. 전체 프로세스와 파라미터는 하기 [표 1]의 알고리즘 1에 요약되어 있다. 알고리즘 1의 연산적 복잡성은 빈의 수와 증강 클래스에 따라 달라진다. 보이지 않는 객체 클래스가 많이 존재하거나 그 결과 빈의 수가 증가한 경우도 있고, 훈련 시간도 증가했지만 제안된 방법의 성능은 향상되었다.

도 4는 다양한 실시예들에 따른 계층적 객체 검출 방법을 도시하는 도면이다. 이 때 도 4의 방법은 전술된 프레임워크를 기반으로 수행될 수 있다.

도 4를 참조하면, 다양한 실시예들에 따른 계층적 객체 검출 방법을 실행하도록 구현된 컴퓨터(예: 계층적 객체 검출기)는, 410 단계에서, 데이터 샘플들을 기반으로, 수퍼 클래스 레벨과 증강 클래스 레벨로 구성되는 동적 계층적 특징 모델을 구성할 수 있다. 일 실시예에 따르면, 컴퓨터는 데이터 샘플들 중 라벨링된 샘플들로 동적 계층적 특징 모델을 구성할 수 있다.

컴퓨터는, 420 단계에서, 데이터 샘플들로부터 증강 클래스 레벨로 분류되지 않은 아웃라이어를 검출할 수 있다.

컴퓨터는, 430 단계에서, 아웃라이어를 기반으로, 개방형 학습을 통해, 동적 계층적 특징 모델을 업데이트할 수 있다. 이 때 개방형 학습은, 협력 샘플링(CS) 알고리즘을 기초로 하는 증분 ASSL을 포함할 수 있다. 여기서, 협력 샘플링은, 불확실성 샘플링(uncertainty sampling), 다이버시티 샘플링(diversity sampling) 및 신뢰 샘플링(confidence sampling)을 포함할 수 있다. 이 때 컴퓨터는, 데이터 샘플들을 라벨링된 샘플들과 나머지 샘플들로 분할할 수 있다. 그리고 컴퓨터는, 나머지 샘플들 중 아웃라이어에 신뢰도 점수를 할당할 수 있다. 일 실시예에 따르면, 컴퓨터는 아웃라이어에 슈도(pseudo) 라벨을 할당하고, 슈도 라벨을 기반으로, 아웃라이어에 신뢰도 점수를 할당하고, 신뢰도 점수를 기반으로, 아웃라이어를 선택하고, 아웃라이어에 신뢰도 점수를 할당할 수 있다. 이 후 컴퓨터는, 신뢰도 점수에 따라, 아웃라이어에 라벨을 할당하여, 라벨링된 샘플들을 증분시킬 수 있다. 이를 통해, 컴퓨터는 증분된 라벨링된 샘플들을 이용하여, 동적 계층적 특징 모델을 업데이트할 수 있다.

다양한 실시예들은, 보이지 않는 객체 클래스에 대하여 증분 학습 기능을 갖는 동적 계층 구조에 기초하여 개방형 집합 객체 감지 프레임워크를 제안한다. 우리는 시각적 객체에서 추출된 깊은 형상이 강력한 계층적 클러스터링 속성을 나타낸다는 관찰에 의해 동기 부여를 받았다. 계층적 특징 모델(HFM)은 협력 샘플링(CS)과 개방형 집합 인식 ASSL 알고리즘을 사용하여 새로운 객체 클래스를 학습하는 데 사용되었다. 우리는 집적 클러스터링 알고리즘을 사용하여 객체 제안을 수퍼 클래스로 나누었다. 각 수퍼 클래스 노드의 데이터 샘플은 일반 객체 클래스와 직접 연계하는 대신 복수의 증강 클래스 노드로 분류되었다. 하나 이상의 증강 클래스 노드는 일반 객체 클래스와 관련되며, 각 증강 클래스는 하나의 수퍼 클래스에 불과하다. 미숙한 데이터 분포에서 제안된 객체는 증강된 클래스 노드에 할당된다. 결정 경로의 동적 HFM 노드는 앙상블 예측을 구성하기 위해 조립되며, 새로운 증강 객체는 새로운 정규 객체 클래스와 연관된다. 실험 결과에 따르면 제안된 방법은 PASCAL VOC, MS COCO, ILSVRC DET 및 로컬 데이터 집합과 같은 표준 벤치마크 데이터 집합을 사용하여 최신 기술보다 우수한 성능을 발휘하는 것으로 나타났다.

본 문서의 다양한 실시예들은 기기(machine)에 의해 읽을 수 있는 기록 매체(storage medium)에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서는, 기록 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 기록 매체는, 비일시적(non-transitory) 기록 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 기록 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 기록 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

다양한 실시예들에 따른 비-일시적(non-transitory) 컴퓨터-판독 가능 기록 매체는, 데이터 샘플들을 기반으로, 수퍼 클래스 레벨과 증강 클래스 레벨로 구성되는 동적 계층적 특징 모델을 구성하는 단계, 데이터 샘플들로부터 증강 클래스 레벨로 분류되지 않은 아웃라이어(outlier)를 검출하는 단계, 및 아웃라이어를 기반으로, 개방형 학습을 통해, 동적 계층적 특징 모델을 업데이트하는 단계를 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.

다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

컴퓨터에서 실행되는 확장형 카테고리를 위한 계층적 객체 검출 방법에 있어서,
데이터 샘플들을 기반으로, 수퍼 클래스 레벨과 증강 클래스 레벨로 구성되는 동적 계층적 특징 모델을 구성하는 단계;
상기 데이터 샘플들로부터 상기 증강 클래스 레벨로 분류되지 않은 아웃라이어(outlier)를 검출하는 단계; 및
상기 아웃라이어를 기반으로, 개방형 학습을 통해, 상기 동적 계층적 특징 모델을 업데이트하는 단계를 포함하고,
상기 동적 계층적 특징 모델을 업데이트하는 단계는,
상기 데이터 샘플들을 라벨링된 샘플들과 나머지 샘플들로 분할하는 단계;
상기 나머지 샘플들 중 상기 아웃라이어에 신뢰도 점수를 할당하는 단계;
상기 신뢰도 점수에 따라, 상기 아웃라이어에 라벨을 할당하여, 상기 라벨링된 샘플들을 증분시키는 단계; 및
상기 증분된 라벨링된 샘플들을 이용하여, 상기 동적 계층적 특징 모델을 업데이트하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 개방형 학습은,
협력 샘플링(collaborative sampling; CS) 알고리즘을 기초로 하는 증분(incremental) ASSL(active semi-supervised learning)을 포함하는 방법.
삭제
제 1 항에 있어서, 상기 신뢰도 점수를 할당하는 단계는,
상기 아웃라이어에 슈도(pseudo) 라벨을 할당하는 단계; 및
상기 슈도 라벨을 기반으로, 상기 아웃라이어에 상기 신뢰도 점수를 할당하는 단계;
상기 신뢰도 점수를 기반으로, 상기 아웃라이어를 선택하는 단계;
상기 아웃라이어에 상기 신뢰도 점수를 할당하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 동적 계층적 특징 모델을 구성하는 단계는,
상기 데이터 샘플들 중 라벨링된 샘플들로 상기 동적 계층적 특징 모델을 구성하는 단계를 포함하는 방법.
비-일시적(non-transitory) 컴퓨터-판독 가능 기록 매체에 있어서,
데이터 샘플들을 기반으로, 수퍼 클래스 레벨과 증강 클래스 레벨로 구성되는 동적 계층적 특징 모델을 구성하는 단계;
상기 데이터 샘플들로부터 상기 증강 클래스 레벨로 분류되지 않은 아웃라이어(outlier)를 검출하는 단계; 및
상기 아웃라이어를 기반으로, 개방형 학습을 통해, 상기 동적 계층적 특징 모델을 업데이트하는 단계를 실행하기 위한 하나 이상의 프로그램들을 저장하고,
상기 동적 계층적 특징 모델을 업데이트하는 단계는,
상기 데이터 샘플들을 라벨링된 샘플들과 나머지 샘플들로 분할하는 단계;
상기 나머지 샘플들 중 상기 아웃라이어에 신뢰도 점수를 할당하는 단계;
상기 신뢰도 점수에 따라, 상기 아웃라이어에 라벨을 할당하여, 상기 라벨링된 샘플들을 증분시키는 단계; 및
상기 증분된 라벨링된 샘플들을 이용하여, 상기 동적 계층적 특징 모델을 업데이트하는 단계를 포함하는 비-일시적 컴퓨터-판독 가능 기록 매체.
제 6 항에 있어서, 상기 개방형 학습은,
협력 샘플링 알고리즘을 기초로 하는 증분 ASSL을 포함하는 비-일시적 컴퓨터-판독 가능 기록 매체.
삭제
제 6 항에 있어서, 상기 신뢰도 점수를 할당하는 단계는,
상기 아웃라이어에 슈도(pseudo) 라벨을 할당하는 단계; 및
상기 슈도 라벨을 기반으로, 상기 아웃라이어에 상기 신뢰도 점수를 할당하는 단계;
상기 신뢰도 점수를 기반으로, 상기 아웃라이어를 선택하는 단계;
상기 아웃라이어에 상기 신뢰도 점수를 할당하는 단계를 포함하는 비-일시적 컴퓨터-판독 가능 기록 매체.
제 6 항에 있어서, 상기 동적 계층적 특징 모델을 구성하는 단계는,
상기 데이터 샘플들 중 라벨링된 샘플들로 상기 동적 계층적 특징 모델을 구성하는 단계를 포함하는 비-일시적 컴퓨터-판독 가능 기록 매체.