KR20230099821A - 컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치 - Google Patents

컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치 Download PDF

Info

Publication number
KR20230099821A
KR20230099821A KR1020210189183A KR20210189183A KR20230099821A KR 20230099821 A KR20230099821 A KR 20230099821A KR 1020210189183 A KR1020210189183 A KR 1020210189183A KR 20210189183 A KR20210189183 A KR 20210189183A KR 20230099821 A KR20230099821 A KR 20230099821A
Authority
KR
South Korea
Prior art keywords
interest
region
regions
machine learning
learning model
Prior art date
Application number
KR1020210189183A
Other languages
English (en)
Inventor
심재영
한병주
고규현
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020210189183A priority Critical patent/KR20230099821A/ko
Publication of KR20230099821A publication Critical patent/KR20230099821A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기계 학습 모델을 트레이닝시키는 장치는 복수의 이미지들의 사람에 대응하는 관심영역들(regions of interest; ROIs) 및 상기 관심영역들의 피처들(features)을 획득하고, 상기 획득된 관심영역들의 피처들 간의 유사도에 기초하여, 상기 복수의 이미지들 중 기준 이미지의 관심영역들을 기준으로 복수의 이미지들의 관심영역들을 클러스터링하며, 상기 기준 이미지의 관심영역과 같은 클러스터로 클러스터링된 관심영역을 가지는 대상 이미지에 포함된 관심영역들을 서로 다른 클러스터로 클러스터링하고, 상기 기준 이미지의 관심영역 및 기계 학습 모델을 통해 상기 기준 이미지로부터 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 상기 기준 이미지의 사람에 대응하는 영역으로 추정되는 후보 영역(candidate region)으로 결정하고, 기계 학습 모델에 기초하여 상기 기준 이미지로부터 획득된 후보 영역의 피처 및 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 관심영역의 피처 간의 유사도에 기초하여 계산된, 상기 기준 이미지에 대한 목적함수 값에 기초하여 상기 기계 학습 모델의 파라미터들을 업데이트하며, 상기 후보 영역의 피처를 이용하여, 상기 기준 이미지의 상기 후보 영역과 중첩되는 관심영역의 피처를 업데이트하는 프로세서를 포함할 수 있다.

Description

컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치{METHOD AND DEVICE FOR TRAINING MACHINE LEARNING MODEL FOR PERSON SEARCH USING CONTEXT}
이하, 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치에 대한 기술이 개시된다.
최근 발생한 COVID 19로 인한 확진자 추적 및 오래 전부터 필요성이 대두된 범죄자 추적 등 다양한 분야에서 원하는 사람을 찾아내는 기술에 대한 수요가 증가하고 있다. AI 기술의 발전과 함께, 사람 식별(person re-identification) 기술은 이러한 기능을 수행할 수 있다. 그러나, 사람 식별 기술은 이미 검출(detect)된 사람들을 가정할 수 있다. 이미 사람이 검출된 것과 같은 제한적인 상황에서 사람 식별이 실제 시나리오에서 적용되는 것은 어려울 수 있다. 최근 개발된 사람 검색(person search) 기술은 영상이 주어졌을 때, 영상 내의 모든 사람들을 검출하고 원하는 사람을 식별하여 찾아낼 수 있다. 사람 검색 기술에서 다루는 영상은, 사람 식별에서 다루는 영상과 다르게, 예를 들어, CCTV 영상과 같이 다수의 사람들이 다양한 자세들(poses)와 다양한 각도들로 등장할 수 있다. 따라서, 사람 검색 문제는 사람 식별 문제보다 도전적인 문제로 취급될 수 있다. 사람 검색 기술은 다양한 감시 카메라들의 출현으로 매일 대규모의 수많은 보행자 이미지들이 제공됨에 따라 감시 및 추적에 활용도가 높을 수 있다. 또한, 사람 검색 기술은 스마트폰에 있는 증강 현실 기술과도 결합하는 시각 엔터테인먼트 서비스 기술을 위한 핵심 기술일 수 있다.
사람 검색 기술의 분야에서는, CUHK-SYSU 데이터 세트와 PRW 데이터 세트가 사용될 수 있다. CUHK-SYSU 데이터 세트와 PRW 데이터 세트는 하나의 영상에 다수의 사람들이 등장하는 영상들 및 평가 시에 찾고자 하는 쿼리(query) 사람이 제공될 수 있다. 또한, 영상 내 사람의 위치 정보 및 사람의 ID 정보가 주석화(annotation)이 되어 있다. 데이터 세트 내의 다수의 사람들에 대한 ID 정보가 정확히 라벨이 되어 있을 수 있지만, 데이터 세트 내의 많은 사람들에 대한 ID 정보가 확실하지 않아 라벨링되지 않은(unlabeled) 사람들이 있다. 기존 기법들은 영상 안에서 사람의 위치 정보 및 ID 정보를 활용하여 지도 학습(supervised learning)의 방법으로 인공 지능 모델을 트레이닝시키고, 라벨링되지 않은 사람들은 단순히 네거티브(negative)로서 활용될 수 있다.
제안 기술과 관련된 기술들은 2가지로 분류되어 정리될 수 있다. 첫번째 분류는, ID 라벨이 없는 상황을 가정한 기술들일 수 있다. 종래 사람 검색 기술들 중에는 이런 기술이 연구된 적이 없으므로, 사람 식별 기술들이 소개될 수 있다. 두 번째 분류는, 주변 사람들을 활용한 4가지의 사람 검색 기술들이 소개될 수 있다.
ID 라벨이 없는 상황을 가정한 기술들 중 BUC는 학습 초기에 모든 사람들을 서로 다른 클러스터(cluster)에 속하게 하고, 학습을 진행하며 가장 가까운 이웃을 점진적으로 cluster들을 묶는 기법을 나타낼 수 있다. BUC 기법은 단순히 피처들(features)간의 거리에 따라 클러스터링(clustering)을 수행하기 때문에 노이즈에 예민하다는 단점이 있을 수 있다. 다른 종래 기법은 주어진 쿼리(query)와 같은 사람들을 이진 벡터 기반 멀티-라벨로 표현하며 학습을 진행할 수 있다. 또 다른 기존 기법은, 하드-디시전(hard-decision) 오류를 피하기 위하여, 이진 벡터 기반 멀티-라벨의 할당의 정도를 샘플들 간의 관계의 정보를 이용하여 부드럽게 표현할 수 있다.
기존 사람 식별 연구들은 ID 라벨을 활용하지 않으면서 피처들간의 거리 정보를 이용하여 기계 학습 모델을 트레이닝시키는 반면에, 본 발명은 사람 검색에서 클러스터링을 수행할 때 영상 정보를 분석하고 이용하여 노이즈를 제거하며 더욱 신뢰 있는 클러스터를 만드는 기법을 제안할 수 있다.
사람 검색 기술은 다양한 각도의 영상들에서 주어진 쿼리 사람과 일치하는 사람을 찾기 위한 기술을 나타낼 수 있다. 사람 식별 기술과 다르게, 사람 검색에서는 영상으로부터 유일성(uniqueness)와 동시 출현성(co-appearance)과 같은 컨택스트(context) 정보가 활용될 수 있다. 영상의 컨택스트 정보를 활용하는 기법들 중 하나는, 주어진 쿼리 영상의 이웃하는 사람과 찾고자 하는 사람이 있는 갤러리 영상의 이웃 사람들 간의 모든 쌍을 고려하여 이분 그래프로 관계를 모델링하고, 이분 매칭(bipartite matching) 기법을 사용해 최적의 매칭 쌍을 구할 수 있다. 또한, 쿼리와 같은 영상에 등장하는 이웃들을 고려하여 쿼리와 찾고자 하는 대상 사람(target person)간의 유사도를 설계하는 기법이 제안될 수 있다. 또 다른 기존 기법에서는, ID 라벨 정보가 있는 상황에서 라벨링되지 않은 사람들에게 임의의 라벨을 부여하기 위하여, 유일성(uniqueness) 정보를 활용하는 기법이 제안될 수 있다.
기존 기법들은, ID 라벨 정보가 있다고 가정한 지도 학습 기반의 사람 검색 문제에 적용함으로써 인공지능 모델의 트레이닝을 도와줄 수 있도록 영상의 컨텍스트 정보를 사용할 수 있다. 반면, 본 발명은 최초로 ID 정보가 없는 사람 검색 문제를 정의하고 영상의 컨텍스트 정보(예를 들어, 유일성(uniqueness) 및 동시 출현성(co-appearance))를 이용하는 기법을 제안할 수 있다.
영상 안의 모든 사람들의 ID 라벨을 활용하지 않으면서 사람 검색 인공지능 모델을 학습시키는 기법이 제안될 수 있다. 제안된 기법에서는, 데이터 세트에 등장하는 모든 사람들의 위치 정보만이 활용될 수 있고, 사람의 ID 라벨 정보는 존재하지 않는 것으로 가정될 수 있다. 사람 식별(person re-identification) 분야에서 검출된 사람만 주어진 것과 다르게, 사람 검색(person search)은 전체 영상이 주어지므로 영상의 배경(background) 또는 숨겨진 정보(예: 컨텍스트(context))가 활용될 수 있는 상황일 수 있다. 제안하는 기법에서는, 하나의 영상에 등장하는 사람들은 모두 서로 다른 사람이라는 성질을 나타내는 유일성(uniqueness) 및 추가적으로 하나의 영상에 같이 등장하는 사람들은 다른 영상에서도 같이 등장할 확률이 높다는 동시 출현성(co-appearance)의 2가지의 컨텍스트 정보들에 기초하여 기계 학습 모델이 트레이닝될 수 있다.
다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.
일 실시예에 따른 기계 학습 모델을 트레이닝시키는 방법은, 사람에 대응하는 관심영역들(regions of interest; ROIs)의 피처들(features) 간의 유사도에 기초하여, 상기 복수의 이미지들 중 기준 이미지의 관심영역들을 기준으로 복수의 이미지들의 관심영역들을 클러스터링하는 단계, 상기 기준 이미지의 관심영역과 같은 클러스터로 클러스터링된 관심영역을 가지는 대상 이미지에 포함된 관심영역들을 서로 다른 클러스터로 클러스터링하는 단계, 상기 기준 이미지의 관심영역 및 기계 학습 모델을 통해 상기 기준 이미지로부터 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 상기 기준 이미지의 사람에 대응하는 영역으로 추정되는 후보 영역(candidate region)으로 결정하는 단계, 및 기계 학습 모델에 기초하여 상기 기준 이미지로부터 획득된 후보 영역의 피처 및 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 관심영역의 피처 간의 유사도에 기초하여 계산된, 상기 기준 이미지에 대한 목적함수 값에 기초하여 상기 기계 학습 모델의 파라미터들을 업데이트하는 단계, 및 상기 후보 영역의 피처를 이용하여, 상기 기준 이미지의 상기 후보 영역과 중첩되는 관심영역의 피처를 업데이트하는 단계를 포함할 수 있다.
상기 복수의 이미지들의 관심영역들을 클러스터링하는 단계는, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 산출하는 단계 및 상기 산출된 유사도가 임계 유사도 이상인 경우에 응답하여, 상기 대상 이미지의 관심영역을 상기 기준 이미지의 관심영역의 클러스터로 클러스터링하는 단계를 포함할 수 있다.
상기 서로 다른 클러스터로 클러스터링하는 단계는 상기 대상 이미지에 포함된 획득된 복수의 관심영역들이 상기 기준 이미지의 기준 관심영역의 클러스터로 클러스터링된 경우에 응답하여, 상기 기준 관심영역의 클러스터를 정제하는 단계를 포함할 수 있다.
상기 기준 관심영역의 클러스터를 정제하는 단계는 상기 대상 이미지의 상기 복수의 관심영역들 중에서, 상기 기준 관심영역에 대한 최대 유사도를 가지는 관심영역을 제외한 나머지 관심영역을 상기 기준 관심영역의 클러스터에서 제외시키는 단계를 더 포함할 수 있다.
상기 서로 다른 클러스터로 클러스터링하는 단계는, 상기 대상 이미지에 포함된 대상 관심영역이 복수의 클러스터들로 클러스터링된 경우에 응답하여, 상기 복수의 클러스터들 중 하나의 클러스터를 상기 대상 관심영역의 클러스터로 선택하는 단계를 포함할 수 있다.
상기 대상 관심영역의 클러스터로 선택하는 단계는, 복수의 클러스터들 중에서, 상기 대상 관심영역에 대한 최대 유사도를 가지는 상기 기준 이미지의 관심영역의 클러스터를 제외한 나머지 클러스터에서 상기 대상 관심영역을 제외시키는 단계를 더 포함할 수 있다.
일 실시예에 따른 기계 학습 모델을 트레이닝시키는 방법은 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 증폭시키는 단계를 더 포함할 수 있다.
상기 유사도를 증폭시키는 단계는, 상기 기준 이미지의 제1 관심영역의 클러스터에 속하는 상기 대상 이미지의 제2 관심영역에 대하여, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 상기 제1 관심영역의 피처 및 상기 제2 관심영역의 피처 간의 유사도에 증폭 계수를 곱셈한 값만큼 증폭시키는 단계를 포함할 수 있다.
일 실시예에 따른 기계 학습 모델을 트레이닝시키는 방법은 상기 증폭된 유사도에 기초하여 상기 대상 이미지의 관심영역을 상기 기준 이미지의 상기 관심영역들을 기준으로 클러스터링하는 단계를 더 포함할 수 있다.
상기 증폭된 유사도에 기초하여 클러스터링하는 단계는, 상기 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 미리 정의된 횟수로 반복하는 단계를 포함할 수 있다.
상기 기계 학습 모델의 파라미터들을 업데이트하는 단계는, 상기 기준 이미지의 후보 영역에 대하여, 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 상기 대상 이미지의 관심영역의 피처가 상기 클러스터에 속하지 않는 다른 관심영역의 피처보다 상기 후보 영역의 피처와 유사도가 높을 확률의 음의 로그 우도(negative log-likelihood)로서 손실 값을 산출하는 단계를 포함할 수 있다.
상기 후보 영역(candidate region)으로 결정하는 단계는, 상기 기준 이미지에 상기 기계 학습 모델을 적용함으로써 상기 복수의 영역들 및 상기 복수의 영역들의 피처와 함께, 사람에 대응하는 영역이 해당 영역에 포함될 가능성을 나타내는 프로포절 점수들(proposal scores)을 획득하는 단계 및 상기 기준 이미지의 관심영역 및 상기 기계 학습 모델을 통해 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 후보 영역으로 결정하는 단계를 포함할 수 있고, 상기 기계 학습 모델의 파라미터들을 업데이트하는 단계는, 상기 프로포절 점수들 및 참값(ground truth) 간의 차이에 기초하여 상기 목적함수 값을 계산하는 단계를 포함할 수 있다.
일 실시예에 따른 기계 학습 모델을 트레이닝시키는 장치는 사람에 대응하는 관심영역들(regions of interest; ROIs)의 피처들(features) 간의 유사도에 기초하여, 상기 복수의 이미지들 중 기준 이미지의 관심영역들을 기준으로 복수의 이미지들의 관심영역들을 클러스터링하고, 상기 기준 이미지의 관심영역과 같은 클러스터로 클러스터링된 관심영역을 가지는 대상 이미지에 포함된 관심영역들을 서로 다른 클러스터로 클러스터링하며, 상기 기준 이미지의 관심영역 및 기계 학습 모델을 통해 상기 기준 이미지로부터 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 상기 기준 이미지의 사람에 대응하는 영역으로 추정되는 후보 영역(candidate region)으로 결정하고, 기계 학습 모델에 기초하여 상기 기준 이미지로부터 획득된 후보 영역의 피처 및 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 관심영역의 피처 간의 유사도에 기초하여 계산된, 상기 기준 이미지에 대한 목적함수 값에 기초하여 상기 기계 학습 모델의 파라미터들을 업데이트하며, 상기 후보 영역의 피처를 이용하여, 상기 기준 이미지의 상기 후보 영역과 중첩되는 관심영역의 피처를 업데이트하는 프로세서를 포함할 수 있다.
상기 프로세서는, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 산출하고, 상기 산출된 유사도가 임계 유사도 이상인 경우에 응답하여, 상기 대상 이미지의 관심영역을 상기 기준 이미지의 관심영역의 클러스터로 클러스터링할 수 있다.
상기 프로세서는, 상기 대상 이미지에 포함된 복수의 관심영역들이 상기 기준 이미지의 기준 관심영역의 클러스터로 클러스터링된 경우에 응답하여, 상기 기준 관심영역의 클러스터를 정제할 수 있다.
상기 프로세서는, 상기 대상 이미지의 상기 복수의 관심영역들 중에서, 상기 기준 관심영역에 대한 최대 유사도를 가지는 관심영역을 제외한 나머지 관심영역을 상기 기준 관심영역의 클러스터에서 제외시킬 수 있다.
상기 프로세서는, 상기 대상 이미지에 포함된 대상 관심영역이 복수의 클러스터들로 클러스터링된 경우에 응답하여, 상기 복수의 클러스터들 중 하나의 클러스터를 상기 대상 관심영역의 클러스터로 선택할 수 있다.
상기 프로세서는, 복수의 클러스터들 중에서, 상기 대상 관심영역에 대한 최대 유사도를 가지는 상기 기준 이미지의 관심영역의 클러스터를 제외한 나머지 클러스터에서 상기 대상 관심영역을 제외시킬 수 잇다.
상기 프로세서는, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 증폭시킬 수 있다.
상기 프로세서는, 상기 기준 이미지의 제1 관심영역의 클러스터에 속하는 상기 대상 이미지의 제2 관심영역에 대하여, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 상기 제1 관심영역의 피처 및 상기 제2 관심영역의 피처 간의 유사도에 증폭 계수를 곱셈한 값만큼 증폭시킬 수 있다.
상기 프로세서는, 상기 증폭된 유사도에 기초하여 상기 대상 이미지의 관심영역을 상기 기준 이미지의 상기 관심영역들을 기준으로 클러스터링할 수 있다.
상기 프로세서는, 상기 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 미리 정의된 횟수로 반복할 수 있다.
상기 프로세서는, 상기 기준 이미지의 후보 영역에 대하여, 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 상기 대상 이미지의 관심영역의 피처가 상기 클러스터에 속하지 않는 다른 관심영역의 피처보다 상기 후보 영역의 피처와 유사도가 높을 확률의 음의 로그 우도(negative log-likelihood)로서 손실 값을 산출할 수 있다.
상기 프로세서는, 상기 기준 이미지에 상기 기계 학습 모델을 적용함으로써 상기 복수의 영역들 및 상기 복수의 영역들의 피처와 함께, 해당 영역이 사람에 대응하는 영역이 포함될 가능성을 나타내는 프로포절 점수들(proposal scores)을 획득하고, 상기 기준 이미지의 관심영역 및 상기 기계 학습 모델을 통해 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 후보 영역으로 결정하며, 상기 프로포절 점수들 및 참값(ground truth) 간의 차이에 기초하여 상기 목적함수 값을 계산할 수 있다.
컨텍스트 정보를 활용하여 사람의 ID가 없는 상황에서 인공 지능 모델을 학습시키는 기법이 최초로 제안될 수 있다. 실험적으로, 제안된 기법은 기존의 ID 정보를 모두 활용하는 사람 검색(person search) 기술들과 비슷한 성능을 낼 수 있다.
관심영역에 대한 사람의 ID 라벨 없이 사람 검색 네트워크를 학습시키는 방법은 제안될 수 있다. 클러스터링을 통해서 각 사람들에게 임의의 ID가 부여될 수 있다. 정확한 클러스터링을 위해서, 유일성(Uniqueness) 및 동시 출현성(Co-appearance)의 2가지 영상 컨텍스트들은 활용될 수 있다. 본 발명은 비지도 학습 기반의 사람 식별 네트워크와 비교하여 높은 성능을 나타낼 뿐만 아니라, 지도 학습 기반의 사람 검색 네트워크와 비교할 수 있는 성능을 나타낼 수 있다.
도 1은 일 실시예에 따른 기계 학습 모델을 이용한 사람 검색 방법을 나타낸다.
도 2는 일 실시예에 따른 사람 검색을 위한 기계 학습 모델의 트레이닝을 나타낸다.
도 3은 일 실시예에 따라 복수의 이미지들의 관심영역을 클러스터링하는 것을 나타낸다.
도 4는 일 실시예 및 비교 실시예들에 따른 피처의 분포를 나타낸다.
도 5는 일 실시예 및 비교 실시예들에 따른 사람 검색의 성능을 나타낸다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
사람 검색(person search)은 이미지로부터 사람에 대응하는 관심영역(Region of Interest; ROI)을 추출하는 사람 검출(person detection) 및 추출된 관심영역에 대한 사람 식별(person re-identification)을 함께 수행하는 것을 나타낼 수 있다. 이미지는, 복수의 사람들이 함께 촬영된 이미지로서, 사람들에 대한 복수의 관심영역들을 포함할 수 있다. 다만, 이에 한정하는 것은 아니고 이미지는 한 사람이 촬영된 이미지로서 하나의 관심영역을 포함할 수도 있다.
사람 검출(person detection)은 이미지로부터 관심영역을 추출하는 동작을 나타낼 수 있다. 복수의 관심영역들이 하나의 이미지로부터 추출될 수 있다. 관심영역은 미리 정의된 형태로 추출될 수 있다. 예시적으로, 관심영역은 직사각형의 형태로 추출될 수 있다. 다만, 이에 한정하는 것은 아니고, 관심영역이 다른 형태(예를 들어, 타원)로 추출되거나 관심영역마다 결정되는 형태로 추출될 수도 있다.
사람 식별(person re-identification)은 검출된 관심영역이 쿼리(query) 사람에 대한 것인지를 결정하는 동작을 나타낼 수 있다. 관심영역이 쿼리 사람에 대한 것인지 아닌지 여부는 피처 간의 유사도에 기초하여 결정될 수 있다. 쿼리 사람에 대한 피처는 외부 장치로부터 수신될 수 있다. 후술하겠으나, 이미지로부터 추출된 관심영역의 피처는 기계 학습 모델을 통해 획득될 수 있다. 쿼리 사람의 피처 및 이미지로부터 추출된 관심영역의 피처 간의 유사도가 임계 이상인 경우, 해당 관심영역은 쿼리 사람에 대한 관심영역으로 결정될 수 있다.
도 1은 일 실시예에 따른 기계 학습 모델을 이용한 사람 검색 방법을 나타낸다.
사람 검색 장치는 이미지에 대하여 사람 검색을 수행하는 장치를 나타낼 수 있다. 사람 검색 장치는 기계 학습 모델을 이용할 수 있다.
기계 학습 모델은 이미지(110)에 적용됨으로써 복수의 영역들을 출력할 수 있다. 복수의 영역들은 미리 정해진 개수(예를 들어, 도 1의 N)로 추출될 수 있다. 또한, 기계 학습 모델은 추출된 복수의 영역들 각각에 대한 피처 및 프로포절 점수(proposal score)를 더 출력할 수 있다. 예시적으로, 기계 학습 모델은 이미지로부터 도2의 Faster R-CNN 및 Re-ID header에 기초하여 구현될 수 있다.
복수의 영역들은 이미지의 일부 영역으로서, 사람에 대응하는 영역들, 배경에 대응하는 영역들, 및 사람에 대응하는 영역과 일부 중첩되는 영역들을 포함할 수 있다. 배경은 이미지 중 사람에 대응하는 영역을 제외한 나머지를 나타낼 수 있다. 또한, 복수의 이미지들은 한 사람에 대한 서로 중첩되는 복수의 영역들을 포함할 수 있다.
프로포절 점수(proposal score)는 사람 검출에 관한 평가 지표로서, 추출된 해당 영역에 대한 신뢰도(confidence)를 나타낼 수 있다. 프로포절 점수는 사람에 대응하는 영역이 해당 영역에 포함될 가능성을 나타낼 수 있다. 예를 들어, 사람에 대응하는 영역이 포함된 제1 영역에 대한 프로포절 점수는 1에 가까운 값을 가질 수 있다. 다른 예를 들어, 배경에 대응하는 영역이 포함된 제2 영역에 대한 프로포절 점수는 0에 가까운 값을 가질 수 있다.
사람 검색 장치는 프로포절 점수에 기초하여 획득된 복수의 영역들 중 적어도 하나를 후보 관심영역(121)으로 결정할 수 있다. 사람 검색 장치는 프로포절 점수가 임계 이상인 경우, 해당 영역을 사람에 대응하는 영역으로 결정할 수 있다. 다만, 도 1의 이미지(120)에서 나타난 바와 같이, 한 사람에 대한 서로 중첩되는 복수의 영역들이 포함될 수 있으므로, 중첩되는 복수의 후보 관심영역들의 경우 하나를 선택하는 것이 요구될 수 있다.
사람 검색 장치는 후보 관심영역들이 서로 중첩되는 경우, 중첩되는 후보 관심영역들 중 하나의 후보 관심영역을 추정 관심영역(131)으로 결정할 수 있다. 예를 들어, 후보 관심영역들 간의 IoU(Intersection over Union)이 임계 이상인 경우, 최대 프로포절 점수를 갖는 후보 관심영역이 추정 관심영역으로 선택될 수 있다.
사람 검색 장치는 추정 관심영역의 피처 및 쿼리 사람의 피처 간의 유사도에 기초하여, 추정 관심영역이 쿼리 사람에 대한 영역인지 여부를 결정할 수 있다.
이하에서는, 일 실시예에 따라 사람 검색을 위한 기계 학습 모델을 사람 식별(person re-identification)에 대한 비지도 학습(unsupervised learning)을 통해 트레이닝시키는 방법을 도 2 내지 도 3을 참조하여 상세히 설명한다.
도 2는 일 실시예에 따른 사람 검색을 위한 기계 학습 모델의 트레이닝을 나타낸다.
트레이닝 장치(200)는, 사람 검색을 위한 기계 학습 모델의 트레이닝을 수행하기 위한 장치로서, 프로세서(201)을 포함할 수 있다.
트레이닝 데이터는 복수의 이미지들 및 복수의 이미지들의 관심영역 및 관심영역의 피처를 포함할 수 있다. 관심영역들의 피처들은 메모리에 미리 저장될 수 있다. 복수의 이미지들의 관심영역들은 실제 사람에 대응하는 영역을 나타내는 참값 관심영역이지만, 메모리에 저장된 관심영역들의 피처들은 초기 값으로부터 트레이닝을 통해 해당 관심영역에 대한 특징을 보다 더 잘 나타내도록 업데이트될 수 있다.
기계 학습 모델의 트레이닝은 이터레이션(iteration)을 반복함으로써 수행될 수 있다. 하나의 이터레이션은 한 번의 목적함수 계산 및 한 번의 파라미터 업데이트를 포함할 수 있다. 트레이닝 장치(200)는 복수의 이미지들 중 하나의 이미지인 기준 이미지에 대하여 이터레이션을 수행할 수 있다.
프로세서(201)는 관심영역들을 클러스터링할 수 있다. 각 클러스터는 한 사람에 대응할 수 있다. 하나의 클러스터로 클러스터링된 복수의 관심영역들은 한 사람에 대한 서로 다른 이미지에 포함된 관심영역들로 추정될 수 있다. 클러스터링은 피처들 간의 유사도에 기초하여 수행되며, 클러스터링에 관한 자세한 내용은 후술한다.
프로세서(201)는 초기 트레이닝으로서, 복수의 이미지들의 관심영역들 각각을 하나의 클러스터로 클러스터링할 수 있다. 프로세서(201)는 하나의 관심영역을 포함하는 클러스터에 따라 계산된 목적함수 값에 기초하여 기계 학습 모델의 파라미터 업데이트할 수 있다. 예를 들어, 프로세서(201)는 미리 정해진 에폭(epoch) 동안, 복수의 이미지들의 관심영역들을 모두 다른 사람에 대한 영역들로 가정하고 기계 학습 모델의 파라미터 업데이트 및 메모리에 저장된 피처들의 업데이트를 진행할 수 있다. 참고로, 에폭은 이터레이션을 복수의 이미지들 전부에 대하여 반복하는 하나의 세트를 나타낼 수 있다. 기계 학습 모델은 초기 트레이닝을 통하여 획득된 파라미터들을 이용하여, 서로 다른 관심영역에 적용됨으로써 대략적으로 구별될 수 있는 피처들을 출력할 수 있다. 기계 학습 모델의 파라미터 업데이트 및 메모리에 저장된 피처들의 업데이트의 자세한 내용은 단계들(240, 250, 260)에서 후술한다.
단계(210)에서, 프로세서(201)는 메모리로부터 복수의 이미지들에 관심영역들 및 피처들을 획득할 수 있다. 프로세서(201)는 획득된 관심영역들을 피처들 간의 유사도에 기초하여 클러스터링할 수 있다. 트레이닝 장치(200)는 클러스터링을 수행함으로써 기준 이미지의 관심영역들 각각에 대한 클러스터를 구성할 수 있다.
클러스터링은 관심영역들의 피처들 간의 유사도에 기초하여 수행될 수 있다. 예를 들어, 단계(220)에서, 프로세서(201)는 기준 이미지의 관심영역의 피처 및 대상 이미지의 관심영역의 피처 간의 유사도를 산출할 수 있다. 프로세서(201)는 산출된 유사도가 임계 이상인 경우, 대상 이미지의 관심영역을 기준 이미지의 관심영역의 클러스터로 클러스터링할 수 있다.
Figure pat00001
l번째 이미지를 나타내고,
Figure pat00002
는 복수의 이미지들의 개수가 N개일 때 이미지 세트를 나타낼 수 있다. k번째 이미지의 i번째 관심영역(
Figure pat00003
)의 클러스터에 속하는 l번째 이미지에 포함된 관심영역의 서브-클러스터는 다음과 같다:
Figure pat00004
여기서,
Figure pat00005
l번째 이미지에 포함된 j번째 관심영역을 나타내고,
Figure pat00006
l번째 이미지에 포함된 관심영역의 집합을 나타내고,
Figure pat00007
는 유사도의 임계를 나타내고,
Figure pat00008
는 피처
Figure pat00009
및 피처
Figure pat00010
의 유사도를 나타내고,
Figure pat00011
는 메모리에 저장된 k번째 이미지의 i번째 관심영역(
Figure pat00012
)의 피처를 나타낼 수 있다. k번째 이미지의 i번째 관심영역의 클러스터(
Figure pat00013
)는, k번째 이미지의 i번째 관심영역(
Figure pat00014
)의 클러스터에 속하는 l번째 이미지에 포함된 관심영역의 서브-클러스터(
Figure pat00015
)를 l에 대하여 합집합을 수행한 결과일 수 있다:
Figure pat00016
단계(230)에서, 프로세서(201)는 대상 이미지에 포함된 복수의 관심영역들을 서로 다른 클러스터로 클러스터링할 수 있다. 유일성(uniqueness)은 사람 검색에서 한 이미지의 관심영역들이 서로 다른 사람들에 대한 관심영역인 것을 나타낼 수 있다. 유일성을 이용하여 서로 다른 클러스터로 클러스터링하는 것은 하기 도 3에서 자세히 설명한다.
단계(240)에서, 프로세서(201)는 기준 이미지에 기계 학습 모델을 적용함으로써 획득된 복수의 영역들 중에서 후보 영역을 결정할 수 있다. 후보 영역은 기준 이미지에서 사람에 대응하는 영역으로 추정되는 영역을 나타낼 수 있다. 프로세서(201)는 기준 이미지의 관심영역 및 복수의 영역들 간의 비교에 기초하여 후보 영역을 결정할 수 있다. 예를 들어, 기준 이미지의 관심영역과의 IoU(Intersection over Union)가 임계 이상인 영역은 후보 영역으로 결정될 수 있다. 하나의 관심영역에 대한 복수의 후보 영역들이 결정될 수 있다.
단계(250)에서, 프로세서(201)는 기준 이미지에 대하여 계산된 목적함수 값에 기초하여 기계 학습 모델의 파라미터를 업데이트할 수 있다.
목적함수(objective function)(또는 손실함수(loss function)라고도 함) 값은 트레이닝 이미지에 기계 학습 모델을 적용한 결과 및 참값(ground truth)에 기초하여 계산될 수 있다. 목적함수는 사람 검출에 관한 성분을 나타내는 검출 손실(detection loss) 및 사람 식별에 관한 성분을 나타내는 식별 손실(re-identification loss)을 포함할 수 있다. 예를 들어, 목적함수 값은 기준 이미지에 대한 검출 손실 및 식별 손실을 덧셈함으로써 계산될 수 있다.
검출 손실은 기계 학습 모델로부터 획득된 영역 및 프로포절 점수, 및 참값 간의 차이에 기초하여 계산될 수 있다. 예시적으로, 검출 손실은 Faster R-CNN의 목적함수에 기초하여 계산될 수 있다. 참고로, 검출 손실에 대하여, 영역, 및 프로포절 점수에 대한 참값이 존재하는 것과 달리, 참값 피처는 알려지지 않은 채, 기계 학습 모델은 사람 식별에 대하여 비지도 학습으로 클러스터링에 기초하여 트레이닝된다.
식별 손실은, 관심영역의 피처 및 후보 영역의 피처에 관한 값으로, 같은 사람에 대한 영역들의 피처들 간의 유사도가 다른 사람에 대한 영역들의 피처들 간의 유사도보다 높을 확률의 음의 로그 우도(negative log-likelihood)를 포함할 수 있다.
k번째 이미지의 i번째 관심영역과 중첩되는 후보 영역(
Figure pat00017
)이 k번째 이미지의 i번째 관심영역의 클러스터에 속하는 l번째 이미지의 j번째 관심영역(
Figure pat00018
)에 대한 확률은 다음과 같이 계산될 수 있다:
Figure pat00019
여기서,
Figure pat00020
k번째 이미지의 i번째 관심영역의 클러스터의 여집합(
Figure pat00021
) 중 상위 1%의 관심영역의 피처와의 유사도 갖는 관심영역의 집합을 나타내고,
Figure pat00022
는 후보 영역(
Figure pat00023
)의 피처를 나타내고,
Figure pat00024
는 실험적으로 0.1로 설정될 수 있는 온도 계수(temperature coefficient)를 나타낼 수 있다.
k번째 이미지의 i번째 관심영역과 중첩되는 후보 영역(
Figure pat00025
)에 대한 식별 손실 값은 다음과 같이 계산될 수 있다:
Figure pat00026
기준 이미지에 대한 식별 손실은 기준 이미지의 후보 영역들의 식별 손실 값들을 합산함으로써 계산될 수 있다.
단계(260)에서, 프로세서는 후보 영역의 피처를 이용하여 관심영역의 피처를 업데이트할 수 있다. 전술한 바와 같이 관심영역의 피처는 같은 클러스터에 속한 관심영역들의 피처들 간의 유사도가 서로 다른 클러스터에 속한 관심영역들의 피처들 간의 유사도보다 더 높아지도록 업데이트될 수 있다. 프로세서(201)는 기준 이미지의 후보 영역과 중첩되는 관심영역의 피처를 업데이트할 수 있다. 업데이트된 관심영역의 피처는 메모리에 저장될 수 있다. 관심영역의 피처(
Figure pat00027
)는 다음과 같이 업데이트될 수 있다:
Figure pat00028
여기서, Z
Figure pat00029
가 1이 되도록 하는 정규화 팩터(normalization factor)를 나타낼 수 있다.
도 3은 일 실시예에 따라 복수의 이미지들의 관심영역을 클러스터링하는 것을 나타낸다.
프로세서는 도 2의 단계(220)에서 전술된 바와 같이, 복수의 이미지들을 관심영역들을 기준 이미지(310)의 관심영역들(311, 312, 313, 314)을 기준으로 클러스터링할 수 있다. 다만, 기준 관심영역(314)과 유사도가 임계 이상인 대상 이미지(320)의 관심영역들(321, 322)을 모두 기준 관심영역(314)의 클러스터로 클러스터링하면, 서로 다른 사람에 대한 관심영역들이 하나의 클러스터로 클러스터링될 수 있다. 하드 네거티브 샘플(hard negative sample)은, 실제로는 다른 사람에 대한 관심영역이지만, 기준 관심영역의 피처와 임계 이상의 유사도를 가져서 기준 관심영역의 클러스터로 클러스터링된 관심영역을 나타낼 수 있다.
프로세서는 유일성(uniqueness)에 기초하여, 기준 관심영역의 클러스터에서 하드 네거티브 샘플(예를 들어, 관심영역(321))을 제외시키는 클러스터링 정제를 수행할 수 있다. 유일성은 사람 검색에서 한 이미지의 관심영역들이 서로 다른 사람들에 대한 관심영역인 것을 나타낼 수 있다. 하나의 이미지에서 촬영된 복수의 사람들은, 같은 사람이 한 시점에 서로 다른 위치에 존재할 수 없으므로, 서로 다른 사람들인 것으로 판단될 수 있다. 그러므로, 하나의 이미지에 포함된 복수의 관심영역들은 한 시점에 촬영된 서로 다른 사람들에 대한 영역들일 수 있다. 유일성을 고려하여, 대상 이미지의 복수의 관심영역들은 서로 다른 클러스터로 클러스터링될 수 있다.
일 실시예에 따른 프로세서(201)는 기준 이미지(310)의 기준 관심영역(314)의 클러스터로 대상 이미지(320)의 복수의 관심영역들이 클러스터링된지 판단할 수 있다. 프로세서(201)는 대상 이미지(320)에 포함된 복수의 관심영역들(321, 322)이 기준 관심영역의 클러스터로 클러스터링된 경우에 응답하여, 기준 관심영역(314)의 클러스터를 정제하는 단계를 포함할 수 있다.
프로세서(201)는 기준 관심영역(314)의 피처와 최대 유사도를 나타내는 대상 이미지(320)의 관심영역(322)을 기준 관심영역의 클러스터에 속하는 것으로 결정할 수 있다. 유일성에 기초하여, 각 클러스터는 대상 이미지의 관심영역은 최대 1개를 포함할 수 있다. 따라서, 대상 이미지(320)의 복수의 관심영역들(321, 322) 중 기준 관심영역(314)와 최대 유사도를 나타내는 관심영역(322)을 선택할 수 있다. 선택된 관심영역은 다음과 같이 나타날 수 있다:
Figure pat00030
여기서,
Figure pat00031
k번째 이미지(예를 들어, 기준 이미지)의 i번째 관심영역(예를 들어, 기준 관심영역)과 최대 유사도를 나타내는 l번째 이미지(예를 들어, 대상 이미지)의 관심영역을 나타낼 수 있다.
선택된 관심영역(322)을 제외한 나머지 관심영역(321)은 기준 관심영역(314)의 클러스터에서 제외될 수 있다. 결과적으로, 기준 관심영역(314)의 클러스터는 대상 이미지(320) 최대 유사도를 나타내는 관심영역(322)만을 포함할 수 있다.
다른 일 실시예에 따른 프로세서는, 대상 이미지에 포함된 대상 관심영역(322)이 복수의 클러스터들에 속하는지 여부를 판단할 수 있다. 유일성에 기초하여, 기준 이미지의 복수의 관심영역들은 서로 다른 사람에 대한 관심영역일 수 있다. 따라서, 프로세서는 하나의 대상 관심영역(322)이 최대 1개의 클러스터에 포함되도록 클러스터링할 수 있다. 프로세서는 대상 관심영역(322)이 기준 이미지(310)의 복수의 관심영역들(311, 314)의 클러스터들로 클러스터링된 것으로 판단되는 경우, 복수의 클러스터들 중 하나의 클러스터를 대상 관심영역(322)의 클러스터로 선택할 수 있다. 대상 관심영역(322)의 클러스터는, 대상 관심영역(322)의 피처 및 기준 이미지의 관심영역들(311, 314) 피처들 간의 유사도에 기초하여 선택될 수 있다. 프로세서는 대상 관심영역(322)의 피처와 최대 유사도를 나타내는 피처의 관심영역(314)의 클러스터를 대상 관심영역(322)의 클러스터로 선택할 수 있다. 프로세서는, 선택된 대상 관심영역(322)의 클러스터를 제외한 나머지 클러스터에서 상기 대상 관심영역(322)을 제외시킬 수 있다. 결과적으로, 대상 관심영역(322)은 최대 1개의 클러스터로 클러스터링될 수 있다.
다만, 유일성에 기초하여 하드 네거티브 샘플을 처리하는 것은, 임계 이상의 유사도로 인하여 하나의 클러스터에 속하고 일정 조건을 만족하는 관심영역들을 제외시키는 것은 가능하지만, 임계 미만인 유사도로 인하여 클러스터링되지 않은 관심영역을 더 클러스터링하지는 않을 수 있다. 하드 포지티브 샘플(hard positive sample)은 실제로는 동일한 사람에 대한 관심영역이지만, 기준 관심영역의 피처와 임계 미만의 유사도를 가져서 기준 관심영역의 클러스터로 클러스터링되지 않은 관심영역을 나타낼 수 있다.
하드 네거티브 마이닝(hard negative mining; HNM)은, 프로세서에 의하여 유일성에 기초하여 클러스터를 정제 및 대상 관심영역의 클러스터를 선택하는 동작을 나타낼 수 있다.
프로세서는 동시 출현성(co-appearance)에 기초하여 클러스터링을 수행할 수 있다. 동시 출현성은, 사람 검색에서 한 이미지에서 촬영된 복수의 사람들은 다른 이미지에서도 함께 출현할 가능성이 높은 것을 나타낼 수 있다.
그래프(340) 및 그래프(350)는 복수의 이미지들을 포함하는 데이터 세트에서 동시 출현성의 만족 비율(proportion)을 매칭 용량(matching capacity)에 따라 나타낼 수 있다. 그래프(340) 및 그래프(350)에서, 도트 막대는 동시 출현성을 만족한 비율, 줄무늬 막대는 동시 출현성을 만족하지 않는 비율을 나타낼 수 있다.
매칭 용량은 이미지 쌍의 각 이미지의 관심영역들의 개수들 중 더 적거나 같은 수로 정의될 수 있다. 이미지 쌍(pair)은 복수의 이미지들 중에서 동일한 사람에 대한 관심영역(예를 들어, 동일한 클러스터에 속하는 관심영역)을 포함하는 2개의 이미지들을 나타낼 수 있다. 다시 말해, 이미지 쌍은 각 이미지에 포함된 동일한 사람에 대한 관심영역 쌍을 가질 수 있다.
이미지 쌍은 복수의 관심영역 쌍들을 가지는 경우(예를 들어, 이미지 쌍에서 공통으로 촬영된 사람이 2명 이상인 경우), 동시 출현성을 만족하는 것으로 결정될 수 있다. 또한, 이미지 쌍은 하나의 관심영역 쌍을 가지는 경우(예를 들어, 이미지 쌍에서 공통으로 촬영된 사람이 1명인 경우), 동시 출현성을 만족하지 않는 것으로 결정될 수 있다.
그래프(340)는 PRW 데이터 세트에서의 동시 출현성을 나타내고, 그래프(350)는 CUHK-SYSU 데이터 세트에서의 동시 출현성을 나타낼 수 있다. 그래프(340) 및 그래프(350)에서, PRW 데이터 세트 및 CUHK-SYSU 데이터 세트의 이미지 쌍의 매칭 용량이 증가할수록 동시 출현성 만족 비율도 증가하는 것이 나타날 수 있다.
프로세서는 동시 출현성을 만족한 이미지 쌍에 대하여 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 수행할 수 있다.
기준 이미지(310) 및 대상 이미지(330)는, 대상 이미지(330)가 기준 이미지(310)의 관심영역(314)으로 클러스터링된 관심영역(331)을 가지는 이미지를 나타내므로, 동일한 클러스터(예를 들어, 동일한 사람)의 관심영역을 가지는 이미지 쌍일 수 있다.
프로세서는 기준 이미지(310)의 관심영역(311, 312, 313, 314) 및 대상 이미지(330)의 관심영역 간의 유사도를 증폭시킬 수 있다.
유사도는 같은 클러스터에 속하는 관심영역들의 피처들 간의 유사도에 기초하여 증폭될 수 있다. 예를 들어, 기준 이미지(310)의 관심영역 및 대상 이미지(330)의 관심영역의 피처들 간의 유사도는, 관심영역(314) 및 관심영역(331)의 피처들 간의 유사도에 증폭 계수를 곱셈한 값만큼 증폭될 수 있다. 예를 들어, 관심영역(310) 및 관심영역(331)이 같은 클러스터에 속하는 경우, 기준 이미지의 관심영역(313) 및 대상 이미지의 관심영역(333) 피처들 간의 유사도가 증폭될 수 있다. 관심영역(313) 및 관심영역(333) 피처들 간의 유사도는 기존 값에서, 관심영역(310) 및 관심영역(331) 피처들 간의 유사도에 증폭 계수를 곱셈한 값이 덧셈됨으로써 증폭될 수 있다.
프로세서는 증폭된 유사도에 기초하여 클러스터링을 수행할 수 있다. 프로세서는 증폭된 유사도를 임계 유사도와 비교하여 클러스터링을 더 수행할 수 있다. 예를 들어, 관심영역(313) 및 관심영역(333) 피처들 간의 유사도가 임계 유사도 이상인 경우, 관심영역(333)은 관심영역(313)의 클러스터로 클러스터링될 수 있다. 유사도 증폭 이전에 관심영역(313) 및 관심영역(333) 피처들 간의 유사도가 임계 유사도 미만인 경우라고 하더라도, 같은 클러스터에 속하는 관심영역(314) 및 관심영역(331)으로부터 유사도 증폭이 수행됨으로써, 증폭된 관심영역(313) 및 관심영역(333) 피처들 간의 유사도는 임계 유사도 이상일 수 있다. 결과적으로, 같은 사람에 대한 관심영역들임에도 불구하고 피처들 간의 유사도가 낮아 다른 클러스터에 속하는 관심영역들은 동시 출현성에 따른 유사도 증폭에 따라 같은 클러스터로 클러스터링될 수 있다.
프로세서는 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 미리 정의된 횟수(예를 들어, 3회)로 반복할 수 있다.
유사도 증폭은 다음과 같은 식에 기초하여 수행될 수 있다:
Figure pat00032
Figure pat00033
여기서,
Figure pat00034
k번째 이미지(예를 들어, 기준 이미지) 및 l번째 이미지(예를 들어, 대상 이미지) 간의 유사도 증폭 t번째 반복의 동시 출현성을 나타내고,
Figure pat00035
l번째 이미지에 포함된 x의 유사도 증폭 t번째 반복의 서브-클러스터를 나타내고,
Figure pat00036
는 유사도 증폭 및 클러스터링 수행을 t번 반복한 유사도를 나타내고,
Figure pat00037
는 실험적으로 0.1로 설정될 수 있는 동시 출현성의 기여도(contribution)을 조정하기 위한 가중치를 나타낼 수 있다.
하드 포지티브 마이닝(hard positive mining; HPM)은, 프로세서에 의하여 동시 출현성에 기초하여 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 반복하는 동작을 나타낼 수 있다.
참고로, 프로세서는 미리 정의된 횟수로 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 수행한 뒤, 다시 유일성에 따른 클러스터링 정제 및 대상 관심영역의 클러스터 선택을 수행할 수 있다.
mAP/Rank-1 w/o HNM with HNM HNM gain
w/o HPM 27.68/59.35 28.01/60.28 +0.33/+0.93
with HPM 32.87/62.86 36.61/64.85 +3.74/+1.99
HPM gain +5.19/+3.51 +8.60/+4.57 +8.93/+5.50
표 1은 실시예들에 따른 HNM 및 HPM의 효과를 나타낸다.
비교 실시예는 HNM 및 HPM을 모두 실시하지 않고, 단순히 피처들간의 유사도 및 임계 유사도의 비교에 기초한 클러스터링을 나타낼 수 있다.
HNM은 비교 실시예에서 클러스터로 클러스터링되지 않아야 함에도 불구하고 잘못 포함시킨 관심영역들을 효과적으로 제외시킬 수 있다. HNM은 임계 유사도와의 비교에 기초한 비교 실시예에 비하여 0.33의 mAP(mean Average Precision) 및 0.93의 Rank-1 정확도의 성능 향상을 나타낼 수 있다.
HPM은 비교 실시예에서 클러스터링되지 않았던 관심영역들의 유사도를 같은 클러스터에 속하는 관심영역들을 가지는 이미지 쌍에 기초하여 증폭시킴으로써, 클러스터링할 수 있다. HPM은 5.19의 mAP 및 3.51의 Rank-1 정확도의 성능 향상을 나타낼 수 있다.
HPM은 비교 실시예에 따른 클러스터링으로부터 관심영역들을 클러스터에 더 포함시킬 수 있고, HNM은 클러스터에 속하는 관심영역들을 제외시킴으로써 클러스터를 정제할 수 있다. HPM 및 HNM의 상호 보완적인 특성 덕분에, HPM 및 HNM은 함께 적용되는 경우, 보다 더 큰 성능 향상을 나타낼 수 있다.
HPM 및 HNM이 함께 적용된 실시예는, HPM이 단독으로 적용된 실시예보다3.74의 mAP 및 1.99의 Rank-1의 성능 향상을 나타낼 수 있다. 또한, HPM 및 HNM이 함께 적용된 실시예는, HNM이 단독으로 적용된 실시예보다 8.60의 mAP 및 4.57의 Rank-1의 성능 향상을 나타낼 수 있다.
기법명 지도 학습 여부 CUHK-SYSU PRW
mAP Rank-1 mAP Rank-1
비교 실시예 1 83.3 84.2 32.8 72.1
비교 실시예 2 93.2 94.2 46.9 83.3
비교 실시예 3 94.8 95.7 47.6 87.6
비교 실시예 4 94.0 94.5 46.1 82.1
비교 실시예 5 92.3 94.7 44.2 85.2
비교 실시예 6 93.2 93.8 52.3 71.5
비교 실시예 7 아니오 74.8 77.4 35.0 83.6
비교 실시예 8 아니오 69.2 73.7 25.4 84.7
일 실시예 아니오 81.1 83.2 41.7 86.0
표 2는 6가지의 지도 학습(supervised learning) 기반의 사람 검색에 대한 비교 실시예들 및 2가지의 비지도 학습(unsupervised learning) 기반의 사람 검색에 대한 비교 실시예들과 일 실시예의 성능 비교를 나타낸다.
비교 실시예 1 내지 6에 따른 모델은 지도 학습된 모델로서, 각각 다음과 같은 논문에 개시된 모델을 나타낼 수 있다. 비교 실시예 1에 따른 모델은 논문 'Di Chen, Shanshan Zhang, Wanli Ouyang, Jian Yang, and Ying Tai. Person search by separated modeling and a mask-guided two-stream cnn model. IEEE Transactions on Image Processing, 2020'에 개시된 모델을 나타낼 수 있다. 비교 실시예 2에 따른 모델은 논문 'Chuchu Han, Zhedong Zheng, Changxin Gao, Nong Sang, and Yi Yang. Decoupled and memory-reinforced networks: Towards effective feature learning for one-step person search. In Proceedings of the AAAI Conference on Artificial Intelligence, 2021'에 개시된 모델을 나타낼 수 있다. 비교 실시예 3에 따른 모델은 논문 'Zhengjia Li and Duoqian Miao. Sequential end-to-end network for efficient person search. In Proceedings of the AAAI Conference on Artificial Intelligence, 2021'에 개시된 모델을 나타낼 수 있다. 비교 실시예 4에 따른 모델은 논문 'Yichao Yan, Jinpeng Li, Jie Qin, Song Bai, Shengcai Liao, Li Liu, Fan Zhu, and Ling Shao. Anchor-free person search. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2021'에 개시된 모델을 나타낼 수 있다. 비교 실시예 5에 따른 모델은 논문 ' Hanjae Kim, Sunghun Joung, Ig-Jae Kim, and Kwanghoon Sohn. Prototype-guided saliency feature learning for person search. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2021'에 개시된 모델을 나타낼 수 있다. 비교 실시예 6에 따른 모델은 논문 'Hantao Yao and Changsheng Xu. Joint person objectness and repulsion for person search. IEEE Transactions on Image Processing, 2021'에 개시된 모델을 나타낼 수 있다.
비교 실시예 7 및 8에 따른 모델은 비지도 학습된 모델로서, 각각 다음과 같은 논문에 개시된 모델을 나타낼 수 있다. 비교 실시예 7에 따른 모델은, 논문 'an Lin, Xuanyi Dong, Liang Zheng, Yan Yan, and Yi Yang. A bottom-up clustering approach to unsupervised person re-identification. In Proceedings of the AAAI Conference on Artificial Intelligence, 2019'에 개시된 모델을 나타낼 수 있고, 비교 실시예 8에 따른 모델은 논문 'Dongkai Wang and Shiliang Zhang. Unsupervised person re-identification via multilabel classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020'에 따른 모델을 나타낼 수 있다.
표 2에서 일 실시예에 따른 사람 검색은 비교 실시예 7 및 8보다 높은 성능을 가질 수 있다. 일 실시예는 관심영역에 대한 사람의 ID 라벨 없이 비지도 학습에 기초한 트레이닝에도 불구하고, CUHK-SYSU 데이터 세트에서 가장 향상된 성능을 갖는 지도 학습 기반의 비교 실시예 3의 성능과 비교하여 약 85%의 성능을 나타낼 수 있다. 일 실시예는 PRW 데이터 세트에서 41.7의 mAP 및 86.0의 Rank-1 정확도의 성능을 나타낸다. PRW 데이터 세트에서, 일 실시예는 mAP에 대한 최대 성능을 나타내는 비교 실시예 6에 대비 약 80%의 성능을 나타내고, Rank-1에서는 2번째로 좋은 성능을 나타낼 수 있다. 일 실시예는 관심영역에 대한 사람의 ID 라벨 없이 비지도 학습에 기초하여 학습하였음에도 불구하고, 지도 학습 기반의 비교 실시예들과 경쟁가능한 성능을 나타낼 수 있다.
도 4는 일 실시예 및 비교 실시예들에 따른 피처의 분포를 나타낸다.
일 실시예는 비교 실시예 7 및 비교 실시예 8와 정성적으로 비교될 수 있다.
40개의 관심영역들의 피처들의 분포는 피처 스페이스(feature space)에서 비교될 수 있다. 도 4는 각 관심영역의 피처에 t-SNE(t-분포 확률적 임베딩)를 적용함으로써 2차원으로 축소된 피처들의 분포를 나타낼 수 있다. 도 4에서, 같은 사람에 대한 관심영역들은 같은 패턴의 점으로 표시될 수 있다. 하나의 관심영역을 기준으로 피처 스페이스에서 일정한 거리 내의 관심영역들을 추출한 결과는, 피처 스페이스 아래에 표시될 수 있다. 피처 분포(410)는 CUHK-SYSU 데이터 세트 피처 분포를 나타내고, 피처 분포(420)는 PRW 데이터 세트의 피처 분포를 나타낼 수 있다.
피처 분포(410) 및 피처 분포(420)에서, 일 실시예의 피처 분포는, 피처 스페이스에서 넓게 분포된 관심영역들을 나타낼 수 있다. 다시 말해, 각 관심영역들의 피처가 섞이지 않는 것이 확인될 수 있다. 따라서, 서로 다른 사람에 대한 관심영역들은 잘 구분될 수 있다. 반면에, 비지도 학습 기반의 사람 식별 기법인 비교 실시예 7 및 비교 실시예 8의 피처 분포는, 피처 스페이스에서 좁게 분포된 관심영역들을 나타낼 수 있고, 서로 다른 사람에 대한 관심영역들의 피처가 섞일 수 있어 서로 다른 사람에 대한 관심영역들을 구분하기 어려울 수 있다.
도 5는 일 실시예 및 비교 실시예들에 따른 사람 검색의 성능을 나타낸다.
비교 실시예 7 및 비교 실시예 8는, 그림(510)에서 나타난 바와 같이, 낮은 밝기의 조명에서 사람을 정확히 검출하지 못하는 것을 알 수 있다. 반면에, 일 실시예는 쿼리 사람을 정확히 검출 및 식별하는 것을 알 수 있다.
그림(520)에서, 쿼리 사람은 모자, 백팩, 및 핸드백을 가지고 있을 수 있다. 일 실시예는 쿼리 사람의 지엽적인 특징(예를 들어, 모자, 백팩, 또는 핸드백)을 추출하여 쿼리 사람에 대응하는 관심영역을 정확히 검출 및 식별할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (25)

  1. 사람에 대응하는 관심영역들(regions of interest; ROIs)의 피처들(features) 간의 유사도에 기초하여, 상기 복수의 이미지들 중 기준 이미지의 관심영역들을 기준으로 복수의 이미지들의 관심영역들을 클러스터링하는 단계;
    상기 기준 이미지의 관심영역과 같은 클러스터로 클러스터링된 관심영역을 가지는 대상 이미지에 포함된 관심영역들을 서로 다른 클러스터로 클러스터링하는 단계;
    상기 기준 이미지의 관심영역 및 기계 학습 모델을 통해 상기 기준 이미지로부터 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 상기 기준 이미지의 사람에 대응하는 영역으로 추정되는 후보 영역(candidate region)으로 결정하는 단계;
    기계 학습 모델에 기초하여 상기 기준 이미지로부터 획득된 후보 영역의 피처 및 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 관심영역의 피처 간의 유사도에 기초하여 계산된, 상기 기준 이미지에 대한 목적함수 값에 기초하여 상기 기계 학습 모델의 파라미터들을 업데이트하는 단계; 및
    상기 후보 영역의 피처를 이용하여, 상기 기준 이미지의 상기 후보 영역과 중첩되는 관심영역의 피처를 업데이트하는 단계
    를 포함하는 기계 학습 모델을 트레이닝시키는 방법.
  2. 제1항에 있어서,
    상기 복수의 이미지들의 관심영역들을 클러스터링하는 단계는,
    상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 산출하는 단계; 및
    상기 산출된 유사도가 임계 유사도 이상인 경우에 응답하여, 상기 대상 이미지의 관심영역을 상기 기준 이미지의 관심영역의 클러스터로 클러스터링하는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  3. 제1항에 있어서,
    상기 서로 다른 클러스터로 클러스터링하는 단계는,
    상기 대상 이미지에 포함된 획득된 복수의 관심영역들이 상기 기준 이미지의 기준 관심영역의 클러스터로 클러스터링된 경우에 응답하여, 상기 기준 관심영역의 클러스터를 정제하는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  4. 제3항에 있어서,
    상기 기준 관심영역의 클러스터를 정제하는 단계는,
    상기 대상 이미지의 상기 복수의 관심영역들 중에서, 상기 기준 관심영역에 대한 최대 유사도를 가지는 관심영역을 제외한 나머지 관심영역을 상기 기준 관심영역의 클러스터에서 제외시키는 단계를 더 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  5. 제1항에 있어서,
    상기 서로 다른 클러스터로 클러스터링하는 단계는,
    상기 대상 이미지에 포함된 대상 관심영역이 복수의 클러스터들로 클러스터링된 경우에 응답하여, 상기 복수의 클러스터들 중 하나의 클러스터를 상기 대상 관심영역의 클러스터로 선택하는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  6. 제5항에 있어서,
    상기 대상 관심영역의 클러스터로 선택하는 단계는,
    복수의 클러스터들 중에서, 상기 대상 관심영역에 대한 최대 유사도를 가지는 상기 기준 이미지의 관심영역의 클러스터를 제외한 나머지 클러스터에서 상기 대상 관심영역을 제외시키는 단계를 더 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  7. 제1항에 있어서,
    상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 증폭시키는 단계
    를 더 포함하는 기계 학습 모델을 트레이닝시키는 방법.
  8. 제7항에 있어서,
    상기 유사도를 증폭시키는 단계는,
    상기 기준 이미지의 제1 관심영역의 클러스터에 속하는 상기 대상 이미지의 제2 관심영역에 대하여, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 상기 제1 관심영역의 피처 및 상기 제2 관심영역의 피처 간의 유사도에 증폭 계수를 곱셈한 값만큼 증폭시키는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  9. 제7항에 있어서,
    상기 증폭된 유사도에 기초하여 상기 대상 이미지의 관심영역을 상기 기준 이미지의 상기 관심영역들을 기준으로 클러스터링하는 단계
    를 더 포함하는 기계 학습 모델을 트레이닝시키는 방법.
  10. 제9항에 있어서,
    상기 증폭된 유사도에 기초하여 클러스터링하는 단계는,
    상기 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 미리 정의된 횟수로 반복하는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  11. 제1항에 있어서,
    상기 기계 학습 모델의 파라미터들을 업데이트하는 단계는,
    상기 기준 이미지의 후보 영역에 대하여, 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 상기 대상 이미지의 관심영역의 피처가 상기 클러스터에 속하지 않는 다른 관심영역의 피처보다 상기 후보 영역의 피처와 유사도가 높을 확률의 음의 로그 우도(negative log-likelihood)로서 손실 값을 계산하는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  12. 제11항에 있어서,
    상기 후보 영역(candidate region)으로 결정하는 단계는,
    상기 기준 이미지에 상기 기계 학습 모델을 적용함으로써 상기 복수의 영역들 및 상기 복수의 영역들의 피처와 함께, 사람에 대응하는 영역이 해당 영역에 포함될 가능성을 나타내는 프로포절 점수들(proposal scores)을 획득하는 단계; 및
    상기 기준 이미지의 관심영역 및 상기 기계 학습 모델을 통해 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 후보 영역으로 결정하는 단계
    를 포함하고,
    상기 기계 학습 모델의 파라미터들을 업데이트하는 단계는,
    상기 프로포절 점수들 및 참값(ground truth) 간의 차이에 기초하여 상기 목적함수 값을 계산하는 단계를 포함하는,
    기계 학습 모델을 트레이닝시키는 방법.
  13. 하드웨어와 결합되어 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  14. 사람에 대응하는 관심영역들(regions of interest; ROIs)의 피처들(features) 간의 유사도에 기초하여, 상기 복수의 이미지들 중 기준 이미지의 관심영역들을 기준으로 복수의 이미지들의 관심영역들을 클러스터링하고, 상기 기준 이미지의 관심영역과 같은 클러스터로 클러스터링된 관심영역을 가지는 대상 이미지에 포함된 관심영역들을 서로 다른 클러스터로 클러스터링하며, 상기 기준 이미지의 관심영역 및 기계 학습 모델을 통해 상기 기준 이미지로부터 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 상기 기준 이미지의 사람에 대응하는 영역으로 추정되는 후보 영역(candidate region)으로 결정하고, 기계 학습 모델에 기초하여 상기 기준 이미지로부터 획득된 후보 영역의 피처 및 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 관심영역의 피처 간의 유사도에 기초하여 계산된, 상기 기준 이미지에 대한 목적함수 값에 기초하여 상기 기계 학습 모델의 파라미터들을 업데이트하며, 상기 후보 영역의 피처를 이용하여, 상기 기준 이미지의 상기 후보 영역과 중첩되는 관심영역의 피처를 업데이트하는 프로세서
    를 포함하는 기계 학습 모델을 트레이닝시키는 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 산출하고, 상기 산출된 유사도가 임계 유사도 이상인 경우에 응답하여, 상기 대상 이미지의 관심영역을 상기 기준 이미지의 관심영역의 클러스터로 클러스터링하는,
    기계 학습 모델을 트레이닝시키는 장치.
  16. 제14항에 있어서,
    상기 프로세서는,
    상기 대상 이미지에 포함된 복수의 관심영역들이 상기 기준 이미지의 기준 관심영역의 클러스터로 클러스터링된 경우에 응답하여, 상기 기준 관심영역의 클러스터를 정제하는,
    기계 학습 모델을 트레이닝시키는 장치.
  17. 제16항에 있어서,
    상기 프로세서는,
    상기 대상 이미지의 상기 복수의 관심영역들 중에서, 상기 기준 관심영역에 대한 최대 유사도를 가지는 관심영역을 제외한 나머지 관심영역을 상기 기준 관심영역의 클러스터에서 제외시키는,
    기계 학습 모델을 트레이닝시키는 장치.
  18. 제14항에 있어서,
    상기 프로세서는,
    상기 대상 이미지에 포함된 대상 관심영역이 복수의 클러스터들로 클러스터링된 경우에 응답하여, 상기 복수의 클러스터들 중 하나의 클러스터를 상기 대상 관심영역의 클러스터로 선택하는,
    기계 학습 모델을 트레이닝시키는 장치.
  19. 제18항에 있어서,
    상기 프로세서는,
    복수의 클러스터들 중에서, 상기 대상 관심영역에 대한 최대 유사도를 가지는 상기 기준 이미지의 관심영역의 클러스터를 제외한 나머지 클러스터에서 상기 대상 관심영역을 제외시키는,
    기계 학습 모델을 트레이닝시키는 장치.
  20. 제14항에 있어서,
    상기 프로세서는,
    상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 증폭시키는,
    기계 학습 모델을 트레이닝시키는 장치.
  21. 제20항에 있어서,
    상기 프로세서는,
    상기 기준 이미지의 제1 관심영역의 클러스터에 속하는 상기 대상 이미지의 제2 관심영역에 대하여, 상기 기준 이미지의 관심영역의 피처 및 상기 대상 이미지의 관심영역의 피처 간의 유사도를 상기 제1 관심영역의 피처 및 상기 제2 관심영역의 피처 간의 유사도에 증폭 계수를 곱셈한 값만큼 증폭시키는,
    기계 학습 모델을 트레이닝시키는 장치.
  22. 제20항에 있어서,
    상기 프로세서는,
    상기 증폭된 유사도에 기초하여 상기 대상 이미지의 관심영역을 상기 기준 이미지의 상기 관심영역들을 기준으로 클러스터링하는,
    기계 학습 모델을 트레이닝시키는 장치.
  23. 제22항에 있어서,
    상기 프로세서는,
    상기 유사도 증폭 및 증폭된 유사도에 기초한 클러스터링을 미리 정의된 횟수로 반복하는,
    기계 학습 모델을 트레이닝시키는 장치.
  24. 제14항에 있어서,
    상기 프로세서는,
    상기 기준 이미지의 후보 영역에 대하여, 상기 후보 영역과 중첩되는 관심영역의 클러스터에 속하는 상기 대상 이미지의 관심영역의 피처가 상기 클러스터에 속하지 않는 다른 관심영역의 피처보다 상기 후보 영역의 피처와 유사도가 높을 확률의 음의 로그 우도(negative log-likelihood)로서 손실 값을 계산하는,
    기계 학습 모델을 트레이닝시키는 장치.
  25. 제24항에 있어서,
    상기 프로세서는,
    상기 기준 이미지에 상기 기계 학습 모델을 적용함으로써 상기 복수의 영역들 및 상기 복수의 영역들의 피처와 함께, 해당 영역이 사람에 대응하는 영역이 포함될 가능성을 나타내는 프로포절 점수들(proposal scores)을 획득하고, 상기 기준 이미지의 관심영역 및 상기 기계 학습 모델을 통해 획득된 복수의 영역들 간의 비교에 기초하여, 상기 복수의 영역들 중 적어도 한 영역을 후보 영역으로 결정하며, 상기 프로포절 점수들 및 참값(ground truth) 간의 차이에 기초하여 상기 목적함수 값을 계산하는,
    기계 학습 모델을 트레이닝시키는 장치.

KR1020210189183A 2021-12-28 2021-12-28 컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치 KR20230099821A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210189183A KR20230099821A (ko) 2021-12-28 2021-12-28 컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210189183A KR20230099821A (ko) 2021-12-28 2021-12-28 컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230099821A true KR20230099821A (ko) 2023-07-05

Family

ID=87159184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210189183A KR20230099821A (ko) 2021-12-28 2021-12-28 컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230099821A (ko)

Similar Documents

Publication Publication Date Title
Chen et al. Person search via a mask-guided two-stream cnn model
Nakazawa et al. Anomaly detection and segmentation for wafer defect patterns using deep convolutional encoder–decoder neural network architectures in semiconductor manufacturing
Xiao et al. End-to-end deep learning for person search
KR102486699B1 (ko) 영상 인식 방법, 영상 검증 방법, 장치, 및 영상 인식 및 검증에 대한 학습 방법 및 장치
CN106846355B (zh) 基于提升直觉模糊树的目标跟踪方法及装置
CN107832700A (zh) 一种人脸识别方法与系统
An et al. Fast and incremental loop closure detection with deep features and proximity graphs
CN106778501B (zh) 基于压缩跟踪与ihdr增量学习的视频人脸在线识别方法
CN113313053B (zh) 图像处理方法、装置、设备、介质及程序产品
CN112016531A (zh) 模型训练方法、对象识别方法、装置、设备及存储介质
KR20150062880A (ko) 특징점 매칭을 이용한 영상매칭 방법
JP6997369B2 (ja) プログラム、測距方法、及び測距装置
US11062455B2 (en) Data filtering of image stacks and video streams
Goshen et al. Balanced exploration and exploitation model search for efficient epipolar geometry estimation
KR102195940B1 (ko) 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
US20210089823A1 (en) Information processing device, information processing method, and non-transitory computer-readable storage medium
Thanikasalam et al. Target-specific siamese attention network for real-time object tracking
KR102369413B1 (ko) 영상 처리 장치 및 방법
Garcia-Fidalgo et al. Vision-based topological mapping and localization by means of local invariant features and map refinement
Du et al. Face association for videos using conditional random fields and max-margin markov networks
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
Nandhini et al. SIFT algorithm-based Object detection and tracking in the video image
Zhao et al. Learning saliency features for face detection and recognition using multi-task network
KR102399673B1 (ko) 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
KR20230099821A (ko) 컨텍스트를 이용한 사람 검색을 위한 기계 학습 모델의 트레이닝 방법 및 장치