KR20230011817A

KR20230011817A - 환경 매칭 기반 물체 인식 장치 및 방법

Info

Publication number: KR20230011817A
Application number: KR1020210092526A
Authority: KR
Inventors: 윤기민; 문진영; 최종원; 윤종수; 최석준; 형우석
Original assignee: 한국전자통신연구원
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-01-25
Also published as: US20230015295A1

Abstract

환경 매칭 기반 물체 인식 장치 및 방법이 개시된다. 본 발명의 실시예에 따른 환경 매칭 기반 물체 인식 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계, 미리 학습된 유사도 매칭 네트워크를 기반으로 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 미리 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계, 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계, 실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계 및 전처리된 동영상을 초기 모델을 기반으로 인식하는 단계를 수행할 수 있다.

Description

환경 매칭 기반 물체 인식 장치 및 방법{Apparatus and Method for Object Recognition based on Environment Matching}

기재된 실시예는 환경 매칭을 통해서 장면에 따라 온라인으로 적응하는 딥러닝 기반 물체 인식 기술에 관한 것이다.

기존의 대부분의 딥러닝 기반 인공 지능 기술의 실제 상황 적용에 있어 최대 장애 요인은 고가의 GPU 장비가 필요하다는 데 있다.

특히, 컴퓨터 비전의 분야에서는 처리해야 하는 카메라의 개수가 매우 많으며 동영상을 처리해야 하는 경우 카메라 당 처리해야 하는 이미지의 개수가 기하급수적으로 늘어난다. 이로 인해 딥러닝 알고리즘을 실제 현장에 적용하기 위해 수 많은 GPU 장비가 필요하고, 이로 인해 딥러닝 알고리즘의 현장 적용 비용이 증가하게 된다. 이는 아무리 딥러닝 알고리즘이 고성능을 제공한다고 하더라도 실사용자의 접근성을 저하시키는 요인이 되고 있다.

따라서, 딥러닝 알고리즘이 설계 단계에서 GPU 메모리 및 연산을 최소화하는 구조로 설계되고, 레이블링이 미리 주어진 학습 데이터를 활용해서 최적화되는 학습 단계를 거친 후, 현장에 설치되어 추론 단계에서 사용된다. 그런데, 이는 딥러닝 알고리즘의 추론 대상인 이미지가 이전에 딥러닝 알고리즘을 학습시키기 위해 사용된 학습 이미지와 유사하다는 가정에 따른 것이다. 따라서, 현장에 설치된 딥러닝 알고리즘에 입력되는 이미지의 장면 또는 시각 특징이 학습 이미지와 전혀 다른 것일 경우, 딥러닝 알고리즘의 학습이 새롭게 진행되어야 한다는 어려움이 있다. 즉, 이미 학습된 딥러닝 네트워크는 학습에 사용된 이미지에 해당하는 장면에 특화되어 있으므로, 다양한 장면들에 적용함에 있어 기대하는 성능이 나오지 않는 문제가 있다.

따라서, 이러한 문제를 해결하기 위해, 최근에는 도메인 적합 방식의 많은 연구들이 이루어지고 있는 추세이다. 이러한 도메인 적합 방식은 현재 학습에 활용하는 소스 도메인(source domain)과 현재 장면에서 획득되는 데이터인 타겟 도메인(target domain)을 정의하고, 소스 도메인(source domain)에서는 정답에 접근할 수 있으므로, 이에 대해서 현재 타겟 도메인(target domain)처럼 이미지를 변환시키는 방식의 접근법이다. 그러나, 이는 학습 과정에서 소스 도메인 데이터와 타겟 도메인 데이터를 동시에 함께 학습하므로, 타겟 도메인에서 데이터를 수집 후 재학습하는 비효율적인 과정이 요구된다.

즉, 종래의 딥러닝 기반의 컨볼루션 네트워크를 기반으로 하는 물체 인식 기술은 사전에 레이블링된 데이터를 통해서 환경 별로 매번 재학습을 수행해야 하는 문제점이 있다.

기재된 실시예는 이미지에서 물체를 인식하는 딥러닝 네트워크가 이전에 학습에 사용된 학습 데이터 장면과 달라지더라도 성능 저하 없이 자동으로 해당 장면에 최적화되어 사용할 수 있도록 하는 데 그 목적이 있다.

기재된 실시예는 이미지에서 물체를 인식하는 딥러닝 네트워크에 입력되는 이미지를 촬영한 환경 별로 매번 레이블링된 데이터를 통해 재학습하지 않아도 되도록 하는데 그 목적이 있다.

실시예에 따른 환경 매칭 기반 물체 인식 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 실시간 입력되는 동영상의 장면이 속한 환경과 유사한 환경에서 촬영된 동영상을 기반으로 미리 학습된 인식 모델을 획득하는 단계 및 획득된 인식 모델을 초기 모델로 하여 실시간 입력되는 동영상의 장면의 물체를 인식하는 단계를 수행할 수 있다.

실시예에 따른 환경 매칭 기반 물체 인식 장치는, 촬영된 환경이 상이한 동영상들 각각을 훈련 데이터로 하여 물체를 인식하도록 미리 학습된 복수의 인식 모델들이 압축된 형태로 저장된 인식 모델 DB를 더 포함하고, 미리 학습된 인식 모델을 획득하는 단계는, 미리 저장된 복수의 인식 모델들 중에서 하나를 환경 매칭을 기반으로 선별할 수 있다.

이때, 미리 학습된 인식 모델을 획득하는 단계는, 실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계 및 키 프레임을 기반으로 인식 모델 DB로부터 초기 모델을 선별하는 단계를 포함할 수 있다.

이때, 키 프레임을 추출하는 단계는, 미리 학습된 적대적 오토 인코더를 기반으로 실시간으로 입력되는 동영상의 이미지 프레임들 각각에서 특징을 추출하는 단계 및 추출된 특징을 기반으로 K-means clustering 알고리즘의 반복 수행을 통해 적어도 하나의 키 프레임을 추출하는 단계를 포함할 수 있다.

이때, 적대적 오토 인코더는, 제1 이미지로부터 특징을 추출하는 인코더와 인코더로부터 추출된 특징으로부터 제2 이미지를 복원하는 디코더를 포함하여, 제1 이미지 및 제2 이미지가 유사하도록 미리 학습된 오토 인코더 및 제1 이미지와 제2 이미지를 구분하도록 미리 학습된 구분기를 포함하되, 특징을 추출하는 단계는, 실시간으로 입력되는 동영상에 대해 인코더가 추출한 특징을 출력하는 것일 수 있다.

이때, 초기 모델을 선별하는 단계는, 미리 학습된 유사도 매칭 네트워크를 기반으로 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 인식 모델 DB에 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계 및 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계를 포함할 수 있다.

이때, 초기 모델을 선별하는 단계는, 실시간으로 입력되는 동영상으로부터 추출된 키 프레임을 의미 영역 분리를 통해 고차원 정보로 변환하는 단계를 더 포함하고, 고차원 정보로 변환된 키 프레임이 미리 학습된 유사도 매칭 네트워크로 입력될 수 있다.

이때, 유사도 매칭 네트워크는, 삼중 학습 목표 기반의 쌍둥이 네트워크를 기반으로 구성되되, 앵커 샘플과 동일한 카테고리에 속하는 포지티브 샘플과의 특징 거리는 최소화되고, 앵커 샘플과 상이한 카테고리에 속하는 네거티브 샘플과의 특징 거리는 최대화되도록 학습된 것일 수 있다.

이때, 인식하는 단계는, 실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계 및 전처리된 동영상을 초기 모델을 기반으로 인식하는 단계를 포함할 수 있다.

이때, 전처리하는 단계는, 실시간 입력되는 동영상의 평균 색상 분포 히스토그램을 미리 저장된 초기 모델의 훈련 데이터로 사용된 동영상의 평균 색상 분포 히스토그램과 유사하도록 변환하는 단계를 포함할 수 있다.

이때, 전처리하는 단계는, 실시간으로 입력되는 동영상의 크기를 적어도 둘 이상으로 상이하게 변환시키는 단계, 각각 상이한 크기를 가지는 동영상들을 각각 초기 모델에 입력한 후, 출력되는 결과값의 불확실성이 최저인 동영상의크기를 결정하는 단계 및 실시간 입력되는 동영상을 결정된 크기로 변환하는 단계를 포함할 수 있다.

실시예에 따른 환경 매칭 기반 물체 인식 방법은, 실시간 입력되는 동영상의 장면이 속한 환경과 유사한 환경에서 촬영된 동영상을 기반으로 미리 학습된 인식 모델을 획득하는 단계 및 획득된 인식 모델을 초기 모델로 하여 실시간 입력되는 동영상의 장면의 물체를 인식하는 단계를 수행할 수 있다.

이때, 미리 학습된 인식 모델을 획득하는 단계는, 촬영된 환경이 상이한 동영상들 각각을 훈련 데이터로 하여 물체를 인식하도록 미리 학습된 복수의 인식 모델들 중에서 하나를 환경 매칭을 기반으로 선별할 수 있다.

이때, 초기 모델을 선별하는 단계는, 실시간으로 입력되는 동영상으로부터 추출된 키 프레임을 의미 영역 분리를 통해 고차원 정보로 변환하는 단계, 미리 학습된 유사도 매칭 네트워크를 기반으로 고차원 정보로 변환된 키 프레임과 인식 모델 DB에 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계 및 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계를 포함할 수 있다.

이때, 전처리하는 단계는, 실시간으로 입력되는 동영상의 크기를 적어도 둘 이상으로 상이하게 변환시키는 단계, 각각 상이한 크기를 가지는 동영상들을 각각 초기 모델에 입력한 후, 출력되는 결과값의 불확실성이 최저인 동영상의 크기를 결정하는 단계 및 실시간 입력되는 동영상을 결정된 크기로 변환하는 단계를 포함할 수 있다.

실시예에 따른 환경 매칭 기반 물체 인식 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계, 미리 학습된 유사도 매칭 네트워크를 기반으로 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 미리 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계, 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계, 실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계 및 전처리된 동영상을 초기 모델을 기반으로 인식하는 단계를 수행할 수 있다.

기재된 실시예에 따라, 이미지에서 물체를 인식하는 딥러닝 네트워크가 이전에 학습에 사용된 학습 데이터 장면과 달라지더라도 성능 저하 없이 자동으로 해당 장면에 최적화되어 사용할 수 있도록 하는 데 그 목적이 있다.

기재된 실시예에 따라, 이미지에서 물체를 인식하는 딥러닝 네트워크에 입력되는 이미지를 촬영한 환경 별로 매번 레이블링된 데이터를 통해 재학습하지 않아도 되도록 하는데 그 목적이 있다.

즉, 실시예에 따라, 온라인으로 장면의 적응 기법을 적용하기 위해서 추가적인 학습 적용 대신, 입력되는 이미지를 유사한 환경 이미지로 변환하는 기술을 적용하여 장면에 적응하는 시각 특징 네트워크를 생성할 수 있다. 따라서, 각 영상에서의 환경이 유사한지 파악하기 위한 모듈에 의해서 카메라의 각도나 장면 구조에 따라서 차이가 나는 상황을 파악할 수 있고, 이를 통해 비디오 하이라이트(Highlight)의 자동 추출이나 유사한 비디오 매칭 기술로서도 활용될 수 있다.

도 1은 실시예에 따른 환경 매칭 기반 물체 인식 장치의 개략적인 구성도이다.
도 2는 도 1에 도시된 환경 매칭 인식 모델 탐색부(110)의 내부 구성도이다.
도 3은 도 2에 도시된 키 프레임 추출부(110)의 내부 구성도이다.
도 4는 키 프레임 추출부(110)에 의해 추출된 키 프레임의 예시도이다.
도 5는 도 2에 도시된 초기 모델 선별부(120)의 내부 구성도이다.
도 6은 실시예에 따라 키 프레임을 의미 영역 분리 변환한 예시도이다.
도 7은 실시예에 따른 자기 지도 학습 기반 동영상 매칭 네트워크 학습을 설명하기 위한 예시도이다.
도 8은 실시예에 따른 환경 매칭 기반 동영상 탐색 결과 예시도이다.
도 9는 도 1에 도시된 적응적 인식부(200)의 내부 구성도이다.
도 10은 실시예에 따른 환경 매칭 기반 물체 인식 방법을 설명하기 위한 순서도이다.
도 11은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.

본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 발명에 따른 환경 매칭 기반 물체 인식 장치 및 방법은 다음과 같은 목적을 성취하기 위해 설계된다.

우선 카메라가 바라보고 있는 장면에 대해 최적화된 형태의 네트워크 구조를 온라인 상황에서 찾을 수 있어야 한다. 이는 기 학습 때 현재 네트워크가 어떤 장면에 적용될지 모른다는 말과 동일하며, 새롭게 카메라가 설치된 장면에 대해서는 라벨 데이터가 주어질 수 없음을 의미한다. 기존의 네트워크 프루닝(Pruning)과 네트워크 양자화에서는 최적의 네트워크을 기존 데이터가 정의된 상태에서만 진행할 수 있다. 즉, 기존 레이블링된 데이터에 최적화된 네트워크를 탐색하는 것이다.

반면, 실시예에서는 라벨 데이터 없이도 새로운 장면에서의 입력이 지속적으로 제공되면 이에 최적화된 네트워크를 찾는 접근법을 활용한다.

또한 온라인으로 장면에 적응하는 네트워크에서는 기존에 학습에 활용된 데이터를 추가적으로 다시 보고 학습하는 과정이 붙을 수 없다. 시각 특징 이해 네트워크를 학습하는 연구실 및 개발실에서는 고성능의 딥러닝 서버를 활용하지만, 학습이 이루어진 네트워크를 테스트하는 환경에서는 고성능 딥러닝 서버 머신을 활용할 수 없다. 그렇기 때문에 만약 카메라가 설치된 장면에 최적화된 네트워크를 다시 탐색하고자 할 경우 해당 장면에서 얻은 영상이나 이미지 데이터를 다시 연구실이나 개발실로 가져와 최적화하는 알고리즘을 구동한 뒤에 적합한 구조를 찾아야 한다. 이는 매우 비효율적이고 결국 알고리즘 적용 비용을 크게 늘리는 문제를 야기한다.

이러한 문제를 해결하기 위해 본 발명에서는 새롭게 개발된 네트워크를 온라인으로 특정 장면에 구동하기만 하여도 추가 학습과정 없이 최적의 네트워크 구조를 찾아 이를 활용하는 알고리즘을 포함해야 한다. 이를 통해 실제 구동되는 환경에서는 고가의 딥러닝 학습 서버를 구축하지 않아도 되며 테스트에 들어가는 작은 규모의 GPU 환경으로도 충분히 적용이 가능해진다.

마지막으로 다양한 장면에 대한 적응 가능성이다. 기존의 학계에서 연구되고 있는 도메인 적응 기술은 학습 데이터의 라벨 정보와 현재 장면에 대한 정보도 미리 알고 있어야 적용할 수 있기 때문에 그 범용성이 현저히 떨어진다.

이에 본 발명에서는 자체적인 적응 메커니즘을 활용해 여러 가지 장면과 환경에 대해서 자동으로 입력을 변경하여 장면에 네트워크를 적응시키는 방법을 취한다. 이 효율성을 더욱 극대화하기 위해서 자체적인 적응 메커니즘 외에 현재 장면에 속한 환경과 가장 유사한 오프라인 환경을 탐색하는 알고리즘을 추가로 개발하여, 기존 유사한 장면 정보를 담고 있는 특정 오프라인 환경에 최적화된 네트워크를 처음 시작 네트워크로 활용할 수 있도록 진행한다.

그러면, 이하에서는 도 1 내지 도 11을 참조하여 전술한 바와 같은 목적을 달성하기 위한 실시예에 따른 환경 매칭 기반 물체 인식 장치 및 방법을 상세히 설명하기로 한다.

도 1은 실시예에 따른 환경 매칭 기반 물체 인식 장치의 개략적인 블록 구성도이다.

도 1을 참조하면, 실시예에 따른 환경 매칭 기반 물체 인식 장치는, 크게 환경 매칭 인식 모델 탐색부(100) 및 적응적 인식부(200)를 포함할 수 있다.

환경 매칭 인식 모델 탐색부(100)는, 실시간 입력되는 동영상의 장면이 속한 환경과 유사한 환경에서 촬영된 동영상을 기반으로 미리 학습된 인식 모델을 획득할 수 있다.

이때, 장면(scene)은 카메라가 설치된 장소로 하나의 카메라가 하나의 장면을 바라본다고 하면, 환경(environment)은 유사한 장면들의 세트(set)로 정의될 수 있다. 예컨대, 환경은 도로 환경 및 실내 환경 등이 될 수 있으며, 장면의 상위 개념으로 정의될 수 있다.

즉, 환경 매칭 인식 모델 탐색부(100)는, 카메라가 촬영하는 대상인 장면에 대한 시각적 특징을 기반으로 물체를 인식하도록 최적화된 형태의 시각 특징 네트워크 구조인 인식 모델을 온라인 상황에서 찾을 수 있어야 한다.

이때, 실시예에 따른 환경 매칭 기반 물체 인식 장치는, 촬영된 환경이 상이한 동영상들 각각을 훈련 데이터로 하여 미리 학습된 복수의 인식 모델들이 압축된 형태로 저장된 인식 모델 DB(10)를 더 포함할 수 있다.

이때, 저장된 인식 모델들은 모두 특정 환경에 최적으로 이미 압축되어 있으며, 이들 중 하나를 선택해 활용하면 전반적인 환경을 학습한 네트워크에 비해 적은 메모리로 특정 환경에서 높은 성능을 확보할 수 있다.

따라서, 환경 매칭 인식 모델 탐색부(100)는, 인식 모델 DB(10)에 미리 저장된 복수의 인식 모델들 중에서 하나를 환경 매칭을 기반으로 선별할 수 있다.

이를 통해, 여러 다양한 오프라인 환경에서 각각 학습된 인식 모델들 중 현재 온라인 환경에 가장 적합한 인식 모델을 선택해 구동되는 적응형 네트워크의 초기 모델(Initial Model)로 활용한다.

이러한 환경 매칭 인식 모델 탐색부(100)의 상세 구성은 및 동작은 도 2 내지 도 8을 참조하여 후술하기로 한다.

적응적 인식부(200)는, 환경 매칭 인식 모델 탐색부(100)에 의해 획득된 인식 모델을 초기 모델로 하여 실시간 입력되는 동영상의 장면의 물체를 인식할 수 있다.

즉, 적응적 인식부(200)는, 라벨 정보와 추가적인 학습 과정 없이 새로운 장면에 인식하는데, 이는 실제 적용 환경에서 진행되기 때문에 추가적인 학습을 진행할 수 없다. 하지만, 입력되는 이미지를 현재 선택된 초기 모델을 학습한 학습 이미지와 유사하게 변경하는 것은 실시간으로 처리할 수 있다.

따라서, 실시예에 따른 적응적 인식부(200)는 실시간으로 입력되는 이미지를 초기 모델에 입력하기 전에, 초기 모델을 학습한 학습 이미지와 유사하게 변경해주는 전처리(Pre-processing)를 수행한다. 이로써, 현 장면에 적응시켜 인식 성능을 향상시킬 수 있다.

이러한 적응적 인식부(200)의 상세 구성 및 동작은 도 9를 참조하여 후술하기로 한다.

도 2는 도 1에 도시된 환경 매칭 인식 모델 탐색부(110)의 내부 구성도이다.

도 2를 참조하면, 환경 매칭 인식 모델 탐색부(110)는 키 프레임 추출부(110) 및 초기 모델 선별부(120)를 포함할 수 있다.

키 프레임 추출부(110)는 실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출한다.

이는 동영상의 경우, 동영상 길이가 모두 다르고, 특히 긴 시간 촬영된 영상의 경우 포함된 이미지 프레임의 개수가 무수히 많으므로, 이를 모두 활용할 경우 네트워크의 크기가 비대해지고 구동 속도가 매우 느려진다는 문제를 해결하기 위한것이다.

따라서, 키 프레임 추출부(110)은 동영상 내의 모든 이미지 프레임을 활용하지 않고 중요한 프레임만이 활용되도록, 키 프레임을 추출하게 된다.

도 3은 도 2에 도시된 키 프레임 추출부(110)의 내부 구성도이고, 도 4는 키 프레임 추출부(110)에 의해 추출된 키 프레임의 예시도이다,

도 3을 참조하면, 키 프레임 추출부(110)는 미리 학습된 적대적 오토 인코더(Adversarial Auto-Encoder)(111)의 인코더를 이용하여, 입력되는 동영상의 이미지 프레임들 각각에서 특징을 추출한다. 그런 후, 추출된 특징을 기반으로 K-means clustering Unit(112)에서 적어도 하나의 키 프레임을 추출한다.

이때, 적대적 오토 인코더(111)는, 오토 인코더(111a, 111b) 및 구분기(111c)를 포함한다.

오토 인코더(111a, 111b)는 제1 이미지로부터 특징을 추출하는 인코더(Encoder)(111a)와 인코더(111a)로부터 추출된 특징으로부터 제2 이미지를 복원하는 디코더(Decoder)(111b)를 포함하여, 제1 이미지 및 제2 이미지가 유사하도록 미리 반복 학습된 것일 수 있다.

그런데, 오토 인코더만 구성될 경우, 전체 이미지들이 뭉쳐 학습된 평균 이미지가 출력되는 문제를 가지므로, 이러한 문제를 해결하기 위해 기본적인 오토인코더에 구분기(Discriminator network)(111c)를 추가한 적대적인 오토인코더를 활용한다.

구분기(Discriminator)(111c)는, 제1 이미지와 제2 이미지를 구분하도록 미리 학습된 것이다.

즉, 오토인코더(111a, 111b)와 구분기(111c)는 서로 반대 방향으로 학습이 진행된다.

전술한 바와 같이, 구분기(111c)는, 제1 이미치와 제2 이미지를 잘 구분하도록 학습되므로, 오토 인코더에서 출력되는 이미지의 품질이 떨어질수록 그 구분 성능이 훨씬 향상될 것이다.

반면, 오토 인코더(111a, 111b)는, 구분기(111c)가 잘 구분하지 못하는 고품질의 이미지를 출력하도록 학습된다. 따라서, 오토 인코더(111a, 111b)는 제1 이미지와 제2 이미지가 최대한 유사해지도록 학습이 진행된다.

이와 같이, 오토인코더(111a, 111b)와 구분기(111c)가 경쟁적으로 학습이 진행됨에 따라, 오토 인코더(111a, 111b)는 더 고품질의 이미지를 출력하게 되며, 구분기(111c)는 더 고품질이더라도 분류할 수 있도록 학습이 진행된다.

전술한 바와 같이 학습된 오토 인코더(111a, 111b)의 인코더(111a)만 있으면 입력된 이미지를 압축하여 특징으로 변환된 정보를 얻을 수 있다.

키 프레임 추출부(110)는 실시간으로 입력되는 동영상에 대해 인코더(111a)가 추출한 특징을 기반으로 K-means Clustering 알고리즘을 수행하여 K개의 키 프레임을 추출할 수 있다.

여기서, K-means Clustering 알고리즘의 K값은 키 프레임 추출부(110)에서 추출하고자 하는 키 프레임의 개수의 2배수가 되도록 수행된다. 2 배수 클러스터가 K-means clustering 알고리즘을 통해 획득된 후, 이 중 작은 클러스터 K개 만큼이 삭제된다. 그러면, 전술한 작은 클러스터가 모두 삭제되고, 비교적 큰 샘플들을 포함하는 클러스터만 남게 된다. 이와 같이 남은 클러스터들의 중심점(Centroid)을 시작점으로 하여 새롭게 k-means clustering 알고리즘이 수행된다. 이러한 과정들을 통해, 앞서 삭제된 작은 클러스터들이 살아남은 K개의 클러스터에 자연스럽게 속할 수 있도록 한다.

전술한 바와 같은 동작들을 통해, 키 프레임 추출부(110)는 도 4에 도시된 바와 같이, 동영상에서 카메라가 움직이거나 장면이 변화하는 등의 주요 장면을 자동으로 추출할 수 있다.

다시 도 2를 참조하면, 초기 모델 선별부(120)는 추출된 키 프레임을 기반으로 인식 모델 DB(10)로부터 초기 모델을 선별한다.

도 5는 도 2에 도시된 초기 모델 선별부(120)의 내부 구성도이고, 도 6은 실시예에 따라 키 프레임을 의미 영역 분리 변환한 예시도이고, 도 7은 실시예에 따른 자기 지도 학습 기반 동영상 매칭 네트워크 학습을 설명하기 위한 예시도이고, 도 8은 실시예에 따른 환경 매칭 기반 동영상 탐색 결과 예시도이다.

도 5를 참조하면, 초기 모델 선별부(120)는 동영상 주요 장면을 통해 환경 자동 분류를 수행하고, 이를 이용하여 현재 장면과 가장 유사한 환경에서 학습된 모델을 찾아낸다.

이를 위해, 초기 모델 선별부(120)는 우선 실시간으로 입력되는 동영상으로부터 추출된 키 프레임을 의미 영역 분리(Semantic Segmentation)(121)를 통해 고차원 정보로 변환한다.

이를 통해 키 프레임 추출부(110)에서 추출된 동영상 키 프레임의 이미지를 그대로 활용하면 색상이나 질감 등의 세부 정보를 많이 포함하여 환경의 비교가 어렵다는 문제를 해결할 수 있다.

상세하게는, 의미 영역 분리(Semantic Segmentation)(121)에서 키 프레임에서 정확한 영역 분리가 목적이 아니라 어떤 고차원 영역 특성을 갖느냐를 파악하기 위해서 20개의 영역 분리 카테고리 중 배경에 해당하는 카테고리(Background)는 제거하고, 2순위 클래스를 출력하게 변형하여 각 픽셀들이 어떤 영역으로 생각되는지를 상위 정보로 활용한다.

도 6에는 도 4에 도시된 바와 같은 키 프레임들을 의미 영역 분리 과정을 통해 고차원 영역 특성 입력으로 변환되는 예시가 도시되어 있다.

전술한 바와 같이 고차원 정보로 변환된 키 프레임은 인식 모델 DB(10)에 저장된 복수의 인식 모델들에 상응하는 동영상들이 촬영된 환경과 동일한지를 판단하는 Metric Estimator(122)에 입력된다.

Metric Estimator(122)는, 미리 학습된 유사도 매칭 네트워크를 기반으로 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 인식 모델 DB(10)에 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하고, 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별한다.

이때, 유사도 매칭 네트워크는, 이렇게 영상 간의 유사도를 학습하는데 있어서 정답 데이터가 필요없는 자기 지도 학습 알고리즘을 통해서 동영상의 자동 매칭 네트워크를 학습한다.

즉, 유사도 매칭 네트워크는, 삼중 학습 목표(Triplet Loss) 기반의 쌍둥이 네트워크(Siammese Network)를 기반으로 구성된다.

이때, 삼중 학습 목표란, 한 개의 앵커 샘플을 우선 추출하고, 그 앵커 샘플과 동일한 카테고리에 속하는 샘플을 포지티브 샘플(positive sample) 그리고 그 앵커 샘플과 다른 카테고리에 속하는 샘플을 네거티브 샘플(Negtative sample)로 추출한다.

이렇게 총 세 개의 샘플이 추출되면, 삼중 학습 목표는 앵커 샘플과 동일한 카테고리에 속하는 포지티브 샘플(Positive sample)과의 특징 거리는 최소화되고, 앵커 샘플과 상이한 카테고리에 속하는 네거티브 샘플(Negtative sample)과의 특징 거리는 최대화되도록 학습되는 것일 수 있다.

이러한 삼중 학습 목표는 다음의 <수학식 1>과 같이 표현될 수 있다.

<수학식 1>에서

는 앵커 샘플에서 얻은 특징(Feature)이고,

와

는 각각 포지티브 샘플 및 네거티브 샘플에서 획득된 특징(Feature)이다.

이러한 삼중 학습 목표를 네트워크 학습으로 쓰기 위해서는 네트워크 결과값으로 카테고리가 아닌 특징값이 출력되어야 한다.

이를 위해 실시예에 따른 환경 매칭 네트워크는, 쌍둥이 네트워크(Siammese Network)를 수정하여, 결과가 사용자가 원하는 특징의 개수로 설정되어 학습된 것을 수 있다.

이러한 환경 매칭 네트워크는, 학습 과정에서 서로 동일한 동영상에서 추출된 키 프레임들은 동일한 카테고리로 인식하여 학습되며, 서로 상이한 동영상에서 추출된 키 프레임들은 서로 다른 카테고리로 인식하도록 학습된다. 이와 같은 학습을 지속적으로 진행할 경우, 최종적인 환경 매칭 네트워크는 키 프레임이 하나 입력됨에 따라, 특정 특징(feature)를 출력하게 되며, 이 특징은 서로 동일한 영상에 대해서는 거리가 가까워지고, 서로 다른 영상에 대해서는 거리가 멀어지게 된다.

Metric Estimator(122)는, 입력된 키 프레임에서 환경 매칭 네트워크를 기반으로 획득된 특징(feature)를 이용하여 새로운 환경에서 촬영된 동영상과 기존 촬영된 동영상의 유사도를 측정하고, 측정된 유사도를 기반으로 실시간으로 입력되는 영상과 유사한 장면을 가진 동영상을 선택할 수 있게 된다.

예컨대, 도 8에 도시된 바와 같이, 문의(Query)된 영상과 유사한 것으로 탐색(Searched)된 영상이 선택될 수 있다.

그러면, 유사한 장면을 가진 동영상이 선택됨에 따라, 해당 동영상을 기반으로 학습된 인식 모델이 초기 모델로 선택될 수 잇다.

도 9는 도 1에 도시된 적응적 인식부(200)의 내부 구성도이다.

도 9를 참조하면, 적응적 인식부(200)는, 전처리부(210) 및 인식 모델(220)을 포함할 수 있다.

전처리부(210)는, 실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리한다.

즉, 색상 분포는 카메라의 기종과 촬영 환경에 따라 다양하게 나타날 수 있으므로, 이를 유사하게 맞춰주면 원본 이미지를 그대로 활용하는 것보다 성능을 크게 향상시킬 수 있다. 또한, 물체의 크기는 네트워크 결과에 큰 영향을 미치므로, 다양한 높이와 확대율로 물체를 탐지하는 CCTV 환경에서는 물체의 크기가 다양하기 때문에 이를 맞춰주는 과정을 추가하면 분류 성능을 크게 향상시킬 수 있다.

따라서, 실시예에 따른 전처리부(210)는, 색상 조정부(211) 및 크기 조정부(212) 중 적어도 하나를 포함할 수 있다.

이때, 색상 조정부(211)는, 실시간 입력되는 동영상의 평균 색상 분포 히스토그램을 미리 저장된 초기 모델의 훈련 데이터로 사용된 동영상의 평균 색상 분포 히스토그램과 유사하도록 변환한다.

전처리부(210)는, 인식 모델별로 학습 이미지의 평균적인 색상 분포 히스토그램을 저장한 모델별 색상 문포 히스토그램 DB(212)를 더 포함하고, 색상 조정부(211)은 실시간 입력되는 이미지에서 얻은 색상 분포 히스토그램이 저장되어 있는 평균적인 색상 분포 히스토그램과 유사하게 나오도록 Histogram Equalization 알고리즘을 적용한다.

한편, 크기 조정부(212)는, 실시간으로 입력되는 동영상의 크기를 적어도 둘 이상으로 상이하게 변환시키고, 각각 상이한 크기를 가지는 동영상들을 각각 초기 모델에 입력한 후, 출력되는 결과값의 정보량(Cross-entropy)이 최대일 때의 크기를 결정하고, 실시간 입력되는 이미지의 크기를 결정된 크기로 조정한다.

즉, 영상을 초기 모델에 입력시키면, 초기 모델은 최종적인 결과로 영상에서 인식한 물체에 대한 확률값을 출력하게 된다. 예컨대, 개는 '0.1', 고양이는 '0.3', 말은 '0.6'처럼 총합이 1인 벡터 형태가 출력된다.

그런데, [개 0.3, 고양이 0.3, 말 0.4]과 같이 인식한 물체들 각각에 대한 확률이 비슷하여 실제 영상에 포함된 물체가 무엇인지 모호해지는 것 보다는 [개 0.01, 고양이 0.01, 말 0.98]과 같이 특정 물체에 대한 인식 확률이 확실히 높아, 즉, 인식 확률들에서 peak가 있는 것이 정보량이 더 큰 결과이다.

따라서, 크기 조정부(212)는, 엔트로피(불확실성) 계산을 통해서 엔트로피가 최저일 때의 동영상의 크기를 선택하면, 이는 정보량이 최대인 크기를 선택하는 것일 수 있다.

촬영 환경 별로 물체의 크기는 일정하게 나타나기 때문에 여러 크기의 이미지를 입력으로 활용하는 것은 초반에만 진행하며, 사용자가 선택하는 시점부터는 계산된 이미지의 크기들을 기반으로 최적의 이미지 크기를 결정하여 고정 값으로 활용한다.

전술한 바와 같이, 현재 환경에 대해 색상 분포를 변경하고 물체의 크기를 변경하는 전처리부(210)를 추가하는 것은 네트워크 학습이 추가로 필요하지 않으면서도, 기존 네트워크의 성능을 극대화할 수 있는 효과를 창출한다.

이후, 인식 모델(110)은, 전처리된 동영상을 초기 모델을 기반으로 인식할 수 있다.

도 10은 실시예에 따른 환경 매칭 기반 물체 인식 방법을 설명하기 위한 순서도이다.

도 10을 참조하면, 실시예에 따른 환경 매칭 기반 물체 인식 방법은, 실시간 입력되는 동영상의 장면이 속한 환경과 유사한 환경에서 촬영된 동영상을 기반으로 미리 학습된 인식 모델을 획득하는 단계(S310) 및 획득된 인식 모델을 초기 모델로 하여 실시간 입력되는 동영상의 장면의 물체를 인식하는 단계(S320)를 수행할 수 있다.

이때, 미리 학습된 인식 모델을 획득하는 단계(S310)는, 촬영된 환경이 상이한 동영상들 각각을 훈련 데이터로 하여 물체를 인식하도록 미리 학습된 복수의 인식 모델들 중에서 하나를 환경 매칭을 기반으로 선별할 수 있다.

이때, 미리 학습된 인식 모델을 획득하는 단계(S310)는, 상세하게는 실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계(S311) 및 키 프레임을 기반으로 인식 모델 DB로부터 초기 모델을 선별하는 단계(S312)를 포함할 수 있다.

이때, 키 프레임을 추출하는 단계(S311)는, 미리 학습된 적대적 오토 인코더를 기반으로 실시간으로 입력되는 동영상의 이미지 프레임들 각각에서 특징을 추출하는 단계 및 추출된 특징을 기반으로 K-means clustering 알고리즘의 반복 수행을 통해 적어도 하나의 키 프레임을 추출하는 단계를 포함할 수 있다. 이러한 키 프레임을 추출하는 단계(S311)는 전술한 키 프레임 추출부(110)의 동작과 동일하므로, 여기서는 상세한 설명은 생략하기로 한다.

이때, 초기 모델을 선별하는 단계(S312)는, 실시간으로 입력되는 동영상으로부터 추출된 키 프레임을 의미 영역 분리를 통해 고차원 정보로 변환하는 단계, 미리 학습된 유사도 매칭 네트워크를 기반으로 고차원 정보로 변환된 키 프레임과 인식 모델 DB에 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계 및 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계를 포함할 수 있다. 이러한 초기 모델을 선별하는 단계(S312)는 전술한 초기 모델 선별부(120)의 동작과 동일하므로, 여기서는 상세한 설명은 생략하기로 한다.

이때, 인식하는 단계(S320)는, 실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계(S321) 및 전처리된 동영상을 초기 모델을 기반으로 인식하는 단계(S322)를 포함할 수 있다.

이때, 전처리하는 단계(S321)는, 실시간 입력되는 동영상의 평균 색상 분포 히스토그램을 미리 저장된 초기 모델의 훈련 데이터로 사용된 동영상의 평균 색상 분포 히스토그램과 유사하도록 변환하는 단계를 포함할 수 있다.

이때, 전처리하는 단계(S21)는, 실시간으로 입력되는 동영상의 크기를 적어도 둘 이상으로 상이하게 변환시키는 단계, 각각 상이한 크기를 가지는 동영상들을 각각 초기 모델에 입력한 후, 출력되는 결과값의 정보량이 최대인 크기를 결정하는 단계 및 실시간 입력되는 동영상을 결정된 크기로 변환하는 단계를 포함할 수 있다.

이러한 전처리하는 단계(S321)는 전술한 전처리부(210)의 동작과 동일하므로, 여기서는 상세한 설명은 생략하기로 한다.

도 11은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.

실시예에 따른 환경 매칭 기반 물체 인식 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.

컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.

이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

10 : 인식 모델 DB 100 : 환경 매칭 인식 모델 탐색부
110 : 키 프레임 추출부 120 : 초기 모델 선별부
200 : 적응적 인식부 210 : 전처리부
220 : 인식 모델

Claims

적어도 하나의 프로그램이 기록된 메모리; 및
프로그램을 실행하는 프로세서를 포함하며,
프로그램은,
실시간 입력되는 동영상의 장면이 속한 환경과 유사한 환경에서 촬영된 동영상을 기반으로 미리 학습된 인식 모델을 획득하는 단계; 및
획득된 인식 모델을 초기 모델로 하여 실시간 입력되는 동영상의 장면의 물체를 인식하는 단계를 수행하는, 환경 매칭 기반 물체 인식 장치.
제1 항에 있어서,
촬영된 환경이 상이한 동영상들 각각을 훈련 데이터로 하여 물체를 인식하도록 미리 학습된 복수의 인식 모델들이 압축된 형태로 저장된 인식 모델 DB를 더 포함하고,
미리 학습된 인식 모델을 획득하는 단계는,
미리 저장된 복수의 인식 모델들 중에서 하나를 환경 매칭을 기반으로 선별하는, 환경 매칭 기반 물체 인식 장치.
제2 항에 있어서, 미리 학습된 인식 모델을 획득하는 단계는,
실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계; 및
키 프레임을 기반으로 인식 모델 DB로부터 초기 모델을 선별하는 단계를 포함하는, 환경 매칭 기반 물체 인식 장치.
제3 항에 있어서, 키 프레임을 추출하는 단계는,
미리 학습된 적대적 오토 인코더를 기반으로 실시간으로 입력되는 동영상의 이미지 프레임들 각각에서 특징을 추출하는 단계; 및
추출된 특징을 기반으로 K-means clustering 알고리즘의 반복 수행을 통해 적어도 하나의 키 프레임을 추출하는 단계를 포함하는, 환경 매칭 기반 물체 인식 장치.
제4 항에 있어서, 적대적 오토 인코더는,
제1 이미지로부터 특징을 추출하는 인코더와 인코더로부터 추출된 특징으로부터 제2 이미지를 복원하는 디코더를 포함하여, 제1 이미지 및 제2 이미지가 유사하도록 미리 학습된 오토 인코더; 및
제1 이미지와 제2 이미지를 구분하도록 미리 학습된 구분기를 포함하되,
특징을 추출하는 단계는,
실시간으로 입력되는 동영상에 대해 인코더가 추출한 특징을 출력하는 것인, 환경 매칭 기반 물체 인식 장치.
제3 항에 있어서, 초기 모델을 선별하는 단계는,
미리 학습된 유사도 매칭 네트워크를 기반으로 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 인식 모델 DB에 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계;
실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계를 포함하는, 환경 매칭 기반 물체 인식 장치.
제6 항에 있어서, 초기 모델을 선별하는 단계는,
실시간으로 입력되는 동영상으로부터 추출된 키 프레임을 의미 영역 분리를 통해 고차원 정보로 변환하는 단계를 더 포함하고,
고차원 정보로 변환된 키 프레임이 미리 학습된 유사도 매칭 네트워크로 입력되는, 환경 매칭 기반 물체 인식 장치.
제7 항에 있어서, 유사도 매칭 네트워크는,
삼중 학습 목표 기반의 쌍둥이 네트워크를 기반으로 구성되되,
앵커 샘플과 동일한 카테고리에 속하는 포지티브 샘플과의 특징 거리는 최소화되고, 앵커 샘플과 상이한 카테고리에 속하는 네거티브 샘플과의 특징 거리는 최대화되도록 학습된 것인, 환경 매칭 기반 물체 인식 장치.
제1 항에 있어서, 인식하는 단계는,
실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계; 및
전처리된 동영상을 초기 모델을 기반으로 인식하는 단계를 포함하는, 환경 매칭 기반 물체 인식 장치.
제9 항에 있어서, 전처리하는 단계는,
실시간 입력되는 동영상의 평균 색상 분포 히스토그램을 미리 저장된 초기 모델의 훈련 데이터로 사용된 동영상의 평균 색상 분포 히스토그램과 유사하도록 변환하는 단계를 포함하는, 환경 매칭 기반 물체 인식 장치.
제9 항에 있어서, 전처리하는 단계는,
실시간으로 입력되는 동영상의 크기를 적어도 둘 이상으로 상이하게 변환시키는 단계;
각각 상이한 크기를 가지는 동영상들을 각각 초기 모델에 입력한 후, 출력되는 결과값의 불확실성이 최저인 동영상의 크기를 결정하는 단계; 및
실시간 입력되는 동영상을 결정된 크기로 변환하는 단계를 포함하는, 환경 매칭 기반 물체 인식 장치.
실시간 입력되는 동영상의 장면이 속한 환경과 유사한 환경에서 촬영된 동영상을 기반으로 미리 학습된 인식 모델을 획득하는 단계; 및
획득된 인식 모델을 초기 모델로 하여 실시간 입력되는 동영상의 장면의 물체를 인식하는 단계를 수행하는, 환경 매칭 기반 물체 인식 방법.
제12 항에 있어서, 미리 학습된 인식 모델을 획득하는 단계는,
촬영된 환경이 상이한 동영상들 각각을 훈련 데이터로 하여 물체를 인식하도록 미리 학습된 복수의 인식 모델들 중에서 하나를 환경 매칭을 기반으로 선별하는, 환경 매칭 기반 물체 인식 방법.
제13 항에 있어서, 미리 학습된 인식 모델을 획득하는 단계는,
실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계; 및
키 프레임을 기반으로 인식 모델 DB로부터 초기 모델을 선별하는 단계를 포함하는, 환경 매칭 기반 물체 인식 방법.
제14 항에 있어서, 키 프레임을 추출하는 단계는,
미리 학습된 적대적 오토 인코더를 기반으로 실시간으로 입력되는 동영상의 이미지 프레임들 각각에서 특징을 추출하는 단계; 및
추출된 특징을 기반으로 K-means clustering 알고리즘의 반복 수행을 통해 적어도 하나의 키 프레임을 추출하는 단계를 포함하는, 환경 매칭 기반 물체 인식 방법.
제14 항에 있어서, 초기 모델을 선별하는 단계는,
실시간으로 입력되는 동영상으로부터 추출된 키 프레임을 의미 영역 분리를 통해 고차원 정보로 변환하는 단계;
미리 학습된 유사도 매칭 네트워크를 기반으로 고차원 정보로 변환된 키 프레임과 인식 모델 DB에 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계; 및
실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계를 포함하는, 환경 매칭 기반 물체 인식 방법.
제12 항에 있어서, 인식하는 단계는,
실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계; 및
전처리된 동영상을 초기 모델을 기반으로 인식하는 단계를 포함하는, 환경 매칭 기반 물체 인식 방법.
제17 항에 있어서, 전처리하는 단계는,
실시간 입력되는 동영상의 평균 색상 분포 히스토그램을 미리 저장된 초기 모델의 훈련 데이터로 사용된 동영상의 평균 색상 분포 히스토그램과 유사하도록 변환하는 단계를 포함하는, 환경 매칭 기반 물체 인식 방법.
제17 항에 있어서, 전처리하는 단계는,
실시간으로 입력되는 동영상의 크기를 적어도 둘 이상으로 상이하게 변환시키는 단계;
각각 상이한 크기를 가지는 동영상들을 각각 초기 모델에 입력한 후, 출력되는 결과값의 불확실성이 최저인 동영상의 크기를 결정하는 단계; 및
실시간 입력되는 동영상을 결정된 크기로 변환하는 단계를 포함하는, 환경 매칭 기반 물체 인식 방법.
적어도 하나의 프로그램이 기록된 메모리; 및
프로그램을 실행하는 프로세서를 포함하며,
프로그램은,
실시간 입력되는 동영상에서 적어도 하나의 키 프레임을 추출하는 단계;
미리 학습된 유사도 매칭 네트워크를 기반으로 실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 미리 저장된 복수의 인식 모델들의 훈련 데이터로 사용된 동영상들 각각의 유사도를 판단하는 단계;
실시간으로 입력되는 동영상으로부터 추출된 키 프레임과 최대 유사도를 가지는 동영상으로 미리 학습된 인식 모델을 선별하는 단계;
실시간 입력되는 동영상을 초기 모델의 훈련 데이터로 사용된 동영상의 색상 및 크기 중 적어도 하나가 유사하도록 전처리하는 단계; 및
전처리된 동영상을 초기 모델을 기반으로 인식하는 단계를 수행하는, 환경 매칭 기반 물체 인식 장치.