KR102591961B1

KR102591961B1 - 모델 트레이닝 방법 및 장치, 및 이를 위한 단말 및 저장 매체

Info

Publication number: KR102591961B1
Application number: KR1020217025275A
Authority: KR
Inventors: 닝 왕; 이빙 쑹; 웨이 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2019-05-13
Filing date: 2020-04-07
Publication date: 2023-10-19
Also published as: CN110147836B; JP7273157B2; KR20210110713A; EP3971772A1; EP3971772A4; US11704817B2; JP2022532460A; CN110147836A; EP3971772B1; US20210335002A1; WO2020228446A1

Abstract

본 출원의 실시예들은 모델을 트레이닝시키기 위한 방법, 장치, 단말 및 저장 매체를 개시한다. 이 방법은, 템플릿 이미지 및 테스트 이미지를 취득하는 단계; 템플릿 이미지에서의 추적 객체의 특징을 프로세싱하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 템플릿 이미지에서의 추적 객체의 특징을 프로세싱하여 제2 참조 응답을 획득하기 위해 제2 객체 인식을 호출하는 단계; 테스트 이미지에서의 추적 객체의 특징을 프로세싱하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 테스트 이미지에서의 추적 객체의 특징을 프로세싱하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계; 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하는 단계; 및 제1 참조 응답과 제2 참조 응답 간의 차이, 제1 테스트 응답과 제2 테스트 응답 간의 차이, 및 추적 라벨과 추적 응답 간의 차이에 기반하여 제1 객체 인식 모델을 업데이트하는 단계를 포함한다.

Description

모델 트레이닝 방법 및 장치, 및 이를 위한 단말 및 저장 매체

본 출원은, 중국 특허청(National Intellectual Property Administration, PRC)에 "모델을 트레이닝시키기 위한 방법, 장치, 단말 및 저장 매체"란 명칭으로 2019년 5월 13일자로 출원된 중국 특허출원 제201910397253.X호를 우선권으로 주장하며, 이는 전체가 인용으로 본원에 포함된다.

본 출원은 인터넷의 기술 분야에 관한 것으로, 특히, 모델을 트레이닝시키기 위한 방법, 장치, 단말 및 저장 매체에 관한 것이다.

과학과 기술의 발달로, 컴퓨터 비전 기술은 현재 인기있는 연구 분야가 되었다. 시각적 객체 추적은 컴퓨터 비전 분야에서의 중요한 연구 방향이다. 소위 시각적 객체 추적은, 특정 이미지에서 추적 객체(tracked object)의 크기와 포지션을 알고 있는 경우 다른 이미지들에서 추적 객체의 크기와 포지션을 예측하는 것을 의미한다. 시각적 객체 추적은 일반적으로, 비디오 모니터링, 인간-기계 상호작용, 무인 운전 등과 같이 높은 실시간 성능을 요구하는 적용 시나리오에 적용가능하다. 예를 들어, 특정 비디오 시퀀스의 특정 이미지 프레임에서 추적 객체의 크기와 포지션이 주어지면, 비디오 시퀀스의 후속 이미지 프레임에서 추적 객체의 크기와 포지션이 예측된다.

본 출원의 실시예들은, 제1 객체 인식 모델을 보다 바람직하게 트레이닝시킬 수 있어, 업데이트 트레이닝을 통해 획득된 제1 객체 인식 모델이 보다 바람직한 시각적 객체 추적 성능을 갖게 되고 시각적 객체 추적 시나리오에 더 적절하게 되고, 이로써 시각적 객체 추적의 정확도를 개선시킬 수 있는, 모델을 트레이닝시키기 위한 방법, 장치, 단말 및 저장 매체를 제공한다.

일 양상에서, 본 출원의 실시예는, 컴퓨팅 디바이스에 의해 수행되는, 모델을 트레이닝시키기 위한 방법을 제공하며, 이 방법은,

트레이닝을 위해 템플릿 이미지(template image) 및 테스트 이미지를 취득하는 단계 ―템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용됨―;

템플릿 이미지에서 추적 객체의 특징(feature)을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고, 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계;

테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고, 그리고 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계;

추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하는 단계―추적 응답은 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 및

제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트하는 단계를 포함한다.

다른 양상에서, 본 출원의 실시예는 모델을 트레이닝시키기 위한 장치를 제공하며, 이 장치는,

트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하도록 구성된 취득 유닛 ―템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용됨―;

템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하고,

테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하고, 그리고

추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하도록 구성된 프로세싱 유닛 ―추적 응답은 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 및

제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트하도록 구성된 업데이트 유닛을 포함한다.

다른 양상에서, 본 출원의 실시예들은 단말을 제공한다. 단말은 입력 디바이스 및 출력 디바이스를 포함하고, 그리고 하나 이상의 명령들을 구현하도록 구성된 프로세서; 및 하나 이상의 명령들을 저장하는 컴퓨터 저장 매체를 더 포함하며, 하나 이상의 명령들은 다음의 단계들을 수행하기 위해 프로세서에 의해 로딩되도록 구성된다:

트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하는 단계 ―템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용됨―;

템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고, 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계;

추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하는 단계―추적 응답은 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용됨―;

제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트하는 단계.

또 다른 양상에서, 본 출원의 실시예는 하나 이상의 명령을 저장하는 컴퓨터 저장 매체를 제공하며, 하나 이상의 명령들은 다음의 단계들을 수행하기 위해 프로세서에 의해 로딩되도록 구성된다:

테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고, 및 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계;

본 출원의 실시예들에서의 기술적 솔루션들을 보다 명확하게 설명하기 위해, 이하에서는 실시예들을 설명하는 데 요구되는 첨부 도면들을 간략히 소개한다. 분명히, 하기 설명에서 첨부 도면들은 본 출원의 일부 실시예들만을 도시하며, 당업자는 창의적인 노력들 없이도 이러한 첨부 도면들으로부터 다른 도면들을 여전히 도출할 수 있다.
도 1a는 본 출원의 실시예에 따른 제1 객체 인식 모델에 기반한 시각적 객체 추적의 시나리오 다이어그램이다.
도 1b는 본 출원의 실시예에 따라 모델을 트레이닝시키기 위한 방법의 구현 환경의 개략적 다이어그램이다.
도 2는 본 출원의 실시예에 따라 모델을 트레이닝시키기 위한 방법의 개략적인 흐름도이다.
도 3a는 본 출원의 실시예에 따른 컨볼루셔널 뉴럴 네트워크(convolutional neural networ)의 구조 다이어그램이다.
도 3b는 본 출원의 실시예에 따라 추적 응답 및 추적 라벨을 결정하는 개략적 다이어그램이다.
도 4는 본 출원의 실시예에 따라 모델을 트레이닝시키기 위한 다른 방법의 개략적인 흐름도이다.
도 5는 본 출원의 실시예에 따라 제1 객체 인식 모델을 취득하는 개략적 다이어그램이다.
도 6은 본 출원의 실시예에 따른 제1 객체 인식 모델에 대한 공동 최적화(joint optimization)의 개략적 다이어그램이다.
도 7은 본 출원의 실시예에 따른 포지티브 샘플 및 네거티브 샘플을 취득하는 개략적 다이어그램이다.
도 8은 본 출원의 실시예에 따른 모델을 트레이닝시키기 위한 장치의 개략적 구조 다이어그램이다.
도 9는 본 출원의 실시예에 따른 단말의 개략적 구조 다이어그램이다.

다음은 본 출원의 실시예들에서 첨부된 도면들을 참조하여 본 출원의 실시예들에서의 기술적 솔루션들을 명확하고 완전하게 설명한다.

현재, 시각적 객체 추적은 주로 통상적인 이미지 프로세싱 모델을 채택하여 추적을 달성한다. 그러나, 본 발명자는 실제로, 통상적인 이미지 프로세싱 모델이 이미지 분류 작업들을 달성하도록 설계되었으며, 이미지 분류 데이터를 사용함으로써 트레이닝을 통해 획득된다는 것을 발견했다. 그러나, 시각적 객체 추적은 이미지 분류 작업을 위해 의도된 것은 아니다. 따라서, 통상적인 이미지 프로세싱 모델은 시각적 객체 추적 시나리오에 적용할 수 없어, 결과적으로 시각적 객체 추적의 정확도가 낮다.

본 출원의 실시예들은 제1 객체 인식 모델을 제공하고, 이는 VGG(Visual Geometry Group) 모델, GoogleNet 모델, ResNet(Deep Residual Network) 모델 등과 같이, 이미지 인식 기능을 갖는 이미지 인식 모델이다. 제1 객체 인식 모델은 이미지의 특징을 정확하게 추출할 수 있으며, 추출된 특징은 시각적 객체 추적 시나리오에 더 적절하다. 따라서, 제1 객체 인식 모델과 관련된 추적 알고리즘의 조합을 시각적 객체 추적 시나리오에 적용하는 것은, 시각적 객체 추적의 정확도와 실시간 성능을 개선시킬 수 있다.

구체적으로, 제1 객체 인식 모델 및 추적 알고리즘을 사용하여 시각적 객체 추적을 구현하는 것은 다음의 단계들을 포함할 수 있다: (1): 추적 객체를 포함하는 참조 이미지 및 프로세싱될 이미지를 취득한다. 추적 객체는, 추적될 필요가 있는 참조 이미지에서의 이미지 엘리먼트, 이를테면, 참조 이미지에서의 사람, 동물 등이다. 참조 이미지는 추적 객체의 마킹 정보를 포함할 수 있으며, 마킹 정보는 추적 객체의 크기 및 포지션을 지시하는 데 사용된다. 본 출원의 실시예에서, 마킹 정보는 도 1에서 101로 도시된 마킹 박스와 같은 마킹 박스의 형태로 표현될 수 있다. (2): 참조 이미지의 마킹 정보에 따라, 프로세싱될 이미지에 포함된 예측되는 추적 객체를 결정한다. 본원에서의 예측되는 추적 객체들은, 추적 객체일 수 있는 프로세싱될 이미지에서의 이미지 엘리먼트이다. 본 출원의 실시예에서는, (2)에서, 참조 이미지에서의 마킹 박스의 크기에 따라, 프로세싱될 이미지에 복수의 후보 박스들이 생성될 수 있다. 후보 박스들 각각은 예측되는 추적 객체를 표현한다. 예를 들어, 아래에서 도 1의 A, B 및 C는 3개의 결정된 예측되는 추적 객체를 지시한다. (3): 참조 이미지에서의 추적 객체를 인식하여 제1 인식 특징을 획득하기 위해 제1 객체 인식 모델을 호출한다. 제1 인식 특징은 추적 객체의 특징, 이를테면 추적 객체의 안면 윤곽 특징, 눈 특징, 자세 특징 등이다. (4): 프로세싱될 이미지에 포함된 예측되는 추적 객체들을 인식하여 제2 인식 특징들을 획득하기 위해 제1 객체 인식 모델을 호출한다. 제2 인식 특징들은 예측되는 추적 객체의 특징들, 이를테면 예측되는 추적 객체의 안면 윤곽 특징, 눈 특징, 코 특징, 자세 특징 등이다. (5): 제1 인식 특징 및 제2 인식 특징들에 기반하여, 추적할 타겟 특징을 결정하고, 그리고 프로세싱될 이미지에서의 추적 객체의 포지션을 획득하기 위해 추적 알고리즘을 사용하여 타겟 특징을 추적한다. 실시예에서, 추적 알고리즘은 상관 필터 추적 알고리즘, 이중 네트워크-기반 추적 알고리즘, 희소 표현-기반 알고리즘 등을 포함할 수 있다. 상관 필터 추적 알고리즘이 본 출원의 이 실시예에서 예로서 취해진다. 상관 필터 추적 알고리즘을 사용하여 타겟 특징이 추적된 후, 가우스-형상 응답 그래프가 획득된다. 응답 그래프에서 피크의 포지션은 프로세싱될 이미지에서의 추적 객체의 추적 포지션을 표현한다.

제1 인식 특징 및 제2 인식 특징들에 따라 결정되는 추적할 타겟 특징은 다음과 같이 이해될 수 있다: 추적 객체의 특징 및 예측되는 추적 객체들의 특징들을 분석함으로써, 예측되는 추적 객체가 예측되는 추적 객체들로부터 프로세싱될 이미지에 포함된 추적 객체로서 결정되고, 따라서 추적 알고리즘을 사용하여 프로세싱될 이미지에서의 추적 객체의 포지션을 획득함으로써, 예측되는 추적 객체의 특징을 후속적으로 프로세싱하여, 추적 객체의 추적을 완료한다. 실시예에서, 단계 (5)의 구현은, 제1 인식 특징과 제2 인식 특징들 사이의 매칭 레이트들을 스코어링하고, 그리고 가장 높은 매칭 스코어를 갖는 제2 인식 특징을 타겟 특징으로서 결정하는 것을 포함할 수 있다. 다른 실시예들에서, 단계 (5)의 구현은, 제2 인식 특징들을 융합하는 것 및 융합된 결과를 타겟 특징으로서 결정하는 것을 더 포함할 수 있다.

예를 들어, 도 1은 본 출원의 실시예에 따른 시각적 객체 추적의 시나리오를 도시한다. 101은 참조 이미지를 표현하고, 102는 프로세싱될 이미지, 1011은 마킹 박스 형태로 표현된 추적 객체의 마킹 정보를 표현한다. 마킹 박스(1101)의 크기는 참조 이미지에서의 추적 객체의 크기를 표현하고, 마킹 박스(1101)의 포지션은 참조 이미지에서의 추적 객체의 포지션을 표현한다. 103은 제1 객체 인식 모델을 표현한다. 마킹 박스(1011)에 따라, 프로세싱될 이미지(102)에 3개의 예측되는 추적 객체들(A, B, C)이 생성된다는 것이 가정된다. 제1 객체 인식 모델(103)은 1011을 인식하여 제1 인식 특징을 획득하기 위해 호출되고, 제1 객체 인식 모델은 3개의 예측되는 추적 객체들(A, B 및 C)을 인식하여 제2 인식 특징들을 획득하기 위해 호출된다. 추가로, 제1 인식 특징 및 3개의 제2 인식 특징들에 기반하여 타겟 특징이 결정된다. 예측되는 추적 객체(C)에 대응하는 제2 인식 특징이 타겟 특징으로 결정된다는 것이 가정된다. 그런 다음, 가우시안-형상 응답 그래프를 획득하기 위해, 상관 필터 추적 알고리즘과 같은 추적 알고리즘을 사용하여 타겟 객체가 추적된다. 104로 도시된 바와 같이, 응답 그래프에서의 피크 포인트는 프로세싱될 이미지에서의 추적 객체의 포지션을 표현한다.

상기 제1 객체 인식 모델에 기반하여, 본 출원의 실시예는 추가로, 모델을 트레이닝시키기 위한 방법을 제공하고, 이는, 제1 객체 인식 모델이 이미지로부터 특징을 정확하게 추출할 수 있고 그리고 추출된 특징이 추적 시나리오에 더 적절하도록 보장하기 위해, 제1 객체 인식 모델을 트레이닝시키는 데 사용된다. 구체적으로, 모델을 트레이닝시키는 방법은 단말과 같은 컴퓨팅 디바이스에 의해 수행될 수 있고, 구체적으로는 단말의 프로세서에 의해 수행될 수 있다. 단말은 스마트 단말, 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터 등을 포함할 수 있지만, 이에 제한되지 않는다.

도 1b는 본 출원의 실시예에 따라 모델을 트레이닝시키기 위한 방법의 구현 환경의 개략적 다이어그램이다. 본 출원의 임의의 실시예에서 제공되는 모델을 트레이닝시키기 위한 장치는, 단말 디바이스(10) 및 서버 디바이스(20)에 통합되어, 본 출원의 임의의 실시예에서 제공되는 모델을 트레이닝시키기 위한 방법을 구현한다.

도 2를 참조하면, 본 출원의 본 실시예에서 제공되는 모델을 트레이닝시키는 방법은 다음의 단계들(S201 내지 S205)을 포함할 수 있다:

단계 S201: 트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득한다.

템플릿 이미지 및 테스트 이미지는 모델을 트레이닝시키고 업데이트하는데 사용되는 이미지들이며, 이들 둘 다는 추적 객체를 포함한다. 템플릿 이미지는 추적 객체의 마킹 정보를 더 포함할 수 있다. 본원에서 추적 객체의 마킹 정보는 템플릿 이미지에서의 추적 객체의 크기 및 포지션을 표현하는 데 사용된다. 마킹 정보는 단말에 의해 템플릿 이미지에 대해 마킹될 수 있다. 테스트 이미지는 테스트 이미지에 대응하는 응답 라벨을 더 포함한다. 응답 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용된다. 마킹 포지션은, 단말에 의해 마킹되는 테스트 이미지에서의 추적 객체의 실제 포지션일 수 있다. 테스트 이미지는 추적 객체의 마킹 정보를 더 포함할 수 있다. 추적 객체의 마킹 정보는 테스트 이미지에 추적 객체의 크기 및 포지션을 지시하는 데 사용된다.

실시예에서, 템플릿 이미지 및 테스트 이미지는 동일한 비디오 시퀀스의 2개의 프레임들의 이미지들일 수 있다. 예를 들어, 추적 객체를 포함하는 비디오 시퀀스는 카메라를 사용하여 기록될 수 있으며, 추적 객체를 포함하는 비디오 시퀀스에서의 임의의 프레임의 이미지가 템플릿 이미지로 선택되고, 그리고 템플릿 이미지 이외의, 추적 객체를 포함하는 비디오 시퀀스에서의 프레임의 이미지가 테스트 이미지로 선택된다.

다른 실시예들에서, 템플릿 이미지와 테스트 이미지는 또한 동일한 비디오 시퀀스의 이미지들이 아닐 수 있다. 예를 들어, 템플릿 이미지는, 추적 객체를 포함하는 제1 캡처될 장면을 카메라 장치로 사진 촬영함으로써 획득되는 이미지일 수 있으며, 그리고 테스트 이미지는, 템플릿 이미지가 획득되기 이전 또는 이후에, 추적 객체를 포함하는 제2 캡처될 장면을 카메라 장치로 사진 촬영함으로써 획득되는 이미지로, 즉 템플릿 이미지 및 테스트 이미지는 2개의 독립적인 이미지들이다.

동일한 비디오 시퀀스의 이미지들은 일반적으로 시맨틱 컨텍스트(semantic context) 관계를 가지며, 따라서, 서로 독립적인 템플릿 이미지 및 테스트 이미지와 비교하여, 제1 객체 인식 모델의 트레이닝이 더 용이하고, 트레이닝을 통해 획득된 업데이트된 제1 객체 인식 모델의 더 바람직한 성능이 초래된다. 따라서, 본 출원의 실시예들에서, 템플릿 이미지와 테스트 이미지는 예를 들어 동일한 비디오 시퀀스에 있다.

단계 S202: 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출한다.

단계 S203: 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출한다.

제1 객체 인식 모델과 제2 객체 인식 모델 간의 유사점은 제1 객체 인식 모델과 제2 객체 인식 모델 둘 다 이미지 인식 기능을 갖는다는 점이다. 본 출원의 실시예에서, 컨볼루셔널 뉴럴 모델은, 그의 비교적 높은 특징 추출 성능으로 인해 현재 자주 사용되는 이미지 인식 모델이 되었기 때문에, 본 출원의 이 실시예에서 제1 객체 인식 모델 및 제2 객체 인식 모델은 각각, VGG 모델, GoogleNet 모델, ResNet 모델 등과 같은 컨볼루셔널 뉴럴 네트워크 모델일 수 있다. 제1 객체 인식 모델과 제2 객체 인식 모델 간의 차이점은 제2 객체 인식 모델이 업데이트된 이미지 인식 모델이거나 또는 이미지 인식을 위해 사용되는 사전-트레이닝되고 테스트된 모델이라는 점이며, 제1 객체 인식 모델은 업데이트될 이미지 인식 모델이다.

컨볼루셔널 뉴럴 네트워크 모델은 주로 이미지 인식, 안면 인식, 텍스트 인식 등에 적용할 수 있다. 컨볼루셔널 뉴럴 네트워크의 네트워크 구조가 도 3a에 도시될 수 있고, 이는 주로 컨볼루셔널 레이어(301), 풀링(pooling) 레이어(302), 완전 연결(fully connected) 레이어(303)를 포함한다. 각각의 컨볼루셔널 레이어는 풀링 레이어에 연결된다. 컨볼루셔널 레이어(301)는 주로 특징 추출에 사용된다. 샘플링 서브-레이어로 또한 지칭되는 풀링 레이어(302)는 주로 입력 데이터의 양을 감소시키도록 구성된다. 완전 연결 레이어(303)는 컨볼루셔널 레이어에 의해 추출되는 특징들에 따라 클래스들의 분류 값들을 계산하고, 최종적으로 클래스들 및 개개의 분류 값들을 출력한다. 제1 객체 인식 모델 및 제2 객체 인식 모델의 네트워크 구조들 각각은 또한 컨볼루셔널 레이어, 풀링 레이어 및 완전 연결 레이어를 포함한다는 것을 알 수 있다.

각각의 컨볼루셔널 뉴럴 네트워크 모델은 이미지의 상이한 특징들을 추출하는 것을 담당하는 복수의 컨볼루셔널 레이어들을 포함한다. 이전 컨볼루셔널 레이어에 의해 추출되는 특징은 그 다음 컨볼루셔널 레이어의 입력으로 사용된다. 컨볼루셔널 레이어들 각각에 의해 추출될 특징은 특정 기능에 따라 설정되거나 인위적으로 설정될 수 있다. 예를 들어, 그래픽들의 이미지 인식을 위해, 제1 컨볼루셔널 레이어는 그래프의 전체 형상 특징을 추출하도록 구성될 수 있고, 제2 컨볼루셔널 레이어는 그래프의 라인 특징을 추출하도록 구성될 수 있고, 그리고 제3 컨볼루셔널 레이어는 그래프의 불연속적인 특징을 추출하도록 구성될 수 있다. 다른 예로, 사람의 얼굴을 포함하는 이미지들의 인식을 위해, 제1 컨볼루셔널 레이어는 사람 얼굴의 윤곽선 특징을 추출하도록 구성될 수 있고, 제2 컨볼루셔널 레이어는 사람 얼굴의 5가지 감각 기관들의 특징들을 추출하도록 구성될 수 있다. 컨볼루셔널 레이어들 각각은 컨볼루셔널 계산을 위해 동일한 크기를 갖는 복수의 필터들을 포함한다. 필터들 각각은 필터 채널에 대응한다. 필터들 각각은 컨볼루셔널 계산 후에 한 그룹의 특징들을 획득한다. 따라서, 컨볼루셔널 레이어들 각각은 입력된 이미지를 인식하여 다차원 특징(multi-dimensional feature)들을 추출한다. 더 많은 컨볼루셔널 레이어들은 컨볼루셔널 뉴럴 네트워크 모델의 더 깊은 네트워크 구조 및 더 많은 추출된 특징들을 지시한다. 컨볼루셔널 레이어들 각각에 포함된 필터들이 많을수록 컨볼루셔널 레이어들 각각의 특징 차원이 더 높다는 것을 지시한다.

모델이 비교적 많은 수의 컨볼루셔널 레이어들 포함하고 그리고/또는 컨볼루셔널 레이어들 각각이 비교적 많은 수의 필터들을 포함하는 경우, 모델을 저장하기 위해 비교적 큰 저장 공간이 요구된다는 것이 이해되어야 한다. 비교적 큰 저장 공간을 요구하는 모델은 중량 모델(heavyweight model)로 지칭된다. 반대로, 모델이 몇 개의 컨볼루셔널 레이어들을 포함하고 그리고/또는 컨볼루셔널 레이어들 각각이 적은 필터들을 포함하는 경우, 모델을 저장하기 위해 비교적 큰 저장 공간은 요구되지 않는다. 비교적 작은 저장 공간을 요구하는 모델은 경량 모델(lightweight model)로 지칭된다.

본 출원의 실시예에서, 제1 객체 인식 모델 및 제2 객체 인식 모델 둘 다가 중량 모델일 수 있거나, 또는 제2 객체 인식 모델은 중량 모델이고 제1 객체 인식 모델은 제2 객체 인식 모델에 대해 모델 압축을 수행함으로써 획득되는 경량 모델이다. 제1 객체 인식 모델이 중량 모델인 경우, 업데이트된 제1 객체 인식 모델은 바람직한 인식 성능을 갖는 고-차원(high-dimension) 특징을 추출할 수 있다. 업데이트된 제1 객체 인식 모델을 시각적 객체 추적 시나리오에 적용함으로써, 추적 정확도가 개선될 수 있다. 제1 객체 인식 모델이 제2 객체 인식 모델에 대해 모델 압축을 수행함으로써 획득되는 경량 모델인 경우, 업데이트된 제1 객체 인식 모델은 제2 객체 인식 모델과 유사한 특징 추출 성능을 가지며, 보다 작은 저장 공간을 요구하기 때문에 모바일 디바이스들 및 다른 저전력-소비 제품에 효과적으로 적용된다. 또한, 업데이트된 제1 객체 인식 모델이 시각적 객체 추적 시나리오에 적용되면, 특징들이 신속하게 추출될 수 있어, 시각적 객체 추적의 실시간 성능이 구현될 수 있다. 실제 적용들에서, 제1 객체 인식 모델은 특정 시나리오 요건들에 따라 경량 모델 또는 중량 모델로 선택적으로 사용될 수 있다.

도 1의 실시예로부터, 시각적 객체 추적 분야에서, 추적 정확도에 영향을 미치는 주요 요인들 중 하나가 제1 객체 인식 모델에 의해 추출되는 특징이 정확한지의 여부라는 것을 알 수 있다. 제1 객체 인식 모델의 특징 추출은 주로 컨볼루셔널 레이어에 의존한다. 따라서, 본 출원의 이 실시예에서, 제1 객체 인식 모델을 업데이트한다는 것은 실제로, 제1 객체 인식 모델의 특징 추출 성능을 개선시키기 위해 제1 객체 인식 모델의 컨벌루션 레이어를 트레이닝시킨다는 것을 의미한다. 이에 기반하여, 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하는 단계(S202)는, 템플릿 이미지에서 추적 객체의 특징을 추출하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델에서 컨볼루셔널 레이어를 호출하는 것을 의미한다.

제1 참조 응답은 제1 객체 인식 모델에 의해 인식되는 템플릿 이미지에서의 추적 객체의 특징, 이를테면 크기, 형상, 윤곽 등을 표현하는 데 사용된다. 제1 참조 응답은 특징 맵을 사용하여 표현될 수 있다. 마찬가지로, 제2 참조 응답은 제2 객체 인식 모델에 의해 인식되는 템플릿 이미지에서의 추적 객체의 특징을 표현하는 데 사용된다. 제1 테스트 응답은 제1 객체 인식 모델에 의해 인식되는 테스트 이미지에서의 추적 객체의 특징을 표현하는 데 사용된다. 제2 테스트 응답은 제2 객체 인식 모델에 의해 인식되는 테스트 이미지에서의 추적 객체의 특징을 표현하는 데 사용된다.

실시예에서, 상기한 것으로부터, 템플릿 이미지가 추적 객체의 마킹 정보를 포함할 수 있다는 것을 알 수 있다. 마킹 정보가 제1 객체 인식 모델에 의해 인식될 필요가 있는 템플릿 이미지에서 추적 객체의 크기 및 포지션을 결정하는 데 사용될 수 있어, 제1 객체 인식 모델은 어느 것이 인식될 필요가 있는지를 정확하게 결정할 수 있다. 템플릿 이미지에서 추적 객체의 마킹 정보는 마킹 박스를 사용하여 표현될 수 있다. 본 출원의 실시예에서, 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하는 것은 템플릿 이미지의 마킹 정보를 사용하여 템플릿 이미지를 인식하기 위해 제1 객체 인식 모델을 호출하는 것을 의미할 수 있다. 예를 들어, 템플릿 이미지의 마킹 정보가 마킹 박스 형태로 표현된다는 것이 가정된다. 이 경우, 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하는 것은 템플릿 이미지에서 마킹 박스의 특징을 인식하는 것을 의미할 수 있다.

다른 실시예들에서, 템플릿 이미지가 추적 객체만을 포함하거나 또는 벽, 땅, 하늘 등과 같이, 추적 객체의 인식에 영향을 미치지 않는 배경 및 추적 객체를 포함하는 경우, 제1 객체 인식 모델은, 단말이 템플릿 이미지에 대한 추적 객체의 마킹 정보를 설정하는지 여부에 관계없이, 어느 것이 인식될 필요가 있는지를 정확하게 결정할 수 있다.

실시예에서, 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하는 구현은, 템플릿 이미지를 제1 객체 인식 모델의 입력으로서 사용하고, 그리고 제1 객체 인식 모델의 제1 컨볼루셔널 레이어에 의해, 템플릿 이미지에서 추적 객체의 제1 특징을 추출하기 위해 특정 크기의 복수의 필터들을 사용함으로써 템플릿 이미지에 대해 컨볼루셔널 컴퓨테이션을 수행하는 것; 제1 특징을 제2 컨볼루셔널 레이어의 입력으로 사용하고, 그리고 제2 컨볼루셔널 레이어에 의해, 템플릿 이미지에서 추적 객체의 제2 특징을 추출하기 위해 복수의 필터들을 사용함으로써 제1 특징에 대해 컨볼루셔널 컴퓨테이션을 수행하는 것; 및 제3 컨볼루셔널 레이어에 제2 특징을 입력하고, 그리고 제3 컨볼루셔널 레이어에 의해, 템플릿 이미지에서 추적 객체의 제3 특징을 획득하기 위해 복수의 필터들을 사용함으로써 제2 특징에 대해 컨벌루션 컴퓨테이션을 수행하는 것 등일 수 있다. 마지막 컨볼루셔널 레이어가 컨볼루셔널 컴퓨테이션을 완료했을 때 획득되는 출력 결과가 제1 참조 응답이다. 테스트 이미지를 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하는 것, 테스트 이미지를 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 것, 그리고 템플릿 이미지를 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 것의 구현들은 상기 구현과 동일할 수 있다. 세부사항들은 본원에서 일일이 설명되지 않는다.

단계 S204: 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적한다.

제1 객체 인식 모델이 시각적 객체 추적 시나리오에 적용가능하다는 것을 보장하기 위해, 제1 객체 인식 모델의 높은 특징 추출 성능을 보장할 뿐만 아니라, 추가로, 제1 객체 인식 모델에 의해 추출된 특징들이 추적 시나리오에 더 적용가능하다는 것, 즉, 추적 알고리즘에 더 적절하다는 것을 보장해야 한다. 이에 기반하여, 본 출원의 이 실시예에서 단계(S204)를 통해 제1 객체 인식 모델에 대한 추적 트레이닝이 구현된다.

실시예에서, 단계(S204)는, 추적 객체의 추적 응답을 획득하기 위해 추적 트레이닝 알고리즘을 사용하여 제1 테스트 응답을 추적하는 것을 포함할 수 있다. 추적 트레이닝 알고리즘은 제1 객체 인식 모델에 대한 추적 트레이닝에 사용되는 알고리즘이며, 이는 상관 필터 추적 알고리즘, 이중 네트워크-기반 추적 알고리즘, 희소 표현-기반 알고리즘 등을 포함할 수 있다. 추적 응답은, 추적 트레이닝 알고리즘 및 제1 테스트 응답에 따라 결정되는, 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용된다. 사실, 추적 포지션은, 추적 트레이닝 알고리즘 및 제1 테스트 응답에 따라 예측되는, 테스트 이미지에서의 추적 객체의 포지션으로 이해될 수 있다.

실시예에서, 추적 트레이닝 알고리즘이 상관 필터 추적 알고리즘인 경우, 추적 객체의 추적 응답을 획득하기 위해 추적 트레이닝 알고리즘을 사용하여 제1 테스트 응답을 추적하는 구현은, 가우시안-형상 응답 그래프를 획득하기 위해 추적 트레이닝 알고리즘을 사용하여 제1 테스트 응답을 추적하는 것, 그리고 가우시안-형상 응답 그래프에 따라 추적 응답을 결정하는 것일 수 있다. 본 출원의 실시예에서, 가우시안-형상 응답 그래프에 따라 추적 응답을 결정하는 구현은 추적 응답으로 사용되는 응답 그래프를 사용하는 것일 수 있다. 따라서, 응답 그래프는 테스트 이미지에서의 추적 객체의 추적 포지션을 반영할 수 있다. 구체적으로, 응답 그래프의 최대값 포인트 또는 피크 포인트는 테스트 이미지에서의 추적 객체의 추적 포지션으로 사용될 수 있다.

단계(S401)에서, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용된다. 마킹 포지션은, 단말에 의해 사전-마킹되는 테스트 이미지에서의 추적 객체의 실제 포지션일 수 있다. 실시예에서, 추적 라벨은 또한 가우시안-형상 응답 그래프일 수 있다. 응답 그래프에서 피크 포인트는 테스트 이미지에서 추적 객체의 실제 포지션을 지시한다.

예를 들어, 도 3b는 본 출원의 실시예에 따라 추적 응답 및 추적 라벨을 결정하는 개략적 다이어그램이다. 304는 테스트 이미지를 표현하고 3041은 추적 객체를 표현한다는 것이 가정된다. 테스트 이미지에 대해 단말에 의해 사전-마킹된 추적 라벨은 도 3b에서 306으로 도시될 수 있고, 306에서 피크 포인트(3061)는 테스트 이미지에서 추적 객체의 마킹 포지션을 표현한다. 제1 객체 인식 모델은 304를 인식하여 제1 테스트 응답을 획득하기 위해 호출된다. 그런 다음, 제1 테스트 응답은 예를 들어 305로 도시된 추적 응답을 획득하기 위해 상관 필터 추적 알고리즘과 같은 추적 트레이닝 알고리즘을 사용하여 추적된다. 305에서 피크 포인트(3051)는 테스트 이미지에서 추적 객체의 추적 포지션을 지시한다.

다른 실시예들에서, 다른 추적 트레이닝 알고리즘들이 제1 테스트 응답을 추적하기 위해 사용되는 경우, 추적 응답은 특정 추적 트레이닝 알고리즘의 특징에 따라 결정될 수 있다.

단계 S205: 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트한다.

상기한 것으로부터, 제1 참조 응답이 제1 객체 인식 모델에 의해 인식되는 템플릿 이미지에서의 추적 객체의 특징, 이를테면 크기, 형상, 윤곽 등을 표현하는 데 사용되고 그리고 제2 참조 응답이 제2 객체 인식 모델에 의해 인식되는 템플릿 이미지에서의 추적 객체의 특징을 표현하는 데 사용된다는 것을 알 수 있다. 따라서, 제1 참조 응답과 제2 참조 응답 간의 차이 정보는 템플릿 이미지에 대해 특징 추출을 수행함으로써 제1 객체 인식 모델과 제2 객체 인식 모델에 의해 추출된 특징들 간의 차이를 포함할 수 있다는 것을 알 수 있다.

실시예에서, 특징들 간의 차이는 특징들 간의 거리로 표현될 수 있다. 예를 들어, 제1 참조 응답은 제1 객체 인식 모델에 의해 인식되는, 템플릿 이미지에서의 추적 객체의 안면 윤곽(이는 안면 윤곽 1로 표시됨)을 포함하고, 그리고 제2 참조 응답은 제2 객체 인식 모델에 의해 인식되는, 템플릿 이미지에서의 추적 객체의 안면 윤곽(이는 얼굴 윤곽 2로 표시됨)을 포함한다는 것이 가정된다. 이 경우, 제1 참조 응답과 제2 참조 응답 간의 차이 정보는 안면 윤곽 1과 안면 윤곽 2 간의 거리를 포함할 수 있다. 다른 실시예들에서, 특징들 간의 차이는 또한, 특징들 간의 유사도 값으로 표현될 수 있다. 유사도 값이 클수록 특징들 간의 차이가 작다는 것을 지시하고, 유사도 값이 작을수록 특징들 간의 차이가 크다는 것을 지시한다.

마찬가지로, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보는 테스트 이미지에 대해 특징 추출을 수행함으로써 제1 객체 인식 모델과 제2 객체 인식 모델에 의해 추출된 특징들 간의 차이를 포함할 수 있다는 것을 알 수 있다. 단계(S204)로부터, 추적 라벨과 추적 응답 간의 차이 정보는 테스트 이미지에서의 추적 객체의 마킹 포지션과 추적 포지션 간의 거리를 반영한다는 것을 알 수 있다.

특정 구현 동안, 제1 객체 인식 모델에 대응하는 손실 최적화 함수의 값이 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 결정될 수 있고, 그런 다음 손실 최적화 함수의 값이 최소화되는 방식으로 제1 객체 인식 모델이 업데이트된다. 본원에서의 업데이트는 제1 객체 인식 모델에서 모델 파라미터들을 업데이트하는 것을 의미한다. 제1 객체 인식 모델의 모델 파라미터들은 그래디언트 파라미터들, 가중치 파라미터들 등을 포함할 수 있지만, 이에 제한되지 않는다.

본 출원의 이 실시예에서, 제2 객체 인식 모델을 사용하여 제1 객체 인식 모델을 트레이닝하는 동안, 제1 객체 인식 모델 및 제2 객체 인식 모델이 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답 및 제2 참조 응답을 획득하기 위해 각각 먼저 호출되고, 그런 다음, 제1 객체 인식 모델 및 제2 객체 인식 모델이 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답 및 제2 테스트 응답을 획득하기 위해 각각 호출된다. 추가로, 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답이 추적된다. 따라서, 제2 객체 인식 모델에 비해 제1 객체 인식 모델의 특징 추출 성능 손실은 제1 참조 응답과 제2 참조 응답 간의 차이 정보 및 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보에 따라 결정될 수 있고, 그리고 제1 객체 인식 모델의 추적 성능 손실은 추적 라벨과 추적 응답 간의 차이 정보에 따라 결정될 수 있다. 제1 객체 인식 모델이 제1 객체 인식 모델의 특징 추출 성능 손실 및 추적 성능 손실을 기반으로 업데이트되어, 업데이트된 제1 객체 인식 모델이 제2 객체 인식 모델과 동일하거나 비교적 유사한 특징 추출 성능을 갖고 그리고 추출된 특징들이 시각적 객체 추적 시나리오에 더 적절하여, 시각적 객체 추적의 정확도가 개선된다.

도 4는 본 출원의 실시예에 따라 모델을 트레이닝시키기 위한 다른 방법의 개략적인 흐름도이다. 모델을 트레이닝시키기 위한 방법은 단말과 같은 컴퓨팅 디바이스에 의해 수행될 수 있다. 본원에서 단말은 스마트 단말, 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터 등을 포함할 수 있지만, 이에 제한되지 않는다. 도 4를 참조하면, 모델을 트레이닝시키기 위한 방법은 다음의 단계들(S401 내지 S408)을 포함할 수 있다:

단계 S401: 제2 객체 인식 모델을 취득하고, 그리고 제2 객체 인식 모델을 트리밍하여 제1 객체 인식 모델을 획득한다.

본 출원의 실시예에서, 제2 객체 인식 모델은 이미지 인식을 위한 트레이닝된 중량 모델이고, 제1 객체 인식 모델은 이미지 인식을 위한 트레이닝될 경량 모델이다. 상기한 것으로부터, 제2 객체 인식 모델에 대해 모델 압축을 수행함으로써 경량 제1 객체 인식 모델이 획득될 수 있다는 것을 알 수 있다. 시각적 객체 추적 분야에 경량 제1 객체 인식 모델이 적용되는 경우, 실시간 시각적 객체 추적이 달성될 수 있다. 모델 압축은, 트레이닝된 중량 모델을 시간 및 공간에 있어 압축하여 중량 모델에 포함된 어떤 중요하지 않은 필터들 또는 파라미터들을 제거해서 특징 추출 속도를 개선시키는 것을 의미한다. 본 출원의 이 실시예에서, 모델 압축은 모델 트리밍 및 모델 트레이닝을 포함할 수 있다. 모델 트리밍은, 제1 객체 인식 모델을 획득하기 위해, 제2 객체 인식 모델의 네트워크 구조가 모델에 포함된 필터들 및 특징 채널들을 트리밍함으로써 감소될 수 있다는 것을 의미한다. 모델 트레이닝은, 트레이닝을 위해 사용되는 템플릿 이미지 및 테스트 이미지와 제2 객체 인식 모델을 사용함으로써, 전이 학습 기술(transfer learning technology)을 기반으로, 트리밍된 제1 객체 인식 모델을 업데이트하여, 제1 객체 인식 모델이 제2 객체 인식 모델과 동일하거나 유사한 특징 인식 성능을 갖도록 한다는 것을 의미한다.

전이 학습 기술은 모델의 성능을 다른 모델로 전이하는 것을 의미한다. 본 출원의 이 실시예에서, 전이 학습은, 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하고 그리고 제2 참조 응답을 감독 라벨(supervisory label)로 사용함으로써 제1 객체 인식 모델을 트레이닝시켜 템플릿 이미지에서 추적 객체의 특징을 인식하기 위해 제2 객체 인식 모델을 호출하는 것, 그리고 그런 다음, 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하고 그리고 제2 테스트 응답을 감독 라벨로 사용함으로써 제1 객체 인식 모델을 트레이닝시켜 테스트 이미지에서 추적 객체의 특징을 인식하기 위해 제2 객체 인식 모델을 호출하는 것을 의미한다. 티처-스튜던트(teacher-student) 모델은 전이 학습 기술을 기반으로 하는 전형적인 모델 압축 방식이다. 본 출원의 이 실시예에서, 제2 객체 인식 모델은 티처 모델(teacher model)과 동등하고, 제1 객체 인식 모델은 스튜던트 모델(student model)과 동등하다.

실시예에서, 제2 객체 인식 모델을 포함하는 필터들을 트리밍하여 제1 객체 인식 모델을 획득하는 것은, 제2 객체 인식 모델에서 각각의 컨볼루셔널 레이어에 포함된 필터들의 수를 특정 수만큼 감소시키고 그리고/또는 각각의 컨볼루셔널 레이어에 해당하는 특징 채널들의 수를 해당하는 수만큼 감소시키는 것을 의미한다. 예를 들어, 제2 객체 인식 모델의 각각의 컨볼루셔널 레이어에 있는 필터들 및 특징 채널들의 수는 5분의 3, 8분의 7 또는 다른 수만큼 감소된다. 실습에 의해 증명된 바와 같이, 제2 객체 인식 모델에서 각각의 컨볼루셔널 레이어에 포함된 필터들의 수 및 각각의 컨볼루셔널 레이어에 대응하는 특징 채널들의 수는, 트레이닝 및 업데이트를 통해 바람직한 제1 객체 인식 모델을 획득하기 위해, 8분의 7만큼 감소될 수 있다. 예를 들어, 도 5는 본 출원의 실시예에 따라 제1 객체 인식 모델을 획득하기 위해 제2 객체 인식 모델을 트리밍하는 개략도이다. 상기 방법을 사용하여 제2 객체 인식 모델을 트리밍하는 것은 컨볼루셔널 레이어만을 수반한다는 것이 이해되어야 한다. 따라서, 설명의 편의를 위해 도 5에서는 제1 객체 인식 모델 및 제2 객체 인식 모델의 컨벌루션 레이어만이 도시된다. 제2 객체 인식 모델이 VGG-8 모델이라는 것이 가정된다. 상기한 것으로부터, 제1 객체 인식 모델이 또한 VGG-8 모델이라는 것을 알 수 있다. VGG-8 모델은 5개의 컨볼루셔널 레이어들을 포함한다. 501은 제2 객체 인식 모델의 컨볼루셔널 레이어를 표현하고, 502는 제1 객체 인식 모델의 컨볼루셔널 레이어를 표현하고, 그리고 503은 제2 객체 인식 모델의 컨볼루셔널 레이어들 각각에 포함된 필터들의 수, 특징 채널들의 수 및 필터들의 크기들을 표현한다. 위의 설명에 기반하여, 제2 객체 인식 모델의 컨볼루셔널 레이어들 각각에 포함된 필터들의 수 및 특징 채널들의 수는, 504에 도시된 바와 같이, 제1 객체 인식 모델의 컨볼루셔널 레이어들 각각에서의 필터들의 수, 특징 채널들의 수 및 필터들의 크기들을 획득하기 위해 8분의 7만큼 감소된다.

단계 S402: 트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하며, 템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용된다.

단계 S403: 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출한다.

단계 S404: 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출한다.

단계 S405: 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적한다.

실시예에서, 단계(S405)의 구현은, 추적 객체의 추적 응답을 획득하기 위해 추적 트레이닝 알고리즘을 사용하여 제1 테스트 응답을 추적하는 것을 포함할 수 있다. 추적 트레이닝 알고리즘은 추적 알고리즘 파라미터를 포함할 수 있다. 추적 객체에 대해 테스트 이미지에서 추적 응답을 획득하기 위해 추적 트레이닝 알고리즘을 사용하여 제1 테스트 응답을 추적하는 구현은, 제1 테스트 응답을, 계산을 위한 알려진 추적 알고리즘 파라미터로 추적 트레이닝 알고리즘에 대입하는 것, 그리고 계산된 결과에 따라 추적 응답을 결정하는 것일 수 있다. 본 출원의 이 실시예에서 추적 트레이닝 알고리즘의 추적 알고리즘 파라미터는 제2 객체 인식 모델 및 템플릿 이미지에 따라 추적 트레이닝 알고리즘을 트레이닝함으로써 획득된다. 예를 들어, 추적 트레이닝 알고리즘은 상관 필터 추적 알고리즘이다. 상관 필터 추적 알고리즘의 추적 알고리즘 파라미터를 획득하기 위해 제2 객체 인식 모델 및 템플릿 이미지를 사용하여 추적 트레이닝 알고리즘을 트레이닝시키는 프로세스가 아래에서 설명된다. 상관 필터 추적 알고리즘의 추적 알고리즘 파라미터는 상관 필터 파라미터의 필터 파라미터이고, 상관 필터 추적 알고리즘을 트레이닝시키는 프로세스는 단계들(S11-13)을 포함할 수 있다.

단계 S11: 템플릿 이미지에 따라 트레이닝 샘플을 생성하고 트레이닝 샘플에 대응하는 추적 라벨을 취득한다.

실시예에서, 템플릿 이미지는 추적 객체 및 추적 객체에 대응하는 추적 라벨을 포함하고, 템플릿 이미지에 따라 생성된 트레이닝 샘플은 또한 추적 객체를 포함한다. 템플릿 이미지에 포함된 추적 객체에 대응하는 추적 라벨은 템플릿 이미지에서의 추적 객체의 실제 포지션일 수 있으며, 이는 단말에 의해 사전에 라벨링될 수 있다. 본 출원의 실시예에서, 트레이닝 샘플은 다음과 같은 방식으로 템플릿 이미지에 따라 생성될 수 있다: 템플릿 이미지에서 추적 객체를 포함하는 이미지 블록을 트리밍하고, 그리고 트레이닝 샘플을 획득하기 위해 이미지 블록에 대해 순환 시프트를 수행한다. 트레이닝 샘플에 대응하는 추적 라벨은 템플릿 이미지에 포함된 추적 라벨 및 순환 시프트 동작의 정도에 따라 결정된다.

순환 시프트가 다음과 같은 방식으로 템플릿 이미지에 대해 수행될 수 있다: 템플릿 이미지의 이미지 블록을 픽셀화하고 그리고 추적 객체를 표현하는 데 사용되는 픽셀들을 결정한다. 픽셀들은 추적 객체의 픽셀 매트릭스를 형성하고, 그리고 복수의 새로운 픽셀 매트릭스들을 획득하기 위해, 픽셀 매트릭스의 각 행마다 순환 시프트가 수행된다. 상기 순환 쉬프트 동안, 각각의 픽셀의 값은 변경되지 않고 픽셀의 포지션만이 변경된다. 픽셀의 값이 변경되지 않기 때문에, 순환적으로 시프트된 매트릭스가 추적 객체를 표현하는 데 계속 사용된다. 픽셀의 포지션이 변경되기 때문에, 새로운 픽셀 매트릭스에 의해 렌더링되는 추적 객체의 포지션이 변경된다.

픽셀 매트릭스의 각각의 행에 대해 수행되는 순환 시프트는, 픽셀 매트릭스의 각각의 행을 n×1 벡터로 표현하는 것(벡터의 각각의 벡터 엘리먼트는 픽셀에 대응함); 및 n×1 벡터의 픽셀들을 오른쪽으로 또는 왼쪽으로 연속적으로 이동시키는 것(각각의 이동 후에, 벡터들의 새로운 세트가 획득됨)을 포함할 수 있다.

단계 S12: 트레이닝 샘플의 특징을 추출하여 트레이닝 샘플에서 추적 객체의 특징을 획득하기 위해 제2 객체 인식 모델을 호출한다.

복수의 트레이닝 샘플들의 특징들을 추출하기 위해 제2 객체 인식 모델을 호출하는 것은 실제로, 트레이닝 샘플의 특징들을 추출하기 위해 제2 객체 인식 모델의 컨볼루셔널 레이어를 호출하는 것을 의미한다. 제2 객체 인식 모델은, 각각이 컨볼루셔널 컴퓨테이션에 사용되는 복수의 필터들을 포함하는 복수의 컨볼루셔널 레이어들을 포함한다. 따라서, 컨볼루셔널 레이어들 각각에 의해 추출되는 특징들은 다차원적이며, 그리고 컨볼루셔널 레이어들 각각에 의해 추출되는 다차원 특징들은, 컨볼루셔널 레이어들 중 마지막 하나의 것의 출력이 획득될 때까지 컨볼루셔널 레이어들의 그 다음 컨볼루셔널 레이어의 입력으로 연속적으로 사용된다. 예를 들어, 제2 객체 인식 모델은 5개의 컨볼루셔널 레이어들을 포함한다. 5개의 컨볼루셔널 레이어들이 트레이닝 샘플에 대해 특징 추출을 수행한 후, 차원(D)을 갖는 트레이닝 샘플의 특징을 획득된다. 이 제2 객체 인식 모델에 의해 추출된 차원 특징을 표현하면, 제2 객체 인식 모델에 의해 추출된 트레이닝을 위한 최종 특징은 이다.

단계 S13: 상관 필터 파라미터를 결정하기 위한 능선 회귀(ridge regression) 방정식을 취득하고, 그리고 상관 필터 파라미터를 획득하기 위해 능선 회귀 방정식의 해를 취득한다.

상관 필터 추적 알고리즘의 작동 원리는, 추적 객체를 포함하는 이미지의 특징을 추출하는 것; 응답 그래프를 획득하기 위해, 추출된 특징 및 상관 필터에 대해 컨볼루셔널 컴퓨테이션을 수행하는 것, 그리고 응답 그래프로부터 이미지에서의 추적 객체의 포지션을 결정하는 것을 포함한다. 컨볼루셔널 컴퓨테이션은 2개의 동일한 수량들 사이에서만 수행될 수 있으므로, 상관 필터의 차원 및 트레이닝 샘플의 특징의 차원이 동일하다는 것을 보장할 필요가 있다. 상관 필터 추적 알고리즘에 대응하는 능선 회귀 방정식은 방정식 (1)과 같이 표현될 수 있다:

은 컨볼루셔널 컴퓨테이션을 표현하고, D는 제2 객체 인식 모델에 의해 추출된 트레이닝 샘플의 특징의 차원을 표현하고, 는 상관 필터의 i-차원 필터 파라미터를 표현하고, x는 트레이닝 샘플을 표현하고, y는 트레이닝 샘플 x의 추적 라벨을 표현하고, 은 트레이닝 샘플 x의 i-차원 특징을 표현하고, 그리고 λ는 정규화 계수를 표현한다.

방정식 (1)에 도시된 능선 회귀 방정식을 최소화함으로써, 상관 필터의 모든 차원들의 필터 파라미터들이 획득될 수 있다. 구체적으로, 방정식 (1)이 최소화되고 방정식 (1)의 해가 주파수 도메인에서 취득되어, 상관 필터의 모든 차원들의 필터 파라미터들이 획득된다. 주파수 도메인에서 필터 파라미터를 취득하기 위한 방정식은 d-차원 필터 파라미터를 취득하는 예를 사용하여 설명된다. d-차원 필터 파라미터를 취득하기 위한 방정식은 (2)로 표현된다:

방정식 (2)에서,는 d차 컨볼루셔널 레이어에 대응하는 상관 필터 파라미터를 표현하고, 은 점 곱셈 연산(point multiplication operation)을 표현하고, 은 이산 푸리에 변환을 표현하고, 그리고 은 복소수 켤레 연산을 표현한다. 상관 필터의 모든 차원들의 필터 파라미터들은 방정식 (2)에 따라 계산될 수 있으며, 모든 차원들의 필터 파라미터들은 상관 필터 추적 알고리즘의 필터 파라미터를 구성한다.

단계들(S11 내지 S13)을 통해 상관 필터 추적 알고리즘을 트레이닝시킴으로써 상관 필터의 필터 파라미터가 획득된 후, 테스트 이미지에서 추적 객체에 대한 추적 응답을 획득하기 위해, 제1 테스트 응답이 상관 필터 추적 알고리즘에 기반하여 추적될 수 있다. 구체적으로, 테스트 이미지에서 추적 객체에 대한 추적 응답을 획득하기 위해, 상관 필터 추적 알고리즘을 사용하여 제1 테스트 응답을 추적하는 것은 방정식 (3)으로 표현될 수 있다:

방정식 (3)에서, w는 상관 필터의 필터 파라미터를 표현하고, 은 제1 테스트 응답을 표현하고, 은 역 이산 푸리에 변환을 표현하고, 그리고 r은 추적 응답을 표현한다.

단계 S406: 제1 객체 인식 모델에 대응하는 손실 최적화 함수를 취득한다.

제1 객체 인식 모델 및 제2 객체 인식 모델이 동일하거나 유사한 특징 추출 성능을 갖는다는 것을 그리고 제1 객체 인식 모델에 의해 추출된 특징들이 시각적 추적 시나리오에 더 적절하다는 것을 보장하기 위해, 본 출원의 실시예는 제1 객체 인식 모델에 대한 특징 인식 손실 및 추적 손실의 공동 최적화를 제공한다. 제1 객체 인식 모델에 대한 공동 최적화 동안, 제1 객체 인식 모델에 대응하는 손실 최적화 함수는 방정식 (4)로 표현될 수 있다:

방정식 (4)에서, L _recognition은 특징 인식 손실을 표현하며, L _tracking은 추적 손실을 표현하며, λ는 제1 객체 인식 모델의 최적화를 위한 특징 인식 손실 및 추적 손실의 중요성을 지시하는 파라미터를 표현하고, 여기서, 파라미터의 값은 0-1의 범위에 있을 수 있고, λ가 클수록 추적 손실이 제1 객체 인식 모델의 손실 최적화에 미치는 영향이 더 크다는 것을 지시하고, 은 제1 객체 인식 모델의 네트워크 파라미터를 표현하고, 는 정규화 계수를 표현하고, 그리고 은 제1 객체 인식 모델이 과적합(overfitting)되는 것을 방지한다.

단계 S407: 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 손실 최적화 함수의 값을 결정한다.

단계(S406)로부터, 제1 객체 인식 모델의 손실 최적화 함수가 특징 인식 손실 함수 및 추적 손실 함수를 포함한다는 것을 알 수 있다. 단계(S407)에서 손실 최적화 함수의 값을 결정하는 동안, 특징 인식 손실 함수의 값 및 추적 손실 함수의 값이 먼저 결정될 수 있고, 그런 다음, 최적화 손실 함수의 값은 특징 인식 손실 함수의 값 및 추적 손실 함수의 값에 따라 결정될 수 있다.

구체적으로, 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 그리고 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 손실 최적화 함수의 값을 결정하는 것은, 특징 인식 손실 함수를 취득하고 그리고 제1 참조 응답과 제2 참조 응답 간의 차이 정보 및 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보에 기반하여, 특징 인식 손실 함수의 값을 결정하는 것; 추적 손실 함수를 획득하고 그리고 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 추적 손실 함수의 값을 결정하는 것; 및 특징 인식 손실 함수의 값 및 추적 손실 함수의 값에 기반하여 손실 최적화 함수의 값을 결정하는 것을 포함한다.

특징 손실 인식 함수의 값에 관한 세부사항들: 상기한 것으로부터, 제1 참조 응답이 제1 객체 인식 모델에 의해 인식되는 템플릿 이미지에서의 추적 객체의 특징을 표현하는 데 사용된다는 것, 그리고 제2 참조 응답이 제2 객체 인식 모델에 의해 인식되는 템플릿 이미지에서의 추적 객체의 특징을 표현하는 데 사용된다는 것을 알 수 있다. 제1 참조 응답과 제2 참조 응답 간의 차이 정보는, 템플릿 이미지에 대해 특징 추출을 수행함으로써 제1 객체 인식 모델 및 제2 객체 인식 모델에 의해 추출되는 특징들 간의 차이를 반영한다. 이 차이는 거리로 표현될 수 있는데, 즉, 제1 참조 응답과 제2 참조 응답 간의 차이 정보는 제1 참조 응답과 제2 참조 응답 간의 거리를 포함한다.

유사하게, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보는 제1 테스트 응답과 제2 테스트 응답 사이의 거리를 포함한다. 특징 인식 손실 함수는, 제1 객체 인식 모델과 제2 객체 인식 모델이 동일하거나 유사한 특징 추출 성능을 갖도록, 상기 특징들 간의 거리를 제한하는 것을 의미한다. 따라서, 특징 손실 최적화 함수는, 테스트 이미지에 대한 특징 인식 손실 및 템플릿 이미지에 대한 특징 인식 손실의 두 가지 손실 부분들을 포함한다는 것을 알 수 있다.

테스트 이미지에 대한 특징 인식 손실의 손실 값은, 제1 참조 응답과 제2 참조 응답 간의 거리에 따라 결정되고, 참조 이미지에 대한 특징 인식 손실의 손실 값은 제1 테스트 응답 및 제2 테스트 응답에 따라 결정된다. 특징 인식 손실 함수의 값은 테스트 이미지의 특징 인식 손실의 손실 값 및 템플릿 이미지의 인식 손실의 손실 값을 특징 인식 손실 함수에 대입함으로써 계산될 수 있다. 예를 들어, 특징 인식 손실 함수는 방정식 (5)로 표현될 수 있다:

L _recognition은 특징 인식 손실 함수를 표현하고, L _reference은 템플릿 이미지에 대한 특징 인식 손실을 표현하고, L _test은 테스트 이미지에 대한 특징 인식 손실을 표현하고, 은 제1 참조 응답을 표현하고, 은 제2 참조 응답을 표현하고, 은 제1 테스트 응답을 표현하고, 그리고 은 제2 테스트 응답을 표현한다.

추적 손실 함수의 값에 대한 세부사항들: 추적 라벨과 추적 응답 간의 차이는 추적 응답과 추적 라벨 간의 유클리드 거리를 반영한다. 제1 객체 인식 모델의 추적 성능은 추적 라벨과 추적 응답 간의 유클리드 거리를 제한함으로써 최적화된다. 추적 응답과 추적 라벨 간의 유클리드 거리를 추적 손실 함수에 대입함으로써, 추적 손실 함수의 값이 획득될 수 있다. 예를 들어, 추적 손실 함수는 방정식 (6)으로 표현될 수 있다:

L _tracking은 추적 손실 함수를 표현하고, r은 추적 응답을 표현하고, 그리고 는 추적 라벨을 표현한다. r은 방정식 (7)을 사용하여 획득될 수 있다. 방정식 (7)에서, w는 추적 트레이닝 알고리즘의 필터 파라미터를 표현하며, 이는 상기 단계들(S11 내지 S13)을 통해 획득될 수 있다.

제1 객체 인식 모델은 복수의 컨볼루셔널 레이어들을 포함하고, 제1 테스트 응답은 제1 객체 인식 모델의 컨볼루셔널 레이어들에 의해 테스트 이미지를 인식함으로써 획득되는 서브-테스트 응답을 융합함으로써 획득된다는 것이 이해되어야 한다. 예를 들어, 제1 객체 인식 모델이 제1 컨볼루셔널 레이어, 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어를 포함한다고 가정하면, 제1 테스트 응답은 제1 컨볼루셔널 레이어에 대응하는 제1 테스트 서브-응답, 제2 컨볼루셔널 레이어에 대응하는 제2 테스트 서브-응답, 및 제3 컨볼루셔널 레이어에 대응하는 제3 테스트 서브-응답을 융합함으로써 획득된다. 제1 객체 인식 모델에 의해 추출되는 특징들이 시각적 객체 추적 시나리오에 더 적절하도록 보장하기 위해, 제1 객체 인식 모델에 대해 다중-스케일 추적 손실 최적화가 수행될 수 있다.

본 출원의 실시예에서, 다중-스케일 추적 손실 최적화는, 제1 객체 인식 모델의 복수의 컨볼루셔널 레이어들의 추적 손실 값들 계산한 다음, 복수의 컨볼루셔널 레이어들의 추적 손실 값들에 따라 제1 객체 인식 모델의 추적 손실 함수의 값을 결정하는 것을 의미한다. 구체적으로, 제1 객체 인식 모델이 제1 컨볼루셔널 레이어, 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어를 포함한다고 가정하여, 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 추적 손실 함수의 값을 결정하는 것은, 제1 컨볼루셔널 레이어에 대응하는 제1 추적 라벨과 제1 테스트 서브-응답을 추적함으로써 획득된 제1 추적 응답 간의 차이 정보에 기반하여 제1 컨볼루셔널 레이어의 추적 손실 값을 결정하는 것; 제2 컨볼루셔널 레이어에 대응하는 제2 추적 라벨과 제2 테스트 서브-응답을 추적함으로써 획득된 제2 추적 응답 간의 차이 정보에 기반하여 제2 컨볼루셔널 레이어의 추적킹 손실 값을 결정하는 것; 제3 컨볼루셔널 레이어에 대응하는 제3 추적 라벨과 제3 테스트 서브-응답을 추적함으로써 획득된 제3 추적 응답 간의 차이 정보에 기반하여 제3 컨볼루셔널 레이어의 추적 손실 값을 결정하는 것; 및 제1 컨볼루셔널 레이어에 대응하는 추적 손실 값, 제2 컨볼루셔널 레이어에 대응하는 추적 손실 값, 및 제3 컨볼루셔널 레이어에 대응하는 추적 손실 값에 대해 다중-스케일 융합을 수행하여, 추적 손실 함수의 값을 획득하는 것을 포함한다.

제1 추적 서브-응답, 제2 추적-서브 응답, 및 제3 추적-서브 응답은, 추적 트레이닝 알고리즘을 사용하여, 제1 컨볼루셔널 레이어에 대응하는 제1 테스트 서브-응답, 제2 컨볼루셔널 레이어에 대응하는 제2 테스트 서브-응답, 및 제3 컨볼루셔널 레이어에 대응하는 제3 테스트 서브-응답을 추적함으로써 획득될 수 있다. 상이한 컨볼루셔널 레이어에 의해 추출되는 특징들이 상이하기 때문에 제1 추적 서브-응답, 제2 추적 서브-응답 및 제3 추적 서브-응답은 상이한 해상도들을 갖는다. 추적 트레이닝 알고리즘을 사용하여 상이한 컨볼루셔널 레이어의 테스트 서브-응답을 추적하는 동안, 상이한 추적 알고리즘 파라미터들이 사용된다. 특정 컨볼루셔널 레이어에 대한 추적 알고리즘 파라미터는, 대응하는 컨볼루셔널 레이어에 대응하는 템플릿 이미지 및 제2 객체 인식 모델을 사용함으로써 트레이닝을 통해 획득된다. 구체적인 트레이닝 프로세스에 대해서는, 단계들(S11 내지 S13)을 참조하고, 세부사항들이 여기서 다시 설명되지 않는다.

제1 객체 인식 모델에 포함된 복수의 컨벌루셔널 레이어들이 연결 순서대로 함께 연결된다는 것이 이해되어야 한다. 위에서 설명된 제1 컨볼루셔널 레이어, 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어는 제1 객체 인식 모델의 컨볼루셔널 레이어들 중 임의의 3개일 수 있다. 대안적으로, 제1 컨볼루셔널 레이어는 연결 순서대로 지시된, 컨볼루셔널 레이어들 중 첫 번째 레이어이고, 제3 컨볼루셔널 레이어는 연결 순서대로 지시된, 컨볼루셔널 레이어들 중 마지막 컨볼루셔널 레이어이고, 그리고 제2 컨볼루셔널 레이어는 컨볼루셔널 레이어들 중 첫 번째 레이어와 컨볼루셔널 레이어들 중 마지막 컨볼루셔널 레이어가 아닌, 컨볼루셔널 레이어들 중 임의의 컨볼루셔널 레이어이다. 이 경우, 제1 컨볼루셔널 레이어는 제1 객체 인식 모델의 상위-레벨(high-level) 컨볼루셔널 레이어로 지칭될 수 있고, 제2 객체 인식 모델은 제1 객체 인식 모델의 중간-레벨(intermediate-level) 컨볼루셔널 레이어로 지칭될 수 있고, 그리고 제3 컨볼루셔널 레이어는 제1 객체 인식 모델의 하위-레벨(low-level) 컨볼루셔널 레이어로 지칭될 수 있다. 실습에 의해 증명된 바와 같이, 5개의 컨볼루셔널 레이어들만을 갖는 제1 객체 인식 모델의 경우, 연결 순서대로 지시된 첫 번째 컨볼루셔널 레이어, 마지막 컨볼루셔널 레이어 그리고 두 번째 컨볼루셔널 레이어가 다중-스케일 추적 손실 최적화를 위해 선택되어, 제1 객체 인식 모델에 의해 추출되는 특징들은 추적 시나리오에 더 적절해질 수 있다.

다중-스케일 추적 손실 최적화의 경우, 상기 방정식 (6)은 방정식 (8)과 방정식 (9)로 변경될 수 있다:

은 제1 객체 인식 모델의 차 컨볼루셔널 레이어를 표현하고, 은 추적 알고리즘을 사용함으로써 차 컨볼루셔널 레이어의 차 테스트 서브-응답을 추적함으로써 획득되는 차 추적 서브-응답을 표현하고, 그리고 은 차 컨볼루셔널 레이어에 대응하는 테스트 이미지에 포함된 추적 객체의 추적 라벨을 표현한다. 차 추적 서브-응답을 획득하기 위해 추적 알고리즘을 사용함으로써 차 컨볼루셔널 레이어의 차 테스트 서브-응답을 추적하는 동안, 사용되는 차 컨볼루셔널 레이어에 대응하는 추적 알고리즘 파라미터는 차 컨볼루셔널 레이어에 대응하는 템플릿 이미지 및 제2 객체 인식 모델을 사용함으로써 트레이닝을 통해 획득된다. 구체적인 트레이닝 프로세스에 대해서는, 단계들(S11 내지 S13)을 참조하고, 세부사항들이 여기서 다시 설명되지 않는다.

도 6은 본 출원의 실시예에 따른 제1 객체 인식 모델에 대한 공동 최적화의 개략적 다이어그램이다. 도면에 도시된 특징 인식 손실 최적화는 방정식 (5)로 표현되고, 다중-스케일 추적 손실 최적화는 방정식 (8)로 표현된다. 도 6에서, 601은 제1 객체 인식 모델을 표현하고, 602는 제2 객체 인식 모델을 표현한다.

단계 S408: 손실 최적화 함수의 값이 최소화되는 방식으로, 제1 객체 인식 모델을 업데이트한다.

단계들(S406 및 S407)을 통해 제1 객체 인식 모델의 특징 인식 손실 함수 값 및 추적 손실 함수의 값이 결정된 후, 이 두 값들을 계산을 위해 방정식 (4)에 대입하여 손실 최적화 함수의 값이 획득되고, 그리고 제1 객체 인식 모델은 손실 최적화 함수의 값이 최소화되는 방식으로 업데이트된다. 즉, 손실 최적화 함수의 값은 지속적으로 감소된다. 특징 인식 손실 함수의 값 및 추적 손실 함수의 값은 손실 최적화 함수의 값에 따라 추론될 수 있기 때문에, 제1 객체 인식 모델의 모델 파라미터는 제1 참조 응답과 제2 참조 응답 간의 거리 그리고 제1 테스트 응답과 제2 테스트 응답 간의 거리가 특징 인식 손실 함수의 값을 충족시키는 방식으로 조정되며, 그리고 제1 객체 인식 모델의 모델 파라미터는 추적 응답과 추적 라벨 간의 유클리드 거리가 추적 손실 함수의 값을 충족시키는 방식으로 조정된다.

단계들(S401 내지 S408)을 반복함으로써, 바림직한 특징 인식 기능을 가질뿐만 아니라 추출된 특징들이 시각적 객체 추적 시나리오에 더 적절해지게 할 수 있는 제1 객체 인식 모델이 획득될 수 있다. 실습에 의해 증명된 바와 같이, 본 출원의 이 실시예에서 제공되는 모델을 트레이닝시키기 위한 방법을 사용함으로써 그리고 제2 객체 인식 모델에 대한 모델 압축 및 지식 전달을 결합함으로써 획득되는 제1 객체 인식 모델은 제2 객체 인식 모델의 10분의 1에 불과한 볼륨을 갖는다. 또한, 제1 객체 인식 모델은 제2 객체 인식 모델과 유사한 특징 추출 성능 및 바람직한 추적 성능을 가지며, 실시간 시각적 추적을 달성한다.

단계들(S401 내지 S408)에서 제1 객체 인식 모델의 업데이트 동안 사용되는 템플릿 이미지 및 테스트 이미지 둘 다는 추적 객체를 포함하므로, 업데이트된 제1 객체 인식 모델이 추적 객체의 특징들을 추출하는 바람직한 능력을 가질 수 있는 것이 보장될 수 있다. 그러나, 실제 적용들에서, 인식을 위해 제1 객체 인식 모델이 호출되는 이미지는 추적 객체 이외에 다른 배경들을 포함할 수 있다. 따라서, 제1 객체 인식 모델의 능력을 더욱 개선시키기 위해, 본 출원의 이 실시예에서, 단계들(S401 내지 S408)을 통해 제1 객체 인식 모델이 업데이트된 이후에, 제1 객체 인식 모델은 포지티브 샘플과 네거티브 샘플을 사용함으로써 추가로 업데이트되어, 제1 객체 인식 모델은 보다 바람직한 특징 인식 능력을 갖게 되는데, 즉 이미지에 포함된 배경과 추적 객체 간을 보다 바람직하게 구별할 수 있다.

구체적으로, 포지티브 샘플과 네거티브 샘플을 사용함으로써 제1 객체 인식 모델을 업데이트하는 것은, 추적 객체를 포함하는 참조 이미지를 취득 것, 및 참조 이미지에 기반하여, 트레이닝을 위한 포지티브 샘플 및 네거티브 샘플을 결정하는 것 ―참조 이미지는 제1 객체 인식 모델을 사용함으로써 추적될 비디오 시퀀스의 이미지의 제1 프레임이고, 포지티브 샘플은 추적 객체를 포함하는 이미지이고, 네거티브 샘플은 추적 객체를 포함하지 않는 이미지이고, 포지티브 샘플은 추적 객체의 포지티브 샘플 추적 라벨을 포함하고, 그리고 네거티브 샘플은 추적 객체의 네거티브 샘플 추적 라벨을 포함함―; 포지티브 샘플을 인식하여 포지티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하고, 그리고 네거티브 샘플을 인식하여 네거티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하는 것; 추적 객체에 대한 포지티브 샘플에서 포지티브 샘플 추적 응답을 획득하기 위해 포지티브 샘플 인식 응답을 추적하고, 그리고 추적 객체에 대한 네거티브 샘플에서 네거티브 샘플 추적 응답을 획득하기 위해 네거티브 샘플 인식 응답을 추적하는 것; 그리고 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 트레이닝시키는 것을 포함할 수 있다.

본 출원의 실시예에서, 포지티브 샘플 및 네거티브 샘플은 다음과 같은 방식으로 참조 이미지에 기반하여 획득될 수 있다: 참조 이미지를 무작위로 트리밍하여 복수의 이미지 블록들을 획득하며, 추적 객체를 포함하는 이미지 블록은 포지티브 샘플로 사용되며, 그리고 추적 객체를 포함하지 않는 이미지 블록은 네거티브 샘플로 사용된다. 포지티브 샘플에 대응하는 포지티브 샘플 추적 라벨은 포지티브 샘플에서 추적 객체의 실제 포지션이다. 네거티브 샘플은 추적 객체를 포함하지 않기 때문에, 네거티브 샘플에 대응하는 네거티브 샘플 추적 라벨은 0이다. 예를 들어, 도 7은 포지티브 샘플 및 네거티브 샘플을 취득하는 개략적 다이어그램이다. 도 7에서, 701은 참조 이미지이다. 참조 이미지는 701에 포함된 복수의 마킹 박스들과 같은 복수의 이미지 블록들을 획득하기 위해 무작위로 트리밍된다. 마킹 박스들 각각은 이미지 블록을 표현한다. 추적 객체가 702라는 것이 가정된다. 도면에서 703 및 704와 같이, 702를 포함하는 이미지 블록들이 701의 복수의 이미지 블록들로부터 포지티브 샘플로 선택되고, 그리고 도면에서 705 및 706과 같이, 702를 포함하지 않는 이미지 블록들이 네거티브 샘플로 사용된다. 703 및 704에 대응하는 포지티브 샘플 추적 라벨들은, 도면에서 703 및 704 아래의 점들로 도시된 것처럼, 703 및 704에서 추적 개체의 실제 포지션들이다. 네거티브 샘플들(705, 706)은 추적 객체들을 포함하지 않기 때문에, 네거티브 샘플들에 대응하는 추적 라벨들은 0이고 점들은 나타나지 않는다.

실시예에서, 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 트레이닝시키는 것은, 추적 손실 최적화 함수를 취득하는 것; 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여 추적 손실 최적화 함수의 값을 결정하는 것; 및 추적 손실 최적화 함수의 값이 최소화되는 방식으로, 업데이트된 제1 객체 인식 모델을 트레이닝시키는 것을 포함한다.

포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨의 간의 차이 정보는, 포지티브 샘플을 추적함으로써 제1 객체 인식 모델에 의해 획득되는 추적 객체의 포지션과, 포지티브 샘플에서 추적 객체의 실제 포지션 간의 유클리드 거리를 포함한다. 유사하게, 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨의 간의 차이 정보는, 네거티브 샘플을 추적함으로써 제1 객체 인식 모델에 의해 획득되는 추적 객체의 포지션과, 네거티브 샘플에서 추적 객체의 실제 포지션 간의 유클리드 거리를 포함한다. 이 두 거리들을 추적 손실 최적화 함수에 대입하여 추적 손실 최적화 함수의 값이 획득된 다음, 추적 손실 최적화 함수의 값이 최소화되는 방식으로, 업데이트된 제1 객체 인식 모델이 다시 업데이트된다. 추적 손실 최적화의 단계들은 업데이트된 제1 객체 인식 모델의 업데이트를 완료하기 위해 반복된다.

실시예에서, 단계(S407)에서 다중-스케일 추적 최적화의 설명에 기반하여, 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 업데이트하는 동안, 다중-스케일 최적화가 또한 채택될 수 있다.

상기한 것으로부터, 제1 객체 인식 모델이 제1 컨볼루셔널 레이어, 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어를 포함하고, 그리고 포지티브 샘플 추적 라벨이 제1 컨볼루셔널 레이어에 대응하는 제1 포지티브 샘플 추적 라벨, 제2 컨볼루셔널 레이어에 대응하는 제2 포지티브 샘플 추적 라벨, 및 제3 컨볼루셔널 레이어에 대응하는 제3 포지티브 샘플 추적 라벨을 포함한다 것을 알 수 있다. 포지티브 샘플 인식 응답은, 제1 컨볼루셔널 레이어에 대응하는 제1 포지티브 샘플 인식 서브-응답, 제2 컨볼루셔널 레이어에 대응하는 제2 포지티브 샘플 인식 서브-응답, 및 제3 컨볼루셔널 레이어에 대응하는 제3 포지티브 샘플 인식 서브-응답을 융합함으로써 획득된다. 네거티브 샘플 인식 응답은, 제1 컨볼루셔널 레이어에 대응하는 제1 네거티브 샘플 인식 서브-응답, 제2 컨볼루셔널 레이어에 대응하는 제2 네거티브 샘플 인식 서브-응답, 및 제3 컨볼루셔널 레이어에 대응하는 제3 네거티브 샘플 인식 서브-응답을 융합함으로써 획득된다.

포지티브 샘플 추적 응답은, 추적 트레이닝 알고리즘을 사용하여 제1 포지티브 샘플 인식 서브-응답을 추적함으로써 획득되는 제1 포지티브 샘플 추적 응답, 추적 트레이닝 알고리즘을 사용하여 제2 포지티브 샘플 인식 서브-응답을 추적함으로써 획득되는 제2 포지티브 샘플 추적 응답, 및 추적 트레이닝 알고리즘을 사용하여 제3 포지티브 샘플 인식 서브-응답을 추적함으로써 획득되는 제3 포지티브 샘플 추적 응답을 포함할 수 있다. 네거티브 샘플 추적 응답은, 추적 트레이닝 알고리즘을 사용하여 제1 네거티브 샘플 인식 서브-응답을 추적함으로써 획득되는 제1 네거티브 샘플 추적 응답, 추적 트레이닝 알고리즘을 사용하여 제2 네거티브 샘플 인식 서브-응답을 추적함으로써 획득되는 제2 네거티브 샘플 추적 응답, 및 추적 트레이닝 알고리즘을 사용하여 제3 네거티브 샘플 인식 서브-응답을 추적함으로써 획득되는 제3 네거티브 샘플 추적 응답을 포함할 수 있다.

다중-스케일 추적 손실 최적화의 구현은, 제1 포지티브 샘플 추적 응답과 제1 포지티브 샘플 추적 라벨 간의 차이 정보 및 제1 네거티브 샘플 추적 응답과 제1 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여 제1 컨벌루셔널 레이어의 추적 손실 최적화 함수의 값을 결정하는 것; 제2 포지티브 샘플 추적 응답과 제2 포지티브 샘플 추적 라벨 간의 차이 정보 및 제2 네거티브 샘플 추적 응답과 제2 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여 제2 컨벌루셔널 레이어의 추적 손실 최적화 함수의 값을 결정하는 것; 제3 포지티브 샘플 추적 응답과 제3 포지티브 샘플 추적 라벨 간의 차이 정보 및 제3 네거티브 샘플 추적 응답과 제3 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여 제3 컨벌루셔널 레이어의 추적 손실 최적화 함수의 값을 결정하는 것; 그리고 마지막으로, 제1 컨볼루셔널 레이어의 추적 손실 최적화 함수의 값에 따른 추적 손실 최적화 함수의 값, 제2 컨볼루셔널 레이어의 추적 손실 최적화 함수의 값, 및 제3 컨볼루셔널 레이어의 추적 손실 최적화 함수의 값을 결정하는 것일 수 있다. 다중-스케일 추적 손실 최적화를 위한 추적 손실 최적화 함수가 다음의 방정식 (10)과 같이 표현될 수 있다는 것이 가정된다:

, 여기서

은 추적 트레이닝 알고리즘을 사용하여 차 컨볼루셔널 레이어에 대응하는 차 포지티브 샘플 인식 서브-응답을 추적함으로써 획득되는 차 포지티브 샘플 추적 응답을 표현하며, 은 차 컨볼루셔널 레이어의 포지티브 샘플에 대응하는 포지티브 샘플 추적 라벨을 표현하며, 은 추적 트레이닝 알고리즘을 사용하여 차 컨볼루셔널 레이어에 대응하는 차 네거티브 샘플 인식 서브-응답을 추적함으로써 획득되는 차 네거티브 샘플 추적 응답을 표현하며, 그리고 은 차 컨볼루셔널 레이어에 대응하는 추적 알고리즘 파라미터를 표현한다.

상기한 것으로부터, 상이한 컨볼루셔널 레이어들에 대응하는 추적 알고리즘 파라미터들이 대응하는 컨볼루셔널 레이어들에서 대응하는 포지티브 샘플들 및 제2 객체 인식 모델을 트레이닝시킴으로써 획득된다는 것을 알 수 있다. 상이한 컨볼루셔널 레이어의 대응하는 포지티브 샘플은 크기는 같지만 해상도들은 상이한 이미지들이다. 구체적인 트레이닝 프로세스에 대해서는, 단계들(S11 내지 S13)을 참조하고, 세부사항들이 여기서 다시 설명되지 않는다.

참조 이미지를 사용하여 제1 객체 인식 모델이 다시 업데이트된 후, 제1 객체 인식 모델은, 시나리오 분석, 모니터링 디바이스들, 인간-기계 상호작용 등과 같이, 시각적 객체 추적을 요구하는 시나리오들에 적용되는 일부 추적 알고리즘들과 결합될 수 있다. 구체적으로, 제1 객체 인식 모델을 시각적 객체 추적 시나리오에 적용될 일부 추적 알고리즘들과 결합하는 구현은, 프로세싱될 이미지를 취득하고, 그리고 참조 이미지에서의 추적 객체의 마킹 정보에 따라, 프로세싱될 이미지에 포함된 예측되는 추적 객체를 결정하는 것 ―프로세싱될 이미지는, 제1 객체 인식 모델을 사용하여 시각적 객체 추적이 수행될 비디오 시퀀스에서, 제1 프레임이 아닌 이미지임―; 참조 이미지에서의 추적 객체를 인식하여 제1 인식 특징을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하는 것; 프로세싱될 이미지에서 예측되는 추적 객체를 인식하여 제2 인식 특징을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하는 것; 그리고 제1 인식 특징 및 제2 인식 특징에 기반하여, 추적할 타겟 특징을 결정하고, 그리고 프로세싱될 이미지에서 추적 객체의 포지션 정보를 획득하기 위해, 추적 알고리즘을 사용하여 타겟 특징을 추적하는 것을 포함할 수 있다. 이 부분의 구체적인 적용에 대해서는 도 1의 대응하는 설명을 참조하고, 세부사항들은 여기에 다시 설명되지 않는다.

본 출원의 이 실시예에서, 중량 제2 객체 인식 모델을 사용하여 경량 제1 객체 인식 모델을 트레이닝하는 동안, 제1 객체 인식 모델 및 제2 객체 인식 모델이 트레이닝을 위해 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답 및 제2 참조 응답을 획득하기 위해 호출되고, 그런 다음, 제1 객체 인식 모델 및 제2 객체 인식 모델이 트레이닝을 위해 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답 및 제2 테스트 응답을 획득하기 위해 각각 호출된다. 그런 다음, 제1 테스트 응답이 추적되어 추적 응답이 획득된다. 마지막으로, 제2 객체 인식 모델에 비교되는 제1 객체 인식 모델의 특징 추출 성능 손실이 제1 참조 응답과 제2 참조 응답 간의 차이 정보 및 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보에 따라 결정되고, 그리고 제1 객체 인식 모델의 추적 성능 손실이 추적 라벨과 추적 응답 간의 차이 정보에 따라 결정되어, 특징 추출 성능 손실 및 추적 성능 손실에 따라 제1 객체 인식 모델에 대한 손실 최적화가 수행되고, 이로써, 업데이트된 경량 제1 객체 인식 모델이 제2 객체 인식 모델과 동일하거나 유사한 특징 추출 성능을 갖고 특징 추출 속도가 더 빨라지게 되고, 그리고 제1 객체 인식 모델에 의해 추출되는 특징들이 시각적 객체 추적 시나리오에 더 적절하여 시각적 객체 추적의 정확도와 실시간 성능을 개선시키는 것이 보장된다.

모델을 트레이닝시키기 위한 상기 방법의 실시예의 설명에 기반하여, 본 출원의 실시예는 도 2 및 도 4에 도시된 방법들을 수행할 수 있는, 모델을 트레이닝시키기 위한 장치를 추가로 개시한다. 도 8을 참조하면, 모델을 트레이닝시키기 위한 장치는 다음과 같은 유닛들을 동작시킬 수 있다:

트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하도록 구성된 취득 유닛(801) ―템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용됨―;

추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하도록 구성된 프로세싱 유닛(802) ―추적 응답은 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 및

제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트하도록 구성된 업데이트 유닛(803).

실시예에서, 취득 유닛(801)은 추가로, 제2 객체 인식 모델을 취득하도록 구성된다. 프로세싱 유닛(802)은 추가로, 제2 객체 인식 모델을 트리밍하여 제1 객체 인식 모델을 획득하도록 구성된다.

실시예에서, 업데이트 유닛(803)은, 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여, 제1 객체 인식 모델을 업데이트하는 동안 다음의 동작들을 수행하도록 구성된다: 제1 객체 인식 모델에 대응하는 손실 최적화 함수를 취득하는 동작; 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 손실 최적화 함수의 값을 결정하는 동작; 및 손실 최적화 함수의 값이 최소화되는 방식으로, 제1 객체 인식 모델을 업데이트하는 동작.

실시예에서, 손실 최적화 함수는 특징 인식 손실 함수 및 추적 손실 함수를 포함하고, 업데이트 유닛(803)은, 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여, 손실 최적화 함수의 값을 결정하는 동안 다음의 동작들을 수행하도록 구성된다: 특징 인식 손실 함수를 취득하고 그리고 제1 참조 응답과 제2 참조 응답의 차이 정보 및 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보에 기반하여 특징 인식 손실 함수의 값을 결정하는 동작; 추적 손실 함수를 취득하고 그리고 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 추적 손실 함수의 값을 결정하는 동작; 및 특징 인식 손실 함수의 값과 추적 손실 함수의 값에 기반하여 손실 최적화 함수의 값을 결정하는 동작.

실시예에서, 제1 객체 인식 모델은 제1 컨볼루셔널 레이어, 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어를 포함하며, 제1 테스트 응답은 제1 컨볼루셔널 레이어에 대응하는 제1 테스트 서브-응답, 제2 컨볼루셔널 레이어에 대응하는 제2 테스트 서브-응답, 및 제3 컨볼루셔널 레이어에 대응하는 제3 테스트 서브-응답을 융합함으로써 획득된다. 업데이트 유닛(803)은, 추적 라벨과 추적 응답 간의 차이 정보에 기반하여, 추적 손실 함수의 값을 결정하는 동안 다음의 동작들을 수행하도록 구성된다:

제1 컨볼루셔널 레이어에 대응하는 제1 추적 라벨과, 제1 테스트 서브-응답을 추적함으로써 획득되는 제1 추적 응답 간의 차이 정보에 기반하여 제1 컨볼루셔널 레이어의 추적 손실 값을 결정하는 동작; 제2 컨볼루셔널 레이어에 대응하는 제2 추적 라벨과, 제2 테스트 서브-응답을 추적함으로써 획득되는 제2 추적 응답 간의 차이 정보에 기반하여 제2 컨볼루셔널 레이어의 추적 손실 값을 결정하는 동작; 제3 컨볼루셔널 레이어에 대응하는 제3 추적 라벨과, 제3 테스트 서브-응답을 추적함으로써 획득되는 제3 추적 응답 간의 차이 정보에 기반하여 제3 컨볼루셔널 레이어의 추적 손실 값을 결정하는 동작; 및 추적 손실 함수의 값을 획득하기 위해, 제1 컨볼루셔널 레이어에 대응하는 추적 손실 값, 제2 컨볼루셔널 레이어에 대응하는 추적 손실 값, 및 제3 컨볼루셔널 레이어에 대응하는 추적 손실 값을 융합하는 동작. 제1 추적 응답, 제2 추적 응답 및 제3 추적 응답은 상이한 해상도들을 갖는다.

실시예에서, 제1 객체 인식 모델은 연결 순서대로 연결된 복수의 컨볼루셔널 레이어들을 포함하고, 제1 컨볼루셔널 레이어는 연결 순서대로 지시된 컨볼루셔널 레이어들 중 첫 번째 레이어이고, 제3 컨볼루셔널 레이어는 연결 순서대로 지시된 마지막 컨볼루셔널 레이어이고, 그리고 제2 컨볼루셔널 레이어는 컨볼루셔널 레이어들 중 첫 번째 레이어와 컨볼루셔널 레이어들 중 마지막 컨볼루셔널 레이어가 아닌, 컨볼루셔널 레이어들 중 임의의 컨볼루셔널 레이어이다.

실시예에서, 취득 유닛(801)은 추가로, 추적 객체를 포함하는 참조 이미지를 취득하도록 구성되며, 그리고 참조 이미지에 기반하여, 트레이닝을 위한 포지티브 샘플 및 네거티브 샘플을 결정하며, 포지티브 샘플은 추적 객체를 포함하는 이미지이고, 네거티브 샘플은 추적 객체를 포함하지 않는 이미지이고, 포지티브 샘플은 추적 객체의 포지티브 샘플 추적 라벨을 포함하고, 네거티브 샘플은 추적 객체의 네거티브 샘플 추적 라벨을 포함하고, 그리고 참조 이미지는 추적 객체의 마킹 정보를 포함한다.

프로세싱 유닛(802)은 추가로, 포지티브 샘플을 인식하여 포지티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하고, 그리고 네거티브 샘플을 인식하여 네거티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하도록 구성된다.

프로세싱 유닛(802)은 추가로, 추적 객체에 대한 포지티브 샘플에서 포지티브 샘플 추적 응답을 획득하기 위해 포지티브 샘플 인식 응답을 추적하고, 그리고 추적 객체에 대한 네거티브 샘플에서 네거티브 샘플 추적 응답을 획득하기 위해 네거티브 샘플 인식 응답을 추적하도록 구성된다.

업데이트 유닛(803)은 추가로, 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 트레이닝시키도록 구성된다.

실시예에서, 업데이트 유닛(803)은 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 트레이닝시키는 동안 다음의 단계들을 수행하도록 구성된다:

추적 손실 최적화 함수를 취득하는 단계; 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여 추적 손실 최적화 함수의 값을 결정하는 단계; 및 추적 손실 최적화 함수의 값이 최소화되는 방식으로, 업데이트된 제1 객체 인식 모델을 트레이닝시키는 단계.

실시예에서, 취득 유닛(801)은 추가로, 프로세싱될 이미지를 획득하도록 구성된다. 프로세싱 유닛(802)은 추가로, 참조 이미지에서의 추적 객체의 마킹 정보에 따라, 프로세싱될 이미지에 포함된 예측되는 추적 객체를 결정하도록 구성된다. 프로세싱 유닛(802)은 추가로, 참조 이미지에서의 추적 객체를 인식하여 제1 인식 특징을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하도록 구성된다. 프로세싱 유닛(803)은 추가로, 프로세싱될 이미지에서 예측되는 추적 객체를 인식하여 제2 인식 특징을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하도록 구성된다. 프로세싱 유닛(802)은 추가로, 제1 인식 특징 및 제2 인식 특징에 기반하여, 추적할 타겟 특징을 결정하고, 그리고 프로세싱될 이미지에서 추적 객체의 포지션 정보를 획득하기 위해, 추적 알고리즘을 사용하여 타겟 특징을 추적하도록 구성된다.

본 출원의 실시예에 따르면, 도 2 또는 도 4에 도시된 방법의 단계들은 도 8에 도시된, 모델을 트레이닝시키기 위한 장치의 유닛들에 의해 수행될 수 있다. 예를 들어, 도 2에 도시된 단계(S201)는 도 8에 도시된 취득 유닛(801)에 의해 수행될 수 있고, 단계들(S202 내지 S204)은 도 8에 도시된 프로세싱 유닛(802)에 의해 수행될 수 있으며, 그리고 단계(S205)는 도 8에 도시된 업데이트 유닛(803)에 의해 수행될 수 있다. 예를 들어, 도 4에 도시된 단계들(S401, S402 및 S406)은 도 8에 도시된 취득 유닛(801)에 의해 수행될 수 있고, 단계들(S403 내지 S405 및 S407)은 도 8에 도시된 프로세싱 유닛(802)에 의해 수행될 수 있으며, 그리고 단계(S408)는 도 8에 도시된 업데이트 유닛(803)에 의해 수행될 수 있다.

본 출원의 다른 실시예에 따르면, 도 8에 도시된 모델을 트레이닝시키기 위한 장치의 유닛들은 개별적으로 또는 전체적으로 하나 또는 여러 개의 다른 유닛들과 결합될 수 있거나, 또는 본원의 유닛들 중 하나(또는 그 이상)는 더 작은 기능들의 복수의 유닛들로 추가로 분할될 수 있다. 이러한 방식으로, 동일한 동작들이 구현될 수 있으며, 본 출원의 실시예들의 기술적 효과들의 구현은 영향을 받지 않는다. 전술한 유닛들은 논리적 기능들에 기반하여 분할된다. 실제 적용에서, 하나의 유닛의 기능은 또한 복수의 유닛들에 의해 구현될 수 있거나, 또는 복수의 유닛들의 기능들이 하나의 유닛에 의해 구현될 수 있다. 본 출원의 다른 실시예들에서, 모델을 트레이닝시키기 위한 장치는 또한 다른 유닛들을 포함할 수 있다. 실제 적용에서, 기능들은 또한, 다른 유닛들에 의해 협력적으로 구현될 수 있고, 그리고 복수의 유닛들에 의해 협력적으로 구현될 수 있다.

본 출원의 다른 실시예에 따라, 도 2 또는 도 4에 도시된 대응하는 방법의 단계들을 수행할 수 있는 컴퓨터 프로그램(프로그램 코드 포함)은 컴퓨터와 같은 범용 컴퓨팅 디바이스에서 실행될 수 있으며, 이 범용 컴퓨팅 디바이스는, 도 8에 도시된 모델을 트레이닝시키기 위한 장치를 구성하고 그리고 본 출원의 실시예들에서 모델을 트레이닝시키기 위한 방법을 구현하기 위해, 프로세싱 엘리먼트들 및 저장 엘리먼트들, 이를테면 중앙 프로세싱 유닛(CPU), 랜덤 액세스 메모리(RAM) 및 판독-전용 메모리(ROM)를 포함한다. 컴퓨터 프로그램은, 예를 들어, 컴퓨터-판독가능 기록 매체에 기록될 수 있고, 컴퓨터-판독가능 기록 매체를 사용하여 전술한 컴퓨팅 디바이스에 로딩되어 컴퓨팅 디바이스에서 실행될 수 있다.

본 출원의 이 실시예에서, 제2 객체 인식 모델을 사용하여 제1 객체 인식 모델을 트레이닝하는 동안, 제1 객체 인식 모델 및 제2 객체 인식 모델이 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답 및 제2 참조 응답을 획득하기 위해 먼저 각각 호출되고, 그런 다음, 제1 객체 인식 모델 및 제2 객체 인식 모델이 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답 및 제2 테스트 응답을 획득하기 위해 각각 호출된다. 추가로, 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답이 추적된다. 따라서, 제2 객체 인식 모델에 비해 제1 객체 인식 모델의 특징 추출 성능 손실은 제1 참조 응답과 제2 참조 응답 간의 차이 정보 및 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보에 따라 결정될 수 있고, 그리고 제1 객체 인식 모델의 추적 성능 손실은 추적 라벨과 추적 응답 간의 차이 정보에 따라 결정될 수 있다. 제1 객체 인식 모델이 제1 객체 인식 모델의 특징 추출 성능 손실 및 추적 성능 손실을 기반으로 업데이트되어, 업데이트된 제1 객체 인식 모델이 제2 객체 인식 모델과 동일하거나 비교적 유사한 특징 추출 성능을 갖고 그리고 추출된 특징들이 시각적 객체 추적 시나리오에 더 적절하여, 시각적 객체 추적의 정확도가 개선된다.

전술한 방법 실시예들 및 장치 실시예들의 설명들에 기반하여, 본 출원의 실시예는 추가로 도 9에 도시된 단말과 같은 컴퓨터 디바이스를 제공한다. 도 9를 참조하면, 단말은 적어도, 프로세서(901), 입력 디바이스(902), 출력 디바이스(903) 및 컴퓨터 저장 매체(904)를 포함한다. 입력 디바이스(902)는 템플릿 이미지 및/또는 테스트 이미지를 획득하도록 구성될 수 있는 카메라 어셈블리를 더 포함할 수 있다. 카메라 어셈블리는 추가로, 참조 이미지 및/또는 프로세싱될 이미지를 취득하도록 구성될 수 있다. 카메라 어셈블리는 단말이 출고될 때 단말에 구성되는 어셈블리일 수 있거나 또는 단말에 연결된 외부 어셈블리일 수 있다. 본 출원의 실시예에서, 단말은 다른 디바이스들에 추가로 연결되어 다른 디바이스들에 의해 송신되는 템플릿 이미지들 및/또는 테스트 이미지들을 수신하거나 또는 다른 디바이스들에 의해 송신되는 참조 이미지들 및/또는 프로세싱될 이미지들을 수신할 수 있다.

컴퓨터 저장 매체(904)는 단말의 메모리에 저장될 수 있다. 컴퓨터 저장 매체(904)는 컴퓨터 프로그램을 저장하도록 구성된다. 컴퓨터 프로그램은 프로그램 명령들을 포함한다. 프로세서(901)는 컴퓨터 저장 매체(904)에 저장된 프로그램 명령들을 실행하도록 구성된다. 프로세서(901)(또는 CPU(central processing unit)로 지칭됨)는 단말의 컴퓨팅 코어 및 제어 코어이며, 이는 하나 이상의 명령들을 구현하도록 적응되고, 구체적으로는, 대응하는 방법 프로세스들 또는 대응 기능들을 구현하기 위해 하나 이상의 명령들을 로딩 및 실행하도록 적응된다. 실시예에서, 본 출원의 이 실시예에서 프로세서(901)는, 트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하며 ―템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용됨―; 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하며; 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하며; 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하며 ―추적 응답은 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 그리고 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트하도록 구성된다

본 출원의 실시예는 추가로, 컴퓨터 저장 매체를 제공한다. 컴퓨터 저장 매체는 단말의 메모리 디바이스이며, 프로그램들과 데이터를 저장하도록 구성된다. 이해될 수 있는 바와 같이, 본원에서 컴퓨터 저장 매체는 단말의 내부 저장 매체를 포함할 수 있고, 단말에 의해 지원되는 확장형 저장 매체(extended storage medium)를 더 포함할 수 있다. 컴퓨터 저장 매체는 저장 공간을 제공하고, 저장 공간은 단말의 운영 체제를 저장한다. 또한, 저장 공간은 추가로, 프로세서(901)에 의해 로딩되고 실행되기에 적합한 하나 이상의 명령들을 저장한다. 명령들은 하나 이상의 컴퓨터 프로그램들(프로그램 코드 포함)일 수 있다. 본원에서 컴퓨터 저장 매체는 고속 RAM 또는 비휘발성 메모리, 예를 들어, 적어도 하나의 자기 디스크 메모리일 수 있다. 본 출원의 실시예에서, 컴퓨터 저장 매체는 전술한 프로세서로부터 떨어져 위치된 적어도 하나의 컴퓨터 저장 매체일 수 있다.

실시예에서, 컴퓨터 저장 매체에 저장된 하나 이상의 명령들은 모델 트레이닝과 관련된 전술한 실시예들에서의 방법의 대응하는 단계들을 구현하기 위해 프로세서(901)에 의해 로딩되고 실행될 수 있다. 특정 구현에서, 컴퓨터 저장 매체의 하나 이상의 명령들은, 다음의 단계들을 추가로 수행하도록, 프로세서(901)에 의해 로딩된다:

트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하는 단계 ―템플릿 이미지 및 테스트 이미지는 각각 추적 객체를 포함하고, 테스트 이미지는 추적 객체의 추적 라벨을 포함하고, 추적 라벨은 테스트 이미지에 추적 객체의 마킹 포지션을 지시하는 데 사용됨―; 템플릿 이미지에서 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 템플릿 이미지에서 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계; 테스트 이미지에서 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 테스트 이미지에서 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계; 추적 객체의 추적 응답을 획득하기 위해 제1 테스트 응답을 추적하는 단계―추적 응답은 테스트 이미지에 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 및 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 제1 객체 인식 모델을 업데이트하는 단계.

실시예에서, 컴퓨터 저장 매체의 하나 이상의 명령들은, 다음의 단계들을 추가로 수행하도록, 프로세서(901)에 의해 로딩된다: 제2 객체 인식 모델을 취득하는 단계; 및 제2 객체 인식 모델을 트리밍하여 제1 객체 인식 모델을 획득하는 단계.

실시예에서, 프로세서(901)는, 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여, 제1 객체 인식 모델을 업데이트하는 동안 다음의 동작들을 수행하도록 구성된다:

제1 객체 인식 모델에 대응하는 손실 최적화 함수를 취득하는 동작; 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 손실 최적화 함수의 값을 결정하는 동작; 및 손실 최적화 함수의 값이 최소화되는 방식으로, 제1 객체 인식 모델을 업데이트하는 동작.

실시예에서, 손실 최적화 함수는 특징 인식 손실 함수 및 추적 손실 함수를 포함하고, 프로세서(901)는, 제1 참조 응답과 제2 참조 응답 간의 차이 정보, 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보, 및 추적 라벨과 추적 응답 간의 차이 정보에 기반하여, 손실 최적화 함수의 값을 결정하는 동안 다음의 동작들을 수행하도록 구성된다:

특징 인식 손실 함수를 취득하고 그리고 제1 참조 응답과 제2 참조 응답의 차이 정보 및 제1 테스트 응답과 제2 테스트 응답 간의 차이 정보에 기반하여 특징 인식 손실 함수의 값을 결정하는 동작; 추적 손실 함수를 취득하고 그리고 추적 라벨과 추적 응답 간의 차이 정보에 기반하여 추적 손실 함수의 값을 결정하는 동작; 및 특징 인식 손실 함수의 값과 추적 손실 함수의 값에 기반하여 손실 최적화 함수의 값을 결정하는 동작.

실시예에서, 제1 객체 인식 모델은 제1 컨볼루셔널 레이어, 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어를 포함하며, 제1 테스트 응답은 제1 컨볼루셔널 레이어에 대응하는 제1 테스트 서브-응답, 제2 컨볼루셔널 레이어에 대응하는 제2 테스트 서브-응답, 및 제3 컨볼루셔널 레이어에 대응하는 제3 테스트 서브-응답을 융합함으로써 획득된다. 프로세서(901)는, 추적 라벨과 추적 응답 간의 차이 정보에 기반하여, 추적 손실 함수의 값을 결정하는 동안 다음의 동작들을 수행하도록 구성된다:

제1 컨볼루셔널 레이어에 대응하는 제1 추적 라벨과, 제1 테스트 서브-응답을 추적함으로써 획득되는 제1 추적 응답 간의 차이 정보에 기반하여 제1 컨볼루셔널 레이어의 추적 손실 값을 결정하는 동작;

제2 컨볼루셔널 레이어에 대응하는 제2 추적 라벨과, 제2 테스트 서브-응답을 추적함으로써 획득되는 제2 추적 응답 간의 차이 정보에 기반하여 제2 컨볼루셔널 레이어의 추적 손실 값을 결정하는 동작; 제3 컨볼루셔널 레이어에 대응하는 제3 추적 라벨과, 제3 테스트 서브-응답을 추적함으로써 획득되는 제3 추적 응답 간의 차이 정보에 기반하여 제3 컨볼루셔널 레이어의 추적 손실 값을 결정하는 동작; 및 추적 손실 함수의 값을 획득하기 위해, 제1 컨볼루셔널 레이어에 대응하는 추적 손실 값, 제2 컨볼루셔널 레이어에 대응하는 추적 손실 값, 및 제3 컨볼루셔널 레이어에 대응하는 추적 손실 값을 융합하는 동작. 제1 추적 응답, 제2 추적 응답 및 제3 추적 응답은 상이한 해상도들을 갖는다.

실시예에서, 컴퓨터 저장 매체의 하나 이상의 명령들은, 다음의 단계들을 수행하도록, 프로세서(901)에 의해 로딩된다:

추적 객체를 포함하는 참조 이미지를 취득하고 그리고 참조 이미지에 기반하여, 트레이닝을 위한 포지티브 샘플 및 네거티브 샘플을 결정하는 단계 ― 포지티브 샘플은 추적 객체를 포함하는 이미지이고, 네거티브 샘플은 추적 객체를 포함하지 않는 이미지이고, 포지티브 샘플은 추적 객체의 포지티브 샘플 추적 라벨을 포함하고, 네거티브 샘플은 추적 객체의 네거티브 샘플 추적 라벨을 포함하고, 그리고 참조 이미지는 추적 객체의 마킹 정보를 포함함―; 포지티브 샘플을 인식하여 포지티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하고, 그리고 네거티브 샘플을 인식하여 네거티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하는 단계; 추적 객체에 대한 포지티브 샘플에서 포지티브 샘플 추적 응답을 획득하기 위해 포지티브 샘플 인식 응답을 추적하고, 그리고 추적 객체에 대한 네거티브 샘플에서 네거티브 샘플 추적 응답을 획득하기 위해 네거티브 샘플 인식 응답을 추적하는 단계; 및 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 트레이닝시키는 단계.

실시예에서, 프로세서(901)는 포지티브 샘플 추적 응답과 포지티브 샘플 추적 라벨 간의 차이 정보 및 네거티브 샘플 추적 응답과 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 업데이트된 제1 객체 인식 모델을 업데이트하는 동안 다음의 단계들을 수행하도록 구성된다:

실시예에서, 컴퓨터 저장 매체의 하나 이상의 명령들은, 다음의 단계들을 추가로 수행하도록, 프로세서(901)에 의해 로딩된다:

프로세싱될 이미지를 취득하고 그리고 참조 이미지에서의 추적 객체의 마킹 정보에 따라, 프로세싱될 이미지에 포함된 예측되는 추적 객체를 결정하는 단계; 참조 이미지에서의 추적 객체를 인식하여 제1 인식 특징을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하는 단계; 프로세싱될 이미지에서 예측되는 추적 객체를 인식하여 제2 인식 특징을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하는 단계; 및 제1 인식 특징 및 제2 인식 특징에 기반하여, 추적할 타겟 특징을 결정하는 단계, 및 프로세싱될 이미지에서 추적 객체의 포지션 정보를 획득하기 위해, 추적 알고리즘을 사용하여 타겟 특징을 추적하는 단계.

전술한 개시내용은 단지 본 출원의 실시예일 뿐이며, 확실히 본 출원의 보호 범위를 제한하려는 의도는 아니다. 따라서, 본 출원의 청구항들에 따라 구성되는 등가 변형들이 본 출원의 범위 내에 속할 것이다.

Claims

컴퓨팅 디바이스에 의해 수행되는, 모델을 트레이닝시키기 위한 방법으로서,
트레이닝을 위해 템플릿 이미지(template image) 및 테스트 이미지를 취득하는 단계 ―상기 템플릿 이미지 및 상기 테스트 이미지는 각각 추적 객체를 포함하고, 상기 테스트 이미지는 상기 추적 객체의 추적 라벨을 포함하고, 상기 추적 라벨은 상기 테스트 이미지에 상기 추적 객체의 마킹 포지션을 지시하는 데 사용됨―;
상기 템플릿 이미지에서 상기 추적 객체의 특징(feature)을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 상기 템플릿 이미지에서 상기 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하는 단계;
상기 테스트 이미지에서 상기 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 상기 제1 객체 인식 모델을 호출하고 그리고 상기 테스트 이미지에서 상기 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 상기 제2 객체 인식 모델을 호출하는 단계;
상기 추적 객체의 추적 응답을 획득하기 위해 상기 제1 테스트 응답을 추적하는 단계 ―상기 추적 응답은 상기 테스트 이미지에 상기 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 및
상기 제1 참조 응답과 상기 제2 참조 응답 간의 차이 정보, 상기 제1 테스트 응답과 상기 제2 테스트 응답 간의 차이 정보, 및 상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 제1 객체 인식 모델을 업데이트하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 제2 객체 인식 모델을 취득하는 단계; 및
상기 제2 객체 인식 모델을 트리밍하여 상기 제1 객체 인식 모델을 획득하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 제1 참조 응답과 상기 제2 참조 응답 간의 차이 정보, 상기 제1 테스트 응답과 상기 제2 테스트 응답 간의 차이 정보, 및 상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 제1 객체 인식 모델을 업데이트하는 단계는,
상기 제1 객체 인식 모델에 대응하는 손실 최적화 함수(loss optimization function)를 취득하는 단계;
상기 제1 참조 응답과 상기 제2 참조 응답 간의 차이 정보, 상기 제1 테스트 응답과 상기 제2 테스트 응답 간의 차이 정보, 및 상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 손실 최적화 함수의 값을 결정하는 단계; 및
상기 손실 최적화 함수의 값이 최소화되는 방식으로, 상기 제1 객체 인식 모델을 업데이트하는 단계
를 포함하는, 방법.
제3항에 있어서,
상기 손실 최적화 함수는 특징 인식 손실 함수(feature recognition loss function) 및 추적 손실 함수(tracking loss function)를 포함하고, 그리고 상기 제1 참조 응답과 상기 제2 참조 응답 간의 차이 정보, 상기 제1 테스트 응답과 상기 제2 테스트 응답 간의 차이 정보, 및 상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 손실 최적화 함수의 값을 결정하는 단계는,
상기 특징 인식 손실 함수를 취득하고 그리고 상기 제1 참조 응답과 상기 제2 참조 응답의 차이 정보 및 상기 제1 테스트 응답과 상기 제2 테스트 응답 간의 차이 정보에 기반하여 상기 특징 인식 손실 함수의 값을 결정하는 단계;
상기 추적 손실 함수를 취득하고 그리고 상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 추적 손실 함수의 값을 결정하는 단계; 및
상기 특징 인식 손실 함수의 값과 상기 추적 손실 함수의 값에 기반하여 상기 손실 최적화 함수의 값을 결정하는 단계
를 포함하는, 방법.
제4항에 있어서,
상기 제1 객체 인식 모델은 제1 컨볼루셔널 레이어(convolutional layer), 제2 컨볼루셔널 레이어 및 제3 컨볼루셔널 레이어를 포함하고, 상기 제1 테스트 응답은 상기 제1 컨볼루셔널 레이어에 대응하는 제1 테스트 서브-응답, 상기 제2 컨볼루셔널 레이어에 대응하는 제2 테스트 서브-응답, 및 상기 제3 컨볼루셔널 레이어에 대응하는 제3 테스트 서브-응답을 융합함으로써 획득되고,
상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 추적 손실 함수의 값을 결정하는 단계는,
상기 제1 컨볼루셔널 레이어에 대응하는 제1 추적 라벨과, 상기 제1 테스트 서브-응답을 추적함으로써 획득되는 제1 추적 응답 간의 차이 정보에 기반하여 상기 제1 컨볼루셔널 레이어의 추적 손실 값을 결정하는 단계;
상기 제2 컨볼루셔널 레이어에 대응하는 제2 추적 라벨과, 상기 제2 테스트 서브-응답을 추적함으로써 획득되는 제2 추적 응답 간의 차이 정보에 기반하여 상기 제2 컨볼루셔널 레이어의 추적 손실 값을 결정하는 단계;
상기 제3 컨볼루셔널 레이어에 대응하는 제3 추적 라벨과, 상기 제3 테스트 서브-응답을 추적함으로써 획득되는 제3 추적 응답 간의 차이 정보에 기반하여 상기 제3 컨볼루셔널 레이어의 추적 손실 값을 결정하는 단계; 및
상기 추적 손실 함수의 값을 획득하기 위해, 상기 제1 컨볼루셔널 레이어에 대응하는 추적 손실 값, 상기 제2 컨볼루셔널 레이어에 대응하는 추적 손실 값, 및 상기 제3 컨볼루셔널 레이어에 대응하는 추적 손실 값을 융합하는 단계
를 포함하고, 상기 제1 추적 응답, 상기 제2 추적 응답 및 상기 제3 추적 응답은 상이한 해상도를 갖는, 방법.
제5항에 있어서,
상기 제1 객체 인식 모델은 연결 순서대로 연결된 복수의 컨볼루셔널 레이어들을 포함하고, 상기 제1 컨볼루셔널 레이어는 상기 연결 순서대로 지시된 상기 컨볼루셔널 레이어들 중 첫 번째 레이어이고, 상기 제3 컨볼루셔널 레이어는 상기 연결 순서대로 지시된 상기 컨볼루셔널 레이어들 중 마지막 컨볼루셔널 레이어이고, 그리고 상기 제2 컨볼루셔널 레이어는 상기 컨볼루셔널 레이어들 중 첫 번째 레이어와 상기 컨볼루셔널 레이어들 중 마지막 컨볼루셔널 레이어가 아닌, 상기 컨볼루셔널 레이어들 중 임의의 컨볼루셔널 레이어인, 방법.
제1항에 있어서,
상기 추적 객체를 포함하는 참조 이미지를 취득하고 그리고 상기 참조 이미지에 기반하여, 트레이닝을 위한 포지티브 샘플 및 네거티브 샘플을 결정하는 단계 ―상기 포지티브 샘플은 상기 추적 객체를 포함하는 이미지이고, 상기 네거티브 샘플은 상기 추적 객체를 포함하고 않는 이미지이고, 상기 포지티브 샘플은 상기 추적 객체의 포지티브 샘플 추적 라벨을 포함하고, 상기 네거티브 샘플은 상기 추적 객체의 네거티브 샘플 추적 라벨을 포함하고, 그리고 상기 참조 이미지는 상기 추적 객체의 마킹 정보를 포함함―;
상기 포지티브 샘플을 인식하여 포지티브 샘플 인식 응답을 획득하기 위해, 업데이트된 제1 객체 인식 모델을 호출하고 그리고 상기 네거티브 샘플을 인식하여 네거티브 샘플 인식 응답을 획득하기 위해, 상기 업데이트된 제1 객체 인식 모델을 호출하는 단계;
상기 추적 객체에 대한 상기 포지티브 샘플에서 포지티브 샘플 추적 응답을 획득하기 위해 상기 포지티브 샘플 인식 응답을 추적하고 그리고 상기 추적 객체에 대한 상기 네거티브 샘플에서 네거티브 샘플 추적 응답을 획득하기 위해 상기 네거티브 샘플 인식 응답을 추적하는 단계; 및
상기 포지티브 샘플 추적 응답과 상기 포지티브 샘플 추적 라벨 간의 차이 정보 및 상기 네거티브 샘플 추적 응답과 상기 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 상기 업데이트된 제1 객체 인식 모델을 트레이닝시키는 단계
를 더 포함하는 방법.
제7항에 있어서,
상기 포지티브 샘플 추적 응답과 상기 포지티브 샘플 추적 라벨 간의 차이 정보 및 상기 네거티브 샘플 추적 응답과 상기 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여, 상기 업데이트된 제1 객체 인식 모델을 트레이닝시키는 단계는,
추적 손실 최적화 함수를 취득하는 단계;
상기 포지티브 샘플 추적 응답과 상기 포지티브 샘플 추적 라벨 간의 차이 정보 및 상기 네거티브 샘플 추적 응답과 상기 네거티브 샘플 추적 라벨 간의 차이 정보에 기반하여 상기 추적 손실 최적화 함수의 값을 결정하는 단계; 및
상기 추적 손실 함수의 값이 최소화되는 방식으로, 상기 업데이트된 제1 객체 인식 모델을 트레이닝시키는 단계
를 포함하는 방법.
제7항에 있어서,
프로세싱될 이미지를 취득하고 그리고 상기 참조 이미지에서의 상기 추적 객체의 마킹 정보에 따라, 상기 프로세싱될 이미지에 포함된 예측되는 추적 객체를 결정하는 단계;
상기 참조 이미지에서 상기 추적 객체를 인식하여 제1 인식 특징을 획득하기 위해, 상기 업데이트된 제1 객체 인식 모델을 호출하는 단계;
상기 프로세싱될 이미지에서 상기 예측되는 추적 객체를 인식하여 제2 인식 특징을 획득하기 위해, 상기 업데이트된 제1 객체 인식 모델을 호출하는 단계; 및
상기 제1 인식 특징 및 상기 제2 인식 특징에 기반하여, 추적할 타겟 특징을 결정하고 그리고 상기 프로세싱될 이미지에서 상기 추적 객체의 포지션 정보를 획득하기 위해, 추적 알고리즘을 사용하여 상기 타겟 특징을 추적하는 단계
를 더 포함하는 방법.
모델을 트레이닝시키기 위한 장치로서,
트레이닝을 위해 템플릿 이미지 및 테스트 이미지를 취득하도록 구성된 취득 유닛 ―상기 템플릿 이미지 및 상기 테스트 이미지는 각각 추적 객체를 포함하고, 상기 테스트 이미지는 상기 추적 객체의 추적 라벨을 포함하고, 상기 추적 라벨은 상기 테스트 이미지에 상기 추적 객체의 마킹 포지션을 지시하는 데 사용됨―;
상기 템플릿 이미지에서 상기 추적 객체의 특징을 인식하여 제1 참조 응답을 획득하기 위해 제1 객체 인식 모델을 호출하고 그리고 상기 템플릿 이미지에서 상기 추적 객체의 특징을 인식하여 제2 참조 응답을 획득하기 위해 제2 객체 인식 모델을 호출하고, 상기 테스트 이미지에서 상기 추적 객체의 특징을 인식하여 제1 테스트 응답을 획득하기 위해 상기 제1 객체 인식 모델을 호출하고 그리고 상기 테스트 이미지에서 상기 추적 객체의 특징을 인식하여 제2 테스트 응답을 획득하기 위해 상기 제2 객체 인식 모델을 호출하고, 그리고 상기 추적 객체의 추적 응답을 획득하기 위해 상기 제1 테스트 응답을 추적하도록 구성된 프로세싱 유닛 ―상기 추적 응답은 상기 테스트 이미지에 상기 추적 객체의 추적 포지션을 지시하는 데 사용됨―; 및
상기 제1 참조 응답과 상기 제2 참조 응답 간의 차이 정보, 상기 제1 테스트 응답과 상기 제2 테스트 응답 간의 차이 정보, 및 상기 추적 라벨과 상기 추적 응답 간의 차이 정보에 기반하여 상기 제1 객체 인식 모델을 업데이트하도록 구성된 업데이트 유닛
을 포함하는, 모델을 트레이닝시키기 위한 장치.
단말로서,
입력 디바이스 및 출력 다비이스를 포함하며,
상기 단말은, 하나 이상의 명령들을 구현하도록 구성된 프로세서; 및 컴퓨터 저장 매체를 더 포함하며,
상기 컴퓨터 저장 매체는 하나 이상의 명령들을 저장하고, 상기 하나 이상의 명령들은 제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행하도록 상기 프로세서에 의해 로딩되도록 구성되는, 단말.
컴퓨터 저장 매체로서,
상기 컴퓨터 저장 매체는 컴퓨터 프로그램 명령들을 저장하며, 상기 컴퓨터 프로그램 명령들은, 프로세서에 의해 실행될 때, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 컴퓨터 저장 매체.