KR20180068292A

KR20180068292A - 뉴럴 네트워크 트레이닝을 위한 방법, 컴퓨터 제품 및 디바이스

Info

Publication number: KR20180068292A
Application number: KR1020170165966A
Authority: KR
Inventors: 마커스 스칸슨; 니클라스 다니엘슨
Original assignee: 엑시스 에이비
Priority date: 2016-12-13
Filing date: 2017-12-05
Publication date: 2018-06-21
Also published as: US10956781B2; JP7072374B2; JP2018139103A; EP3336774B1; US20180165546A1; TW201822076A; CN108229539B; KR102605599B1; CN108229539A; EP3336774A1; TWI803472B

Abstract

일반적으로 본 발명은 이미지 데이터를 프로세싱하고 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하도록 구성된 뉴럴 네트워크를 트레이닝시키는 방법, 장치 및 컴퓨터 프로그램 제품에 관한 것이다. 이러한 트레이닝은 그라운드 트루로서 기준 뉴럴 네트워크로부터의 피처 벡터들을 이용하여 수행된다. 또한, 본 발명은 상기 디바이스들 상에서 실행되는 뉴럴 네트워크들에 의해 출력된 피처 벡터들을 사용하여 객체를 추적하기 위한 디바이스들의 시스템에 관한 것이다.

Description

뉴럴 네트워크 트레이닝을 위한 방법, 컴퓨터 제품 및 디바이스{METHOD, COMPUTER PROGRAM PRODUCT AND DEVICE FOR TRAINING A NEURAL NETWORK}

일반적으로 본 발명은 이미지 데이터를 프로세싱하고 그리고 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하도록 구성된 뉴럴 네트워크(neural network)를 트레이닝시키는 방법, 디바이스 및 컴퓨터 프로그램 제품에 관한 것이다. 또한, 본 발명은 디바이스들 상에서 구동되는 뉴럴 네트워크들에 의해 출력된 피처 벡터들을 사용하여 객체를 추적하기 위한 디바이스들의 시스템에 관한 발명이다.

뉴럴 네트워크를 트레이닝할 때, 트레이닝 및 뉴럴 네트워크에 대한 많은 상이한 세부 사항들(예를 들어, 뉴럴 네트워크의 구조 등)이, 네트워크에 의해 다차원 공간이 어떻게 형성되는지에 영향을 미친다. 이러한 다차원 공간 상에 입력 데이터를 맵핑하는 것은, 그 특정 입력 데이터에 대한 피처 벡터를 형성할 것이다.

뉴럴 네트워크의 목표는 다차원 공간(하이퍼스페이스)을 설정하는 것인바, 유사한 입력 데이터(즉, 뉴럴 네트워크가 식별하도록 트레이닝되는 입력 데이터 간의 유사성들에 따라, 동일한 신원 또는 동일한 클래스에 속하는 입력 데이터)는 이러한 공간에서 함께 가깝게 맵핑되는 반면에, 다른 입력 데이터(즉, 다른 신원들/클래스들에 속하는 입력 데이터)는 서로 멀리 떨어져서 맵핑되도록, 다차원 공간을 설정하는 것이다. 하지만, 이러한 다차원 공간이 어떻게 형성되는지는 예를 들어 다음과 같은 것들에 의존한다.

- 어떤 트레이닝 입력 데이터가 사용되는지 그리고 네트워크에 어떤 순서대로 이들이 입력되는지,

- 사용되는 뉴럴 네트워크 유형, 어떠한 비용 함수(손실 함수 또는 에러 함수라고도 함)가 구현되는지, 노드들의 계층 수, 기타 등등,

- 트레이닝될 때 뉴럴 네트워크를 구동하는 디바이스의 하드웨어 아키텍처, 예컨대, 이러한 하드웨어에서 부동 소숫점 숫자(float numbers)가 반올림되거나 곱해지는 방식 등,

- 입력 데이터 압축 또는 계산 속도를 위한 다른 최적화들,

- 네트워크 가중치의 무작위 초기화,

- 기타 등등.

더욱이 뉴럴 네트워크의 트레이닝 비용 함수(또는 최적화 비용 함수)는 종종 일종의 확률적 함수(stochastic function)를 포함하여, 본질적으로 상이한 2개의 뉴럴 네트워크의 트레이닝을 구현한다.

이러한 것은, 동일한 트레이닝 입력 데이터를 동일한 순서로 사용하여 2개의 서로 다른 네트워크에 대한 독립적인 트레이닝이 정확히 똑같은 방식으로 수행되는 경우라 하여도, 소정의 입력 데이터에 대해 하나의 뉴럴 네트워크에 의해 생성된 피처 벡터가 동일한 입력 데이터에 대해 다른 뉴럴 네트워크에 의해 생성된 피처 벡터와 비교될 수 있음을 보장하지 못한다.

따라서, 이러한 맥락에서 개선이 필요하다.

이러한 점을 고려하여, 본 발명의 목적은 전술한 단점들 중 하나 또는 여러 개를 해결하거나 적어도 감소시키는 것이다. 일반적으로 상기 목적은 첨부된 독립 특허 청구항에 의해 달성된다.

제 1 양상에 따르면, 본 발명은 이미지 데이터를 프로세싱하고 상기 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하도록 된 제 1 뉴럴 네트워크를 트레이닝하는 방법에 의해 실현되며, 상기 방법은,

기준 피처 벡터를 검색하는 단계, 상기 기준 피처 벡터는 기준 뉴럴 네트워크에 의해서 제 1 트레이닝 이미지를 프로세싱함으로써 계산되며, 상기 기준 뉴럴 네트워크는 이미지 데이터를 프로세싱하고 그리고 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하며,

비용 함수를 최적화하기 위해 상기 제 1 뉴럴 네트워크를 트레이닝하는 단계를 포함하고, 상기 비용 함수는 상기 제 1 트레이닝 이미지를 프로세싱할 때에 상기 기준 피처 벡터와 제 1 뉴럴 네트워크에 의해 출력된 피처 벡터 사이의 적어도 제 1 거리 측정치를 포함하고, 상기 비용 함수는 상기 제 1 거리 측정치를 최소화하도록 적응된다.

"뉴럴 네트워크"라는 용어는 본 명세서의 문맥에서, 상호연결된 노드들의 그룹으로 이해되어야 하며, 이는 두뇌의 광대한 뉴런 네트워크에 의해 영감을 받은 것이다. 또한, 뉴럴 네트워크는 "인공 뉴럴 네트워크(artificial neural network: ANN)"로 명명될 수도 있다. "딥 러닝(deep learning)"이라는 용어도 일반적으로 사용된다. 본 발명의 맥락에서 사용될 수 있는 특정 유형의 뉴럴 네트워크는, 콘볼루션 뉴럴 네트워크(CNN)이지만, 임의의 다른 유형의 피드포워드 뉴럴 네트워크(FNN)도 사용될 수 있다. 또한, 순환형 뉴럴 네트워크(Recurrent Neural Network: RNN) 또는 딥 브리프 네트워크(Deep Brief Network: DBN)와 같은 다른 유형들이 이용될 수도 있다.

"피처 벡터"라는 용어는, 본 명세서의 문맥에서, 뉴럴 네트워크의 트레이닝 동안에 분석을 수행하는 뉴럴 네트워크에 의해 설계된 다차원 공간 내의 벡터로 이해되어야 한다. 공간의 차원들은 대부분 일반적으로 인간에 의해 파악될 수 없는바, 왜냐하면 이들은 식별 혹은 분류 트레이닝 동안 가장 유용한 것으로 뉴럴 네트워크가 경험한 시각적 피처들을 서술하기 때문이다. 따라서, 본 명세서의 문맥에서, 피처 벡터(외관 벡터로도 알려짐)는 뉴럴 네트워크가 프로세싱하는 이미지 데이터 내의 예컨대 객체의 시각적 외양을 서술한다. 다차원 공간은 유사한 종류의 입력 데이터를 클러스터링하고 다른 종류의 입력 데이터를 분리하도록 설계된다. 어떤 목적으로 뉴럴 네트워크가 설계되었는지에 따라, "비슷한 종류"와 "다른 종류"는 다른 것들을 의미한다. 모니터링 목적으로 설계된 뉴럴 네트워크의 가장 일반적인 경우는 뉴럴 네트워크에 의해 프로세성되는 이미지에서 객체들(예컨대, 사람들)의 식별을 수행하는 것이다. 이와 관련하여, 유사한 종류의 입력 데이터는 동일 신원의 사람들을 포함하는 입력 데이터를 의미하는 반면에, 다른 종류의 입력 데이터는 상이한 신원들의 사람들을 포함하는 입력 데이터를 의미한다. 이 경우, 뉴럴 네트워크는 사람들을 식별하고, 동일한 신원의 사람들을 나타내는 입력 데이터를 클러스터링하도록 설계된다(예컨대, 이미지들이 다른 각도들에서 캡처된 경우라 하더라도). 다른 실시예에서, 뉴럴 네트워크는 동일한 클래스의 입력 데이터를 클러스터링하도록 트레이닝되는바(소정의 공통 관계 혹은 속성에 따라 클래스들, 순서들, 패밀리들 등과 같은 그룹들로 분산시키는 것), 예를 들면, 동일한 품종의 강아지들 혹은 자전거들로부터 자동차를 분리시키는 것 등이다. 이러한 맥락에서 유사한 종류의 입력 데이터는 동일한 클래스의 객체들을 포함하는 입력 데이터를 의미하는 반면에, 다른 종류의 입력 데이터는 다른 클래스의 객체들을 포함하는 입력 데이터를 의미한다. 달리 말하면, 예컨대, 사람에 대한 재-식별과 같이 뉴럴 네트워크가 트레이닝되었던 분석 임무와 관련된 시각적 외양의 양상들을 피처 벡터가 특징화하게 하는 것이 목표이다. 피처 벡터는 2개의 이미지들이 동일한 사람을 묘사하고 있는지 아닌지를 말할 수 있게 하는 개인들 간의 불변의 양상들(insariant aspects)을 포함하지만, 예를 들어, 포즈/각도, 조명 차이들, 이미지의 선명도 등으로 인한 외양 차이들에 대한 의존은, 피처 벡터들에서 가능한한 많이 억제된다.

뉴럴 네트워크의 맥락에서, 이러한 네트워크들은 학습 프로세스가 최적화(종종 최소화이지만, 비용 함수는 최대화되도록 설계될 수도 있다)되려고 시도하는 비용 함수(cost function)를 이용하여 트레이닝된다. 일반적으로, 뉴럴 네트워크는 전술한 바와 같이 사용자의 필요에 따라 데이터를 프로세싱하도록 트레이닝될 필요가 있다. 뉴럴 네트워크는 비용 함수와 관련하여 성능을 최적화하도록 트레이닝되어야만 한다. 뉴럴 네트워크의 트레이닝 동안, 학습 알고리즘은 비용 함수의 최소값(또는 최대값)를 찾기 위해 비용 함수의 그레디언트(gradients)에 의존한다. 일부 경우들에서, 발견된 최소값은 국부적 최소값(local minimum)일 수 있다. 따라서, 본 실시예와 관련하여, 기준 피처 벡터와 제 1 뉴럴 네트워크에 의해 출력된 피처 벡터 간의 거리 측정치가 큰 경우, 비용이 커질 것이며 그리고 비용을 더 작게하기 위하여 제 1 뉴럴 네트워크의 가중치들이 업데이트된다(비용 함수의 그레디언트에 따라).

전술한 바와 같이, 뉴럴 네트워크를 트레이닝 할 때, 뉴럴 네트워크의 트레이닝 및 설계/아키텍처에 관한 많은 상이한 세부 사항들이 네트워크에 의해 어떻게 다차원 공간이 형성되는지에 영향을 미친다. 각각의 입력 이미지 데이터에 대한 출력 피처 벡터의 값은 공간이 어떻게 형성되는지에 의존한다.

본 발명의 발명자들은 본 실시예에 의해, 서로 다른 디바이스들에 구현된 뉴럴 네트워크들에 의해 프로세싱된 이미지 데이터로부터의 피처 벡터들이 비교될 수 있다는 점을 발견하였다(심지어, 디바이스들의 하드웨어 아키텍처가 다르거나 혹은 뉴럴 네트워크들의 아키텍처가 다른 경우에도). 이것은 다음과 같은 이유로 가능한바, 뉴럴 네트워크들을 트레이닝할 때 기준 뉴럴 네트워크의 출력이 그라운드 트루(ground truth)로서 사용되었기 때문이다. 기준 뉴럴 네트워크(공통 뉴럴 네트워크, 제 2 뉴럴 네트워크 등이라고 지칭되기도 함)으로부터 출력되는 피처 벡터들(즉, 기준 피처 벡터들)을 이용하여 제 1 뉴럴 네트워크를 트레이닝함으로써, 제 1 뉴럴 네트워크의 다차원 공간은, 기준 뉴럴 네트워크의 다차원 공간을 향해 수렴될 것이다. 따라서, 기준 뉴럴 네트워크는 본 명세서에 기술된 바와 같이 트레이닝된 임의의 뉴럴 네트워크에 대해 정규화 효과(normalizing effect)를 가지게 될 것이다.

본 실시예의 또 다른 이점은 기준 뉴럴 네트워크의 세부내용(specifics)을 고려함이 없이도, 또는 전혀 알지 못해도, 예컨대, 아키텍처 선택, 노드 개수, 뉴럴 네트워크 유형 등과 같은 제 1 뉴럴 네트워크의 구현이 이루어질 수 있다는 점이다. 또한, 각각의 뉴럴 네트워크의 다차원 공간이 유사해질 것이기 때문에, 복수의 제 1 네트워크들은, 서로의 세부사항 없이도, 또는 서로의 존재를 알지 못해도 트레이닝될 수 있고, 그리고 여전히 비교할만한 출력 피처 벡터를 생성할 수 있다.

본 실시예의 또 다른 이점은 예컨대, 방대한 개수의 트레이닝 이미지를 사용하여 기준 뉴럴 네트워크가 원하는 정밀도로 트레이닝될 수 있으며 혹은 매우 정확한 결과를 산출하도록 적응된 디바이스("최상의"아키텍처)에서 구현될 수 있다는 점이다. 또 다른 이점은, 기준 뉴럴 네트워크를 트레이닝하기 위한 그 어떤 시간 제약들 또는 하드웨어 제약들이 존재하지 않을 수 있다는 점인데, 왜냐하면 이것이 전용 디바이스에서 오프라인으로 수행될 수 있거나 또는 제 1 뉴럴 네트워크의 트레이닝에 충분히 앞서서 수행될 수 있기 때문이다. 기준 뉴럴 네트워크는 독점적 비밀로 유지될 수 있고 그리고 노출될 필요가 없으며, 오직 기준 피처 벡터만이 제 1 뉴럴 네트워크에 대해 액세스가능해야 한다.

일부 실시예에 따르면, 기준 뉴럴 네트워크는 트리플렛 기반의 비용 함수를 사용하여 트레이닝되었으며, 여기서 트리플렛 기반의 비용 함수는 동일한 분류 또는 식별의 입력 이미지들의 쌍(pair)을 다른 분류 또는 식별의 제 3 입력 이미지로부터 분리하는 것을 목표로 하며, 따라서 상기 동일한 분류 또는 식별의 입력 이미지들의 쌍 사이의 제 1 거리와, 상기 동일한 분류 또는 식별의 입력 이미지들의 쌍 중 하나와 상기 제 3 입력 이미지 사이의 제 2 거리 사이의 차이값이 적어도 거리 마진 알파(α)가 되며, 비용 함수를 최적화하기 위해 제 1 뉴럴 네트워크를 트레이닝하는 단계는, 제 1 거리 측정치를 적어도 알파를 4로 나눈 값으로 감소시키는 단계를 포함한다.

"트리플렛 기반 비용 함수"라는 용어는, 본 명세서의 문맥에서, 제 1 분류 또는 식별을 갖는 객체를 포함하는 제 1 입력 이미지(앵커로도 알려짐)와 동일한 분류 또는 식별을 갖는 객체를 포함하는 제 2 입력 이미지(포지티브로도 알려짐) 사이의 거리를 최소화하거나 감소시키는 함수로 이해되어야 한다. 또한, 트리플렛 기반 비용 함수는 제 1 입력 이미지와 제 3 이미지(네거티브라고도 알려져 있으며, 또 다른 분류 또는 식별을 갖는 객체를 포함함) 사이의 거리가, 입력 이미지들의 앵커-포지티브 쌍 사이의 거리 보다 큰, 적어도 알파임을 충족해야 한다. 이것은 다음을 의미하는바, 알파 값을 사용하여 앵커-포지티브 쌍과 앵커-네가티브 쌍 사이의 분리에 있어 차이를 생성하며, 따라서 이미지들의 특정 트리플렛에 대해, 앵커-네가티브 쌍 사이의 거리는 앵커-포지티브 쌍 사이의 거리보다 큰 적어도 알파이다. 다음을 유의해야 하는바, 알파는 항상 양수이다. 트리플렛의 앵커-포지티브 쌍 사이의 거리와 앵커-네거티브 쌍 사이의 거리의 차이값이 알파보다 작은 경우, 비용 함수는 뉴럴 네트워크의 가중치를 변경하여, 상기 차이값을 알파쪽으로 증가시킨다. 또한, 알파 거리 마진에 도달하는 것은 반복적인 프로세스(iterative process)일 수 있음에 유의해야 한다. 트리플렛 기반 비용 함수는 차이값이 알파쪽으로 증가하도록 가중치들을 변경할 것이나, 알파 거리 마진은 한 번의 반복으로 도달하지 못할 수 있다. 트레이닝 데이터베이스의 모든 이미지에 대해 모든 알파 조건들을 충족시키는 것은 반복적인 프로세스이며, 알파 거리 마진은 특정 트리플렛에 대해 달성되지 않는다. 가중치를 변경하는 비용 함수에 기초하여 그레디언트가 계산되며 따라서 특정 트리플렛은 알파 마진을 충족하도록 좀더 가까워질 것이다. 하지만, 차이값이 이미 알파보다 큰 경우, 비용 함수는 상기 특정 트리플렛에 대한 뉴럴 네트워크의 가중치에 영향을 미치지 않을 것이다. 따라서, 뉴럴 네트워크 초공간(hyperspace)에서 상이한 분류들 또는 식별들의 이미지 데이터의 분리가 달성된다. 이러한 알파 값에 대한 자세한 내용은 공개된 논문에 개시되어 있으며, 예를 들어, Schroff 등의 "FaceNet: A Unified Embedding for Face Recognition and Clustering"(Google Inc.)에 개시되어 있다.

제 1 네트워크의 트레이닝에서 알파 값을 사용하고, 제 1 뉴럴 네트워크의 피처 벡터와 기준 뉴럴 네트워크로부터 검색된 기준 피처 벡터 간의 거리를 적어도 알파(α)/4로 감소시키는 것은, 제 1 뉴럴 네트워크가 언제 "충분히 양호(good enough)" 한지 그리고 트레이닝이 어디서 중단될 수 있는지에 대한 양호한 값(good value)을 제공할 수 있는데, 왜냐하면 알파(α)/4 라는 오류는, 기준 벡터와 비교하여 오류가 있음에도 불구하고, 특정 분류의 객체가 올바른 클래스로 분류될 것임을 여전히 의미하기 때문이다. 이에 대해서는 아래의 도 6-7과 함께 더 자세히 설명될 것이다. 이러한 실시예는 트레이닝의 속도를 증가시킬 수 있다. 일부 실시예에 따르면, 기준 피처 벡터를 검색하는 단계는 제 1 트레이닝 이미지를 기준 뉴럴 네트워크에 전송하고, 기준 뉴럴 네트워크에 의해 제 1 트레이닝 이미지를 프로세싱하고, 그리고 기준 뉴럴 네트워크로부터 상기 출력된 피처 벡터를 검색하는 단계를 포함한다. 이러한 방식으로, 기준 뉴럴 네트워크는 이전에 제 1 트레이닝 이미지를 "보았을(seen)" 필요가 없으며 또는 제 1 트레이닝 이미지에 대해 트레이닝되었을 필요가 없다. 제 1 트레이닝 이미지는 제 1 뉴럴 네트워크의 이미지 프로세싱 태스크(예를 들어, 지하철 역에서 또는 사무실 빌딩의 입구 등에서 캡처된 이미지를 프로세싱하는 것)에 특화된 이미지일 수 있다. 그 다음, 제 1 트레이닝 이미지는 기준 뉴럴 네트워크에 의해 프로세싱될 수 있고, 그 후 기준 뉴럴 네트워크는 제 1 뉴럴 네트워크에 의한 검색을 위해 피처 벡터를 반환한다.

일부 실시예에 따르면, 기준 피처 벡터를 검색하는 단계는, 피처 벡터들을 포함하는 데이터베이스에서의 키(key)로서 제 1 트레이닝 이미지에 관한 데이터를 사용하고, 그리고 상기 키에 대응하는 값을 상기 데이터베이스로부터 검색하는 단계를 포함한다. 이러한 실시예에서, 이미지들의 특정 세트는 이미 기준 뉴럴 네트워크에 의해서 프로세싱되었으며, 그리고 해당 이미지에 관한 데이터(예컨대, 해시 값과 같은 이미지의 핑커프린트)를 키로서 이용하여, 결과적인 피처 벡터들이 데이터베이스에 저장된다. 따라서, 제 1 뉴럴 네트워크의 트레이닝은 트레이닝 이미지 또는 선택적으로 전체 트레이닝 이미지에 관한 상기 데이터를 데이터베이스에 전송하는 단계, 상기 데이터베이스는 선택적으로는 제 1 뉴럴 네트워크로부터 수신된 데이터로부터 데이터베이스에서 키(예를 들어, 해시 값)로서 사용될 데이터를 추출하며, 그리고 기준 뉴럴 네트워크에 의해서 이전에 생성된 피처 벡터(즉, 상기 제 1 뉴럴 네트워크를 트레이닝하기 위한 그라운드 트루가 되는)를 상기 데이터베이스로부터 검색하는 단계를 포함할 수 있다. 이 실시예는 제 1 뉴럴 네트워크를 트레이닝할 때에 시간을 절약할 수 있으며 그리고 대역폭도 절약할 수 있는바, 일부 실시예에 따르면, 전체 트레이닝 이미지가 전송될 필요가 없기 때문이다.

일부 실시예에 따르면, 제 1 거리 측정치는 기준 피처 벡터와 제 1 뉴럴 네트워크에 의해 출력된 피처 벡터 간의 유클리드 거리이다. 이것은 계산 비용이 저렴한 거리 측정법이다. 대안적으로, 임의의 p-노름 메트릭(p-norm metric) 또는 측정치와 같은 다른 거리 측정치가 사용될 수 있다.

일부 실시예에 따르면, 제 1 뉴럴 네트워크와 기준 뉴럴 네트워크는 상이한 유형의 뉴럴 네트워크이다. 예를 들어, 다양한 유형의 소프트웨어 라이브러리(예: 오픈 소스) 또는 네트워크 아키텍처가 사용될 수 있다. 이러한 네트워크 아키텍처들의 일례는, GoogLeNet, AlexNet 등을 포함한다. 소프트웨어 라이브러리의 예는 TensorFlow, Caffe 등이다. 다른 실시예에 따르면, 제 1 및 기준 뉴럴 네트워크는 상이한 양의 계층들(different quantities of layers), 각 계층에서 상이한 양의 노드들 등을 포함한다. 용어 "상이한 유형들의 뉴럴 네트워크들"은 다른 경우 동일한 네트워크 구조를 가질 수도 있는 제 1 뉴럴 네트워크 및 기준 뉴럴 네트워크의 내부 숫자 표현에서 서로 다른 비트 폭들을 더 포괄한다. 상기 용어는 또한, 가지치기(pruned)(계산 속도를 높이기 위해 일부 작은 가중치가 0으로 설정된)되었지만 유사한 네트워크, 또는 그 동작들 중 일부를 위해 최적화된 함수들을 사용하는 네트워크(예컨대, 더 작은 정확도 오류를 생성할 수 있는 몇 가지 트릭을 사용하여 최적화된 컨볼루션을 수행하는 특정 함수들을 갖는), 기타 등등을 포괄한다.

일부 실시예에 따르면, 제 1 뉴럴 네트워크는 제 1 하드웨어 아키텍처를 갖는 디바이스에 의해 구현되고, 기준 뉴럴 네트워크는 제 1 하드웨어 아키텍처와 상이한 제 2 하드웨어 아키텍처를 갖는 디바이스에 의해 구현된다. 예를 들어, 제 1 뉴럴 네트워크는 임베디드 디바이스에서 실행되는 매우 작은 정수형 뉴럴 네트워크 일 수 있는 반면에, 기준 뉴럴 네트워크는 클라우드 혹은 전용의 컴퓨팅 박스에서 구동되는 대형의 부동 소수점 네트워크일 수 있다.

일부 실시예에 따르면, 전술한 실시예들 중 어느 하나의 단계들은 복수의 트레이닝 이미지들에 대해 반복된다.

일부 실시예에 따르면, 상기 방법은 제 1 뉴럴 네트워크와 버전 번호를 연관시키는 단계를 더 포함하며, 버전 번호는 제 1 뉴럴 네트워크가 기준 뉴럴 네트워크로부터의 기준 피처 벡터로 트레이닝되었을 때의 기준 뉴럴 네트워크의 버전 번호를 반영한다. 이 실시예에서와 같이 버전 번호를 사용함으로써, 제 1 뉴럴 네트워크를 업그레이드 또는 재-트레이닝할 필요가 있을 때를 용이하게 알 수 있다.

제 2 양상에서, 본 발명은 프로세싱 능력을 갖는 디바이스에 의해 실행될 때 제 1 양상의 임의의 실시예의 방법을 수행하도록 된 명령들을 갖는 컴퓨터 판독가능 저장 매체를 제공한다.

제 3 양상에서, 본 발명은 이미지 데이터를 프로세싱하고 상기 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하도록 된 제 1 뉴럴 네트워크를 포함하는 디바이스를 제공하며, 상기 디바이스는 프로세서를 포함하고, 상기 프로세서는,

기준 피처 벡터를 검색하고, 상기 기준 피처 벡터는 기준 뉴럴 네트워크에 의해서 제 1 트레이닝 이미지를 프로세싱함으로써 계산되며, 상기 기준 뉴럴 네트워크는 이미지 데이터를 프로세싱하고 그리고 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하며,

비용 함수를 최적화하기 위해 상기 제 1 뉴럴 네트워크를 트레이닝하도록 구성되며, 상기 비용 함수는 상기 제 1 트레이닝 이미지를 프로세싱할 때에 상기 기준 피처 벡터와 제 1 뉴럴 네트워크에 의해 출력된 피처 벡터 사이의 적어도 제 1 거리 측정치를 포함하고, 상기 비용 함수는 상기 제 1 거리 측정치를 최소화하도록 구성된다.

제 4 양상에서, 본 발명은 복수의 디바이스들을 포함하는 시스템을 제공하며, 각각의 디바이스는 제 1 양상에 따라 트레이닝된 제 1 뉴럴 네트워크를 포함하고, 각각의 디바이스는 또한, 추출된 객체의 이미지 데이터를 프로세싱하고 상기 제 1 뉴럴 네트워크로부터 출력된 피처 벡터를 전송하도록 상기 제 1 뉴럴 네트워크를 이용하여 이미지로부터 객체를 추출하고, 상기 시스템은 객체 추적 유닛을 더 포함하고, 상기 객체 추적 유닛은 상기 디바이스들로부터 피처 벡터들을 수신하고, 상기 수신된 피처 벡터들에 기초하여 디바이스들의 상기 시스템을 통해 객체를 추적한다.

전술한 바와 같이, 트레이닝 이미지에 대한 기준 피처 벡터를 제공하기 위해 공통의 기준 뉴럴 네트워크를 사용하고, 이것을 다른 뉴럴 네트워크들을 트레이닝하는데 사용하고, 트레이닝된 뉴럴 네트워크는 유사한 다차원 공간을 생성하도록 조정되는바, 따라서 소정 이미지에 대한 각 뉴럴 네트워크로부터의 출력 피처 벡터들은 유의미한 방식(a meaningful way)으로 비교될 수 있다(왜냐하면 모든 피처 벡터들이 동일하거나 매우 유사한 벡터 공간에 존재하기 때문에). 결과적으로, 상이한 뉴럴 네트워크들(상이한 디바이스들에서 구현됨)로부터의 피처 벡터들이 비교될 수 있고, 따라서 객체를 추적하는데 사용될 수 있다.

일부 실시예에 따르면, 복수의 디바이스들 각각의 제 1 뉴럴 네트워크는 버전 번호에 또한 연관되고, 상기 버전 번호는 제 1 뉴럴 네트워크가 트레이닝되었을 때의 기준 뉴럴 네트워크의 버전 번호를 반영하고, 상기 복수의 디바이스들 중 하나의 디바이스의 제 1 뉴럴 네트워크와 연관된 버전 번호는 상기 제 1 뉴럴 네트워크로부터 출력된 피처 벡터와 함께 전송되며, 객체 추적 유닛은 수신된 피처 벡터들 및 버전 번호들에 기초하여 디바이스들의 시스템을 통해 객체를 추적하도록 구성된다.

일부 실시예에 따르면, 복수의 디바이스들 중 적어도 하나는 네트워크 카메라이고, 상기 객체는 네트워크 카메라에 의해 캡처된 이미지로부터 추출된다.

일부 실시예에 따르면, 객체 추적 유닛은 복수의 디바이스 중 적어도 하나에서 구현되며, 디바이스로부터의 피처 벡터를 전송하는 것은 멀티캐스트 또는 브로드캐스트 전송을 사용하여 구현된다.

일부 실시예에 따르면, 객체 추적 유닛은 복수의 디바이스들과는 별도이며 복수의 디바이스들 각각에 연결된 다른 디바이스에서 구현된다.

제 2, 제 3 및 제 4 양상은 일반적으로 제 1 양상과 동일한 특징 및 이점을 가질 수 있다.

본 발명의 상기 목적 및 추가적인 목적, 특징 및 이점은, 첨부된 도면을 참조하여, 본 발명의 실시예에 대한 다음의 예시적이고 비 제한적인 상세한 설명을 통해 더 잘 이해될 것이며, 도면에서 동일한 참조 번호들은 유사한 요소들에 대해 사용될 것이다.
도 1은 입력 이미지를 프로세싱하고 입력 이미지를 기술하는 피처 벡터를 출력하는 뉴럴 네트워크를 도시하며,
도 2는 2 개의 상이한 뉴럴 네트워크에 의해 프로세싱되는 2 차원 피처 공간 내의 2 개의 객체들의 피처 벡터를 도시하며,
도 3은 실시예에 따른 뉴럴 네트워크의 트레이닝을 도시하며,
도 4는 이미지들에 의해 캡처된 객체를 추적하는데 사용되는 디바이스들의 시스템을 도시하며,
도 5는 실시예에 따른 뉴럴 네트워크를 트레이닝시키는 방법을 도시하며,
도 6은 기준 뉴럴 네트워크의 다차원 공간에 동일한 클래스들이 매핑된 이미지들의 클러스터들 사이의 최소 거리인 거리 마진을 도시하고,
도 7은 제 1 뉴럴 네트워크를 트레이닝할 때 기준 뉴럴 네트워크의 알파 값의 사용을 도시한다.

도 1은 뉴럴 네트워크(104)의 예시적인 기능을 도시한다. 뉴럴 네트워크를 사용하는 것은 규칙 기반 접근법(rule based approach이 잘 작동하지 않을 수 있는 객체 인식과 같은 컴퓨터 비전 문제를 해결하는 좋은 방법이 될 수 있다. 규칙 기반 접근법을 사용하여 다른 유형(즉, 클래스)의 다른 객체와 비교되는, 하나의 (복잡한) 객체의 구별되는 피처들을 정의하는 것은 매우 어려울 수 있는바, 특히 식별되어야 하고 서로 구분될 수 있는 객체들이 어떤 유형인지가 이전에 알려지지 않은 경우에는 더 그러하다. 여기에는 뉴럴 네트워크의 장점들 중 하나가 존재한다. 뉴럴 네트워크로 객체들을 식별하거나 분류할 때, 출력은 피처 벡터일 수 있다. 이것은 도1에 도시되어 있으며, 도1에서 입력 이미지(102)(또는 입력 이미지 데이터 102)는 뉴럴 네트워크(104)에 의해 프로세싱된다. 뉴럴 네트워크로부터의 출력은 피처 벡터(106)이다. 도 1의 일례에서, 피처 벡터(106)의 차원수(dimensionality)는 4 이지만, 이는 단지 예시일 뿐이다. 피처 벡터(106)는 입력 이미지(102) 내의 객체의 시각적인 외양(visual appearance)을 기술한다. 피처 벡터(106)는 분석을 수행하는 뉴럴 네트워크(104)에 의해 설계된 다차원 공간의 벡터이다. 공간의 차원들(본 일례에서는 4 차원이며, 그 각각은 피처 벡터(106)의 값(106a-d)에 의해 표현된다)은 대부분 일반적으로 인간에 의해 파악될 수 없는바, 왜냐하면 이들 차원들은 뉴럴 네트워크(104)의 트레이닝 동안 객체들의 식별 혹은 분류와 그리고 서로 다른 신원들/클래스들의 객체들 간의 분리를 위해 가장 유용한 것으로 뉴럴 네트워크(104)가 경험한 시각적 피처들을 서술하기 때문이다.

하지만, 전술한 바와 같이, 상이한 뉴럴 네트워크들은 동일한 객체에 대해 상이한 유형들의 피처 벡터들(다른 비교할 수 없는 피처 공간들에 있음)을 제시할 수 있다.

도 2는 2 차원 공간에서 2개의 서로 다른 뉴럴 네트워크들에 의해 만들어진 2개의 객체들(도 2에서 4개의 변을 갖는 별과 다이아몬드로 표시됨)의 매핑 일례를 도시한다. 이러한 단순화된 예에서, 2 개의 뉴럴 네트워크는 동일한 차원수의 벡터들을 출력한다. 이러한 것은 일반적으로 발생하지만, 서로 다른 차원의 벡터들이 2 개의 다른 뉴럴 네트워크들에 의해 출력될 수 있다. 종종, 뉴럴 네트워크를 사용하여 복잡한 객체들을 양호하게 분류하기 위해서, 100 - 1000 개의 차원들이 필요하다. 도 2에서는, 단순화를 위해 2 개의 차원들이 사용된다. 도 2의 2 차원 공간에서 하나의 뉴럴 네트워크는 별들(202)을 좌측(낮은 x 값들)으로 분류하고 다이아몬드(208)를 오른쪽(높은 x 값들)으로 분류하는 반면에, 다른 뉴럴 네트워크는 별들(204)을 오른쪽으로(높은 x 값들) 분류하고 다이아몬드(206)를 왼쪽(낮은 x 값들)으로 분류한다. 만일, 2개의 서로 다른 객체들에 대한 2개의 뉴럴 네트워크들의 피처 벡터들이 객체 비교에 직접적으로 이용된다면, 제 1 뉴럴 네트워크의 다이아몬드는 제 2 뉴럴 네트워크의 별과 매칭될 것이며, 그 반대의 경우도 마찬가지일 것이다. 이러한 것은 서로 다른 모니터링 카메라들, 비디오 인코더들, 및 비디오 서버들(그 각각은 객체 분류를 위해 사용되는 개별 뉴럴 네트워크를 가짐)이 객체들(동일한 신원의 객체들 혹은 일부 덜 전형적인 실시예에서는 동일한 클래스의 객체들)을 추적하는데 사용되는 모니터링 시스템에서 문제가 될 수 있다(모니터링 시스템을 통해).

본 개시 내용은 이러한 문제점에 대한 해결책을 제공한다. 요약하면, 전술한 문제점은, 기준 뉴럴 네트워크에 대해서 뉴럴 네트워크를 트레이닝시킴으로써 해결된다. 이것은 이제 도 3 및 도 5를 참조하여 설명될 것이다. 제 1 뉴럴 네트워크(104)(즉, 트레이닝될 뉴럴 네트워크)은 이미지 데이터(310)를 프로세싱하고 그리고 프로세싱된 이미지 데이터(310)에 대한 피처 벡터(106)를 형성하는 값들(106a-106d)의 벡터를 출력한다. 특정한 입력 이미지 데이터(310)에 대하여 출력된 피처 벡터(106)가, 상이한 아키텍처를 갖거나 혹은 상이한 트레이닝 이미지들을 이용하여 트레이닝되거나 혹은 상이한 세부사양(specifications)을 구비한 하드웨어 상에서 구동되는 뉴럴 네트워크들에 대해 비교가능해지는 것을 "강제(force)"하도록, 기준 뉴럴 네트워크(302)(제 2 뉴럴 네트워크)가 트레이닝을 위해 이용된다. 기준 뉴럴 네트워크(302)은 원하는 정확도로 트레이닝되었다고 가정한다. 제 1 뉴럴 네트워크(104)의 트레이닝 동안, 예컨대 기준 뉴럴 네트워크(302)의 가중치들에 대한 그 어떤 변경도 수행되지 않는다. 트레이닝 이미지(310)에 대해, 제 1 뉴럴 네트워크(104)은 피처 벡터(106)를 계산한다. 또한, 제 1 뉴럴 네트워크(104)는, 이러한 특정 트레이닝 이미지(310)에 대한 그라운드 트루(ground truth)(즉, 정확한 피처 벡터)로서 사용되는 기준 피처 벡터(306)를 검색한다(S508). 이것은, 예컨대, 이러한 기준 피처 벡터들을 제공하는 서비스(312)로부터 트레이닝 이미지(310)에 대한 기준 피처 벡터를 요청(S502)함으로써, 실행될 수 있다. 일부 실시예에 따르면, 기준 피처 벡터(306)를 검색하는 단계는 제 1 트레이닝 이미지(310)를 기준 뉴럴 네트워크(302)에 전송하는 단계를 포함한다. 그 다음, 기준 뉴럴 네트워크(302)는 제 1 트레이닝 이미지(310)를 프로세싱할 수 있다(S504). 다음으로, 제 1 뉴럴 네트워크(104)는 출력된 피처 벡터(306)(그라운드 트루)를 기준 뉴럴 네트워크(302)로부터 검색할 수 있다(S508). 예를 들어, 기준 피처 벡터들을 제공하는 서비스(312)는 기준 뉴럴 네트워크(302)에 의해서 기준 피처 벡터(306)가 출력되었을 때, 요청하는 뉴럴 네트워크(104)로 기준 피처 벡터(306)를 전송할 수 있다. 이러한 실시예는 예를 들어, 기준 뉴럴 네트워크(302)가 이전에 프로세싱하지 않았던 트레이닝 이미지로 제 1 뉴럴 네트워크(104)를 트레이닝하는 것을 용이하게 할 수 있다. 다른 실시예에서, 기준 피처 벡터(306)를 검색하는 것은 제 1 트레이닝 이미지(310)에 속하는 데이터(310')를 사용하고 그리고 상기 데이터(310')를 기준 피처 벡터를 제공하는 서비스(312)에 전송하는 것을 포함한다. 데이터(310')는 트레이닝 이미지(310)의 임의의 유형의 고유 식별자일 수 있는데, 예를 들어 전체 트레이닝 이미지(310), 트레이닝 이미지(310)의 해시 값 또는 트레이닝 이미지(310)에 대한 미리 결정된 식별자일 수 있다. 다음으로, 상기 데이터(310')는 데이터베이스(304)에서 키(key)로서 이용될 수 있는 바(선택적으로, 상기 데이터 310'는 서비스 312에서 미리-프로세싱되어 데이터베이스에 대한 올바른 포맷이 될 수 있으며, 여기서 미리-프로세싱된 데이터는 여전히 제 1 트레이닝 이미지 310에 대한 데이터가 될 것이다), 이는 데이터베이스(304) 내의 트레이닝 이미지(310)에 대한 기준 피처 벡터(306)를 찾아내기 위한 위한 것이다. 데이터베이스(304)는 기준 피처 벡터들 및 각각의 기준 피처 벡터에 대한 식별자들을 미리 제공받았으며, 여기서 기준 피처 벡터들은 기준 뉴럴 네트워크(302)에 의해서 계산된다. 이러한 실시예에서, 제 1 뉴럴 네트워크의 트레이닝이 수행될 수 있기 전에(트레이닝을 위한 미리정의된 세트의 이미지들로부터의 이미지를 사용하여), 미리정의된 세트의 이미지들이 기준 뉴럴 네트워크(302)에 의해서 결정 및 프로세싱된다.

기준 피처 벡터(306)가 검색되면, 제 1 뉴럴 네트워크(104)은 기준 뉴럴 네트워크(302)에 의해 출력된 피처 벡터들에 필적하는 피처 벡터들(106)을 출력할 수 있도록 트레이닝될 수 있다. 이것은 비용 함수(308)를 감소시킴으로서 달성될 수 있으며(비용 함수는 도3에서 S 자와 유사한 심볼로 표현된다), 여기서 상기 비용 함수(308)는 제 1 트레이닝 이미지(310)를 프로세싱할 때 기준 피처 벡터(306)와 제 1 뉴럴 네트워크(104)에 의해 출력된 피처 벡터(106) 사이의 적어도 제 1 거리 측정치를 포함한다. 따라서, 비용 함수는 예를 들어, 뉴럴 네트워크의 뉴론들(노드들) 사이의 가중치들을 변경함으로써 적응되어, 출력 피처 벡터(106)가 기준 피처 벡터에 더 가깝게(보다 비교가능하게)될 수 있도록 상기 제 1 거리 측정치를 최소화한다. 이러한 비용 함수의 세부 사항은 해당 기술분야의 당업자에게 맡겨져 있지만, 일반적으로 비용 함수는 상기 제 1 거리 측정치가 적어도 국부적으로 최소화되는 최소값 또는 최대값에 도달하도록 최적화된다.

결과적으로, 비용 함수를 최적화도록 제 1 뉴럴 네트워크가 트레이닝되는바, 따라서 비용 함수는 출력 피처 벡터(106)와 기준 피처 벡터(306) 사이의 거리를 최소화하도록 적응된다. 제 1 뉴럴 네트워크로부터의 피처 벡터들과 기준 피처 벡터들이 얼마나 가까운지에 대한 성능 제한이 존재할 수도 있다. 하지만, 뉴럴 네트워크들을 트레이닝하기 위한 전술한 방법을 사용함으로써, 동일한 기준 뉴럴 네트워크에 대해서 트레이닝된 모든 뉴럴 네트워크들은, 소정의 신뢰도 레벨 내에서 비교할만한 피처 벡터들을 생성할 수 있다. 일부 실시예에 따르면, 기준 뉴럴 네트워크의 트레이닝과 관련된 데이터는, 합리적인 신뢰도 레벨로 제 1 뉴럴 네트워크를 트레이닝시키는데 사용될 수 있다. 구체적으로는, 동일한 식별 또는 분류(same identification or classification)를 갖는 한 쌍의 입력 이미지들 및 다른 식별/분류를 갖는 제 3의 입력 이미지를 사용하여 트레이닝하는 것을 포함하는, 소위 트리플렛 트레이닝(triplet training)을 사용하여 기준 뉴럴 네트워크가 트레이닝된 경우, 이러한 트레이닝에 대한 소위 거리 마진이, 제 1 뉴럴 네트워크를 트레이닝할 때에 이용될 수 있다. 이러한 유형의 트레이닝에서, 뉴럴 네트워크의 비용 함수는, 동일한 식별/분류의 입력 이미지 쌍을 상기 다른 식별/분류의 제 3의 입력 이미지로부터 적어도 거리 마진(알파 라고도 함) 만큼 분리시키는 것을 목표로 한다.

도 6 내지 도 7은 거리 마진 α를 개략적으로 설명하며, 거리 마진 α는 다차원 공간에 매핑된 동일한 식별/분류를 갖는 이미지들의 클러스터들 사이의 최소 거리를 부분적으로 결정한다. 도 6에서 알 수 있는 바와 같이, 3 개의 클러스터들(602-606) 사이의 거리는 α+ r1/r2/r3 이다. 값 r1은 max(클러스터 604에서 가장 이격된 피처 벡터들 간의 거리, 클러스터 606에서 가장 이격된 피처 벡터들 간의 거리)에 대응한다. 동일한 방식으로, 값 r2/r3은 각각 클러스터들(602, 604) 및 클러스터들(602, 606)의 확산(spreading)에 의존한다. 트리플렛 트레이닝을 사용하여 기준 뉴럴 네트워크를 트레이닝시키는 전술한 방법에 의해서, 최종적인 결과는, 모든 트리플렛 조합이 알파 요건을 충족시키는 것으로 보이는 완벽한 시나리오에서, 도 6에 예시된 바와 같이 될 것이며, 여기서 r1 / r2 / r3 거리들은 최단 거리들을 나타내는바 따라서, 이미지들의 클러스터들로부터 선택된 트리플렛의 모든 조합들은 손실 함수로부터 제로 에러를 제공한다. 다음을 유의해야 하는데, 이러한 완벽한 트레이닝은 거의 일어나지 않는바, 즉 이미지의 클러스터들로부터 선택된 트리플렛의 모든 조합들이 손실 함수로부터 제로 에러를 제공하는 경우 거의 일어나지 않는다. 이것은 예컨대, 왜냐하면 트리플렛 조합들이 단지 너무 많기 때문에 모든 트리플렛 조합들을 트레이닝하는 것은 실현가능하지 않으며, 그리고 임의의 경우에서 뉴럴 네트워크가 그 성능을 잘 수행할 수 있는 상태로 수렴할 수 있을 것이라는 점을 보장할 수 없기 때문이다. 하지만, 잘 트레이닝된 네트워크의 경우, 도 6은 제 1 네트워크의 트레이닝 정확도와 관련하여 알파 값에 대한 현재의 논의에 대해 양호한 충분한 근사치가 될 가능성이 높다.

따라서 클러스터들(602-606)의 분리는 다를 것이지만, 모두는 부분적으로 알파 값에 의해 결정될 것이다. 이러한 실시예에서, 비용 함수를 최적화하기 위해 제 1 뉴럴 네트워크를 트레이닝시키는 단계(S510)는 적어도 α를 4로 나눈 값으로 제 1 거리 측정치를 감소시키는 단계를 포함한다. 이는 특정 입력 이미지 데이터에 대한 출력 피처가 정확한 분류/식별(즉, 기준 뉴럴 네트워크를 사용함에 따라 분류/식별됨)을 초래할 가능성이 여전히 높은 가장 작은 거리이다.

도 7은 제 1 거리 측정치를 적어도 알파를 4로 나눈 값으로 최소화하기 위해 제 1 뉴럴 네트워크를 트레이닝하는 값 배후의 이론적 해석을 단순화된 방식으로 도시한다. 설명의 편의를 위해, 도 7에서, 각각의 이미지 데이터가 프로세싱되며 그리고 단일 차원 공간으로 맵핑된다. 즉, 출력된 피처 벡터는 하나의 값을 포함한다. 각각의 클러스터(602, 606)에 대한 2개의 피처 벡터가 도시되며, 이들은 서로 가장 멀리 떨어져 있지만 동일한 신원/클래스를 여전히 갖는 피처 벡터들(즉, 각각의 클러스터(602, 606)에서 가장 이격된 피처 벡터들)을 나타낸다. 따라서, 좌측 클러스터(602)에서 피처 벡터들 사이의 거리는 d1이고, 우측 클러스터(606)에서 피처 벡터들 사이의 거리는 d2 이다. 전술한 바와 같이, 다차원 공간에서 서로 다른 신원들/클래스들의 가장 가까운 2개의 피처 벡터들 간의 거리는 α + max(d1, d2)이다. 도 7에 도시된 바와 같이, 이러한 분리는 제 1 뉴럴 네트워크를 트레이닝할 때 소정의 마진을 허용하고, 그리고 연관된 프로세싱된 이미지 데이터에 대한 정확한 식별/분류를 여전히 생성한다. 본 일례에서 이러한 마진은 알파(α)/4 이다. 모든 피처 벡터들이 "잘못된 방식(wrong way)"으로 α/4 만큼 떨어져 있는 경우, 즉 동일한 클러스터(602, 604) 내의 샘플들(예를 들어, 도 7의 별들, 각각의 샘플에 대한 피처 벡터를 나타냄) 사이의 거리가 증가되고 그리고 인접 클러스터들의 "외부(outer)" 샘플들 사이의 거리가 증가되는 경우, 서로 다른 신원들/클래스들을 갖는 가장 가까운 피처 벡터들은, 서로 가장 멀리 떨어져 있는 동일한 클러스터(602, 604) 내의 피처 벡터들 보다 여전히 서로 더 멀리 떨어져 있을 것이다.

전술한 바와 같이, 제 1 뉴럴 네트워크(104)을 트레이닝하기 위한 상기 방법을 사용하는 것은, 제 1 뉴럴 네트워크(104) 및 제 2 뉴럴 네트워크(302)로부터 비교할만한(comparable) 피처 벡터들이 출력되게 할 수 있다(심지어, 이들 제 1 및 제 2 뉴럴 네트워크가 서로 다른 유형들의 뉴럴 네트워크들임에도 불구하고). 예를 들어, 기준 뉴럴 네트워크는 제 1 네트워크 구조를 사용하여 구현될 수 있으며, 제 1 뉴럴 네트워크는 다른 네트워크 아키텍처를 사용하여 구현될 수 있다. 또한, 제 1 뉴럴 네트워크(104)을 트레이닝시키는 상기 방법을 사용하면, 제 1 하드웨어 아키텍처를 갖는 디바이스에 의해서 제 1 뉴럴 네트워크(104)가 구현되고 그리고 제 1 하드웨어 아키텍처와는 상이한 제 2 하드웨어 아키텍처를 갖는 디바이스에 의해서 기준 뉴럴 네트워크(302)가 구현되는 경우라 하여도, 제 1 뉴럴 네트워크(104) 및 제 2 뉴럴 네트워크(302)로부터 비교할만한 피처 벡터들이 출력되게 할 수 있다. 따라서, 트레이닝 방법이 강건하다(예컨대, 부동 소수점 값을 반올림하는 여러 가지 방식들에 대해 강건하다).

제 1 뉴럴 네트워크를 트레이닝하기 위해 제 1 트레이닝 이미지가 사용된 후에, 전술한 방법(임의의 실시예에 따른)이 복수의 트레이닝 이미지들에 대해서 반복될 수 있다(도 5의 L1).

일부 실시예에 따르면, 제 1 뉴럴 네트워크(104)은 버전 번호와 연관될 수 있으며, 버전 번호는 제 1 뉴럴 네트워크가 트레이닝된 시점에서의 기준 뉴럴 네트워크(302)의 버전 번호를 반영한다. 이러한 실시예는 피처 벡터들이 뉴럴 네트워크들 사이에서 비교될 때 동일한 버전의 기준 뉴럴 네트워크(즉, 기준 뉴럴 네트워크(302))이 트레이닝에 사용되었는지를 확인하는데 사용될 수 있다. 그렇지 않으면, 피처 벡터들의 비교가 수행될 수 없다.

도 4는 일례로서, 복수의 디바이스들(404-408)을 포함하는 시스템(400)을 예시하며, 여기서 각각의 디바이스(404-408)는 본 개시 내용에 따라 트레이닝된 뉴럴 네트워크를 포함한다. 따라서, 상기 시스템(400)은 디바이스들 사이에서 객체를 추적하는데 사용될 수 있는데, 왜냐하면 뉴럴 네트워크들로부터의 출력 피처 벡터들이 비교될 수 있기 때문이다. 예를 들어, 각각의 디바이스는 이미지로부터 대상을 추출하도록 될 수 있는바, 제 1 뉴럴 네트워크를 사용하여 추출된 객체의 이미지 데이터를 프로세싱하고 그리고 제 1 뉴럴 네트워크로부터 출력된 피처 벡터(106)를 전송할 수 있다. 일부 실시예에 따르면, 복수의 디바이스들 중 적어도 하나는 네트워크 카메라이고, 여기서 객체는 네트워크 카메라에 의해 캡처된 이미지로부터 추출된다.

시스템(400)에서, 디바이스들로부터 피처 벡터들을 수신하는 객체 추적 유닛(402)은 수신된 피처 벡터들(106)에 기초하여 디바이스들의 시스템을 통해 객체를 추적하는데 사용될 수 있다. 객체 추적 유닛(402)은 복수의 디바이스들 중 적어도 하나에서 구현될 수 있으며 이는, 객체 추적 유닛 자체가 복수의 디바이스들(404-408)과 유사한 디바이스이고 그리고 본 명세서에 서술된 바와 같이 트레이닝된 뉴럴 네트워크를 또한 포함함을 의미한다. 따라서, 시스템(400)은 피어-투-피어 네트워크 또는 임의의 다른 적절한 네트워크 아키텍처일 수 있다. 이 경우, 복수의 디바이스들(404-408) 중 하나의 디바이스로부터 피처 벡터(106)를 전송하는 것은 유니 캐스트, 멀티 캐스트 또는 브로드 캐스트 전송을 이용하여 구현될 수 있다. 다른 실시예들에서, 객체 추적 유닛(402)은 복수의 디바이스들(404-408)과는 별개이며 복수의 디바이스들(404-408) 각각에 연결된 다른 디바이스에서 구현된다. 이러한 실시예에서, 객체 추적 유닛(402)은 객체 추적의 중앙 처리를 용이하게하기 위해 서버 또는 이와 유사한 것으로 구현될 수 있다. 따라서, 복수의 디바이스들(404-408) 및 개별 객체 추적 유닛(402) 간의 피처 벡터들의 전송은, 전용 전송들(즉, 피처 벡터(106)의 전용 수신기로의)일 수 있다.

일부 실시예에 따르면, 복수의 디바이스들 각각의 제 1 뉴럴 네트워크는 버전 번호(410)와 더 연관된다. 상술한 바와 같이, 버전 번호는 제 1 뉴럴 네트워크가 트레이닝된 때의 기준 뉴럴 네트워크의 버전 번호를 반영한다. 이 경우, 복수의 디바이스들(404-408) 중 디바이스의 버전 번호(410)는, 제 1 뉴럴 네트워크로부터 출력된 피처 벡터(106)와 함께 전송된다. 따라서, 객체 추적 유닛은 수신된 피처 벡터들 및 버전 번호들에 기초하여 디바이스들의 시스템을 통해 객체를 추적하고, 그리고 동일한 버전 번호를 구비한 뉴럴 네트워크를 갖는 디바이스들로부터 수신된 피처 벡터들만이 비교되는지를 확인하도록 구성될 수 있다.

수신된 피처 벡터(106)에 대해 버전 번호(410)가 다른 경우, 객체 추적 유닛(402)은 피처 벡터를 무시할 수 있다. 다른 실시예에 따르면, 객체 추적 유닛은 그 뉴럴 네트워크와 관련된 정확한 버전 번호를 갖는 다른 디바이스들(404-406)을 요청할 수 있으며 혹은 예컨대 정확한 버전 번호와 연관된 뉴럴 네트워크가 구현된 서버를 요청하여, 잘못된 버전 번호를 갖는 피처 벡터의 원인인 이미지 데이터를 재-프로세싱하고, 그리고 새로운 피처 벡터를 객체 추적 유닛(402)에 전송한다. 또한, 객체 추적 유닛(402)은 잘못된(오래된) 버전 번호를 갖는 뉴럴 네트워크의 갱신(재-트레이닝)을 트리거링할 수 있고 및/또는 이에 따라 상기 디바이스를 플래그할 수 있다.

Claims

이미지 데이터(102, 310)를 프로세싱하고 프로세싱된 이미지 데이터에 대한 피처 벡터(106)를 형성하는 값들(106a-d)의 벡터를 출력하도록 된 제 1 뉴럴 네트워크(104)를 트레이닝하기 위한 컴퓨터 구현 방법으로서,
기준 피처 벡터(306)를 검색하는 단계(S508), 상기 기준 피처 벡터는 기준 뉴럴 네트워크(302)에 의해서 제 1 트레이닝(310) 이미지를 프로세싱함으로써 계산되며, 상기 기준 뉴럴 네트워크는 이미지 데이터를 프로세싱하고 그리고 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하며;
비용 함수(308)를 최적화하기 위해 상기 제 1 뉴럴 네트워크를 트레이닝하는 단계(S510)를 포함하고,
상기 비용 함수는 상기 제 1 트레이닝 이미지를 프로세싱할 때에 상기 기준 피처 벡터와 제 1 뉴럴 네트워크에 의해 출력된 피처 벡터 사이의 적어도 제 1 거리 측정치를 포함하고, 상기 비용 함수는 상기 제 1 거리 측정치를 최소화하며, 상기 제 1 뉴럴 네트워크와 상기 기준 뉴럴 네트워크는 상이한 유형의 뉴럴 네트워크인 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제 1 뉴럴 네트워크는 제 1 비트 폭을 포함하는 내부 숫자 표현(internal number representation) 및 제 1 네트워크 아키텍처를 포함하고, 상기 제 2 뉴럴 네트워크는 제 2 비트 폭을 포함하는 내부 숫자 표현 및 제 2 네트워크 아키텍처를 포함하고, 상기 제 1 비트 폭은 상기 제 2 비트 폭과 상이하고, 및/또는 상기 제 1 네트워크 아키텍처는 상기 제 2 네트워크 아키텍처와 상이한 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 기준 뉴럴 네트워크는 트리플렛 기반(triplet-based) 비용 함수를 사용하여 트레이닝되고, 상기 트리플렛 기반 비용 함수는 동일한 분류 또는 식별(602-606)의 입력 이미지들의 쌍(pair)을 다른 분류 또는 식별(602-606)의 제 3 입력 이미지로부터 분리하는 것을 목표로 하여, 상기 동일한 분류 또는 식별의 입력 이미지들의 쌍 사이의 제 1 거리와, 상기 동일한 분류 또는 식별의 입력 이미지들의 쌍 중 하나와 상기 제 3 입력 이미지 사이의 제 2 거리 사이의 차이값이 적어도 거리 마진 알파(α)가 되며, 상기 비용 함수를 최적화하기 위해 제 1 뉴럴 네트워크를 트레이닝하는 단계는, 상기 제 1 거리 측정치를 적어도 상기 알파를 4로 나눈 값으로 감소시키는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 기준 피처 벡터를 검색하는 단계는,
상기 제 1 트레이닝 이미지를 상기 기준 뉴럴 네트워크에 전송하고, 상기 기준 뉴럴 네트워크에 의해 상기 제 1 트레이닝 이미지를 프로세싱하고(S504), 그리고 상기 기준 뉴럴 네트워크로부터 상기 출력된 피처 벡터를 검색하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 기준 피처 벡터를 검색하는 단계는,
피처 벡터들 및 각각의 기준 벡터에 대한 식별자들을 포함하는 데이터베이스(304)에서의 식별자로서 상기 제 1 트레이닝 이미지에 관한 데이터(310')를 사용하고, 그리고 상기 식별자에 대응하는 피처 벡터를 상기 데이터베이스로부터 검색하는 단계(S506)를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
복수의 트레이닝 이미지들에 대해서, 선행하는 청구항들 중 어느 한 항의 단계들을 반복하는 단계(L1)를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제 1 뉴럴 네트워크와 버전 번호(410)을 연관시키는 단계를 더 포함하며, 상기 버전 번호는 상기 제 1 뉴럴 네트워크가 상기 기준 뉴럴 네트워크로부터의 기준 피처 벡터들로 트레이닝되었을 때의 상기 기준 뉴럴 네트워크의 버전 번호를 반영하는 것을 특징으로 하는 컴퓨터 구현 방법.
프로세싱 능력을 갖는 디바이스에 의해 실행될 때 제1항의 방법을 수행하도록 된 명령들을 갖는 컴퓨터 판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품.
이미지 데이터(310)를 프로세싱하고 프로세싱된 이미지 데이터에 대한 피처 벡터(106)를 형성하는 값들(106a-d)의 벡터를 출력하도록 된 제 1 뉴럴 네트워크(104)를 포함하는 디바이스(404-408)로서, 상기 디바이스는 프로세서를 포함하고, 상기 프로세서는,
기준 피처 벡터(306)를 검색하고(S508), 상기 기준 피처 벡터는 기준 뉴럴 네트워크(302)에 의해서 제 1 트레이닝 이미지를 프로세싱함으로써 계산되며, 상기 기준 뉴럴 네트워크는 이미지 데이터를 프로세싱하고 그리고 프로세싱된 이미지 데이터에 대한 피처 벡터를 형성하는 값들의 벡터를 출력하며;
비용 함수(308)를 최적화하기 위해 상기 제 1 뉴럴 네트워크를 트레이닝(S510)하도록 구성되며,
상기 비용 함수는 상기 제 1 트레이닝 이미지를 프로세싱할 때에 상기 기준 피처 벡터와 제 1 뉴럴 네트워크에 의해 출력된 피처 벡터 사이의 적어도 제 1 거리 측정치를 포함하고, 상기 비용 함수는 상기 제 1 거리 측정치를 최소화하며, 상기 제 1 뉴럴 네트워크와 상기 기준 뉴럴 네트워크는 상이한 유형의 뉴럴 네트워크인 것을 특징으로 하는 디바이스.
제9항에 있어서,
상기 제 1 뉴럴 네트워크는 제 1 비트 폭을 포함하는 내부 숫자 표현 및 제 1 네트워크 아키텍처를 포함하고, 상기 제 2 뉴럴 네트워크는 제 2 비트 폭을 포함하는 내부 숫자 표현 및 제 2 네트워크 아키텍처를 포함하고, 상기 제 1 비트 폭은 상기 제 2 비트 폭과 상이하고, 및/또는 상기 제 1 네트워크 아키텍처는 상기 제 2 네트워크 아키텍처와 상이한 것을 특징으로 하는 디바이스.
제9항에 있어서,
상기 디바이스는 제 1 하드웨어 아키텍처를 가지며, 상기 기준 뉴럴 네트워크는 상기 제 1 하드웨어 아키텍처와 상이한 제 2 하드웨어 아키텍처를 갖는 디바이스에 의해 구현되는 것을 특징으로 하는 디바이스.
복수의 디바이스들(404-408)을 포함하는 시스템으로서,
각각의 디바이스는 제1항에 따라 트레이닝된 제 1 뉴럴 네트워크를 포함하고, 각각의 디바이스는 또한, 추출된 객체의 이미지 데이터를 프로세싱하고 상기 제 1 뉴럴 네트워크로부터 출력된 피처 벡터(106)를 전송하도록 상기 제 1 뉴럴 네트워크를 이용하여 이미지로부터 객체를 추출하고,
상기 시스템은 객체 추적 유닛(402)을 더 포함하고, 상기 객체 추적 유닛은 상기 디바이스들로부터 피처 벡터들을 수신하고, 상기 수신된 피처 벡터들에 적어도 일부 기초하여 디바이스들의 상기 시스템을 통해 객체를 추적하는 것을 특징으로 하는 시스템.
제12항에 있어서,
상기 복수의 디바이스들 각각의 상기 제 1 뉴럴 네트워크는 버전 번호(410)에 또한 연관되고, 상기 버전 번호는 상기 제 1 뉴럴 네트워크가 트레이닝되었을 때의 상기 기준 뉴럴 네트워크의 버전 번호를 반영하고, 상기 복수의 디바이스들 중 하나의 디바이스의 제 1 뉴럴 네트워크와 연관된 버전 번호는 상기 제 1 뉴럴 네트워크로부터 출력된 피처 벡터와 함께 전송되며, 상기 객체 추적 유닛은 수신된 피처 벡터들 및 버전 번호들에 기초하여 디바이스들의 상기 시스템을 통해 객체를 추적하는 것을 특징으로 하는 시스템.