KR20220024986A

KR20220024986A - 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램

Info

Publication number: KR20220024986A
Application number: KR1020227002703A
Authority: KR
Inventors: 페이 왕; 광치 천; 천 첸
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2020-04-28
Filing date: 2021-04-16
Publication date: 2022-03-03
Also published as: JP2022542566A; WO2021218671A1; TW202141424A; TWI769787B; CN111539991B; JP7292492B2; CN111539991A

Abstract

본 출원에서는 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램을 제공하는 바, 그 중에서, 해당 방법은, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 것; 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것; 및 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 것을 포함한다.

Description

타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램

[관련 출원의 교차 인용]

본 출원은 2020년 4월 28일에 제출되고, 출원번호가 202010352365.6이며, 발명의 명칭이 "타깃 추적 방법 및 장치, 저장 매체"인 중국 특허출원의 우선권을 주장하는 바, 당해 모든 내용은 참조로서 본원에 통합된다.

[기술분야]

본 출원은 컴퓨터 시각 분야에 관한 것으로서, 특히 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램에 관한 것이다.

현재, 다중 타깃 추적 기술을 통하여 타깃의 운동 궤적을 분석하는 수요가 날로 증가하고 있다. 다중 타깃 추적을 수행하는 과정에서, 우선 타깃 검출을 통하여 복수의 타깃이 소재하는 위치를 취득하고, 그 후 각 타깃에 대하여 단일 타깃 추적을 수행하여야 한다.

상기 다중 타깃 추적의 처리 시간은 장면 중 타깃의 수량과 선형적으로 관련되어 있다. 예를 들면, 장면 중에 N개의 타깃이 포함되고, 여기에서 N이 자연수이면, 다중 타깃 추적은 N회 단일 타깃 추적의 추리를 수행하여야 하고, 처리 시간이 단일 타깃 추적에 필요한 시간의 N배로 증가한다. N의 값이 클 수록 다중 타깃 추적의 시간이 더욱 길고, 이는 장치가 비교적 높은 연산 능력을 구비할 것을 요구하고 또한 시간 소모가 비교적 길다.

본 출원에서는 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램을 제공한다.

본 출원의 실시예의 제1 방면에 의하면, 타깃 추적 방법을 제공하는 바, 상기 방법은, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 것; 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것; 및 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 것; 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함하며; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것은, 상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 것은, 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것; 및 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 각 인접된 두 장의 장면 이미지는 제1 장면 이미지와 제2 장면 이미지이며; 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것은, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하는 것 - N과 M은 2보다 크거나 같은 자연수임 -; 및 상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득하는 바, 상기 유사도 매트릭스 중 임의의 차원의 값은 상기 제1 장면 이미지의 임의의 제1 타깃 부위와 상기 제2 장면 이미지 중의 임의의 제2 타깃 부위의 유사도를 표시하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것은, 상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정하는 것; 만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정하는 것; 및 상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주하는 것을 포함한다.

일부 선택 가능한 실시예에서, 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은, 특징 검출 모델의 백본 네트워크를 통하여 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 것; 상기 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및 상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 방법은, 동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 초기 신경망 모델에 입력하여, 상기 초기 신경망 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득하는 것; 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도를 결정하며, 및/또는 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정하는 것; 및 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것을 더 포함한다.

일부 선택 가능한 실시예에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것은, 제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 하는 것 - 상기 제1 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -; 제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 하는 것 - 상기 제2 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -; 및 상기 제1 손실 함수와 상기 제2 손실 함수 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 방법은, 상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정하는 것을 더 포함한다.

일부 선택 가능한 실시예에서, 상기 복수 장의 장면 이미지는 교실 장면에 대응되고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함한다.

본 출원의 실시예의 제2 방면에 의하면, 타깃 추적 장치를 제공하는 바, 상기 장치는, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 취득 모듈; 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 처리 모듈; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 특징 정보 결정 모듈; 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 타깃 결정 모듈을 포함한다.

본 출원의 실시예의 제3 방면에 의하면, 컴퓨터 판독가능 저장 매체를 제공하는 바, 상기 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 제1 방면의 어느 한 상기 타깃 추적 방법을 실행하기 위한 것이다.

본 출원의 실시예의 제4 방면에 의하면, 타깃 추적 장치를 제공하는 바, 프로세서; 상기 프로세서가 실행 가능한 명령을 저장하는 기억장치를 포함하며; 그 중에서, 상기 프로세서는 상기 기억장치에 저장된 실행 가능한 명령을 호출할 때, 제1 방면의 어느 한 상기 타깃 추적 방법을 구현하도록 구성된다.

본 출원의 실시예의 제5 방면에 의하면, 컴퓨터 프로그램을 제공하는 바, 그 중에서 상기 컴퓨터 프로그램이 프로세서에 기반하여 실행될 때, 제1 방면의 어느 한 항의 상기 타깃 추적 방법을 구현할 수 있다.

본 출원의 실시예에서 제공하는 기술적 방안은 하기 유익한 효과를 가질 수 있다.

본 출원의 실시예에서, 인접된 두 장의 장면 이미지 중에서 각각 복수의 타깃을 결정한 후, 앞 장면 이미지 상의 각 타깃에 대하여 뒤 장면 이미지에 포함된 복수의 타깃 중에서 각각 단일 타깃 추적 추리를 수행할 필요가 없이, 단일 장면 이미지에 대하여 단일 프레임 추정을 수행하여 복수의 타깃 부위의 위치에 대응하는 타깃 특징 정보를 취득하고, 단일 프레임 추정 결과에 대하여 매칭을 수행하여 각 인접된 두 장의 장면 이미지 중의 복수의 동일한 타깃을 취득하여, 다중 타깃 추적의 목적을 구현하고, 또한 현재 장면 중에 복수의 타깃이 포함된다 할지라도, 전체 장면 이미지에 대하여 추정을 수행하기 때문에, 전체 다중 타깃 추적 과정의 시간이 장면 이미지 중에 포함된 타깃의 수량과 무관하고, 타깃 수량이 증가함에 따라 하나하나씩 단일 타깃 추적 추리를 수행하는 추적 시간이 증가하지 않아, 연산 자원을 크게 절약하고, 다중 타깃 추적의 시간을 단축시키며, 다중 타깃 추적의 검출 효율을 효과적으로 향상시킨다.

위에서의 일반적인 설명과 차후의 상세한 설명은 단지 예시적이고 해석적인 것이며, 본 출원을 제한할 수 없는 것을 이해해야 한다.

이곳의 도면은 명세서에 포함되고 또한 본 명세서의 일부분을 구성하며, 본 출원에 부합되는 실시예를 도시하고, 또한 명세서와 함께 본 출원의 원리를 해석한다.
도 1은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 타깃 추적 방법의 흐름도이다.
도 2는 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 3은 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도.
도 4는 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 5는 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 6은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 특징 검출 모델의 구조 모식도이다.
도 7은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 다중 타깃 추적의 추정 과정 모식도이다.
도 8은 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 9는 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 특징 검출 모델 훈련 장면의 모식도이다.
도 10은 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 11은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 타깃 추적 장치의 블록도이다.
도 12는 본 출원의 일 예시적 실시예에 기반하여 도시되는 타깃 추적 장치를 위한 일 구조도이다.

여기에서는 상세하게 예시적 실시예를 설명할 것이며, 예시는 도면에 표시되어 있다. 아래의 설명이 도면과 연관될 때, 다른 표시가 있는 외, 다른 도면 중의 같은 숫자는 같거나 유사한 요소를 표시한다. 하기 예시적 실시예에서 설명하는 실시 방식은 본 출원과 일치한 모든 실시 방식을 대표하는 것이 아니다. 반대로, 이는 단지 특허청구범위에 상세하게 기재된, 본 출원의 일부 방면과 일치한 장치와 방법의 예일 뿐이다.

본 출원에 사용된 용어는 단지 특정 실시예를 설명하기 위한 목적이고, 본 출원을 제한하는 것이 아닌 것을 이해할 것이다. 본 출원과 첨부된 특허청구범위에 사용된 단수 형식의 "일", "상기"와 "해당"도 문맥 상에서 명확하게 기타 뜻을 표시하지 않은 한, 복수의 형식이 포함된다. 또한 본 출원에 사용된 용어 "및/또는"은 하나 또는 복수의 관련된 나열 항목을 포함하는 임의의 또는 모든 가능한 조합을 가리키는 것을 이해할 것이다.

본 출원이 용어 제1, 제2, 제3 등을 사용하여 여러 가지 정보를 설명할 수 있지만, 이러한 정보는 이러한 용어의 제한을 받지 않는다. 이러한 용어는 단지 동일한 유형의 정보를 서로 구분하기 위한 것이다. 예를 들면, 본 출원의 범위를 벗어나지 않는 경우, 제1 정보는 또한 제2 정보라 칭할 수 있고, 이와 유사하게, 제2 정보도 또한 제1 정보라 칭할 수 있다. 비록 문맥에 따라 결정되기는 하지만, 여기에서 사용되는 단어 "만일"은 "... 때" 또는 "... 할 때" 또는 "... 결정한 것에 응답하여"로 해석될 수 있다.

본 출원의 실시예는 다중 타깃 추적 방안을 제공하는 바, 예시적으로 서로 다른 장면에서의 단말 장치에 적용될 수 있다. 서로 다른 장면은 교실, 감시기가 배치된 지점 또는 기타 다중 타깃에 대하여 추적이 필요한 실내 또는 실외 장면을 포함하나 이에 제한되지 않는다. 단말 장치는 카메라를 구비한 임의의 단말 장치를 사용하거나, 또는 단말 장치도 카메라 장치를 외부에 연결 시킬 수 있다. 단말 장치는 동일한 장면에서 선후로 복수 장의 장면 이미지를 수집하거나, 또는 직접 비디오 스트림을 수집하고, 해당 비디오 스트림 중의 복수 장의 이미지를 상기 복수 장의 장면 이미지로 할 수 있다.

나아가서, 단말 장치는 취득된 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하고, 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치에 기반하여, 각 장의 장면 이미지의 특징 정보 중 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하여, 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정한다.

예를 들면 교실에서, 단말 장치는 교실 내에 배치된 카메라가 구비된 티칭 멀티미디어 장치를 사용할 수 있는 바, 티칭 프로젝터, 교실 내의 모니터링 장치 등을 포함하나 이에 제한되지 않는다. 단말 장치는 교실 중의 복수 장의 장면 이미지를 취득하고, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득한다. 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하여, 다중 타깃 추적의 목적을 구현한다. 해당 장면에서의 타깃은 티칭 객체, 예를 들면 학생을 포함할 수 있으나 이에 제한되지 않고, 타깃 부위는 안면 부위와 인체 부위를 포함하나 이에 제한되지 않는다.

또 예를 들면, 지하철 또는 기차역에 하나 또는 복수의 감시 카메라를 배치하고, 감시 카메라를 통하여 지하철 또는 기차역의 복수 장의 장면 이미지를 취득할 수 있다. 해당 장면에서의 타깃은 승객, 승객이 휴대한 트렁크, 직원을 포함할 수 있으나 이에 제한되지 않는다. 본 출원의 실시예에서 제공하는 방안을 사용하면, 지하철역 또는 기차역 등 인구 유동량이 많은 장면에서, 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하여, 다중 타깃 추적의 목적을 구현할 수 있다.

예시적으로, 본 출원의 실시예에서 제공하는 다중 타깃 추적 방안은 또한 서로 다른 장면에서의 클라우드 서버에 적용할 수 있고, 해당 클라우드 서버는 외부 카메라를 구비할 수 있으며, 외부 카메라가 동일한 장면에서 선후로 복수 장의 장면 이미지를 수집하거나, 또는 직접 비디오 스트림을 수집하고, 해당 비디오 스트림 중의 복수 장의 이미지를 상기 복수 장의 장면 이미지로 할 수 있다. 수집한 장면 이미지는 라우터 또는 게이트웨이를 통하여 클라우드 서버로 송신할 수 있고, 클라우드 서버가 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하고, 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하여, 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하고, 나아가서 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정한다.

예를 들면, 외부 카메라를 교실에 설치하고, 외부 카메라가 교실 내에서 복수 장의 장면 이미지를 수집하며, 라우터 또는 게이트웨이를 통하여 클라우드 서버로 송신하고, 클라우드 서버가 상기 타깃 추적 방법을 실행한다.

본 출원의 실시예에서, 또한 단말 장치 또는 클라우드 서버를 통하여 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정한 후, 동일한 식별 박스를 사용하여 동일한 타깃에 대하여 식별을 수행하고 또한 식별 후의 장면 이미지를 출력할 수 있다. 예를 들면 출력된 인접된 두 장의 장면 이미지 상에서, 적색 식별 박스를 사용하여 해당 장면 중의 타깃 1을 식별하고, 녹색 식별 박스를 사용하여 해당 장면 중의 타깃 2를 식별하며, 남색 식별 박스를 사용하여 해당 장면 중의 타깃3을 식별하는 등이며, 이로써 현재 장면에서의 복수의 동일한 타깃을 더욱 잘 표시할 수 있다. 또는 식별 박스에 대응하는 타깃 식별을 통하여 같거나 다른 타깃을 구분할 수도 있는 바, 예를 들면, 출력된 한 장의 장면 이미지 상에 3개 식별 박스가 포함되고, 각각 대응하는 타깃 식별이 1, 2와 3이며, 이와 인접된 장면 이미지 상에 2개 식별 박스가 포함되고, 각각 대응하는 타깃 식별이 1과 3이면, 이 두 장의 장면 이미지 상 타깃 식별이 1인 식별 박스가 동일한 타깃에 대응되고, 타깃 식별이 3인 식별 박스도 동일한 타깃에 대응되며, 타깃 식별이 1과 3인 식별 박스는 각각 서로 다른 타깃에 대응된다.

또한 단말 장치 또는 클라우드 서버를 통하여 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적을 결정하고, 해당 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 분석할 수도 있다.

예를 들면, 현재 장면이 교실이고, 타깃이 티칭 객체를 포함하면, 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적, 예를 들면 현재 소재하는 위치로부터 선생님이 지정한 기타 위치로 이동하는 것을 포함할 수 있으나 이에 제한되지 않고, 기타 위치는 교단, 칠판 또는 기타 학생들이 소재하는 위치일 수 있으며, 또는 타깃 운동 궤적은 또한 동일한 위치에 처하는 것을 포함할 수 있다. 선생님은 복수의 티칭 객체의 운동 궤적에 기반하여 티칭 작업을 더 잘 수행할 수 있다.

또 예를 들면, 현재 장면이 감시기를 배치한 지하철역 또는 기차역인 것을 예로 들면, 타깃은 승차 인원을 포함하나 이에 제한되지 않고, 이 경우 타깃 운동 궤적은 지정된 위험 운동 궤적 또는 불법 운동 궤적, 예를 들면 플랫폼으로부터 레일이 소재하는 위치로 이동하는 것, 개찰기의 상방 또는 하방으로 이동하는 것 등이 포함될 수 있으나 이에 제한되지 않는다. 직원은 승차 인원의 운동 궤적에 기반하여 역 관리를 더 잘 수행하여, 위험 행위 또는 무임승차 행위의 발생을 방지할 수 있다.

상기한 것은 단지 본 출원에 적용되는 장면에 대하여 예시적 설명을 수행한 것일 뿐, 기타 빠르게 동작 유형 식별을 수행하여야 하는 실내 또는 장면 역시 본 출원의 보호 범위에 속한다.

예를 들면 도 1에 도시된 바와 같이, 도 1은 본 출원의 일 예시적 실시예에 기반하여 도시하는 일 타깃 추적 방법으로서, 하기 단계를 포함한다.

101 단계에서, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득한다.

본 출원의 실시예에서, 동일한 장면에서 선후로 복수 장의 장면 이미지를 수집하거나, 또는 비디오 스트림을 수집하고, 비디오 스트림 중의 복수 장의 이미지를 복수 장의 장면 이미지로 할 수 있다. 본 출원의 장면은 다중 타깃 추적을 수행할 필요가 있는 임의의 장면, 예를 들면 교실, 감시기가 배치된 지점 등을 포함하나 이에 제한되지 않는다.

102 단계에서, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득한다.

본 출원의 실시예에서, 각 장의 장면 이미지에 대하여 특징 추출을 수행한다는 것은 각 장의 장면 이미지로부터 특징 정보를 추출하는 것을 가리키고, 해당 특징 정보는 색상 특징, 무늬 특징, 형상 특징 등을 포함할 수 있으나 이에 제한되지 않는다. 색상 특징은 일종 전역 특징으로서, 이미지에 대응하는 객체의 표면 색상 속성을 기술하며; 무늬 특징도 일종 전역 특징이고, 이는 이미지에 대응하는 객체의 표면 무늬 속성을 기술하며; 형상 특징은 두 가지 유형의 표시 방법이 있는 바, 한 가지 유형은 윤곽 특징이고, 다른 한 가지 유형은 영역 특징이며, 이미지의 윤곽 특징은 주로 객체의 외부 경계에 대한 것이고, 이미지의 영역 특징은 이미지 영역의 형상에 관한 것이다.

본 출원의 실시예에서, 하나의 타깃 부위가 하나의 타깃에 대응되지만, 제한성을 갖고 있는 것이 아니며, 복수의 타깃 부위가 하나의 타깃에 대응될 수도 있다. 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있으나 이에 제한되지 않고, 인체 부위는 인물의 전체 인체 또는 인체의 어느 지정된 부위, 예를 들면 손, 다리 등을 포함할 수 있으나 이에 제한되지 않는다. 타깃 부위의 위치는 적어도 해당 타깃 부위의 식별 박스의 중심 위치를 통하여 표시할 수 있는 바, 예를 들면 타깃 부위에 안면 부위가 포함되면, 타깃 부위의 위치는 안면 식별 박스의 중심 위치를 통하여 표시할 수 있다. 해당 타깃 부위의 식별 박스는 예를 들면 해당 타깃 부위의 외접 직사각형 박스로 구현될 수 있는 등이다.

103 단계에서, 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득한다.

본 출원의 실시예에서, 각 장의 장면 이미지 상에 복수의 타깃 부위를 포함하고, 취득된 각 장의 장면 이미지의 특징 정보에 기반하여, 타깃 부위를 포함하는 영역의 픽셀에 대하여 특징 추출을 수행하여, 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 결정한다. 예시적으로, 컨볼루션 처리 등을 통하여, 각 장의 장면 이미지의 특징 정보 중 각 타깃 부위의 영역에 포함된 복수의 픽셀과 각각 대응하는 타깃 특징 정보를 취득한다.

104 단계에서, 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 타깃 또는 전부 타깃이 포함된다.

상기 실시예에서, 각 장의 장면 이미지 상에서 복수의 타깃 부위의 위치에 대응하는 타깃 특징 정보를 취득하고, 상기 복수 장의 장면 이미지의 이러한 타깃 특징 정보에 대하여 매칭을 수행하는 것을 통하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정할 수 있다.

상기 실시예에서, 인접된 두 장의 장면 이미지 중에서 각각 복수의 타깃을 결정한 후, 앞 장면 이미지 상의 각 타깃에 대하여 뒤 장면 이미지에 포함된 복수의 타깃 중에서 각각 단일 타깃 추적 추리를 수행할 필요가 없으며; 단일 장면 이미지에 대하여 단일 프레임 추정을 수행하여 복수의 타깃 부위의 위치에 대응하는 타깃 특징 정보를 취득하고, 취득된 각 인접된 두 장의 장면 이미지의 단일 프레임 추정 결과에 대하여 매칭을 수행하는 것을 통하여, 각 인접된 두 장의 장면 이미지 중의 복수의 동일한 타깃을 취득하여, 다중 타깃 추적의 목적을 구현한다. 현재 장면 중에 복수의 타깃이 포함된다 할지라도, 전체 장면 이미지에 대하여 추정을 수행하기 때문에, 전체 다중 타깃 추적 과정의 시간이 장면 이미지 중에 포함된 타깃의 수량과 무관하고, 타깃 수량이 증가함에 따라 하나하나씩 단일 타깃 추적 추리를 수행하는 추적 시간이 증가하지 않아, 연산 자원을 크게 절약하고, 다중 타깃 추적의 시간을 단축시키며, 효과적으로 다중 타깃 추적의 검출 효율을 향상시킨다.

일부 선택 가능한 실시예에서, 예를 들면 도 2에 도시된 바와 같이, 102 단계는 하기 단계를 포함할 수 있다.

102-1 단계에서, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출한다.

본 출원의 실시예에서, 사전 훈련된 신경망 모델을 통하여 각 장의 장면 이미지의 이미지 특징을 추출하여 제1 특징 맵을 취득할 수 있다. 해당 신경망 모델은 비주얼 지오메트리 그룹 네트워크(Visual Geometry Group Network, VGG Net) 등을 사용할 수 있으나 이에 제한되지 않는다.

102-2 단계에서, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며; 또한 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득한다.

본 출원의 실시예에서, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다. 영역 예측 네트워크(Region Proposal Network, RPN)를 통하여, 각 장의 장면 이미지의 제1 특징 맵 상에서, 안면 부위 및/또는 인체 부위 검출을 수행하여, 안면 부위에 대응하는 안면 영역 및/또는 인체 부위에 대응하는 인체 영역을 결정할 수 있다. 그 중에서, 안면 영역은 안면 식별 박스를 통하여 식별할 수 있고, 인체 영역은 인체 식별 박스를 통하여 식별할 수 있다. 예시적으로, 안면 인식 박스의 중심 위치를 안면 부위의 위치로 할 수 있다. 마찬가지로, 인체 인식 박스의 중심 위치를 인체 부위의 위치로 할 수 있다.

나아가서, 또한 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하고, 제1 특징 맵에 포함된 복수 유형의 특징 정보를 서로 다른 채널을 통하여 추출하여, 다차원의 제2 특징 맵을 취득할 수 있다. 예시적으로, 제2 특징 맵의 사이즈사이즈는 제1 특징 맵의 사이즈와 같을 수 있고, 또한 제2 특징 맵의 차원 값은 각 장의 장면 이미지에 대응하는 사전 설정 채널 수이다.

상응하게, 103 단계는,

상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득하는 것을 포함할 수 있다.

본 출원의 실시예에서, 타깃 특징 정보는 어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역의 각 영역 중의 복수의 픽셀에 각각 대응하는 특징 정보를 표시하기 위한 것이다. 그 중에서, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다.

어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역에서, 임의의 픽셀에 대응하는 특징 정보는 모두 하나의 1차원의 특징 벡터를 구성할 수 있고, 차후 유사도 계산의 편리를 위하여, 이러한 특징 벡터 중에서 하나 또는 복수의 특징 벡터를 선택하여 해당 타깃 부위의 영역의 특징 정보, 즉 타깃 특징 정보를 표시할 수 있다. 본 출원의 실시예에서, 타깃 부위의 위치의 픽셀에 대응하는 특징 벡터를 선택하고, 해당 특징 벡터를 해당 차원의 제2 특징 맵 상 타깃 부위의 위치에 대응하는 타깃 특징 벡터로 할 수 있다. 그 중에서, 타깃 부위의 위치는 안면 식별 박스의 중심 위치 및/또는 인체 식별 박스의 중심 위치를 포함할 수 있다.

나아가서, 차후 타깃 부위 매칭의 정확도를 향상시키기 위하여, 다차원의 제2 특징 맵 중 적어도 한 차원의 제2 특징 맵에 대하여, 복수의 타깃 부위의 위치의 픽셀에 대응하는 특징 정보를 취득하여, 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득할 수 있다. 예시적으로, 각 차원의 제2 특징 맵에 대하여 모두 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득할 수 있어, 타깃 특징 벡터의 차원 값과 제2 특징 맵의 차원 값이 같도록 한다. 예를 들면, 제2 특징 맵의 차원 값이 C이면, 타깃 특징 벡터의 차원 값도 C이다.

상기 실시예에서, 전체 장면 이미지에 대하여 순차적으로 특징 추출, 타깃 부위 검출을 수행하고 또한 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 결정하고, 전반 과정은 단일 장면 이미지에 대하여 수행한 단일 프레임 추정이기 때문에, 그 중에 포함된 타깃의 수량의 다소와 무관하며; 차후 각 인접된 두 장의 장면 이미지 상의 복수의 타깃 위치에 각각 대응하는 타깃 특징 벡터에 대하여 매칭을 수행하여, 각각 단일 타깃 추적 추리를 수행할 필요가 없고, 장면 이미지 상에 포함된 타깃 수량이 비교적 많다 할지라도, 1회적으로 매칭 과정을 완성할 수 있다. 본 출원의 타깃 추적 방법은 장면 이미지 중의 타깃의 수량과 무관하고, 타깃 수량이 증가함에 따라 추적 시간이 증가하지 않아, 연산 자원을 크게 절약하고, 다중 타깃 추적의 시간을 단축시키며, 효과적으로 다중 타깃 추적의 검출 효율을 향상시킨다.

일부 선택 가능한 실시예에서, 예를 들면 도 3에 도시된 바와 같이, 104 단계는 하기 단계를 포함할 수 있다.

104-1 단계에서, 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 상기 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득한다.

본 출원의 실시예에서, 이미 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위에 대응하는 복수의 타깃 특징 정보를 결정하였고, 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여 유사도 계산을 수행하여, 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득할 수 있다.

104-2 단계에서, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정한다.

본 출원의 실시예에서, 각 인접된 두 장의 장면 이미지 상 유사도가 가장 큰 타깃 부위 소속의 타깃을 서로 다른 장면 이미지 상에 나타나는 동일한 타깃으로 할 수 있다.

상기 실시예에서, 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하여, 다중 타깃 추적의 목적을 구현하고, 또한 추적 과정이 타깃 수량과 무관하고, 가용성이 높다.

일부 선택 가능한 실시예에서, 각 인접된 두 장의 장면 이미지는 제1 장면 이미지 T₀과 제2 장면 이미지 T₁이다.

예를 들면 도 4에 도시된 바와 같이, 상기 104-1 단계는 하기 단계를 포함할 수 있다.

104-11 단계에서, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정한다.

타깃 특징 정보에 기반하여, 어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역에서, 임의의 픽셀에 대응하는 특징 정보는 모두 하나의 1차원의 특징 벡터를 구성할 수 있고, 차후 유사도 계산의 편리를 위하여, 이러한 특징 벡터 중에서 하나 또는 복수의 특징 벡터를 선택하여 해당 타깃 부위의 영역의 특징 정보를 표시할 수 있다. 본 출원의 실시예에서, 타깃 부위의 위치의 픽셀에 대응하는 특징 벡터를 선택하고, 해당 특징 벡터를 해당 차원의 제2 특징 맵 상 타깃 부위의 위치에 대응하는 타깃 특징 벡터로 할 수 있다. 그 중에서, 타깃 부위의 위치는 안면 식별 박스의 중심 위치 및/또는 인체 식별 박스의 중심 위치를 포함할 수 있다.

유사도를 결정하는 과정에서, 각 인접된 두 장의 장면 이미지 중 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정할 수 있고, 그 중에서, N과 M은 2보다 크거나 같은 자연수다. 즉 제1 장면 이미지 상의 복수의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 복수의 타깃 특징 벡터 사이의 유사도를 결정한다.

일 가능한 구현 방식에서, 유사도를 결정할 때, 타깃 특징 벡터 사이의 코사인 유사도 값을 결정할 수 있다. 제1 장면 이미지 상의 어느 한 타깃 특징 벡터와 제2 장면 이미지 상의 어느 한 타깃 특징 벡터의 협각 코사인 값을 계산하는 것을 통하여, 이들의 유사도를 평가한다.

104-12 단계에서, 상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득한다.

본 출원의 실시예에서, 유사도 매트릭스 중 어느 한 차원의 값은 상기 제1 장면 이미지의 어느 한 제1 타깃 부위와 상기 제2 장면 이미지 중의 어느 한 제2 타깃 부위의 유사도를 표시한다. 그 중에서, N과 M은 같거나 다를 수 있다.

상기 실시예에서, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하는 것을 통하여, N×M 차원의 유사도 매트릭스를 취득하고, 유사도 매트릭스를 통하여 상기 제1 장면 이미지의 어느 한 제1 타깃 부위와 상기 제2 장면 이미지 중의 어느 한 제2 타깃 부위의 유사도를 표시하여, 구현이 간단하고, 가용성이 높다.

일부 선택 가능한 실시예에서, 104-2 단계에 대하여 이분 그래프 알고리즘을 사용할 수 있는 바, 공간 거리 제약의 조건을 만족하는 조건 하에서, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정한다.

그 중에서, 이분 그래프 알고리즘은 하나의 이분 그래프 내에서, 좌측 정점이 X, 우측 정점이 Y라 가정하고, 현재 각 그룹의 좌우 연결 X_iY_j에 대하여 가중치 w_ij가 존재할 때, 한 가지 매칭을 구하여 모든 w_ij의 합이 가장 크도록 하는 것이다. 본 출원의 실시예에서, X_i는 제1 장면 이미지 상의 N개의 타깃 특징 벡터 중의 하나에 상당하고, Y_j는 제2 장면 이미지 상의 M개의 타깃 특징 벡터 중의 하나에 상당하며, 가중치 w_ij는 유사도에 대응된다. 본 출원은 유사도가 최대인 경우, N개의 타깃 특징 벡터와 제2 타깃 특징 벡터를 매칭시켜, 최종적으로 인접된 각 두 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정할 수 있어야 한다.

본 출원의 실시예에서, 공간 거리 제약의 조건을 만족하는 것은, N개의 타깃 특징 벡터와 M개의 타깃 특징 벡터 사이의 유사도의 차원이 N×M을 초과하지 않는 것을 포함한다.

일 가능한 구현 방식에서, 유사도가 최대인 동시에 또한 이 유사도 최대치가 사전 설정 역치를 초과하는 것을 확보함으로써, 나아가서 다중 타깃 추적의 정확성을 향상시켜야 한다.

예를 들면 도 5에 도시된 바와 같이, 104-2 단계는 하기 단계를 포함할 수 있다:

104-21 단계에서, 상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정한다.

본 출원의 실시예에서, 제1 타깃 특징 벡터는 제1 장면 이미지 상에서 결정한 N개의 타깃 특징 벡터 중의 어느 하나이다. 유사도 매트릭스에 기반하여 해당 제1 타깃 특징 벡터와 제2 장면 이미지 상의 각 타깃 특징 벡터 사이의 유사도를 취득할 수 있고, 이러한 유사도 중에서 하나의 유사도 최대치를 결정할 수 있다.

유사도 매트릭스가

, 제1 타깃 특징 벡터와 M개의 제2 타깃 특징 벡터 사이의 유사도가 각각

,

및

이라고 가정하면, 그 중의 최대치를 결정할 수 있고,

이라고 가정한다.

104-22 단계에서, 만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정한다.

본 출원의 실시예에서, 제2 타깃 특징 벡터는 제2 장면 이미지에 포함된 M개의 타깃 특징 벡터 중 해당 유사도 최대치에 대응하는 타깃 특징 벡터이다.

나아가서, 다중 타깃 추적의 정확성을 확보하기 위하여, 유사도 최대치가 사전 설정 역치보다 크도록 확보하여야 한다.

104-23 단계에서, 상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주한다.

본 출원의 실시예에서, 상기 유사도 최대치가 사전 설정 역치보다 클 때만이, 비로소 제1 장면 이미지의 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주한다.

만일 유사도 최대치가 사전 설정 역치보다 작거나 같으면, 제1 장면 이미지 상의 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃이 제2 장면 이미지 상에 동일한 타깃이 존재하지 않는 것으로 간주할 수 있다.

상기 104-21 내지 104-23 단계를 반복하는 바, 반복 횟수는 제1 장면 이미지에 포함된 타깃 특징 벡터의 수량 N이고, 최종적으로 제1 장면 이미지와 제2 장면 이미지 상에서 나타나는 모든 동일한 타깃을 결정할 수 있다.

상기 실시예에서, 유사도 매트릭스에 기반하여, 인접된 각 두 장의 장면 이미지 상 타깃 부위 사이의 유사도가 가장 근접한 두 개의 타깃을 동일한 타깃으로 할 수 있어, 다중 타깃 추적의 목적을 구현하고, 가용성이 높다.

일부 선택 가능한 실시예에서, 복수 장의 장면 이미지를 취득한 후, 상기 복수 장의 장면 이미지 중 적어도 두 장을 사전 훈련된 특징 검출 모델로 입력하고, 상기 특징 검출 모델이 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하고, 또한 상기 각 장의 장면 이미지 상 복수의 타깃 부위의 위치에 기반하여, 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 대응하는 복수의 타깃 특징 정보를 취득할 수 있다.

특징 검출 모델의 구조는 예를 들면 도 6에 도시된 바와 같고, 복수 장의 장면 이미지를 특징 검출 모델에 입력하고, 특징 검출 모델이 우선 백본(backbone) 네트워크를 통하여 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출을 수행하여, 각 장의 장면 이미지의 제1 특징 맵을 취득한다.

나아가서, 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며; 또한 상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득한다. 그 중에서, 타깃은 인물을 포함할 수 있고, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다. 특징 추출 브랜치는 적어도 하나의 컨볼루션 층이 직렬되어 형성될 수 있다. 제2 특징 맵의 사이즈는 제1 특징 맵과 같고, 이로써 각 차원의 제2 특징 맵 상에서 복수의 타깃 부위의 위치는 모두 동일하다. 제2 특징 맵의 차원 값은 각 장의 장면 이미지에 대응하는 사전 설정 채널 수와 같다.

나아가서, 상기 다차원의 제2 특징 맵 상에서, 상기 복수의 타깃 부위의 위치에 대응하는 복수의 타깃 특징 벡터를 취득할 수 있다. 타깃 부위의 위치는 안면 식별 박스의 중심 위치 및/또는 인체 식별 박스의 중심 위치를 통하여 표시될 수 있다. 타깃 특징 벡터의 차원 값은 제2 특징 맵의 차원 값과 같다. 어느 한 안면 식별 박스의 중심 위치 좌표가 (x, y)라고 가정하면, 특징 추출 브랜치가 취득한 제2 특징 맵의 사이즈와 제1 특징 맵의 사이즈가 일치한 바, 모두 H×W이고, 그 중에서, H와 W는 각각 이미지의 길이와 너비이고, 제2 특징 맵의 차원 값은 C이고, C는 각 장의 장면 이미지에 대응하는 사전 설정 채널 수량이다. 각 채널 상에서, 모두 안면 식별 박스 중심 위치(x, y)에 대응하는 타깃 특징 벡터를 취득할 수 있기 때문에, 타깃 특징 벡터의 차원 값은 C이다.

본 출원의 실시예에서, 상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 대응하는 복수의 타깃 특징 벡터를 취득한 후, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하여 유사도 매트릭스를 취득하고, 해당 유사도 매트릭스에 기반하여 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정할 수 있다. 결정 방식은 상기 104-2 단계의 방식과 같고, 여기에서는 상세한 설명을 생략하도록 한다.

예를 들면 도 7에 도시된 바와 같이, 제1 장면 이미지 T₀과 제2 장면 이미지 T₁에 대하여, 각각 상기 특징 검출 모델에 입력하고, N개의 타깃 특징 벡터와 M개의 타깃 특징 벡터를 각각 취득할 수 있다. 나아가서, 이분 그래프 알고리즘을 사용하여, 공간 거리 제약의 조건을 만족하는 조건 하에서 추출된 상기 타깃 부위의 특징에 대하여 매칭을 수행하여, T₀과 T₁에 나타나는 동일한 타깃을 결정할 수 있다.

상기 실시예에서, 각 장의 장면 이미지에 대하여 단일 프레임 추정을 수행하고, 각 장의 장면 이미지에 얼마의 타깃이 포함되든지 모두 빠르게 다중 타깃 추적을 구현할 수 있어, 효과적으로 다중 타깃 추적의 검출 효율을 향상시킨다.

일부 선택 가능한 실시예에서, 예를 들면 도 8에 도시된 바와 같이, 해당 방법은 또한 하기 단계를 포함할 수 있다.

100-1 단계에서, 동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 초기 신경망 모델에 입력하여, 상기 초기 신경망 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득한다.

본 출원의 실시예에서, 기존의 동일한 장면에 대응하는 복수 장의 샘플 이미지를 초기 신경망 모델의 입력 값으로 간주하는 것을 사용하여, 복수 장의 샘플 이미지 중에 사전에 각 식별 박스 및/또는 대응하는 타깃 식별을 통하여 복수의 동일한 타깃과 서로 다른 타깃을 식별하였다.

본 출원의 실시예에서, 초기 신경망 모델의 구조는 마찬가지로 도 6에 도시된 바와 같을 수 있고, 백본 네트워크, 부위 검출 브랜치 및 특징 추출 브랜치를 포함한다. 입력 값이 복수 장의 샘플 장면 이미지를 포함하는 경우, 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득할 수 있다.

100-2 단계에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도를 결정하며, 및/또는 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정한다.

본 출원의 실시예에서, 초기 신경망 모델이 출력한 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상의 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도, 및/또는 상기 각 인접된 두 장의 샘플 장면 이미지 상 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정할 수 있다.

그 중에서, 샘플 특징 벡터 사이의 코사인 유사도 값에 기반하여 상기 제1 유사도 값과 제2 유사도 값을 취득할 수 있다.

100-3 단계에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득한다.

본 출원의 실시예에서, 제1 유사도 값을 향상시키고 제2 유사도 값을 낮추는 방식을 통하여, 예를 들면 도 9에 도시된 바와 같이, 손실 함수를 결정할 수 있다. 상기 각 인접된 두 장의 샘플 장면 이미지 상 복수의 타깃 부위에 각각 대응하는 타깃 식별에 기초하고, 결정된 손실 함수에 기반하여, 사전 설정 모델의 네트워크 파라미터를 조정하고, 감독 훈련을 완성한 후 특징 검출 모델을 취득한다.

상기 실시예에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득함으로써, 특징 검출 모델의 검출 성능과 일반화 성능을 향상시켰다.

일부 선택 가능한 실시예에서, 100-3 단계에 대하여, 제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 할 수 있다. 그 중에서, 제1 유사도 참조값은 상기 각 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이다. 예시적으로, 제1 유사도 참조값은 샘플 특징 벡터 사이의 코사인 유사도 값이고, 값은 1일 수 있다.

초기 신경망 모델의 네트워크 파라미터를 조정하는 것을 통하여, 제1 손실 함수가 최소가 되도록 하거나 또는 사전 설정 훈련 횟수에 도달하도록 하여, 특징 검출 모델을 취득한다.

또는 제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 할 수 있다. 그 중에서, 제2 유사도 참조값은 상기 각 두 장의 샘플 장면 이미지 상에 이미 라벨링된 서로 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이다. 예시적으로, 제2 유사도 참조값은 샘플 특징 벡터 사이의 코사인 유사도 값이고, 값은 0일 수 있다.

마찬가지로 초기 신경망 모델의 네트워크 파라미터를 조정하는 것을 통하여, 제2 손실 함수가 최소가 되도록 하거나 또는 사전 설정 훈련 횟수에 도달하도록 하여, 특징 검출 모델을 취득한다.

또는 동시에 제1 손실 함수와 제2 손실 함수를 초기 신경망 모델의 손실 함수로 간주하고, 초기 신경망 모델의 네트워크 파라미터를 조정하여, 두 손실 함수가 최소가 되도록 하거나 또는 사전 설정 훈련 횟수에 도달하도록 하여, 특징 검출 모델을 취득한다.

일부 선택 가능한 실시예에서, 예를 들면 도 10에 도시된 바와 같이, 해당 방법은 또한 하기 단계를 포함할 수 있다:

105 단계에서, 상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정한다.

본 출원의 실시예에서, 복수 장의 장면 이미지는 교실 장면에 대응하고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함한다. 그 중에서, 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적은 현재 소재하는 위치로부터 선생님이 지정한 기타 위치로 걸어가는 것을 포함할 수 있으나 이에 제한되지 않고, 기타 위치는 교단, 칠판 또는 기타 학생들이 소재하는 위치일 수 있으며, 또는 타깃 운동 궤적은 또한 현재 위치에서 이동이 발생하지 않은 것을 포함할 수 있다.

예를 들면 교실에서, 교실 내에 배치된 카메라가 구비된 티칭 멀티미디어 장치를 사용하여 교실에서 선후로 복수 장의 장면 이미지를 취득할 수 있는 바, 멀티미디어 장치는 티칭 프로젝터, 교실 내의 모니터링 장치 등을 포함하나 이에 제한되지 않는다. 교실 장면 이미지에 포함된 적어도 하나의 티칭 객체의 운동 궤적을 결정하는 바, 해당 티칭 객체는 학생일 수 있다.

나아가서, 설정된 시간대 내에, 예를 들면 선생님이 티칭을 수행하는 한 차례 수업의 시간대 내에 각 티칭 객체, 예를 들면 각 학생의 운동 궤적이 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적에 부합되는지 여부를 결정한다. 예를 들면, 선생님의 지시에 따라 현재 위치로부터 칠판 앞, 또는 기타 학생들이 소재하는 위치로 이동하였는지, 또는 시종 동일한 위치에 위치하여 운동 궤적의 이동이 발생하지 않았는지, 예를 들면 시종 자기의 위치에 앉아 강의를 들었는지 등이다. 티칭 멀티미디어 장치를 통하여 상기 결과를 디스플레이하여, 선생님이 티칭 임무를 더 잘 수행하게 할 수 있다.

전술한 방법 실시예에 대응되게, 본 출원에서는 또한 장치의 실시예를 제공한다.

도 11에 도시된 바와 같이, 도 11은 본 출원의 일 예시적 실시예에 기반하여 도시하는 일 타깃 추적 장치의 블록도로서, 장치는, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 취득 모듈(210); 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 처리 모듈(220); 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 특징 정보 결정 모듈(230); 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 타깃 결정 모듈(240)을 포함한다.

일부 선택 가능한 실시예에서, 상기 처리 모듈은, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 제1 처리 서브 모듈; 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며 또한 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 제2 처리 서브 모듈을 포함하며; 상기 특징 정보 결정 모듈은, 상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치와 대응하는 타깃 특징 벡터를 취득하는 특징 벡터 결정 서브 모듈을 포함한다.

일부 선택 가능한 실시예에서, 상기 타깃 결정 모듈은, 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 유사도 결정 서브 모듈; 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 타깃 결정 서브 모듈을 포함한다.

일부 선택 가능한 실시예에서, 상기 각 인접된 두 장의 장면 이미지는 제1 장면 이미지와 제2 장면 이미지이며; 상기 유사도 결정 서브 모듈은, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하며; 그 중에서, N과 M은 2보다 크거나 같은 자연수이며; 상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득하는 바, 상기 유사도 매트릭스 중 임의의 차원의 값은 상기 제1 장면 이미지의 임의의 제1 타깃 부위와 상기 제2 장면 이미지 중의 임의의 제2 타깃 부위의 유사도를 표시하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 타깃 결정 서브 모듈은, 상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정하며; 만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정하며; 상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주하는 것을 포함한다.

일부 선택 가능한 실시예에서, 상기 처리 모듈은, 특징 검출 모델의 백본 네트워크를 통하여 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 제3 처리 서브 모듈; 상기 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며 또한 상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 제4 처리 서브 모듈을 포함한다.

일부 선택 가능한 실시예에서, 상기 장치는, 동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 사전 설정 모델에 입력하여, 상기 사전 설정 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 복수의 특징 벡터를 취득하는 특징 벡터 결정 모듈; 각 인접된 두 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 샘플 특징 벡터 사이의 제1 유사도를 결정하며; 및/또는 상기 각 인접된 두 장의 샘플 장면 이미지 상 서로 다른 타깃 식별자의 타깃 부위의 위치에 대응하는 샘플 특징 벡터 사이의 제2 유사도를 결정하는 유사도 결정 모듈; 상기 각 인접된 두 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제2 유사도와 상기 제1 유사도 중 적어도 하나에 기반하여, 상기 사전 설정 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 훈련 모듈을 더 포함한다.

일부 실시예에서, 제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 하며; 그 중에서, 상기 제1 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이며; 제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 하며; 그 중에서, 상기 제2 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이며; 상기 제1 손실 함수와 상기 제2 손실 함수 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 훈련을 수행하여 상기 특징 검출 모델을 취득한다.

일부 선택 가능한 실시예에서, 상기 장치는, 상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정하는 운동 궤적 결정 모듈을 더 포함한다.

장치 실시예에 대하여, 이는 기본적으로 방법 실시예에 대응되기 때문에, 관련된 부분은 방법 실시예의 일부 설명을 참조하면 된다. 상기 기재된 장치 실시예는 단지 예시적일 뿐이며, 그 중에서 분리된 부품으로 설명된 유닛은 물리적으로 분리되거나 분리되지 않은 것을 수 있고, 유닛으로 표시된 부품은 물리적인 유닛이거나 아닐 수 있으며, 한 곳에 위치하거나 또는 복수의 네트워크 유닛 상에 분포될 수 있다. 실제 수요에 따라 그 중의 일부 또는 전부 모듈을 선택하여 본 출원 방안의 목적을 구현할 수 있다. 당업계 기술자들은 창조적 노력을 필요로 하지 않고, 바로 이해 및 실시할 수 있다.

본 출원에서는 또한 컴퓨터 판독가능 저장 매체를 제공하는 바, 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 컴퓨터 프로그램은 상기 어느 한 타깃 추적 방법을 실행하기 위한 것이다.

일부 선택 가능한 실시예에서, 본 출원의 실시예에서는 컴퓨터 프로그램 제품을 제공하는 바, 컴퓨터 판독가능 코드를 포함하고, 상기 컴퓨터 판독가능 코드가 장치 상에서 실행될 때, 장치 중의 프로세서가 상기 어느 한 실시예가 제공하는 타깃 추적 방법을 실행한다.

일부 선택 가능한 실시예에서, 본 출원의 실시예에서는 또한 다른 컴퓨터 프로그램 제품을 제공하는 바, 컴퓨터 판독가능 명령을 저장하기 위한 것이고, 명령이 실행될 때 컴퓨터가 상기 어느 한 실시예가 제공하는 타깃 추적 방법의 조작을 실행하게 한다.

해당 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 그 결합의 방식을 통하여 구현될 수 있다. 일 선택 가능한 실시예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되고, 다른 일 실시예에서, 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 제품으로 구현되는 바, 예를 들면 소프트웨어 개발 키트(Software Development Kit, SDK) 등이다.

일부 선택 가능한 실시예에서, 본 출원의 실시예에서는 일 컴퓨터 프로그램을 제공하는 바, 그 중에서 상기 컴퓨터 프로그램이 실행될 때 컴퓨터가 상기 어느 한 실시예가 제공하는 타깃 추적 방법의 조작을 실행하게 한다.

본 출원의 실시예에서는 또한 타깃 추적 장치를 제공하는 바, 프로세서; 프로세서가 실행 가능한 명령을 저장하는 기억장치를 포함하며; 그 중에서, 프로세서는 상기 기억장치 중의 실행 가능한 명령을 호출할 때, 상기 어느 한 실시예의 상기 타깃 추적 방법을 구현하도록 구성된다.

도 12는 본 출원의 실시예에서 제공하는 일 타깃 추적 장치의 하드웨어 구조도이다. 해당 타깃 추적 장치(310)는 프로세서(311)를 포함하고, 또한 입력 장치(312), 출력 장치(313) 및 기억장치(314)를 포함할 수 있다. 해당 입력 장치(312), 출력 장치(313)과 기억장치(314)와 프로세서(311) 사이는 버스를 통하여 상호 연결된다.

기억장치는 랜덤 접속 메모리(Random Access Memory, RAM), 읽기전용 메모리(Read-Only Memory, ROM), 소거가능 프로그래머블 읽기전용 메모리(Erasable Programmable Read-Only Memory, EPROM) 또는 휴대식 읽기 전용 메모리(Compact Disc Read-Only Memory, CD-ROM)를 포함하나 이에 제한되지 않으며, 해당 기억장치는 관련 명령 및 데이터를 저장하기 위한 것이다.

입력 장치는 데이터 및/또는 신호를 입력하기 위한 것이고, 또한 출력 장치는 데이터 및/또는 신호를 출력하기 위한 것이다. 출력 장치와 입력 장치는 독립적인 장치일 수도 있고, 또한 하나의 전반적인 장치일 수도 있다.

프로세서는 하나 또는 복수의 프로세서를 포함할 수 있는 바, 예를 들면 하나 또는 복수의 중앙처리장치(central processing unit, CPU)를 포함하고, 프로세서가 하나의 CPU인 경우, 해당 CPU는 싱글 코어 CPU일 수도 있고, 또한 멀티 코어 CPU일 수도 있다.

기억장치는 네트워크 장치의 프로그램 코드와 데이터를 저장하기 위한 것이다.

프로세서는 해당 기억장치 중의 프로그램 코드와 데이터를 호출하여, 상기 방법 실시예 중의 단계를 실행하기 위한 것이다. 구체적인 내용은 방법 실시예 중의 설명을 참조할 수 있으며, 여기에서는 상세한 설명을 생략하도록 한다.

도 12는 단지 일 타깃 추적 장치의 간략화 설계를 도시한 것을 이해할 수 있을 것이다. 실제 응용에서, 타깃 추적 장치는 또한 각각 필요한 기타 부품을 포함할 수 있는 바, 임의의 수량의 입력/출력 장치, 프로세서, 제어기, 기억장치 등이 포함될 수 있으나 이에 제한되지 않으며, 본 출원의 실시예를 구현할 수 있는 모든 타깃 추적 장치는 모두 본 출원의 보호 범위 내에 속한다.

당업계의 기술자들은 명세서 및 여기에 공개된 발명을 실천한 후, 쉽게 본 출원의 기타 실시방안을 유도해낼 수 있을 것이다. 본 출원은 본 출원의 임의의 변형, 용도와 적응성 변화를 포함하고, 이러한 변화, 용도 또는 적응성 변화는 본 출원의 일반적 원리를 따르고 또한 본 출원에 공개되지 않은 본 기술분야의 통상적인 지식 또는 통상적인 기술 수단을 포함한다. 명세서와 실시예는 단지 예시적일 뿐, 본 출원의 진정한 범위와 사상은 하기 청구항에 기반하여 개시된다.

상술한 것은 단지 본 출원의 바람직한 실시예일 뿐이고, 본 출원을 제한하는 것이 아니며, 본 출원의 사상과 원칙 내에서 수행하는 임의의 수정, 등가 교체, 개선 등은 모두 본 출원이 보호하는 범위 내에 속해야 한다.

Claims

타깃 추적 방법에 있어서,
동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 것;
상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것;
상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것; 및
취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는
것을 포함하는 것을 특징으로 하는 타깃 추적 방법.
제1항에 있어서,
상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은,
상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 것;
상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및
상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함하며;
상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것은,
상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득하는 것을 포함하는
것을 특징으로 하는 타깃 추적 방법.
제1항 또는 제2항에 있어서,
취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 것은,
상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것; 및
상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것을 포함하는
것을 특징으로 하는 타깃 추적 방법.
제3항에 있어서,
상기 각 인접된 두 장의 장면 이미지는 제1 장면 이미지와 제2 장면 이미지이며;
상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것은,
제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하는 것 - N과 M은 2보다 크거나 같은 자연수임; 및
상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득하는 바, 상기 유사도 매트릭스 중 임의의 차원의 값은 상기 제1 장면 이미지의 임의의 제1 타깃 부위와 상기 제2 장면 이미지 중의 임의의 제2 타깃 부위의 유사도를 표시하는 것을 포함하는
것을 특징으로 하는 타깃 추적 방법.
제4항에 있어서,
상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것은,
상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정하는 것;
만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정하는 것; 및
상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주하는 것을 포함하는
것을 특징으로 하는 타깃 추적 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은,
특징 검출 모델의 백본 네트워크를 통하여 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하며;
상기 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및
상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함하는
것을 특징으로 하는 타깃 추적 방법.
제6항에 있어서,
동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 초기 신경망 모델에 입력하여, 상기 초기 신경망 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득하는 것;
상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도를 결정하며, 및/또는 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정하는 것; 및
상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련(supervised training)을 수행하여 상기 특징 검출 모델을 취득하는 것을 더 포함하는
것을 특징으로 하는 타깃 추적 방법.
제7항에 있어서,
상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것은,
제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 간주하는 것 - 상기 제1 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -;
제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 간주하는 것 - 상기 제2 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -; 및
상기 제1 손실 함수와 상기 제2 손실 함수 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것을 포함하는
것을 특징으로 하는 타깃 추적 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정하는 것을 더 포함하는
것을 특징으로 하는 타깃 추적 방법.
제9항에 있어서,
상기 복수 장의 장면 이미지는 교실 장면에 대응되고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함하는
것을 특징으로 하는 타깃 추적 방법.
타깃 추적 장치에 있어서,
동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 취득 모듈;
상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 처리 모듈;
상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 특징 정보 결정 모듈; 및
취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 타깃 결정 모듈을 포함하는
것을 특징으로 하는 타깃 추적 장치.
컴퓨터 판독가능 저장 매체에 있어서,
상기 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램은 제1항 내지 제10항 중 어느 한 항의 타깃 추적 방법을 실행하는
것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
타깃 추적 장치에 있어서,
프로세서;
상기 프로세서가 실행 가능한 명령을 저장하는 기억장치를 포함하는 바;
상기 프로세서는 상기 기억장치에 저장된 실행 가능한 명령을 호출하여, 제1항 내지 제10항 중 어느 한 항의 타깃 추적 방법을 구현하도록 구성되는
것을 특징으로 하는 타깃 추적 장치.
컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램이 프로세서에 기반하여 실행될 때, 제1항 내지 제10항 중 어느 한 항의 타깃 추적 방법을 구현할 수 있는
것을 특징으로 하는 컴퓨터 프로그램.