KR20210024124A

KR20210024124A - 목표 객체 검출 방법 및 장치, 전자 디바이스 및 기록 매체

Info

Publication number: KR20210024124A
Application number: KR1020217002604A
Authority: KR
Inventors: 보 리; 웨이 우; 팡이 장
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2018-12-29
Filing date: 2019-10-31
Publication date: 2021-03-04
Also published as: CN109726683B; JP2021524093A; US11423666B2; CN109726683A; WO2020134557A1; US20210073558A1; SG11202012755TA; JP7153090B2

Abstract

본 발명의 실시예는 목표 객체 검출 방법 및 장치, 전자 디바이스 및 기록 매체를 개시하는바, 여기서, 당해 방법은 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출하는 단계 - 상기 참고 프레임은 목표 객체의 검출 박스 이미지이며, 상기 참고 프레임의 이미지 크기는 상기 검출 프레임보다 작음 -; 상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력하여, 상기 검출기가 대응하게 출력한 적어도 2 그룹의 검출 결과를 얻는 단계 - 각 그룹의 특징은 상기 참고 프레임의 특징 및 상기 검출 프레임의 특징을 포함하고, 각 그룹의 검출 결과는 1 그룹의 특징에 대응하는 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함함 -; 및 상기 검출기가 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득하는 단계를 포함한다.

Description

목표 객체 검출 방법 및 장치, 전자 디바이스 및 기록 매체

관련 출원들에 대한 상호 참조

본 발명은 2018년 12월 29일에 중국 특허청에 제출한 출원 번호가 CN201811635978.X이고, 발명의 명칭이 "목표 객체 검출 방법 및 장치, 전자 디바이스 및 기록 매체"인 중국 특허 출원의 우선권을 주장하며, 당해 중국 특허 출원의 모든 내용을 본원에 인용한다.

[기술분야]

본 발명은 컴퓨터 비전 기술에 관한 것인바, 특히 목표 객체 검출 방법 및 장치, 전자 디바이스 및 기록 매체에 관한 것이다.

목표 객체 검출은 컴퓨터 비전의 하나의 중요한 문제인바, 지능형 주행, 단일 목표 추적, 다중 목표 추적 등 일련의 작업에서 모두 사용될 수 있다. 예를 들면, 비디오 시퀀스의 특정 프레임 이미지에서 추적해야 할 목표 객체를 지정하면, 그 후의 프레임 이미지 내에서 당해 목표 객체를 검출함으로써, 당해 목표 객체에 대한 위치 결정, 추적, 라벨링 등을 구현할 수 있으며, 지능형 주행, 단일 목표 추적, 다중 목표 추적 등의 분야에서 모두 중요한 의미가 있다.

본 발명의 실시예는 목표 객체 검출을 실행하기 위한 기술적 방안을 제공한다.

본 발명의 실시예의 일 측면에 의해 제공되는 목표 객체 검출 방법은,

신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출하는 단계 - 상기 검출 프레임은 비디오 시퀀스 중의 목표 객체 검출의 수행을 대기하는 현재 프레임이거나, 상기 목표 객체를 포함할 가능성이 있는 상기 현재 프레임 내의 구역 이미지이고, 상기 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 상기 검출 프레임 앞에 위치한 프레임이고, 상기 참고 프레임의 이미지 크기는 상기 검출 프레임보다 작음 -;

상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력하여, 상기 각 그룹의 특징에 대해 상기 검출기가 대응하게 출력한 1 그룹의 검출 결과를 얻는 단계 - 상기 각 그룹의 특징은 상기 참고 프레임의 특징 및 상기 검출 프레임의 특징을 포함하고, 상기 각 그룹의 검출 결과는 상기 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함함 -; 및

상기 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 확정하는 단계를 포함한다.

본 발명의 실시예의 다른 일 측면에 의해 제공되는 목표 객체 검출 네트워크의 트레이닝 방법은,

적어도 하나의 샘플 쌍을 신경망에 입력하고, 상기의 임의의 실시예에 기재된 목표 객체 검출 방법을 통해 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력하는 단계 - 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함함 -; 및

출력된 상기 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 상기 검출 프레임의 라벨링 정보 및 상기 예측 검출 박스에 기반하여 상기 신경망 및 상기 검출기를 트레이닝하는 단계를 포함한다.

본 발명의 실시예의 또 다른 일 측면에 의해 제공되는 목표 객체 검출 장치는,

참고 프레임 및 검출 프레임의 특징을 각각 추출하기 위한 신경망 - 상기 검출 프레임은 비디오 시퀀스 중의 목표 객체 검출의 수행을 대기하는 현재 프레임이거나, 상기 목표 객체를 포함할 가능성이 있는 상기 현재 프레임 내의 구역 이미지이고, 상기 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 상기 검출 프레임 앞에 위치한 프레임이고, 상기 참고 프레임의 이미지 크기는 상기 검출 프레임보다 작음 -;

상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 수신하고, 상기 각 그룹의 특징에 대해 1 그룹의 검출 결과를 각각 출력하기 위한 검출기 - 상기 각 그룹의 특징은 상기 참고 프레임의 특징 및 상기 검출 프레임의 특징을 포함하고, 상기 각 그룹의 검출 결과는 상기 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함함 -; 및

상기 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 확정하기 위한 취득 모듈을 구비한다.

본 발명의 실시예의 다른 일 측면에 의해 제공되는 목표 객체 검출 네트워크의 트레이닝 장치는,

적어도 하나의 샘플 쌍을 수신하고, 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력하기 위한 목표 객체 검출 네트워크 - 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함하고, 상기 목표 객체 검출 네트워크는 상기의 임의의 실시예에 기재된 목표 객체 검출 장치를 포함함 -; 및

출력된 상기 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 상기 검출 프레임의 라벨링 정보 및 상기 예측 검출 박스에 기반하여 상기 신경망 및 상기 검출기를 트레이닝하기 위한 트레이닝 모듈을 구비한다.

본 발명의 상기 실시예에 의해 제공되는 목표 객체 검출 방법 및 장치, 전자 디바이스 및 기록 매체에 따르면, 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출하고, 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하여 적어도 2 그룹의 검출 결과를 얻으며, 당해 적어도 2 그룹의 검출 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득한다. 본 발명의 실시예는 복수의 네트워크 계층을 가지는 신경망을 도입하여 참고 프레임 및 검출 프레임에 대해 특징 추출을 실행하고, 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징에 각각 기반하여 목표 객체 검출을 실행하는바, 서로 다른 네트워크 계층의 수용 필드가 서로 다르기에, 이미지 프레임에 대한 세부적이고 전체적인 종합 정보 추출을 구현할 수 있으며, 서로 다른 네트워크 계층이 출력한 특징을 통해 얻은 검출 결과를 종합하여 검출 프레임 내의 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 검출 결과가 더욱 정확하고 정밀하도록 할 수 있으며; 검출 프레임 내의 복수의 후보 박스의 분류 결과 및 회귀 결과에 기반하여 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

본 발명의 상기 실시예에 의해 제공되는 목표 객체 검출 네트워크의 트레이닝 방법 및 장치, 전자 디바이스 및 기록 매체에 따르면, 트레이닝하여 얻은 목표 객체 검출 네트워크를 목표 객체 검출에 사용할 경우, 서로 다른 네트워크 계층이 출력한 특징을 통해 얻은 검출 결과를 종합하여 검출 프레임 내의 목표 객체의 검출 박스를 취득할 수 있으므로, 목표 객체의 검출 결과가 더욱 정확하고 정밀하도록 할 수 있으며; 검출 프레임 내의 복수의 후보 박스의 분류 결과 및 회귀 결과에 기반하여 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

이하, 도면과 실시예를 참조하여 본 발명의 기술적 방안을 더 상세하게 설명한다.

명세서의 일부를 구성하는 도면은 본 발명의 실시예를 설명하며, 또한 설명과 함께 본 발명의 원리를 해석한다.
도면을 참조하여 이하의 상세한 설명을 통해 본 발명을 더 명확히 이해하게 될 것이다.
도 1은 본 발명의 목표 객체 검출 방법의 일 실시예의 플로우 차트이다.
도 2는 본 발명의 목표 객체 검출 방법의 다른 일 실시예의 플로우 차트이다.
도 3은 본 발명의 실시 방식의 검출기의 일 모식도이다.
도 4는 본 발명의 목표 객체 검출 방법의 일 실시 방식의 플로우 차트이다.
도 5는 본 발명의 도 4에 나타낸 실시 방식에 대응되는 검출기의 다른 일 모식도이다.
도 6은 도 4에 나타낸 방식에 대응되는 일 응용 예시도이다.
도 7은 본 발명의 목표 객체 검출 네트워크의 트레이닝 방법의 일 실시예의 플로우 차트이다.
도 8은 본 발명의 목표 객체 검출 장치의 일 실시예의 구조 모식도이다.
도 9는 본 발명의 목표 객체 검출 장치의 다른 일 실시예의 구조 모식도이다.
도 10은 본 발명의 목표 객체 검출 장치의 또 다른 일 실시예의 구조 모식도이다.
도 11은 본 발명의 목표 객체 검출 네트워크의 트레이닝 장치의 일 실시예의 구조 모식도이다.
도 12는 본 발명의 전자 디바이스 하나의 응용 실시예의 구조 모식도이다.

현재, 도면을 참조하여 본 발명의 각종 예시적인 실시예를 상세하게 설명한다. 주의해야 할 점이라면, 별도로 상세히 설명하지 않는 한, 이러한 실시예에 설명된 부품과 단계의 상대적인 배치, 수치 조건식 및 수치는 본 발명의 범위를 제한하지 않는다.

동시에, 설명의 편의상 도면에 나타내는 각 부분의 사이즈는 실제의 척도에 따라 그려지는 데 한정되지 않음을 이해해야 한다.

이하, 적어도 하나의 예시적인 실시예의 설명이 실제로는 설명적인 것에 지나치지 않는바, 결코 본 발명의 및 그 응용이나 사용에 대한 어떠한 제한도 이루지 않는다.

당업자에 있어서 이미 알려진 기술, 방법 및 기기에 대해 상세하게 논의하지 않지만, 적절할 경우에는 상기 기술, 방법 및 기기가 명세서의 일부로 간주되어야 한다.

주의해야 할 점이라면, 유사한 부호 및 알파벳은 하기의 도면에서 유사한 요소를 나타내기에, 어떤 요소가 하나의 도면에서 정의되면 그 뒤의 도면에서 다시 논의될 필요가 없다.

본 발명의 실시예는 컴퓨터 시스템/서버에 적용 가능하며, 기타의 대량의 범용 또는 전용의 계산 시스템 환경 또는 구성과 함께 동작할 수 있다. 시스템/디바이스와 함께 사용되는 이미 알려진 계산 시스템, 환경 및/또는 구성에 적용되는 예는, 개인 컴퓨터 시스템, 서버 컴퓨터 시스템, 신 클라이언트(Thin Client), 씩 클라이언트(Thick Client), 핸드 헬드 또는 랩탑 디바이스, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래밍 가능 소비 전자 제품, 네트워크 개인 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상술한 임의의 시스템을 포함하는 분산형 클라우드 계산 기술 환경 등을 포함하지만, 이들에 한정되지 않는다.

컴퓨터 시스템/디바이스는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능 명령(예를 들면, 프로그램 모듈)의 일반적인 문맥에서 서술될 수 있다. 일반적으로 프로그램 모듈은 루틴, 프로그램, 타겟 프로그램, 유닛, 로직, 데이터 구조 등을 포함할 수 있으며, 이들은 특정 태스크를 실행하거나 또는 특정 추상 데이터 형식을 실현할 수 있다. 컴퓨터 시스템/서버는 분산형 클라우드 계산 환경에서 실시될 수 있다. 분산형 클라우드 계산 환경에 있어서, 태스크는 통신 네트워크를 통해 접속된 원격 처리 기기에 의해 실행된다. 분산형 클라우드 계산 환경에 있어서, 프로그램 모듈은 기억 기기를 포함하는 로컬 또는 원격 계산 시스템의 저장 매체에 위치할 수 있다.

도 1은 본 발명의 목표 객체 검출 방법의 일 실시예의 플로우 차트이다. 도 1에 나타낸 바와 같이, 당해 실시예의 목표 객체 검출 방법은 이하의 단계를 포함한다.

102에 있어서, 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출한다.

여기서, 참고 프레임의 이미지 크기는 검출 프레임보다 작다.

본 발명의 실시예에 있어서, 검출 프레임은 목표 객체 검출의 수행을 대기하는 현재 프레임이거나, 또는 현재 프레임 내의 목표 객체를 포함하는 구역 이미지이다. 검출 프레임이 목표 객체 검출의 수행을 대기하는 현재 프레임 내의 목표 객체를 포함할 가능성이 있는 구역 이미지일 경우, 본 발명의 각 실시예의 일 실시 방식에 있어서, 당해 구역 이미지는 참고 프레임의 이미지 크기보다 큰바, 예를 들면, 참고 프레임 이미지의 중심점을 중심점으로 하여, 현재 프레임 내에서 크기가 참고 프레임 이미지 크기의 2~4배의 검색 구역을 선택하여 검출 프레임으로 간주할 수 있다.

본 발명의 실시예에 있어서, 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 검출 프레임의 앞에 위치한 프레임이고, 비디오 시퀀스 중의 목표 추적을 실행해야 할 시작 프레임일 수 있으며, 당해 시작 프레임의 비디오 프레임 시퀀스 중의 위치는 매우 유연한바, 예를 들면 비디오 프레임 시퀀스 중의 첫 프레임 또는 임의의 중간 프레임일 수 있다. 검출 프레임은 목표 추적을 실행해야 할 프레임이며, 검출 프레임 이미지 중에서 목표 객체의 검출 박스를 확정한 후, 당해 검출 프레임 내의 대응하는 검출 박스의 이미지를 다음의 하나의 검출 프레임의 참고 프레임 이미지로 설정할 수 있다.

본 발명의 목표 객체 검출 방법의 다른 일 실시예에 있어서, 검출 프레임이 목표 객체 검출의 실행을 대기하는 현재 프레임 내의 목표 객체를 포함할 가능성이 있는 구역 이미지일 경우, 사전에 현재 프레임 내에서, 참고 프레임의 중심점을 중심점으로 하는, 길이가 당해 현재 프레임 서로 대응하는 참고 프레임의 이미지 길이보다 큰 구역 이미지를 절취하여 검출 프레임으로 설정하는 것; 및/또는,

사전에 현재 프레임 내에서, 참고 프레임의 중심점을 중심점으로 하는, 폭이 당해 현재 프레임 서로 대응하는 참고 프레임의 이미지 폭보다 큰 구역 이미지를 절취하여 검출 프레임으로 설정하는 것을 더 포함할 수 있다.

본 발명의 각 실시예의 일 실시 방식에 있어서, 당해 단계 102에 있어서, 동일한 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출하거나; 또는, 동일한 구조를 가지는 서로 다른 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출할 수 있다.

본 발명의 실시예에 있어서, 특징의 표현 방식은 특징 벡터 또는 특징 맵일 수 있으나, 본 발명의 실시예는 이에 한정되지 않는다.

본 발명의 실시예의 신경망은 컨벌루션 신경망, 순환 신경망 등과 같은 임의의 복수의 네트워크 계층을 가지는 심층 신경망을 채용하여 구현할 수 있는바, 예를 들면 LeNet, AlexNet, GoogLeNet, VGGNet, ResNet, MobileNet(예를 들면 ResNet-18, ResNet-34, ResNet-50, ResNet-101 등), ShuffleNet 등 임의의 유형의 신경망이다.

선택적인 일 예에 있어서, 당해 단계 S102는 프로세서에 의해 메모리에 기억된 해당하는 명령을 호출하여 수행될 수 있으며, 프로세서에 의해 운행되는 신경망에 의해 수행될 수도 있다.

104에 있어서, 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 중의 각 그룹의 특징을 각각 검출기에 입력하여, 각 그룹의 특징에 대해 검출기가 대응하게 출력한 1 그룹의 검출 결과를 얻는바, 합계로 상기 적어도 2 그룹의 특징에 대응하는 적어도 2그룹의 검출 결과를 얻는다.

여기서, 각 그룹의 특징은 참고 프레임의 특징 및 검출 프레임의 특징을 포함하고, 각 그룹의 검출 결과는 1 그룹의 특징에 대응하는 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함한다.

여기서, 분류 결과는 각 후보 박스가 각각 목표 객체의 검출 박스인 확률 값을 포함하며, 회귀 결과는 후보 박스의 참고 프레임에 대응하는 검출 박스에 대한 위치 상의 오프셋을 포함한다.

본 발명의 실시예의 검출기는 입력된 1 그룹의 참고 프레임의 특징 및 검출 프레임의 특징에 대해 분류 처리를 실행하여, 각 후보 박스가 각각 목표 객체의 검출 박스인 확률 값을 확정하고; 입력된 1 그룹의 참고 프레임의 특징 및 검출 프레임의 특징에 대해 회귀 처리를 실행하여, 각 후보 박스의 각각 참고 프레임에 대응하는 검출 박스에 대한 위치 상의 오프셋을 확정함으로써, 목표 객체의 검출 박스인 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻을 수 있다. 여기서, 입력된 1 그룹의 특징은 참고 프레임의 특징 맵 및 검출 프레임의 특징 맵일 수 있다.

예를 들면, 그 중의 선택적인 일 예에 있어서, 상기 복수의 후보 박스는 검출 프레임 내의 각 위치 상의 K개의 후보 박스를 포함할 수 있다. 여기서, K는 전에 설정된 1보다 큰 정수이다. K개의 후보 박스의 길이와 폭의 비율은 서로 다른바, 예를 들면 K개의 후보 박스의 길이와 폭의 비율은 1:1, 2:1, 2:1, 3:1, 1:3등을 포함할 수 있다. 분류 결과는 각 위치 상의 K개의 후보 박스가 목표 객체의 검출 박스인지 여부의 확률 값을 나타낸다.

사전의 트레이닝 과정을 통해 K의 값 및 K개의 후보 박스의 길이와 폭의 비율을 구성할 수 있다. 이렇게 하여, 입력된 1 그룹의 참고 프레임의 특징 및 검출 프레임의 특징을 수신한 후, 참고 프레임의 특징 및 검출 프레임의 특징에 대해 분류 처리를 실행하고, 참고 프레임의 특징 및 검출 프레임의 특징에 기반하여 검출 프레임 내의 각 위치 상의 K개의 후보 박스가 각각 목표 객체의 검출 박스인 확률 값을 확정할 수 있다. 참고 프레임의 특징 및 검출 프레임의 특징에 대해 회귀 처리를 실행하여, 참고 프레임의 특징 및 검출 프레임의 특징에 기반하여 검출 프레임 내의 각 위치 상의 K개의 후보 박스의 각각 참고 프레임에 대응하는 검출 박스에 대한 위치 상의 오프셋을 확정하여, 목표 객체의 검출 박스인 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻는다. 따라서, 1 그룹의 참고 프레임 및 검출 프레임에 대해 신경망을 이용하여 각각 특징 추출을 실행하여 1 그룹의 참고 프레임의 특징 및 검출 프레임의 특징을 얻어 검출기에 입력하여 한 후, 검출기가 출력한, 검출 프레임 내의 목표 객체의 검출 박스로 확정될 가능성이 있는 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻을 수 있다. 검출기는 상기 분류 기능 및 회귀 검출 기능만 가지면 되는바, 분류 처리를 위한 유닛 및 회귀 처리를 위한 유닛 등 계산 유닛으로 구성될 수 있으며, 본 발명의 구체적인 구현 방식에 대해 한정하지 않는다. 또한, 당해 검출기의 가능한 구현 방식은 본 발명의 후속의 실시예(예를 들면 도 3, 도 5, 도 9 및 도 10)에서 설명한다. 그러나, 당업자는 본 발명에서 설명하는 것은 단지 검출기의 예시적인 구현 방식에 지나지 않으며, 검출기의 구체적인 구현은 이에 한정되지 않음을 알 수 있다.

선택적인 일 예에 있어서, 당해 단계 S104는 프로세서에 의해 메모리에 기억된 해당하는 명령을 호출하여 수행될 수 있으며, 프로세서에 의해 운행되는 검출기에 의해 수행될 수도 있다.

106에 있어서, 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득한다.

선택적인 일 예에 있어서, 당해 단계 S106는 프로세서에 의해 메모리에 기억된 해당하는 명령을 호출하여 수행될 수 있으며, 프로세서에 의해 운행되는 취득 모듈에 의해 수행될 수도 있다.

본 발명의 상기 실시예에 의해 제공되는 목표 객체 검출 방법에 따르면, 복수의 네트워크 계층을 가지는 신경망을 도입하여 참고 프레임 및 검출 프레임에 대해 특징 추출을 실행하고, 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징에 각각 기반하여 목표 객체 검출을 실행하는바, 서로 다른 네트워크 계층의 수용 필드가 서로 다르기에, 이미지 프레임에 대한 세부적이고 전체적인 종합 정보 추출을 구현할 수 있으며, 서로 다른 네트워크 계층이 출력한 특징을 통해 얻은 검출 결과를 종합하여 검출 프레임 내의 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 검출 결과가 더욱 정확하고 정밀하도록 할 수 있으며; 검출 프레임 내의 복수의 후보 박스의 분류 결과 및 회귀 결과에 기반하여 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

본 발명의 목표 객체 검출 방법의 또 다른 일 실시예에 있어서, 검출 프레임 내의 목표 객체의 검출 박스를 다음의 하나의 참고 프레임으로 설정하고, 신경망을 이용하여 다음의 하나의 참고 프레임의 특징 및 비디오 시퀀스 중에서 시간 순서가 검출 프레임의 뒤에 위치하는 다음의 하나의 검출 프레임의 특징을 각각 추출하는 단계; 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력하여 검출기가 대응하게 출력한 적어도 2 그룹의 검출 결과를 얻는 단계 - 각 그룹의 검출 결과는 1 그룹의 특징에 대응하고, 각 그룹의 특징은 다음의 하나의 참고 프레임의 특징 및 다음의 하나의 검출 프레임의 특징을 포함함 -; 및 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 다음의 하나의 검출 프레임 내의 목표 객체의 검출 박스를 취득하는 단계를 포함한다.

상기 실시예에 있어서, 차례로 하나의 목표 객체의 검출 박스가 확정된 프레임 내의 검출 박스 이미지 참고 프레임을 참고 프레임으로 설정하여, 비디오 시퀀스 중에서 시간 순서가 참고 프레임 뒤에 위치하는 검출 프레임에 대해 목표 객체 검출을 실행함으로써, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 확정하여, 비디오 시퀀스 중의 목표 객체에 대한 추적을 구현할 수 있다.

본 발명의 각 실시예의 일 실시 방식에 있어서, 상기 신경망은 복수의 컨벌루션 계층을 포함하는바, 복수의 컨벌루션 계층을 포함하는 하나의 심층 신경망일 수 있다. 이에 따라, 단계 104에 있어서, 신경망 중의 적어도 2개의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력할 수 있다. 당해 실시예에 있어서, 신경망 중의 각 그룹의 특징을 출력하는 네트워크 계층은 컨벌루션 계층이다.

또는, 본 발명의 각 실시예의 다른 일 실시 방식에 있어서, 상기 신경망은 복수의 컨벌루션 블록(block)을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하며, 신경망은 하나의 복수의 컨벌루션 블록을 포함하는 심층 신경망일 수 있다. 이에 따라, 단계 104에 있어서, 신경망 중의 적어도 2개의 컨벌루션 블록이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력할 수 있다. 당해 실시예에 있어서, 신경망 중의 각 그룹의 특징을 출력하는 네트워크 계층은 컨벌루션 블록인바, 예를 들면 당해 컨벌루션 블록 중의 제일 마지막 하나의 컨벌루션 계층(즉, 네트워크 심도가 가장 깊은 층의 하나의 컨벌루션 계층)일 수 있다.

또는, 본 발명의 각 실시예의 다른 일 실시 방식에 있어서, 상기 신경망은 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하는바, 즉, 당해 신경망은 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층을 포함하는 하나의 심층 신경망일 수 있다. 이에 따라, 단계 104에 있어서, 신경망 중의 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력할 수 있다. 당해 실시예에 있어서, 신경망 중의 적어도 2 그룹의 특징을 출력하는 네트워크 계층은 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층을 포함한다. 1 그룹의 특징을 출력하는 네트워크 계층이 컨벌루션 블록일 경우, 예를 들면 당해 컨벌루션 블록 중의 제일 마지막 하나의 컨벌루션 계층(즉, 네트워크 심도가 가장 깊은 층의 하나의 컨벌루션 계층)이 당해 그룹의 특징을 출력할 수 있다.

본 발명의 상기 각 실시예의 일 실시 방식에 있어서, 신경망 중의 하나의 네트워크 계층이 출력한 1 그룹의 특징을 검출기에 입력하여 검출기가 출력한 1 그룹의 검출 결과를 얻는 것은, 다음과 같은 방식을 통해 구현될 수 있다. 즉, 참고 프레임의 특징에 기반하여 검출기의 분류 가중치 및 회귀 가중치를 취득하고; 분류 가중치 및 회귀 가중치를 각각 이용하여 검출 프레임의 특징에 대해 처리를 실행하여, 검출기가 출력한 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻는다.

도 2는, 본 발명의 목표 객체 검출 방법의 다른 일 실시예의 플로우 차트이다. 당해 실시예의 목표 객체 검출 방법은 이하의 단계를 포함한다.

202에 있어서, 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출한다.

204에 있어서, 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력한다.

여기서, 검출기는 입력된 각 그룹의 특징에 대해 각각 단계 206-208을 수행하여, 서로 대응하는 1 그룹의 검출 결과를 얻으며, 각 그룹의 검출 결과는 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함한다.

206에 있어서, 참고 프레임의 특징에 기반하여 검출기의 분류 가중치 및 회귀 가중치를 취득한다.

208에 있어서, 분류 가중치 및 회귀 가중치를 각각 이용하여 검출 프레임의 특징에 대해 처리를 실행하여 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻는다.

단계 206-208을 통해, 적어도 2 그룹의 검출 결과를 얻은 후, 당해 적어도 2그룹의 검출 결과에 대해 단계 210을 수행한다.

210에 있어서, 검출기가 출력한 적어도 2 그룹의 검출 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득한다.

본 실시예에 있어서, 참고 프레임에 기반하여, 검출기는 검출 프레임 내에서 대량의 후보 박스를 고속으로 생성하고, 검출 프레임 내의 각 위치 상의 복수의 후보 박스의 각각 참고 프레임 내의 목표 객체의 검출 박스에 대한 오프셋을 얻을 수 있으며, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

여기서, 그 중의 일부 실시 방식에 있어서, 단계 206에 있어서, 제1 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제1 특징을 검출기의 분류 가중치로 설정할 수 있다.

예를 들면, 그 중의 선택적인 일 예에 있어서, 분류 가중치를 취득하는 것은 다음과 같은 방식을 통해 구현될 수 있다. 즉, 제1 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하여, 참고 프레임의 특징의 채널 수를 증가시켜 제1 특징을 얻는바, 제1 특징의 채널 수는 참고 프레임의 특징의 채널 수의 2K 배이다.

여기서, 제1 특징의 채널 수가 참고 프레임의 특징의 채널 수의 2K 배일 경우, 분류 결과는 검출 프레임 내의 각 위치 상의 K개의 후보 박스의 각각이 목표 객체의 검출 박스인지 여부의 확률 값을 포함할 수 있다.

일부 실시 방식에 있어서, 단계 206에 있어서, 제2 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제2 특징을 검출기의 회귀 가중치로 설정할 수 있다.

예를 들면, 그 중의 선택적인 일 예에 있어서, 회귀 가중치를 취득하는 것은 다음과 같은 방식을 통해 구현될 수 있다. 즉, 제2 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하여, 참고 프레임의 특징의 채널 수를 증가시켜 제2 특징을 얻는바, 당해 제2 특징의 채널 수는 참고 프레임의 특징의 채널 수의 4K 배이다.

여기서, 회귀 결과는 검출 프레임 내의 각 위치 상의 K개의 후보 박스의 각각 참고 프레임 내의 목표 객체의 검출 박스에 대한 오프셋을 포함하며, 여기서의 오프셋은 위치 및 크기의 변화량을 포함할 수 있고, 여기서의 위치는 중심점의 위치일 수도 있고, 기준 박스의 4개의 정점의 위치 등일 수도 있다.

제2 특징의 채널 수가 참고 프레임의 특징의 채널 수의 4K 배일 경우, 각 후보 박스의 각각 참고 프레임 내의 목표 객체의 검출 박스에 대한 오프셋은 예를 들면 중심점의 위치의 횡좌표의 오프셋(dx), 중심점의 위치의 종좌표의 오프셋(dy), 높이의 변화량(dh) 및 폭의 변화량(dw)을 포함할 수 있다.

일부 실시 방식에 있어서, 단계 208에 있어서, 분류 가중치를 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻고; 회귀 가중치를 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻을 수 있다.

예를 들면, 그 중의 일부 선택적인 예에 있어서, 분류 가중치를 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻을 경우, 검출기 중의 제3 컨벌루션 계층을 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제3 특징을 얻고; 분류 가중치를 이용하여 제3 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻을 수 있되, 당해 제3 특징의 채널 수는 검출 프레임의 특징의 채널 수와 동일하다.

또한 예를 들면, 그 중의 일부 선택적인 예에 있어서, 회귀 가중치를 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻을 경우, 제4 컨벌루션 계층을 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제4 특징을 얻고; 회귀 가중치를 이용하여 제4 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻을 수 있되, 제4 특징의 채널 수는 검출 프레임의 특징의 채널 수와 동일하다.

도 3은 본 발명의 상기 실시 방식에 대응되는 검출기의 일 모식도이다.

또한, 다른 일부 실시 방식에 있어서, 단계 206에 있어서, 참고 프레임의 특징에 기반하여 검출기의 분류 가중치를 취득할 경우, 검출기 중의 제5 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 L개의 제5 특징을 검출기의 분류 가중치로 설정할 수 있다. 여기서, 참고 프레임의 특징의 채널 수는 M1이고, 제5 특징의 채널 수는 N1이며, M1, N1 및 L은 0보다 큰 정수이고, 또한 M1은 N1보다 크다. 예를 들면, 그 중의 선택적인 일 예에 있어서, 참고 프레임의 특징의 채널 수는 256이고, 제5 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 1인 256개의 제5 특징을 얻는다.

일부 실시 방식에 있어서, 단계 208에 있어서, 분류 가중치를 이용하여 검출 프레임의 특징에 대해 처리를 실행하여, 복수의 후보 박스의 분류 결과를 얻을 경우, 검출기 중의 제6 컨벌루션 계층을 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여, 채널 수가 N1인 L개의 제6 특징을 얻되, 여기서 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N1보다 크며, 분류 가중치 중의 L개의 제5 특징 중의 각각의 특징을 각각 이용하여 L개의 제6 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여(즉, t번째 제5 특징을 이용하여 t번째 제6 특징에 대해 컨벌루션 동작을 실행하며, t의 값은 차례로 0보다 크고 256이하인 정수임), L개의 컨벌루션 결과를 얻고; 검출기 중의 제7 컨벌루션 계층을 이용하여 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여, 복수의 후보 박스의 분류 결과를 얻을 수 있다. 예를 들면, 그 중의 선택적인 일 예에 있어서, 검출 프레임의 특징의 채널 수는 256이고, 제6 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하여, 채널 수가 1인 256개의 제6 특징으며; 분류 가중치 중의 256개의 제5 특징 중의 각각의 특징을 각각 이용하여 256개의 제6 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여, 256개의 컨벌루션 결과를 얻는다.

선택적으로, 상기 실시 방식에 있어서, L개의 컨벌루션 결과를 얻은 후, L개의 컨벌루션 결과를 연결할 수 있으며, 검출기 중의 제7 컨벌루션 계층을 이용하여 연결된 후의 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행한다.

일부 실시 방식에 있어서, 단계 206에 있어서, 참고 프레임의 특징에 기반하여 검출기의 회귀 가중치를 취득할 경우, 검출기 중의 제8 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 P개의 채널의 제8 특징을 검출기의 회귀 가중치로 설정할 수 있다. 여기서, 참고 프레임의 특징의 채널 수는 M1이고, 제8 특징의 채널 수는 N2이며, M1, N2 및 P는 0보다 큰 정수이고, 또한 M1은 N2보다 크다. 예를 들면, 그 중의 선택적인 일 예에 있어서, 검출 프레임의 특징의 채널 수는 256이고, 제8 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 1인 256개의 제8 특징을 얻는다.

일부 실시 방식에 있어서, 단계 208에 있어서, 회귀 가중치를 이용하여 검출 프레임의 특징에 대해 처리를 실행하여, 검출기가 출력한 복수의 후보 박스의 회귀 결과를 얻을 경우, 검출기 중의 제9 컨벌루션 계층을 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N2인 P개의 제9 특징을 얻으며, 여기서 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N2보다 크고; 회귀 가중치 중의 P개의 제8 특징 중의 각각의 특징을 각각 이용하여 P개의 제9 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여(즉, t번째 제8 특징을 이용하여 t번째 제9 특징에 대해 컨벌루션 동작을 실행하며, t의 값은 차례로 0보다 크고 256이하인 정수임), P개의 컨벌루션 결과를 얻으며; 검출기 중의 제10 컨벌루션 계층을 이용하여 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻는다. 여기서, N1과 N2의 값은 동일하거나 서로 다를 수 있다. 예를 들면, 그 중의 선택적인 일 예에 있어서, 검출 프레임의 특징의 채널 수는 256이고, 제9 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하여, 채널 수가 1인 256개의 제9 특징을 얻으며; 회귀 가중치 중의 256개의 제8 특징 중의 각각의 특징을 각각 이용하여 256개의 제10 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여, 256개의 컨벌루션 결과를 얻는다.

선택적으로, 상기 실시 방식에 있어서, P개의 컨벌루션 결과를 얻은 후, P개의 컨벌루션 결과를 연결할 수 있으며, 검출기 중의 제10 컨벌루션 계층을 이용하여 연결된 후의 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행한다.

도 4는 본 발명의 상기 실시 방식에 대응되는 하나의 플로우 차트이다. 도 5는 본 발명의 도 4에 나타낸 실시 방식에 대응되는 검출기의 일 모식도이다. 도 4 및 도 5를 참조하면, 당해 실시 방식의 목표 객체 검출 방법은 이하의 단계를 포함한다.

302에 있어서, 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출한다.

304에 있어서, 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력한다.

여기서, 검출기는 입력된 각 그룹의 특징에 대해 각각 단계 306~312, 및314-320을 수행하여, 서로 대응하는 1 그룹의 검출 결과를 얻으며, 각 그룹의 검출 결과는 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함한다.

306에 있어서, 검출기 중의 제5 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 L개의 제5 특징을 검출기의 분류 가중치로 설정한다.

여기서, 참고 프레임의 특징의 채널 수는 M1이고, 제5 특징의 채널 수는 N1이며, M1, N1 및 L은 0보다 큰 정수이고, 또한 M1은 N1보다 크다. 즉, 단계 306을 통해 참고 프레임의 채널 수를 줄였다.

308에 있어서, 검출기 중의 제6 컨벌루션 계층을 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N1인 L개의 제6 특징을 얻는다.

여기서, 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N1보다 크다. 즉, 단계 308을 통해 검출 프레임의 채널 수를 줄였다.

310에 있어서, 분류 가중치 중의 L개의 제5 특징 중의 각각의 특징을 각각 이용하여 L개의 제6 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여 L개의 컨벌루션 결과를 얻는다.

312에 있어서, 검출기 중의 제7 컨벌루션 계층을 이용하여 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻는다.

그 후 단계 322를 수행한다.

314에 있어서, 검출기 중의 제8 컨벌루션 계층을 이용하여 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 P개의 채널의 제8 특징을 검출기의 회귀 가중치로 설정한다.

여기서, 참고 프레임의 특징의 채널 수는 M1이고, 제8 특징의 채널 수는 N2이며, M1, N2 및 P는 0보다 큰 정수이고, 또한 M1은 N2보다 크다. 즉, 단계 314를 통해, 참고 프레임의 채널 수를 줄였다.

316에 있어서, 검출기 중의 제9 컨벌루션 계층을 이용하여 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N2인 P개의 제9 특징을 얻는다.

여기서, 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N2보다 크다. 즉, 단계 316을 통해 검출 프레임의 채널 수를 줄였다.

318에 있어서, 회귀 가중치 중의 P개의 제8 특징 중의 각각의 특징을 각각 이용하여 P개의 제9 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여 P개의 컨벌루션 결과를 얻는다.

320에 있어서, 검출기 중의 제10 컨벌루션 계층을 이용하여 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻는다.

여기서, 상기 단계 306~312및 단계 314~320은 2개의 분기된 동작이며, 이러한 2개의 분기된 동작은 동시에 수행될 수도 있고, 임의의 선후 순서에 따라 수행될 수도 있으며, 임의의 시차로 수행을 시작할 수도 있는바, 본 실시예는 이에 대해 한정하지 않는다.

단계 306~320을 통해, 적어도 2 그룹의 검출 결과를 얻은 후, 당해 적어도 2그룹의 검출 결과에 대해 단계 322를 수행한다.

322에 있어서, 검출기가 출력한 적어도 2 그룹의 검출 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득한다.

상기 실시예에 있어서, 동일 그룹의 참고 프레임의 특징 및 검출 프레임의 특징을 채널 수가 같고 또한 채널 수가 적은 특징으로 변환한 후, 서로 대응하는 참고 프레임의 특징 맵 및 검출 프레임의 특징 맵에 대해 관련된 동작을 실행할 수 있다. 예를 들면, 채널 수가 256인 참고 프레임의 특징 맵 및 검출 프레임의 특징 맵을 각각 채널 수가 1인 256개의 특징 맵으로 변환하고, 관련된 동작을 실행하여 256개의 특징 맵을 얻을 수 있는바, 즉, 비교적 많은 채널 수를 제공하였다. 관련된 동작을 실행한 후, 컨벌루션 동작을 실행하여 2k, 4k 채널 수의 분류 결과 및 회귀 결과로 변환한다. 참고 프레임에 대해 차원을 증가시키는 동작을 실행할 필요가 없기에, 매개 변수 량을 대폭으로 줄일 수 있으며, 따라서 계산 속도를 향상시킬 수 있다.

예를 들면 상기 실시예의 제1 컨벌루션 계층, 제2 컨벌루션 계층, …, 제10 컨벌루션 계층과 같은 본 발명의 실시예의 각 컨벌루션 계층 및 컨벌루션 유닛은 예를 들면 하나의 단일 컨벌루션 계층이거나 복수의 컨벌루션 계층이 적층하여 형성된 하나의 컨벌루션 계층일 수 있으며, 본 발명의 실시예는 이에 한정되지 않음을 설명할 필요가 있다.

또한, 상기 각 실시예의 일부 실시 방식에 있어서, 단계 106, 210 또는 322에 있어서, 검출기가 출력한 적어도 2 그룹의 검출 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득하는 것은 다음과 같은 방식을 통해 구현될 수 있다. 즉,

적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 분류 결과를 얻고/얻거나, 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 회귀 결과를 얻으며;

복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득한다.

예를 들면, 분류 결과 및 회귀 결과의 표현 형식은 벡터이며, 복수의 성분을 포함한다. 예를 들면 분류 결과는 2개의 성분을 포함하는바, 각각 하나의 후보 박스가 목표 객체의 검출 박스인지 여부의 확률 값에 대응하고, 회귀 결과는 4개의 성분을 포함하는바, 각각 하나의 후보 박스의 참고 프레임 내의 목표 객체의 검출 박스에 대한 오프셋(중심점의 위치의 횡좌표의 오프셋 dx, 중심점의 위치의 종좌표의 오프셋 dy, 높이의 변화량dh 및 폭의 변화량dw)에 대응하면, 적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 가중치 부여를 실행할 경우, 사전에 설정한 각 그룹의 검출 결과의 가중 계수를 이용하여 해당하는 분류 결과 중의 각 성분에 대해 가중치 부여(곱셈)를 실행한 후, 얻은 적어도 2개의 분류 결과 벡터 중의 대응하는 성분을 가산하여, 하나의 종합 분류 결과를 얻는다. 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여를 실행할 경우, 사전에 설정한 각 그룹의 검출 결과의 가중 계수를 이용하여 해당하는 회귀 결과 중의 각 성분에 대해 가중치 부여(곱셈)를 실행한 후, 얻은 적어도 2개의 회귀 결과 벡터 중의 대응하는 성분을 가산하여, 하나의 종합 회귀 결과를 얻을 수 있다. 여기서, 더 고속으로 그리고 정확하게 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득하기 위하여, 적어도 2 그룹의 검출 결과의 가중 계수의 합을 1로 설정할 수 있다.

마찬가지로, 적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 평균화를 실행할 경우, 적어도 2 그룹의 검출 결과 중의 분류 결과 벡터 중의 대응하는 성분에 대해 가산한 후 평균 값을 얻는 것을 실행하여, 하나의 종합 분류 결과를 얻을 수 있다. 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여를 실행할 경우, 적어도 2 그룹의 검출 결과 중의 회귀 결과 벡터 중의 대응하는 성분에 대해 가산한 후 평균 값을 얻는 것을 실행하여, 하나의 종합 회귀 결과를 얻을 수 있다.

마찬가지로, 적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 가중치 부여를 실행할 경우, 사전에 설정한 각 그룹의 검출 결과의 가중 계수를 이용하여 해당하는 분류 결과 중의 각 성분에 대해 가중치 부여(곱셈)를 실행한 후, 얻은 적어도 2개의 분류 결과 벡터 중의 대응하는 성분에 대해 가산한 후 평균 값을 얻는 것을 실행하여, 하나의 종합 분류 결과를 얻을 수 있다. 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여 및 평균화를 실행할 경우, 사전에 설정한 각 그룹의 검출 결과의 가중 계수를 이용하여 해당하는 회귀 결과 중의 각 성분에 대해 가중치 부여(곱셈)를 실행한 후, 얻은 적어도 2개의 회귀 결과 벡터 중의 대응하는 성분에 대해 가산한 후 평균 값을 얻는 것을 실행하여, 하나의 종합 회귀 결과를 얻을 수 있다.

적어도 2 그룹의 검출 결과 중의 분류 결과 및 회귀 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 통해, 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과를 얻는 방식 외에, 기타 방식을 채용하여 적어도 2 그룹의 검출 결과 중의 분류 결과 및 회귀 결과에 대해 처리를 실행할 수 있는바, 예를 들면 합산 방식을 채용함으로써, 적어도 2 그룹의 검출 결과 중의 분류 결과 및 회귀 결과에 대해 각각 처리를 실행하여, 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과를 얻을 수 있는바, 본 발명의 실시예는 이에 한정되지 않음을 설명할 필요가 있다.

예를 들면, 일부 선택적인 예에 있어서, 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택하고, 선택한 후보 박스의 종합 회귀 결과 중의 오프셋에 기반하여 선택한 후보 박스에 대해 회귀를 실행하여 검출 프레임 내의 목표 객체의 검출 박스를 얻는다.

선택적으로, 가능한 일 구현 방식에 있어서, 복수의 후보 박스 중에서 하나의 후보 박스를 선택할 경우, 종합 분류 결과 및 종합 회귀 결과의 가중치 계수에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택한다. 예를 들면, 종합 분류 결과 및 종합 회귀 결과의 가중치 계수에 기반하여 각 후보 박스의 확률 값 및 오프셋을 통해 각각 하나의 종합 점수를 계산하고, 상기 복수의 후보 박스의 종합 점수에 기반하여, 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택한다. 예를 들면 종합 점수가 제일 높은 하나의 후보 박스를 선택한다.

선택적으로, 가능한 다른 일 구현 방식에 있어서, 복수의 후보 박스의 종합 회귀 결과를 얻은 후, 또한 각 후보 박스의 종합 회귀 결과에 각각 기반하여 종합 분류 결과를 조정할 수도 있다. 복수의 후보 박스 중에서 하나의 후보 박스를 선택할 경우, 조정된 후의 종합 분류 결과에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택할 수 있다.

예를 들면, 복수의 후보 박스의 종합 회귀 결과를 얻은 후, 후보 박스의 종합 회귀 결과 중의 위치 및 크기의 변화량에 기반하여, 당해 후보 박스의 확률 값을 조정할 수 있으며, 예를 들면, 종합 회귀 결과 중의 위치 및 크기의 변화량에 기반하여, 당해 후보 박스의 확률 값을 조정한다. 예를 들면, 위치의 변화량이 비교적 크고(즉, 위치 이동이 비교적 큼), 크기의 변화량이 비교적 큰(즉, 형상 변화 이 비교적 큼) 후보 박스의 확률 값에 페널티를 주어 확률 값을 줄인다. 이에 따라, 당해 예에 있어서, 종합 분류 결과 및 종합 회귀 결과에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택할 경우, 조정된 후의 확률 값에 기반하여 복수의 후보 박스 중에서 확률 값이 제일 높은 하나의 후보 박스를 선택할 수 있다.

본 발명의 목표 객체 검출 방법의 선택적인 일 실시예에 있어서, 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과를 얻은 후, 그 중의 분류 결과에 대해 정규화 처리를 실행하여, 각 후보 박스가 목표 객체의 검출 박스인지 여부의 확률 값의 합이 1로 되도록 함으로써, 각 후보 박스가 목표 객체의 검출 박스인지 여부를 판단하는 데에 유리하다.

도 6은 도 4에 나타낸 방식에 대응되는 일 응용 예시도이다. 당해 응용 실시예에 있어서, 신경망(ResNet-50) 중의 3개의 네트워크 블록이 출력한 3 그룹의 특징을 각각 검출기에 입력하여 검출기가 출력한 3 그룹의 검출 결과를 얻는 일 예를 나타낸다. 신경망이 출력한 특징 중에서, 서로 다른 크기는 서로 다른 해상도를 나타내며, 네트워크 계층이 깊을수록(우측으로 갈수록), 특징이 더 깊으며(채널 수가 더 큼), 공간 사이즈도 더 작다. 서로 다른 크기의 특징으로부터 인출된 선은 당해 특징을 검출기에 입력함을 의미한다. 당업자는 본 발명의 실시예의 기재에 기반하여, 신경망 중의 기타 수량의 복수의 네트워크 블록이 출력한 복수 그룹의 특징을 각각 검출기에 입력하여 복수 그룹의 검출 결과를 얻을 수 있음을 알 수 있는바, 여기서 반복적으로 설명하지 않는다.

본 발명의 상기 실시예에 있어서, 목표 객체는 예를 들면 보행자, 차량, 로봇, 동물, 항공기, 이동 가능한 정지 물체 등 임의의 객체 중의 하나 또는 복수를 포함할 수 있으나 이에 한정되지 않는다.

본 발명의 상기 각 실시예에 따라 목표 객체의 검출 박스를 얻은 후, 목표 객체의 검출 박스에 기반하여 목표 추적, 지능형 주행 제어, 안전 보호 등 다양한 응용을 실행할 수 있다.

예를 들면, 하나의 응용 시나리오에 있어서, 검출 프레임 내의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 목표 객체의 검출 박스에 대해 라벨링을 실행함으로써 비디오 시퀀스 중의 목표 객체에 대한 라벨링을 구현할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스의 위치에 기반하여 비디오 시퀀스 중의 목표 객체의 운동 궤적을 확정함으로써, 당해 목표 객체의 운동 궤적을 파악할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 취득한 후, 목표 객체의 검출 박스의 위치에 기반하여 카메라의 촬영 매개 변수를 조정함으로써, 카메라가 목표 객체에 자동으로 초점을 맞추는 것을 구현할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 검출 프레임 내의 목표 객체의 검출 박스를 취득한 후, 검출 프레임 내의 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치하는지 여부를 확정하고; 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치한 것에 응답하여, 프롬프트 메시지를 출력함으로써, 목표 객체가 특정 구역에 들어오고 나가는 데에 대한 조기 경고를 구현할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 목표 객체가 복수 개일 경우, 검출 프레임 내의 복수의 목표 객체의 검출 박스를 취득한 후, 검출 프레임 내의 복수의 목표 객체와 참고 프레임 내의 복수의 목표 객체의 검출 박스에 대해 매칭을 실행하고, 매칭 결과 및 참고 프레임 내의 각 목표 객체의 식별자에 기반하여 검출 프레임 내의 각 목표 객체의 식별자를 라벨링함으로써, 다중 목표 객체에 대한 라벨링을 구현할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 목표 객체가 복수 개일 경우, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 검출 박스의 위치에 기반하여 비디오 시퀀스 중 복수의 목표 객체의 운동 궤적을 확정하고; 비디오 시퀀스 중 복수의 목표 객체의 운동 궤적에 기반하여 복수의 목표 객체를 추적할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 목표 객체가 복수 개일 경우, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 수량 및/또는 위치의 변화에 기반하여 복수의 목표 객체의 행위를 분석함으로써, 다중 목표 객체 행위에 대한 분석 및 응용을 구현할 수 있다.

또한 예를 들면, 하나의 응용 시나리오에 있어서, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스의 위치에 기반하여 목표 객체의 운동 상태를 확정하고; 목표 객체의 운동 상태 및 비디오 시퀀스를 촬영한 카메라가 위치한 캐리어의 운동 상태에 기반하여 캐리어에 대한 지능형 주행 제어를 실행함으로써, 목표 객체에 기반한 지능형 주행 제어를 구현할 수 있다.

여기서의 캐리어는 예를 들면 차량, 로봇 또는 항공기, 등 임의의 이동 가능한 물체를 포함할 수 있으나 이에 한정되지 않는다.

선택적인 일 예에 있어서, 캐리어에 대한 지능형 주행 제어를 실행하는 것은, 예를 들면 캐리어에 대해 운동 노선 계획을 실행하고/하거나 캐리어의 운동 상태 또는 주행 모드에 대해 제어를 실행하는 것일 수 있다.

도 7은 본 발명의 목표 객체 검출 네트워크의 트레이닝 방법의 일 실시예의 플로우 차트이다. 도 7에 나타낸 바와 같이, 당해 실시예의 목표 객체 검출 네트워크의 트레이닝 방법은 이하의 단계를 포함한다.

402에 있어서, 적어도 하나의 샘플 쌍을 신경망에 입력하고, 상기의 임의의 실시예 또는 실시 방식 또는 예 중의 목표 객체 검출 방법을 통해, 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력한다.

여기서, 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함하고, 서로 다른 검출 프레임 내의 목표 객체의 검출 박스의 위치는 서로 다르다. 각각의 검출 프레임에는 라벨링 정보가 사전에 설정되어 있으며, 당해 라벨링 정보에는 검출 프레임 내의 목표 객체의 검출 박스의 위치가 포함될 수 있다.

404에 있어서, 출력된 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 검출 프레임의 라벨링 정보 및 예측 검출 박스에 기반하여 신경망 및 검출기를 트레이닝하는바, 즉, 신경망 및 검출기 중의 매개 변수를 조정한다.

여기서, 소정의 한정된 트레이닝 완료 조건을 충족시키기 위하여 상기 단계 402~404를 반복적으로 수행할 수 있으며, 당해 조건은 예를 들면 검출 프레임의 라벨링 정보와 예측 검출 박스 사이의 차이가 소정의 임계 값보다 작은 것 또는 트레이닝 횟수가 소정의 횟수에 달한 것을 포함한다.

여기서, 본 발명의 목표 객체 검출 네트워크의 트레이닝 방법의 실시예에 있어서, 상기 목표 객체 검출 방법의 실시예와 관련된 부분은 상기 각 실시예의 기재를 참조할 수 있으며, 여기서 반복적으로 설명하지 않는다.

본 발명의 상기 실시예의 목표 객체 검출 네트워크의 트레이닝 방법에 따르면, 트레이닝하여 얻은 목표 객체 검출 네트워크를 목표 객체 검출에 사용할 경우, 서로 다른 네트워크 계층이 출력한 특징을 통해 얻은 검출 결과를 종합하여 검출 프레임 내의 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 검출 결과가 더욱 정확하고 정밀하도록 할 수 있으며; 검출 프레임 내의 복수의 후보 박스의 분류 결과 및 회귀 결과에 기반하여 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

본 발명을 구현하는 과정에서, 발명자는 연구를 통해 다음의 문제를 발견하였다, 즉, 종래의 심층 신경망은 컨벌루션 과정에서 출력된 특징 맵의 크기를 그대로 유지하기 위하여 padding(패딩)을 도입하였는바, 즉, 상위 계층이 출력한 특징 맵의 제일 외측에 패딩으로서 0을 한바퀴 추가하기에, 신경망의 엄격한 변환 및 비 변형을 파괴한다.

상기 문제를 해결하기 위하여, 본 발명의 일부 실시 방식에 있어서, 상기 적어도 하나의 샘플 쌍 내의 목표 객체의 검출 박스의 위치는 랜덤으로 분포되거나, 또는 소정의 오프셋에 따라 균형적으로 분포된다.

이렇게 하여, 목표 객체 검출 네트워크의 트레이닝 과정에서, 목표 객체를 이미지의 중심 위치에 고정시키는 게 아니라, 목표 객체로 하여금 이미지 중의 임의의 위치에 위치할 수 있도록 하여, 입력 이미지 중의 목표 객체 자신이 위치 선험을 잃도록 한다. 이렇게 신경망이 이러한 선험을 제거하도록 함으로써, 정확한 목표 객체 위치를 예측하여, 심층 신경망 구조의 이점을 발휘한다.

예를 들면, 일부 가능한 구현 방식에 있어서, 목표 객체의 검출 박스의 위치가 소정의 오프셋에 따라 균형 분포되도록 하기 위하여, 먼저 하나의 샘플 쌍을 취득하며, 그 중에서 하나는 참고 프레임이고, 하나는 검출 프레임이다. 이 경우 목표 객체는 검출 프레임 이미지의 중심 위치에 위치한다. 균등한 확률로 2개의 오프셋을 샘플링하며, 여기서 s는 검출 프레임 이미지의 크기이다. 그 후, 오프셋에 따라 목표 객체를 이동시키는바, 즉, 목표 객체를 줄곧 검출 프레임 이미지의 중심 위치에 있게 하는 게 아니라, 목표 객체가 검출 프레임 이미지 내에 균일하게 출현하게 한다. 이와 동시에 오프셋 이후의 목표 객체의 실제 위치를 감독으로 계산한다(즉, 라벨링 정보).

본 발명의 실시예에 의해 제공되는 임의의 목표 객체 검출 방법은 데이터 처리 능력을 갖는 임의의 적합한 디바이스에 의해 수행될 수 있으며, 단말 디바이스, 서버 등을 포함하나 이에 한정되지 않는다. 또는, 본 발명의 실시예에 의해 제공되는 임의의 목표 객체 검출 방법은 프로세서에 의해 수행될 수 있다. 예를 들면, 프로세서가 메모리에 기억되어 있는 해당하는 명령을 호출하여 본 발명의 실시예에 언급된 임의의 목표 객체 검출 방법을 수행할 수 있다. 이하 반복적으로 설명하지 않는다.

당업자는 상기 방법의 실시예의 전부 또는 일부의 단계는 프로그램 명령에 관련된 하드웨어를 통해 완성할 수 있으며, 상기의 프로그램은 컴퓨터 판독 가능 기록 매체에 기억되어 있고, 당해 프로그램이 수행될 때 상기 방법의 실시예의 단계가 수행되며, 상기 기록 매체는 ROM, RAM, 자기 디스크 또는 광 디스크 등 다양한 프로그램 코드를 기억할 수 있는 매체를 포함함을 이해해야 한다.

도 8은 본 발명의 목표 객체 검출 장치의 일 실시예의 구조 모식도이다. 당해 실시예의 목표 객체 검출 장치는 본 발명의 상기 각 목표 객체 검출 방법의 실시예를 구현할 수 있다. 도 8에 나타낸 바와 같이, 당해 실시예의 목표 객체 검출 장치는 신경망, 검출기 및 취득 모듈을 구비한다.

신경망은 참고 프레임 및 검출 프레임의 특징을 각각 추출한다. 여기서, 검출 프레임은 비디오 시퀀스 중의 목표 객체 검출의 수행을 대기하는 현재 프레임이거나, 또는 현재 프레임 내의 목표 객체를 포함할 가능성이 있는 구역 이미지이고, 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 검출 프레임의 앞에 위치한 프레임이고, 참고 프레임의 이미지 크기는 검출 프레임보다 작다.

검출기는 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 수신하고, 상기 각 그룹의 특징에 대해 1 그룹의 검출 결과를 각각 출력하며; 여기서, 각 그룹의 특징은 참고 프레임의 특징 및 검출 프레임의 특징을 포함하고, 각 그룹의 검출 결과는 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함한다.

취득 모듈은 검출기가 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 확정한다.

본 발명의 상기 실시예에 의해 제공되는 목표 객체 검출 장치에 따르면, 서로 다른 네트워크 계층이 출력한 특징을 통해 얻은 검출 결과를 종합하여 검출 프레임 내의 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 검출 결과가 더욱 정확하고 정밀하도록 할 수 있으며; 검출 프레임 내의 복수의 후보 박스의 분류 결과 및 회귀 결과에 기반하여 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

본 발명의 각 실시예의 일 실시 방식에 있어서, 상기 신경망은 복수의 컨벌루션 계층을 포함할 수 있다. 이에 따라, 검출기는 신경망 중의 적어도 2개의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 각각 수신한다.

또는, 본 발명의 각 실시예의 다른 일 실시 방식에 있어서, 상기 신경망은 복수의 컨벌루션 블록을 포함할 수 있고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함한다. 이에 따라, 검출기는 신경망 중의 적어도 2개의 컨벌루션 블록이 출력한 적어도 2 그룹의 특징을 각각 수신한다.

또는, 본 발명의 각 실시예의 또 다른 일 실시 방식에 있어서, 상기 신경망은 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하며; 검출기는 각각 수신 신경망 중의 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 검출기에 입력한다.

또한, 상기 실시예에 있어서, 검출 프레임이 목표 객체 검출의 실행을 대기하는 현재 프레임 내의 목표 객체를 포함할 가능성이 있는 구역 이미지일 경우, 목표 객체 검출 장치는, 현재 프레임 내에서, 참고 프레임의 중심점을 중심점으로 하는, 길이 및/또는 폭이 참고 프레임의 이미지 길이 및/또는 폭보다 큰 구역 이미지를 절취하여 검출 프레임으로 설정하기 위한 선택 모듈을 더 구비한다.

본 발명의 각 실시예의 일 실시 방식에 있어서, 검출기는 참고 프레임의 특징에 기반하여 검출기의 분류 가중치 및 회귀 가중치를 취득하고; 분류 가중치 및 회귀 가중치를 각각 이용하여 검출 프레임의 특징에 대해 처리를 실행하여 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻는다.

도 9는 본 발명의 목표 객체 검출 장치의 다른 일 실시예의 구조 모식도이다. 도 9에 나타낸 바와 같이, 그 중의 일 실시 방식에 있어서, 검출기는 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제1 특징을 검출기의 분류 가중치로 설정하기 위한 제1 컨벌루션 계층; 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제2 특징을 검출기의 회귀 가중치로 설정하기 위한 제2 컨벌루션 계층; 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제3 특징을 얻기 위한 제3 컨벌루션 계층 - 제3 특징의 채널 수는 검출 프레임의 특징의 채널 수와 동일함 -; 분류 가중치를 이용하여 제3 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻기 위한 제1 컨벌루션 유닛; 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제4 특징을 얻기 위한 제4 컨벌루션 계층 - 제4 특징의 채널 수는 검출 프레임의 특징의 채널 수와 동일함 -; 및 회귀 가중치를 이용하여 제4 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻기 위한 제2 컨벌루션 유닛을 구비할 수 있다.

도 10은 본 발명의 목표 객체 검출 장치의 또 다른 일 실시예의 구조 모식도이다. 도 10에 나타낸 바와 같이, 다른 일 실시 방식에 있어서, 검출기는 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 L개의 제5 특징을 검출기의 분류 가중치로 설정하기 위한 제5 컨벌루션 계층 - 참고 프레임의 특징의 채널 수는 M1이고, 제5 특징의 채널 수는 N1이며, M1, N1 및 L은 0보다 큰 정수이고, 또한 M1은 N1보다 큼 -; 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N1인 L개의 제6 특징을 얻기 위한 제6 컨벌루션 계층 - 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N1보다 큼 -; 분류 가중치 중의 L개의 제5 특징 중의 각각의 특징을 각각 이용하여 L개의 제6 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여 L개의 컨벌루션 결과를 얻기 위한 제3 컨벌루션 유닛; L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻기 위한 제7 컨벌루션 계층; 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 P개의 채널의 제8 특징을 검출기의 회귀 가중치로 설정하기 위한 제8 컨벌루션 계층 - 참고 프레임의 특징의 채널 수는 M1이고, 제8 특징의 채널 수는 N2이며, N2 및 P는 0보다 큰 정수이고, 또한 M1은 N2보다 큼 -; 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N2인 P개의 제9 특징을 얻기 위한 제9 컨벌루션 계층 - 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N2보다 큼 -; 회귀 가중치 중의 P개의 제8 특징 중의 각각의 특징을 각각 이용하여 P개의 제9 특징 중의 대응하는 특징에 대해 컨벌루션 동작을 실행하여 P개의 컨벌루션 결과를 얻기 위한 제4 컨벌루션 유닛; 및 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻기 위한 제10 컨벌루션 계층을 구비할 수 있다.

선택적으로, 다시 도 10을 참조하면, 또 다른 일 실시 방식에 있어서, 검출기는 L개의 컨벌루션 결과를 연결하기 위한 제1 연결 유닛을 더 구비할 수 있다. 이에 따라, 제7 컨벌루션 계층은 연결된 후의 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행한다.

선택적으로, 다시 도 10을 참조하면, 또 다른 일 실시 방식에 있어서, 검출기는 P개의 컨벌루션 결과를 연결하기 위한 제2 연결 유닛을 더 구비할 수 있다. 이에 따라, 제10 컨벌루션 계층은 연결된 후의 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행한다.

본 발명의 각 실시예의 일 실시 방식에 있어서, 취득 모듈은 적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 분류 결과를 얻고/얻거나, 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 회귀 결과를 얻기 위한 종합 처리 유닛; 및 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 검출 프레임 내의 목표 객체의 검출 박스를 취득하기 위한 취득 유닛을 구비할 수 있다.

그 중의 일부 선택적인 예에 있어서, 취득 유닛은 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택하고, 선택한 후보 박스의 종합 회귀 결과 중의 오프셋에 기반하여 선택한 후보 박스에 대해 회귀를 실행하여 검출 프레임 내의 목표 객체의 검출 박스를 얻는다.

여기서, 가능한 일 구현 방식에 있어서, 취득 유닛은 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택할 경우, 종합 분류 결과 및 종합 회귀 결과의 가중치 계수에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택할 수 있다.

가능한 다른 일 구현 방식에 있어서, 취득 모듈은 각 후보 박스의 종합 회귀 결과에 각각 기반하여 종합 분류 결과를 조정하기 위한 조정 유닛을 더 구비할 수 있다. 이에 따라, 취득 유닛은 조정된 후의 종합 분류 결과에 기반하여 복수의 후보 박스 중에서 하나의 후보 박스를 선택한다.

본 발명의 상기 각 실시예에 있어서, 목표 객체는 예를 들면 보행자, 차량, 로봇, 동물, 항공기, 이동 가능한 정지 물체 등 중의 하나 또는 복수를 포함할 수 있으나 이에 한정되지 않는다.

또한, 본 발명의 목표 객체 검출 장치의 상기 각 실시예에 있어서, 응용 유닛을 더 구비하며, 당해 응용 유닛은,

검출 프레임 내의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 목표 객체의 검출 박스에 대해 라벨링을 실행하고/하거나;

비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스의 위치에 기반하여 비디오 시퀀스 중 목표 객체의 운동 궤적을 확정하고/하거나;

비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 취득한 후, 목표 객체의 검출 박스의 위치에 기반하여 카메라의 촬영 매개 변수를 조정하고/하거나;

검출 프레임 내의 목표 객체의 검출 박스를 취득한 후, 검출 프레임 내의 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치하는지 여부를 확정하고; 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치한 것에 응답하여, 프롬프트 메시지를 출력하고/하거나;

목표 객체가 복수 개일 경우, 검출 프레임 내의 복수의 목표 객체의 검출 박스를 취득한 후, 검출 프레임 내의 복수의 목표 객체와 참고 프레임 내의 복수의 목표 객체의 검출 박스에 대해 매칭을 실행하고, 매칭 결과 및 참고 프레임 내의 각 목표 객체의 식별자에 기반하여 검출 프레임 내의 각 목표 객체의 식별자를 라벨링하고/하거나;

목표 객체가 복수 개일 경우, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 검출 박스의 위치에 기반하여 비디오 시퀀스 중 복수의 목표 객체의 운동 궤적을 확정하고; 비디오 시퀀스 중 복수의 목표 객체의 운동 궤적에 기반하여 복수의 목표 객체를 추적하고/하거나;

목표 객체가 복수 개일 경우, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 복수의 목표 객체의 수량 및/또는 위치의 변화에 기반하여 복수의 목표 객체의 행위를 분석하고/하거나;

비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스를 취득한 후, 비디오 시퀀스 중의 복수의 프레임 내의 목표 객체의 검출 박스의 위치에 기반하여 목표 객체의 운동 상태를 확정하고; 목표 객체의 운동 상태 및 비디오 시퀀스를 촬영한 카메라가 위치한 캐리어의 운동 상태에 기반하여 캐리어에 대한 지능형 주행 제어를 실행하는 것을 포함한다.

여기서의 캐리어는 예를 들면 차량, 로봇 또는 항공기 등 임의의 이동 가능한 물체를 포함하나 이에 한정되지 않는다. 상기 응용 유닛이 캐리어에 대한 지능형 주행 제어를 실행할 경우, 캐리어에 대해 운동 노선 계획을 실행하고/하거나 캐리어의 운동 상태 또는 주행 모드에 대해 제어를 실행하는 데에 사용된다.

본 발명의 실시예에 의해 제공되는 목표 객체 검출 장치의 임의의 실시예의 작업 과정, 설정 방식 및 해당하는 기술 효과는 모두 본 발명의 상기의 대응하는 방법의 실시예의 구체적인 설명을 참조할 수 있는바, 편폭의 제약으로 인해 여기서 반복적으로 설명하지 않는다.

도 11은 본 발명의 목표 객체 검출 네트워크의 트레이닝 장치의 일 실시예의 구조 모식도이다. 당해 실시예의 목표 객체 검출 네트워크의 트레이닝 장치는 본 발명의 상기 각 목표 객체 검출 네트워크의 트레이닝 방법의 실시예를 구현할 수 있다. 도 11에 나타낸 바와 같이, 당해 실시예의 목표 객체 검출 네트워크의 트레이닝 장치는, 적어도 하나의 샘플 쌍을 수신하고, 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력하기 위한 목표 객체 검출 네트워크 - 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함하고, 목표 객체 검출 네트워크는 상기의 임의의 실시예의 목표 객체 검출 장치를 포함함 -; 및 출력된 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 검출 프레임의 라벨링 정보 및 예측 검출 박스에 기반하여 신경망 및 검출기를 트레이닝하기 위한 트레이닝 모듈을 구비한다.

본 발명의 상기 실시예에 의해 제공되는 목표 객체 검출 네트워크의 트레이닝 장치에 따르면, 트레이닝하여 얻은 목표 객체 검출 네트워크를 목표 객체 검출에 사용할 경우, 서로 다른 네트워크 계층이 출력한 특징을 통해 얻은 검출 결과를 종합하여 검출 프레임 내의 목표 객체의 검출 박스를 취득할 수 있으므로, 목표 객체의 검출 결과가 더욱 정확하고 정밀하도록 할 수 있으며; 검출 프레임 내의 복수의 후보 박스의 분류 결과 및 회귀 결과에 기반하여 목표 객체의 검출 박스를 취득함으로써, 목표 객체의 위치 및 크기 변화를 더 잘 예측할 수 있고, 검출 프레임 내의 목표 객체의 위치를 더 정밀하게 찾을 수 있으며, 목표 추적의 속도와 정확성을 향상시킬 수 있고, 추적 효과가 좋고 속도가 빠르다.

본 발명의 실시예에 의해 제공되는 목표 객체 검출 네트워크의 트레이닝 장치의 임의의 실시예의 작업 과정, 설정 방식 및 해당하는 기술 효과는 모두 본 발명의 상기의 대응하는 방법의 실시예의 구체적인 설명을 참조할 수 있는바, 편폭의 제약으로 인해 여기서 반복적으로 설명하지 않는다.

본 발명의 각 실시예의 일 실시 방식에 있어서, 상기 적어도 2개의 서로 다른 검출 프레임 내의 목표 객체의 검출 박스의 위치는 서로 다르다.

본 발명의 각 실시예의 다른 일 실시 방식에 있어서, 적어도 하나의 샘플 쌍 내의 목표 객체의 검출 박스의 위치는 랜덤으로 분포되거나, 또는 소정의 오프셋에 따라 균형적으로 분포된다.

또한, 본 발명의 실시예는 전자 디바이스를 더 제공하는바, 당해 전자 디바이스는 본 발명의 상기의 임의의 실시예의 목표 객체 검출 장치 또는 목표 객체 검출 네트워크의 트레이닝 장치를 포함한다. 선택적으로, 당해 전자 디바이스는 예를 들면 단말 디바이스 또는 서버 등의 디바이스일 수 있다.

본 발명의 실시예는 다른 일 전자 디바이스를 더 제공하는바, 당해 전자 디바이스는,

수행 가능 명령을 기억하기 위한 메모리; 및

상기 메모리와 통신하여 상기 수행 가능 명령을 수행함으로써, 상기의 임의의 실시예에 기재된 목표 객체 검출 방법 또는 목표 객체 검출 네트워크의 트레이닝 방법을 구현하기 위한 프로세서를 구비한다.

도 12는 본 발명의 전자 디바이스 하나의 응용 실시예의 구조 모식도이다. 도 12를 참고하면, 본 발명의 실시예의 단말 디바이스 또는 서버를 구현하는 데에 적합한 전자 디바이스의 구조 모식도이다. 도 12에 나타낸 바와 같이, 당해 전자 디바이스는 하나의 또는 복수의 프로세서, 통신부 등을 구비하고, 상기 하나의 또는 복수의 프로세서는 예를 들면 하나의 또는 복수의 중앙 처리 유닛(CPU) 및/또는 하나의 또는 복수의 이미지 프로세서(GPU) 등일 수 있고, 프로세서는 판독 전용 메모리(ROM)에 기억되어 있는 수행 가능 명령 또는 기억 부분에서 랜덤 액세스 메모리(RAM)에 로딩한 수행 가능 명령에 따라 다양한 적합한 동작과 처리를 실행할 수 있다. 통신부는 네트워크 카드를 포함할 수 있지만, 이에 한정되지 않고, 상기 네트워크 카드는 IB(Infiniband) 네트워크 카드를 포함할 수 있지만, 이에 한정되지 않는다. 프로세서는 판독 전용 메모리 및/또는 랜덤 액세스 메모리와 통신하여 수행 가능 명령을 수행할 수 있고, 버스를 통해 통신부와 접속되어, 통신부를 통해 기타 목표 디바이스와 통신함으로써, 본 발명의 실시예에 의해 제공되는 임의의 목표 객체 검출 방법의 대응하는 단계를 완성할 수 있는바, 당해 단계는 예를 들면, 신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출하는 단계 - 상기 검출 프레임은 비디오 시퀀스 중의 목표 객체 검출의 실행을 대기하는 현재 프레임 또는 현재 프레임 내의 상기 목표 객체를 포함할 가능성이 있는 구역 이미지이고, 상기 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 상기 검출 프레임 앞에 위치한 프레임이고, 상기 참고 프레임의 이미지 크기는 상기 검출 프레임보다 작음 -; 상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력하여, 상기 검출기가 대응하게 출력한 1 그룹의 검출 결과를 얻는 단계 - 각 그룹의 특징은 상기 참고 프레임의 특징 및 상기 검출 프레임의 특징을 포함하고, 각 그룹의 검출 결과는 상기 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함함 -; 및 상기 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득하는 단계를 포함한다. 또는, 프로세서는 판독 전용 메모리 및/또는 랜덤 액세스 메모리와 통신하여 수행 가능 명령을 수행할 수 있고, 버스를 통해 통신부와 접속되어, 통신부를 통해 기타 목표 디바이스와 통신함으로써, 본 발명의 실시예에 의해 제공되는 임의의 목표 객체 검출 네트워크의 트레이닝 방법의 대응하는 단계를 완성할 수 있는바, 당해 단계는 예를 들면 적어도 하나의 샘플 쌍을 신경망에 입력하고, 상기의 임의의 실시예에 기재된 목표 객체 검출 방법을 통해 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력하는 단계 - 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함함 -; 및 출력된 상기 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 상기 검출 프레임의 라벨링 정보 및 상기 예측 검출 박스에 기반하여 상기 신경망 및 상기 검출기를 트레이닝하는 단계를 포함한다.

한편, RAM에는 또한 장치의 조작에 필요한 각종 프로그램 및 데이터가 기억되어 있을 수 있다. CPU, ROM 및 RAM은 버스를 통해 서로 접속된다. RAM이 있을 경우, ROM은 선택적인 모듈이다. RAM은 실행 가능 명령을 기억하거나, 운행될 때 ROM에 실행 가능 명령을 기입한다. 실행 가능 명령은 중앙 처리 유닛이 상술한 임의의 방법에 포함된 단계를 실행하도록 한다. 입력/출력(I/O) 인터페이스도 버스에 접속된다. 통신부는 통합 설치되거나, 버스와 각각 접속된 복수의 서브 모듈(예를 들면, 복수의 IB 네트워크 카드)을 구비할 수 있다.

키보드, 마우스 등을 포함하는 입력 부분, 음극선 관(CRT), 액정 모니터(LCD) 및 스피커 등을 포함하는 출력 부분, 하드 디스크 등을 포함하는 기억 부분 및 LAN카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신 부분과 같은 컴포넌트가 I/O인터페이스에 접속된다. 통신 부분은 인터넷 등의 네트워크를 통해 통신 처리를 실행한다. 드라이버도 필요에 따라 I/O인터페이스에 접속된다. 필요에 따라 자기 디스크, 광디스크, 자기광학 디스크, 반도체 메모리 등의 탈착 가능 매체가 드라이버에 장착되어 당해 탈착 가능 매체에서 판독한 컴퓨터 프로그램을 필요에 따라 기억 부분에 인스톨한다.

특히 설명해야 할 점이라면, 도 12에 나타낸 아키텍처는 선택적인 하나의 실현 방식에 지나지 않고, 구체적인 실시 과정에서 상기의 도 12의 부품 수량과 타입은 실제의 요건에 따라 선택, 삭제, 증가 또는 전환할 수 있다. 기타 기능 부품의 설치의 경우, 분리 설치 및 통합 설치 등의 실현 방식을 채용할 수 있는바, 예를 들면, GPU와 CPU를 분리 가능하게 설치하거나, GPU를 CPU에 통합 가능하게 설치하고, 통신부를 분리 가능하게 설치하거나, CPU나 GPU에 통합 가능하게 설치할 수 있다. 이러한 치환 가능한 실시 방식은 모두 본 발명의 보호 범위 내에 포함된다.

특히, 본 발명의 실시 방식에 따르면, 상기의 플로우 차트를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있다. 예를 들면, 본 발명의 실시 방식은 컴퓨터 프로그램 제품을 포함하고, 당해 컴퓨터 프로그램 제품은 기계 판독 가능 매체에 유형으로 포함되는 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 플로우 차트에 나타낸 단계를 실행하기 위한 프로그램 코드를 포함하고, 프로그램 코드는 본 발명의 실시 방식에 의해 제공되는 방법의 단계를 실행하는 단계에 대응하는 명령을 포함할 수 있다. 이러한 실시예에 있어서, 당해 컴퓨터 프로그램은 통신 부분을 통하여 네트워크로부터 다운로드하여 인스톨되고/되거나, 탈착 가능 매체로부터 인스톨된다. 당해 컴퓨터 프로그램이 CPU에 의해 실행될 때 본 발명의 방법에 한정된 상기 기능이 실행된다.

또한, 본 발명의 실시예는 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 판독 가능 코드가 디바이스 상에서 운행되면, 상기 디바이스 중의 프로세서에 의해 상기의 임의의 실시예에 기재된 목표 객체 검출 방법 또는 목표 객체 검출 네트워크의 트레이닝 방법을 구현하기 위한 처리가 수행된다.

또한, 본 발명의 실시예는 컴퓨터 판독 가능 명령을 기록하기 위한 컴퓨터 판독 가능 기록 매체를 더 제공하는바, 상기 명령이 수행되면, 상기의 임의의 실시예에 기재된 목표 객체 검출 방법 또는 목표 객체 검출 네트워크의 트레이닝 방법 중의 각 단계의 동작이 수행된다.

본 발명의 중의 각 실시예는 모두 점진적인 방식으로 설명되었다. 각 실시예는 기타 실시예와의 차이점을 중점적으로 설명되었는바, 각 실시예들 사이의 동일하거나 유사한 부분은 서로 참조하면 된다. 특히, 데이터 처리 디바이스의 실시예의 경우, 방법의 실시예와 기본적으로 유사하기에 상대적으로 간단히 설명되었으나, 관련 부분은 방법의 실시예의 부분의 설명을 참조하면 된다.

본 발명의 방법 및 장치, 전자 디바이스, 및 컴퓨터 판독 가능 저장 매체는 다양한 방식으로 실현될 수 있다. 본 발명의 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체는 예를 들면, 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어 및 펌웨어의 임의의 조합으로 실현될 수 있다. 상기 방법의 단계에 사용되는 상기 순서는 단지 설명용이며, 본 발명의 방법 단계를 다른 방식으로 특별히 설명하지 않는 한, 상기 구체적으로 설명된 순서에 한정되지 않는다. 또한, 몇몇 실시예에 있어서, 본 발명을 기록 매체에 기록된 프로그램으로 실시할 수 있다. 당해 프로그램은 본 발명의 방법을 실시하기 위한 디바이스 판독 가능 명령을 포함한다. 따라서, 본 발명은 또한 본 발명의 방법을 실행하기 위한 프로그램을 기억하는 기록 매체도 커버한다.

본 발명의 설명은 예시 및 설명을 위하여 제공된 것으로서, 본 발명을 빠짐 없이 개시하였다거나 개시된 형식으로 본 발명을 한정하는 것이 아니다. 다양한 수정 및 변형은 당업자에 있어서 자명한 것이다. 선택하여 설명된 실시 방식은, 본 발명의 원리 및 실제 응용을 더 명료하게 설명하기 위한 것이며, 또한 당업자가 본 개시를 이해하여 특정 용도에 적합한 다양한 수정을 포함한 다양한 실시예를 설계할 수 있도록 하기 위한 것이다.

Claims

목표 객체 검출 방법에 있어서,
신경망을 이용하여 참고 프레임 및 검출 프레임의 특징을 각각 추출하는 단계 - 상기 검출 프레임은 비디오 시퀀스 중의 목표 객체 검출의 수행을 대기하는 현재 프레임이거나, 상기 목표 객체를 포함할 가능성이 있는 상기 현재 프레임 내의 구역 이미지이고, 상기 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 상기 검출 프레임 앞에 위치한 프레임이고, 상기 참고 프레임의 이미지 크기는 상기 검출 프레임보다 작음 -;
상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력하여, 상기 각 그룹의 특징에 대해 상기 검출기가 대응하게 출력한 1 그룹의 검출 결과를 얻는 단계 - 상기 각 그룹의 특징은 상기 참고 프레임의 특징 및 상기 검출 프레임의 특징을 포함하고, 상기 각 그룹의 검출 결과는 상기 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함함 -; 및
상기 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 확정하는 단계를 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항에 있어서,
상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 다음의 하나의 참고 프레임으로 설정하고, 상기 신경망을 이용하여 상기 다음의 하나의 참고 프레임 및 비디오 시퀀스 중에서 시간 순서가 상기 검출 프레임 뒤에 위치하는 다음의 하나의 검출 프레임의 특징을 각각 추출하는 단계;
상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 각각 검출기에 입력하여, 상기 검출기가 대응하게 출력한 1 그룹의 검출 결과를 얻는 단계 - 상기 각 그룹의 특징은 상기 다음의 하나의 참고 프레임의 특징 및 상기 다음의 하나의 검출 프레임의 특징을 포함함 -; 및
상기 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 다음의 하나의 검출 프레임 내의 상기 목표 객체의 검출 박스를 확정하는 단계를 더 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항 또는 제2항에 있어서,
상기 신경망은 복수의 컨벌루션 계층을 포함하고; 상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하는 단계는, 상기 신경망 중의 적어도 2개의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하는 단계를 포함하거나, 또는,
상기 신경망은 복수의 컨벌루션 블록을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하며; 상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하는 단계는, 상기 신경망 중의 적어도 2개의 컨벌루션 블록이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하는 단계를 포함하거나, 또는,
상기 신경망은 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하며; 상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하는 단계는, 상기 신경망 중의 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 각각 검출기에 입력하는 단계를 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 검출 프레임이 상기 목표 객체 검출의 수행을 대기하는 현재 프레임 내의 상기 목표 객체를 포함할 가능성이 있는 구역 이미지일 경우,
상기 목표 객체 검출 방법은,
상기 현재 프레임 내에서 상기 참고 프레임의 중심점을 중심점으로 하는, 길이 및/또는 폭이 상기 참고 프레임의 이미지 길이 및/또는 폭보다 큰 구역 이미지를 절취하여 상기 검출 프레임으로 설정하는 단계를 더 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 신경망 중의 하나의 네트워크 계층이 출력한 1 그룹의 특징을 검출기에 입력하여, 상기 각 그룹의 특징에 대해 상기 검출기가 대응하게 출력한 1 그룹의 검출 결과를 각각 얻는 것은,
상기 참고 프레임의 특징에 기반하여 검출기의 분류 가중치 및 회귀 가중치를 취득하는 것; 및
상기 분류 가중치 및 상기 회귀 가중치를 각각 이용하여 상기 검출 프레임의 특징에 대해 처리를 실행하고, 상기 검출기가 출력한 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻은 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제5항에 있어서,
상기 참고 프레임의 특징에 기반하여 검출기의 분류 가중치를 취득하는 것은,
상기 검출기 중의 제1 컨벌루션 계층을 이용하여 상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제1 특징을 상기 검출기의 분류 가중치로 설정하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제5항 또는 제6항에 있어서,
상기 참고 프레임의 특징에 기반하여 검출기의 회귀 가중치를 취득하는 것은,
상기 검출기 중의 제2 컨벌루션 계층을 이용하여 상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제2 특징을 상기 검출기의 회귀 가중치로 설정하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제5항 내지 제7항 중 어느 한 항에 있어서,
상기 분류 가중치 및 상기 회귀 가중치를 각각 이용하여 상기 검출 프레임의 특징에 대해 처리를 실행하고, 상기 검출기가 출력한 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻은 것은,
상기 분류 가중치를 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 분류 결과를 얻고; 또한 상기 회귀 가중치를 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 회귀 결과를 얻는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제8항에 있어서,
상기 분류 가중치를 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻는 것은,
상기 검출기 중의 제3 컨벌루션 계층을 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여, 제3 특징을 얻는 것 - 상기 제3 특징의 채널 수는 상기 검출 프레임의 특징의 채널 수와 동일함 -; 및
상기 분류 가중치를 이용하여 상기 제3 특징에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 분류 결과를 얻는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제8항 또는 제9항에 있어서,
상기 회귀 가중치를 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻는 것은,
제4 컨벌루션 계층을 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제4 특징을 얻는 것 - 상기 제4 특징의 채널 수는 상기 검출 프레임의 특징의 채널 수와 동일함 -; 및
상기 회귀 가중치를 이용하여 상기 제4 특징에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 회귀 결과를 얻는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제5항에 있어서,
상기 참고 프레임의 특징에 기반하여 검출기의 분류 가중치를 취득하는 것은,
상기 검출기 중의 제5 컨벌루션 계층을 이용하여 상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 L개의 제5 특징을 상기 검출기의 분류 가중치로 설정하는 것을 포함하되; 상기 참고 프레임의 특징의 채널 수는 M1이고, 상기 제5 특징의 채널 수는 N1이며, M1, N1 및 L은 0보다 큰 정수이고, 또한 M1은 N1보다 큰
것을 특징으로 하는 목표 객체 검출 방법.
제11항에 있어서,
상기 분류 가중치를 이용하여 상기 검출 프레임의 특징에 대해 처리를 실행하여, 상기 검출기가 출력한 복수의 후보 박스의 분류 결과를 얻는 것은,
상기 검출기 중의 제6 컨벌루션 계층을 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N1인 L개의 제6 특징을 얻는 것 - 상기 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N1보다 큼 -;
상기 분류 가중치 중의 L개의 제5 특징 중의 각각의 특징을 이용하여 상기 L개의 제6 특징 중의 대응하는 특징에 대해 각각 컨벌루션 동작을 실행하여 L개의 컨벌루션 결과를 얻는 것; 및
상기 검출기 중의 제7 컨벌루션 계층을 이용하여 상기 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 분류 결과를 얻는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제12항에 있어서,
L개의 컨벌루션 결과를 얻은 후, 상기 목표 객체 검출 방법은, 상기 L개의 컨벌루션 결과를 연결하는 것을 더 포함하고,
상기 검출기 중의 제7 컨벌루션 계층을 이용하여 상기 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하는 것은, 상기 검출기 중의 제7 컨벌루션 계층을 이용하여 연결된 후의 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제5항에 있어서,
상기 참고 프레임의 특징에 기반하여 검출기의 회귀 가중치를 취득하는 것은,
상기 검출기 중의 제8 컨벌루션 계층을 이용하여 상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 P개의 채널의 제8 특징을 상기 검출기의 회귀 가중치로 설정하는 것을 포함하되; 상기 참고 프레임의 특징의 채널 수는 M1이고, 상기 제8 특징의 채널 수는 N2이며, M1, N2 및 P는 0보다 큰 정수이고, 또한 M1은 N2보다 큰
것을 특징으로 하는 목표 객체 검출 방법.
제14항에 있어서,
상기 회귀 가중치를 이용하여 상기 검출 프레임의 특징에 대해 처리를 실행하여 상기 검출기가 출력한 복수의 후보 박스의 회귀 결과를 얻는 것은,
상기 검출기 중의 제9 컨벌루션 계층을 이용하여 상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N2인 P개의 제9 특징을 얻는 것 - 상기 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N2보다 큼 -;
상기 회귀 가중치 중의 P개의 제8 특징 중의 각각의 특징을 이용하여 상기 P개의 제9 특징 중의 대응하는 특징에 대해 각각 컨벌루션 동작을 실행하여 P개의 컨벌루션 결과를 얻는 것; 및
상기 검출기 중의 제10 컨벌루션 계층을 이용하여 상기 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 회귀 결과를 얻는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제15항에 있어서,
상기 P개의 컨벌루션 결과를 얻은 후, 상기 목표 객체 검출 방법은, 상기 P개의 컨벌루션 결과를 연결하는 것을 더 포함하고,
상기 검출기 중의 제10 컨벌루션 계층을 이용하여 상기 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하는 것은, 상기 검출기 중의 제10 컨벌루션 계층을 이용하여 연결된 후의 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
상기 검출기가 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 확정하는 단계는,
상기 적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 분류 결과를 얻는 것, 및/또는, 상기 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 회귀 결과를 얻는 것; 및
상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제17항에 있어서,
상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득하는 것은,
상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하고, 선택한 후보 박스의 종합 회귀 결과 중의 오프셋에 기반하여 상기 선택한 후보 박스에 대해 회귀를 실행하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 얻는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제18항에 있어서,
상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하는 것은,
상기 종합 분류 결과 및 상기 종합 회귀 결과의 가중치 계수에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제18항에 있어서,
상기 복수의 후보 박스의 종합 회귀 결과를 얻은 후, 상기 목표 객체 검출 방법은, 상기 후보 박스의 종합 회귀 결과에 각각 기반하여 종합 분류 결과를 조정하는 것을 더 포함하고,
상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하는 것은, 조정된 후의 종합 분류 결과에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항 내지 제20항 중 어느 한 항에 있어서,
상기 목표 객체는 보행자, 차량, 로봇, 동물, 항공기 및 이동 가능한 정지 물체 중의 어느 하나 또는 복수를 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제1항 내지 제21항 중 어느 한 항에 있어서,
상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중 상기 목표 객체의 검출 박스에 대해 라벨링을 실행하는 것; 및/또는,
상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스의 위치에 기반하여 상기 비디오 시퀀스 중 상기 목표 객체의 운동 궤적을 확정하는 것; 및/또는,
상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 목표 객체의 검출 박스의 위치에 기반하여 카메라의 촬영 매개 변수를 조정하는 것; 및/또는,
상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 검출 프레임 내의 상기 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치하는지 여부를 확정하고; 상기 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치하는 것에 응답하여 프롬프트 메시지를 출력하는 것; 및/또는,
상기 목표 객체가 복수 개일 경우, 상기 검출 프레임 내의 복수의 상기 목표 객체의 검출 박스를 취득한 후, 상기 검출 프레임 내의 복수의 목표 객체와 상기 참고 프레임 내의 복수의 목표 객체의 검출 박스에 대해 매칭을 실행하고, 매칭 결과 및 상기 참고 프레임 내의 각 목표 객체의 식별자에 기반하여 상기 검출 프레임 내의 각 목표 객체의 식별자를 라벨링하는 것; 및/또는,
상기 목표 객체가 복수 개일 경우, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 검출 박스의 위치에 기반하여 상기 비디오 시퀀스 중 복수의 상기 목표 객체의 운동 궤적을 확정하고; 상기 비디오 시퀀스 중 복수의 상기 목표 객체의 운동 궤적에 기반하여 복수의 상기 목표 객체를 추적하는 것; 및/또는,
상기 목표 객체가 복수 개일 경우, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 수량 및/또는 위치의 변화에 기반하여 복수의 상기 목표 객체의 행위를 분석하는 것; 및/또는,
상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스의 위치에 기반하여 상기 목표 객체의 운동 상태를 확정하고; 상기 목표 객체의 운동 상태 및 상기 비디오 시퀀스를 촬영한 카메라가 위치한 캐리어의 운동 상태에 기반하여 상기 캐리어에 대해 지능형 주행 제어를 실행하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
제22항에 있어서,
상기 캐리어는 차량, 로봇 또는 항공기를 포함하거나; 또는,
상기 캐리어에 대해 지능형 주행 제어를 실행하는 것은, 상기 캐리어에 대해 운동 노선 계획을 실행하고/하거나 상기 캐리어의 운동 상태 또는 주행 모드에 대해 제어를 실행하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 방법.
목표 객체 검출 네트워크의 트레이닝 방법에 있어서,
적어도 하나의 샘플 쌍을 신경망에 입력하고, 제1항 내지 제23항 중 어느 한 항의 목표 객체 검출 방법을 통해 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력하는 단계 - 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함함 -; 및
출력된 상기 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 상기 검출 프레임의 라벨링 정보 및 상기 예측 검출 박스에 기반하여 상기 신경망 및 상기 검출기를 트레이닝하는 단계를 포함하는
것을 특징으로 하는 목표 객체 검출 네트워크의 트레이닝 방법.
제24항에 있어서,
상기 적어도 2개의 서로 다른 검출 프레임 내의 목표 객체의 검출 박스의 위치는 서로 다른
것을 특징으로 하는 목표 객체 검출 네트워크의 트레이닝 방법.
제24항 또는 제25항에 있어서,
상기 적어도 하나의 샘플 쌍 내의 목표 객체의 검출 박스의 위치는 랜덤으로 분포되거나, 또는 소정의 오프셋에 따라 균형적으로 분포되는
것을 특징으로 하는 목표 객체 검출 네트워크의 트레이닝 방법.
목표 객체 검출 장치에 있어서,
참고 프레임 및 검출 프레임의 특징을 각각 추출하기 위한 신경망 - 상기 검출 프레임은 비디오 시퀀스 중 수행 대기 목표 객체 검출의 현재 프레임, 또는 상기 목표 객체를 포함할 가능성이 있는 상기 현재 프레임 내의 구역 이미지, 상기 참고 프레임은 목표 객체의 검출 박스가 확정된 프레임 내의 목표 객체의 검출 박스 이미지이며, 당해 프레임은 비디오 시퀀스 중에서 검출 시간 순서가 상기 검출 프레임 앞에 위치한 프레임이고, 상기 참고 프레임의 이미지 크기는 상기 검출 프레임보다 작음 -;
상기 신경망 중의 적어도 2개의 네트워크 계층이 출력한 적어도 2 그룹의 특징 중의 각 그룹의 특징을 수신하고, 상기 각 그룹의 특징에 대해 1 그룹의 검출 결과를 각각 출력하기 위한 검출기 - 상기 각 그룹의 특징은 상기 참고 프레임의 특징 및 상기 검출 프레임의 특징을 포함하고, 상기 각 그룹의 검출 결과는 상기 목표 객체의 복수의 후보 박스의 분류 결과 및 회귀 결과를 포함함 -; 및
상기 검출기가 상기 적어도 2 그룹의 특징에 대해 출력한 적어도 2 그룹의 검출 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 확정하기 위한 취득 모듈을 구비하는
것을 특징으로 하는 목표 객체 검출 장치.
제27항에 있어서,
상기 신경망은 복수의 컨벌루션 계층을 포함하고; 상기 검출기는 상기 신경망 중의 적어도 2개의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 각각 수신하며; 또는,
상기 신경망은 복수의 컨벌루션 블록을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하며; 상기 검출기는 상기 신경망 중의 적어도 2개의 컨벌루션 블록이 출력한 적어도 2 그룹의 특징을 각각 수신하고; 또는,
상기 신경망은 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층을 포함하고, 각각의 컨벌루션 블록은 적어도 하나의 컨벌루션 계층을 포함하며; 상기 검출기는 상기 신경망 중의 적어도 하나의 컨벌루션 블록 및 적어도 하나의 컨벌루션 계층이 출력한 적어도 2 그룹의 특징을 각각 수신하여 검출기에 입력하는
것을 특징으로 하는 목표 객체 검출 장치.
제27항 또는 제28항에 있어서,
상기 검출 프레임은 상기 목표 객체를 포함할 가능성이 있는 상기 목표 객체 검출의 실행을 대기하는 현재 프레임 내의 구역 이미지일 경우,
상기 목표 객체 검출 장치는,
상기 현재 프레임 내에서 상기 참고 프레임의 중심점을 중심점으로 하는, 길이 및/또는 폭이 상기 참고 프레임의 이미지 길이 및/또는 폭보다 큰 구역 이미지를 절취하여 상기 검출 프레임으로 설정하기 위한 선택 모듈을 더 구비하는
것을 특징으로 하는 목표 객체 검출 장치.
제27항 내지 제29항 중 어느 한 항에 있어서,
상기 검출기는 상기 참고 프레임의 특징에 기반하여 검출기의 분류 가중치 및 회귀 가중치를 취득하고; 또한 상기 분류 가중치 및 상기 회귀 가중치를 각각 이용하여 상기 검출 프레임의 특징에 대해 처리를 실행하여 복수의 후보 박스의 분류 결과 및 회귀 결과를 얻는
것을 특징으로 하는 목표 객체 검출 장치.
제30항에 있어서,
상기 검출기는,
상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제1 특징을 상기 검출기의 분류 가중치로 설정하기 위한 제1 컨벌루션 계층;
상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 제2 특징을 상기 검출기의 회귀 가중치로 설정하기 위한 제2 컨벌루션 계층;
상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제3 특징을 얻기 위한 제3 컨벌루션 계층 - 상기 제3 특징의 채널 수는 상기 검출 프레임의 특징의 채널 수와 동일함 -;
상기 분류 가중치를 이용하여 상기 제3 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻기 위한 제1 컨벌루션 유닛;
상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 제4 특징을 얻기 위한 제4 컨벌루션 계층 - 상기 제4 특징의 채널 수는 상기 검출 프레임의 특징의 채널 수와 동일함 -; 및
상기 회귀 가중치를 이용하여 상기 제4 특징에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 회귀 결과를 얻기 위한 제2 컨벌루션 유닛을 구비하는
것을 특징으로 하는 목표 객체 검출 장치.
제30항에 있어서,
상기 검출기는,
상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 L개의 제5 특징을 상기 검출기의 분류 가중치로 설정하기 위한 제5 컨벌루션 계층 - 상기 참고 프레임의 특징의 채널 수는 M1이고, 상기 제5 특징의 채널 수는 N1이며, M1, N1 및 L은 0보다 큰 정수이고, 또한 M1은 N1보다 큼 -;
상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N1인 L개의 제6 특징을 얻기 위한 제6 컨벌루션 계층 - 상기 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N1보다 큼 -;
상기 분류 가중치 중의 L개의 제5 특징 중의 각각의 특징을 이용하여 상기 L개의 제6 특징 중의 대응하는 특징에 대해 각각 컨벌루션 동작을 실행하여 L개의 컨벌루션 결과를 얻기 위한 제3 컨벌루션 유닛;
상기 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 복수의 후보 박스의 분류 결과를 얻기 위한 제7 컨벌루션 계층;
상기 참고 프레임의 특징에 대해 컨벌루션 동작을 실행하고, 컨벌루션 동작을 통해 얻은 P개의 채널의 제8 특징을 상기 검출기의 회귀 가중치로 설정하기 위한 제8 컨벌루션 계층 - 상기 참고 프레임의 특징의 채널 수는 M1이고, 상기 제8 특징의 채널 수는 N2이며, N2 및 P는 0보다 큰 정수이고, 또한 M1은 N2보다 큼 -;
상기 검출 프레임의 특징에 대해 컨벌루션 동작을 실행하여 채널 수가 N2인 P개의 제9 특징을 얻기 위한 제9 컨벌루션 계층 - 상기 검출 프레임의 특징의 채널 수는 M2이고, M2는 0보다 큰 정수이며, 또한 M2는 N2보다 큼 -;
상기 회귀 가중치 중의 P개의 제8 특징 중의 각각의 특징을 이용하여 상기 P개의 제9 특징 중의 대응하는 특징에 대해 각각 컨벌루션 동작을 실행하여 P개의 컨벌루션 결과를 얻기 위한 제4 컨벌루션 유닛; 및
상기 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하여 상기 복수의 후보 박스의 회귀 결과를 얻기 위한 제10 컨벌루션 계층을 구비하는
것을 특징으로 하는 목표 객체 검출 장치.
제32항에 있어서,
상기 검출기는,
상기 L개의 컨벌루션 결과를 연결하기 위한 제1 연결 유닛을 더 구비하고,
상기 제7 컨벌루션 계층은 연결된 후의 L개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하는
것을 특징으로 하는 목표 객체 검출 장치.
제32항 또는 제33항에 있어서,
상기 검출기는,
상기 P개의 컨벌루션 결과를 연결하기 위한 제2 연결 유닛을 더 구비하고,
상기 제10 컨벌루션 계층은 연결된 후의 P개의 컨벌루션 결과에 대해 컨벌루션 동작을 실행하는 것을 포함하는
것을 특징으로 하는 목표 객체 검출 장치.
제27항 내지 제34항 중 어느 한 항에 있어서,
상기 취득 모듈은,
상기 적어도 2 그룹의 검출 결과 중의 분류 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 분류 결과를 얻고/얻거나, 상기 적어도 2 그룹의 검출 결과 중의 회귀 결과에 대해 가중치 부여, 평균화 또는 가중치를 부여한 후 평균화하는 것을 실행하여 복수의 후보 박스의 종합 회귀 결과를 얻기 위한 종합 처리 유닛; 및
상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득하기 위한 취득 유닛을 구비하는
것을 특징으로 하는 목표 객체 검출 장치.
제35항에 있어서,
상기 취득 유닛은 상기 복수의 후보 박스의 종합 분류 결과 및 종합 회귀 결과에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하고, 선택한 후보 박스의 종합 회귀 결과 중의 오프셋에 기반하여 상기 선택한 후보 박스에 대해 회귀를 실행하여 상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 얻는
것을 특징으로 하는 목표 객체 검출 장치.
제36항에 있어서,
상기 취득 유닛은 상기 종합 분류 결과 및 상기 종합 회귀 결과의 가중치 계수에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하는
것을 특징으로 하는 목표 객체 검출 장치.
제36항에 있어서,
상기 취득 모듈은,
상기 후보 박스의 종합 회귀 결과에 각각 기반하여 종합 분류 결과를 조정하기 위한 조정 유닛을 더 구비하고,
상기 취득 유닛은 조정된 후의 종합 분류 결과에 기반하여 상기 복수의 후보 박스 중에서 하나의 후보 박스를 선택하는
것을 특징으로 하는 목표 객체 검출 장치.
제27항 내지 제38항 중 어느 한 항에 있어서,
상기 목표 객체는 보행자, 차량, 로봇, 동물, 항공기 및 이동 가능한 정지 물체 중의 어느 하나 또는 복수를 포함하는
것을 특징으로 하는 목표 객체 검출 장치.
제27항 내지 제39항 중 어느 한 항에 있어서,
응용 유닛을 더 구비하며, 당해 응용 유닛은,
상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중 상기 목표 객체의 검출 박스에 대해 라벨링을 실행하고/하거나;
상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스의 위치에 기반하여 상기 비디오 시퀀스 중 상기 목표 객체의 운동 궤적을 확정하고/하거나;
상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 목표 객체의 검출 박스의 위치에 기반하여 카메라의 촬영 매개 변수를 조정하고/하거나;
상기 검출 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 검출 프레임 내의 상기 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치하는지 여부를 확정하고; 상기 목표 객체의 검출 박스의 위치가 소정의 구역 범위 내에 위치하는 것에 응답하여 프롬프트 메시지를 출력하고/하거나;
상기 목표 객체가 복수 개일 경우, 상기 검출 프레임 내의 복수의 상기 목표 객체의 검출 박스를 취득한 후, 상기 검출 프레임 내의 복수의 목표 객체와 상기 참고 프레임 내의 복수의 목표 객체의 검출 박스에 대해 매칭을 실행하고, 매칭 결과 및 상기 참고 프레임 내의 각 목표 객체의 식별자에 기반하여 상기 검출 프레임 내의 각 목표 객체의 식별자를 라벨링하고/하거나;
상기 목표 객체가 복수 개일 경우, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 검출 박스의 위치에 기반하여 상기 비디오 시퀀스 중 복수의 상기 목표 객체의 운동 궤적을 확정하고; 상기 비디오 시퀀스 중 복수의 상기 목표 객체의 운동 궤적에 기반하여 복수의 상기 목표 객체를 추적하고/하거나;
상기 목표 객체가 복수 개일 경우, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 복수의 상기 목표 객체의 수량 및/또는 위치의 변화에 기반하여 복수의 상기 목표 객체의 행위를 분석하고/하거나;
상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스를 취득한 후, 상기 비디오 시퀀스 중의 복수의 프레임 내의 상기 목표 객체의 검출 박스의 위치에 기반하여 상기 목표 객체의 운동 상태를 확정하고; 상기 목표 객체의 운동 상태 및 상기 비디오 시퀀스를 촬영한 카메라가 위치한 캐리어의 운동 상태에 기반하여 상기 캐리어에 대해 지능형 주행 제어를 실행하는
것을 특징으로 하는 목표 객체 검출 장치.
제40항에 있어서,
상기 캐리어는 차량, 로봇 또는 항공기를 포함하거나; 또는,
상기 응용 유닛이 상기 캐리어에 대한 지능형 주행 제어를 실행할 경우, 상기 캐리어에 대해 운동 노선 계획을 실행하고/하거나 상기 캐리어의 운동 상태 또는 주행 모드에 대해 제어를 실행하는 데에 사용되는
것을 특징으로 하는 목표 객체 검출 장치.
목표 객체 검출 네트워크의 트레이닝 장치에 있어서,
적어도 하나의 샘플 쌍을 수신하고, 샘플 쌍 중의 검출 프레임 내의 목표 객체의 검출 박스를 출력하기 위한 목표 객체 검출 네트워크 - 각각의 샘플 쌍은 서로 대응하는 하나의 참고 프레임 및 하나의 검출 프레임을 포함하고, 상기 목표 객체 검출 네트워크는 제27항 내지 제41항 중 어느 한 항의 목표 객체 검출 장치를 포함함 -; 및
출력된 상기 검출 프레임 내의 목표 객체의 검출 박스를 예측 검출 박스로 설정하고, 상기 검출 프레임의 라벨링 정보 및 상기 예측 검출 박스에 기반하여 상기 신경망 및 상기 검출기를 트레이닝하기 위한 트레이닝 모듈을 구비하는
것을 특징으로 하는 목표 객체 검출 네트워크의 트레이닝 장치.
제42항에 있어서,
상기 적어도 2개의 서로 다른 검출 프레임 내의 목표 객체의 검출 박스의 위치는 서로 다른
것을 특징으로 하는 목표 객체 검출 네트워크의 트레이닝 장치.
제42항 또는 제43항에 있어서,
상기 적어도 하나의 샘플 쌍 내의 목표 객체의 검출 박스의 위치는 랜덤으로 분포되거나, 또는 소정의 오프셋에 따라 균형적으로 분포되는
것을 특징으로 하는 목표 객체 검출 네트워크의 트레이닝 장치.
전자 디바이스에 있어서,
컴퓨터 프로그램을 기억하기 위한 메모리; 및
상기 메모리 내에 기억되어 있는 컴퓨터 프로그램을 수행하며, 또한 상기 컴퓨터 프로그램이 수행될 때 제1항 내지 제26항 중 어느 한 항의 방법이 구현되는 프로세서를 구비하는
것을 특징으로 하는 전자 디바이스.
컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능 기록 매체에 있어서,
당해 컴퓨터 프로그램이 프로세서에 의해 수행될 때 제1항 내지 제26항 중 어느 한 항의 방법이 구현되는
것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.